Посты по тегу «Бенчмарк»

15 май

First Blood: ИИ всё-таки пробил ProgramBench 🩸

Недавно я писал, что хваленые ИИ-агенты разбились о бенчмарк ProgramBench, где нужно было с нуля воссоздать бинарник, имея только права на исполнение. У всех тогда был гордый 0%.

Так вот, калитка...

PythonTalk | Всё о Python

16 март

Как ИИ-агенты генерируют технический долг в промышленных масштабах 😬

Все носятся с бенчмарками вроде SWE-bench и HumanEval, доказывая, что нейронки вот-вот заменят разработчиков. Проблема в том, что эти метрики оценивают исключительно...

PythonTalk | Всё о Python

27 февр

Эпоха ручного написания кода подошла к концу?

🛑

Андрей Карпаты (ex-Tesla AI, ex-OpenAI) выдал очередную базу в новом посте. Суть простая: программирование изменилось до неузнаваемости. И это произошло не плавно, а резким скачком буквально за...

AI Pulse · ChatGPT 5 | DeepSeek | Claude | Grok

20 февр

🤖 Gemini Pro 3

1: новый рекордсмен Google в тестах ИИ

Google анонсировала Gemini 1.5 Pro — следующее поколение своей флагманской модели. Система демонстрирует рекордные результаты в тестах на понимание текста, кода, аудио и видео (MMLU, GPQA,...

Лучшие обзоры техники

20 февр

Google представляет Gemini 3

1 Pro — более совершенную модель для решения самых сложных задач

▶️ Компания Google выпустила Gemini 3 Pro 19 ноября, а сегодня, ровно через три месяца, представила Gemini 3.1 Pro. По словам представителей Google, эта...