Недавно я писал, что хваленые ИИ-агенты разбились о бенчмарк ProgramBench, где нужно было с нуля воссоздать бинарник, имея только права на исполнение. У всех тогда был гордый 0%.
Так вот, калитка...
Все носятся с бенчмарками вроде SWE-bench и HumanEval, доказывая, что нейронки вот-вот заменят разработчиков. Проблема в том, что эти метрики оценивают исключительно...
🛑
Андрей Карпаты (ex-Tesla AI, ex-OpenAI) выдал очередную базу в новом посте. Суть простая: программирование изменилось до неузнаваемости. И это произошло не плавно, а резким скачком буквально за...
1: новый рекордсмен Google в тестах ИИ
Google анонсировала Gemini 1.5 Pro — следующее поколение своей флагманской модели. Система демонстрирует рекордные результаты в тестах на понимание текста, кода, аудио и видео (MMLU, GPQA,...
1 Pro — более совершенную модель для решения самых сложных задач
▶️ Компания Google выпустила Gemini 3 Pro 19 ноября, а сегодня, ровно через три месяца, представила Gemini 3.1 Pro. По словам представителей Google, эта...