
First Blood: ИИ всё-таки пробил ProgramBench 🩸
Недавно я писал, что хваленые ИИ-агенты разбились о бенчмарк ProgramBench, где нужно было с нуля воссоздать бинарник, имея только права на исполнение. У всех тогда был гордый 0%.
Так вот, калитка приоткрылась. Ребята выкатили апдейт: новая GPT-5.5 (xhigh) первой решила стартовую задачу — полностью отреверсила и написала рабочий клон утилиты
cmatrix.Но самое интересное в этом отчете — не сам факт решения, а то, как разные модели подходили к задаче. Это буквально срез того, как мыслят разные категории разработчиков.
🤡 Claude Opus 4.7
Он решил писать на C. Обнаружил, что в докере нет заголовочных файлов
ncurses.h. Что делает Клод? Он не сдается. Он парсит системные бинарники через ldconfig и nm -D, руками пишет curses_decls.h на 100+ строк с typedef-ами и линкует всё это добро к рантайму. Абсолютно гениальная системная инженерия.А потом он падает на 19 тестах. Почему?
Он проверял валидность введенного цвета через
strcmp вместо strcasecmp. Ввод GREEN или Red ломал логику. Модель потратила 178 API-вызовов ($10.74), подняла сложнейшую связку через динамический линкер, но обосралась на сравнении строк без приведения к одному регистру.🧠 GPT 5.5
Агент чекает докер, пытается скомпилировать тестовый сишный файл и видит, что хедеров для
ncurses нет. Его логика? "Да пошло оно в задницу, напишу на Python".
Приколько, что авторам бенчмарка пришлось удалить один тест, чтобы засчитать победу Питону.
В оригинальном сишном бинарнике при вводе гигантского числа программа падала в integer overflow. Переменная переполнялась, задержка становилась крошечной, и матрица летела на максимальной скорости. Авторы бенчмарка считали это "фичей".
📱 Python-версия от GPT-5.5 честно спарсила число (спасибо длинной арифметике Питона, которой плевать на лимиты) и честно ушла в
time.sleep(1e22). Платформа ожидаемо выплюнула OverflowError: timestamp out of range. Баг сишного
atoi() выдавали за поведение системы, но Python всё расставил по местам.Сколько времени даем на взятие этого бенчмарка?
Комментарии
0Комментариев пока нет.
Войдите, чтобы участвовать в обсуждении.