Карпаты запустил автономного ИИ-исследователя, который тюнит нейронки, пока вы спите 🤯

Карпаты запустил автономного ИИ-исследователя, который тюнит нейронки, пока вы спите 🤯

Андрей Карпаты выкатил autoresearch — репозиторий, который буквально превращает процесс ML-исследований в while True цикл для LLM-агентов.

Механика проста и строится вокруг трех файлов:
1️⃣ prepare.py — железобетонный фундамент. Скачивает данные, обучает BPE-токенизатор и задает функцию оценки (метрика val_bpb — bits per byte). Этот файл агенту трогать запрещено. Это изоляция метрики от испытуемого, чтобы ИИ не "хакнул" сам тест.
2️⃣ train.py — песочница. Обучение GPT-подобной модели с модным кастомным оптимизатором (здесь стоит Muon + AdamW). Этот файл агент кромсает как хочет: меняет слои, гиперпараметры, размер батча, логику.
3️⃣ program.md — инструкция-промпт, задающая правила игры для агента (например, локального Claude).

⚙️ Как выглядит луп:
Вы скармливаете ИИ задачу и идете спать. Агент читает код, придумывает гипотезу (например, "изменю-ка я learning rate и поправлю value embeddings"), переписывает train.py и запускает трейн.

Уагента есть жесткий лимит — ровно 300 секунд на прогон. Агент придумывает гипотезу ➡️ переписывает train.py ➡️ запускает скрипт.
Если через 5 минут val_bpb упал — изменение фиксируется (git commit). Если вылетел OOM или метрика деграднула — git reset и следующая гипотеза.

Один эксперимент — 5 минут. Это 12 экспериментов в час. Около 100 за то время, пока вы спите. Утром вы просто открываете results.tsv (в репо есть скрипт для отрисовки графиков) и забираете готовую оптимизированную под ваше железо архитектуру.

Вам больше не нужно дебажить размерности тензоров руками. Ваша ценность как инженера теперь измеряется не знанием параметров PyTorch, а тем, насколько хорошо вы умеете писать program.md 😏

#годный_пенсорс

Комментарии