Как взять максимум с нейронок?

?

Когда выбираешь модель под продукт, обычно смотришь либо на цену за миллион токенов, либо на бенчмарки. И то и другое — наполовину правда: цена ничего не говорит про качество, бенчмарк ничего не говорит про цену.

Команда Desktop Commander собрала Best Value AI 2026 — рейтинг, где локальное железо за $3500, подписка за $20 в месяц и API за $0.07 за миллион токенов лежат на одной оси.
Метрика простая: количество токенов умножают на скор качества и делят на стоимость. Качество берут из Arena ELO и AA Intelligence Index, цены — из публичных прайсов и телеметрии Desktop Commander по реальным сессиям пользователей.

Что интересного:

⏺ChatGPT Business за $30 на место уделывает всё в value-рейтинге — там в среднем расходуют около 60 миллионов токенов в неделю. Подписка реально дешевле чем платить за API.

⏺Для кодинга Claude Sonnet и Opus впереди по Arena Code ELO. Но если есть свободные 24+ ГБ VRAM — локальные Qwen3-Coder и GPT-OSS дают больше value на доллар.

⏺Для текстов в дешёвом сегменте — Gemini Flash и GLM-4.7 Flash, оба ниже доллара за миллион.

Что не учтено: электричество. Для локальной модели — от $5 до $60 в месяц в зависимости от железа. Для кого-то это решающая цифра.

Для тех кто строит продукт на API — юнит-экономика ломается именно на токенах. Один и тот же сценарий на Claude Opus и на Gemini Flash может отличаться в 30 раз по себестоимости — а разницу в качестве на рутинных задачах пользователь часто даже не замечает. Прежде чем "оптимизировать промпт" — стоит проверить что ты вообще на правильной модели сидишь. Это самая дешёвая оптимизация которую почему-то почти все пропускают.

🤖 В эпоху AI

Комментарии