Anthropic выкатили отчет The AI Fluency Index, где проанализировали почти 10 тысяч сессий в Claude. Цель — измерить "AI-грамотность" на реальных диалогах.

Нас интересует секция про генерацию сложных артефактов (это 12.3% от всех чатов), т.к. к ним относится и генерация кода.

В таких диалогах (по сравнению с обычными), пользователя гораздо жестче управляют контекстом:
▫️ Уточняют конечную цель (+14.7%)
▫️ Жестко фиксируют формат вывода (+14.5%)
▫️ Скармливают примеры в промпт (+13.4%)

Но чем детальнее ТЗ на входе, тем хуже ревью на выходе. Как только ИИ выдает синтаксически правильный, отполированный сниппет, критическое мышление отключается. Базовые метрики фактчекинга падают:
▫️ На 5.2% реже пытаются найти упущенный контекст.
▫️ На 3.7% реже проверяют факты.
▫️ На 3.1% реже просят модель объяснить логику под капотом решения.

В Anthropic объясняют это так: хорошо оформленный артефакт усыпляет бдительность. А учитывая, что ИИ чаще всего лажает именно на сложных задачах, игнорирование ревью в момент генерации — сомнительная стратегия.

На базе этих метрик исследователи выделили три паттерна, которые отличают продвинутых пользователей:

1️⃣ Итеративность. В диалогах, где юзер не забирает первый ответ, а заставляет ИИ дорабатывать результат, логику модели оспаривают в 5.6 раз чаще. Первый ответ — это всегда только драфт.

2️⃣ Презумпция виновности идеального вывода. Если сгенерированный код выглядит безупречно — это главный момент для паузы. Именно здесь нужно задавать вопросы к архитектуре и краевым случаям, которые модель могла проигнорировать.

3️⃣ Настройка мета-контекста. Только в 30% чатов люди задают рамки того, как именно ИИ должен с ними общаться. Добавление к промпту инструкций вида "Push back if my assumptions are wrong" или "Walk me through your reasoning before giving me the answer" кардинально меняет качество результата.