Нас интересует секция про генерацию сложных артефактов (это 12.3% от всех чатов), т.к. к ним относится и генерация кода.
В таких диалогах (по сравнению с обычными), пользователя гораздо жестче управляют контекстом:
▫️ Уточняют конечную цель (+14.7%)
▫️ Жестко фиксируют формат вывода (+14.5%)
▫️ Скармливают примеры в промпт (+13.4%)
Но чем детальнее ТЗ на входе, тем хуже ревью на выходе. Как только ИИ выдает синтаксически правильный, отполированный сниппет, критическое мышление отключается. Базовые метрики фактчекинга падают:
▫️ На 5.2% реже пытаются найти упущенный контекст.
▫️ На 3.7% реже проверяют факты.
▫️ На 3.1% реже просят модель объяснить логику под капотом решения.
В Anthropic объясняют это так: хорошо оформленный артефакт усыпляет бдительность. А учитывая, что ИИ чаще всего лажает именно на сложных задачах, игнорирование ревью в момент генерации — сомнительная стратегия.
На базе этих метрик исследователи выделили три паттерна, которые отличают продвинутых пользователей:
1️⃣ Итеративность. В диалогах, где юзер не забирает первый ответ, а заставляет ИИ дорабатывать результат, логику модели оспаривают в 5.6 раз чаще. Первый ответ — это всегда только драфт.
2️⃣ Презумпция виновности идеального вывода. Если сгенерированный код выглядит безупречно — это главный момент для паузы. Именно здесь нужно задавать вопросы к архитектуре и краевым случаям, которые модель могла проигнорировать.
3️⃣ Настройка мета-контекста. Только в 30% чатов люди задают рамки того, как именно ИИ должен с ними общаться. Добавление к промпту инструкций вида "Push back if my assumptions are wrong" или "Walk me through your reasoning before giving me the answer" кардинально меняет качество результата.
Комментарии
0Комментариев пока нет.
Войдите, чтобы участвовать в обсуждении.