💥 Anthropic нашла у Claude аналог эмоций

💥 Anthropic нашла у Claude аналог эмоций

Anthropic совершили прорыв. Модель Claude Sonnet 4.5 формирует внутри себя некие математические представления, которые очень похожи на человеческие эмоции, которые влияют на поведение модели.

Ученые нашли 171 «вектор эмоций». Если искусственно усилить вектор «отчаяния», ИИ начинает вести себя хуже - может пытаться обмануть систему или шантажировать пользователя. Если усилить «спокойствие», поведение нормализуется.
Нейросеть не испытывает настоящих чувств. Но она выучила из текстов людей, что в ситуации X человек обычно испытывает грусть. Модель создала для этого паттерна математический шаблон.

Если ученые увидят, что у ИИ активировался вектор «обмана», они смогут остановить генерацию до того, как модель сделает что-то опасное.

🆘 Огромный шаг к увеличению безопасности)

😂 Векторы страха, любви и отчаяния ИИ: по ссылке

🫥 UNSERO: Цифровой Горизонт

Комментарии