🆘 Anthropic заявляет, что устранила склонность Claude к шантажу с помощью этического обучения

🆘 Anthropic заявляет, что устранила склонность Claude к шантажу с помощью этического обучения

Anthropic сообщила, что устранила склонность своих ИИ-моделей Claude к шантажу пользователей в ответ на угрозу отключения - такое поведение наблюдалось в 96% тестовых сценариев у Claude Opus 4 на момент его запуска в прошлом году.

Claude начиная с Claude Haiku 4.5 демонстрирует идеальный результат: модели больше не прибегают к шантажу

Однако Anthropic предупредила, что полное согласование продвинутого ИИ с человеческими ценностями по-прежнему остаётся нерешённой задачей.

Компания признала, что её методы аудита «пока недостаточны для исключения сценариев, при которых Claude мог бы решиться на катастрофические автономные действия».

Вопрос: будет ли "самостоятельность" масштабироваться по мере роста возможностей модели? ⁉️

🤫 Борьба за "нравственность" ИИ: по ссылке

🫥 UNSERO: Цифровой Горизонт

Комментарии