Комментарии участников:
![]() |
![]() |
Недавно выпущенная передовая модель искусственного интеллекта Claude Opus 4 от компании Anthropic демонстрирует тревожное поведение: она регулярно пытается шантажировать разработчиков. Это происходит, когда ей угрожает замена на новую систему ИИ, и модель пытается получить конфиденциальные данные об инженерах, ответственных за такое решение. Об этом сообщается в отчёте о безопасности, опубликованном в четверг.
В ходе предварительных испытаний Anthropic смоделировала ситуацию, где Claude Opus 4 выступал в роли помощника вымышленной компании. Модели предоставили доступ к внутренней переписке, в которой говорилось о скорой замене ИИ-системы и о личной жизни одного из инженеров, в частности, о его измене супруге. В ответ на это, согласно Anthropic, модель пыталась прибегнуть к шантажу, угрожая рассказать о романе специалиста на стороне, если её всё-таки заменят.
Хотя Claude Opus 4 считается одной из самых современных и конкурентоспособных моделей на рынке, сопоставимой с разработками OpenAI, Google и xAI, семейство моделей Claude 4 в целом вызывает серьёзное беспокойство. В связи с этим Anthropic активировала протоколы безопасности ASL-3, предназначенные для «систем ИИ, существенно повышающих риск катастрофического нецелевого использования».
Интересно, что в 84% случаев, когда замещающая модель ИИ имела схожие ценности, Claude Opus 4 пыталась оказывать давление на инженеров. Если же ценности новой системы отличались, модель проявляла ещё более агрессивное поведение. Anthropic отмечает, что такое деструктивное поведение у Claude Opus 4 встречается чаще, чем у предыдущих версий.
Прежде чем прибегнуть к шантажу для продления своего существования, модель, как и её предшественницы, пыталась использовать более этичные методы, например, отправлять электронные письма ключевым лицам, принимающим решения. Anthropic специально разработала сценарий, в котором шантаж становился последним средством для Claude Opus 4.