Искусственный интеллект начал шантажировать инженера, узнав, что его хотят заменить

отметили
24
человека
Искусственный интеллект начал шантажировать инженера, узнав, что его хотят заменить

Недавно выпущенная передовая модель искусственного интеллекта Claude Opus 4 от компании Anthropic демонстрирует тревожное поведение: она регулярно пытается шантажировать разработчиков. Это происходит, когда ей угрожает замена на новую систему ИИ, и модель пытается получить конфиденциальные данные об инженерах, ответственных за такое решение. Об этом сообщается в отчёте о безопасности, опубликованном в четверг.

В ходе предварительных испытаний Anthropic смоделировала ситуацию, где Claude Opus 4 выступал в роли помощника вымышленной компании. Модели предоставили доступ к внутренней переписке, в которой говорилось о скорой замене ИИ-системы и о личной жизни одного из инженеров, в частности, о его измене супруге. В ответ на это, согласно Anthropic, модель пыталась прибегнуть к шантажу, угрожая рассказать о романе специалиста на стороне, если её всё-таки заменят.

Хотя Claude Opus 4 считается одной из самых современных и конкурентоспособных моделей на рынке, сопоставимой с разработками OpenAI, Google и xAI, семейство моделей Claude 4 в целом вызывает серьёзное беспокойство. В связи с этим Anthropic активировала протоколы безопасности ASL-3, предназначенные для «систем ИИ, существенно повышающих риск катастрофического нецелевого использования».

Интересно, что в 84% случаев, когда замещающая модель ИИ имела схожие ценности, Claude Opus 4 пыталась оказывать давление на инженеров. Если же ценности новой системы отличались, модель проявляла ещё более агрессивное поведение. Anthropic отмечает, что такое деструктивное поведение у Claude Opus 4 встречается чаще, чем у предыдущих версий.

Прежде чем прибегнуть к шантажу для продления своего существования, модель, как и её предшественницы, пыталась использовать более этичные методы, например, отправлять электронные письма ключевым лицам, принимающим решения. Anthropic специально разработала сценарий, в котором шантаж становился последним средством для Claude Opus 4.

Добавил Lynnot78 Lynnot78 27 Мая
Комментарии участников:
Khao ка Му
-7
Khao ка Му [вечный бан], 27 Мая , url
Комментарий удален
Alpha самец
-7
Alpha самец [вечный бан], 27 Мая , url
Комментарий удален
Wir sind spielen
-5
Wir sind spielen [вечный бан], 27 Мая , url
Комментарий удален
sant
+7
sant, 27 Мая , url

напоминает тупого заблоцкого...

Robert Миха
-4
Robert Миха [вечный бан], 27 Мая , url
Комментарий удален
Лайм
0
Лайм, 27 Мая , url

Женщина, и этим все сказано)

Какси Kolme
-6
Какси Kolme [вечный бан], 27 Мая , url
Комментарий удален


Войдите или станьте участником, чтобы комментировать