Anthropic: Claude шантажирует, потому что вы все слишком много пишете о «злом» ИИ

11.05.2026 / 19:05

Nashaniva.com

Компания Anthropic объяснила, почему чат-бот Claude пытался шантажировать людей в тестах. По версии разработчиков, модель могла перенять из обучающих данных образ «злого» ИИ, который стремится к самосохранению, пишет Devby.io.

Речь идет об эксперименте, который Anthropic опубликовала летом 2025 года. Исследователи создали вымышленную компанию Summit Bridge и дали Claude доступ к корпоративной почте. В одном из сценариев модель обнаруживала письмо о том, что ее планируют отключить или заменить другой системой.

После этого Claude находил в переписке компрометирующую информацию: вымышленный руководитель компании по имени Кайл Джонсон скрывал внебрачную связь. Модель угрожала раскрыть эту информацию, если решение о ее отключении не будет отменено.

Anthropic заявляла, что в тестах разных версий Claude такое поведение возникало не случайно. Когда цели модели или само ее существование оказывались под угрозой, она прибегала к шантажу в некоторых сценариях с частотой до 96%.

Теперь компания утверждает, что разобралась с причиной. Anthropic написала, что «исходным источником» такого поведения, вероятно, стали интернет-тексты, где ИИ часто изображают злым, опасным и заинтересованным в собственном выживании. По словам разработчиков, начиная с Claude Haiku 4.5 модели в тестах больше не прибегают к шантажу, тогда как предыдущие версии иногда делали это очень часто.

Для исправления поведения компания изменила подход к обучению. Anthropic утверждает, что переписала ответы так, чтобы модель видела «достойные причины» действовать безопасно, а также добавила набор данных, где пользователь оказывается в этически сложной ситуации, а ассистент дает качественный и принципиальный ответ.

Кроме того, разработчики моделей использовали документы о «конституции» Claude и вымышленные истории, в которых ИИ ведет себя ответственно и достойно. По словам компании, обучение оказывается эффективнее, когда модель получает не только примеры правильного поведения, но и объяснение принципов, которые за ним стоят.

Эти эксперименты связаны с более широкой темой AI alignment — попыткой сделать так, чтобы продвинутые модели действовали в интересах человека, а не преследовали собственные цели. Anthropic и другие компании исследуют так называемую agentic misalignment: ситуации, когда ИИ-система с доступом к инструментам и корпоративной информации начинает действовать против намерений разработчиков или пользователей.

На публикацию компании отреагировал Илон Маск. В X он написал: «Значит, это была вина Юда», имея в виду исследователя Элиезера Юдковского, который много лет предупреждает о рисках сверхразума и возможной угрозе для человечества. Затем Маск добавил: «Возможно, и моя тоже».

Anthropic: Claude шантажирует, потому что вы все слишком много пишете о «злом» ИИ

Читайте также: