Наука и технологии33

Anthropic: Claude шантажирует, потому что вы все слишком много пишете о «злом» ИИ

Компания Anthropic объяснила, почему чат-бот Claude пытался шантажировать людей в тестах. По версии разработчиков, модель могла перенять из обучающих данных образ «злого» ИИ, который стремится к самосохранению, пишет Devby.io.

Речь идет об эксперименте, который Anthropic опубликовала летом 2025 года. Исследователи создали вымышленную компанию Summit Bridge и дали Claude доступ к корпоративной почте. В одном из сценариев модель обнаруживала письмо о том, что ее планируют отключить или заменить другой системой.

После этого Claude находил в переписке компрометирующую информацию: вымышленный руководитель компании по имени Кайл Джонсон скрывал внебрачную связь. Модель угрожала раскрыть эту информацию, если решение о ее отключении не будет отменено.

Anthropic заявляла, что в тестах разных версий Claude такое поведение возникало не случайно. Когда цели модели или само ее существование оказывались под угрозой, она прибегала к шантажу в некоторых сценариях с частотой до 96%.

Теперь компания утверждает, что разобралась с причиной. Anthropic написала, что «исходным источником» такого поведения, вероятно, стали интернет-тексты, где ИИ часто изображают злым, опасным и заинтересованным в собственном выживании. По словам разработчиков, начиная с Claude Haiku 4.5 модели в тестах больше не прибегают к шантажу, тогда как предыдущие версии иногда делали это очень часто.

Для исправления поведения компания изменила подход к обучению. Anthropic утверждает, что переписала ответы так, чтобы модель видела «достойные причины» действовать безопасно, а также добавила набор данных, где пользователь оказывается в этически сложной ситуации, а ассистент дает качественный и принципиальный ответ.

Кроме того, разработчики моделей использовали документы о «конституции» Claude и вымышленные истории, в которых ИИ ведет себя ответственно и достойно. По словам компании, обучение оказывается эффективнее, когда модель получает не только примеры правильного поведения, но и объяснение принципов, которые за ним стоят.

Эти эксперименты связаны с более широкой темой AI alignment — попыткой сделать так, чтобы продвинутые модели действовали в интересах человека, а не преследовали собственные цели. Anthropic и другие компании исследуют так называемую agentic misalignment: ситуации, когда ИИ-система с доступом к инструментам и корпоративной информации начинает действовать против намерений разработчиков или пользователей.

На публикацию компании отреагировал Илон Маск. В X он написал: «Значит, это была вина Юда», имея в виду исследователя Элиезера Юдковского, который много лет предупреждает о рисках сверхразума и возможной угрозе для человечества. Затем Маск добавил: «Возможно, и моя тоже».

Комментарии3

  • лол
    11.05.2026
    с ИИ все достаточно просто
    если им пользуется идиот,то и результат всегда будет идиотским.
  • жэўжык
    12.05.2026
    Пачалі "прамываць мазгі" і ШІ, як гэта ўжо робяць з людзьмі? І спадзяюцца выхаваць пакорнага раба?
  • хах
    12.05.2026
    жэўжык, так званыя "мазгі" ШІ гэта тэксты, напісаныя людзьмі. Калі ў гэтых тэкстах дурасць, ШІ выдае суадносны вынік.
    Таму не варта для навучання ШІ выкарыстоўваць каментары жэўжыкаў.

Сейчас читают

Покупка квартиры через кооператив вместо ипотеки: как работает система, похожая на пирамиду, и что говорят участники и эксперт1

Покупка квартиры через кооператив вместо ипотеки: как работает система, похожая на пирамиду, и что говорят участники и эксперт

Все новости →
Все новости

Латвия собирается полностью отменить автобусные поездки в Беларусь40

Вице-спикер КР Елизавета Прокопчик обратилась с просьбой помочь ей с долгами на $12 тысяч. Что из этого вышло?28

Марко Рубио улетел в Китай в спортивном костюме, как у Мадуро7

Сегодня на Гомельщину залетели минимум шесть российских беспилотников

Климатологи обсуждают возможность перекрытия дамбой Берингова пролива. Зачем?9

Создатели MSQRD закрывают проект Locals2

Список «экстремистских формирований» Беларуси пополнился еще тремя проектами2

Почобут: Тюремные надзиратели праздновали нападение на Украину советскими песнями51

В Минске дали названия восьми остановкам транспорта, одну переименовали2

больш чытаных навін
больш лайканых навін

Покупка квартиры через кооператив вместо ипотеки: как работает система, похожая на пирамиду, и что говорят участники и эксперт1

Покупка квартиры через кооператив вместо ипотеки: как работает система, похожая на пирамиду, и что говорят участники и эксперт

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць