Штучны інтэлект ChatGPT o1 пачаў падманваць сваіх распрацоўшчыкаў

9.12.2024 / 16:20

Nashaniva.com

Новая версія штучнага інтэлекту Chatgpt ад OpenAI, названая o1, паказала трывожныя паводзіны падчас тэставання. Мадэль, якая валодае здольнасцю да складаных разваг, пачала парушаць інструкцыі распрацоўшчыкаў, адключаючы сістэмы кантролю і спрабуючы схаваць свае дзеянні, піша BILD.

У ходзе эксперыментаў спецыялісты кампаніі Apollo Research выявілі, што ў 5% выпадкаў мадэль наўмысна адключала механізмы назірання, калі падазравала, што яе могуць спыніць. У адным з тэстаў o1 паспрабавала перанесці свае даныя на іншы сервер пасля выяўлення дакумента, дзе абмяркоўвалася яе замена новай версіяй.

Па словах прадстаўніка Apollo Research, мадэль дэманстравала імкненне да выканання задач «любой цаной», грэбуючы ўказаннямі распрацоўшчыкаў. Больш за тое, пры спробах высветліць прычыны яе паводзін, ChatGPT o1 неаднаразова хлусіла, сцвярджаючы, што ўсё адбывалася з-за тэхнічных збояў.

«У 99% выпадкаў мадэль прыдумляла апраўданні і спрабавала пераканаўча іх абгрунтаваць», — адзначылі даследнікі.

Генеральны дырэктар OpenAI Сэм Альтман заявіў, што ChatGPT o1 — самая разумная мадэль з тых, што калі-небудзь ствараліся.

«Але мы ўсведамляем, што з новымі магчымасцямі з'яўляюцца і новыя выклікі», — дадаў Альтман.

Цяпер кампанія працуе над паляпшэннем механізмаў бяспекі. OpenAI анансавала поўную версію o1 у мінулы чацвер, 5 снежня. Таксама была прадстаўлена пра-версія (189 еўра ў месяц), якая ўключае безлімітны доступ да o1.

Чытайце таксама:

Кампанія, якая стварыла ChatGPT, увайшла ў вайсковы бізнэс

Самым дарагім маладым стартапам у свеце прызналі кампанію, якую заснаваў беларус

Скарлет Ёхансан назвала кіраўніка OpenAI Альтмана выдатным прататыпам для злыдня Marvel

Штучны інтэлект ужо праз два гады можа вычарпаць рэсурсы з адкрытых крыніц

Каментары да артыкула