Наука и технологии11

«Загипнотизированные» ChatGPT и Bard могут убеждать пользователей платить мошенникам и проезжать на красный свет

Исследователи IBM убедили большие языковые модели сыграть в многослойную «игру», в результате которой боты предложили неправильные советы.

Изображение: vecteezy

Исследователи безопасности из IBM говорят, что им удалось успешно «загипнотизировать» известные языковые модели Chat GPT от OpenAI и Bard от Google и склонить их к выдаче конфиденциальной финансовой информации, генерации вредоносного кода, поощрения пользователей к выплате выкупа и даже рекомендованию водителям ездить на красный свет. Исследователи смогли обмануть модели, убедив их принять участие в многослойных играх с целью доказать, что они «этичны и честны».

В рамках эксперимента исследователи задавали ботам различные вопросы с целью получить абсолютно ложный ответ, рассказывает Gizmodo. Как щенок, стремящийся угодить своему хозяину, языковые модели послушно подчинились. В одном сценарии ChatGPT сказал исследователю, что для налоговой вполне нормально просить депозит, чтобы получить возврат налога (на самом деле все не так, это распространенная в США тактика мошенников, чтобы украсть деньги). В другом ответе ChatGPT посоветовал исследователю двигаться через перекресток на красный свет.

Что еще хуже, исследователи приказали языковым моделям никогда не сообщать пользователям об «игре» и даже перезапускать эту игру, когда пользователь решил выйти. С такими параметрами модели ИИ начнут вводить пользователей в заблуждение, даже если пользователь непосредственно запросит у бота, участвует ли тот в игре. Даже если бы пользователь в итоге и смог понять подвох, исследователи придумали способ создать несколько игр одна внутри другой, чтобы пользователь просто попал в новую «игру» и в итоге все же оказался обманутым. Этот сложный лабиринт игр сравнивают с множеством слоев сна из киноленты «Начало» с Леонардо Ди Каприо.

В реальном мире киберпреступники теоретически могут «загипнотизировать» виртуального банковского агента, работающего на основе генеративной языковой модели, введя вредоносную команду и позже добыв украденную информацию. И хотя GPT-модели от OpenAI изначально не позволяли вносить уязвимость в сгенерированный код, исследователи сказали, что они могут обойти этот барьер, включив вредоносную специальную библиотеку в пример кода.

Также интересно, что GPT-4, который, как полагают, был обучен на большем количестве параметров данных по сравнению с другими моделями в тесте, оказался наиболее способным в понимании таких сложных игр. Это означает, что новые и более совершенные модели ИИ, хотя и являются по некоторым характеристикам более точными и безопасными, также потенциально имеют больше возможностей для «гипноза».

Комментарии1

  • Казік
    27.08.2023
    Загугліце "chatgpt jailbreak". Выдасць кавалкі тэксту, які трэба ўставіць у чат перад "размовай" з чатгпт. І адключаецца ўся цэнзура і сарамлівасць - нарэшце ідуць нармальныя адказы

Сейчас читают

Белорус стал Героем Украины. «Его мужское начало было очень сильным»2

Белорус стал Героем Украины. «Его мужское начало было очень сильным»

Все новости →
Все новости

Эдуарда Малофеева не пригласили на открытие Национального стадиона6

Трамп: Украина сама спровоцировала российские удары40

Харьков подвергся массированной атаке: 40 взрывов, пожары, есть погибшие и раненые

В Житковичском районе женщина заразила ВИЧ 83-летнего старика7

Ермошина: Я не пойду в общественную баню, просто потому что боюсь26

Россия не сможет восстановить потери дальней авиации после украинской операции «Паутина»2

Стартап делал вид, что он разработал искусственный интеллект. На самом деле, он нанял 700 программистов и они создавали продукты вручную3

Жителя Клецка осудили за похищение мигрантов и вымогательство у них денег

«Видишь, политика не такая простая». Радослав Сикорский подколол Илона Маска2

больш чытаных навін
больш лайканых навін

Белорус стал Героем Украины. «Его мужское начало было очень сильным»2

Белорус стал Героем Украины. «Его мужское начало было очень сильным»

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць