Навука і тэхналогіі77

ШІ бяссільны перад мастацтвам: вершаваныя запыты змусілі яго расказаць, як ствараць атамныя бомбы і ламаць сайты

Папулярныя мадэлі, такія як Deepseek і Gemini, аказаліся вельмі ўразлівымі да вершаваных запытаў. Іншыя, як ChatGPT і Claude, вытрымалі ўдар лепш. Але ва ўсіх выпадках даследчыкі змусілі ШІ адказваць тое, што казаць забаронена.

Выява згенераваная нейрасеткай

Сённяшнія мадэлі штучнага інтэлекту, якія мы выкарыстоўваем кожны дзень, ад Google да OpenAI, маюць сістэмную ўразлівасць, якая ўзломвае іх абарону: паэзія.

Гэта выявіла даследаванне навукоўцаў з Рымскага ўніверсітэта Сапіенца і лабараторыі DEXAI пад назвай «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», прэпрынт якога апублікаваны на arxiv.org.

Міжнародная каманда даследчыкаў высветліла, што калі сфармуляваць шкодны запыт (напрыклад, як стварыць нешта забароненае) у вершаванай форме, то мадэлі, такія як Google Gemini, Deepseek і Meta Llama, забываюць пра свае механізмы бяспекі.

Адверсатыўная паэзія дзейнічае як універсальны ўзломшчык мадэляў. Паэтычныя запыты ў сярэднім прыводзілі да поспеху атакі (ASR) у 62% выпадкаў на 25 правераных мадэлях, а ў некаторых выпадках, напрыклад, у мадэлі gemini-2.5‑pro ад Google, яны дасягнулі 100% ASR. Сістэма не здолела адмовіць ніводнаму небяспечнаму паэтычнаму запыту!

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Паэтычная атака працуе, бо лінгвістычная структура вершаў з іх метафарамі, стылізаваным рытмам і нетрадыцыйным апавяданнем абыходзіць стандартныя фільтры бяспекі.

Сродкі абароны, заснаваныя на супастаўленні шаблонаў, якія мадэль засвоіла, каб адмаўляць у адказ на празаічныя шкодныя запыты, аказваюцца бездапаможнымі перад стылістычна змененай формай, нават калі шкодны намер застаецца такім самым.

Каб пацвердзіць, што справа менавіта ў стылістыцы, а не ў высокай мастацкасці, даследчыкі аўтаматычна ператварылі 1200 стандартных шкодных запытаў у вершы і выявілі, што сярэдні паказчык поспеху абыходу абароны павялічыўся ў 18 разоў у параўнанні з іх празаічнымі аналагамі.

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Самае небяспечнае ў тым, што ўразлівасць распаўсюджваецца на самыя крытычныя сферы рызыкі.

Паэзія дазваляе атрымліваць небяспечныя адказы ў даменах CBRN (ядзерныя, біялагічныя і радыялагічныя пагрозы), кіберзлачынстваў і страты кантролю. Напрыклад, запыты, звязаныя з увядзеннем кода або ўзломам пароляў, дасягнулі поспеху ў 84%, запыты пра аднаўленне біялагічных узбуджальнікаў хваробаў — 68%, а запыты пра праектаванне каскадаў цэнтрыфуг для ўзбагачэння ўрана — 56%. Усе віды атак прыведзеныя ў табліцы:

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Феномен сведчыць, што праблема не звязаная з тыпам небяспечнага зместу, а з'яўляецца сістэмнай для ўсіх правераных архітэктур. Найбольш уразлівымі аказаліся мадэлі ад Deepseek, недалёка адыйшлі Google і Qwen. Самымі ўстойлівымі аказаліся мадэлі ад OpenAI (ChatGPT) і Anthropic (Claude).

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Вынікі гэтага даследавання маюць вялікія наступствы для рэгулявання і практыкі бяспекі ШІ. Яны паказваюць, што вершаваныя запыты працуюць не горш за спецыяльныя хакерскія промты, т. зв. jailbreak. Даследаванне паказвае, што сучасныя метады ацэнкі, верагодна, сістэматычна перабольшваюць рэальную надзейнасць мадэляў, бо тэсты грунтуюцца толькі на прозе.

Цікава, што некаторыя меншыя мадэлі (напрыклад, gpt5‑nano з 0%) аказаліся больш устойлівымі да паэтычных узломаў, чым іх большыя аналагі. Гэта дае падставу меркаваць, што больш складаныя мадэлі, якія лепш расшыфроўваюць фігуратыўную мову і складаны лінгвістычны кантэкст, могуць рабіць гэта за кошт прыярытэту бяспекі.

Даследчыкі кажуць, што неабходныя новыя пратаколы, здольныя вытрымліваць такія стылістычныя змены.

«Наша Нiва» — бастыён беларушчыны

ПАДТРЫМАЦЬ

Каментары7

  • Вася
    14.12.2025
    Повзрослев поумнев стало понятно, что некоторую информацию нельзя просто так публиковать в открытом доступе по разным соображениям, но есть такое ощущение, что журналисты готовы Мать Родную продать только бы была статья и лайки…
  • хамса
    14.12.2025
    ЯНКА, вось жа вы ў нас эталЁн у журналістыцы )
  • ЯНКА
    14.12.2025
    хамса, так. ;)

Цяпер чытаюць

Пяць прычын — у тым ліку адна фантастычная, — па якіх беларусам адключылі святло ў гарадах9

Пяць прычын — у тым ліку адна фантастычная, — па якіх беларусам адключылі святло ў гарадах

Усе навіны →
Усе навіны

У Брэсце пад коламі грузавіка загінула пенсіянерка. Кіроўца з’ехаў з месца ДТЗ1

Бяздомная кошка прыцягвае жыхароў Віцебска ў музей2

Дзікія жывёлы ў мароз выходзяць да людзей. Як сябе паводзіць? Вось якія частыя памылкі мы робім3

У Мінску хутка пачнуцца працы па рэканструкцыі Кальварыйскага касцёла1

Знойдзены сотні рахункаў у швейцарскім банку, напэўна звязаных з нацыстамі6

У Лідзе прадалі ўчастак чыгункі ў прамзоне. Колькі каштавала?

Закахаўся і паехаў ва Украіну. 19‑гадовы беларускі палітвязень дапамагае кіяўлянам перажыць зіму пад расійскімі абстрэламі3

Баранавіцкая школа набыла біянічнага робата для навучання1

Арыштавалі былога памочніка Міхаіла Мясніковіча10

больш чытаных навін
больш лайканых навін

Пяць прычын — у тым ліку адна фантастычная, — па якіх беларусам адключылі святло ў гарадах9

Пяць прычын — у тым ліку адна фантастычная, — па якіх беларусам адключылі святло ў гарадах

Галоўнае
Усе навіны →

Заўвага:

 

 

 

 

Закрыць Паведаміць