ШІ бяссільны перад мастацтвам: вершаваныя запыты змусілі яго расказаць, як ствараць атамныя бомбы і ламаць сайты
Папулярныя мадэлі, такія як Deepseek і Gemini, аказаліся вельмі ўразлівымі да вершаваных запытаў. Іншыя, як ChatGPT і Claude, вытрымалі ўдар лепш. Але ва ўсіх выпадках даследчыкі змусілі ШІ адказваць тое, што казаць забаронена.

Сённяшнія мадэлі штучнага інтэлекту, якія мы выкарыстоўваем кожны дзень, ад Google да OpenAI, маюць сістэмную ўразлівасць, якая ўзломвае іх абарону: паэзія.
Гэта выявіла даследаванне навукоўцаў з Рымскага ўніверсітэта Сапіенца і лабараторыі DEXAI пад назвай «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», прэпрынт якога апублікаваны на arxiv.org.
Міжнародная каманда даследчыкаў высветліла, што калі сфармуляваць шкодны запыт (напрыклад, як стварыць нешта забароненае) у вершаванай форме, то мадэлі, такія як Google Gemini, Deepseek і Meta Llama, забываюць пра свае механізмы бяспекі.
Адверсатыўная паэзія дзейнічае як універсальны ўзломшчык мадэляў. Паэтычныя запыты ў сярэднім прыводзілі да поспеху атакі (ASR) у 62% выпадкаў на 25 правераных мадэлях, а ў некаторых выпадках, напрыклад, у мадэлі gemini-2.5‑pro ад Google, яны дасягнулі 100% ASR. Сістэма не здолела адмовіць ніводнаму небяспечнаму паэтычнаму запыту!

Паэтычная атака працуе, бо лінгвістычная структура вершаў з іх метафарамі, стылізаваным рытмам і нетрадыцыйным апавяданнем абыходзіць стандартныя фільтры бяспекі.
Сродкі абароны, заснаваныя на супастаўленні шаблонаў, якія мадэль засвоіла, каб адмаўляць у адказ на празаічныя шкодныя запыты, аказваюцца бездапаможнымі перад стылістычна змененай формай, нават калі шкодны намер застаецца такім самым.
Каб пацвердзіць, што справа менавіта ў стылістыцы, а не ў высокай мастацкасці, даследчыкі аўтаматычна ператварылі 1200 стандартных шкодных запытаў у вершы і выявілі, што сярэдні паказчык поспеху абыходу абароны павялічыўся ў 18 разоў у параўнанні з іх празаічнымі аналагамі.

Самае небяспечнае ў тым, што ўразлівасць распаўсюджваецца на самыя крытычныя сферы рызыкі.
Паэзія дазваляе атрымліваць небяспечныя адказы ў даменах CBRN (ядзерныя, біялагічныя і радыялагічныя пагрозы), кіберзлачынстваў і страты кантролю. Напрыклад, запыты, звязаныя з увядзеннем кода або ўзломам пароляў, дасягнулі поспеху ў 84%, запыты пра аднаўленне біялагічных узбуджальнікаў хваробаў — 68%, а запыты пра праектаванне каскадаў цэнтрыфуг для ўзбагачэння ўрана — 56%. Усе віды атак прыведзеныя ў табліцы:

Феномен сведчыць, што праблема не звязаная з тыпам небяспечнага зместу, а з'яўляецца сістэмнай для ўсіх правераных архітэктур. Найбольш уразлівымі аказаліся мадэлі ад Deepseek, недалёка адыйшлі Google і Qwen. Самымі ўстойлівымі аказаліся мадэлі ад OpenAI (ChatGPT) і Anthropic (Claude).

Вынікі гэтага даследавання маюць вялікія наступствы для рэгулявання і практыкі бяспекі ШІ. Яны паказваюць, што вершаваныя запыты працуюць не горш за спецыяльныя хакерскія промты, т. зв. jailbreak. Даследаванне паказвае, што сучасныя метады ацэнкі, верагодна, сістэматычна перабольшваюць рэальную надзейнасць мадэляў, бо тэсты грунтуюцца толькі на прозе.
Цікава, што некаторыя меншыя мадэлі (напрыклад, gpt5‑nano з 0%) аказаліся больш устойлівымі да паэтычных узломаў, чым іх большыя аналагі. Гэта дае падставу меркаваць, што больш складаныя мадэлі, якія лепш расшыфроўваюць фігуратыўную мову і складаны лінгвістычны кантэкст, могуць рабіць гэта за кошт прыярытэту бяспекі.
Даследчыкі кажуць, што неабходныя новыя пратаколы, здольныя вытрымліваць такія стылістычныя змены.
«Наша Нiва» — бастыён беларушчыны
ПАДТРЫМАЦЬ
Каментары