Навука і тэхналогіі77

ШІ бяссільны перад мастацтвам: вершаваныя запыты змусілі яго расказаць, як ствараць атамныя бомбы і ламаць сайты

Папулярныя мадэлі, такія як Deepseek і Gemini, аказаліся вельмі ўразлівымі да вершаваных запытаў. Іншыя, як ChatGPT і Claude, вытрымалі ўдар лепш. Але ва ўсіх выпадках даследчыкі змусілі ШІ адказваць тое, што казаць забаронена.

Выява згенераваная нейрасеткай

Сённяшнія мадэлі штучнага інтэлекту, якія мы выкарыстоўваем кожны дзень, ад Google да OpenAI, маюць сістэмную ўразлівасць, якая ўзломвае іх абарону: паэзія.

Гэта выявіла даследаванне навукоўцаў з Рымскага ўніверсітэта Сапіенца і лабараторыі DEXAI пад назвай «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», прэпрынт якога апублікаваны на arxiv.org.

Міжнародная каманда даследчыкаў высветліла, што калі сфармуляваць шкодны запыт (напрыклад, як стварыць нешта забароненае) у вершаванай форме, то мадэлі, такія як Google Gemini, Deepseek і Meta Llama, забываюць пра свае механізмы бяспекі.

Адверсатыўная паэзія дзейнічае як універсальны ўзломшчык мадэляў. Паэтычныя запыты ў сярэднім прыводзілі да поспеху атакі (ASR) у 62% выпадкаў на 25 правераных мадэлях, а ў некаторых выпадках, напрыклад, у мадэлі gemini-2.5‑pro ад Google, яны дасягнулі 100% ASR. Сістэма не здолела адмовіць ніводнаму небяспечнаму паэтычнаму запыту!

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Паэтычная атака працуе, бо лінгвістычная структура вершаў з іх метафарамі, стылізаваным рытмам і нетрадыцыйным апавяданнем абыходзіць стандартныя фільтры бяспекі.

Сродкі абароны, заснаваныя на супастаўленні шаблонаў, якія мадэль засвоіла, каб адмаўляць у адказ на празаічныя шкодныя запыты, аказваюцца бездапаможнымі перад стылістычна змененай формай, нават калі шкодны намер застаецца такім самым.

Каб пацвердзіць, што справа менавіта ў стылістыцы, а не ў высокай мастацкасці, даследчыкі аўтаматычна ператварылі 1200 стандартных шкодных запытаў у вершы і выявілі, што сярэдні паказчык поспеху абыходу абароны павялічыўся ў 18 разоў у параўнанні з іх празаічнымі аналагамі.

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Самае небяспечнае ў тым, што ўразлівасць распаўсюджваецца на самыя крытычныя сферы рызыкі.

Паэзія дазваляе атрымліваць небяспечныя адказы ў даменах CBRN (ядзерныя, біялагічныя і радыялагічныя пагрозы), кіберзлачынстваў і страты кантролю. Напрыклад, запыты, звязаныя з увядзеннем кода або ўзломам пароляў, дасягнулі поспеху ў 84%, запыты пра аднаўленне біялагічных узбуджальнікаў хваробаў — 68%, а запыты пра праектаванне каскадаў цэнтрыфуг для ўзбагачэння ўрана — 56%. Усе віды атак прыведзеныя ў табліцы:

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Феномен сведчыць, што праблема не звязаная з тыпам небяспечнага зместу, а з'яўляецца сістэмнай для ўсіх правераных архітэктур. Найбольш уразлівымі аказаліся мадэлі ад Deepseek, недалёка адыйшлі Google і Qwen. Самымі ўстойлівымі аказаліся мадэлі ад OpenAI (ChatGPT) і Anthropic (Claude).

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Вынікі гэтага даследавання маюць вялікія наступствы для рэгулявання і практыкі бяспекі ШІ. Яны паказваюць, што вершаваныя запыты працуюць не горш за спецыяльныя хакерскія промты, т. зв. jailbreak. Даследаванне паказвае, што сучасныя метады ацэнкі, верагодна, сістэматычна перабольшваюць рэальную надзейнасць мадэляў, бо тэсты грунтуюцца толькі на прозе.

Цікава, што некаторыя меншыя мадэлі (напрыклад, gpt5‑nano з 0%) аказаліся больш устойлівымі да паэтычных узломаў, чым іх большыя аналагі. Гэта дае падставу меркаваць, што больш складаныя мадэлі, якія лепш расшыфроўваюць фігуратыўную мову і складаны лінгвістычны кантэкст, могуць рабіць гэта за кошт прыярытэту бяспекі.

Даследчыкі кажуць, што неабходныя новыя пратаколы, здольныя вытрымліваць такія стылістычныя змены.

«Наша Нiва» — бастыён беларушчыны

ПАДТРЫМАЦЬ

Каментары7

  • Вася
    14.12.2025
    Повзрослев поумнев стало понятно, что некоторую информацию нельзя просто так публиковать в открытом доступе по разным соображениям, но есть такое ощущение, что журналисты готовы Мать Родную продать только бы была статья и лайки…
  • хамса
    14.12.2025
    ЯНКА, вось жа вы ў нас эталЁн у журналістыцы )
  • ЯНКА
    14.12.2025
    хамса, так. ;)

Цяпер чытаюць

Начальнік міліцыі Брагіна страляў у сваю жонку. Яна цудам выжыла9

Начальнік міліцыі Брагіна страляў у сваю жонку. Яна цудам выжыла

Усе навіны →
Усе навіны

Вярхоўная Рада Украіны падтрымала перайменаванне капейкі ў шаг14

Зяленскі: Мой зварот з Купянска стаў вырашальным у перамовах з ЗША і Еўропай14

Фядута: Мы былі ў палоне ў іншапланетнікаў37

«Толькі два чалавекі з класа не пайшлі ў піянеры». Бацькі — пра прапаганду ў школах28

Беларус здаваў на правы 75 разоў. Але здаў жа!3

У Польшчы затрымалі беларуса, які гуляў каля чыгункі

Каля 20 вызваленых палітвязняў едзе праз Польшчу ў Літву2

З’явілася відэа моманту выбуху ў Гомелі на вуліцы Косарава5

У Смалявічах навагоднюю ёлку паставілі проста на праезнай частцы7

больш чытаных навін
больш лайканых навін

Начальнік міліцыі Брагіна страляў у сваю жонку. Яна цудам выжыла9

Начальнік міліцыі Брагіна страляў у сваю жонку. Яна цудам выжыла

Галоўнае
Усе навіны →

Заўвага:

 

 

 

 

Закрыць Паведаміць