«Apošni ekzamien čałaviectva». Dla niejrasietak stvaryli maksimalna składany akademičny test — i voś jaki vynik
Prafiesary, navukoŭcy, a taksama vybitnyja vypuskniki i studenty z amal 500 prestyžnych adukacyjnych ustanovaŭ pa ŭsim śviecie vyrašyli dać apošni akademičny boj sistemam štučnaha intelektu, stvaryŭšy dla ich samy składany z usich mahčymych testaŭ ekśpiertnaha ŭzroŭniu na razvažańnie i vałodańnie techničnymi viedami. Niejrasietki (u tym liku ChatGPT i našumieły kitajski DeepSeek) vyklik pryniali i ŭžo pakazali pieršyja vyniki.

Mižnarodnaja kamanda z 1000 ekśpiertaŭ u roznych akademičnych dyscyplinach z amal 500 prestyžnych adukacyjnych ustanoŭ (siarod jakich Oksfard, Harvard, Kembrydž, Stenfard, šviejcarski ETH, francuzskaja Inria i inšyja) raspracavali hłabalny test pa techničnych i pieradavych navukovych viedach i łahičnym myśleńni dla vymiareńnia ŭzroŭniu daskanałaści sistem štučnaha intelektu.
Test atrymaŭ nazvu HLE (Humanity's Last Exam), ci «Apošni ekzamien čałaviectva». Ekśpierty nazvali jaho samym składanym akademičnym vyprabavańniem u historyi, jaki možna stvaryć dla teściravańnia mahčymaściaŭ niejrasietak u dakładnych navukach, nie zakranajučy aśpiekt tvorčych zdolnaściaŭ.
Ekzamien HLE składajecca z troch tysiač składanych pytańniaŭ pa sta roznych dyscyplinach (naprykład, kłasičnaja fiłałohija, chimija, vyšejšaja matematyka, infarmatyka, ekałohija, linhvistyka). Farmataŭ zadańniaŭ dva: pytańni z dakładnym supadzieńniem (ŠI-madeli sami pišuć tekst u jakaści adkazu) i pytańni z vybaram adkazu (ŠI vybiraje adzin ź piaci abo bolš varyjantaŭ adkazu). Asablivy akcent u teście taksama robicca na razumieńni schiem i vyjavaŭ.

U teście ŭžo pryniali ŭdzieł niekalki topavych niejrasietak, takija jak ChatGPT (staryja i najnoŭšyja viersii), Claude (papularny ŭ biznesmienaŭ i prahramistaŭ), Gemini (ad karparacyi Google), Grok (ŠI ad Iłana Maska) i DeepSeek (kitajskaja niejrasietka, jakaja abvaliła ŭvieś technałahičny siektar ZŠA).
Usie jany z treskam pravalili ekzamien (u plus-minus 90% pytańniaŭ madeli davali niapravilny adkaz, dy i jašče nastojvali na tym, što mieli racyju), adznačyli aŭtary testa HLE.
Jość i pakazalny momant — najhoršy i adnačasova najlepšy vynik prademanstravaŭ ChatGPT (jaho staraja zvyčajnaja viersija Omni pakazała 3,3% dakładnaści adkazaŭ, siaredniaja o1 pakazała vynik 9,1, a najnoŭšaja o3-mini-high — 13). A našumieły kitajski DeepSeek, jakoha dniami nazvali «zabojcaj ChatGPT», pakazaŭ 9,4% dakładnaści adkazaŭ.

Taksama pakazalna, što isnujučyja składanyja hłabalnyja testy na navukovyja viedy, takija jak GPQA, MATH i MMLU, davalisia vyšejpieraličanym niejrasietkam našmat lahčej, i tyja mieli ŭ ich ad 40 da amal 100 adsotkaŭ pravilnych adkazaŭ.
Adnak ciapier sa stvareńniem testa HLE čałaviectva kinuła štučnamu intelektu vielmi surjozny vyklik, ale jon, jak sumna kanstatujuć ekśpierty, moža stać apošnim. Pa prahnozach aŭtaraŭ HLE, niejrasietki mohuć dasiahnuć u ekzamienie 50% dakładnaści adkazaŭ užo ŭ kancy hetaha hoda.

Kamientary
Trudno skazať, čto oni tam vidiat.
Nikto isčierpyvajuŝie nie priedstavlajet chod rassuždienij II.
Upravlenije i cienzura v osnovnom zaklučajetsia v zaprieŝienii tiech ili inych diejstvij, otvietov, rieakcij.
Niecienzurirovannyj II vpołnie možiet dať otviet "ubiť vsiech bolnych" na vopros "kak sdiełať vsiech zdorovymi"
I raźvie otviet niepravilnyj?