Navuka i technałohii1717

«Apošni ekzamien čałaviectva». Dla niejrasietak stvaryli maksimalna składany akademičny test — i voś jaki vynik

Prafiesary, navukoŭcy, a taksama vybitnyja vypuskniki i studenty z amal 500 prestyžnych adukacyjnych ustanovaŭ pa ŭsim śviecie vyrašyli dać apošni akademičny boj sistemam štučnaha intelektu, stvaryŭšy dla ich samy składany z usich mahčymych testaŭ ekśpiertnaha ŭzroŭniu na razvažańnie i vałodańnie techničnymi viedami. Niejrasietki (u tym liku ChatGPT i našumieły kitajski DeepSeek) vyklik pryniali i ŭžo pakazali pieršyja vyniki.

Ilustracyjnaja vyjava. Fota: Vecteezy 

Mižnarodnaja kamanda z 1000 ekśpiertaŭ u roznych akademičnych dyscyplinach z amal 500 prestyžnych adukacyjnych ustanoŭ (siarod jakich Oksfard, Harvard, Kembrydž, Stenfard, šviejcarski ETH, francuzskaja Inria i inšyja) raspracavali hłabalny test pa techničnych i pieradavych navukovych viedach i łahičnym myśleńni dla vymiareńnia ŭzroŭniu daskanałaści sistem štučnaha intelektu.

Test atrymaŭ nazvu HLE (Humanity's Last Exam), ci «Apošni ekzamien čałaviectva». Ekśpierty nazvali jaho samym składanym akademičnym vyprabavańniem u historyi, jaki možna stvaryć dla teściravańnia mahčymaściaŭ niejrasietak u dakładnych navukach, nie zakranajučy aśpiekt tvorčych zdolnaściaŭ. 

Ekzamien HLE składajecca z troch tysiač składanych pytańniaŭ pa sta roznych dyscyplinach (naprykład, kłasičnaja fiłałohija, chimija, vyšejšaja matematyka, infarmatyka, ekałohija, linhvistyka). Farmataŭ zadańniaŭ dva: pytańni z dakładnym supadzieńniem (ŠI-madeli sami pišuć tekst u jakaści adkazu) i pytańni z vybaram adkazu (ŠI vybiraje adzin ź piaci abo bolš varyjantaŭ adkazu). Asablivy akcent u teście taksama robicca na razumieńni schiem i vyjavaŭ.

Prykłady pytańniaŭ pa roznych akademičnych dyscyplinach u ramkach ekzamiena HLE (na anhlijskaj movie). Pad pytańniami paznačany ich aŭtary i adukacyjnyja ŭstanovy, u jakich tyja pracujuć ci navučajucca. Krynica: agi.safe.ai

U teście ŭžo pryniali ŭdzieł niekalki topavych niejrasietak, takija jak ChatGPT (staryja i najnoŭšyja viersii), Claude (papularny ŭ biznesmienaŭ i prahramistaŭ), Gemini (ad karparacyi Google), Grok (ŠI ad Iłana Maska) i DeepSeek (kitajskaja niejrasietka, jakaja abvaliła ŭvieś technałahičny siektar ZŠA). 

Usie jany z treskam pravalili ekzamien (u plus-minus 90% pytańniaŭ madeli davali niapravilny adkaz, dy i jašče nastojvali na tym, što mieli racyju), adznačyli aŭtary testa HLE.

Jość i pakazalny momant — najhoršy i adnačasova najlepšy vynik prademanstravaŭ ChatGPT (jaho staraja zvyčajnaja viersija Omni pakazała 3,3% dakładnaści adkazaŭ, siaredniaja o1 pakazała vynik 9,1, a najnoŭšaja o3-mini-high — 13). A našumieły kitajski DeepSeek, jakoha dniami nazvali «zabojcaj ChatGPT», pakazaŭ 9,4% dakładnaści adkazaŭ.

Vyniki prachodžańnia «Apošniaha ekzamiena čałaviectva» (HLE) u šerahu topavych niejrasietak. Usie jany z treskam pravalili test (uzrovień pravilnaści adkazaŭ składaŭ ad 3 da 13 adsotkaŭ), a najlepšy vynik pakazała novaja viersija ChatGPT pad nazvaj o3-mini (high), jakaja vyjšła dniami. Krynica: agi.safe.ai

Taksama pakazalna, što isnujučyja składanyja hłabalnyja testy na navukovyja viedy, takija jak GPQA, MATH i MMLU, davalisia vyšejpieraličanym niejrasietkam našmat lahčej, i tyja mieli ŭ ich ad 40 da amal 100 adsotkaŭ pravilnych adkazaŭ.

Adnak ciapier sa stvareńniem testa HLE čałaviectva kinuła štučnamu intelektu vielmi surjozny vyklik, ale jon, jak sumna kanstatujuć ekśpierty, moža stać apošnim. Pa prahnozach aŭtaraŭ HLE, niejrasietki mohuć dasiahnuć u ekzamienie 50% dakładnaści adkazaŭ užo ŭ kancy hetaha hoda.

Paraŭnalnyja vyniki dakładnaści adkazaŭ niekalkich topavych niejrasietak u isnujučych hłabalnych vuzka-śpiecyjalizavanych testach GPQA, MATH i MMLU. Z «Apošnim ekzamienam čałaviectva» (HLE) u sistem štučnaha intelektu pakul usio drenna. Krynica: agi.safe.ai

Kamientary17

  • Žvir
    03.02.2025
    A možiet oni i pravy, oni žie mašiny, vidiat suť biez iskažienij. Vot poprositie ši narisovať źviozdnoje niebo, uvierien, čto ono budiet inym. Ludi v osnovnom mnoho vidiat toho, čieho niet.
  • nie taki, jak jość
    03.02.2025
    Ličbavyja vyniki vyprabavańnia HLE pakazvajuć, što kitajski ‘'zabojca GPT” byŭ śpisany ź siaredniaj o1 čata GPT
  • Chiech
    03.02.2025
    Žvir ,
    Trudno skazať, čto oni tam vidiat.
    Nikto isčierpyvajuŝie nie priedstavlajet chod rassuždienij II.

    Upravlenije i cienzura v osnovnom zaklučajetsia v zaprieŝienii tiech ili inych diejstvij, otvietov, rieakcij.

    Niecienzurirovannyj II vpołnie možiet dať otviet "ubiť vsiech bolnych" na vopros "kak sdiełať vsiech zdorovymi"
    I raźvie otviet niepravilnyj?

Ciapier čytajuć

Usie kamiery na darohach pačali łavić aŭto nie tolki za chutkaść12

Usie kamiery na darohach pačali łavić aŭto nie tolki za chutkaść

Usie naviny →
Usie naviny

Zialenski raskazaŭ pra płan pa zakančeńni vajny i čyrvonyja linii dla Ukrainy8

U Minsku źjavicca dziciačy sadok u styli dziciačaha kanstruktara1

Z 15 sakavika padaražeje paliva, i heta pačatak vialikaj karekciroŭki cenaŭ2

Jakija prablemy hramadstva moh by vyrašyć Turčyn, kali b jon byŭ libierałam u centry sistemy? I ci moh by?7

U Biełarusi VNU niezakonna źbirała danyja studentaŭ — umiašalisia dziaržorhany. Vy takija danyja, imavierna, taksama davali1

U Viciebsku kot-hieroj abaraniŭ svaju haspadyniu ad jadavitaj źmiai8

Dałaj-łama raspavioŭ u svajoj knizie, što jahony pierajemnik pavinien naradzicca za miežami Kitaja1

Hihin raskazaŭ, što źmienicca praktyka pakarańnia za raspaŭsiud «ekstremisckich» materyjałaŭ13

U Tadevuša Kandrusieviča značna pahoršaŭ stan zdaroŭja4

bolš čytanych navin
bolš łajkanych navin

Usie kamiery na darohach pačali łavić aŭto nie tolki za chutkaść12

Usie kamiery na darohach pačali łavić aŭto nie tolki za chutkaść

Hałoŭnaje
Usie naviny →

Zaŭvaha:

 

 

 

 

Zakryć Paviedamić