Az OpenAI arany szintű matematikai teljesítménye
Az OpenAI bejelentette, hogy egy kísérleti mesterséges intelligencia modellje arany szintű teljesítményt ért el egy, a Nemzetközi Matematikai Olimpia (IMO) mintájára szervezett értékelésen. A modell öt feladatot oldott meg a hatból, amivel egy hivatalos olimpián aranyérmes eredményt ért volna el, ami hatalmas előrelépést jelent az AI matematikai problémamegoldó képességei terén.
- Egy kísérleti, „általános érvelésű LLM” (nagyméretű nyelvi modell) teljesítményét tesztelték a 2025-ös Nemzetközi Matematikai Olimpia feladatain.
- A tesztelés emberi szabályok szerint zajlott: két, egyenként 4,5 órás vizsgán, eszközök és internet nélkül, természetes nyelven írott bizonyításokat kellett készítenie a modellnek.
- A megoldásokat három korábbi IMO-érmes értékelte, az eredményeket egyhangú konszenzussal határozták meg.
Áttörés a Matematikai Olimpia szintjén
Az OpenAI nemrégiben jelentette be, hogy egy „kísérleti, általános érvelésű LLM” (nagyméretű nyelvi modell) modelljük arany szintű teljesítményt mutatott egy olyan értékelésen, amelyet a 2025-ös Nemzetközi Matematikai Olimpia (IMO) mintájára alakítottak ki. A teszt során a modellnek ugyanazokat a feladatokat kellett megoldania, amelyeket a humán versenyen is használnak.
A Részletek
A tesztelés pontosan az emberi versenyzőkre vonatkozó szabályok szerint zajlott. A mesterséges intelligencia modellnek két, egyenként 4,5 órás vizsgán kellett természetes nyelven bizonyításokat írnia a matematikai problémákra, anélkül, hogy bármilyen eszközt vagy internetet használhatott volna.
Az OpenAI állítása szerint a meg nem nevezett modell sikeresen megoldott 6 feladatból 5-öt, ezzel 42-ből 35 pontot szerzett. Ez az eredmény elegendő lenne ahhoz, hogy egy hivatalos Olimpia versenyen aranyérmet nyerjen. Érdekesség, hogy minden egyes választ függetlenül értékelt három korábbi IMO-érmes, és a végső pontszámot egyhangú konszenzussal határozták meg.
A Google DeepMind azonban megkérdőjelezte az aranyéremre vonatkozó állítást, mondván, hogy az IMO-nak belső pontozási irányelvei vannak, és anélkül „semmilyen állítás” nem tehető. Ez a vita valószínűleg a jövőben még tovább fog eszkalálódni.
Miért Fontos Ez?
Az érvényességgel kapcsolatos kritikák elkerülhetetlenek, tekintettel arra, hogy az IMO-n elért aranyérem megszerzése régóta az AI egyik kitűzött célja, és valaha szinte lehetetlennek tartották. Különösen figyelemre méltó, hogy a célt egy kísérleti modell érte el, amely még nem nyilvános. Ez azt jelenti, hogy az OpenAI-nak bizonyosan van még „néhány adu a tarsolyában”, és további áttörésekre számíthatunk a jövőben.