A Google „hivatalos” aranygyőzelme az IMO-n
A Google DeepMind bejelentette, hogy a Gemini mesterséges intelligencia továbbfejlesztett, Deep Think képességgel rendelkező változata hivatalosan is aranyérmes szintű teljesítményt ért el a 2025-ös Nemzetközi Matematikai Diákolimpián (IMO), mindössze egy évvel azután, hogy ezüstérmet szereztek, és ezzel megerősítve az AI gyors fejlődését a komplex matematikai problémák megoldásában.
- A Gemini 6 feladatból 5-öt sikeresen megoldott, és 35/42 pontot ért el, ami az aranyérmes standardnak felel meg.
- A Google eredményeit az IMO koordinátorai hivatalosan értékelték és tanúsították, ugyanazon kritériumok alapján, mint a diákok megoldásait.
- Tavaly még tartományspecifikus fordításokat használtak, idén már teljesen természetes nyelven, végponttól-végpontig dolgozta fel a feladatokat az AI.
A Google DeepMind örömmel jelentette be, hogy Gemini nevű, továbbfejlesztett mesterséges intelligencia modelljük, amelyet a „Deep Think” képességgel is elláttak, hivatalosan is aranyérmes szintű teljesítményt nyújtott a 2025-ös Nemzetközi Matematikai Diákolimpián (IMO). Ez a mérföldkő az OpenAI hasonló állítása után következett be, azonban a Google eredménye a hivatalos megerősítés miatt kiemelten fontos.
Részletek a győzelemről
A DeepMind szorosan együttműködött az IMO szervezőivel annak érdekében, hogy a Gemini matematikai gondolkodási képességeit valós körülmények között teszteljék. A feladatokat és az időkorlátokat – 4,5 óra – pontosan ugyanúgy alkalmazták, mint az emberi versenyzők esetében.
A hat, algebra, kombinatorika, geometria és számelmélet területét felölelő feladatból az AI ötöt sikeresen megoldott, és 35 pontot szerzett a lehetséges 42-ből. Ez a pontszám felel meg a Nemzetközi Matematikai Diákolimpia aranyérmes standardjának.
Érdemes megjegyezni, hogy tavaly a DeepMind még ezüstérmet szerzett, és akkor még tartományspecifikus fordításokat alkalmaztak a feladatok értelmezéséhez. Idén azonban a modell már teljesen természetes nyelven, végponttól-végpontig dolgozta fel és oldotta meg a problémákat, ami jelentős előrelépést jelent a mesterséges intelligencia nyelvi megértésében és alkalmazásában.
A hivatalos elismerés különbsége
Míg az OpenAI is hasonló pontszámot (35/42) claimed egy meg nem nevezett modellel, ők nem dolgoztak együtt az IMO-val, és megoldásaikat korábbi érmesek értékelték. Ezzel szemben a Google megoldásait az IMO koordinátorai hivatalosan értékelték és tanúsították, pontosan ugyanazokat a belső kritériumokat alkalmazva, mint a diákok megoldásainál. Ez a hivatalos validáció adja a Google győzelmének „hivatalos” jellegét.
Miért fontos ez?
Annak ellenére, hogy a két vezető AI kutatócsoport (Google DeepMind és OpenAI) különböző utakat járt be, mindkét modell teljesítménye azt mutatja, hogy a mesterséges intelligencia rohamosan közelít a fejlett matematikai gondolkodás szintjéhez. Ezzel a sebességgel a következő kihívás már nem az lesz, hogy képesek lesznek-e mind a 6 IMO feladatot megoldani, hanem az, hogy mikor rendelkeznek majd azzal a kreativitással, hogy olyan problémákat oldjanak meg, amelyeket ember még soha nem tudott.
Forrás: Google DeepMind Blog