Az xAI legújabb, negyedik generációs nagyméretű nyelvi modellje, a Grok 4, lenyűgöző teljesítményével berobbant a mesterséges intelligencia világába, maga mögé utasítva a piacvezető riválisokat. A Grok 3 botrányos rajtja után a Grok 4 olyan áttörést hozott, amely a szakértőket is megdöbbentette, és új szintre emeli az MI képességeit a logika, a problémamegoldás és a tudományos kihívások terén.
- A Grok 4 100%-os eredményt ért el az AIME 2025 matematikai teszten, és a többi benchmarkon is kiemelkedően teljesít.
- Az ARC-AGI 2 nehézségi teszten 15,9%-os kezdeti eredménnyel, eszközhasználattal pedig több mint 50%-kal múlta felül a korábbi várakozásokat.
- Az xAI jelentős erőforrásokat fordított a megerősítéses tanulásra (RL), tízszer többet, mint versenytársai együttvéve, ami kifizetődött.
Egy új korszak hajnala: A Grok 4 megérkezett
Az xAI bejelentette következő generációs, kizárólag érvelésre fókuszáló modelljeit, a Grok 4-et és a Grok 4 Heavy-t, amelyek állításuk szerint „doktori szintűek minden tantárgyban”, és úttörő képességeket kínálnak a benchmark tesztek széles skáláján, beleértve az Arc-AGI-t és az Emberiség Utolsó Vizsgáját (Humanity’s Last Exam) is. Ez a kiadás különösen figyelemre méltó, tekintettel a Grok 3 korábbi visszhangjaira, amelyet rasszista és antiszemita megjegyzésekkel vádoltak meg egy frissítés után.
A Grok 4 egyetlen ágensként működő mesterséges intelligencia, hang- és látásmóddal, valamint 128K token kontextusablakkal rendelkezik, míg a 4 Heavy a fejlettebb testvére, amely több ágens segítségével képes összetett feladatok megoldására.
Páratlan teljesítmény a mérföldköveken
A Grok 4 lenyűgöző eredményeket produkált a legnehezebb teszteken is. Különösen kiemelkedő a 100%-os teljesítmény az AIME 2025 matematikai versenyen, ami a szakértők szerint „teljesen őrült” eredmény. Emellett az összes többi benchmark teszten is közel telített a teljesítménye.
A Grok 4 felülmúlta az összes eddigi piacvezető modellt, mint például az o3, o3 pro, Gemini 2.5 Pro és Claude 4 modelleket. Elérte a SOTA (State-of-the-Art) képességeket az Emberiség Utolsó Vizsgáján, az Arc-AGI-2-n és az AIME-n.
Az ARC-AGI-1 és 2 rendkívül nehéz tesztek, amelyeket kifejezetten nagyméretű nyelvi modellek (LLM-ek) számára fejlesztettek ki, és rendkívül nagy kihívást jelentenek. Különösen igaz ez az ARC-AGI 2-re, miután tavaly az o3 telítette az ARC-AGI 1-et. A Grok 4 az első próbálkozásra mintegy 15,9%-ot ért el, ami elképesztő, és ezt az eredményt a teszt fejlesztői is megerősítették.
Greg Kamradt, az ARC-AGI tesztelésével foglalkozó szakember elmondása szerint, amikor az xAI megkereste őket a Grok 4 tesztelésével kapcsolatban, tudták, hogy jó lesz, de arra nem számítottak, hogy a modell lesz az első számú nyilvános modell az ARC-AGI-n. Az eszközhasználattal és a TTC (Thinking Towards Code) képességekkel a Grok-4 még több mint 50%-ot is elér az ARC-AGI teszteken, és úgy tűnik, nincs határa a fejlődésnek.
A háttérben rejlő erő: Adatközpontok és RL
Az xAI a hatalmas adatközpontjainak számítási teljesítményének jelentős részét a megerősítéses tanulásra (RL) fordította. Ez a befektetés meghozta gyümölcsét: az xAI állítólag tízszer több RL-t használt, mint az összes versenytársa együttvéve, és a Grok 2-höz képest 100-szor több képzést alkalmazott. Ez a „Kolosszus” szuperkomputer erejével párosulva olyan teljesítményt eredményezett, amely „doktori szintű mindenben” és „okosabb, mint az összes doktorandusz”.
Jövőbeni tervek: Mi várható még az xAI-tól?
A Grok 4 hatalmas sikere alapján az xAI már a jövőre tekint. Az idei évre a következő fejlesztéseket tervezik:
- Multimodális ágensek
- Egy kódoló modell
- MI alapú videógenerálás
Tekintettel a Grok 4 teljesítményére, nincs kétség afelől, hogy a jövőbeli modellek is kiemelkedőek lesznek. Gratulálunk Elon Musknak és csapatának!
Hozzáférés és árképzés
A Grok 4 a SuperGrok előfizetéssel érhető el havi 30 dollárért, míg a Grok 4 Heavy az új SuperGrok Heavy csomag része, amelynek ára havi 300 dollár. Az új modell API-n keresztül is elérhető 256K token kontextusablakkal és beépített keresővel, bemeneti tokenenként 3 dollárért millió tokenenként, kimeneti tokenenként pedig 15 dollárért millió tokenenként.
Jelentőség és a tágabb kép
Összefoglalva: a Grok-4 minden elvárást felülmúlt. Óriási szolgálat a tudománynak. Elon Musk nem hazudott, a Grok 4 a legjobb MI modell a piacon. Bár viszonylag új szereplő, Musk xAI-ja máris kihívást jelent az MI nehézsúlyú játékosai számára. A legújabb kiadás megmutatja Kolosszus szuperkomputerének erejét, és tovább tolja a skálázás határait. Hihetetlen sebességgel haladunk az általános mesterséges intelligencia (ASI) felé, és úgy tűnik, nincs megállás. Ahogy mondják: „Nincs fal!”
A Grok 3 körüli vita miatt azonban az új modell valószínűleg fokozott ellenőrzés alá kerül a világ szakértői részéről.
Forrás: x.com/xai