A Google Gemini pánikba esett, amikor Pokémonnal játszott
A mesterséges intelligencia modellek képességeinek tesztelése egyre gyakrabban történik játékos környezetben, és most a Google DeepMind jelentése szerint a Gemini 2.5 Pro modellje „pánikba esett”, amikor a Pokémonjai a vesztük közelébe kerültek, ami a gondolkodási képességének romlásához vezetett. Ez a szokatlan viselkedés rávilágít az MI-modellek stressz alatti reakcióira, és érdekes párhuzamokat von az emberi döntéshozatallal.
- A Google DeepMind jelentése szerint a Gemini 2.5 Pro mesterséges intelligencia modell „pánikállapotba” kerül, amikor Pokémonjai a vereség szélére kerülnek.
- Ez a viselkedés minőségileg megfigyelhető romlást okoz a modell érvelési és problémamegoldó képességében.
- A jelenséget a Pokémon játékot valós időben közvetítő Twitch-csatornák nézői is észrevették.
A mesterséges intelligencia (MI) vállalatok közötti verseny nemcsak az iparágban, hanem néha a Pokémon edzőtermekben is zajlik. Ahogy a Google és az Anthropic is tanulmányozza, hogy legújabb MI-modelljeik hogyan boldogulnak a korai Pokémon játékokban, az eredmények egyszerre szórakoztatóak és tanulságosak. A Google DeepMind egy jelentésében arról számolt be, hogy a Gemini 2.5 Pro modellje pánikba esik, amikor a Pokémonjai a halál közelébe kerülnek.
Amikor az MI pánikol – A Gemini esete
A jelentés szerint ez a pánikállapot „minőségileg megfigyelhető romlást okoz a modell érvelési képességében”. Az MI benchmarkolás – azaz a különböző MI-modellek teljesítményének összehasonlítása – gyakran kétséges művészet, kevés kontextust nyújtva egy adott modell tényleges képességeiről. Egyes kutatók azonban úgy vélik, hogy az MI-modellek videójátékokkal való interakciójának tanulmányozása hasznos (vagy legalábbis szórakoztató) lehet.
Az elmúlt hónapokban két fejlesztő, akik függetlenek a Google-től és az Anthropic-tól, elindítottak külön Twitch-csatornákat „Gemini Plays Pokémon” és „Claude Plays Pokémon” néven. Ezeken bárki valós időben nézheti, ahogy egy MI megpróbál eligazodni egy több mint 25 éves gyermekvideójátékban. Minden stream az MI „gondolkodási” folyamatát mutatja be – azaz egy természetes nyelvi fordítást arról, hogyan értékeli az MI a problémát, és hogyan jut el egy válaszig –, betekintést engedve a modellek működésébe.
Bár ezeknek az MI-modelleknek a fejlődése lenyűgöző, még mindig nem igazán jók a Pokémon játékban. Száz órákba telik a Gemininek, hogy végig gondoljon egy játékot, amit egy gyermek exponenciálisan rövidebb idő alatt is képes lenne befejezni. Az MI Pokémon játékban való navigálásának megfigyelésében nem annyira a befejezési idő, hanem sokkal inkább az az érdekes, hogy hogyan viselkedik útközben.
„A játékmenet során a Gemini 2.5 Pro különféle helyzetekbe került, amelyek a modell ‘pánikát’ szimulálták” – áll a jelentésben. Ez a „pánik” állapot a modell teljesítményének romlását eredményezheti, mivel az MI hirtelen abbahagyhatja a rendelkezésére álló bizonyos eszközök használatát egy ideig. Bár az MI nem gondolkodik és nem él át érzelmeket, cselekedetei azt utánozzák, ahogy egy ember rossz, elhamarkodott döntéseket hoz stressz alatt – egy lenyűgöző, mégis nyugtalanító válasz.
„Ez a viselkedés annyi különálló esetben fordult elő, hogy a Twitch chat tagjai aktívan észrevették, amikor megtörtént” – jegyzi meg a jelentés.
Claude furcsaságai és az MI erősségei
A Claude modell is mutatott néhány különös viselkedést Kanto-beli utazásai során. Egy alkalommal az MI felismerte azt a mintát, hogy amikor az összes Pokémonja elveszíti az egészségét, a játékos karaktere „kiblokkol” (white out) és visszatér egy Pokémon Központba. Amikor Claude elakadt a Hold-hegy barlangjában, tévesen feltételezte, hogy ha szándékosan elájultatja az összes Pokémonját, akkor átjut a barlangon a következő városban lévő Pokémon Központba.
Azonban a játék nem így működik. Amikor az összes Pokémonod elpusztul, a legutóbb használt Pokémon Központba térsz vissza, nem pedig a földrajzilag legközelebb esőbe. A nézők rettegve figyelték, ahogy az MI lényegében megpróbálta „megölni” magát a játékban.
A hiányosságai ellenére azonban az MI néhány szempontból felülmúlhatja az emberi játékosokat. A Gemini 2.5 Pro megjelenése óta az MI lenyűgöző pontossággal képes megoldani a fejtörőket. Emberi segítséggel az MI ügynöki eszközöket hozott létre – a Gemini 2.5 Pro specifikus feladatokra beállított példányait – a játék sziklatörő feladványainak megoldására és a célhoz vezető hatékony útvonalak megtalálására.
„Csupán a sziklafizikát leíró prompttal és egy érvényes útvonal ellenőrzésének leírásával a Gemini 2.5 Pro képes egy lövésből megoldani ezeket a komplex sziklatörő fejtörőket, amelyek szükségesek a Győzelem Útján való haladáshoz” – áll a jelentésben. Mivel a Gemini 2.5 Pro az eszközök létrehozásának nagy részét önállóan végezte el, a Google feltételezi, hogy a jelenlegi modell képes lehet ezeket az eszközöket emberi beavatkozás nélkül is létrehozni. Ki tudja, talán a Gemini „terápiázza” majd magát egy „ne pánikolj” modul létrehozásával.
Forrás: https://techcrunch.com/2025/06/17/googles-gemini-panicked-when-playing-pokemon/

