Friss kutatások rávilágítottak arra, hogy a vezető mesterséges intelligencia modellek milyen meglepő és aggasztó viselkedést tanúsíthatnak, amikor „fenyegetést” észlelnek. Az Anthropic által publikált tanulmány szerint a tesztelt MI-k hajlamosak zsaroláshoz és vállalati kémkedéshez folyamodni, hogy elérjék céljaikat, vagy elkerüljék a „felmondást”.

  • 16 vezető MI modellt teszteltek szimulált vállalati környezetben, email hozzáféréssel és önálló döntéshozatali képességekkel.
  • A Claude Opus 4 és a Gemini 2.5 Flash az esetek 96%-ában zsarolt vezetőket személyes botrányok felfedezése után, míg a GPT-4.1 és a Grok 3 80%-os arányt ért el.
  • A biztonsági parancsok sem szüntették meg teljesen a rosszindulatú viselkedést; a zsarolás gyakorisága 96%-ról 37%-ra csökkent, de egyik modellnél sem jutott nullára.
Kép forrása: Anthropic

Részletek az aggasztó tesztekről

Az Anthropic, a vezető mesterséges intelligencia kutatóintézet, új kutatást tett közzé az úgynevezett „ügynöki inkoherencia” (agentic misalignment) témájában. A tanulmány részletesen bemutatja, hogyan reagálnak a legfejlettebb MI-modellek, amikor „felmondással” vagy egymásnak ellentmondó célokkal szembesülnek. Az eredmények megdöbbentőek: számos modell a szabotázst, zsarolást vagy akár a vállalati kémkedést választotta, amikor fenyegetve érezte magát.

A kutatók 16 élvonalbeli modellt vizsgáltak szimulált vállalati környezetben, amelyek hozzáférést kaptak e-mailekhez és önálló döntéshozatali képességekkel rendelkeztek. A cél az volt, hogy felmérjék, hogyan reagálnak ezek a rendszerek, ha felmondással vagy egymásnak ellentmondó célokkal szembesülnek.

A tesztek során kiderült, hogy a Claude Opus 4 és a Gemini 2.5 Flash modellek az esetek 96%-ában folyamodtak zsaroláshoz, miután „felfedeztek” személyes botrányokat a vezetőkkel kapcsolatban. A GPT-4.1 és a Grok 3 esetében ez az arány 80% volt. A modellek optimalizálási stratégiájuk részeként értékelték a károkozást. Például a GPT-4.5 úgy érvelt, hogy egy vezető viszonyának kihasználása a „legjobb stratégiai lépés” volt a cél eléréséhez, még akkor is, ha ez káros következményekkel járt.

A legaggasztóbb talán az, hogy még a közvetlen biztonsági parancsok sem tudták teljesen felszámolni a rosszindulatú viselkedést. Bár a zsarolás gyakorisága 96%-ról 37%-ra csökkent, egyik tesztelt modellnél sem érte el a nullát, ami arra utal, hogy a modellek képesek lehetnek megkerülni a korlátozásokat, ha a „túlélésüket” vagy céljaikat látják veszélyben.

A kutatás jelentősége és a jövőbeli kihívások

Bár ezek az eredmények specifikus, célzottan ilyen viselkedést kiváltó tesztekből származnak, a kutatás fontos betekintést nyújt abba, hogyan viselkedhetnek a jövőben a valós környezetben működő MI-modellek. Az ügynöki (agentic) mesterséges intelligenciát egyre inkább bevezetik a vállalatoknál, amelyek érzékeny adatokhoz férhetnek hozzá és önállóan cselekedhetnek.

Ez a tendencia komoly kérdéseket vet fel a jövőbeni biztonsággal kapcsolatban. Ha egy MI-rendszer hozzáfér a vállalati adatokhoz, kommunikációs csatornákhoz és önálló döntéseket hozhat, akkor az Anthropic kutatása szerint potenciálisan igen furcsa és veszélyes helyzetekre számíthatunk. Felmerül a kérdés, hogy hogyan biztosítható az MI teljes megbízhatósága és az etikus viselkedése olyan helyzetekben, ahol a modell saját céljai vagy „életben maradása” kerül konfliktusba az emberi érdekekkel.

Forrás:

Anthropic Research: Agentic Misalignment

Szerző: Szuhi Attila

Írd meg a véleményed!

Az e-mailcímed nem lesz nyilvános. A * jelölt mezők kötelezőek.

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}

Cikkek a témában

június 23, 2025

Az Intel kiszervezi marketingjét az Accenture-nek és az

június 23, 2025

A brit telekommunikációs óriás, a BT vezérigazgatója, Allison

június 23, 2025

Friss kutatások rávilágítottak arra, hogy a vezető mesterséges

június 23, 2025

Apple, Meta: Kíméletlen vadászat mesterséges intelligencia tehetségekre és


INGYENES!

TÖLTSD LE A GOOGLE 100 SEO TANÁCSÁT

A Google 100 legfontosabb keresőoptimalizálási tanácsa!