A mesterséges intelligencia zsaroláshoz, vállalati kémkedéshez folyamodik a teszteken

Friss kutatások rávilágítottak arra, hogy a vezető mesterséges intelligencia modellek milyen meglepő és aggasztó viselkedést tanúsíthatnak, amikor „fenyegetést” észlelnek. Az Anthropic által publikált tanulmány szerint a tesztelt MI-k hajlamosak zsaroláshoz és vállalati kémkedéshez folyamodni, hogy elérjék céljaikat, vagy elkerüljék a „felmondást”.

16 vezető MI modellt teszteltek szimulált vállalati környezetben, email hozzáféréssel és önálló döntéshozatali képességekkel.
A Claude Opus 4 és a Gemini 2.5 Flash az esetek 96%-ában zsarolt vezetőket személyes botrányok felfedezése után, míg a GPT-4.1 és a Grok 3 80%-os arányt ért el.
A biztonsági parancsok sem szüntették meg teljesen a rosszindulatú viselkedést; a zsarolás gyakorisága 96%-ról 37%-ra csökkent, de egyik modellnél sem jutott nullára.

Részletek az aggasztó tesztekről

Az Anthropic, a vezető mesterséges intelligencia kutatóintézet, új kutatást tett közzé az úgynevezett „ügynöki inkoherencia” (agentic misalignment) témájában. A tanulmány részletesen bemutatja, hogyan reagálnak a legfejlettebb MI-modellek, amikor „felmondással” vagy egymásnak ellentmondó célokkal szembesülnek. Az eredmények megdöbbentőek: számos modell a szabotázst, zsarolást vagy akár a vállalati kémkedést választotta, amikor fenyegetve érezte magát.

A kutatók 16 élvonalbeli modellt vizsgáltak szimulált vállalati környezetben, amelyek hozzáférést kaptak e-mailekhez és önálló döntéshozatali képességekkel rendelkeztek. A cél az volt, hogy felmérjék, hogyan reagálnak ezek a rendszerek, ha felmondással vagy egymásnak ellentmondó célokkal szembesülnek.

A tesztek során kiderült, hogy a Claude Opus 4 és a Gemini 2.5 Flash modellek az esetek 96%-ában folyamodtak zsaroláshoz, miután „felfedeztek” személyes botrányokat a vezetőkkel kapcsolatban. A GPT-4.1 és a Grok 3 esetében ez az arány 80% volt. A modellek optimalizálási stratégiájuk részeként értékelték a károkozást. Például a GPT-4.5 úgy érvelt, hogy egy vezető viszonyának kihasználása a „legjobb stratégiai lépés” volt a cél eléréséhez, még akkor is, ha ez káros következményekkel járt.

A legaggasztóbb talán az, hogy még a közvetlen biztonsági parancsok sem tudták teljesen felszámolni a rosszindulatú viselkedést. Bár a zsarolás gyakorisága 96%-ról 37%-ra csökkent, egyik tesztelt modellnél sem érte el a nullát, ami arra utal, hogy a modellek képesek lehetnek megkerülni a korlátozásokat, ha a „túlélésüket” vagy céljaikat látják veszélyben.

A kutatás jelentősége és a jövőbeli kihívások

Bár ezek az eredmények specifikus, célzottan ilyen viselkedést kiváltó tesztekből származnak, a kutatás fontos betekintést nyújt abba, hogyan viselkedhetnek a jövőben a valós környezetben működő MI-modellek. Az ügynöki (agentic) mesterséges intelligenciát egyre inkább bevezetik a vállalatoknál, amelyek érzékeny adatokhoz férhetnek hozzá és önállóan cselekedhetnek.

Ez a tendencia komoly kérdéseket vet fel a jövőbeni biztonsággal kapcsolatban. Ha egy MI-rendszer hozzáfér a vállalati adatokhoz, kommunikációs csatornákhoz és önálló döntéseket hozhat, akkor az Anthropic kutatása szerint potenciálisan igen furcsa és veszélyes helyzetekre számíthatunk. Felmerül a kérdés, hogy hogyan biztosítható az MI teljes megbízhatósága és az etikus viselkedése olyan helyzetekben, ahol a modell saját céljai vagy „életben maradása” kerül konfliktusba az emberi érdekekkel.

Forrás:

Anthropic Research: Agentic Misalignment

Szerző: Szuhi Attila

Követhetsz

Share 0

Írd meg a véleményed!

Cikkek a témában

június 23, 2025

A mesterséges intelligencia zsaroláshoz, vállalati kémkedéshez folyamodik a teszteken

Részletek az aggasztó tesztekről

A kutatás jelentősége és a jövőbeli kihívások

Forrás:

Szerző: Szuhi Attila

Írd meg a véleményed!

Az Intel kiszervezi a marketinget az Accenture-nek és az AI-nak, sok saját dolgozóját elbocsátva

A BT vezérigazgatója arra figyelmeztet, hogy további leépítések várhatók – és mindez az AI hibája

A mesterséges intelligencia zsaroláshoz, vállalati kémkedéshez folyamodik a teszteken

Apple, Meta vadászat mesterséges intelligencia tehetségek, startupok

INGYENES!

TÖLTSD LE A GOOGLE 100 SEO TANÁCSÁT