Az AI-botok feltörik a könyvtárakat, archívumokat és múzeumokat

A mesterséges intelligencia (MI) képzésére használt adatok gyűjtését végző botok egyre nagyobb fenyegetést jelentenek a világ könyvtáraira, archívumaira és múzeumaira, sok esetben túlterhelve szervereiket, és elérhetetlenné téve értékes online gyűjteményeiket az emberi felhasználók számára. Egy friss felmérés szerint a probléma széles körben elterjedt, és a kulturális örökség megőrzésén dolgozó intézmények közössége kollektív fenyegetés alatt érzi magát, miközben próbálja megtalálni a megoldást erre a példátlan kihívásra.

  • Egy friss, 43 intézményt vizsgáló felmérés szerint a válaszadók többsége, 39 intézmény tapasztalt forgalomnövekedést, melyet 27 esetben egyértelműen MI-botok okoztak.
  • A botok viselkedése a DDoS (elosztott szolgáltatásmegtagadási) támadásokhoz hasonló, gyorsan túlterhelik a szervereket, offline állapotba kényszerítve azokat.
  • A probléma kezelését nehezíti, hogy az MI-botok gyakran figyelmen kívül hagyják a `robots.txt` protokollt, és sok intézmény nem rendelkezik elegendő erőforrással a védekezésre vagy a CAPTCHA-k bevezetésére.

Az internetet képzési adatok után kutató MI-botok egyre intenzívebben támadják a könyvtárak, archívumok, múzeumok és galériák szervereit, egyes esetekben teljesen elérhetetlenné téve gyűjteményeiket. Bár az MI-botok nyílt gyűjteményekre gyakorolt hatásáról korábban is érkeztek anekdotikus beszámolók, egy ma közzétett új felmérés az első kísérlet a probléma mértékének felmérésére. A legrosszabb esetekben az értékes, nyilvános források hozzáférhetetlenné válnak az emberek számára, mivel a szervereket, amelyeken tárolják őket, ellepik az MI-képzési adatokat gyűjtő botok.

„Magabiztosan állíthatom, hogy ez a probléma széles körben elterjedt, és sokan, sok intézmény aggódik miatta, és azon gondolkodik, mit jelent ez az erőforrások fenntarthatósága szempontjából” – mondta Michael Weinberg, a jelentés szerzője. „Sokan fektettek be rengeteg időt nemcsak abba, hogy ezeket az erőforrásokat online elérhetővé tegyék, hanem abba is, hogy közösséget építsenek az ezt végző intézmények köré. Ez egy olyan pillanat, amikor ez a közösség kollektív fenyegetés alatt érzi magát, és nem biztos abban, hogyan lehetne megoldani a problémát.”

A jelentés részletei és a felmérés

A „Are AI Bots Knocking Cultural Heritage Offline?” (Az MI-botok offline állapotba kényszerítik a kulturális örökséget?) című jelentést Weinberg, a GLAM-E Lab munkatársa írta. A GLAM-E Lab a University of Exeter Jogi és Kultúratudományi Központjának és az NYU Jogi Egyetem Engelberg Innovációs Jogi és Politikai Központjának közös kezdeményezése, amely kisebb kulturális intézményekkel és közösségi szervezetekkel dolgozik együtt a nyílt hozzáférésű kapacitás és szakértelem kiépítésén. A GLAM mozaikszó a galériákra, könyvtárakra, archívumokra és múzeumokra utal.

A jelentés 43, Európában, Észak-Amerikában és Óceániában található, nyílt online erőforrásokkal és gyűjteményekkel rendelkező intézmény felmérésén alapul. A válaszadók adatokat és elemzéseket is megosztottak, néhányan pedig egyéni interjúkban is részt vettek. Az adatokat anonimizálták, hogy az intézmények szabadabban oszthassanak meg információkat, és megakadályozzák, hogy az MI-bot operátorok aláássák az ellenintézkedéseiket.

Széles körű probléma, pusztító hatás

A 43 válaszadóból 39 számolt be a forgalom közelmúltbeli növekedéséről. Ebből a 39-ből 27 az MI-képzési adatokat gyűjtő botoknak tulajdonította a forgalomnövekedést, további hét pedig úgy vélte, hogy az MI-botok hozzájárulhatnak a növekedéshez.

„Több válaszadó is a rajzó botok viselkedését a hagyományos online viselkedésekhez, például a rosszindulatú DDoS (elosztott szolgáltatásmegtagadási) támadásokhoz hasonlította, amelyek célja a szerverekre irányuló fenntarthatatlan forgalom előidézése, hatékonyan offline állapotba kényszerítve azokat” – áll a jelentésben. „Egy DDoS incidenshez hasonlóan a rajok gyorsan túlterhelik a gyűjteményeket, offline állapotba kényszerítik a szervereket, és arra kényszerítik az adminisztrátorokat, hogy gyorsan ellenintézkedéseket vezessenek be. Ahogy az egyik válaszadó megjegyezte: „Ha meg akartak volna ölni minket, meghaltunk volna.”

Egy válaszadó becslése szerint gyűjteményük naponta egy DDoS-szerű incidenst tapasztalt, amely körülbelül három percig tartott. Ez rendkívül zavaró volt, de nem végzetes a gyűjtemény számára.

A botok hatása a gyűjteményekre egyenetlen lehet. Néha a botforgalom teljes gyűjteményeket offline állapotba kényszerít. Máskor a gyűjtemény kisebb részeit érinti. Például az egyik válaszadó online gyűjteménye tartalmazott egy félig privát archívumot, amely naponta csak néhány látogatót fogadott. Ezt az archívumot felfedezték a botok, és azonnal túlterhelte a forgalom, annak ellenére, hogy a rendszer más részei képesek voltak hasonló mennyiségű forgalom kezelésére.

A védekezés kihívásai

Harminckét válaszadó nyilatkozott úgy, hogy aktív intézkedéseket tesz a botok megelőzésére. Hét jelezte, hogy jelenleg nem tesz intézkedéseket, négy pedig bizonytalan volt, vagy éppen felülvizsgálta a lehetséges opciókat.

A jelentés világosan kimondja, hogy nem tud átfogó képet adni az MI-gyűjtő botok problémájáról, de a probléma egyértelműen széles körben elterjedt, bár nem univerzális. A jelentés megjegyzi, hogy a probléma mérésének egyik alapvető problémája az, hogy a szervezetek addig nincsenek tudatában annak, hogy botok gyűjtik a gyűjteményeiket, amíg annyi forgalommal nem árasztják el őket, hogy az rontja a webhelyük teljesítményét.

„A gyakorlatban ez azt jelentette, hogy sok válaszadó egyik reggel váratlan e-mailek áradatára ébredt a felhasználóktól, miszerint a gyűjtemény hirtelen, teljesen offline állapotba került, vagy riasztásokat kapott, hogy a szervereik túlterheltek” – áll a jelentésben. „Sok válaszadó, különösen azok, akik korábban kezdték tapasztalni a botforgalmat, számára ez a rendszerhiba volt az első jelzés arra, hogy valami megváltozott az online környezetben.”

Még a múlt héten a University of North Carolina at Chapel Hill (UNC) is közzétett egy blogbejegyzést, amely leírja, hogyan kezelte ezt a pontos forgatókönyvet, amelyet MI-botgyűjtőknek tulajdonított. 2024. december 2-án az Egyetemi Könyvtárak online katalógusa „annyi forgalmat kapott, hogy időnként kizárta a diákokat, oktatókat és a személyzetet, beleértve a felhasználói élményért felelős vezetőt is” – derül ki az iskola tájékoztatásából. „Hét emberből és még többekből álló csapatnak majdnem egy teljes hétbe telt, mire rájött, hogyan állítsa le ezt a jelenséget” – mondta Tim Shearer, az egyetemi könyvtár digitális stratégiákért és információs technológiáért felelős munkatársa. „Rengeteg intézménynek nincs olyan elkötelezett és zseniális személyzete, mint nekünk, és sokuk sokkal sebezhetőbb.”

A jelentés szerint az egyik fő probléma az, hogy az MI-gyűjtő botok figyelmen kívül hagyják a `robots.txt` fájlt, egy önkéntes protokoll, amelyet a webhelyek használhatnak arra, hogy elmondják az automatizált eszközöknek, például ezeknek a botoknak, hogy ne gyűjtsék a webhelyet.

„A protokoll nem bizonyult olyan hatékonynak az MI-képzési adatkészleteket építő botok kontextusában” – áll a jelentésben. „A válaszadók arról számoltak be, hogy a `robots.txt` fájlt sok (bár nem feltétlenül minden) MI-gyűjtő bot figyelmen kívül hagyja. Ezt széles körben az internet normáinak megsértéseként, és nem tisztességes online játékként értékelték.”

Korábban már beszámoltunk arról, hogy a `robots.txt` nem tökéletes módszer a botok megállítására, annak ellenére, hogy az MI-gyűjtés miatt minden eddiginél több webhely használja az eszközt. Az UNC például elmondta, hogy új, „MI-alapú” tűzfalat telepített a gyűjtők kezelésére.

A problémát súlyosbítja, hogy sok szervezet, amelyet eláraszt a botforgalom, vonakodik megkövetelni a felhasználóktól a bejelentkezést vagy a CAPTCHA-tesztek kitöltését, hogy bebizonyítsák emberi voltukat, mielőtt hozzáférnek az erőforrásokhoz, mert ez a hozzáadott súrlódás csökkentené az emberek hajlandóságát az anyagok elérésére. Más esetekben, még ha az intézmények be is akarnának vezetni valamilyen súrlódást, lehet, hogy nincsenek meg hozzá az erőforrásaik.

„Nem hiszem, hogy az emberek értékelnék, milyen kevés ember dolgozik azon, hogy ezeket a gyűjteményeket online elérhetővé tegye, még a hatalmas intézményekben is” – mondta Weinberg. „Általában hihetetlenül kicsi csapatról van szó, egy emberről, fél emberről, fél emberről, plusz a webes személyről, aki szimpatizál azzal, ami történik. A GLAM-E Lab küldetése, hogy együtt dolgozzon a kis- és közepes méretű intézményekkel, hogy ezeket az anyagokat online elérhetővé tegye, de ahogy az emberek aggodalmakat kezdenek felvetni az infrastruktúra gyűjtése miatt, ez egy újabb ok, amiért egy intézmény nemet mondhat erre.”

Forrás:

https://www.404media.co/ai-scraping-bots-are-breaking-open-libraries-archives-and-museums/

Szerző: Szuhi Attila

Írd meg a véleményed!

Az e-mailcímed nem lesz nyilvános. A * jelölt mezők kötelezőek.

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}

Cikkek a témában

június 20, 2025

Stanford-tanulmány: Mit akarnak a dolgozók az AI-tól? Egy

június 20, 2025

Az OpenAI új biztonsági intézkedéseket jelentett be, felkészülve

június 20, 2025

A Google Gemini pánikba esett, amikor Pokémonnal játszott

június 20, 2025

A 2025-ös AI-használati kutatás, amelyet Török Balázs AI-szakértő


INGYENES!

TÖLTSD LE A GOOGLE 100 SEO TANÁCSÁT

A Google 100 legfontosabb keresőoptimalizálási tanácsa!