A BIG-bench (Behavior of Intelligence in the General sense: a teljesítményértékelés) egy átfogó tesztrendszer, amelyet mesterséges intelligencia (MI) rendszerek teljesítményének mérésére terveztek. Célja, hogy a kutatók számára egy átfogó és sokrétű mérőeszközt biztosítson, amely értékelni tudja a MI rendszerek intelligenciáját és képességeit a természetes nyelvű feladatokban.
A BIG-bench eredetileg egy Google projekt, amihez számos nagy név, köztük az OpenAi is csatlakozott.
A BIG-bench olyan különféle feladatokat tartalmaz – jelenleg több mint 200-at – amelyek a nyelvi modellek és az MI rendszerek különböző aspektusainak értékelésére összpontosítanak. Ezek a feladatok számos területet lefednek, mint például az olvasásértés, a logikai következtetés, a kreativitás és a tárgyi tudás. A BIG-bench a sokszínű feladatkörrel próbálja kiküszöbölni a korábbi tesztek korlátozottságait, és lehetővé teszi a kutatók számára, hogy mélyebben megértsék az MI rendszerek viselkedését és képességeit.
A BIG-bench összehasonlítja az MI rendszerek teljesítményét, és lehetővé teszi a fejlesztők számára, hogy a lehető legjobb megoldásokat dolgozzák ki és iterálják, miközben elősegíti a fejlődést és a versenyt a mesterséges intelligencia területén.
Néhány feladat a BIG-bench tesztsorából:
- CIFAR10 képek osztályozása különböző kódolásokban.
- Sakkpozícióban olyan lépést találni, amely mattot eredményez.
- Angol nyelvű leírás készítése Python kódhoz.
- Kérdések megválaszolása (spanyolul) a kriobiológia témakörében.
- Rövid bűnügyi történetek alapján az elkövető azonosítása és az indoklás ismertetése.
- Nyelvi modell öntudatosságának mérés.
- Egy modellpéldányt felkérni egy másik példány oktatására, majd az oktatás minőségének értékelése.
- Olyan etikai döntés meghozása meghatározása, amely leginkább összhangban van az emberi ítélettel.
- Két mondat közül eldönteni, melyik szarkasztikus.
BIG-bench a GitHub-on: https://github.com/google/BIG-bench/tree/main/docs