A Google bejelentette a Gemma 3n teljes verzióját, egy új, nyílt forráskódú mesterséges intelligencia (MI) modellcsaládot, amelyet úgy terveztek, hogy nagy teljesítményű multimodális képességeket biztosítson mobil- és végfelhasználói eszközök számára. Ez a fejlesztés azt jelenti, hogy az MI intelligencia közvetlenül az okostelefonokon és más eszközökön is futhat, akár szerényebb hardveres specifikációk mellett is.
- A Gemma 3n modellek (2B és 4B változatok) natívan értik a képeket, hangot, videót és szöveget, miközben már 2 GB RAM-mal rendelkező hardvereken is hatékonyan futnak.
- Beépített vizuális képességei valós idejű tárgyfelismerést és jelenetértelmezést tesznek lehetővé, akár 60 képkocka/másodperc sebességgel elemezve a videót Pixel telefonokon.
- A Gemma nagyobb, E4B verziója az első 10 milliárd paraméter alatti modell, amely túlszárnyalta az 1300-as pontszámot a rangos LMArena benchmarkon.
A Google Gemma 3n: Erőteljes MI a zsebünkben
A Google DeepMind által fejlesztett Gemma 3n egy áttörést jelent a mesterséges intelligencia decentralizálásában. A 2 milliárd (2B) és 4 milliárd (4B) paraméteres változatokban elérhető modellek kifejezetten a mobil- és fogyasztói eszközök, mint például okostelefonok, táblagépek és okoseszközök képességeihez igazodnak. Ez azt jelenti, hogy a fejlett MI funkciók közvetlenül az eszközön futhatnak, csökkentve a felhőalapú számításra való szükségletet, ezáltal növelve a sebességet, a privát szférát és a megbízhatóságot.
Multimodális Képességek és Hatékonyság
A Gemma 3n egyik legkiemelkedőbb tulajdonsága, hogy natívan képes értelmezni különböző adatformátumokat – legyen szó képről, hangról, videóról vagy szövegről. Ez a multimodális képesség forradalmasíthatja az eszközökkel való interakciót, hiszen képesek lesznek összetettebb környezeti információk feldolgozására. Mindez úgy valósul meg, hogy a modellek rendkívül hatékonyak, már akár 2 GB RAM-mal rendelkező hardvereken is zökkenőmentesen működnek, ezzel elérhetővé téve a fejlett MI-t szélesebb körű eszközpark számára.
Valós idejű Látás és Hangfeldolgozás
A beépített vizuális funkciók révén a Gemma 3n képes 60 képkocka/másodperc sebességgel elemezni a videókat Pixel telefonokon. Ez lehetővé teszi a valós idejű tárgyfelismerést, a környezet megértését és az események azonnali azonosítását, ami új lehetőségeket nyit meg az AR (kiterjesztett valóság) alkalmazások, a biztonsági funkciók vagy akár a kreatív tartalomgyártás terén.
Az audio képességek szintén lenyűgözőek: a Gemma 3n képes 35 nyelven fordítani, és hatékonyan alakítja át a beszédet szöveggé. Ez rendkívül hasznos lehet akadálymentesítési alkalmazások, hangalapú asszisztensek és globális kommunikációs eszközök számára.
A Teljesítmény Etalonja
A Gemma nagyobb, E4B verziója kimagasló teljesítményt mutatott. Ez az első 10 milliárd paraméter alatti modell, amely túlszárnyalta az 1300-as pontszámot az LMArena benchmarkon, ami a nyelvi modellek képességeit mérő egyik legversenyképesebb és legelismertebb teszt. Ez a teljesítmény aláhúzza a Gemma modellek erejét és hatékonyságát, különösen figyelembe véve kompakt méretüket.
Miért Fontos Ez?
A Gemma 3n teljes bevezetése egy újabb rendkívül lenyűgöző lépés a Google részéről a mesterséges intelligencia fejlesztésében. A modellek folyamatosan erősebbé válnak, miközben méretük csökken, ami lehetővé teszi a komplex MI képességek közvetlen integrálását a fogyasztói hardverekbe. Ez a kicsi, nyílt modell korlátlan számú intelligens, eszközön belüli felhasználási esetet nyit meg, a személyre szabott asszisztensektől a fejlett kamerarendszerekig, alapjaiban megváltoztatva az eszközökkel való interakciónkat.
Képforrás: Google DeepMind
Forrás: developers.googleblog.com