A Google Gemma 3n hatékony mesterséges intelligenciát hoz az eszközökbe

A Google bejelentette a Gemma 3n teljes verzióját, egy új, nyílt forráskódú mesterséges intelligencia (MI) modellcsaládot, amelyet úgy terveztek, hogy nagy teljesítményű multimodális képességeket biztosítson mobil- és végfelhasználói eszközök számára. Ez a fejlesztés azt jelenti, hogy az MI intelligencia közvetlenül az okostelefonokon és más eszközökön is futhat, akár szerényebb hardveres specifikációk mellett is.

A Gemma 3n modellek (2B és 4B változatok) natívan értik a képeket, hangot, videót és szöveget, miközben már 2 GB RAM-mal rendelkező hardvereken is hatékonyan futnak.
Beépített vizuális képességei valós idejű tárgyfelismerést és jelenetértelmezést tesznek lehetővé, akár 60 képkocka/másodperc sebességgel elemezve a videót Pixel telefonokon.
A Gemma nagyobb, E4B verziója az első 10 milliárd paraméter alatti modell, amely túlszárnyalta az 1300-as pontszámot a rangos LMArena benchmarkon.

A Google Gemma 3n: Erőteljes MI a zsebünkben

A Google DeepMind által fejlesztett Gemma 3n egy áttörést jelent a mesterséges intelligencia decentralizálásában. A 2 milliárd (2B) és 4 milliárd (4B) paraméteres változatokban elérhető modellek kifejezetten a mobil- és fogyasztói eszközök, mint például okostelefonok, táblagépek és okoseszközök képességeihez igazodnak. Ez azt jelenti, hogy a fejlett MI funkciók közvetlenül az eszközön futhatnak, csökkentve a felhőalapú számításra való szükségletet, ezáltal növelve a sebességet, a privát szférát és a megbízhatóságot.

Multimodális Képességek és Hatékonyság

A Gemma 3n egyik legkiemelkedőbb tulajdonsága, hogy natívan képes értelmezni különböző adatformátumokat – legyen szó képről, hangról, videóról vagy szövegről. Ez a multimodális képesség forradalmasíthatja az eszközökkel való interakciót, hiszen képesek lesznek összetettebb környezeti információk feldolgozására. Mindez úgy valósul meg, hogy a modellek rendkívül hatékonyak, már akár 2 GB RAM-mal rendelkező hardvereken is zökkenőmentesen működnek, ezzel elérhetővé téve a fejlett MI-t szélesebb körű eszközpark számára.

Valós idejű Látás és Hangfeldolgozás

A beépített vizuális funkciók révén a Gemma 3n képes 60 képkocka/másodperc sebességgel elemezni a videókat Pixel telefonokon. Ez lehetővé teszi a valós idejű tárgyfelismerést, a környezet megértését és az események azonnali azonosítását, ami új lehetőségeket nyit meg az AR (kiterjesztett valóság) alkalmazások, a biztonsági funkciók vagy akár a kreatív tartalomgyártás terén.

Az audio képességek szintén lenyűgözőek: a Gemma 3n képes 35 nyelven fordítani, és hatékonyan alakítja át a beszédet szöveggé. Ez rendkívül hasznos lehet akadálymentesítési alkalmazások, hangalapú asszisztensek és globális kommunikációs eszközök számára.

A Teljesítmény Etalonja

A Gemma nagyobb, E4B verziója kimagasló teljesítményt mutatott. Ez az első 10 milliárd paraméter alatti modell, amely túlszárnyalta az 1300-as pontszámot az LMArena benchmarkon, ami a nyelvi modellek képességeit mérő egyik legversenyképesebb és legelismertebb teszt. Ez a teljesítmény aláhúzza a Gemma modellek erejét és hatékonyságát, különösen figyelembe véve kompakt méretüket.

Miért Fontos Ez?

A Gemma 3n teljes bevezetése egy újabb rendkívül lenyűgöző lépés a Google részéről a mesterséges intelligencia fejlesztésében. A modellek folyamatosan erősebbé válnak, miközben méretük csökken, ami lehetővé teszi a komplex MI képességek közvetlen integrálását a fogyasztói hardverekbe. Ez a kicsi, nyílt modell korlátlan számú intelligens, eszközön belüli felhasználási esetet nyit meg, a személyre szabott asszisztensektől a fejlett kamerarendszerekig, alapjaiban megváltoztatva az eszközökkel való interakciónkat.

Képforrás: Google DeepMind

Forrás: developers.googleblog.com

Szerző: Szuhi Attila

Követhetsz

Share 0

Írd meg a véleményed!

Cikkek a témában

július 4, 2025

A Google Gemma 3n hatékony mesterséges intelligenciát hoz az eszközökbe

A Google Gemma 3n: Erőteljes MI a zsebünkben

Multimodális Képességek és Hatékonyság

Valós idejű Látás és Hangfeldolgozás

A Teljesítmény Etalonja

Miért Fontos Ez?

Szerző: Szuhi Attila

Írd meg a véleményed!

Jim Farley, a Ford vezérigazgatója: „A mesterséges intelligencia leváltja a szellemi dolgozók felét”

A Meta olyan chatbotot fejleszt ami maga kezdeményezi a beszélgetést

Az AI segítségével esett teherbe egy pár 18 év után

A Microsoft mintegy 9000 alkalmazottat bocsát el a legutóbbi megszorítások során

INGYENES!

TÖLTSD LE A GOOGLE 100 SEO TANÁCSÁT