Két vezető kínai mesterséges intelligencia labor, a Tencent és az Alibaba is új, áttörő AI modelleket mutatott be. A Tencent egy nyílt forráskódú, hibrid érvelési modellt, a Hunyuan-A13B-t dobta piacra, míg az Alibaba egy ChatGPT-4o-hoz hasonló kreatív modellt, a Qwen-VLo-t tette közzé, amelyek új szintre emelik a szöveg- és képalkotási képességeket.
- A Hunyuan-A13B teljesítménye megközelíti vagy eléri az olyan vezető modellekét, mint az o1 és a DeepSeek R1, miközben egyetlen GPU-n is hatékonyan futtatható.
- A Qwen-VLo „progresszív generálás” révén mutatja be kreatív folyamatát, képes szövegből képeket alkotni és természetes nyelven szerkeszteni azokat.
- A VLo modell komplexebb feladatokat is támogat, mint a többkép alapú promptok, többnyelvű szöveggenerálás és dinamikus felbontás/képarány kezelése.
Részletesebb bemutató
A Tencent által fejlesztett Hunyuan-A13B az első nyílt érvelési modell a Hunyuan sorozatból. Különlegessége a dinamikus „gyors és lassú” üzemmód, amelyet a felhasználók a hatékonyság optimalizálása érdekében állíthatnak be. Ez a modell bizonyítja, hogy a nagy teljesítményű AI-modellek már elérhetővé válnak szélesebb körben, akár korlátozott hardveres erőforrásokkal is.
Az Alibaba Qwen-VLo modellje a kreativitásra fókuszál. A „progresszív generálás” funkció lehetővé teszi, hogy a felhasználók nyomon kövessék, hogyan alakul ki a kép vagy szöveg lépésről lépésre, ami eddig nem látott transzparenciát és kontrollt biztosít az alkotási folyamat felett. A modell nemcsak szövegből képeket tud generálni, hanem a már meglévő képeket is képes módosítani egyszerű, természetes nyelvi parancsok alapján. Továbbá, a VLo alkalmas komplex munkafolyamatokra, mint például több kép egyidejű bemenetként való használata, többnyelvű szövegek generálása, és a kimenetek felbontásának és képarányának dinamikus szabályozása.
Miért fontos ez?
Ezek az új fejlesztések aláhúzzák Kína vezető szerepét a mesterséges intelligencia kutatásában és fejlesztésében. A kínai laborok továbbra is kiváló minőségű modelleket állítanak elő, amelyek képességeikben közvetlenül a legfejlettebb, úgynevezett „határvonal” modellek mögött helyezkednek el. Különösen a Qwen-VLo érdekes, mivel a GPT-4o által híressé tett kreatív képességeket, amelyek a kezdeti bevezetésekor őrületes népszerűséget hoztak neki, most egy kínai közönség számára is elérhetővé teszi. Ez a lépés jelentősen hozzájárulhat a vizuális és szöveges tartalomgenerálás demokratizálásához és a kínai AI ökoszisztéma további erősödéséhez.