Chinchilla (DeepMind) nagy nyelvi modell

A Chinchilla AI egy nagy, természetes nyelvű modell, amelyet a DeepMind fejlesztett ki. Az eredeti verzió 2022 márciusában jelent meg, és technológiája ugyanazon elveken alapul, mint más hasonló modellek, például a GPT-3, a különbség a képzési paraméterekben és az adatméretben rejlik.

A DeepMind azt állítja, hogy a számítási hatékonyság érdekében a modell méretének és a képzési adatkészlet méretének arányosan kell növekednie: ha a modell mérete kétszeresére nő, a képzési adatkészlet mérete is megduplázódik. A Chinchilla AI ezt a feltételezést teszteli, ugyanazzal a számítási költségvetéssel, mint a Gopher, de 70B paraméterrel és 4-szer több adattal, hogy egy optimalizáltabb modellt, a Chinchilla-t képezze ki.

Az eredmények azt mutatják, hogy a Chinchilla egységesen és jelentősen jobb teljesítményt nyújt, mint a Gopher, GPT-3, Jurassic-1 és Megatron-Turing NLG számos értékelési feladatban. A Chinchilla átlagos pontossága a MMLU benchmark teszten 67,5%, több mint 7%-kal magasabb, mint a Gopher.

Érdekességként megjegyezhetjük, hogy az OpenAI ChatGPT-je, amely a GPT-3 modellen alapul, óriási vihart kavart a megjelenése óta, és mindössze 2 hónap alatt elérte a 100 millió felhasználót. A Chinchilla AI-nak jelenleg nincsenek kiemelkedő termékei, és nyilvánvaló, hogy a DeepMind-nak be kell bizonyítania korábbi állításait a nyilvánosság számára.

Részletek: https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training