Tesztidő alatti számításoptimalizálás nagy nyelvi modelleken
Kirás éve: 2025 |
Státusz: nyitott
A nagy nyelvi modellek (LLM-ek) jelentős számítási igényekkel rendelkeznek, különösen a tesztidő alatti működés során, amikor az alkalmazások valós időben kell, hogy válaszoljanak. A dolgozat célja, hogy különböző optimalizációs technikákat (például kvantizáció, prúning, tudásdissztilláció és dinamikus inferencia) elemezzen, és ezek hatását mérje különböző NLP feladatokon. Kutatási kérdések - Milyen mértékben csökkenthető a számítási költség a fenti technikák alkalmazásával, anélkül, hogy a modell teljesítménye jelentősen romlana?
- Hogyan lehet objektív mérőszámokat kidolgozni az inferencia sebesség és a válaszok pontosságának összehasonlítására?
- Milyen kompromisszumok vannak a számítási hatékonyság és a modellek válaszainak minősége között?
- Irodalom áttekintés: Az optimalizációs technikák, mint például a kvantizáció, prúning és tudásdissztilláció részletes elemzése, beleértve a jelenlegi ipari és tudományos megközelítéseket.
- Kísérleti megközelítés: Különböző előre betanított LLM-ek (például Qwen vagy LLaMA) finomhangolása optimalizációs módszerekkel. Valós idejű NLP feladatok (pl. kérdés–válasz rendszerek, dialógusmenedzsment) implementálása és tesztelése.
- Mérőszámok kialakítása: Új mérőszámok kidolgozása az inferencia ideje, energiafogyasztás, és a modell pontossága közötti összefüggések kvantitatív értékelésére.
- Elemzés és összehasonlítás: A különböző technikák eredményeinek összehasonlítása, valamint a kísérleti adatok statisztikai elemzése.
- Egy átfogó keretrendszer az LLM-ek tesztidő alatti számításoptimalizálására.
- Új, validált mérőszámok, amelyek segítik a futási sebesség és a pontosság közötti kompromisszum kvantitatív mérését.
- Prototípus rendszer, amely bemutatja az optimalizációs technikák gyakorlati alkalmazhatóságát valós idejű NLP feladatokon.

Marosi Márk
doktorandusz
marosi (*) mit * bme * hu