Tesztidő alatti számításoptimalizálás nagy nyelvi modelleken

Kirás éve: 2025   |   Státusz: nyitott
A nagy nyelvi modellek (LLM-ek) jelentős számítási igényekkel rendelkeznek, különösen a tesztidő alatti működés során, amikor az alkalmazások valós időben kell, hogy válaszoljanak. A dolgozat célja, hogy különböző optimalizációs technikákat (például kvantizáció, prúning, tudásdissztilláció és dinamikus inferencia) elemezzen, és ezek hatását mérje különböző NLP feladatokon. Kutatási kérdések
  • Milyen mértékben csökkenthető a számítási költség a fenti technikák alkalmazásával, anélkül, hogy a modell teljesítménye jelentősen romlana?
  • Hogyan lehet objektív mérőszámokat kidolgozni az inferencia sebesség és a válaszok pontosságának összehasonlítására?
  • Milyen kompromisszumok vannak a számítási hatékonyság és a modellek válaszainak minősége között?
Módszertan
  • Irodalom áttekintés: Az optimalizációs technikák, mint például a kvantizáció, prúning és tudásdissztilláció részletes elemzése, beleértve a jelenlegi ipari és tudományos megközelítéseket.
  • Kísérleti megközelítés: Különböző előre betanított LLM-ek (például Qwen vagy LLaMA) finomhangolása optimalizációs módszerekkel. Valós idejű NLP feladatok (pl. kérdés–válasz rendszerek, dialógusmenedzsment) implementálása és tesztelése.
  • Mérőszámok kialakítása: Új mérőszámok kidolgozása az inferencia ideje, energiafogyasztás, és a modell pontossága közötti összefüggések kvantitatív értékelésére.
  • Elemzés és összehasonlítás: A különböző technikák eredményeinek összehasonlítása, valamint a kísérleti adatok statisztikai elemzése.
Elvárt eredmények
  • Egy átfogó keretrendszer az LLM-ek tesztidő alatti számításoptimalizálására.
  • Új, validált mérőszámok, amelyek segítik a futási sebesség és a pontosság közötti kompromisszum kvantitatív mérését.
  • Prototípus rendszer, amely bemutatja az optimalizációs technikák gyakorlati alkalmazhatóságát valós idejű NLP feladatokon.
Marosi Márk
Marosi Márk

doktorandusz
marosi (*) mit * bme * hu