Szövegelemző- és annotálórendszer fejlesztése
A feladat természetes nyelvű dokumentumok gépi elemzésére koncentrál, jellemzően tudáskinyerési és klasszifikációs céllal.
A feladat részleteiAz alkalmazható módszerek és algoritmusok köre igen széles a nyelvi elemzéstől kezdve, a különféle tudásalapú és tanuló rendszereken keresztül a szótár-, vagy ontológia-alapú megoldásokig. A feladat testre szabása során a jelentkező kiválaszthatja azokat az eszközöket és módszereket, amelyekkel szívesen megismerkedne, illetve dolgozna, és közösen határozzuk meg az elkészítendő alkalmazás célját, funkcióit.
A potenciális alkalmazási területek tárháza is széles az üzleti intelligencia rendszerektől kezdve a történeti és irodalmi szövegek elemzésén keresztül az információbeszerző rendszerekig.
Az érdeklődők részt vehetnek konkrét ipari projektekben is banki, üzleti intelligencia, orvosi és bölcsészeti területeken.
Lehetséges részfeladatokA feladatkiírás sokféleképpen szabható személyre, például:
- információkinyerés webes adatforrásokból (weblapok, Facebook stb.),
- szöveggyűjtemény tudáselemeinek felismerése, annotálása, kinyerése és felhasználása (pl. útleírások térképre rendezése)
- szöveg összekapcsolása és bővítése tudásbázisokkal (pl. háttérinformációk megjelenítése a Wikidata segítségével)
- hangulatelemzés szövegekből (pl. termékértékelések osztályozása)
- szerzőség azonosítása
- és további remek hallgatói ötletek
A feladat sikeres megoldásához alapvető programozói tudás (jellemzően Python, esetleg R, Java) szükséges, speciális (pl. NLP) algoritmusok és eszközök előzetes előismerete nem.
A feladat megoldása során gyakorlati ismeretek szerezhetők természetes nyelvű elemzők működéséről, mélytanuló (deep learning) rendszerek alkalmazásáról, megismerhetők fogalomtárak, ontológiák és különféle tudásreprezentációs eszközök (pl. RDF), és más MI eszközök és módszerek.
A jelentkezés menete, mi várható a konzulenstől...Ezen a lapon összefoglaltam, mire számítok a jelentkezőktől, illetve mi várható tőlem.