Intelligens adatelemzés

VIMMD294  |  PhD  |  Kredit: 5

A tantárgy célkitűzése

Az utóbbi évtizedek ugrásszerűen megnövekedő adattárolási lehetőségei miatt a vizsgált rend­szerekről, folyamatokról egyre több mérési, megfigyelési adat kerül rögzítésre. Az új lehetőségek olyan új kérdé­seket vetnek fel, mint a megfelelő adatok megszerzését biztosító kísérlettervezés, a mérés megtervezése, valamint a megszerzett - esetenként nagyon nagyszámú és sokdimenziós - adat elemzése: a megfelelő adatelemzési módszerek skálázhatósága, a számítási komplexitás növekedésének kézbentartása, továbbá a sokdimenziós adatok hatékony ábrázolása, vizualizá­ciója.

Az újabb aspektusok, mint például a változók számának nagyságrendekkel történő növekedése, az adott tárgyterületet több szempontból jellemző adatok, a strukturált tárgyterületek, az aktív tanulás (a kísérlettervezéstől a beavatkozásos adatokig és megerősítéses tanulásig), illetve a különböző reprezentációjú háttértudás felhasználása a tervezéstől az elemzésen át az értelme­zésig, új megközelítéseket igényelnek.

A tárgy célja, a kísérlettervezéstől a mérési adatok beszerzésén át az adatok komplex feldolgo­zásig és felhasználói modellbe integrálásáig tartó munkafolyamat egészének áttekintése részle­tesen bemutatva az adatábrázolás és -elemzés algoritmusait és eszközeit.

A tárgyaláshoz több szempontból előnyös, közös nevező a komplex modellek használata, amely­ben kiemelt szerepet kapnak a valószínűségi gráfos modellek (probabilistic graphical models).

A komplex modellek használata a nagy változószám és viszonylag kis mintaszám mellett az in­duktív követ­kez­tetés pontossága és megbízhatósága miatt szintén új kereteket igényel, amire különböző számításintenzív statisztikai megközelítések jelentek meg (pl. a „bootstrap" vagy permutáció alapú tesztek, a többszörös tesztelési korrekciós eljárások, illetve a Bayes statisztikai keretrendszer, benne a bayesi mo­dell­átlagolással).  

A tantárgy követelményeit eredményesen teljesítő hallgatóktól elvárható, hogy:

1. Képesek legyenek az informatika széles területén a kísérletes, illetve a megfigyelésen ala­puló ismeretszerzési folyamatok tervezésére, végrehajtására és eredményük szabatos reprezentációjára. Ismerjék a megfigyelési/beavatkozásos, statisztikai/oksági és struktu­rálatlan/strukturált adatok típusait, a kísérlettervezés, adatminőség-biztosítás, adattisztí­tás, adatelemzés, értelmezés, döntéstámogatás és modellalkotás fázisait.

2. Ismerjék a klasszikus statisztikai döntéselméleti alapokat, különös tekintettel az optimali­zálási és mintavételi technikákra.

3. Ismerjék a komplex modellek leírására általános keretet adó valószínűségi gráfos model­le­ket, (probabilistic graphical models), ennek legnépszerűbb osztályait, a Markov hálókat, a rejtett Markov modelleket, és a Bayes hálókat. Ismerjenek számításintenzív statisztikai kereteket, mint például a „bootstrap" vagy permutáció alapú módszereket, és a Bayes sta­tisztikai keretrendszert, illetve hozzájuk tartozó technikák elméleti alapjait és alkalmazá­sát, benne többszörös tesztelési korrekciós eljárásokat és mintavételi technikákat.

4. Ismerjék az elemzésre szolgáló alkalmas legfontosabb dedikált hardver/szoftver eszközö­ket, valamint a kinyert tudás integrációját a tipikus informatikai kulcsterületeken.

A tárgy oktatói

Antal Péter
Antal Péter

docens

tárgyfelelős

A tantárgy részletes tematikája

  • Bevezetés. A mennyiségi és kvalitatív informatikai modellezés kapcsolata. Kvalitatív modellezési technikák és kapcsolatuk az informatikai rendszerek modellezésével. A két
    féle modellezés kapcsolata: predikátumabsztrakció és hibrid modellezés. Adatelemzés és metamodellezés.
  • Statisztikai alapok: Kísérlettervezés. A statisztikai adatok sokfélesége. Az indukció való­színűségi megközelítése. A klasszikus és a bayesi statisztika célkitűzései, metodológiája. Alapfogalmak bemutatása egyváltozós normális eloszlás esetén és komplex valószínűségi modellek esetén. A valószínűségi következtetések típusai.
  • Adatok vizualizációja. Dimenzió-, topológia- és varianciamegőrző dimenzió-csökkentő leképezések. Sokdimenziós adatok megjelenítése. Vizualizációs eszközök és vizuális ana­lízis. Ggobi, parallel koordináták.
  • Adatelemzés alapú modellalkotás. Korrelációanalízis, Klaszterező és klasszifikációs mód­szerek. Regressziós eljárások. A kiértékelés és értelmezés problémája. Adat­integ­rálás, tudásfúzió. Dimen­zióredukció és alkalmazása az informatikában. Vizuális analízis (pár­huzamos koordi­náták, stb.)
  • Hiányos adatok kezelése. A hiányos adat típusai. Hiányos adatok kezelése (szintaktikus és szemantikus adattisztítás, -pótlás). Expectation-Maximization, Bayesi megközelítés.
  • Kismintás statisztikai módszerek. (Bootstrap és maximum likelihood eljárások. Bayesi következtetés hatékony Monte Carlo módszerekkel: MC, MCMC, MCMCMC, ....)
  • Adatmodellezés. Lineáris és nemlineáris modellek. Dinamikus modellek. Kernel mód­szerek. Bayes hálók, kiterjesztett Bayes hálók. Dinamikus Bayes hálók, rejtett Markov modellek.
  • Modellek tanulása. Feltételes modellek tanulása és használata hiányos adat esetén kiegé­szítő modellekkel.
  • Bayes hálók tanulása és értelmezése. Bayes hálók tanulása hiányos adatok és beavatko­zásos adatok esetén. Nemparametrikus bayesi módszerek.
  • A priori kvalitatív ismeretek felhasználása. Validálás, verifikálás. Érzékenységanalízis. Kinyert modellek általánosítása, metakategorizálási szabályok kinyerése.
  • Eszközök. Statisztikai elemző szoftver rendszerek. MATLAB, R, SPSS, stb. Analízis minták, adatelemzési workflow automatizálás eszközei (KNIME, KEPLER). Log analízis eszközei. Párhuzamosított feldolgozás eszközei. Adatmodellezés és informatikai alkalmazásmodel­lek kapcsolata. Modellek hordozása az adatelemzési és informatikai modelltartományok között (PMML)
  • Alkalmazások. Esettanulmányok. (Biológiai szekvenciák elemzése, orvosbiológiai oksági modellek tanulása, cloud infrastruktúrák monitorozása, szoftver teljesítményanalízis.)