OCR-hibák kvantitatív elemzése és korrekciója

Kirás éve: 2025   |   Státusz: nyitott   |   Külső konzulens: Simon László, Nyelvtudományi Kutatóközpont

A Nyelvtudományi Kutatóközpont munkatársai kidolgoztak egy eljárást [1], amivel nagy mennyiségű (sok milliárd szövegszavas) magyar nyelvű szkennelt oldalképen lehet OCR-hibákat javítani. A feladat az eljárás gyakorlati megvalósítása, illetve potenciálisan annak továbbfejlesztése.

Az eljárás azon a megfigyelésen alapul, hogy ha ugyanazt az oldalt több elég pontosan működő OCR-szoftverrel feldolgozunk, akkor mindegyik fog helyenként hibázni, de általában nem ugyanazokon a pontokon. Ebből kiindulva egyazon digitalizált oldalkép alapján készült több különböző OCR-outputot használunk, amelyeket például különböző OCR-szoftverek állítottak elő. Az egyazon oldalról készült kimenetek sorait a bemenetként szolgáló oldalképen elfoglalt helyük alapján egymáshoz illesztjük, és a felismert sztringek között azonosítjuk a pontszerű, karakternyi eltéréseket. Annak eldöntését, hogy az eltérő változatok közül melyik a helyes és melyik a rontott, karakterszintű nyelvmodellre bízzuk. Ha nem is lehetünk biztosak abban, hogy a felismert alternatívák között ott van a nyomtatott oldalképnek megfelelő változat, abból kiindulhatunk, hogy rendszerint ott lesz, mert a felhasznált OCR-szoftverek karakterszintű hibaaránya meglehetősen alacsony.

Az eljárás implementációja addig a pontig kész, hogy a különböző kimenetek közül megkapjuk eredményként, hogy egy eltérően azonosított karakter két változata közül melyik tűnik a valószínűbbnek a nyelvmodell alapján (tehát a megbízhatóbb tippnek). A következő lépés ennek a kódnak a továbbfejlesztése lenne, hogy alkalmas legyen a tényleges szövegjavításra, tehát a kimenet ne karakterszintű döntések listája legyen, hanem egy összefésült szövegváltozat, amely az adott pontokon a döntésnek megfelelő karaktert tartalmazza. A későbbiekben az implementáció további finomítására kerülne sor.

A munka szakmai gyakorlatként is végezhető.

[1] Pethő Gergely, Sass Bálint, Simon László, Lipp Veronika: OCR-hibák kvantitatív elemzése több szövegváltozat összehasonlításával. In: XIX. Magyar Számítógépes Nyelvészeti Konferencia. pp. 17–29. Szegedi Tudományegyetem, Szeged (2024)

Mészáros Tamás
Mészáros Tamás

docens
meszaros (*) mit * bme * hu
  ResearcherID Scopus ORCID Google Scholar ResearchGate