Oldalelrendezés szoftveres rekonstrukciója
A Nyelvtudományi Kutatóközpont munkatársai által konzultált feladat egy olyan eljárás és szoftver kidolgozása, amely többhasábos, bonyolult elrendezéssel rendelkező oldalképekből képes visszaállítani a lineáris szövegfolyamot, megállapítja a szétdarabolt szövegrészek egymásutániságát.
A probléma adott: egy sokhasábos, hirdetésekkel és képekkel megspékelt napilapoldal esetében az OCR-kimenetekben a hasábok összekeverednek, sokszor a hasábok az egymás melletti, pár szavas sorait „gyúrja össze” az OCR egybefüggő szöveggé.
A mintázat, a szövegösszefüggés feltérképezésével szeretnénk elérni, hogy a kimeneten a hasábokba tördelt szövegrészek, a képaláírások, a hirdetésblokkok stb. a megfelelő sorrendben következzenek egymás után. Illetve legkésőbb az OCR-javító bemeneteként már egy, a blokkok tekintetében javított szövegünk legyen a nyers OCR-hez képest.
A munka szakmai gyakorlatként is végezhető.