Oldalelrendezés szoftveres rekonstrukciója

Kirás éve: 2025   |   Státusz: nyitott   |   Külső konzulens: Simon László, Nyelvtudományi Kutatóközpont

A Nyelvtudományi Kutatóközpont munkatársai által konzultált feladat egy olyan eljárás és szoftver kidolgozása, amely többhasábos, bonyolult elrendezéssel rendelkező oldalképekből képes visszaállítani a lineáris szövegfolyamot, megállapítja a szétdarabolt szövegrészek egymásutániságát.

A probléma adott: egy sokhasábos, hirdetésekkel és képekkel megspékelt napilapoldal esetében az OCR-kimenetekben a hasábok összekeverednek, sokszor a hasábok az egymás melletti, pár szavas sorait „gyúrja össze” az OCR egybefüggő szöveggé.

A mintázat, a szövegösszefüggés feltérképezésével szeretnénk elérni, hogy a kimeneten a hasábokba tördelt szövegrészek, a képaláírások, a hirdetésblokkok stb. a megfelelő sorrendben következzenek egymás után. Illetve legkésőbb az OCR-javító bemeneteként már egy, a blokkok tekintetében javított szövegünk legyen a nyers OCR-hez képest.

A munka szakmai gyakorlatként is végezhető.

Mészáros Tamás
Mészáros Tamás

docens
meszaros (*) mit * bme * hu
  ResearcherID Scopus ORCID Google Scholar ResearchGate