Gépi tanuláson alapuló szövegszerkezet felismerése dokumentumokban
A dokumentumokban fellelhető szövegek és szövegszerkezetek automatikus felismerésének és értelmezésének igénye egyre magasabb. Egy ilyen megoldás számtalan előnnyel járna. Például egy alternatív megoldást nyújthatna a hagyományos keresőmotorokhoz, amelyek jelen állás szerint egy keresés során egy-egy dokumentumra mutatnak, mintsem egy bekezdést vagy tényleges részt abból a forrásból, ami az olvasó számára releváns.
A hallgató feladata egy univerzális megoldás keresése a szövegszerkezet felismerésére különböző típusú dokumentumokban. A megoldás részfeladata egy olyan szabdaló algoritmust fejlesztése, amely képes megkeresni és megtalálni egy tetszőleges adatforrásban az egy egységbe eső tartalmakat. A megoldás nehézségét az is fokozza, hogy minden szerkesztőkörnyezetnek más és más szövegstruktúra kialakítása van, amelyre a hallgatónak egyaránt megoldást kell adnia.