OCR is een interessante tool met vele toepassingen. Of het ook werkt voor Nederlandse gotische druk, werd tijdens de workshop ICT with Industry onderzocht.
Optical Character Recognition (OCR) staat voor optische tekenherkenning: een methode waarbij een computer door middel van patroonherkenning tekens uit een afbeelding haalt. OCR werkt over het algemeen vrij goed op modern materiaal. Helaas gaat de kwaliteit van de herkenning achteruit naarmate het materiaal ouder is. Ook bij ‘vreemde’ fonts, vlekken en vervuiling verslechtert de kwaliteit. Genoeg motivatie om tijdens de jaarlijkse, door het ICT Research Platform Nederland (IPN) georganiseerde workshop ICT with Industry afgelopen februari aan deze wetenschappelijke uitdaging te werken.
Vier subproblemen
Door het team werden vier subproblemen gedefinieerd: preprocessing inclusief voorbewerken van de scans, segmentatie van de scans op woord- of zinsniveau, herkenning (de daadwerkelijke OCR) en postprocessing, het automatisch corrigeren van fouten van de herkenning. Samen met Mirjam Cuper (KB) zorgde ik voor scans, transcripties en rekenkracht voor de machinelearning, Jerry Guo (TU Delft) probeerde diverse algoritmes uit. Visueel was de verbetering goed zichtbaar, maar de resulterende OCR-output verbeterde nauwelijks. Voor de segmentatie, het tweede subprobleem, gebruikten we ARU-net. Samen met Xue Wang (CS, Leiden University) trainde ik het systeem op het detecteren van spaties en woorden met hulp van data van de ALTO-xml van een commerciële OCR-provider. We controleerden de resultaten weer visueel, op sommige punten was er zelfs een verbetering ten opzichte van de commerciële provider. Vervolgens werd Monk door Lambert Schomaker (AI/ML RuG) ingezet om data te labelen en ging Mahya Ameryan (AI, RuG) woorden herkennen met machinelearning. 88% van de woorden bleek correct te zijn herkend, een mooie score! Als laatste namen Koen Dercksen (Radboud Universiteit) en Konstantin Todorov (ILLC, UvA) het nabewerken op zich door gebruik te maken van BERT, gefinetuned op het tekstcorpus van de Meertens Kranten (1662-1795) en aansluitend een LSTM encoder-decoder netwerk. Met het softwareplan van Adriënne Mendrik (e-Science Center) kunnen we resultaten kwantificeren en meten wat daadwerkelijk de beste opties zijn voor specifieke onderdelen.
Flinke verbetering
Via ICT with Industry hebben we, naast een leuke week met slimme mensen uit de wetenschap en het bedrijfsleven, mooie resultaten bereikt. Samen concluderen we trots dat het mogelijk is om de herkenning van Nederlands gotisch drukwerk flink te verbeteren. Het KNAW Humanities Cluster en de KB gaan kijken hoe deze pijplijn voor vroegmoderne druk verder kan worden ontwikkeld.
ict-research.nl/ict-with-industry
Rutger van Koert is Lead Engineer Team Images bij het KNAW Humanities Cluster.