Transcriptie-software open source beschikbaar

Het KNAW Humanities Cluster ontwikkelde de transcriptie-software Loghi, die tot minstens 96 procent correcte transcripties geeft van oude teksten.

Het ontcijferen van oude handgeschreven teksten is voor mensen al niet makkelijk, laat staan voor computers. Toch zijn er sinds kort transcriptieprogramma’s op de markt die allerlei soorten handschriften om kunnen zetten naar gedigitaliseerde tekst. Voor die software moet je echter vaak betalen; het programma Loghi is transcriptie-software die volledig open source is en dus voor iedereen vrij te gebruiken. Het is toepasbaar op teksten uit de 16e tot en met de 20e eeuw. Het programma werd ontwikkeld door Rutger van Koert van het KNAW Humanities Cluster (HuC).

Plaatjes van 3×3 pixels

Net als andere transcriptie-software werkt Loghi op basis van machine learning. Dat betekent dat de software getraind is op basis van handschriften waar al transcripties van bestonden. Het computermodel maakt voor de transcriptie twee belangrijke stappen, legt Van Koert uit. “Eerst moet het model bepalen waar de tekst staat. Dat is voor ons logisch, maar voor de computer niet. In een volgende stap worden de tekstregels eruit geknipt en via een piramide-achtige structuur geanalyseerd, beginnend bij stukjes van 3 bij 3 pixels. Vanaf dat allerkleinste niveau worden transcripties opgebouwd op basis van het getrainde model.”

De software is vooralsnog toegepast in een aantal grote projecten, zoals REPUBLIC waarin de resoluties van de Staten-Generaal toegankelijk worden gemaakt. “Die handschriften zijn geschreven door professionele schrijvers, in zogenaamd netschrift”, zegt Van Koert. Dat betekent dat het handschrift over de hele linie erg consistent is. “Daar gaat Loghi nog maar in 1,8 procent van de gevallen de mist in, dat is heel weinig.” De bronnen van dit project liggen in het Nationaal Archief (NA) in Den Haag. Van Koert is daarom anderhalf jaar bij het NA gedetacheerd geweest. Ook het IJSBERG-project van het Nationaal Archief heeft veel input geleverd. “Daarvoor zijn 7706 scans getranscribeerd, voornamelijk teksten over de VOC en notariële teksten. Die laatste teksten zijn opgetekend door notarissen en veel slordiger. Daar is de foutmarge net onder de 4 procent.”

Tekst op z’n kop

Ook andere organisaties kunnen Loghi inzetten voor het ontcijferen van hun eigen tekstbronnen. Zij kunnen het algemene model gebruiken, maar deze ook doortrainen op hun eigen dataset, zodat de foutmarge nog meer omlaag gaat. “De handschriftherkenning wordt alleen nog maar beter als je er meer data in stopt”, zegt Van Koert. “Eigenlijk ligt de grootste hobbel in dit onderzoek nog in die eerste stap van de machine learning. En dat is het bepalen waar de tekst staat. 17e-eeuwse brieven bijvoorbeeld zijn vaak tot envelop gevouwen en dan is de buitenkant ook beschreven. Als je die openvouwt staat een deel van de tekst op z’n kop. Dat is nog een grote uitdaging.”

Boven: Origineel.
Bron: Nationaal Archief, Inventaris van het archief van de Staten-Generaal, (1431) 1576-1796, nummer archiefinventaris 1.01.02, inventarisnummer 3152
Onder: Visualisatie automatisch gedetecteerde regio’s.

https://github.com/knaw-huc/loghi