Handgeschreven ‘egodocumenten’ automatisch transcriberen

Door Milan van Lange, Annelies van Nispen en Carlijn Keijzer
Het NIOD digitaliseert haar bijzondere collectie handgeschreven brieven uit de periode voor, tijdens en na de Duitse bezetting van Nederland en de re-kolonisatie-oorlog in Indonesië.

‘Oorlog uit Eerste Hand’ (2020-2023) conserveert en digitaliseert “Collectie 247”, een uitzonderlijk deel van het NIOD-archief, bestaande uit persoonlijke correspondentie in tijden van geweld, bezetting, oorlog en vervolging. De ca. 150.000 oorlogsbrieven, kattebelletjes, ansichtkaarten en enveloppen zijn gescand en worden getranscribeerd en geannoteerd. Dit om een betere (online) vindbaarheid, toegankelijkheid en ruimere bruikbaarheid voor historici en geïnteresseerden mogelijk te maken. In plaats van de scans integraal te laten transcriberen door vrijwilligers, tot voor kort gangbaar, slaat het project een andere weg in.

Van transcripties naar computermodellen

Allereerst is er handgeschreven tekst van ongeveer 1000 scans handmatig getranscribeerd. Deze ‘ground truth’ is vervolgens gebruikt om een computermodel voor automatische handschriftherkenning te trainen. Hiervoor zijn de functies vaan READ-COOP’s Transkribus gebruikt. Deze software is voortgekomen uit Europese samenwerkingsprojecten om Handwritten Text Recognition (HTR) voor historisch archiefmateriaal te faciliteren. 


Logo van het project ‘Oorlog uit Eerste Hand’ 
Bron: NIOD

Fragment van een lastig te transcriberen brief voor zowel mens als machine 
Bron: NIOD Collectie 247, inventarisnummer 1421, scan 24

Het trainingstraject leverde uiteindelijk een computermodel op voor handgeschreven Nederlands uit het midden van de twintigste eeuw, waarbij gemiddeld minder dan 5% van de tekens fout gelezen wordt (Character Error Rate (CER) <5%). Het model wordt gebruikt om de rest van de collectie automatisch te transcriberen.

Het genereren en toepassen van het computermodel dat de handgeschreven teksten leest bleek een iteratief proces met veel tussentijds bijsturen. De omstandigheden waarin veel brieven tot stand gekomen zijn en het feit dat er veel verschillende brievenschrijvers zijn, maken de collectie soms lastig leesbaar voor mens en machine. 

In tijden van papierschaarste schreven mensen vaak in de rondte of op de kop om toch die laatste mededeling of succeswens nog kwijt te kunnen op die ene schaarse briefkaart. Dergelijke complexe lay-out heeft soms een negatieve invloed op de kwaliteit van de resultaten van automatisch transcriberen. De zeer problematische ‘moeilijke gevallen’ met slechte transcripten gaan we met behulp van crowd sourcing corrigeren.

Uiteindelijk worden de transcripten – indien juridisch mogelijk – online vindbaar. Het HTR-model voor handgeschreven tekst uit de periode 1935-1950 wordt via Transkribus en Github vrij beschikbaar gesteld aan erfgoedinstellingen en onderzoekers voor (her)gebruik.

Oorlogsbrieven als digitale dataset

Het transcriberen wordt komend jaar voltooid en er wordt, met automatische classificatie en crowd sourcing, metadata toegevoegd over personen, plaatsen en organisaties. Dit vormt de basis voor een gestructureerde dataset en opent nieuwe mogelijkheden voor de toepassing van computationele zoek- en analysemethoden. ‘Oorlog uit Eerste Hand’ maakt zo een veelzijdige en bijzondere collectie ‘egodocumenten’ geschikt voor een meer systematische methodologische aanpak in de geschiedwetenschap. Dit kan een belangrijke impuls vormen voor meer schaalbaar onderzoek naar persoonlijke ervaringen van voor, tijdens en na de Duitse bezetting van Nederland en de rekolonisatie-oorlog in Indonesië.


Fragment van een getranscribeerde briefwisseling in de werkomgeving van Transkribus Bron: NIOD Collectie 247, inventarisnummer 1206

Fragment van een brief met tekst in drie verschillende richtingen geschreven
Bron: NIOD Collectie 247, inventarisnummer 1298, scan 36­­

‘Oorlog uit Eerste Hand’ wordt mede mogelijk gemaakt door financiering van het Ministerie van Volksgezondheid, Welzijn en Sport en het Mondriaan Fonds.
Meer informatie is te vinden op de website van het NIOD en in diverse blogs.