‘Verrijkte data maken rijker onderzoek’

Het Couranten Corpus bevat zeventiende-eeuwse kranten die op Delpher beschikbaar zijn. Door toevoeging van allerlei metadata zijn ze nu beter doorzoekbaar voor onderzoekers.

De allereerste Nederlandse krant is de Courante uyt Italien, Duytslandt, &c en verscheen op 14 juni 1618.

De kranten waren al toegankelijk via Delpher, maar systematisch onderzoek was lastig doordat de metadata onvolledig en vervuild waren. Bij metadata moet je denken aan data die extra informatie geven over het krantenbericht, zoals het genre: binnenlands nieuws, buitenlands nieuws, een advertentie of het laatste nieuws.  Ook ontbrak taalkundige verrijking, waardoor je bijvoorbeeld door te zoeken op lopen alle vormen en spelvarianten van het werkwoord ineens vindt. Onder leiding van taalkundige Nicoline van der Sijs is het zeventiende-eeuwse corpus nu opgeschoond en verrijkt.

Hondjes die zoek zijn

Zo’n driehonderd vrijwilligers werkten mee; zij hebben alle artikelen handmatig overgetikt. Dat was best een uitdaging, vertelt Van der Sijs, vanwege het gotische schrift. “Het zijn vaak kleine letters die dicht op elkaar staan. Het papier was ook vrij kwetsbaar en er is niet altijd even voorzichtig mee omgesprongen, dus sommige pagina’s zijn zwart of gebold en moeilijk leesbaar. Met name hoofdletters zijn lastig, vooral als het om plaatsnamen of personen gaat die je niet kent.”

Toch was de meerderheid van de vrijwilligers erg gemotiveerd, zegt de onderzoeker, omdat het materiaal zo boeiend is. “Je hebt enerzijds het nieuws over de tachtig- en dertigjarige oorlog, wat er gebeurde met de soldaten, maar anderzijds is er ook heel lokaal nieuws. Over hondjes die zoek zijn, mensen die dood gevonden worden in de gracht, diefstal, noem maar op.”

Nederlandse Dataprijs

Om geen fouten te maken werden alle transcripties ook nog eens nagelopen en gecorrigeerd. In 2020 was deze klus geklaard en ontvingen de betrokken partijen (Instituut voor de Nederlandse Taal, Meertens Instituut en de Koninklijke Bibliotheek) de Nederlandse Dataprijs voor dit project. Daarna zijn de metadata bewerkt, en is door het INT automatisch de taalkundige verrijking toegevoegd.

Nu de teksten online staan is Van der Sijs alweer bezig met het vervolgproject. Er is namelijk nog een aantal extra zeventiende-eeuwse kranten gedigitaliseerd, en dan zijn er de kranten uit de 18e eeuw. Ook die zijn deels nog in het gotisch schrift, maar gelukkig kan de computer daar steeds beter mee overweg. “We gaan nu een experiment doen met Transkribus, een computerprogramma dat teksten transcribeert, zodat de vrijwilligers alleen nog maar hoeven te corrigeren. Dat blijft wel nodig, want door gebrek aan context maakt de computer soms fouten die mensen er moeiteloos uithalen. Op deze manier zorgen we voor betrouwbare data en daarmee voor betere onderzoeksresultaten.”

https://ivdnt.org/corpora-lexica/courantencorpus/