Onlangs bezocht ik een congres van de Koninklijke Bibliotheek (KB) in Den Haag over ‘Historische kranten als big data’. De KB kwam er met een verrassing, namelijk dat ruim 370.000 rechtenvrije kranten tot 1876 als dataset kunnen worden gedownload.
Voorheen kon je, als onderzoeker, een bepaalde titel of een reeks kranten uit een bepaalde periode opvragen, maar daar moest het nodige papierwerk voor worden ingevuld. Nu is dat een stuk makkelijker geworden: op de pagina delpher.nl/data/kranten staan 22 zipbestanden die voor iedereen te downloaden zijn. Eén zip-bestand met 17de-eeuwse kranten, tien zip-bestanden met 18de-eeuwse kranten en elf zip-bestanden met 19de-eeuwse kranten.
Er staat op die pagina ook een klein proefbestand en dat heb ik daags na het congres gedownload. Op het congres werd gemeld dat je ‘complete sets kranten’ kon downloaden, maar dat bleek niet helemaal te kloppen. In de zipbestanden zit de OCR-laag van de kranten: de tekstlaag achter de afbeeldingen van de krantenpagina’s. Als je de scans of pdf’s wilt downloaden, moet je zelf aan de slag met de meegeleverde metadata.
Laat ik om te beginnen zeggen dat ik blij ben met deze stap. Ik ken veel mensen die intensief van Delpher gebruikmaken, maar de meesten van hen zijn vooral bezig met knippen en plakken uit deze onmisbare bron. De mogelijkheid om grotere sets te kunnen downloaden stond bij menigeen op het verlanglijstje, dus het is mooi dat daar nu een begin mee is gemaakt.
Toch voorspel ik dat de meeste onderzoekers gewoon in Delpher zullen blijven zoeken en niet in de bulkpartijen die nu worden aangeboden. Dat komt door de kwaliteit van de OCR. Letters op afbeeldingen van boeken en kranten worden automatisch ‘herkend’ door een tool en de kwaliteit van de OCR in Delpher – vooral van de oudere kranten – laat veel te wensen over.
Dat is geen nieuws. Sterker nog: twee jaar geleden, op het eerste KB-congres over dit onderwerp, kwam dit uitgebreid ter sprake en nu weer. Voor sommigen was het even schrikken dat er in de afgelopen twee jaar in Delpher nauwelijks iets is gedaan aan OCR-verbetering, maar het staat hoog op de agenda dus dat geeft goede hoop.
Zoals gezegd bevatten die zipsets de OCR-tekst plus metadata. In het proefbestand opende ik de eerste OCR-tekst uit 1876, want hoe jonger de tekst, hoe groter de kans op relatief goede OCR-tekst. Er stond: ‘goj °J correspondent der Köln. Zeitung is in het bezit IL1*,', van bot ontwerp, dat door de Russische regoe- Wl .^° c°nferentie zal worden ingediend on dat de >U(v<,0l& apos;mingen schetst, dio zij voor Bulgarije wenscht Yv°erd te zien.’
Ik ben onvoldoende technisch onderlegd om te snappen hoe je via de meegeleverde metadata de oorspronkelijke pagina kunt vinden. En dus zocht ik maar in de gewone zoekregel bij Delpher op ‘bot ontwerp, dat door de Russische’. Dat leverde één artikel op, uit het Algemeen Handelsblad van 1876. Het stuk gaat onder meer over de verdeling van grondgebied in Bulgarije om de vrede te bewaren tussen Christenen en Mohammedanen. De OCR-tool heeft hiervan gemaakt: ‘verdeeling tussehen christenen **ld 1 mmeaaneni A-an’.
Ik ga al die Delpher-sets zeker downloaden, maar wellicht wacht ik nog even op de volgende grote stap: de verbetering van de OCR.
Ewoud Sanders
Taalhistoricus en journalist. Sanders is vaste medewerker van onder meer NRC Handelsblad en Onze Taal.