De Koninklijke Bibliotheek heeft veel zeventiende-eeuwse kranten gedigitaliseerd, maar de tekstherkenningstechniek OCR was niet goed genoeg om deze kranten goed doorzoekbaar te maken. Tijdens een CLARIAH lunchlezing op 8 april jongstleden spraken Nicoline van der Sijs (Radboud Universiteit) en Joris van Zundert (Huygens ING) over het project dat de transcriptie van deze kranten mogelijk maakte. Meer dan tweehonderd vrijwilligers werkten hieraan, wat een corpus van wel 20 miljoen woorden opleverde.
Van Zundert lichtte eerst de achtergrond van het project binnen CLARIAH toe. CLARIAH heeft vanuit het werkpakket ‘tekst’ een oproep gedaan aan wetenschappers om pilotprojecten voor te stellen. Voor CLARIAH speelt de achterliggende vraag of het software kan ontwikkelen die breder toepasbaar is, of dat het kan leiden tot de ontwikkeling van bijvoorbeeld een tutorial over al bestaande methoden en technieken. Van der Sijs droeg haar krantentranscriptieproject aan. Dit project bood verschillende uitdagingen op het gebied van digitale tekst: niet alleen wat betreft de transcriptie, maar ook wat betreft metadata en annotatie. Nu de zeventiende-eeuwse kranten zijn getranscribeerd, gaan ze in de toekomst kijken naar de toepassing van programma’s als Transkribus of Calamari.
Van der Sijs presenteerde hoe ze met de vrijwilligers te werk is gegaan. Het project draaide om kranten tussen 1618 en 1700, waarvan al enige metadata beschikbaar waren. Vrijwilligers gingen aan de slag toen Transkribus nog niet ver was ontwikkeld. De bronnenset is voor taalwetenschappers en historici uniek: het is een longitudinale collectie met een mooi aaneengesloten corpus. Je kan hier zowel op micro- als op macroniveau onderzoek naar doen. Na de transcriptie zijn de metadata nog uitgebreid verbeterd. In de toekomst willen ze er uitgebreider onderzoek mee doen naar de herkomst van nieuws. Vanwege verschillende spellingsvarianten van plaatsnamen en het feit dat correspondenten niet altijd duidelijk waren over welke locatie ze schreven, is dit nog een mooie uitdaging.