Miljoenen teksten digitaal doorzoekbaar

Op 1 juli wordt Nederlab opgeleverd: met miljoenen Nederlandse teksten biedt het onderzoekers een schat aan informatie over de Nederlandse taal en cultuur.

In 2012 kreeg Nederlab 3,2 miljoen euro toegekend door NWO. Nu, 6 jaar later, geeft Nederlab met zo’n 25 collecties aan teksten, lopend van de 13e tot 21e eeuw, een flinke impuls aan diachroon geesteswetenschappelijk onderzoek. Van krantenteksten tot dagboeken: in Nederlab vind je allerlei soorten teksten. Het oudst zijn de dertiende-eeuwse teksten uit het Corpus Gijsseling, gevolgd door de veertiende-eeuwse teksten uit het Corpus Van Reenen-Mulder. Meer van deze tijd zijn teksten uit grote krantencorpora of hele romans afkomstig uit de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL). Voor onderzoekers biedt Nederlab een schat aan informatie over de Nederlandse taal en cultuur.

Het Nederlab-consortium bestond uit het Meertens Instituut, het Instituut voor Nederlandse taal, het Huygens ING, de Universiteit Nijmegen, de Koninklijke Bibliotheek, de DBNL en diverse dataleveranciers. Niet alleen veel data werden bijeengebracht, ook werd gezorgd voor een onderliggende infrastructuur en een groot aantal tools. Doordat de data taalkundig verrijkt zijn, is het mogelijk om bijzonder complexe zoekopdrachten uit te voeren over een heel breed corpus.

40 miljard annotaties

Hennie Brugman is IT-ontwikkelaar aan het Meertens Instituut en coördinator van Nederlab. Hij vertelt hoe de zoekmachine is opgebouwd: “Bij de oplevering bevat Nederlab dertig miljard woorden. Die hebben we zo veel mogelijk voorzien van taalkundige annotaties via automatische processen. Ieder woord is bijvoorbeeld gekoppeld aan een lemma en een woordsoort. Zo ontstaat een structuur van aan elkaar gekoppelde lagen van tekstwaarden. Het zoeken kun je doen door alle lagen heen; dat is de basis van de hele machine. Bij tien miljard woorden praat je dus al gauw over 40 miljard annotaties.”

De zoekterm ‘medelijden hebben’ binnen de Nederlabportal ‘geavanceerd zoeken’ in ‘zoeken in tekst’ toont binnen de dataset ‘Het evangelie volgens Matteüs’ 2 hits met de volgende taalkundige tags: lemma (woord), pos (woordsoort, bijvoorbeeld spec = speciaal, ww ­= werkwoord, vz = voorzetsel), kenmerken verwijst naar de functie in de zin (pv = persoonsvorm, tgw = tegenwoordige tijd, ev = enkelvoud). Met dit resultaat kan een onderzoeker nagaan hoevaak de combinatie ‘medelijden hebben’ in deze tekst voorkomt. 
credits Nederlab

Ontwikkeling door tijd

Iedereen kan Nederlab gebruiken, maar onderzoekers en studenten hebben meer onderzoeksmogelijkheden na inlog. Zo kunnen ze hun eigen corpus samenstellen. Nicoline van der Sijs, taalkundige aan het Meertens Instituut, schreef destijds het projectvoorstel en is ook daarna nauw betrokken geweest bij Nederlab. Voor haar onderzoek maakt ze al regelmatig gebruik van het nieuwe onderzoeksportaal: “Wat ik interessant vind, is dat je een ontwikkeling kunt volgen over een periode van eeuwen. Dat kon voorheen niet omdat alle corpora met Nederlandse teksten versnipperd waren. Ik denk dat we hierdoor nieuwe inzichten krijgen in de ontwikkeling van het Nederlands en de oorzaken van taalverandering.”

www.nederlab.nl/onderzoeksportaal