In het SERPENS-project werken lexicologen, taaltechnologen en historisch ecologen samen om krantenartikelen over flora en fauna beter vindbaar te maken.
Historisch ecologen bestuderen de impact van de natuur op het menselijk handelen door de tijd. Kranten zijn hiervoor een uitstekend medium omdat ze alledaagse gebeurtenissen beschrijven, frequent gepubliceerd worden en met dank aan de Koninklijke Bibliotheek gemakkelijk digitaal te doorzoeken zijn via Delpher.nl, de historische database van Nederland.
Zoekresultaten op ‘wolf’
Relevante artikelen over flora en fauna vinden in miljoenen online artikelen is echter geen kwestie van een zoekterm invullen en dan de resultaten bekijken. Je moet rekening houden met de historische taalontwikkelingen in spelling en woordenschat, en er is een efficiënte manier nodig om de gewenste data uit Delpher te halen en voor onderzoek geschikt te maken. Bovendien kom je bij het zoeken naar bijvoorbeeld een ‘wolf’ deze niet alleen als lid van de soort Canis lupus tegen, maar ook als achternaam (John de Wolf), als locatie (Wolf Rock, 15 kilometer van Kaap Land’s End) of bijvoorbeeld in de naam van een filmscript ‘The Sea Wolf’. Alleen al tussen 1930 en 1939 levert het trefwoord ‘wolf’, zonder synoniemen, 66.809 resultaten op. Het is ondoenlijk om deze resultaten handmatig te analyseren.
Supervised machine learning
Uit het DiaMaNT-lexicon van het Instituut voor de Nederlandse Taal werden historische spellingvarianten en synoniemen van onze zoekterm gehaald. Vervolgens werden de data via de API van Delpher binnengehaald en in een databaseomgeving gezet. Een historisch lexicon maakte een inschatting van de OCR-kwaliteit. Om de relevante artikelen te selecteren, is een automatisch classificatiesysteem ingezet om het onderscheid dier versus geen dier te kunnen maken. Ook gaf het aanvullende informatie: bevat het artikel bijvoorbeeld een beschrijving van een jachtgebeurtenis of een verslag over materiële schade door een dier. Het systeem gebruikte een ‘supervised machine learning’-algoritme: het leerde van een door een domeinexpert geannoteerde trainingsdataset door in artikelen karakteristieken te herkennen die tot een bepaalde classificatie leiden. Getest op nieuwe artikelen, wist het systeem in 92% van de gevallen correct te identificeren of een artikel al dan niet over een dier gaat. Uiteraard willen historisch ecologen nog veel meer weten. Door de computer de gigantische bak resultaten te laten filteren, kunnen zij zich richten op de diepere analyse van relevante artikelen.
SERPENS is een samenwerking tussen de Radboud Universiteit Nijmegen, het Instituut voor de Nederlandse Taal en het KNAW Humanities Cluster. SERPENS is mogelijk gemaakt door het NWO-project CLARIAH-CORE.