NEWSGAC biedt een kijkje onder de motorkap

Met digitale methoden kan op grote schaal onderzocht worden hoe journalistiek zich in de twintigste eeuw heeft ontwikkeld. Het beste algoritme daarvoor kiezen, is echter een uitdaging.

Digitale krantenarchieven maken het tegenwoordig mogelijk om op grote schaal onderzoek te doen naar ontwikkelingen in verslaggeving. Het NEWSGAC-project brengt journalistieke ontwikkelingen in beeld door de genres van krantenartikelen te classificeren. Een genre is bijvoorbeeld ‘reportage’, waarin verslaglegging op locatie belangrijk is. Een ander voorbeeld is ‘opiniërende essay’, een genre met de nadruk op de mening van de schrijver. Het classificeren gebeurt met machine learning. Onderzocht wordt of de journalistiek in de twintigste eeuw inderdaad steeds minder politiek en opiniërend werd, zoals vaak wordt aangenomen.
NEWSGAC wil niet alleen deze inhoudelijke vraag beantwoorden, maar ook een platform voor transparantie in machine learning bieden. Automatisch genres toekennen aan krantenartikelen is echter geen vanzelfsprekende klus. Tijdens de eerste experimenten bleken twee zaken van essentieel belang: algoritmes moeten met elkaar vergeleken kunnen worden en de onderliggende opties en aannames moeten inzichtelijk zijn. NEWSGAC maakt via visualisaties inzichtelijk hoe algoritmes kiezen, welke ‘features’ belangrijk zijn bij de classificatie van een artikel.

Onderwerp of genre?

Deze aanpak blijkt succesvol. Niet alleen kan de nauwkeurigheid van algoritmes vergeleken worden, ook de vraag of ze hun keuzes maken op de juiste gronden kan worden beantwoord. De meeste algoritmes blijken bijvoorbeeld vooral goed in het onderscheiden van onderwerpen en minder in het onderscheiden van genres, terwijl juist de levensloop van genres centraal staat in het project. Doordat NEWSGAC dit proces inzichtelijk maakt, kon het beste algoritme gekozen worden. Dat algoritme classificeert nu ook miljoenen artikelen.

Deze confusion matrix heeft op de verticale as het daadwerkelijke genre en op de horizontale as het voorspelde genre. De visualisatie laat zien hoe goed het algoritme het genre van een groep artikelen heeft voorspeld en tussen welke genres verwarring is opgetreden.
Credits: NEWSGACS

ADAH-project

NEWSGAC is een van de vier ADAH-projecten (Accelerating Scientific Discovery in the Arts and Humanities) van CLARIAH en het eScience Center. Andere partners zijn: Rijksuniversiteit Groningen (RUG), CWI, KB en Beeld & Geluid. Hoofdonderzoeker is prof. Marcel Broersma (RUG). Binnenkort wordt NEWSGAC geïntegreerd in de CLARIAH-infrastructuur zodat ook andere onderzoekers met andere vragen en datasets er gebruik van kunnen maken.

esciencecenter.nl/project/newsgac