Met AI zoeken in historisch fotomateriaal

Het Nederlandse fotografische geheugen is in toenemende mate online beschikbaar. Hoe zorg je ervoor dat je daarin doeltreffend kunt zoeken? Artificial Intelligence-technieken kunnen helpen.

De meeste beeldherkenningsalgoritmes zijn getraind op modern fotomateriaal en presteren daarom minder goed op historische beelden. Door de algoritmes te trainen op historisch materiaal kan het fotografisch geheugen aanzienlijk worden verbeterd. Melvin Wevers van het KNAW Humanities Cluster werkt aan zo’n algoritme voor de twee miljoen foto’s uit de periode 1945-2004 van Fotopersbureau De Boer. De foto’s liggen in de depots van het Noord-Hollands Archief. Een deel is gedigitaliseerd en wordt vanaf deze zomer door vrijwilligers van velehanden.nl van labels voorzien. Het door Wevers ontwikkelde algoritme is daarbij leidend.

Sneeuw of zand?

Bestaande beeldherkenningstechnieken werken soms al heel goed, legt Wevers uit, omdat de algoritmes getraind zijn op specifieke datasets voor specifieke taken. “Zelfrijdende auto’s zijn bijvoorbeeld heel goed in het herkennen van verkeersborden. Maar veel objecten verschillen door de tijd heen te veel: een telefoon ziet er anders uit dan tien jaar geleden. Bovendien bevatten veel datasets geen historisch materiaal. “En dan hebben we het nog niet over de kwaliteit van de afbeelding of de techniek. Veel oude foto’s zijn in grijstinten; een sneeuwlandschap en een strand zijn moeilijk van elkaar te onderscheiden. Mogelijke oplossingen zijn om met AI oude afbeeldingen automatisch te laten inkleuren, of bestaand trainingsmateriaal juist zwart-wit te maken.”

Toch werkt Wevers met bestaande algoritmes voor een eerste indicatie. “Een bestaand model is op heel veel afbeeldingen getraind. Sportwedstrijden worden bijvoorbeeld makkelijk herkend. Maar veel van die afbeeldingen komen van websites als Flickr, en hebben een sterke Amerikaanse bias.” Het labelen van de afbeeldingen gebeurt daarom deels handmatig. Ook maakt de onderzoeker gebruik van labels die eerder zijn toegevoegd door de fotografen van persbureau De Boer. In samenspraak met het Noord-Hollands Archief komt Wevers zo tot een lijst met labels. Dat wordt de input voor het Vele Handen-project: mensen kunnen straks kiezen uit de labels die het computeralgoritme genereert. 

Het labelen van afbeeldingen gebeurt deels handmatig. Ook wordt gebruikgemaakt van labels die eerder zijn toegevoegd. In samenspraak met het Noord-Hollands Archief komt Wevers zo tot een lijst met labels. 
Credits: Noord-Hollands Archief

Naar 90 procent

Het algoritme heeft nu een correcte score van 85 procent, Wevers streeft naar 90 procent. “Ik hoop uiteindelijk een algoritme te ontwikkelen dat niet alleen toepasbaar is op deze collectie, maar ook op andere collecties, zoals die van het Nationaal Archief.” 

velehanden.nl