Onderzoekers in het project ‘Making Sense of Illustrated Handwritten Archives’ maken een complex negentiendeeeuws onderzoeksarchief toegankelijk met behulp van kunstmatige intelligentie en semantische technologie.
Tussen 1820 en 1850 bracht de Natuurkundige Commissie voor Nederlands-Indië de flora, fauna en natuurlijke hulpbronnen van de Indonesische archipel in kaart. De onderzoekers stuurden duizenden zoölogische en botanische
objecten terug naar Nederland en produceerden een omvangrijk corpus van aantekeningen en publicaties. Naturalis Biodiversity Center in Leiden, beheerder van de collectie, liet het geschreven corpus tussen 2008 en 2011 digitaliseren. Toch bleef het vanwege de complexiteit van de handschriften grotendeels ontoegankelijk.
Waardevolle inkijk
“Zonde,” zegt Andreas Weber, universitair docent Science, Technology and Policy Studies (STePS) aan de Universiteit Twente, “de veldaantekeningen en dagboeken geven een waardevolle inkijk in de dagelijkse praktijk van historisch natuuronderzoek. Bovendien vormt de collectie van de Natuurkundige Commissie waarschijnlijk wereldwijd het meest complete archief van de negentiende-eeuwse biodiversiteit van Indonesië, een belangrijke biodiversiteitshotspot.” Weber is als PostDoc verbonden aan ‘Making Sense of Illustrated Handwritten Archives’. In dit NWO Creatieve Industrie-project, met cofinanciering van Brill Scholarly Publishing, maken Naturalis, de universiteiten van Leiden, Groningen en Twente en Brill de handschriften van de Natuurkundige Commissie doorzoekbaar en koppelbaar aan de verzamelde objecten. Dit doen ze met behulp van automatische handschriftherkenning en semantische annotatie. Een uitdaging volgens Weber: “Dergelijke natuurhistorische archieven zijn complexe visuele landschappen waar gerelateerde informatie op verschillende plekken en in verschillende vormen en talen te vinden is. Bijvoorbeeld als tekeningetjes, uiteenlopende notatijwijzen, enzovoort.”Als oplossing wordt MONK gebruikt, een geavanceerde ICT-architectuur voor automatische handschriftherkenning, ontwikkeld door het team van Lambert Schomaker, hoogleraar Kunstmatige Intelligentie aan de Rijksuniversiteit Groningen. Weber: “MONK zoekt naar visuele patronen in de vorm van woorden en andere beeldelementen. Door bovendien een betekenis aan een woordbeeld te koppelen, leert het systeem woordklassen te identificeren. Daar kan het systeem bij vergelijkbare nieuwe manuscripten weer gebruik van maken.”
Koppeling
De koppeling tussen collectieobjecten en gerelateerde informatie in de handschriften wordt verder gefaciliteerd door de Semantic Field Book Annotator, een tool waarvoor Lise Stork, PhD bij het Leiden Institute of Advanced Computer Science (LIACS) in oktober 2019 de Young eScientist Award ontving. Eind 2020 lanceert Brill het platform Natuurkundige
Commissie Online, waarin het archief open doorzoekbaar zal zijn gemaakt. Een afsluitend congres vindt plaats van 22 tot en met 24 november bij Naturalis.