Historische biodiversiteit digitaal ontsluiten

Lise Stork helpt onderzoekers om moeilijk toegankelijke gegevens te verwerken met computationele technieken. Eind 2019 ontving ze hiervoor de Young eScientist Award.

Onderzoeksinstellingen en natuurmusea herbergen veel archieven waarin gegevens over historische biodiversiteit zijn vastgelegd. Deze data zijn nog altijd relevant, maar de toepassing ervan wordt bemoeilijkt door het complexe, vaak ondoordringbare karakter van deze archieven. Lise Stork, PhD kandidaat aan het Leiden Institute of Advanced Computer Science (LIACS), combineert in haar onderzoek verschillende computationele modellen om dergelijke archieven toegankelijk te maken en zo het wetenschappelijk onderzoek te accelereren.

Digitaal vindbaar 

Er zitten verschillende uitdagingen aan het ontsluiten van de informatie in het soort manuscripten dat Stork gebruikt, veelal soortbeschrijvingen en -schetsen van wetenschappers op onderzoeksexpedities in gebieden met een rijke flora en fauna. Voorbeelden van uitdagingen zijn bijvoorbeeld de kwaliteit van het handschrift, meertaligheid en verouderde terminologie. Stork gebruikt een innovatieve mix van methoden en technieken om belangrijke stukjes informatie in de manuscripten machine-leesbaar, en daarmee digitaal vindbaar te maken. “Eerst modelleer ik elementen die in de manuscripten voorkomen aan de hand van achtergrondkennis uit het domein, bijvoorbeeld taxonomie, anatomie en geografie. Vervolgens gebruik ik beeldherkenning om deze specifieke elementen – soortnamen, anatomische kenmerken en locaties – automatisch terug te vinden. Deze elementen maak ik vindbaar aan de hand van de standaarden van het kennisdomein, met behulp van semantische webtechnieken.”

Naar een webomgeving

Haar onderzoek maakt deel uit van het NWO-project Making Sense of Illustrated Handwritten Archives. Stork heeft een workflow ontwikkeld waarmee onderzoekers relatief eenvoudig historische manuscripten kunnen omzetten in machine-leesbare data. De volgende stap is de ontwikkeling van een schaalbare en duurzame webomgeving, waarin wetenschappers historische onderzoeksarchieven betekenisvol kunnen ontsluiten. Zo kan er efficiënt door deze manuscripten worden gezocht en kunnen relaties worden blootgelegd. De ontwikkeling van deze omgeving wordt ondersteund door het eScience Center, dat in november 2019 de Young eScientist Award toekende aan Stork voor dit idee.

Mens centraal

Hoewel de focus in het onderzoek ligt op historische biodiversiteitsdata, zijn de resultaten van het onderzoek van Stork en haar mede-onderzoekers breder toepasbaar: “De essentie van deze technieken en workflow is dat de mens centraal staat: we helpen mensen bij lastige keuzes door ze van de juiste informatie te voorzien en suggesties te doen, daar waar beelddata met gestructureerde, terugkerende informatie een rol speelt.” 

Winnaar van de Young eScientist Award 2019 Lise Stork helpt onderzoekers om moeilijk toegankelijke gegevens te verwerken met computationele technieken. Credits: Thijs Stork Photography

liacs.leidenuniv.nl/~storkl/