Kennisgraaf voor VOC-datasets

Het aantal digitale bronnen dat beschikbaar is voor onderzoek is enorm. Om datasets snel te kunnen doorgronden, vormen kennisgrafen een oplossing. Door: Mathilde Jansen.

Binnen de digital humanities werken onderzoekers vaak met meerdere gedigitaliseerde datasets. Daarbij zijn ze veel tijd kwijt met het verzamelen, interpreteren en gelijktrekken van verschillende bronnen. Niet alleen is dit een tijdrovende bezigheid, het zorgt er ook voor dat bronnen op verschillende manieren geïnterpreteerd worden. Om deze problemen te ondervangen, kunnen kennisgrafen worden ingezet. In een kennisgraaf worden data zodanig gemodelleerd en gekoppeld, dat ze voor mensen en computers snel te doorgronden zijn. 

Afbeelding gemaakt tijdens de elfde editie van de international conferentie over Knowledge Capture #kcap2021. 
Credits: www.whiteboardgirl.com

Datasets van de VOC

Het idee van kennisgrafen is niet nieuw. De kennisgrafen die reeds ontwikkeld zijn, hebben echter de nodige beperkingen. Daarom ontwikkelde masterstudent Stijn Schouten onder begeleiding van Victor de Boer (Vrije Universiteit Amsterdam), Lodewijk Petram (Huygens Instituut) en Marieke van Erp (KNAW HuC) een kennisgraaf die gestoeld is op de principes transparantie, toegankelijkheid, herbruikbaarheid en duurzaamheid. De kennisgraaf werd in eerste instantie ontwikkeld voor vier grote VOC-datasets, onder beheer van het Natio­naal Archief en het Huygens Instituut voor Nederlandse Geschiedenis. 

Kennis in brokjes

Om een kennisgraaf te ontwikkelen, wordt gebruikgemaakt van een ontologie: een datamodel waarin alle concepten en entiteiten en hun onderlinge verhoudingen zijn vastgelegd. In de VOC-datasets zijn die entiteiten bijvoorbeeld personen (opvarenden), scheepslading en plaatsen waartussen gereisd wordt. Al deze entiteiten krijgen een unieke code. Ook de relaties worden uitgedrukt in unieke codes via Resource Description Framework (RDF). RDF is ontwikkeld in het Semantic Web-onderzoeksveld en het meest gangbare format voor Linked Data. Hierin worden brokjes kennis opgeslagen als ‘triples’, die bestaan uit een subject, object een predicaat, bijvoorbeeld: De VOC (subject) verhandelde (predicaat) specerijen (subject). Deze manier van modelleren geeft een grote flexibiliteit wat betreft het toevoegen en koppelen van nieuwe bronnen en kennis. 

Schouten: “Ons gebruikersonderzoek laat zien dat deze kennisgraaf bruikbaar is. Bovendien zorgen transparantie en toegankelijkheid ervoor dat onderzoekers voort kunnen bouwen op deze kennisgraaf, maar ook kunnen teruggaan in het proces om bijvoorbeeld andere beslissingen te nemen.”

Lees meer op https://dutchshipsandsailors.nl

DOI: https://doi.org/10.1145/3460210.3493548