Het belang van PIDs voor het citeren van datasets

Dit artikel laat zien hoe het ODISSEI Portal het citeren van CBS microdatasets mogelijk maakt door aan deze sets Persistent Identifiers (denk bijvoorbeeld aan DOI’s) toe te kennen. Een DOI maakt het eenvoudig om snel datasets te kunnen vinden. Door Angelica Maineri en Thomas Groen

Het gebruik van persistent identifiers (ook wel PIDs) is een van de steunpilaren van de FAIR (Findability, Accessibility, Interoperability and Reusability) principes. Een PID helpt bij het identificeren van een specifieke bron, net als een burgerservicenummer (BSN) dat doet om een specifiek individu in Nederland te identificeren. Het bekendste voorbeeld van een PID is een DOI, een unieke reeks van cijfers en letters die een specifiek ‘object’ op het internet identificeert, zoals een gepubliceerd artikel of een dataset. Bij het citeren van data­sets in academische publicaties zou het gebruikelijk moeten zijn om PIDs te gebruiken, zoals gespecificeerd door de Joint Declaration of Data Citation Principles (JDDCP). 

Voordelen van citeren van data

Het citeren van data in wetenschappelijke publicaties heeft meerdere voordelen. Ten eerste verhoogt het de betrouwbaarheid van een studie omdat dezelfde data kan worden gebruikt om de resultaten te reproduceren. Daarnaast maakt het databronnen zichtbaarder en eenvoudiger te vinden voor hergebruik door andere academici binnen hetzelfde onderzoeksveld. En het is ook een manier om erkenning te geven aan het werk van degenen die de data hebben verzameld en verwerkt. De meeste data repositories (zoals Dataverse, Zenodo en Figshare) voorzien gebruikers van richtlijnen hoe er geciteerd kan worden maar geven ook een aantal daadwerkelijke referenties. 

Citeren van administratieve data

Het ODISSEI Portal maakt het eenvoudig om data uit de uitgebreide CBS microdata-catalogus te citeren via een aanbevolen datareferentie. Elke CBS-registratie in het ODISSEI Portal verwijst naar een data-ontwerp, namelijk een verzameling datasets die dezelfde structuur delen (bijvoorbeeld variabelen en methodologie) maar betrekking hebben op verschillende perioden (bijvoorbeeld jaren). De titels en afgekorte titels van de CBS datasets en data-ontwerpen zijn echter niet altijd consistent, wat het moeilijk kan maken om een specifieke databron te vinden. Hier komt een DOI van pas, zoals beschreven in het onderstaande voorbeeld.

Gebruikers van de dataset KINDOUDERTAB kunnen ontdekken dat het data-ontwerp soms wordt aangeduid als ‘In de Gemeentelijke Basisadministratie Persoonsgegevens (GBA) ingeschreven personen en hun juridische ouders’ of gewoon als ‘Kindoudertab: personen en hun juridische ouders’. Dankzij het ODISSEI Portal kan de bron nu worden geciteerd met behulp van de DOI 10.57934/0b01e410801f9401. Een hyperlink brengt de lezers naar de juiste webpagina waar KINDOUDERTAB op het ODISSEI Portal wordt beschreven, ongeacht welke naam er wordt gebruikt.

Door middel van DOI’s stelt het ODISSEI Portal onderzoekers in staat eenvoudig te verwijzen naar datasets. Dit biedt voordelen doordat het hen in staat stelt om de data die ze gebruiken in hun CBS-projecten gemakkelijk te citeren, waardoor hun onderzoek transparanter en betrouwbaarder wordt. Bovendien kunnen lezers gemakkelijk toegang krijgen tot uitgebreide informatie, zoals methodologie, over de geciteerde dataset.

https://portal.odissei.nl

Credits: Cottonbro studio via Pexels