Bij het publiceren van wetenschappelijk onderzoek, zoals een artikel in een tijdschrift, is het een goed gebruik om ook de analytische code te delen. Door Angelica Maineri, ODISSEI.

Daarmee worden alle stappen bedoeld die nodig zijn om van de ruwe gegevens tot de gepubliceerde resultaten te komen, inclusief alle gegevensverwerking en analytische stappen. Het gaat dan bijvoorbeeld om een syntaxisbestand van Stata of SPSS of een codeerschema van een kwalitatief onderzoek. Het verzamelen en veilig opslaan van dit materiaal, bijvoorbeeld als onderdeel van gegevenspakketten, wordt steeds vaker vereist door instellingen en tijdschriften, dus waarom niet de extra stap nemen en de gegevens openbaar beschikbaar maken?

Voordelen van code delen

Misschien zijn mensen terughoudend met het delen van hun code, omdat ze bang zijn dat er fouten worden gevonden. Dit kan iedereen overkomen, maar alleen door transparant te zijn is het mogelijk om fouten te corrigeren en te verbeteren. In feite zitten er veel voordelen aan het delen van code. Het verhoogt bijvoorbeeld de betrouwbaarheid van onderzoek omdat anderen alle stappen kunnen bekijken en – als het ook mogelijk is om de onderliggende gegevens te delen – de resultaten kunnen repliceren. Het delen van code stelt de gemeenschap ook in staat om van elkaar te leren, doordat onderzoekers oplossingen voor gezamenlijke problemen opnieuw kunnen toepassen.

Hoe code delen

Er zijn verschillende onlineplatforms die geschikt zijn voor het delen van code. GitHub is erg populair voor versiebeheer, maar garandeert geen langdurige opslag. Daarvoor kunnen beter platforms als Open Science Framework (OSF) en Zenodo worden gebruikt, waar ook een directe verbinding met GitHub-repository’s kan worden gemaakt. Het is niet nodig om ook de onderliggende ruwe gegevens op te nemen, aangezien gegevens vaak wel toegankelijk zijn, maar gebruikers deze niet mogen herdistribueren. Daarom is het bij het delen van code belangrijk om documentatie toe te voegen waarin niet alleen wordt uitgelegd hoe de code gebruikt moet worden, maar ook welke gegevens nodig zijn en hoe deze toegankelijk zijn. Voordat code wordt gedeeld, is het ook belangrijk om te controleren of er geen privacy­gevoelige informatie in de code zelf staat.

Photo by Florian Olivo on Unsplash

ODISSEI-codebibliotheek

Zelfs als gegevens goed gearchiveerd zijn, kan het voor andere onderzoekers lastig zijn om ze te vinden. Om code die gebruikmaakt van de ODISSEI-infrastructuur beter vindbaar te maken, is ODISSEI begonnen met het opbouwen van een bibliotheek van analytische code die is gebruikt in studies die gebruikmaken van LISS-data of CBS-microdata. Voor elk project wordt, naast de link naar de code, de link naar de paper en, indien beschikbaar, een DOI getoond die direct verwijst naar de gebruikte dataset.

Wilt u bijdragen of heeft u ideeën voor verbetering? Stuur een e-mail of plaats uw bijdrage op het GitHub-project!

Link naar ODISSEI-codebibliotheek: angelicamaineri.github.io/ODISSEI-code-library/