Als één woord de gemoederen in Dataland bezighoudt, dan is het het woord FAIR. Maar hoe vertaal je deze principes voor betrouwbare datasets naar de praktijk?
FAIR staat voor Findable, Accessible, Interoperable en Reusable. Het fraaie acroniem FAIR is gedoopt tijdens de workshop Jointly designing a data FAIRPORT in Leiden in 2014. Sindsdien is de populariteit alleen maar toegenomen. FAIR-data zijn data die vindbaar, toegankelijk, uitwisselbaar en herbruikbaar zijn. En wie wil dat nu niet? Zelfs de laatste richtlijn voor datamanagement, vereist voor aanvragen in het Horizon 2020-programma van de Europese Unie, verlangt dat onderzoekers FAIR-data produceren.
DSA als voorbeeld
Voor het toepassen van de FAIR-principes in de praktijk kan het kader van het Data Seal of Approval (DSA) worden gebruikt. In 2006 bedacht DANS dit keurmerk voor de betrouwbaarheid van digitale data-archieven, gebaseerd op vijf principes. Ook DSA heeft de afgelopen tien jaar een grote rol gespeeld in Dataland: inmiddels zijn ruim 60 archieven DSA-gecertificeerd. FAIR en DSA lijken elkaar perfect aan te vullen: het DSA geeft een kwaliteitsstempel voor databewaarplaatsen, FAIR geeft principes waaraan individuele datasets moeten voldoen.
Wat betekent dit voor de praktijk? DANS ziet graag dat iedere dataset in een repository met een DSA-stempel een duidelijke FAIR-score krijgt. Die score moet in één oogopslag duidelijk maken of een dataset aan de 4 FAIR-principes voldoet. Op die manier zal de FAIR-score tevens een aanduiding zijn voor datakwaliteit.
Verder uitwerken
Een eerste stap is het bereiken van overeenstemming over de uitwerking van de FAIR-principes. Ook hier dient DSA als voorbeeld: de principes zijn uitgewerkt in een 16-tal nauwkeurig toegelichte criteria. Over de FAIR-principes bestaat op hoofdlijnen al overeenstemming, maar in de details zijn er verschillen in interpretatie. Want wat betekent het precies dat een dataset vindbaar, toegankelijk of interoperabel moet zijn? En is herbruikbaar niet de optelsom van de eerste drie? Kunnen dezelfde criteria voor alle vakgebieden gelden?
Rol datamanager
DANS stelt ook voor om een dataset die bij een archief binnenkomt, direct door een datamanager te laten beoordelen op de mate van FAIR-ness: zijn de metadata en documentatie op orde? Zijn de data toegankelijk, en zijn eventuele beperkende voorwaarden helder? Zijn de gegevens eenvoudig te koppelen aan andere datasets en wordt gebruik gemaakt van standaard coderingsschema’s? Uiteraard kan ook aan gebruikers van datasets worden gevraagd hun oordeel te geven over de FAIRness van de datasets door dezelfde vragen te beantwoorden. DANS buigt zich dit jaar verder over de vraag, hoe dit er in de praktijk uitziet.
datafairport.org
force11.org
datasealofapproval.org
dans.knaw.nl