Dataverse geschikt maken voor Machine Learning met Croissant

Op 6 maart 2024 kondigde MLCommons (een consortium dat werkt aan standaarden voor kunstmatige intelligentie) de introductie aan van Croissant. Dit is een metadatastandaard, bedoeld om datasets geschikt te maken voor machine learning (ML). Door datasets te voorzien van metadata volgens de Croissant-standaard, worden de datasets makkelijker vindbaar en bruikbaar voor allerlei tools en platforms. Dit is belangrijk om kunstmatige intelligentie (AI) en database systemen met elkaar te integreren. Zowel het bedrijfsleven (onder meer Google, Kaggle, Hugging Face) als academische instellingen (onder meer Harvard University, DANS) dragen bij aan de ontwikkeling van Croissant.

Door Jetze Touber en Vyacheslav Tykhonov

Door datasets te voorzien van metadata volgens de Croissant-standaard, worden de datasets makkelijker vindbaar en bruikbaar voor allerlei tools en platforms. Dit is belangrijk om kunstmatige intelligentie (AI) en database systemen met elkaar te integreren. Zowel het bedrijfsleven (onder meer Google, Kaggle, Hugging Face) als academische instellingen (onder meer Harvard University, DANS) dragen bij aan de ontwikkeling van Croissant.

Eenvoudiger vindbaar

Data vormen de kern van alle ML- en AI-toepassingen. Tot op heden was er echter nog geen gestandaardiseerde methode voor het organiseren en ordenen van de data en de bestanden waaruit elke dataset bestaat. Als gevolg hiervan was het vinden, begrijpen en gebruiken van datasets voor ML een lastige en tijdrovende klus. Een van de doelstellingen van Croissant is dat datasets makkelijker kunnen worden opgespoord en beoordeeld op hun geschiktheid voor toepassing in ML-systemen.

De vocabulaire van Croissant is een uitbreiding van schema.org, een machineleesbare standaard om gestructureerde data te beschrijven, gebruikt voor meer dan 40 miljoen datasets op het web. Door voort te bouwen op schema.org worden de datasets vindbaar via specifieke zoekmachines voor datasets, zoals Google Dataset Search.

Croissant is gemakkelijk te implementeren omdat het niet nodig is om de data zelf, of de manier waarop ze worden weergegeven, te veranderen. In plaats daarvan voegt Croissant een laag metadata toe die de inhoud van de dataset op een gestandaardiseerde manier weergeeft en de belangrijkste kenmerken ervan beschrijft.

Brede implementatie

DANS heeft bijgedragen aan de ontwikkeling van de Croissant-specificatie door input te leveren met betrekking tot FAIR-data management, de herkomst van data en verantwoordelijk AI gebruik. Deze aspecten specificeert Croissant gelaagd in de metadata. De toevoeging van een semantische laag, opgebouwd volgens de FAIR-principes, zal de kwaliteit van data op de lange termijn verbeteren.

DANS zet zich verder, samen met het Harvard Institute for Quantitative Social Science (IQSS), in om de Croissant metadatastandaard in Dataverse op te nemen. Dit betekent dat alle research data repositories gebouwd op de Dataverse software vanaf de volgende release hun metadata kunnen aanbieden in Croissant. De verwachting is dat data geproduceerd door academische en commerciële partijen, waar ze ook zijn opgeslagen, door middel van Croissant naadloos kunnen worden gecombineerd. Het zal academische onderzoekers ook toegang geven tot data uit het bedrijfsleven.

Als je meer wilt weten over Croissant, ga dan naar de website van MLCommons of Google Dataset Search.