Data is de nieuwe olie, wordt vaak gezegd. Maar waar naar olie kan worden geboord, is data veel complexer: data is persoonlijk en veelal gevoelig. Dat maakt data niet alleen waardevol, maar ook risicovol. En dat zien we nu terug in het groeiende dilemma waar organisaties mee worstelen: moeten ze hun data doneren om een Nederlands open, transparant en soeverein taalmodel te trainen?

Door Annette Langedijk

De vraag klinkt redelijk. Grote taalmodellen, zoals die van OpenAI of Google, hebben bergen data nodig om te leren. Daarnaast gaat het niet alleen om de hoeveelheid data, maar ook om nuance, context en cultuur. Een taalmodel dat getraind is op data uit verschillende hoeken van de samenleving en industrie, kan inclusiever en accurater worden. Zonder voldoende data worden de antwoorden van een AI-chatbot te beperkt en is er meer kans op bias.

Om dit te doorbreken, is er een simpele oproep: deel je data, zodat taalmodellen slimmer en inclusiever worden. Maar zo eenvoudig ligt het niet.

Organisaties houden hun data echter liever bij zich. Er zijn zorgen over privacy. Veel data bevat gevoelige informatie, zelfs als het geanonimiseerd is. Combineer enkele gegevenspunten, en een individu kan alsnog worden herleid.

Daarnaast zijn er concurrentiebelangen. Data is een strategisch bezit. Het idee dat die waardevolle informatie wordt gebruikt om een extern model, mogelijk van een concurrent, slimmer te maken? Dat schuurt. Zeker wanneer het eindproduct, een slimmer taalmodel, niet per se toegankelijk is voor de organisatie die de data heeft aangeleverd. Tenslotte is er nog de ethische kant. Veel organisaties voelen zich verantwoordelijk voor wat er met hun data gebeurt. Wat als jouw gegevens bijdragen aan een taalmodel dat vervolgens verkeerde informatie verspreidt? Of dat gebruikt wordt voor praktijken waar je als organisatie niet achter staat?

Hoe komen we uit dit dilemma? Welke offers of afwegingen zijn we bereid te maken om gezamenlijk een transparant en soeverein Nederlands taalmodel te ontwikkelen?

De oplossing ligt in een andere benadering: data-donatie, maar met duidelijke spelregels. Samen met alle relevante actoren (publiek, privaat en maatschappelijk) moeten regels voor gebruik van de data, garanties over veiligheid en gedeelde toegang tot het eindproduct worden afgestemd.

Dit is een cruciale discussie die we als samenleving moeten voeren. Want alleen als organisaties vertrouwen dat de partijen waarmee ze hun data delen dit op een veilige en verantwoorde manier zullen gebruiken èn data delen meer oplevert dan het kost, zullen organisaties die stap durven zetten.

Annette Langelijk is research partnership lead voor de sociale- en geesteswetenschappen bij SURF.