Onderzoekers in Maastricht ontwikkelen onder leiding van Michel Dumontier een algoritme om gevoelige data te analyseren zonder dat de onderzoeker zelf de data te zien krijgt.
Sociale wetenschappers staan voor de uitdaging om onderzoek te doen met grote datasets die gevoelige informatie bevatten. De computationele mogelijkheden om dergelijke datasets te analyseren, nemen toe. Daarom groeit de vraag naar innovatieve manieren om analyses veilig uit te voeren. Michel Dumontier, universiteitshoogleraar Data Science aan de Universiteit Maastricht, doet met zijn team onderzoek om aan die vraag te voldoen. Het project is deel van de ODISSEI Roadmap, gefinancierd door NWO.
Het team ontwikkelt Distributed Analytics Techniques voor de sociale wetenschappen. Het doel is om een algoritme te programmeren dat op verschillende datalocaties gevoelige data analyseert, zonder dat de onderzoeker zelf deze data inziet.
Analyse op plek data
Dit uitgangspunt is gebaseerd op de Personal Health Train (PHT) uit de gezondheidswetenschap. Onderzoekers moesten data vanuit bijvoorbeeld ziekenhuizen op een centrale plaats verzamelen. De PHT gaat juist langs de ziekenhuizen om daar de analyse uit te voeren. Alleen de resultaten neemt het algoritme mee naar het volgende datastation. Op deze manier blijft het datastation (in dit voorbeeld het ziekenhuis) controle houden over de data.
Het Distributed Analytics Techniques project heeft in samenwerking met het Nationaal Regieorgaan Onderwijsonderzoek (NRO) een vergelijkbaar doel, vanuit de wens om onderzoek te doen aan de hand van leerlingengegevens op scholen. Het wil de data bij de scholen laten, waar het algoritme de analyse uitvoert. Ook dan krijgt de onderzoeker alleen de resultaten. Michel Dumontier licht toe: “Het is ons doel om de gezondheid en het welzijn van leerlingen en docenten te onderzoeken door middel van een veilige, betrouwbare, en privacybeschermende data-infrastructuur. ODISSEI biedt ons de ideale samenwerkingsomgeving om op een verantwoorde manier een nieuwe benadering van sociaalwetenschappelijk onderzoek met big data te onderzoeken.”
Het project heeft verschillende uitdagingen. Natuurlijk moet het garanderen dat het algoritme de analyse op een wetenschappelijk solide manier uitvoert. Het is daarbij belangrijk een goed metadatasysteem te ontwikkelen. Juridisch gezien is het project vanzelfsprekend gebonden aan de Europese privacywetgeving. Maar wie geeft toestemming om bepaalde data op deze nieuwe manier te gebruiken? Tot slot staat transparantie centraal. Het project moet vertrouwen inboezemen dat er hierdoor veilig met gevoelige data wordt omgesprongen. Uiteindelijk wil het team software ontwikkelen die ook voor andere projecten kan worden ingezet.