SANE – Secure ANalysis Environment

Gevoelige datasets met vertrouwelijke informatie kunnen niet zomaar worden gedeeld voor wetenschappelijk onderzoek. SANE biedt een gecontroleerde omgeving voor het delen en analyseren van dergelijke gegevens. Door Evgeniia Krichever, Lucas van der Meer

Een van de grootste uitdagingen bij het werken met gevoelige gegevens is het beheer ervan en het voorkomen van datalekken. Hierdoor zijn veel gegevensaanbieders, zeker buiten de academische wereld, terughoudend om hun data beschikbaar te stellen voor wetenschappelijk onderzoek uit angst de controle over de data te verliezen. Maar wat als het delen van gevoelige gegevens niet alleen veilig is, maar ook via een eenvoudig en gestandaardiseerd proces zou kunnen? Samen met SURF en CLARIAH heeft ODISSEI een SANE oplossing ontwikkeld voor het aangaan van deze uitdaging, en draagt daarmee bij aan wetenschappelijk onderzoek zonder grenzen. 

Wat is SANE?

Secure ANalysis Environment (SANE) is een AVG-conforme onderzoeksomgeving voor het delen en analyseren van gevoelige datasets. Hiermee behouden gegevensaanbieders de volledige controle over hun data. Deze oplossing helpt aanbieders de juiste balans te vinden tussen enerzijds het delen van waardevolle datasets die niet openbaar beschikbaar zijn voor wetenschappers, en de zekerheid dat er tijdens de analyse niks raars gebeurt met hun data. 

Deze omgeving heeft twee varianten – Tinker en Blind SANE – en maakt verschillende manieren van werken met gevoelige data mogelijk, afhankelijk van het type onderzoeksproject en de vereisten van de aanbieders. 

In Tinker SANE krijgt de onderzoeker toegang tot gevoelige gegevens en kan hij er mee ‘spelen’. In Blind SANE kan de onderzoeker de gegevens niet zien en wordt de analyse op de achtergrond uitgevoerd. In beide varianten controleert de dataleverancier of de output-resultaten geen gevoelige informatie bevatten voordat ze geëxporteerd kunnen worden naar de computer van de onderzoeker. 

Make it SANE? Wat de European Data Governance Act en Data Act betekenen voor het delen van gevoelige gegevens

Naar verwachting zal de invoering van de European Data Governance Act en Data Act ertoe leiden dat datasets uit alle sectoren beter beschikbaar komen voor de publieke en academische sector. Dit zal leiden tot nieuwe onderzoeksvragen die ten goede komen aan de samenleving. Omdat de precieze uitwerking van deze regelgeving nog onduidelijk is, is er ruimte voor gegevensaanbieders en onderzoekers om de SANE-methode voor het delen van gevoelige gegevens te hanteren bij de implementatie van de twee wetten. 

SANE draait op het SURF Research Cloud-platform (gecertificeerd volgens ISO 27001) en volgt het Five Safes-principe. Hiermee ontstaat een volledig afgesloten omgeving, en gegevensaanbieders behouden de controle: ze kunnen voorkomen dat onderzoekers extra data uploaden en kunnen hun activiteiten monitoren. Zo ontstaat een platform voor het uitwisselen van datasets zonder dat deze openbaar beschikbaar zijn. 

SANE is een 4-jarig samenwerkingsproject gefinancierd door het Platform Digitale Infrastructuur Social Sciences & Humanities (PDI-SSH). SANE is momenteel toegankelijk voor gebruik door Nederlandse onderzoeks- en onderwijsinstellingen, met ad-hoc toevoeging van organisaties daarbuiten. Bezoek voor meer informatie de SURF website.

Photo by Luca Bravo on Unsplash