Veilig hoog-dimensionale en CBS-data combineren

Steeds meer grote cohort­-onderzoeken verzamelen gegevens die hoog-dimensionaal zijn, zoals MRI-data of hartslag. ODISSEI Data Facility maakt het mogelijk om dergelijke data veilig te analyseren en te koppelen met gegevens van het CBS.

Aan het woord is VU-hoogleraar en oprichter van het Nederlands Tweelingen Register, Dorret Boomsma. “Er zijn werkelijk talloze onderzoeksvragen die met de nieuwe ODISSEI Data Facility beantwoord kunnen worden. Bijvoorbeeld: er is een oude discussie of het wonen in een stedelijke omgeving een risico is om schizofrenie te ontwikkelen. Er is een duidelijk verband tussen deze twee variabelen maar de oorzaak voor het verband is niet eenduidig. We hebben gegevens over woonplaats en verhuisgeschiedenis kunnen combineren met polygenetische scores en vonden een relatie tussen genetische kwetsbaarheid voor schizofrenie en stedelijkheid. Echter, we zien ook aanwijzingen dat niet zozeer de stedelijke omgeving risicoverhogend is, maar dat een kwetsbaarheid voor schizofrenie de kans op verhuizen naar een stad verhoogt.”

De Nationale supercomputer Cartesius van SURFsara is het grootste systeem in Nederland op het gebied van high-performance computing en is vooral gewild vanwege de combinatie van zeer snelle processors, een zeer snel intern netwerk, veel geheugenruimte en de mogelijkheid grote datasets te verwerken.
credits SURFsara

Onderzoekers konden gekoppelde data al analyseren in de omgeving van het CBS, maar dat gold niet voor hoog-dimensionale data. Hoe is dit nu mogelijk gemaakt?

“Er is een strikt beveiligde omgeving gecree-erd bij SURFsara die een extensie is van de beveiligde CBS-omgeving. Hoog-dimensionale data en CBS-gegevens, zoals verhuisgeschiedenis of opleidingsniveau, kunnen hier worden gecombineerd en geanalyseerd met geavanceerde software. De twee datasets verlaten als het ware hun eigen omgeving niet, ze worden alleen tijdelijk samengebracht in deze high performance computing omgeving, die op dat moment afgesloten is van andere systemen en gebruikers.”

Zijn de veiligheid en vertrouwelijkheid van de data gegarandeerd?

Zowel voor de CBS-­gegevens als voor de privacygevoelige biologische gegevens staat veiligheid voorop. Boomsma: “Bij ons is niet bekend dat er elders een omgeving is gecree-erd waarin dergelijke koppeling mogelijk is, in de vorm waarin de veiligheid en vertrouwelijkheid van de data tijdens het hele proces volledig gegarandeerd blijven.”

Er is onlangs een geslaagde technische pilot geweest. Welke uitdagingen kwamen jullie tegen?

“Dat varieerde van het opzetten van de beveiligde verbinding tussen CBS en SURFsara tot het juridisch vastleggen van alle verantwoordelijkheden in een samenwerkings- en verwerkersovereenkomst en de procedures rond het veilig koppelbaar maken van de databestanden.”

Voor wie is de faciliteit beschikbaar?

“Dit jaar laten we een handvol onderzoeksprojecten ervaring opdoen met de gerealiseerde faciliteit; na eventuele aanpassingen na deze pilot kunnen ook onderzoekers binnen het ODISSEI-consortium met de faciliteit werken.”

odissei-data.nl

ODISSEI

Het ODISSEI-consortium is een unieke samenwerking tussen ruim 20 cohorten en bijna 30 onderzoeksinstellingen uit de sociale en economische wetenschappen.