Reden waarom ik van de statistiek houd, nummer 433: statistici zijn van die heerlijk ingetogen mensen. De hoogste lof die je als statisticus kan ontvangen is dat je ‘voorzichtig’ bent. En de meest negatieve reactie waar ik getuige van ben geweest, van een statisticus op een toch-niet-zo-heel-zinnig plan van onze groep: een bedachtzame pauze – gevolgd door ‘kán je doen…’. De drie puntjes waren hoorbaar, maar vergevingsgezind.
Dus als je in een vakblad leest, ‘de bezorgdheid is reëel en het gevaar is ook reëel’, dan let je op.
Nu is dit citaat al uit 1972. Maar wel van Ivan Fellegi, een statisticus die zijn tijd ver vooruit was. Fellegi was een Hongaarse immigrant die na de opstand noodgedwongen naar Canada vluchtte, om daar allerlei briljante artikelen te schrijven over onderwerpen die vandaag de dag opeens zeer actueel zijn, zoals het koppelen van verschillende databestanden met onzekerheid. Hij werd ook de ‘Hoofdstatisticus’ van Canada, een titel die ik persoonlijk veel mooier vind dan ‘dichter/theoloog/ramenlapper des vaderlands’. Wat dit vooral betekende is dat hij zich bemoeide met de officiële statistiek. En het gevaar waar hij zich druk om maakte? Privacy.
In de jaren ’70 bestond de bezorgdheid over privacy slechts bij een paar helderziende individuen, die toen al inzagen dat de opkomst van computers en grote databestanden een nieuwe tijd inluidde. Sla nu maar eens een krant open zonder dat allerlei privacy horror stories je bespringen. Zelfs de politiek is wakker geworden, dus dan weet je zeker dat het allang uit de hand is gelopen.
Waarschijnlijk het gevaar, maar zeker de bezorgdheid, zijn nu uitgegroeid tot zo’n groot probleem, dat de Census Bureau (het Amerikaanse CBS) een drastische beslissing heeft genomen. Vanaf nu worden de resultaten van de volkstelling uitsluitend gepubliceerd met behulp van een statistische databeschermingstechniek genaamd “differential privacy”.
Wat is dat nou weer? Welnu. Zelfs als je duidelijke ‘identificatoren’ – variabelen zoals naam, adres, postcode – uit een bestand verwijdert, blijkt het toch vaak mogelijk om personen te herleiden. Dit kan bijvoorbeeld door zo’n ‘opgeschoond’ databestand te koppelen aan andere bestanden die her en der te vinden zijn. Een beroemd voorbeeld is de heridentificatie van een aantal mensen uit een dataset met miljoenen Amerikanen die Netflix online beschikbaar had gesteld voor onderzoeksdoeleinden. Het CBS beschermt ons al sinds jaar en dag tegen dit soort praktijken, en speelt internationaal zelfs een leidende rol in het ontwikkelen van het soort databeschermingstechnieken waar Fellegi in 1972 over schreef.
Maar een groep informatici, aangevoerd door Cynthia Dwork van Harvard, was toch ontevreden. Ze bedachten een strenge, formele definitie van privacy en een set methoden om die te waarborgen: differential privacy. Het idee is simpel: stel, er moet een ‘uitkomst’ gepubliceerd worden. Dat kan een tabel zijn of een correlatie, maar ook een volledige dataset. Deze data worden niet lukraak op het internet geplempt, maar moeten eerst een verstoring ondergaan, bijvoorbeeld door er willekeurige ruis bij op te tellen. Als je uit deze verstoorde uitkomst niet met voldoende zekerheid kan bepalen hoe de oorspronkelijke dataset er uit zag, dan is er ook bijna geen kans op het herleiden van individuen. Je kunt zelfs niet goed bepalen óf een bepaalde persoon wel of niet in de oorspronkelijke dataset zat, ook al weet je verder letterlijk alles over die persoon.
Differential privacy is een fascinerend, maar controversieel, begrip. Open data wordt een fluitje van een cent, als je eraan kunt voldoen. Het nadeel is natuurlijk dat je door de verstoringen ook minder kunt met de data: er moet een balans gevonden worden tussen de bruikbaarheid en de bescherming van de data. Daarover wordt nu dan ook (voor statistische begrippen) fel gedebatteerd in Amerika. Is John Abowd, het hoofd van de Census, wel ‘voorzichtig’?
De discussie komt ook naar ons land. Gevaar en bezorgdheid zijn er al. Differential privacy dient zich binnenkort vast ook aan in de Europese officiële statistiek, en in software voor onderzoeksdatabeheer zoals iRods, Dataverse, of Figshare. In het slechtste geval moet de sociale wetenschap op de schop: iets lastigere data-analyses, grotere steekproeven, meer preregistratie, en nieuwe onderzoeksontwerpen. In het beste geval zijn er binnenkort geen excuses meer om onderzoeksgegevens over mensen niet open te delen. “Goed te doen…”
Daniel geeft de volgende column graag aan Pearl Dykstra.
Daniel Oberski
Daniel Oberski is universitair hoofddocent in methodologie van data science en statistiek aan de Universiteit Utrecht. Hij promoveerde in Tilburg en Barcelona en was visiting professor in Maryland. In 2014 ontving hij een Veni-subsidie voor het ontwikkelen van methoden die meetfouten in administratieve registerdata opsporen en corrigeren.
Licentie: CC-BY-NC-ND 4.0