Analyse van 3,4 miljard datapunten

Wat is de relatie tussen de buurt waarin je woont en je individuele inkomen? Aan deze onderzoeksvraag werkten Ana Petrović (TU Delft) en collega’s met behulp van de ODISSEI Secure Supercomputer.

Het onderzoek van Ana Petrović (TU Delft), Maarten van Ham (TU Delft) en David Manley (University of Bristol) richt zich op de invloed van ruimtelijke ongelijkheid op individuele sociaaleconomische status. Hiervoor gebruiken ze gegevens van het CBS, onder andere geanonimiseerde datasets over inkomen per woonadres door de tijd heen. In een verkennende analyse hebben ze grids – concentrische cirkels om elke individueel persoon – gemaakt. De grids hebben ze voor verschillende schalen gemaakt, variërend van 100 meter tot 10 kilometer. Ana: “Voor elke schaalgrootte hebben we twee contextuele kenmerken berekend: het aandeel bewoners met een niet-Westerse achtergrond en het aandeel bewoners met een laag inkomen. Deze kenmerken hebben we gelinkt aan individuele kenmerken zoals inkomen, gemeten in 17 verschillende jaren.”

Computerkracht

Al met al had het onderzoek 3,4 miljard datapunten om te analyseren. In de Remote Accessomgeving van het CBS zou het doorrekenen van de dataset minimaal vier maanden hebben gekost. Voor dergelijke gevallen heeft ODISSEI, in samenwerking met CBS en SURFsara, de ODISSEI Secure Supercomputer ontwikkeld. De beveiligde CBS-omgeving werd gekopieerd naar de Cartesius supercomputer van SURFsara. Lykle Voort, ontwikkelaar bij SURFsara: “Voor de analyse van Ana waren computers met minimaal 64GB aan werkgeheugen nodig. Omdat het hier ging om heel veel combinaties van gegevens, is een cluster ingezet van 25 nodes met 24 cores en 64GB aan werkgeheugen elk. In totaal zijn dat dus 600 processor cores. Ter vergelijking: een laptop heeft er doorgaans 2 of 4.” Ana: “Zonder de ODISSEI Secure Supercomputer hadden we ons onderzoek praktisch niet kunnen uitvoeren. We hebben zelfs een variabele extra en een langere periode kunnen berekenen. We gaan de resultaten open access publiceren. In vervolgonderzoek willen we de ruimtelijke structuur van de sociale omgeving, de trends van ruimtelijke segregatie op meerdere schalen en de gevolgen van deze processen voor individuen nog beter begrijpen. Ook ons vervolgonderzoek zal erg veel datapunten hebben en we hopen opnieuw van de ODISSEI Secure Supercomputer gebruik te kunnen maken.”

De ODISSEI Secure Supercomputer wordt naar verwachting voor de zomer voor de ODISSEIonderzoeksgemeenschap geopend.

Bekijk de website van Odissei voor meer informatie.