PreFer Data Challenge
Photo by Marisa Howenstine on Unsplash
Photo by Marisa Howenstine on Unsplash

Fertiliteitscijfers – zoals hoeveel kinderen men wil en wanneer – zijn van invloed op het leven van individuen en op maatschappelijke ontwikkelingen. Hoewel er veel onderzoek is gedaan naar hoe factoren als leeftijd, sociaaleconomische status en sociale netwerken de fertiliteitscijfers beïnvloeden, is er relatief weinig aandacht besteed aan de voorspelbaarheid van deze uitkomsten.

De data-challenge voor ‘Predicting Fertility in the Netherlands’ (PreFer) richtte zich op het opvullen van deze leemte door te onderzoeken hoe nauwkeurig fertiliteit kan worden voorspeld met behulp van onderzoeksgegevens uit het LISS-panel en gegevens uit Nederlandse registers. De challenge werd georganiseerd als een samenwerking tussen de afdeling Sociologie van de Rijksuniversiteit Groningen, ODISSEI, Eyra en Centerdata. 

Waarom onderzoek doen naar de voorspelbaarheid van fertiliteit?

Inzicht in de voorspelbaarheid van fertiliteit is om meerdere redenen belangrijk:

  • Het bevorderen van fertiliteitsonderzoek: het vergelijken van voorspellingsmethoden biedt inzicht in fertiliteitsgedrag en in waar theorieën kloppen en waar ze tekortschieten.
  • Bewijs voor onderzoek naar de voorspelbaarheid van levensgebeurtenissen: onderzoek doen naar de voorspelbaarheid van fertiliteit draagt bij aan inzicht in de voorspelbaarheid van andere levensgebeurtenissen. Dit helpt kennis in de sociale wetenschappen vooruit.
  • Verbeteren van fertiliteitsprognoses: Nauwkeurige fertiliteitsvoorspellingen zijn essentieel voor het plannen van infrastructuur, gezondheidszorg en onderwijs. Inzicht in de voorspelbaarheid op individueel niveau kan langetermijnvoorspellingen verbeteren.
  • Gericht beleid: Beleid voor mensen die onbedoeld kinderloos zijn, zou kunnen worden verbeterd door het identificeren van risicogroepen. Met voorspelbaarheidsonderzoek kan de haalbaarheid van zulke gerichte interventies worden bepaald.

Voorspelbaarheid benchmarken met PreFer

De PreFer Data Challenge (gehouden tussen april en oktober 2024) bracht meer dan 130 deelnemers met verschillende achtergronden bijeen om te voorspellen of personen in de leeftijd van 18–45 jaar in Nederland binnen drie jaar kinderen zouden krijgen. Er werden twee belangrijke gegevensbronnen gebruikt: data uit grote Nederlandse registers met longitudinale demografische en sociaaleconomische informatie en enquêtegegevens van het LISS-panel, met veel subjectieve variabelen zoals opvattingen en intenties. De deelnemers ontwikkelden een groot aantal benaderingen, variërend van logistische regressiemodellen tot het finetunen van een groot taalmodel.

Voor deze challenge zijn verschillende bronnen gebruikt:

  1. ODISSEI Secure Supercomputer: maakte veilige, grootschalige modeltraining op miljoenen waarnemingen mogelijk, met ondersteuning van geavanceerde methoden voor machine learning (ML). 
  2. Systeem voor reproduceerbare indieningen: deelnemers dienden hun modellen en code in, die werden getest op synthetische data om de nauwkeurigheid en reproduceerbaarheid te garanderen, voordat de definitieve automatische evaluaties op de holdout-data werden uitgevoerd. Het indieningssysteem werd ontworpen door Eyra.
  3. ODISSEI Portal: zorgde voor gemakkelijk zoeken naar datasets.

De PreFer Data Challenge benadrukt het belang van benchmarking om de sociale wetenschappen vooruit te helpen. Door het combineren van diverse databronnen en een robuuste infrastructuur stelt PreFer ons in staat om de grenzen van de voorspelbaarheid van fertiliteit te onderzoeken. De challenge bevorderde de reproduceerbaarheid en stimuleerde methodologische innovatie. De bevindingen uit PreFer challenge zullen tot meer inzicht in fertiliteitsgedrag leiden en zullen bijdragen aan uitgebreider sociaalwetenschappelijk onderzoek. 

Meer informatie over de data-challenge is te vinden op de website van ODISSEI.

Door: Elizaveta Sivak (University of Groningen) and Gert Stulp (University of Groningen)