Twee iconen uit de e-sciences gaan met pensioen. De een vanuit de sociale wetenschappen, de ander vanuit de geesteswetenschappen en de informatica. Een gesprek over het verleden, het heden en de toekomst.
Als er één overeenkomst is tussen Pearl Dykstra en Arjan van Hessen, is het wel dat ze allebei eigenlijk nog helemaal geen zin hebben om hun academische lier aan de wilgen te hangen. Beiden gaan ze dus voorlopig nog wel even door, al is het op een lager pitje. De grote projecten zijn overgedragen, bijna alle promovendi hebben hun proefschriften verdedigd, en wat overblijft is tijd en ruimte voor kleinere projecten uit persoonlijke interesse.
Die interesses zijn bij beide onderzoekers wel heel verschillend. Pearl Dykstra is een coryfee uit de sociale wetenschappen die jarenlang onderzoek heeft gedaan naar intergenerationele solidariteit, vergrijzing en familieveranderingen. Als hoogleraar empirische sociologie aan de Erasmus Universiteit Rotterdam stond ze aan de wieg van ODISSEI, de nationale digitale onderzoeksinfrastructuur voor de sociale wetenschappen.
Arjan van Hessen stond aan de basis van een andere nationale digitale onderzoeksinfrastructuur, die voor de geesteswetenschappen: CLARIN – en later CLARIAH. Al is hij door zijn vakgebied wellicht eerder ingenieur dan geesteswetenschapper; hij heeft zijn carrière gewijd aan de ontwikkeling van spraaktechnologie en dan vooral automatische spraakherkenning.
Angst voor delen
Zowel Dykstra als Van Hessen promoveerde rond 1990. Sinds die tijd hebben ze de omgang met data flink zien veranderen. “Van huis uit ben ik dataverzamelaar”, vertelt Dykstra. “Voor mijn proefschrift werkte ik met persoonlijke interviews die met schriftelijke vragenlijsten werden afgenomen. Die antwoorden moesten nog worden ingetypt. Daarna kregen we subsidie voor een heel grote survey onder vijfduizend ouderen. De interviews werden op cassettebandjes opgenomen, maar we werkten ook al met laptops – dat was destijds heel vooruitstrevend. Eind jaren 90 werd ik projectleider van de Netherlands Kinship Panel Study (NKPS). Die data verzamelden we via een combinatie van face-to-face interviews en schriftelijke vragenlijsten, maar ook via internet. Afkomstig van zowel de hoofdrespondent als van familieleden als partners, ouders, kinderen en broers en zussen. Later kregen we beschikking over echt grote hoeveelheden data, kant en klaar van bijvoorbeeld banken of het CBS.”

Van Hessen heeft nooit met bandjes gewerkt, vertelt hij. “Voor spraakherkenning is nu eenmaal digitale data nodig, dus alles werd gedigitaliseerd of, later, digitaal opgenomen. Eerst bij de Universiteit Utrecht, in Duitsland en België, later aan de Universiteit Twente. Die leende zich daar als technische universiteit natuurlijk ook goed voor, de infrastructuur was al aanwezig.” Hij ging twintig jaar geleden nog persoonlijk langs bij de grote landelijke dagbladen om ervoor te zorgen dat zij hun data beschikbaar stelden. “Dan legde ik uit dat we moderne teksten nodig hadden om goede taalmodellen te kunnen maken voor de spraakherkenning. Heel veel én digitaal. De meeste waren wel bereid mee te werken, alleen de Telegraaf niet, die wilde toen zijn data niet delen.”
Die angst voor data delen herkent Dysktra wel: “Bij de NKPS lukte het om onze data binnen een jaar beschikbaar te stellen, maar onze adviescommissie adviseerde ons dat niet te doen, want dan zouden anderen er met onze data vandoor gaan. Maar dat vonden we juist prima, dan werden ze tenminste gebruikt! En bovendien: niemand wist zo goed wat de data betekenden als wij, want wij hadden de vragenlijsten ontwikkeld.”
Waardering voor verzamelen
Het delen van data blijft ook nu nog een heet hangijzer. Dykstra: “Ik zie wel veranderingen, maar data hugging blijft spelen. In de sociale wetenschappen zijn de sociologen, de politicologen en de demografen wel gewend om veel samen te werken, maar in de psychologie gaat het veel om kleinschalige studies. Die willen hun idee graag snel publiceren, maar data goed beschrijven en beschikbaar maken kost nu eenmaal tijd. Onderzoekers zien ook niet altijd dat hun data ook interessant kunnen zijn voor anderen. Ik vind het heel goed dat NWO en veel tijdschriften het beschikbaar stellen van je onderzoeksdata tegenwoordig als voorwaarde stellen.”

“En dan zijn sociaalwetenschappers hier volgens mij altijd al makkelijker in geweest dan geesteswetenschappers”, zegt Van Hessen. “Die hebben dan bijvoorbeeld een mooi interview waar ze ‘ooit’ nog eens iets mee willen doen en dat krijg je dan gewoon niet. Laatst ontving ik eindelijk proefschriftbandjes van iemand die al vijf jaar met pensioen is. Maar het wordt wel beter – jongere onderzoekers zijn er wat makkelijker in.”
Een belangrijke oorzaak daarvan is de waardering die er tegenwoordig ook is voor de dataverzamelaar. “In het verleden ging het vooral om degene die over de data schreef, die kreeg alle eer. Maar nu wordt de dataverzamelaar ook genoemd en dat maakt delen ook makkelijker”, aldus Van Hessen. Dykstra: “Data verzamelen is ook vakwerk. Mijns inziens is het beter als dat wordt gedaan door een expertgroep dan dat alle studenten hun eigen surveys gaan doen met slecht samengestelde, ongelukkige vragenlijsten, of met slechte steekproeven. Werk dan samen! Dat inzicht begint gelukkig steeds meer te komen, ook binnen opleidingen. En de data zijn ook steeds beter vindbaar, dat helpt natuurlijk ook.” Van Hessen vult aan: “Al geldt dat vooral voor Nederland, op Europese schaal begint het nu pas net een beetje op gang te komen. Terwijl er over bijvoorbeeld de Nederlandse geschiedenis ook veel interessants zal liggen in Leuven, Keulen of Parijs.”
Schaalvergroting
Als Dykstra en Van Hessen nu aan het begin van hun carrière hadden gestaan, dan wisten ze het wel. “Die hele grote datasets die je nu hebt, in combinatie met een supercomputer, die vind ik geweldig”, glundert Dykstra. “Daarmee kun je hele bevolkingsnetwerken in kaart brengen, waarmee je heel spannende vragen kunt beantwoorden. Bijvoorbeeld welke invloed je klasgenoten hebben op je verdere levensloop. Dat is uniek voor Nederland. Vakgebieden worden ook steeds breder, met overlap met bijvoorbeeld materiaalkunde of gezondheidswetenschappers, wat ook weer veel nieuwe onderzoeksvragen opwerpt.”
“Die schaalvergroting is fascinerend”, beaamt Van Hessen. “Dat wordt alleen maar groter en dan komen straks ook nog de quantumcomputers. Als ik nu veertig jaar jonger was, zou ik met AI verder gaan waar ik nu ben. En dan niet alleen spraak, maar ook taal en het non-verbale. We weten inmiddels redelijk wat er wordt gezegd, maar wat wordt er eigenlijk bedóéld?”
Een punt van zorg is voor beiden wel de duurzaamheid. Dykstra: “Je moet blijven pleiten voor financiering van de infrastructuren en de toegankelijkheid van data. En daarnaast natuurlijk de CO2-voetafdruk, ook van AI, die is gigantisch.” Van Hessen: “Daar wordt gelukkig wel aan gewerkt, maar dat gaat helaas niet zo snel. Als individuele onderzoeker kun je dat ook niet oplossen.” Dykstra concludeert: “Ook hier moet samenwerking over grenzen heengaan.”