‘Een goed ontworpen infrastructuur merk je niet eens op’

Een gezamenlijke onderzoeksinfrastructuur voor de sociale én geesteswetenschappen. Daar werken CLARIAH en ODISSEI aan in SSHOC-NL.

Als nationale onderzoeksinfrastructuren zijn CLARIAH en ODISSEI inmiddels gevestigde namen in de Nederlandse academische wereld. De eerste maakt geesteswetenschappelijk onderzoek met digitale data mogelijk, de laatste is primair gericht op de sociale wetenschappen. In SSHOC-NL (Social Science and Humanities Open Cloud for the Netherlands) slaan beide partijen de handen ineen voor de ontwikkeling van een brede, grootschalige en duurzame digitale infrastructuur die beide vakgebieden bedient. Samen met vijftien partners kregen CLARIAH en ODISSEI afgelopen jaar voor SSHOC-NL €15,2 miljoen financiering toegekend uit de Nationale Roadmap Grootschalige Wetenschappelijke Infrastructuur van NWO.

Tom Emery (ODISSEI, Principal Investigator (PI)) en Richard Zijdeman (CLARIAH, co-PI) vertellen over het belang en de plannen van de nieuwe infrastructuur.

Tom Emery, ODISSEI, Principal Investigator (PI)
Richard Zijdeman, CLARIAH, co-PI

Waarom zijn jullie deze samenwerking aangegaan?

Emery: “De sociale en de geesteswetenschappen delen veel van dezelfde uitdagingen. Die kunnen we het best aangaan op grote schaal, gedragen door een zo breed mogelijke pool aan expertise. Ontwikkelingen in de kunstmatige intelligentie en computationele methoden hebben bijvoorbeeld een grote invloed op hoe we ons onderzoek uitvoeren en brengen veel vragen met zich mee op het gebied van data privacy, intellectueel eigendomsrecht, niet-transparante werkwijzen en systematische bias.”

Zijdeman: “Daarnaast beschikken de sociale en geesteswetenschappen over verschillende bronnen voor gemeenschappelijke onderzoeksvragen. Tot dusver zijn deze bronnen vooral geïsoleerd bestudeerd, aangezien ze zijn beschreven volgens de standaarden van het eigen vakgebied. Door samen te werken in SSHOC-NL kunnen we bronnen generiek aanbieden en de hele SSH-gemeenschap bedienen.”

Welke nieuwe mogelijkheden brengt deze samenwerking met zich mee?

Emery: “Een heel brede range aan mogelijkheden. De grenzen tussen gestructureerde en ongestructureerde data vervagen steeds meer door inspanningen op het gebied van data-harmonisatie. Dat maakt heel nieuwe onderzoekslijnen mogelijk tussen verschillende disciplines. We kunnen bijvoorbeeld nu de analyse van rijke content als kranten en afbeeldingen combineren en ze op grote schaal linken aan meer gestructureerde data als surveys en bevolkingsregisters. Dat geeft onderzoekers makkelijker toegang tot een breder spectrum aan data voor het beantwoorden van hun onderzoeksvragen. Zo kunnen onderzoekers interdisciplinaire, complexe vragen beantwoorden, die eerder niet konden worden geadresseerd.”

Wat zijn op korte termijn de concrete plannen van SSHOC-NL?

Emery: “Die draaien vooral om het integreren van bestaande services van CLARIAH en ODISSEI, zoals het oplijnen van datacatalogi en microservices, en het gezamenlijk aanbieden van een omgeving waarin veilig met data gewerkt kan worden. Zowel CLARIAH als ODISSEI hebben inmiddels een goed fundament en er zijn veel links tussen de beide gemeenschappen, wat betekent dat we vanaf het eerste jaar aan de gang kunnen met het leveren van verbeterde diensten. Een goed voorbeeld daarvan is de SANE-omgeving waarin onderzoekers veilig toegang krijgen tot een brede range aan data die eerst buiten bereik lagen. Deze dienst zal vanaf februari 2024 beschikbaar zijn.”

Wat hopen jullie uiteindelijk met deze samenwerking te bereiken?

Emery: “We hopen vooral spannende, nieuwe samenwerkingen tussen de sociale en geesteswetenschappen te zien, waardoor innovatieve nieuwe ideeën en theorieën breed hun weg kunnen vinden. Zo veel vragen uit de sociale wetenschappen worden gedeeld met, of komen zelfs oorspronkelijk van onze collega’s uit de geesteswetenschappen. Met een multidimensionaal en interdisciplinair perspectief kunnen we vast en zeker onze kennis verbreden en verdiepen.”

Zijdeman: “Een ander belangrijk voordeel van deze samenwerking ligt in het delen van een infrastructuur, die kostbaar is om te onderhouden. Zo beschikt CLARIAH op dit moment niet over een beveiligde analyse-omgeving, bijvoorbeeld voor documenten met IPR, en daarvoor is samenwerken met SANE erg gunstig. Voor de sociale wetenschappen zal het grote aantal nieuwe SANE-gebruikers weer voordelig uitkomen bij het verwerven van financiering van het toekomstige onderhoud van SANE.”

Wat gaan onderzoekers in de sociale en de geesteswetenschappen merken van deze samenwerking?

Emery: “Een goede infrastructuur neemt barrières weg en als die goed is ontworpen en gebouwd, merk je niet eens dat hij er is. Onze hoop is dat over een jaar of vijf een jonge onderzoeker toegang heeft tot uiteenlopende data uit het hele SSH-domein en deze kan linken en analyseren en dit alles heel natuurlijk en eenvoudig vindt werken. Ik hoop echt dat de volgende generatie de diensten die we nu ontwikkelen als vanzelfsprekend ziet en zich er niet eens van bewust is ze te gebruiken.”

Zijdeman: “Door SSHOC-NL zullen onderzoekers aan beide zijden van het SSH-domein meer inzicht krijgen in elkaars werk, wat interdisciplinaire samenwerkingen katalyseert. Databronnen zullen meer geïntegreerd en makkelijker doorgrond kunnen worden, tools worden generieker, waardoor ze net zo goed kunnen worden ingezet voor de analyse van Twitter-data als van advertenties in 19e-eeuwse kranten.”

Hoe gaan jullie de gebruikers, de onderzoekers, betrekken in dit project?

Emery: “Bij het bouwen van een infrastructuur gaat het om hardware, software en ‘peopleware’. Dat laatste is misschien wel het belangrijkste. Je moet onderzoeksgemeenschappen samenbrengen om te ontdekken welke diensten nodig zijn, technici stimuleren om deze te onderhouden en onderzoekers trainen om ze te gebruiken. De ontwikkeling van de infrastructuur is een zeer mensgericht proces en we horen dan ook altijd graag van mensen wat ze nodig hebben en wat ze willen. We nodigen dan ook iedereen uit om contact met ons op te nemen, maar gaan zelf ook actief de boer op.”

Zijdeman: “Ik sluit me volledig bij Tom aan. Eén van vijf werkpakketten in SSHOC-NL is gericht op de ‘peopleware’: communicatie, disseminatie, trainingsmaterialen en integratie met bestaande netwerken. Als onderzoeker moet je echter altijd de afweging maken tussen iets snel doen en iets goed doen. Het kost tijd om te leren werken met een nieuwe of uit­gebreide infrastructuur. Als onderzoeks­collectief is het logisch om te investeren in een gedeelde infrastructuur, maar voor een onderzoeker lijkt de initiële investering misschien niet de moeite waard voor ‘een enkel paper’. We horen heel graag van onderzoekers met zulke bedenkingen, of van mensen die misschien betere oplossingen hebben. Want dat biedt veel voordelen. Als infrastructuur kunnen we nog altijd veel leren over wat onderzoekers nodig hebben. Bovendien proberen we de initiële leercurve zo vlak mogelijk te maken. Uiteindelijk zullen bronnen onderling steeds meer met elkaar verbonden zijn, waardoor het alleen via gedeelde infrastructuren mogelijk zal zijn om echt verrijkte onderzoeksdata en -methoden te bieden.”

https://www.clariah.nl/

https://www.odissei-data.nl