‘Waarom moet alle data 24/7 online beschikbaar zijn?’

De servers waarop de data en tools voor de digitale geesteswetenschappen draaien, laten hun ecologische voetafdruk na. Net als elke zoekopdracht en bewerking. Kunnen we die impact beperken?

Steeds vaker kunnen wetenschappers de data die zij voor hun onderzoek nodig hebben online zoeken, doorzoeken, analyseren en verder delen. “Al die digitale voorzieningen zijn dag en nacht beschikbaar. Dat biedt heel veel spannende en interessante mogelijkheden, maar uiteindelijk is het natuurlijk ook allemaal fysiek”, aldus Robert Gillesse, digitaal archivaris bij de IISG. “De data staan op servers die ergens draaien en over verloop van tijd worden afgeschreven en daarna vaak slecht te recyclen zijn.” Elk digitaal archief en elke zoekopdracht in zo’n archief draagt zo bij aan de milieu-impact op de aarde.

“Sinds een jaar of drie voeren we bij het IISG en in de KNAW breed serieus discussie over de ecologische voetafdruk van onze activiteiten”, vertelt Gillesse. Naast een onderzoeksinstelling is het IISG ook een erfgoedinstelling, met drie kopieën van het archief die samen zo’n 400 terabyte aan data beslaan. “De milieu-impact van een digitale archief loopt gelijk op met de beheerskosten, dus als we dat beperken, slaan we twee vliegen in een klap. Er is onlangs daarom ook geld vrijgemaakt om dit verder te onderzoeken.”

Servers en gebruikers

Gillesse was een van de leden in de werkgroep GreenIT van Netwerk Digitaal Erfgoed (NDE), die in 2021 de CO2-impact van de opslag en het gebruik van digitaal erfgoed in kaart bracht. Hierbij gebruikte ze Delpher als casus. Dit digitale platform biedt toegang tot gedigitaliseerde teksten uit meer dan 2 miljoen kranten, 12 miljoen tijdschriftpagina’s en meer dan 900.000 boeken. In totaal 120 miljoen gedigitaliseerde pagina’s, samen goed voor 1,1 petabyte aan data (oftewel bijna drie keer het digitale archief van het IISG).

“Dat is natuurlijk heel veel, maar laten we wel wezen: de hoeveelheid data in de digitale geesteswetenschappen valt in het niet bij die van sommige andere wetenschappelijke disciplines”, relativeert Gillesse. Zo genereert de deeltjesversneller van CERN in Geneve elke seconde 1 petabyte aan data. En ESA’s ruimtetelescoop Euclid verzamelt as we speak 40 petabyte aan data uit het heelal. Toch betekent dat volgens Gillesse niet dat de geesteswetenschappen en de erfgoedsector de andere kant op kunnen kijken. “Als we het beste voor hebben met de wereld, moeten we onszelf ook in de spiegel durven aankijken.”

Uit het onderzoek van GreenIT bleek dat de totale CO2-voetafdruk van Delpher in 2021 53 ton CO2-equivalenten was. CO2-equivalent is een rekenmaat waarin het effect van andere broeikasgassen, zoals van methaan en lachgas, zijn omgerekend naar dat van CO2. Daarmee staat de milieu-impact van het digitale platform gelijk aan dat van vijf huishoudens, inclusief alle indirecte uitstoot van bijvoorbeeld gekochte spullen. Of aan 371 keer vliegen van Amsterdam naar Parijs.

Het grootste deel van de uitstoot komt voor rekening van de servers: direct via het energieverbruik, maar ook meer verborgen via de productie van de benodigde hardware. Maar ook de gebruikers zorgen voor CO2-emissies, door middel van hun zoekopdrachten, waarna de zoekresultaten worden geladen en de gebruiker een gedigitaliseerde pagina laadt en eventueel downloadt.

Gerichter zoeken

In het eindverslag doet GreenIT aanbevelingen om de ecologische voetafdruk van de opslag en het gebruik van erfgoed- en onderzoeksdata te verkleinen. Zo zijn opslagdisks met meer volume energiezuiniger en worden servers efficiënter gebruikt als deze zijn onderverdeeld in digitale compartimenten door middel van virtual machines. Ook is het vaak voordeliger om servers onder te brengen in een extern datacentrum, bijvoorbeeld van Microsoft of Amazon. Gillesse: “Zij lopen toch vooraan in de ontwikkelingen als het gaat om meest efficiënte opslag. Met de gevoelige data in ons vakgebied is het echter een no go om deze bij een commerciële Amerikaanse partij onder te brengen. Delpher is tegenwoordig ondergebracht bij een datacentrum van de Belastingdienst en het IISG maakt gebruik van universitaire datacenters.

Een aanbeveling gericht op de gebruikers is om gerichter te zoeken, in plaats van standaard de hele collectie te doorzoeken. Ook zouden de zoekresultaten anders kunnen worden aangeboden, denkt Gillesse: “Hoe logisch is het nou om video en audio direct in hoge resolutie te streamen? Dat verbruikt zoveel data. Tegenwoordig zie je dan ook dat je dankzij automatische spraakherkenning steeds beter gericht kunt zoeken, zodat de noodzaak er niet meer is om een interview van twee uur of langer in zijn geheel te beluisteren.”

Daarnaast is volgens hem verwachtingsmanagement nodig. “Veel archieven worden eigenlijk helemaal niet zo vaak opgevraagd. Waarom moeten die data dan toch 24/7 online beschikbaar zijn? Je zou ook een aanvraag kunnen doen, waarna tijdelijk een gebruikerskopie van die data op de server beschikbaar wordt gesteld. Vergelijkbaar met hoe het in de studiezaal gaat, dat zorgt ook voor meer bewustwording.” De vergelijking met het analoge archief zou volgens Gillesse sowieso vaker gemaakt moeten worden. “Ook een papieren archief heeft natuurlijk een ecologische voetafdruk. Het idee was dat de aanwas van fysiek materiaal kleiner zou worden naarmate het digitale archief groeide, maar dat blijkt in de praktijk niet het geval. Ook zijn er flinke ontwikkelingen gaande in de ontwikkeling energiearme of -neutrale fysieke erfgoeddepots. In een berekening van de milieu-impact zou ik dan ook het liefst naar het totaalplaatje kijken.”