Column: In de e-humanities ziet niemand door de bomen het bos meer

Onlangs bezocht ik een bijeenkomst van de Universiteitsbibliotheek Leiden over ‘Digital Scholarship and the Role of the Library’.

Een van de conclusies van de bijeenkomst was dat academische bibliotheken studenten en onderzoekers in de e-humanities beter moeten leren omgaan met digitale hulpmiddelen om patronen in grote datacollecties te ontdekken.

De toverwoorden die hierbij horen zullen de meeste lezers van dit blad bekend zijn. Men heeft het niet over computerprogramma’s of software, maar over tools. Die moet je loslaten op een dataset. De meeste datasets zijn zo groot dat onderzoekers ze onmogelijk grondig kunnen bekijken. Maar gelukkig kunnen tools automatisch patronen uit die data vissen – wat distant reading wordt genoemd. Het liefst vindt men onbekende of nieuwe patronen.

Alle aanwezigen, een internationaal publiek van zo’n zestig mensen, konden zich goed in die conclusie vinden. Wereldwijd stelt men vast dat veel studenten en onderzoekers slimmer gebruik willen maken van datasets, maar welke tools werken het best voor bepaalde taken? En hoeveel tools zijn er eigenlijk?

Dat weet niemand. Nergens is een overzicht te vinden van alle tools die zijn of worden ontwikkeld – althans niet voor de geesteswetenschappen. Instituten krijgen nauwelijks geld voor het aanleggen van goede datasets, want subsidiegevers beschouwen dat niet als wetenschappelijk werk. Wel worden er bakken geld gegeven aan het bouwen van nieuwe tools, want daarmee begeef je je volgens de subsidiegevers juist in de frontlinie van de wetenschap.

Of er elders in de wereld al een vergelijkbare tool is ontwikkeld, doet niet ter zake. Leiden heeft onlangs een eigen instituut voor e-humanities opgezet, maar werkt niet samen met Amsterdam of Utrecht, waar ze ook dergelijke centra hebben. In de frontlinie van de geesteswetenschappen knokt ieder voor zich – dat is nou eenmaal de traditie.

Of de tools vaak worden gebruikt, lijkt men niet belangrijk te vinden – het gaat erom dat ze er zijn. Men ziet het ook niet als taak om ze te onderhouden. Ze zijn er, wie ze verder wil ontwikkelen kan dat doen. Dat er soms heel weinig data aan de tool gekoppeld zijn, beschouwt men niet als probleem. In principe zou je er veel data aan kunnen hangen.

In de zaal had dit alles, als ik het goed heb gezien, een enigszins verlammend effect. Vele van de gedemonstreerde tools waren de aanwezigen onbekend. Ze stelden vragen als: ‘Waarom laat je ons speciaal deze tool zien voor deze functie? Zijn er ook andere beschikbaar?’ Of: ‘Werkt dit ook voor andere talen dan het Engels?’

Ik zag iemand fronsen toen een onderzoeker vertelde dat er nauwelijks tijd was geweest om een tool (die in twee jaar tijd 700.000 euro had gekost), met data te vullen. Het bekende verhaal: de tool was nu voor iedereen beschikbaar, maar werd niet onderhouden. Gelukkig was er wel subsidie voor een nieuwe tool.

Het beste nieuws vond ik dat de Universiteitsbibliotheek Leiden, in samenwerking met studenten, een nuttig lijstje op internet heeft gezet met tools waarvan is vastgesteld dat ze bepaalde dingen goed doen. Dat andere universiteiten in de wereld al tientallen vergelijkbare lijsten op internet hebben gezet, slechts deels met dezelfde tools, bewijst mijns inziens dat niemand in de e-humanities door de bomen het bos meer ziet.

Ewoud Sanders
Taalhistoricus en journalist. Sanders is vaste medewerker van onder meer NRC Handelsblad en Onze Taal.