Eind 2022 ging Jan Odijk met emeritaat. De Utrechtse hoogleraar Taal- en spraaktechnologie heeft de opkomst van de digitale geesteswetenschappen van dichtbij meegemaakt.
Voor we het interview echt beginnen, wil Odijk eerst zijn onvrede met de term ‘digitale geesteswetenschappen’ (of ‘digital humanities’) delen. “De term suggereert dat het een vakgebied is, maar dat is het niet. Je bedrijft gewoon een discipline uit de geesteswetenschappen en gebruikt daarbij indien nodig computationele technieken”, licht hij toe. “En ‘computationeel’ is dan al beter dan ‘digitaal’, want tegenwoordig doet iedereen alles digitaal, met computers. De term Digital Humanities is simpelweg te groot en te vaag. Maar ik heb ook geen goed alternatief hoor, en deze term heeft nu eenmaal een ingang gevonden.”
De digitale geesteswetenschappen zijn dus eerder methodologisch dan vakinhoudelijk van aard. En in die zin bestaan ze al veel langer dan de term. “Die term kwam ergens rond 2008 op, maar de activiteit zelf is al heel oud, computationele taalkunde stamt bijvoorbeeld uit de jaren 50. Dat draaide om vergelijkbare technieken als die we nu gebruiken”, aldus Odijk, die zelf in de jaren 80 al een cursus in het vak ‘Computers en Letteren’ doceerde aan onder andere geschiedenis- en taalkunde-studenten.
Taalkunde
Na een carrière als taaltechnoloog bij onder andere Philips, Lernout & Hauspie en Nuance, werd Odijk in 2001 benoemd tot hoogleraar Taal- en spraaktechnologie aan de Universiteit Utrecht. Vanuit die functie was hij betrokken bij tal van nationale en Europese projecten op het gebied van taaldata. Zo zat hij in de stuurgroep van Corpus Gesproken Nederlands, een geannoteerde verzameling van 900 uur hedendaagse Nederlandse spraak, en was hij voorzitter van de STEVIN-programmacommissie, een stimuleringsprogramma voor de taal- en spraaktechnologie.
Projecten die aan het begin van dit millennium aan de wieg stonden van de digitale geesteswetenschappen in Nederland, maar toch was de taalkunde daar niet per se de kartrekker van, stelt hij. “Toen ik in de jaren 80 computationele taalkunde gaf, waren er ook al computationele cursussen voor andere disciplines. Die werden gevolgd door historici, letterkundigen, dus dat was toen al veel breder. Wat wel zo is: bijna iedereen in de geesteswetenschappen bestudeert tekst. En om tekst te kunnen bestuderen, moet je taalkundige dingen doen. Meestal heb je dan meer nodig dan een zoekmachine alleen. Dus in die zin speelt de taalkunde misschien meer een primaire rol dan andere vakgebieden.”
CLARIN en CLARIAH
Vanaf 2009 was Odijk programmadirecteur van CLARIN-NL, de digitale infrastructuur voor geesteswetenschappers die met talige data werken. “Dat kwam voort uit de computationele en beschrijvende taalkunde, maar we hebben vanaf het begin geprobeerd ook andere vakgebieden erbij te betrekken”, herinnert Odijk zich. “De taalkunde bleef wel domineren, maar bijvoorbeeld de letterkunde, religiewetenschappen, mediastudies en geschiedenis hebben ook veel bijgedragen. En inmiddels is de taalkunde in CLARIAH zelfs een minderheid geworden.”
In CLARIAH heeft CLARIN-NL de krachten gebundeld met DARIAH, het andere geesteswetenschappelijke infrastructuurproject op de nationale roadmap van NWO. Sinds 2013 wordt gebouwd aan een gezamenlijke infrastructuur, waarbij Odijk de functie van directeur op zich heeft genomen. Taalkunde is binnen CLARIAH een van de vier pijlers van waaruit de digitale resources voor de gehele geesteswetenschappen worden ontwikkeld, naast sociaal-economische geschiedenis, mediastudies en tekst.
“Daar ben ik misschien wel het meest trots op: dat we sinds 2009, dus nu al ruim dertien jaar, in harmonie samenwerken aan infrastructuur. Dat is natuurlijk niet alleen aan mij toe te schrijven, het is een gezamenlijk resultaat. Maar het is wel een móói resultaat”, aldus Odijk.
Programmeren
Een lastige horde die in die dertien jaar genomen moest worden, lag in de communicatie. “Als je met computers gaat werken, heb je technici nodig en die spreken de taal van geesteswetenschappers niet. Zeker in het begin wisten de geesteswetenschappers niet goed wat mogelijk was, dus die konden dat ook niet duidelijk formuleren. We zijn daarom destijds alle universiteiten afgegaan om dat te inventariseren.”
Inmiddels hebben de digitale geesteswetenschappen hun plek gevonden in de universitaire opleidingen. “Eigenlijk vind ik dat elke geesteswetenschapper een programmeercursus moet volgen. Niet om zelf programmeur te worden, maar het maakt het praten met technische mensen een stuk makkelijker. Welke taal je kiest maakt dan niet zoveel uit – Python en R zijn nu populair – het gaat om de manier van gestructureerd en exact denken.”
Bij het werken met tools is onvoldoende programmeerkennis meestal niet het probleem, ziet Odijk. “Eerder loopt dat vast op een gebrek aan inzicht in hoe de onderliggende data gestructureerd zijn. Zeker bij complexe datastructuren, zoals treebanks of een triple store. Die zijn ook lastig uit te leggen, dus dan moet je een manier vinden om de tool toch aan te bieden zonder dat die kennis nodig is. Daarvoor bestaat helaas geen pasklare oplossing. Maar bij GrETEL, een zoekmachine voor zinsstructuren, kun je bijvoorbeeld een voorbeeldzin ingeven van de constructie waarin je bent geïnteresseerd, waarna er automatisch een query voor je wordt geformuleerd. Dat helpt gebruikers enorm.”
Toekomst
Hoe ziet hij de toekomst? “De digitale geesteswetenschappen zullen nooit ‘af’ zijn, want onderzoek is nooit klaar en de digitale geesteswetenschappen leveren de tools voor het onderzoek. Er zullen steeds weer nieuwe technieken nodig zijn om nieuwe onderzoeksvragen te beantwoorden”, blikt Odijk vooruit. Maar voor de nabije toekomst heeft hij nog wel een wens: integratie van de vele zoekmachines. “Er zijn tientallen projecten geweest waarin steeds een zoekmachine is ontwikkeld met dan nog één specifieke functie erbij. Die moeten allemaal onderhouden worden, wat natuurlijk niet gaat lukken. Het zou veel verstandiger zijn om veel minder zoekengines te hebben, die wel makkelijk uitgebreid kunnen worden met nieuwe data of met geavanceerde manieren van zoeken, zoals sentiment mining of topic search.”
Voorlopig zal Odijk zijn toga nog niet helemaal aan de wilgen hangen. “Ik doe nog wat lopende projecten in de context van CLARIAH en verder ben ik veel aan het hobbyen. Maar dat lijkt eigenlijk veel op wat ik in mijn werk deed, maar dan zonder de dingen die ik niet altijd leuk vond”, vertelt hij. “Ik werk bijvoorbeeld nog aan SASTA, een project waarin we software ontwikkelen om het taalgebruik van kinderen of patiënten met afasie te analyseren. Dat gebeurde voorheen handmatig, maar we hebben nu met goede resultaten een deel kunnen automatiseren. Daar ga ik ook na mijn pensioen nog lekker mee door.”
Lees hier meer over CLARIAH.