In het woud van tools en data

Ewoud Sanders klaagt in zijn column ‘In de e-humanities ziet niemand door de bomen het bos meer’ (E-data, oktober 2014) dat er ‘nergens […] een overzicht te vinden [is] van alle tools die zijn of worden ontwikkeld’. Hij heeft daar volkomen gelijk in.

Feitelijk is de situatie nog erger: er is ook geen overzicht van alle data die er zijn of die er gaan komen. Maar er zijn ook lichtpuntjes, zoals de Virtual Language Observatory (VLO), een poging van CLARIN (één van de initiatieven voor een geesteswetenschappelijke e-infrastructuur) om een dergelijk overzicht van alle data te maken. Dat is niet eenvoudig, omdat het onder andere vereist dat iedereen dezelfde standaarden gebruikt voor de beschrijving van de data. Er dient nog veel verbeterd te worden aan het overzicht en aan de manieren om in de data te zoeken, maar het is een goed begin. De portal bevat op dit moment ruim 800.000 metadatabestanden. VLO wordt systematisch verder uitgebreid en verbeterd met nieuwe zoekmogelijkheden.

Portal voor services

Daarnaast biedt CLARIN-NL met CLAPOP een online overzicht van inmiddels 40 software services die uit CLARIN-NL voortgekomen zijn, waaronder TICCLops, MigMAP, OpenSONAR en War in Parliament. Daarnaast is er ook een overzicht met tot nu toe 25 datacollecties, zoals Discan en INTER-VIEWS. De portal stelt een gebruiker in staat naar deze data en services te zoeken op basis van vakgebied, taal, functionaliteit, en nog enkele criteria.

Internationaal

Ook internationaal wordt gewerkt aan brede catalogi voor tools en data in de geesteswetenschappen, zoals Bamboo Dirt. En ook in DASISH, een samenwerkingsverband van vijf grote onderzoeksinfrastructuren, worden dergelijke voorzieningen ontwikkeld. De zoekinterface en de kwaliteit van de metadata in zulke grootschalige overzichten moeten echter aan hoge eisen voldoen om nuttig te zijn voor onderzoekers uit de geesteswetenschappen. En dat is precies de uitdaging die vanuit CLARIN en CLARIAH de komende jaren wordt aangegaan. Ook al is er bij lange na nog geen volledig overzicht van ‘alle tools die zijn of worden ontwikkeld’, langzaamaan gaan we wel door de bomen het bos weer zien.

Jan Odijk – Directeur CLARIN-NL
Daan Broeder – Technisch directeur CLARIN-NL
portal.clarin.nl