Leidse taaldata via CLARIAH beschikbaar

Het Leiden University Centre for Linguistics (LUCL) heeft in de loop der tijd vele datasets verzameld. Deze komen nu beschikbaar in de CLARIAH-infrastructuur.

“De vele data die onderzoekers van het LUCL over de jaren heen hebben verzameld, bleven vaak onzichtbaar voor mensen buiten het instituut”, vertelt Sara Petrollino, taalkundige aan de Universiteit Leiden. “We wilden de informatie over deze data én de data zelf toegankelijk maken als een bron voor onderwijs en onderzoek. Vooral in deze lastige coronatijd, waarin zelf data verzamelen vaak onmogelijk is, is dat heel belangrijk.”

In eerste instantie zetten student-assistenten de veelal analoge opnames en de bijbe­horende metadata alleen om in digitale bestanden. “Daardoor werden de betrokken onderzoekers zich ook meer bewust van de moderne gang van zaken op het gebied van datamanagement en toegankelijkheid.”

De metadata van deze 140 datasets zijn doorzoekbaar via de database Leiden Language Data (Leiland). Daaronder bevinden zich onder andere zeventien datasets over het Nederlands, waaronder geschreven dialectdata, interviews over taalattitude en testresultaten van codeswitching met het Papiaments. Maar er zijn ook datasets over meer exotische talen te vinden, zoals over het Akileh (Tanzania), het Alorese (Indonesië) en het Puquina (Peru).


Fragment van het geografische overzicht met datasets, door de jaren heen verzameld. Credits: Leiden University Centre for Linguistics (LUCL)

Representatieve selectie

Een aantal van de LUCL-datasets komen nu ook beschikbaar in de CLARIAH-infrastructuur. Hiermee worden de data toegankelijk voor alle onderzoekers in de geesteswetenschappen. “We maken hiervoor een representatieve selectie met onder andere video-opnames van Afrikaanse, Zuid-Amerikaanse en Austronesische talen, audio en geschreven data van leerders van het Nederlands, Spaans en Italiaans, en geschreven taaldata, zoals brieven en manuscripten”, vertelt Petrollino.

De komende twee jaar zullen de metadata van deze datasets worden omgezet in CMDI-formaat, dat gebruikt wordt in de CLARIAH-infrastructuur. De geselecteerde datasets – en wellicht meer, afhankelijk van de voortgang van het project – worden opgeslagen bij DANS, een van de CLARIAH Centers.

Bekijk hier de Leidse datasets.