Niet meer verdwalen in tekst- en spraakwoud

In OpenSoNaR+ zijn het tekstcorpus SoNaR en het spraakcorpus CGN tegelijk doorzoekbaar. Er is in het systeem nog plaats voor andere corpora.

“Wetenschappers die kijken naar taalgebruik zijn meestal geïnteresseerd in tekst én spraak,” aldus Nelleke Oostdijk, taaltechnoloog aan de Radboud Universiteit. “Neem nou voegwoorden: in spraak komje bijna alleen ‘en’, ‘want’ en ‘dus’ tegen, maar in teksten zie je veel meer variatie met ook archaïsche voegwoorden zoals ‘desalniettemin’.” Het is slechts een van de onderzoeksvragen die gesteld kunnen worden met OpenSoNaR+, een interface waarmee twee grote dataverzamelingen gelijktijdig doorzocht kunnen worden.
In het nieuwe systeem zijn momenteel twee corpora opgenomen. SoNaR bestaat uit ruim 540 miljoen woorden aan moderne Nederlandse teksten die automatisch zijn voorzien van tags en lemma’s. De teksten komen uit alle typen media en genre, die een gebalanceerde afspiegeling vormen van de hedendaagse schrijftaal. Het Corpus Gesproken Nederlands (CGN) bestaat uit 900 uur spraakopnames, gemaakt in een groot aantal verschillende situaties. De ruim 9 miljoen woorden zijn voorzien van transcripties, lemma’s en woordsoortinformatie.

Schat aan data

Het CGN had al een eigen zoekinterface, COREX, maar deze bleek niet om te kunnen gaan met de grote hoeveelheden data uit SoNaR. “Tijdens de ontwikkeling van SoNaR was er helaas onvoldoende budget voor een exploitatie-omgeving,” herinnert Oostdijk zich. “Als je geen technische achtergrond had, verdwaalde je in al die data. Daardoor maakte maar een heel beperkte groep gebruik van deze schat aan data.”
“In een CLARIN-NL demonstratieproject is toen OpenSonar ontwikkeld, waarin het tekstcorpus voor iedereen doorzoekbaar werd, maar die interface was weer niet bruikbaar om ook spraak mee te doorzoeken,” aldus de projectleidster van OpenSoNaR+, één van de laatste nog door CLARIN-NL gefinancierde projecten. “Met Open-SoNaR+ kan het nu eindelijk allemaal. Het systeem kan zelfs ook nog andere corpora inpassen, zoals het JASMIN-corpus met spraak van jongeren, anderstaligen en senioren.”

Snoepwinkel

Oostdijk is enthousiast over demogelijkheden van de nieuwe zoekinterface: “Je kunt natuurlijk zoeken naar woorden, maar je kunt ook aanvullende eisen stellen, zoals ‘fiets’, maar alleen als werkwoord. Bij de resultaten zie je steeds een stukje context en kun je doorklikken om het hele fragment te lezen of te beluisteren. Het is een snoepwinkel voor onderzoekers.”
“We hopen dat het gebruik van de corpora zich nu meer zal gaan verspreiden. Communicatiewetenschappers wisten het CGN al wel te vinden, maar ook SoNaR is voor hen relevant. Dat corpus bevat ook teksten van sociale media, waar mensen vaak juist schrijven in spreektaal.”
opensonarplus.science.ru.nl