Online tool SASTA analyseert taal

Automatische grammaticale analyse is niet alleen nuttig voor de wetenschap. Ook de klinische praktijk kan deze tool goed gebruiken, zo laat het CLARIAH-project SASTA zien.

“Voor een goed behandelplan is een grammaticale analyse van de afwijkende taal essen­tieel”, vertelt Margo Zwitserlood, die als klinisch linguïst en onderzoeker in het Pento Audiologisch Centrum Amersfoort vooral jonge kinderen met taal- en spraakproblemen ziet. “We nemen dan een gesprek met het kind op, dat we transcriberen en vervolgens analyseren. Daar ben je in totaal vier tot vijf uur mee bezig. Logopedisten hebben daar onvoldoende tijd voor of het ontbreekt hen aan kennis.”

Maatschappelijke impact

In het project SASTA werkt zij daarom met collega’s van de Vereniging voor Klinische Linguïstiek en CLARIAH-onderzoekers aan een programma voor de automatische analyse van spontane taal. Dit programma is niet alleen bedoeld voor kindertaal, maar ook voor afwijkende taal bij volwassenen met afasie. “De basis van SASTA bestaat uit bestaande onderdelen uit de CLARIAH-infrastructuur, zoals de Alpino-parser en de GrETEL-zoekapplicatie voor treebanks”, vertelt Jan Odijk, hoogleraar taal- en spraaktechnologie aan de Universiteit Utrecht. De parser ontleedt de zinnen, waarna met GrETEL in de grammaticale structuren gezocht kan worden. “Het is mooi om te zien hoe deze technieken ook maatschappelijke impact kunnen genereren.”

Eén druk op de knop

SASTA maakt met één druk op de knop een complexiteitsanalyse van de transcriptie. Daarin staat onder andere hoe vaak verschillende woordsoorten en zinsconstructies voorkomen, en hoe dit zich verhoudt tot normaal taalgebruik. De uitkomst van de analyse wordt verwerkt in de scoreformulieren van drie veelgebruikte diagnostische methodes. “Dat scheelt al heel veel werk, geweldig”, aldus Zwitserlood.
In een vergelijking tussen automatisch en manueel uitgevoerde analyses scoort SASTA erg hoog, tussen de 75 en 90%. Odijk: “Het systeem vindt soms woordsoorten en zinsconstructies die de linguïsten zelf niet uit de data haalden; het werkt dan dus beter dan de mens.” Wel heeft SASTA nog moeite met afwijkende taal: het probeert er correct Nederlands in te zien. Zo analyseert het programma een zin met een congruentiefout als twee zinnen en ziet hij ‘stukkies’ als een samenstelling van ‘stuk’ en ‘kies’. Odijk: “De foutenanalyse doen we daarom nu nog handmatig, maar de betrokken onderzoekers werken aan de automatisering hiervan.” De transcriptie zal voorlopig ook nog handmatig moeten gebeuren, omdat kinderspraak moeilijk automatisch te herkennen is, zeker als deze afwijkend is. Zwitserlood: “Maar ook daar zijn wetenschappers volop mee bezig, onder andere in Nijmegen. Alle tijdswinst is welkom!”

Een voorlopige versie van SASTA is momenteel online beschikbaar voor linguïsten via: sasta.hum.uu.nl