Machine learning: wat is echt en wat is nep?

Ruim 700 bezoekers testten afgelopen zomer de rapbot die ontwikkeld werd binnen het project Deepflow. Taaltechnoloog Folgert Karsdorp praat ons bij over de resultaten.

Karsdorp, postdoc aan het Meertens Instituut, ontwikkelde samen met onderzoekers van de Universiteit Antwerpen een hiphopgenerator, de rapbot. Deze genereert zelf hiphopteksten op basis van 64.000 (vooral Amerikaanse) originele raps. Tijdens Lowlands, een drie dagen durend festival boordevol muziek, theater, film, comedy, literatuur en wetenschap, lieten ze de rapbot testen in een zogenaamde MC Turing-test. Bezoekers aan Lowlands Science zagen een tekst op een beeldscherm. Van elke tekst moesten ze beoor­delen of de tekst een echte rap was of nep. Karsdorp wilde daarbij vooral weten: waar letten mensen op? En: werkt het bij iedereen hetzelfde?

Het antwoord op de laatste vraag is ‘nee’. Uit de analyses blijkt dat er grote verschillen zijn tussen de antwoorden van zogenaamde amateurs en experts. “De eerste groep gokt maar wat”, zegt Karsdorp, “terwijl de tweede groep let op talige eigenschappen van de tekst, zoals rijm, alliteratie en flow.”

Letter- of woordniveau

In totaal werden 6 taalmodellen getest. Het eerste model werkt op letterniveau: het computermodel bepaalt per letter wat de meest waarschijnlijke letter is die volgt. Het tweede model werkt op woordniveau, het derde combineert beide modellen. “Een voordeel van het lettermodel is dat je te maken hebt met een klein vocabulaire”, legt Karsdorp uit, “26 letters en nog allerlei interpunctie en diakritische tekens, zeg een stuk of 100 symbolen. Een nadeel van dit letter voor letter genereren, is dat je na 100 letters maar een paar woorden verder bent. Dan kun je beter overgaan op het woordniveau, maar daar is het probleem juist dat je vocabulaire heel groot wordt. In ons corpus hadden we bijvoorbeeld te maken met 380.000 unieke woorden. Naarmate je vocabulaire groeit, heeft de computer meer trainingsmateriaal nodig om de juiste voorspellingen te doen. Daarom hebben we een hybride model toegevoegd.” Vervolgens werden alle modellen getest met en zonder bepaalde talige condities zoals de flow van de regels, rijmelementen en ritmische aspecten.

Sterkste effect

Karsdorp: “Bij het lettermodel pikten de deelnemers de gegenereerde fragmenten er het makkelijkst uit. Bij het hybridemodel zat het slagingspercentage echter ongeveer op kansniveau. Als er talige condities aan het model waren toegevoegd, presteerden alle modellen beter – en werd het dus moeilijker voor de deelnemers. Maar het sterkste effect hadden ze op het woordmodel. Ritmische aspecten zitten op het lettergreepniveau, en vallen daardoor het beste samen met het woordmodel.”

Karsdorp gebruikt de resultaten van dit onderzoek om nieuwe modellen voor culturele verandering te ontwikkelen. Niet alleen in taal, maar ook bijvoorbeeld in melodie. Voor zijn onderzoek put hij onder andere uit de liederenbank en volksverhalenbank van het Meertens Instituut.

deep-flow.nl