Speuren in de archieven van Omrop Fryslân

Sinds afgelopen najaar zijn de radio-archieven van Omrop Fryslân digitaal doorzoekbaar, dankzij een spraakherkenner die zowel Fries als Nederlands herkent.

Ruim 3.000 uur aan oude analoge radio-opnames van Omrop Fryslân zijn online te doorzoeken. De Friese omroep riep hiervoor de hulp in van spraak- en taaltechnologen van de Radboud Universiteit. Zij ontwikkelden binnen het project FAME een Nederlands-Friese spraakherkenner.

Radio-opnames op analoge banden en taperecorder van Omrop Fryslân. Inmiddels is het mogelijk de opnames digitaal terug te luisteren en te doorzoeken. credits Omrop Fryslân

Code switching

“In het Fries wordt veel geswitcht met het Nederlands”, vertelt projectleider Henk van den Heuvel. “Dat is erg lastig voor een spraakherkenner.” Om ervaring op te doen met dit zogenaamde ‘code switching’, bezocht één van de projectleden, spraaktechnoloog Emre Yilmaz onder andere Zuid-Afrika, waar het Afrikaans is doorspekt met Engelse woorden. “Je kunt het probleem grofweg op twee manieren benaderen: je maakt één herkenner voor beide talen of je stelt eerst van elk woord de taal vast en herkent dat vervolgens. Uit Emres onderzoek bleek de eerste aanpak in ons geval het beste te werken.” De Friese spraakherkenner heeft nu een error rate van zo’n 23 procent. “Dat is een stuk lager dan we bij aanvang van het project verwachtten. Het lijkt misschien nog steeds hoog, maar het is laag genoeg om in het archief relevante fragmenten te kunnen vinden.”

Van den Heuvel verwacht dat de spraakherkenner ook buiten het project gebruikt zal worden. “Omdat het systeem is ontwikkeld voor omroepmateriaal, is het vocabulaire vrij breed. Onlangs heeft iemand het getest voor een zorgrobot en dat leek veelbelovend uit te pakken.”

Doorontwikkeling

De zoekmachine is opgeleverd in drie versies voor verschillende doelgroepen: het grote publiek, journalisten en onderzoekers. “De journalisten kunnen de zoekresultaten ook downloaden. In de versie voor de onderzoekers is daarnaast ook sprekerherkenning beschikbaar. Het systeem clustert de spraak per spreker en probeert deze vervolgens te linken aan een van de 336 stemprofielen. Die zijn van mensen die regelmatig in de opnames terugkomen, zoals presentatoren.”

Hoewel het project inmiddels is afgerond, zal het zoeksysteem nog worden doorontwikkeld. Van den Heuvel: “Momenteel is alleen nog het analoge archief doorzoekbaar, met materiaal tot het jaar 2000. De private partners uit het project – Omrop Frylân, Tresoar en Gridline – zullen ook nog het latere materiaal doorzoekbaar maken, dat is van oorsprong al digitaal. De spraakherkenner zelf wordt daarvoor ook bij Tresoar ondergebracht.”

Wie zelf wil zoeken in het materiaal kan terecht op: zoeken.fame.frl.