SURF, het UvA CREATE lab en de Amsterdam Time Machine hebben afgelopen jaar gewerkt aan Meaningful Memories: een prototype van een pipeline om oral history-bronnen te transcriberen en te annoteren met machine learning modellen.
door: Simone van Bruggen
Aanleiding hiervoor was het Amsterdam Diaries Time Machine-project, waarin fragmenten van digitaal beschikbare dagboeken met de hand werden geannoteerd. Het handmatig annoteren van geschreven bronnen is al een tijdrovende klus. Op grotere schaal annoteren wordt alleen maar arbeidsintensiever als je ook audio of video wilt analyseren en verrijken. Oral History interviews zijn daarom bovendien vaak geannoteerd op het niveau van het gehele interview, wat het doorzoeken, linken en toegankelijk maken van fragmenten in de weg staat.
De hoofdvraag voor het Meaningful Memories-project was: kunnen we de annotatie van Oral Histories met behulp van AI-modellen vereenvoudigen en versnellen? Met bestaande transcriptiemodellen en taalmodellen is het mogelijk om de data te voorzien van bijpassende labels op zowel woord- als interviewniveau. Denk hierbij aan locaties, thema’s of trefwoorden binnen een specifiek domein. Deze annotaties kunnen vervolgens worden gelinkt aan bestaande externe kennisbronnen, zoals Wikidata of Adamlink, voor verdere verrijkingen en hergebruik.
De Meaningful Memories-pipeline combineert deze stappen tot een eenvoudig proces, waarmee video- of audiobestanden direct omgezet kunnen worden in geannoteerde transcripties. Deze annotaties volgen bestaande annotatiestandaarden om hergebruik mogelijk te maken en bevatten nauwkeurige referenties naar de originele data, verwijzend naar het specifieke fragment in zowel de originele audio of video als in de transcriptie. Daarnaast blijft de data altijd op eigen server of laptop, zonder gebruik van externe API’s. Eventuele correcties kunnen worden doorgevoerd in een human-in-the-loop opstelling.
Na een experimentfase is de pipeline getest tijdens de datasprint van de Amsterdam Time Machine op 18 juni, die werd georganiseerd in het kader van Amsterdam 750. Als brondata gebruikten we interviews uit de collectie van het Amsterdam Museum, gemaakt door studenten Publieksgeschiedenis van de UvA. Deze interviews zijn automatisch omgezet in doorzoekbare tekst, geannoteerd en gelinkt met locaties in Amsterdam. De deelnemers van de datasprint konden met deze data aan de slag om de resultaten te evalueren en eventuele correcties en toevoegingen te doen. De gecontroleerde annotaties zijn opgeslagen in de AnnoRepo en kunnen worden gebruikt voor verdere verrijkingen of toepassingen. Zo visualiseerden we tijdens de datasprint de geannoteerde interviews op een kaart van Amsterdam. Het project heeft een werkende proof-of-concept opgeleverd en zal naar verwachting in een vervolgfase worden doorontwikkeld tot een volwaardige onderzoekstool, als onderdeel van een bredere onderzoeksinfrastructuur.
Zie voor meer over het project en de projectdocumentatie: https://www.amsterdamtimemachine.nl/meaningful-memories-doorzoekbaar-maken-van-oral-history-interviews-met-ai/
Met dank aan Ingeborg Verheul (UvA), Leon van Wissen (UvA), Boudewijn Koopmans (UvA) en Annette Langedijk (SURF) voor hun bijdrage aan dit artikel.

