CollateX vergelijkt automatisch teksten

Tientallen versies van een tekst met elkaar vergelijken is een arbeidsintensieve klus. Bij Huygens ING experimenteerden onderzoeker enontwikkelaar met software die hierbij helpt. 

Door verschillende versies van een tekst te vergelijken, kunnen onderzoekers te weten komen wat de oorspronkelijke brontekst van bijvoorbeeld de bijbel is. Ook voor onderzoek naar de totstandkoming van een tekst is dit ‘collationeren’ een geschikte methode, die letterkundigen bijvoorbeeld gebruikten inVolledige Werken, een Huygens ING-project over het werk van W.F. Hermans. Daarnaast kan collatio­neren de kwaliteit van getranscribeerde handgeschreven brieven verbeteren wanneer verschillende transcripties elkaar aanvullen.

Basistekst kiezen

Wanneer een onderzoeker handmatig collationeert, kiest hij eerst een basistekst, een versie van de tekst waartegen hij alle andere versies vergelijkt. In het geval van honderden versies is dat een moeilijke keuze die een bias met zich meebrengt. Een internationaal team van ontwikkelaars ontwierp daarom CollateX, software die meerdere versies onderling vergelijkt zonder keuze van een basistekst. Een computer kan tientallen tekstversies met elkaar vergelijken in enkele seconden of minuten en doet dat consi­stent en zonder bias. De gebruiker kan de keuze voor een basistekst zo uitstellen tot een later moment in het onderzoek of zelfs helemaal achterwege laten. 

Training onderzoeker

Het is belangrijk dat onderzoekers begrijpen hoe de software werkt, stelt Ronald Haentjens Dekker, lead engineer in Huygens ING en ontwikkelaar van CollateX. “Indien de computer en de gebruikte tools een zogenaamde ‘blackbox’ blijven, is het onduidelijk welke aannamen gedaan zijn tijdens het onderzoek en hoe betrouwbaar het resultaat is.” Haentjens Dekker trainde daarom onderzoek­ster Elli Bleeker van de Universiteit van Antwerpen. Bleeker onderzocht hoe de computer kan worden ingezet voor tekstgenetisch onderzoek, waarbij het schrijfproces belang­rijker is dan het eindproduct. Dit resulteert in zeer complexe transcripties met meerdere ‘schrijflagen’. 
Haentjens Dekker en Bleeker experimenteerden binnen CollateX met het collationeren van twee XML-files, inclusief alle auteurscorrecties, schrijflagen en andere tags. De resultaten waren veelbelovend en worden verder uitgewerkt. Bleeker concludeert: “Al met al heeft mijn training en onderzoek in CollateX zeer waardevolle inzichten opgeleverd. Niet alleen op het gebied van geautomatiseerde tekstcollatie, maar evengoed over het belang van het kennen én begrijpen van de software die je gebruikt, en over de ideale vorm van samenwerking tussen onderzoeker en ontwikkelaar.”

huygens.knaw.nl/collate-x
github.com/interedition/collatex