Tientallen versies van een tekst met elkaar vergelijken is een arbeidsintensieve klus. Bij Huygens ING experimenteerden onderzoeker enontwikkelaar met software die hierbij helpt.
Door verschillende versies van een tekst te vergelijken, kunnen onderzoekers te weten komen wat de oorspronkelijke brontekst van bijvoorbeeld de bijbel is. Ook voor onderzoek naar de totstandkoming van een tekst is dit ‘collationeren’ een geschikte methode, die letterkundigen bijvoorbeeld gebruikten inVolledige Werken, een Huygens ING-project over het werk van W.F. Hermans. Daarnaast kan collationeren de kwaliteit van getranscribeerde handgeschreven brieven verbeteren wanneer verschillende transcripties elkaar aanvullen.
Basistekst kiezen
Wanneer een onderzoeker handmatig collationeert, kiest hij eerst een basistekst, een versie van de tekst waartegen hij alle andere versies vergelijkt. In het geval van honderden versies is dat een moeilijke keuze die een bias met zich meebrengt. Een internationaal team van ontwikkelaars ontwierp daarom CollateX, software die meerdere versies onderling vergelijkt zonder keuze van een basistekst. Een computer kan tientallen tekstversies met elkaar vergelijken in enkele seconden of minuten en doet dat consistent en zonder bias. De gebruiker kan de keuze voor een basistekst zo uitstellen tot een later moment in het onderzoek of zelfs helemaal achterwege laten.
Training onderzoeker
Het is belangrijk dat onderzoekers begrijpen hoe de software werkt, stelt Ronald Haentjens Dekker, lead engineer in Huygens ING en ontwikkelaar van CollateX. “Indien de computer en de gebruikte tools een zogenaamde ‘blackbox’ blijven, is het onduidelijk welke aannamen gedaan zijn tijdens het onderzoek en hoe betrouwbaar het resultaat is.” Haentjens Dekker trainde daarom onderzoekster Elli Bleeker van de Universiteit van Antwerpen. Bleeker onderzocht hoe de computer kan worden ingezet voor tekstgenetisch onderzoek, waarbij het schrijfproces belangrijker is dan het eindproduct. Dit resulteert in zeer complexe transcripties met meerdere ‘schrijflagen’.
Haentjens Dekker en Bleeker experimenteerden binnen CollateX met het collationeren van twee XML-files, inclusief alle auteurscorrecties, schrijflagen en andere tags. De resultaten waren veelbelovend en worden verder uitgewerkt. Bleeker concludeert: “Al met al heeft mijn training en onderzoek in CollateX zeer waardevolle inzichten opgeleverd. Niet alleen op het gebied van geautomatiseerde tekstcollatie, maar evengoed over het belang van het kennen én begrijpen van de software die je gebruikt, en over de ideale vorm van samenwerking tussen onderzoeker en ontwikkelaar.”