Miljoenen geboorte-, overlijdens- en huwelijksaktes gelinkt

Vanaf 1812 houdt men bij wie wordt geboren, huwt en overlijdt. Deze akten zijn nu gelinkt beschikbaar voor de wetenschap en amateurgenealogen via wiewaswie.nl. 

De aktes van de Burgerlijke Stand zijn een schat aan data voor iedereen die meer wil weten over zijn voorouders. Dat de aktes ook voor demografisch en ander historisch onderzoek relevant zijn, bedacht Kees Mandemakers (IISG) al enkele jaren geleden. Hij bracht een samenwerking tot stand tussen het Centraal Bureau voor Genealogie (CBG) en het IISG. Het CBG leverde de aktes – die vanaf de jaren negentig waren gedigitaliseerd en getranscribeerd door vele vrijwilligers – en onderzoekers van onder andere het IISG ontwikkelden een systeem om de aktes automatisch te linken. 

Minder tijdrovend

Onlangs werd via CLARIAH PLUS een nieuwe methode ontwikkeld waardoor het berekenen van een linkset veel minder tijdrovend werd. Auke Rijpma, projectleider bij CLARIAH PLUS en onderzoeker aan de Universiteit Utrecht en het IISG: “De regelsets die door het team van Mandemakers zijn ontwikkeld, gebruiken we nog steeds. Joe Raad van de Vrije Universiteit heeft een nieuwe implementatie gedaan, gericht op efficiëntie. Nu kost het linken ongeveer een dag.”

De methode werkt op basis van regelsets, oftewel rule based linking. De namen in twee verschillende aktes mogen bijvoorbeeld aan elkaar gelinkt worden wanneer ze maximaal twee karakters van elkaar verschillen, mits de naam vijf letters of meer bevat. Namen hoeven niet identiek te zijn, dit heeft bijvoorbeeld te maken met de variatie in schrijfwijze. 

Online is deze huwelijksakte van Douwe Bosma, registratiedatum 1893, nu ook gelinkt aan andere informatie, zoals informatie over de vader en moeder van de bruid en van de bruidegom. Credits: wiewaswie.nl/nl/detail/7174744​

Overlinking

Door de grote hoeveelheid aktes gaat het linken nog niet altijd goed. Om de mismatches eruit te halen, kijken de onderzoekers naar ‘overlinking’: “Een geboorteakte moet uniek gelinkt zijn aan de aktes van de ouders. Als een akte vaker gelinkt wordt, gaat er ergens iets mis. Daarnaast maken we een evaluatiedataset waarin we een paar duizend links handmatig aanleggen. Vervolgens maken we een vergelijk met de geautomatiseerde links.”

44 miljoen aktes

Voorlopig zijn alle 12 miljoen huwelijksaktes gelinkt, daar komen nog 20 miljoen geboorteaktes en 12 miljoen overlijdensaktes bij. De gelinkte data zijn om diverse redenen belangrijk: het biedt onderzoekers bijvoorbeeld de mogelijkheid om sociale ongelijkheid te zoeken, zowel in termen van waar je in de maatschappij terechtkomt, als hoe je sociale omgeving eruitziet. “Het is een kwestie van dezelfde procedure opnieuw implementeren. We verwachten dan ook dat dit nog sneller gaat. Ons streven is om nog dit jaar een besloten release voor geïnteresseerde onderzoekers te hebben, en medio 2021 een volwaardige open release.” De gelinkte data zijn al zichtbaar op wiewaswie.nl en komen via druid.datalegend.net beschikbaar voor onderzoekers. 

druid.datalegend.net