Nieuwe standaard CBG voorziet in behoefte

Het Centraal Bureau voor Genealogie (CBG) ontwikkelde een standaard voor het registreren van persoons­gegevens voor het optimaliseren van genealogisch onderzoek. Als Linked Data-standaard is deze breed inzetbaar.

Burgerlijke stand van de gemeente Beverwijk, archiefdeel van (dubbele) registers van de huwelijksakten van de gemeente Beverwijk, 1939. Credits: Noord-Hollands Archief, Wiewaswie.nl

Linked Data-standaarden voor persoonsgegevens waren er wel al, maar tot nu toe waren deze allemaal geënt op het heden, vertelt Pieter Woltjer, datamanager bij het CBG. Een standaard voor historische persoonsgegevens was er nog niet, en daar heeft het CBG nu verandering in gebracht. “Met Schema bijvoorbeeld, de Linked Data-standaard die gebruikt wordt door Google en Facebook, kun je wel vastleggen dat iemand een partner heeft, maar niet meerdere in de tijd. En je kunt wel een geboortedatum vastleggen, maar geen leeftijd op een bepaald moment in de tijd. Terwijl dat typerend is voor historische bronnen. Dus historische bronnen kun je er moeilijk mee beschrijven.”

Maar nu is er dus PiCo, die voorziet in een behoefte die er ook was bij andere instellingen. Zo zijn het Instituut voor Internationale Sociale Geschiedenis (IISG) en WO2NET betrokken geweest bij de reviewfase omdat zij ook te maken hebben met historische persoonsgegevens. “Doordat PiCo is gebaseerd op Linked Open Data en op bestaande internationale standaarden kunnen andere instellingen makkelijk eigenschappen toevoegen. Dus WO2NET kan gebeurtenissen toevoegen die specifiek zijn voor de Tweede Wereldoorlog en het IISG inkomensgegevens, als ze dat zouden willen.”

Persoonsreconstructie

Het model is in eerste instantie ontwikkeld voor de website WieWasWie van het CBG, waar iedereen terechtkan voor stamboomonderzoek. Op dit platform zijn heel veel Nederlandse archieven samen­gebracht. Dit heeft als voordeel dat iedereen die zijn familiegeschiedenis wil uitzoeken, niet allemaal verschillende archieven af hoeft. Om de gegevens van al die archieven op een eenduidige manier bij elkaar te krijgen, heeft het CBG tien jaar geleden de standaard A2A ontwikkeld. PiCo is de opvolger, legt Woltjer uit: “Het grote verschil is dat A2A een standaard was puur gericht op losse persoonsvermeldingen: alle gegevens die een persoon identificeren zoals ze in diverse bronnen staan vermeld zoals aktes van de burgerlijke stand of notariële archieven. In PiCo brengen we ze samen.”

Op WieWasWie staan vandaag de dag 220 miljoen persoonsvermeldingen, vertelt Woltjer. Dat zijn dus allemaal losse persoons­gegevens. “Mijn overgrootvader staat daar minstens drie keer in: via zijn geboorteakte, zijn huwelijksakte en zijn overlijdensakte. Misschien zelfs wel tien keer. A2A bood nog geen manier om die vermeldingen te koppelen. Archieven leverden tot nu toe data aan zoals ze op de bron vermeld stonden. Maar vandaag de dag zeggen we: als we die persoon tien keer hebben, dan willen wij een reconstructie van die persoon maken, die verwijst naar alle tien die bronnen. Dat kan bijvoorbeeld met algoritmes of crowdsourcing. Naar zo’n persoonsreconstructie werken we nu toe.”

WieWasWie 2.0

PiCo is dus niet alleen een standaard voor het registeren van persoonsvermeldingen, maar ook voor reconstructies die gemaakt zijn op basis van de persoonsvermeldingen. “Met PiCo zijn we nu een nieuwe WieWasWie aan het ontwikkelen, die gebaseerd is op persoonsreconstructies. Dat betekent dat wanneer jij straks zoekt naar jouw overgrootvader, je hem niet tien keer tegenkomt maar één keer, met een verwijzing naar alle bronnen waarin hij voorkomt. In de ideale wereld hoef je dan niet meer verder te zoeken. PiCo maakt het bovendien mogelijk om relaties te leggen tussen personen, dus je vindt dan ook meteen de partner van je overgrootvader en zijn kinderen enzovoorts.”

Er hoort wel een disclaimer bij, waarschuwt Woltjer. “We gaan dit soort reconstructies maken, maar we weten van tevoren niet of dat ook voor alle personen in onze WieWasWie-database gaat lukken. Misschien komt jouw overgrootvader wel in een andere akte voor, maar is zijn naam daarin heel anders gespeld. Dan is het voor een algoritme heel moeilijk om te zeggen: dat is hem.” Om toch uiteindelijk die koppelingen te maken, wil het CBG ook gebruik gaan maken van de kennis van de genealogen die dagelijks hun website bezoeken. Een bezoeker kan dan zelf aangeven dat een afwijkende naamsvermelding ook zijn of haar overgrootvader betreft, bij wijze van spreken.

Om deze nieuwe versie van WieWasWie mogelijk te maken, is het van belang dat alle archieven hun data in PiCo gaan aanleveren. Om dit te bewerkstelligen is het CBG nu in gesprek met de leveranciers van de Nederlandse collectiebeheersystemen. Zodat alle persoonsdata straks op een uniforme manier zijn opgeslagen. Nog mooier zou het zijn als buitenlandse instellingen dit systeem ook overnemen, want hoe meer systemen met elkaar kunnen ‘praten’, hoe makkelijker het wordt om stamboomonderzoek te doen. “Wij willen dat iedereen stamboomonderzoek kan doen. En familie­geschiedenis is bijna nooit beperkt tot de grens. Dus hoe meer landen het op een vergelijkbare manier ontsluiten, hoe makkelijker het wordt om ook je internationale roots terug te vinden.”

Wie geïnteresseerd is of meer wil weten over PiCo kan contact opnemen met Pieter Woltjer, pieter.woltjer@cbg.nl

https://www.wiewaswie.nl

https://github.com/CBG-Centrum-voor-familiegeschiedenis/PiCo