Overheidsdocumenten die zijn geopenbaard via een Woo-verzoek zijn vaak slecht doorzoekbaar. Informaticus Maarten Marx brengt daar verandering in.
Eén pdf van honderden pagina’s, waarin tientallen documenten lukraak achter elkaar zijn geplakt, met teksten die onleesbaar zijn voor een computer. Zo ontvangen onderzoeksjournalisten meestal de dossiers die ze opvragen bij overheidsinstellingen in het kader van de Wet Open Overheid (Woo, de opvolger van de Wob). Niet alleen praktisch onbruikbaar voor de journalisten, maar ook voor wetenschappers die de data willen gebruiken voor hun onderzoek.
Dat kan beter, bedacht informaticus Maarten Marx van de Universiteit van Amsterdam. Met zijn onderzoeksgroep ontwikkelde hij WooGle, een zoekmachine voor geopenbaarde Woo-dossiers van gemeenten, provincies en ministeries.
Kunstmatige intelligentie
“Als je zo’n pdf opent, kan je de teksten zelf prima lezen”, vertelt Marx. “Het probleem merk je pas als je in de tekst wil zoeken of wil laten voorlezen. Dat gaat simpelweg niet, doordat het eigenlijk alleen scans van de documenten zijn.” Het team van Marx gebruikt daarom Optical Character Recognition (OCR) om de letters en woorden op de scans te herkennen. Het resultaat daarvan is nog niet perfect, maar wel al goed bruikbaar. “We proberen het nog te verbeteren, bijvoorbeeld met de kunstmatige intelligentie van ChatGPT. Die kan de laatste fouten eruit halen, maar het gaat om zulke grote hoeveelheden tekst dat de kosten dan wel hoog oplopen. Daar zoeken we nog een oplossing voor.”
Marx en zijn collega’s gebruiken AI ook voor het automatisch herkennen van de grenzen tussen verschillende documenten binnen een pdf.
Momenteel doorzoekt WooGle ruim 1,1 miljoen pagina’s afkomstig uit bijna 20.000 dossiers van 55 verschillende bestuursorganen. Die lopen uiteen van gemeenten, provincies en ministeries tot de Kansspelautoriteit en de Landelijke Eenheid Politie. De data in WooGle worden continu aangevuld met nieuwe documenten.
Erfgoed voor de toekomst
Hoewel Marx zijn best doet om ingescande Woo-dossiers doorzoekbaar te maken, ziet hij liever dat het direct goed gaat bij de bron. “Dit is geen 18e-eeuws materiaal, maar gewoon onlangs op de computer gemaakt. We roepen Woo-coördinatoren van bestuursorganen daarom ook op om dossiers direct naar WooGle te uploaden. Als het aan het begin al goed gaat, zou dit allemaal niet nodig zijn. Ik zie dat vooral Woo-coördinatoren bij gemeenten heel welwillend en enthousiast zijn om hieraan mee te werken.”
Onlangs heeft Marx de data uit WooGle gedeponeerd bij DANS, zodat ze ook toegankelijk zijn voor de onderzoeksgemeenschap. “Vooral vanuit Rechten is hier veel interesse voor. Maar ik zie het ook als een soort erfgoed voor de toekomst, zodat een historicus over vijftig jaar kan kijken hoe dat nou ging met die openbaarmakingen.”