De vluchtigheid voorbij: Hollands webarchiveren
Peter de Bode
Voor het congres ‘De vluchtigheid voorbij: webarchivering in Nederland’ kwamen zo’n 130 belanghebbenden op 30 oktober bijeen in Hilversum. De Koninklijke Bibliotheek (KB), de Nationale Coalitie Digitale Duurzaamheid (NCDD) en gastheer Nederlands Instituut voor Beeld en Geluid (NIBG) zorgden voor een afwisselend programma om meer inzicht te geven in en aandacht te vragen voor de praktijk van webarchivering in Nederland.
Na een introductie van Marcel Ras (NCDD) volgde de keynote van Helen Hockx-Yu, hoofd afdeling Webarchivering van de British Library. Zij legde uit hoe de webarchiveringsactiviteiten in het Verenigd Koninkrijk zijn georganiseerd door de bibliotheken die verantwoordelijk zijn voor de wettelijk-depottaken.
René Voorburg (KB) gaf een overzicht van de webarchiveringsactiviteiten van de KB. De KB-webcollectie telt ruim 6.000 websites, die minstens jaarlijks worden geharvest.
Dat niet alle websites zijn te archiveren, lieten Julia Vytopil (NIBG) en Chloé Martin (Internet Memory Research, IMR) zien in hun co-presentatie over audiovisuele websites.
Wim de Bie en GertJan Kuiper (VPRO) haalden herinneringen op aan Bieslog (2002-2008), een weblog dat zijn tijd ver vooruit was. Dankzij gearchiveerde versies en het door Kuiper bewaarde beeld- en geluidmateriaal is NIBG er in geslaagd om Bieslog ten dele te reconstrueren.
Als laatste spreker gaf Hugo Huurdeman inzicht in de activiteiten van WebART. Een van zijn constateringen is dat onderzoekers het webarchief voornamelijk gebruiken voor data mining.
Tot slot gingen sprekers en zaal onder leiding van Jantje Steenhuis (Stadsarchief Rotterdam) met elkaar in gesprek over de wenselijkheid van opgelegde regels voor webontwerpers in de publieke sector, het wel of niet archiveren van sociale media en het nut van samenwerking tussen instellingen die zich met webarchivering bezighouden. Over het laatste was iedereen het eens.
ncdd.nl/studiedagwebarchivering
British Library heeft eigen onderzoekslab
Steven Claeyssens
Aan de overzijde van Het Kanaal loopt sinds een paar jaar een boeiend experiment. Gefinancierd door de Andrew W. Mellon Foundation startte de British Library (BL) het Labs-project. In het project verkent de Britse nationale bibliotheek nieuwe vormen van onderzoek op basis van de eigen digitale collecties, steeds in nauwe samenwerking met wetenschappers. Jaarlijks wordt een symposium gehouden om de resultaten te delen.
Vorig jaar introduceerde de BL er bijvoorbeeld de Sample Generator, ontwikkeld samen met Pieter Francois (University of Oxford). De Sample Generator tracht op statistisch verantwoorde wijze een oplossing te bieden voor twee belangrijke representativiteitsvraagstukken die ontstaan wanneer grote verzamelingen gedigitaliseerde teksten beschikbaar komen: ‘hoe verhoudt het aantal gedigitaliseerde teksten zich tot het aantal (nog) niet gedigitaliseerde teksten uit het hetzelfde tijdvak’ en ‘hoe groot moet een deelverzameling van het totale digitale corpus zijn om een wetenschappelijk verantwoorde afspiegeling te vormen’.
Na de keynote, waarin Tim Hitchcock (University of Sussex) de zorg uitsprak dat de geesteswetenschappen zich in het ‘big data’-tijdperk te weinig bekommeren om ‘small data’, passeerden ook dit keer weer een paar interessante project de revue. Zo presenteerde Desmond Schmidt (University of Queensland) TILT, de Text to Image Tool. TILT koppelt op een slimme manier teksttranscripties met een manuscript of druk, zonder dat de software probeert de tekst te herkennen. Een ander voorbeeld is Bob Nicholson (Edge Hill University), zie foto. Beide projecten bewijzen dat Hitchcocks zorg misschien groter is dan nodig.
labs.bl.uk
Semantische bruggen tussen digitale collecties
Jeffrey van der Hoeven
Hoe kunnen we een semantische brug slaan tussen al die digitale collecties die wereldwijd online beschikbaar zijn? Deze vraag vormde het centrale onderwerp tijdens een speciale bijeenkomst over Linked Open Data (LOD) op 1 en 2 december 2014 in New York City, georganiseerd door de Andrew W. Mellon Foundation. Diverse universiteitsbibliotheken en andere wetenschappelijke en culturele instellingen uit de VS en Europa kwamen samen om hun visie en aanpak op het gebied van LOD te bespreken. Uit Nederland waren de KB en Europeana aanwezig.
Veel instellingen maken hun (meta)data op het web beschikbaar. Ze doen dat steeds vaker in een vorm (RDF) die hergebruik en vindbaarheid vergemakkelijkt. Zo heeft de Bibliothèque Nationale de France al een groot deel van haar collecties op http://data.bnf.fr in RDF beschikbaar gemaakt en biedt het samenwerkingsproject Linked Data for Libraries (LD4L) van Stanford, Harvard en Cornell de mogelijkheid virtuele collecties en relaties te vormen op basis van metadata uit ieders bibliotheek. Dat is ook de volgende logische stap na web presence: datasilo’s met elkaar verbinden zodat de eindgebruiker vanuit één startpunt gemakkelijk nieuwe bronnen kan vinden zonder diverse databanken af te hoeven struinen. En beter nog: men kan verbanden ontdekken die via traditionele zoekmachines niet gevonden worden. De bijeenkomst in New York richtte zich op de uitdagingen die bij het vastleggen van semantische relaties komen kijken: welk soort relaties kunnen er bestaan, wie voelt zich verantwoordelijk deze relaties te beheren en hoe kunnen entiteiten in full-tekst data zo goed mogelijk automatisch gevonden worden?
De sleutel is het opzetten van reconciliation engines: knooppunten waar relaties over collectiegrenzen heen worden vastgelegd. Doordat er al heel wat grote datahubs zoals DBpedia (data-representant van Wikipedia), VIAF (auteurs) en FOAF (menselijke relaties) in de wereld bestaan, kan het linken naar één van deze hubs al grote winst opleveren. Het voorstel is echter om klein te beginnen door eigen specialistische collecties te verbinden met soortgelijke collecties van andere organisaties, nationaal en internationaal. Dit brengt nieuwe informatie aan het licht in plaats van te verwijzen naar wat al bestaat. Relaties tussen personen en plaatsen genieten daarbij de voorkeur omdat deze relatief makkelijk te herkennen zijn in bronnen. Daarna kan dit uitgroeien tot een groter verknoopt netwerk van semantische relaties.
Tot slot werd onderkend dat eenvoud het uitgangspunt moet zijn. Linked Open Data is mooi, maar als het te complex is en geen gebruiksvriendelijke toegang heeft, gebruikt niemand het. Volgend jaar komt er mogelijk een vervolg op deze bijeenkomst om de voortgang te evalueren en vervolgafspraken te maken.