You are here:

Are you being crawled? Webarchivering bij Beeld en Geluid

Eind september 2014 is Beeld en Geluid begonnen met het structureel crawlen van websites. In eerdere projecten lag de nadruk op de archivering van websites van de publieke omroepen. Die sites zijn immers onlosmakelijk verbonden met de av-collectie van Beeld en Geluid. Bovendien brengen ze ontwikkelingen in het medialandschap en de interactie met kijkers goed in kaart. In de nieuwe opzet worden ook websites meegenomen, die in een bredere, mediahistorische context interessant zijn, zoals websites van filmfestivals, studieverenigingen en commerciële omroepen.

De archivering van websites is gekoppeld aan de Weken Nederlandse Televisie: week 10 en week 43. Rond die laatste week valt ook de UNESCO World Day for Audiovisual Heritage (27 oktober). In deze weken worden via zendlijnregistratie alle Nederlandse media-uitzendingen vastgelegd: publiek en commercieel, inclusief reclamespotjes, promo’s en herhalingen. Websites uit diezelfde periode leveren hierbij onmisbare contextinformatie. Onderzoekers kunnen op deze manier door een zo compleet mogelijk tijdsbeeld van de Nederlandse televisiecultuur zappen.

Nationaal en internationaal wordt het belang van webarchivering onderkend. In Nederland is met name de Koninklijke Bibliotheek erg actief. Andere initiatieven zijn de reconstructie van De Digitale Stad en ArchiPol van de Rijksuniversiteit Groningen. Internationaal zijn onder meer de Library of Congress, de British Library, het Institut national de l'audiovisuel en WayBack Machine van Internet Archive zeer actief. In Nederland wordt het belang van webarchivering en de rolverdeling tussen de verschillende uitvoerende organisaties in de Nationale Coalitie Digitale Duurzaamheid (NCDD) geborgd, waarin ook Beeld en Geluid participeert.

Beeld en Geluid werkt samen met Internet Memory Research (IMR), die de websites met behulp van een web crawler archiveert. Dit is specifieke software die een kopie maakt van alle content, zoals die op dat moment op de website staat. Afhankelijk van de grootte van een website duurt dit proces enkele uren tot enkele dagen. Er wordt gebruik gemaakt van Heritrix, een open source crawler, die in veel webarchiveringsprojecten wordt gebruikt. De front-end van het webarchief is ontwikkeld door Frontwise, de back-end en zoekindex door Dispectu.

De websites die in 2014 gecrawld worden zijn begin 2015 te zien in het webarchief van Beeld en Geluid. Vooralsnog zijn deze sites alleen raadpleegbaar binnen de muren van het instituut. Voor wie nieuwsgierig is naar de resultaten van webarchivering: op ons Webarchief zijn enkele websites te zien, die in 2013 door Beeld en Geluid zijn gearchiveerd in opdracht van de NTR en die met toestemming van de NTR zijn gepubliceerd.

Op 30 oktober vindt de Studiedag Webarchivering plaats bij Beeld en Geluid. Voor meer info zie hier: StudiedagWebarchivering

Deze blog is gebaseerd op input van Julia Vytopil en Lotte Belice Baltussen