Dynamische webcontent in het archief

Blog

4 oktober 2017

Jesse de Vos

Werkzaam bij Beeld & Geluid tot december 2021

Thema's

De portal van het Beeld & Geluid webarchief. Deze wordt binnenkort vernieuwd.

In 2014 begon Beeld & Geluid met het structureel archiveren van websites. Aanvankelijk werden websites uitsluitend beschouwd als context bij de (audiovisuele) collectie die de hoofdmoot vormt van het archief van Beeld & Geluid. Het web bevat echter ook unieke producties die onafhankelijk van andere producties in zowel vorm als functie een belangrijk verhaal vertellen. Daarnaast zijn ook de traditionele omroepen begonnen met het produceren van zogenaamde ‘web-only’ producties zoals Waarom Srebrenica moest vallen en Last Hijack. De dynamische vorm van deze websites vraagt om geavanceerde oplossingen. Daarom hebben we in een pilotproject bekeken in hoeverre de huidige tools die content wel kunnen ‘crawlen’ en archiveren. In deze blogpost lees je over de manier waarop we deze tools hebben onderzocht en de conclusies die we hebben getrokken.

De status quo

Beeld & Geluid archiveert tot op heden twee keer per jaar tussen de 150 en 200 websites. De hiervoor benodigde ‘harvest’ werd tot voor kort uitgevoerd door Internet Memory Research (IMR) een partij gevestigd in Frankrijk. IMR maakte daarbij gebruik van Heritrix, door the Internet Archive ontwikkeld, wat in webarchivering inmiddels een standaard is. Heritrix slaat websites op in het zogenoemde WARC formaat. WARCs zijn containerbestanden die allerlei bestandstypen waaruit websites zijn opgebouwd kunnen bevatten en daar een aantal basale metadatavelden aan toevoegen. Beeld & Geluid mag de gearchiveerde websites vanwege het daarop geldende auteursrecht niet buiten haar eigen muren vertonen.

Last Hijack, Femke Wolting, Tommy Pallotta. 2014

De uitdagingen

Dynamische webcontent: waar hebben we het dan over? In de literatuur wordt wel gesproken over ‘deferred representations’, waarbij technologie aan de kant van de gebruiker (bv. Browsers en Javascript) de representatie van een website aanpast nádat deze geladen is. Voor crawling software - zoals Heritrix - vormt dit een uitdaging. De meeste hedendaagse websites gebruiken JavaScript voor dynamische toepassingen. JavaScript is een zeer flexibele technologie die op veel verschillende manieren ingezet kan worden. Meer dan 94% van de websites wereldwijd maakt gebruik van JavaScript.[1] Het is echter niet per definitie zo dat er bij een website met JavaScript sprake is van deze ‘deferred representations’. Flash is een andere technologie die in veel gevallen moeilijk crawlbaar is. Bijkomende uitdaging is dat Flash vaak niet meer ondersteund wordt door gangbare browsers. Bijna 7% van de websites wereldwijd gebruikt nog Flash (en dat aantal daalt nog elke 6 maanden met 1%). Andere vormen van dynamische webcontent kunnen zijn: embedded media en afhankelijkheden van externe databases en API’s.

Verder ontstond er bij Beeld & Geluid ook de behoefte om waar nodig af te wijken van het crawlen van websites op twee vaste momenten in het jaar. Sommige websites veranderen namelijk tussentijds zodanig dat belangrijke momenten gemist worden. Sommige websites veranderen niet meer na publicatie. Een eenmalige crawl is dan afdoende.

Een in-huis oplossing?

Bij aanvang van de pilot bestond er het vermoeden dat er inmiddels oplossingen voorhanden waren die beter in staat zijn om met dynamische webcontent om te gaan. Onderstaande tools zijn getest op een selectie van dynamische websites. Hieronder lees je een korte evaluatie per tool:

Brozzler wordt ontwikkeld door the Internet Archive. Brozzler registreert de interacties tussen servers en browsers terwijl deze zich voordoen. Daardoor komt het dichter in de buurt van hoe een menselijke gebruiker een website zou doorlopen. Tijdens het testen bleek dat de tool nog niet toegankelijk was voor niet-ontwikkelaars. Er is geen front-end en het vereist zeer specifieke kennis van de tool om deze te configureren. Dynamische content werd met onze beperkte mogelijkheden voor configuratie, nog niet goed gecrawld. Brozzler lijkt een tool met potentie, maar vooralsnog zijn er veel resources en expertise noodzakelijk om deze goed op te zetten.
Webrecorder wordt ontwikkeld door Rhizome (een organisatie die zich bezighoudt met digitale kunst en cultuur) met specifiek als doel om dynamische webcontent gemaakt door kunstenaars te crawlen. Dit wordt gedaan door middel van handmatige navigatie door een website. Het is daarmee zeer arbeidsintensief en bleek in onze pilot ook foutgevoelig. Niet alle dynamische content werd gecrawld en wanneer wel gecrawld werd deze niet altijd weergegeven in de weergave-modus. Webrecorder is een zeer toegankelijke tool, maar is moeilijk op schaal toe te passen en biedt op dit moment te wisselende resultaten om een reële optie te zijn.

Parallel aan het pilotproject heeft VU student Allard Oelen een eigen onderzoek gedaan naar onder meer bovenstaande tools. Zijn volledige onderzoeksverslag is hier te lezen en zijn conclusies bevestigen onze eigen bevindingen.

Webrecorder, ontwikkeld door Rhizome

Er blijkt dat het in-huis realiseren van alle componenten van webarchivering (vooral waar deze dynamische content betreft) vraagt om forse investeringen in infrastructuur, kennis en/of personele inzet. Voor de schaal waarop Beeld & Geluid websites archiveert is die investering op dit moment niet gerechtvaardigd. Binnen het pilotproject zijn daarom ook meerdere commerciële aanbieders van webarchiveringsoplossingen gevraagd om een offerte uit te brengen. Beeld & Geluid is met het (deels) uitbesteden van webarchivering niet alleen: uit een recente survey onder 104 webarchiverende instellingen in de VS bleek dat in 2016 maar liefst 94% van de respondenten webarchivering uitbesteedde aan een externe partij (in 2011 was dat nog 65%, Bailey et al, 2017). Beeld & Geluid heeft uiteindelijk besloten met Archiefweb.eu in zee te gaan vanwege onder meer de volgende redenen:

Het biedt een totaaloplossing voor crawling, archivering en toegang.
Door de laatste versie van Heritrix (3.0) te gebruiken in combinatie met propriétaire technologie slaagt Archiefweb er over het algemeen beter dan gemiddeld in dynamische content te archiveren.
Medewerkers van Beeld & Geluid kunnen zelfstandig en op elk gewenst moment een crawl uitvoeren en hebben een aantal mogelijkheden om crawls te configureren voor specifieke sites.
Archiefweb biedt een oplossing waarmee een webarchief ontdubbeld kan worden. Daardoor is kostenbesparing voor hosting mogelijk.

Conclusie

Dynamische webcontent blijft een uitdaging voor archieven, ook omdat webtechnologie snel doorontwikkelt. Met de keuzes die Beeld & Geluid nu heeft gemaakt hebben we voor de komende jaren onze webarchiveringsactiviteiten verbeterd. Garanties voor archivering van dynamische webcontent zijn er echter (nog?) niet. Beeld & Geluid houdt ontwikkelingen in de gaten door middel van verdere onderzoeksprojecten en deelname in gremia als IIPC.

Literatuur

Brunelle et al, Archiving Deferred Representations Using a Two-Tiered Crawling Approach, iPres 2015
Bailey, Jefferson et al. NDSA Results of a Survey of Organizations Preserving Web Content February 2017

[1] Bron: https://w3techs.com/technologies/details/cp-javascript/all/all. Voor een overzicht van verschillende manieren waarop JavaScript gebruikt kan worden zie hier.