Je bevindt je hier:

Het archief als Big data

 

Een archief zoals dat van Beeld & Geluid kan met recht als Big data worden gezien. De grote hoeveelheid en diversiteit van de inhoud is hier één aspect van. Maar het aspect dat gaat om het herbruikbaar maken van deze data is in praktische zin veel belangrijker: de automatische analyse die nodig is om gegevens op te sporen en die gegevens beschikbaar te maken op plekken waar ze van toegevoegde waarde kunnen zijn.

Innovatieve oplossingen

De vraag is hoe we het proces moeten vormgeven waarmee we een onuitputtelijke bron van videofragmenten (kosten-)efficiënt kunnen koppelen aan de diverse kanalen op het web. Duidelijk is dat hiervoor innovatieve oplossingen nodig zijn op het gebied van audiovisuele analyse, high performance computing en interactiviteit.

Er wordt de komende jaren flink geïnvesteerd in onderzoek op dit gebied onder de noemer Big data, onder andere binnen het nieuwe Europese onderzoekskader Horizon 2020. Beeld & Geluid heeft zelf de afgelopen jaren in diverse onderzoeksprojecten al op onderdelen van de Big data-problematiek ervaring opgedaan. Bijvoorbeeld door te kijken naar grootschalige analyse met behulp van beeldherkenning in projecten als AXES en LinkedTV, of het koppelen van Beeld & Geluid-content aan het internet, zoals met de Oorlogsmonumenten app.

Een belangrijk onderdeel waar nog relatief weinig ervaring mee is opgedaan is schaalbaarheid: hoe kunnen we (kosten-)efficiënt, veilig en accuraat het archief geschikt maken voor het internet van de toekomst?

Vergroten van de bruikbaarheid

Beeld & Geluid was daarom ook erg ingenomen met de mogelijkheid om deze vraag te kunnen voorleggen aan een flinke groep assistenten-in-opleiding, post-docs en senior onderzoekers van diverse Nederlandse universiteiten. Deze kwamen bijeen op een workshop die de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) en Technologiestichting STW samen organiseerden in de week van 11 tot 15 November: ICT with Industry 2013.

In het Lorentz Center in Leiden ging een groep onderzoekers een week lang aan de slag met de probleemstelling van drie industriepartijen, waaronder Beeld & Geluid. Na een introductie voor deze experts op het gebied van high performance computing, beeldverwerking en semantische analyse werden in een brainstormmiddag de belangrijkste knelpunten met betrekking tot schaalbaarheid gedefinieerd. Hiermee gingen de onderzoekers gezamenlijk drie dagen fulltime – en soms letterlijk met een bord pasta op schoot - aan de slag om oplossingen te bedenken. De workshopvorm bood hierbij de ideale mogelijkheid om oplossingen op het ene terrein één op één af te stemmen met specifieke kennis over het andere terrein.

Naar een oplossing in 5 stappen

Op de laatste dag van de workshop presenteerden de deelnemers de voorgestelde oplossingen voor elk van de deelnemende industriepartijen. Gezien de complexiteit van Big data bevatte de presentatie voor Beeld & Geluid logischerwijs geen kant-en-klare uitkomst, maar wel een diepgravende analyse met een blauwdruk om nader uit te werken.

De vijf componenten hiervan waren:

  • het efficiënt berekenen en opslaan van grote matrices met scores van mogelijk in de data voorkomende visuele concepten (zoals auto, leeuw, fiets, kerk);
  • het modulair inzetten van computerclusters en clouds;
  • het parallelliseren van verschillende algoritmes voor beeldherkenning om de kwaliteit te verhogen;
  • het automatisch up- en downscalen van het systeem op basis van benodigde aantal rekentaken en aanwezige te verwerken content;
  • methoden om met behulp van impliciete en expliciete feedbackmechanismen menselijke kennis in het systeem te brengen.

In samenwerking met de betrokken onderzoekers zal deze blauwdruk in de komende maanden verder worden uitgewerkt en vormgegeven in nieuwe onderzoeksprojecten.

Meer informatie