Rijkere geografische informatie voor de Beeld & Geluid collectie
Daan de Ruijter heeft tijdens zijn master Information Science aan de VU zijn masterscriptie geschreven bij Beeld & Geluid. Beeld & Geluid benaderde de VU met een interessante opzet voor een scriptieproject: “hoe kunnen we online bronnen gebruiken om onze collectie met geografische data te verrijken?” In deze blogpost lees je meer over de opzet en resultaten van zijn masterscriptie.
Daan de Ruijter heeft tijdens zijn master Information Science aan de VU zijn masterscriptie geschreven bij Beeld & Geluid. Beeld & Geluid benaderde de VU met een interessante opzet voor een scriptieproject: “hoe kunnen we online bronnen gebruiken om onze collectie met geografische data te verrijken?” In deze blogpost lees je meer over de opzet en resultaten van zijn masterscriptie.
Door: Daan de Ruijter
Annoteren
Beeld & Geluid annoteert de objecten die zij beheert met behulp van concepten die gestructureerd staan in een thesaurus (de Gemeenschappelijke Audiovisuele Thesaurus, of GTAA). Zo kan bijvoorbeeld een opname van een nieuwsuitzending over het Rijksmuseum gelinkt worden aan het concept “Amsterdam”. De concepten kunnen ook onderling weer met elkaar in verband worden gebracht binnen de thesaurus, er kan bijvoorbeeld gezegd worden dat “Amsterdam” in “Nederland” ligt. Het onderling in verband brengen van die concepten helpt concepten van elkaar te onderscheiden (bijvoorbeeld als er sprake is van twee plaatsen met dezelfde naam). Maar deze links met aanvullende informatie helpen ook om de concepten uit de thesaurus te verrijken, en via de thesaurus concepten de collectie.
Geografische concepten
Aan het begin van dit project beschikte Beeld & Geluid over ongeveer 14.200 geografische concepten in de GTAA. De concepten bevatten vrijwel geen informatie buiten een label en een korte toelichten (een zogenaamde scopenote). Er waren geen onderlinge relaties tussen de termen en ze waren ook niet gelinkt met externe databronnen. Na het overwegen van een paar verschillende online bronnen kozen we GeoNames als externe bron om de Beeld & Geluid concepten mee te koppelen. GeoNames is een grote online database voor geografische concepten met een ruime 4 miljoen concepten. Door de GTAA concepten te linken met GeoNames zouden we de concepten kunnen verrijken met data zoals de latitude en longitude, landen en provincies, soort geografisch concept (bijv. stad, berg of rivier) en populatie.
Opdeling in drie groepen
Door de omvang van beide bronnen is ervoor gekozen om gebruik te maken van exacte string matching tussen de labels van concepten (~14.000 x 12 miljoen maakt 168.000.000.000 vergelijkingsoperaties). Na deze vergelijking zijn de GTAA concepten opgedeeld in drie groepen, afhankelijk van hoeveel GeoNames concepten er gematched mee zijn.
- Er zijn geen matches met GeoNames - 3.100 concepten: Deze kunnen we helaas niet automatisch linken met GeoNames.
- Er is één match met GeoNames - 6.900 concepten: Deze matches kunnen we overnemen als een 1 op 1 match tussen de GTAA en GeoNames concepten.
- Er zijn meerdere matches met GeoNames - 4.200 concepten. Hiervan moeten we eerst nog uitzoeken welk van de meerdere matches de enige juiste is.
Het uitzoeken van de juiste match uit een groep van matches heet disambigueren. Een standaard strategie om dit te doen is door het vergelijken van de andere data die over de concepten beschikbaar is. Als een GTAA concept matched met twee GeoNames concepten, en maar een van die twee GeoNames concepten is in hetzelfde land als het GTAA concept, dan is dat waarschijnlijk de juiste match. Hoewel over de GTAA concepten geen andere gestructureerde data beschikbaar was, konden we wel de scopenote gebruiken om wat extra informatie over de concepten te krijgen. Over het algemeen stond in de scopenotes van de GTAA geografische concepten informatie over waarin het concept lag. Bij de meeste concepten over steden was dit bijvoorbeeld het land of de provincie waarin ze lagen. Door deze te vergelijken met de beschikbare data over de GeoNames concepten konden we toch een groot deel (4.500 van de 6.900) matches disambigueren. Dit hele process resulteerde in de verrijking van 7.600 van de 14.200 NISV geografische concepten.
Generous interface
Om de voordelen van deze verrijkingen aan te tonen, hebben we een generous interface gebouwd waarmee cultural heritage experts video’s van de OpenBeelden collectie kunnen browsen aan de hand van hun geografische data. Door de verrijkte data die nu beschikbaar was over de concepten konden de video's gefilterd worden per land, provincie en stad. Ook konden we ze aan de hand van de latitude en longitude plaatsen op een interactieve kaart. Deze interactieve manier van het doorzoeken van een collectie verhelpt in zekere mate de problemen waar de experts soms tegenaan lopen met traditionele zoekbalken. We hebben deze interface geëvalueerd aan de hand van drie interviews met cultural heritage experts, en deze waren over het algemeen positief over hoe deze interface hen zou kunnen assisteren met hun werk.
Wil je meer weten over dit project? Lees dan Daan’s masterscriptie. Dit onderzoek is mede mogelijk gemaakt door begeleiders Victor de Boer (VU) en Jesse de Vos (Beeld & Geluid).
Al eerder werkte Beeld & Geluid aan het verrijken van de thesaurus met links met Wikidata. Lees daarover deze blogreeks.
Daan de Ruijter heeft tijdens zijn master Information Science aan de VU zijn masterscriptie geschreven bij Beeld & Geluid. Beeld & Geluid benaderde de VU met een interessante opzet voor een scriptieproject: “hoe kunnen we online bronnen gebruiken om onze collectie met geografische data te verrijken?”
Nieuwsbrief Onderzoek
Wil je meer weten over onderzoek bij Beeld & Geluid? Meld je aan voor de nieuwsbrief Onderzoek en blijf op de hoogte van alle bijeenkomsten en activiteiten die we doen om onze collecties toegankelijk te maken voor onderzoek.