You are here:

Linken met Wikidata: Deel 2 - Het wat en hoe

In deel 1 hebben we gezien dat het mogelijk is om door middel van Linked Data een collectie te verbinden aan andere databronnen. Vandaag zoomen we in op één mogelijke, online databron die context en extra informatie biedt bij een collectie: Wikidata.

Wat is Wikidata?

Net als Wikipedia is Wikidata een gratis, crowd-sourced, meertalige kennisdatabase.  Het platform is in 2012 in het leven geroepen. Het verschil tussen Wikidata en Wikipedia is dat Wikipedia-artikelen door mensen zijn geschreven met de bedoeling door mensen gelezen te worden. Wikidata daarentegen, is een gestructureerde database die gebruikt maakt van RDF (Resource Description Framework). RDF is een dataformat dat gebruik maakt van zogenaamde triple statements. Die triples maken het voor een computer mogelijk de data op te halen én te begrijpen.

Elke triple, zoals de naam al zegt, bestaat uit 3 onderdelen: Subject, Predicate en Object. Het subject of onderwerp is de term waarover het gaat, neem bijv. ‘André van Duin’. Het predicate is een eigenschap van het subject, zoals ‘is geboren in’. Het object is de waarde van die eigenschap, in dit geval ‘Rotterdam’. Dit resulteert in de statement: ‘André van Duin is geboren in Rotterdam’, dat zowel voor mensen als machines leesbaar is. Naar zowel Subject als Predicate als Object kan verwezen worden door middel van een persistente link (een URI).

Als informatie op deze manier gestructureerd is kun je via zogenaamde SPARQL queries complexe vragen stellen aan de data. Bijvoorbeeld: geef me een lijst van alle vrouwelijke, Nederlandse, professionele voetballers en hun geboortedata die voorkomen op Wikidata.

Het datamodel van Wikidata

Het datamodel van Wikidata

Welke (voor ons relevante) data bevat Wikidata?

Wikidata bevat op het moment van schrijven, bijna 50 miljoen data items. Items dus waarover enige gestructureerde informatie beschikbaar is. Voor deze pilot beperken we ons tot de persoonsnamen-as van de GTAA. Welke informatie bevat Wikidata over personen die relevant is voor Beeld en Geluid? Onze thesaurus bevat ruim 137.000 persoonsnamen, Wikidata bevat meer dan 4 miljoen(!) mensen. Basale informatie over die personen is ruim aanwezig. Op basis van een sample van bijna 13.000 gekoppelde persoonsnamen uit de GTAA bleek dat 99% van de personen een waarde had voor geslacht op Wikidata, 96% bevatte minimaal één beroep en ruim 34% had een sterftedatum. Daarnaast zijn er legio andere stukjes informatie (properties) die aan personen toegeschreven kunnen worden: opleiding, lidmaatschap van bijvoorbeeld politieke partijen, beoefende sporten, gewonnen prijzen, familierelaties, enz. Hoewel lang niet alle personen op Wikidata even uitgebreid beschreven zijn vormt het een schat aan informatie die continu uitbreidt en actueel gehouden wordt door een internationale community.

Hoe maak je matches met Wikidata?

Hoe linken met Wikidata?

Op dit moment is de beste manier van het linken van de GTAA met Wikidata de Mix’n’match tool van Wikidata. Dit is een tool die door de Wikidata community wordt gebruikt om verschillende datasets aan Wikidata te linken. Nadat de GTAA een aantal jaar geleden al eens was geupload naar de Mix’n’match tool bleek dat er vaak onvoldoende informatie was om met zekerheid een koppeling te maken. Heel simpel gezegd: hoe weten we dat Jan Jansen uit de GTAA dezelfde persoon is als de Jan Jansen uit Wikidata? Daarvoor is aanvullende informatie nodig. De GTAA bevat naast de naam weinig extra informatie. In sommige gevallen is er een scopenote die basale informatie bevat als “programmamaker” of “politicus”, maar zelfs die informatie is vaak niet actueel of specifiek genoeg.

Samen met Spinque en hun zoektechnologie Spinquedesk hebben we in een aantal werksessies strategieën gemaakt met als doel zoveel mogelijk geautomatiseerde matches te realiseren. Allereerst hebben we gekeken waar de persoonsnamen uit de thesaurus voorkomen in de catalogus. Uit de directe context van die termen hebben we andere termen geëxtraheerd die in de meeste gevallen relevante informatie bevatten. ‘In de meeste gevallen’, want uiteraard komen er ook wel eens termen mee die niet specifiek voor die persoon van toepassing zijn. Deze geëxtraheerde termen hebben we toegevoegd aan de GTAA en daarmee een verrijkte versie van de GTAA gerealiseerd. Voor ruim 45.000 personen uit de GTAA zijn we er in geslaagd volledig geautomatiseerd matches met Wikidata te maken door te kijken naar de naam én de aanvullende informatie die de verrijkte GTAA bevatte en die op Wikidata voor handen was. Deze dataset in de Mix’n’match geüpload. De Wikidata-gemeenschap wordt betrokken door middel van een Wikidata project. In de komende maanden moet blijken hoeveel extra links er kunnen worden gelegd met deze verrijkte GTAA.

In deel 3 lees je meer over wat je met deze gekoppelde data kunt doen.