Je bevindt je hier:

Digitale Collectie op locatie doorzoekbaar maken

Bron afbeelding: Dlogic via Wikimedia Commons (CC BY 3.0).

In deze blog schrijven Willem Melder (Expert Interoperabiliteit en Linked Open Data, Beeld & Geluid) en Jurjan-Paul Medema (Software Developer, Seecr) over hun eerste ervaringen met (het verrijken van) de geo-informatie in de Digitale Collectie. Deze blog werd eerder gepubliceerd op de website van het project Ergoed & Locatie.

Erfgoedcollecties op locatie doorzoekbaar

Digitale Collectie is een project dat Nederlandse digitale erfgoedcollecties samenbrengt op één platform. Digitale Collectie voorziet in domeinoverstijgende diensten waarmee de samengevoegde collecties doorzocht en gedeeld kunnen worden.

Erfgoedcollecties bevatten vaak data over (historische) plaatsen. Gebruikers van de Nederlandse erfgoedcollecties willen graag kunnen zoeken naar objecten die met een plaatsaanduiding verbonden zijn. De Historische Geocoder (HGC) die binnen Erfgoed & Locatie wordt ontwikkeld is een service die Nederlandse geografische termen herkent en verbindingen levert met een groot aantal (inter-)nationale geografische databronnen. Het verrijken van geografische metadata met behulp van de HGC biedt de mogelijkheid om uniek te refereren aan (historische) plaatsaanduidingen. Hierdoor ontstaat de mogelijkheid om erfgoedcollecties nog beter op geografische samenhang doorzoekbaar te maken.

Plaatsnamen in collecties

Het eerste deel van de opdracht was een onderzoek naar de beschikbaarheid van geografische data in de verschillende collecties in de Digitale Collectie. Uit dit onderzoek komt naar voren dat voor het vinden van locatiegegevens in de collecties een aantal problemen opgelost moeten worden.

  1. Het blijkt dat maar in een beperkt aantal collecties in de Digitale Collectie enige vorm van locatiegegevens aanwezig is. Bij de collecties waar die locatiegegevens wel aanwezig zijn, gaat het vaak om de locatie waar een foto is genomen of om de vindplaats van een object (bijvoorbeeld: Egypte).
  2. De beschikbare geografische informatie is niet voldoende gespecificeerd. Verreweg de meeste objecten in de Digitale Collectie zijn beschreven in het Europeana ESE formaat. Daarin worden de velden dc:coverage en dcterms:spatial gebruikt om locatiegegevens op te nemen, maar er is geen manier om aan te geven welke termen een straatnaam, stad, provincie of land voorstellen.
  3. Voor sommige (deel)collecties is er een ad-hoc manier bedacht om een (locatie)structuur aan te brengen, bijvoorbeeld: <dc:coverage>gemeente: Venray; dorp: Leunen; straat: Leunseweg</dc:coverage>.
  4. De objectbeschrijvingen bevatten veel informatie in lopende tekst waarvan onbekend is om wat voor informatie het gaat.
  5. Tijdsaanduidingen in combinatie met locaties zijn nauwelijks beschikbaar.

De juiste match

Het vinden van de juiste plaats op basis van de beschikbare informatie is dus een hele klus. Met de beschikbare geografische informatie is er niet één manier om tot de juiste match te komen.

Waar de locatie wel aanwezig is zijn er oplossingen mogelijk. Door ad-hoc locatiestructuren te herkennen kan een goede match worden gevonden met de Historische Geocoder API, maar voor de meeste objecten ontbreekt zo'n structuur. Daardoor is het moeilijk te bepalen hoe de vraagstelling aan de API (de query) precies moet worden samengesteld om op basis van de beschikbare locatiegegevens tot de juiste match te komen.

Voor het vinden van plaatsen in beschrijvingsvelden is een tool nodig die een extractie van entiteiten doet op de vrijetekst-velden (plaatsen, personen, gebeurtenissen, periodes, onderwerpen). Dit soort tools komt meer en meer beschikbaar en het zou een flinke stap vooruit betekenen als we op deze manier op zoek kunnen naar (geografische) informatie in de (ongestructureerde) beschrijvingsvelden van de Digitale Collectie. Dit valt echter buiten de scope van deze opdracht.

Voor het verbeteren van de datakwaliteit kan nog gekeken worden of er bij het bronsysteem rijkere, specifiekere metadataformaten beschikbaar zijn waarin de locatiegegevens wel meer expliciet zijn gespecificeerd. Het is natuurlijk ook een idee dat collectiebeheerders de overstap naar RDF en/of EDM maken en al bij de bron goede semantische aanduidingen en/of geografische coördinaten toevoegen, met behulp van de Historische Geocoder.

Zoeken op locatie

Wanneer een match is gevonden, wordt daarvan door de verrijkingsservice een Open Annotation gemaakt met de gevonden geografische aanduiding (en geometrie) waarin wordt verwezen naar het oorspronkelijke record. Uiteindelijk zal er vanuit een portal die onafhankelijk ontwikkeld wordt, gezocht kunnen worden op alle bekende erfgoedobjecten binnen een bepaald gebied.

De voorlopige eindbestemming van de verrijkte collecties is dat ze op eenvoudige wijze doorzoekbaar zijn gemaakt. In een aansluitend traject wordt een viewer ontwikkeld die erfgoed op de kaart kan laten zien. De eerste sessies om deze twee ontwikkelingen op elkaar te laten aansluiten zijn inmiddels geweest.

De komende tijd zal samen met het team dat de Historische Geocoder API ontwikkelt gekeken worden hoe het vinden van de juiste match verbeterd kan worden. Dit kan mogelijk door slimmere queries te stellen aan de API of door aanpassingen aan de kant van de API. Een andere mogelijkheid is dat er (aanvullende) aanbevelingen gedaan worden naar collectiebeheerders om de locatiegegevens in hun collecties zo te structureren dat betere matching mogelijk is.