Skip to Content

Digitaal Hergebruik

Onderstaand artikel verscheen eerder in IK 2011 nr.2 - Themanummer linked data, zoeken en vinden .

Er is nooit zoveel informatie openbaar beschikbaar geweest als nu. De Nederlandse Wikipedia bevat bijna 700.000 artikelen. Iedere bibliotheek heeft een webcatalogus. Steeds meer musea en archieven tonen hun collectie op internet. De rijke verzameling statistische informatie van het CBS is doorzoekbaar via het web. Zelfs veel overheidsdata is al op die manier te benaderen. Het spoorboekje is vervangen door een website en de Bosatlas is in feite ingehaald door Google Maps. De lijst is onvoorstelbaar groot. De zojuist genoemde websites zijn allemaal op hun eigen manier boeiend en waardevol, maar ze leggen wel altijd vooraf vast op welke manier je naar die informatie kijkt. Het komt echter ook steeds vaker voor dat beschikbare informatie anders wordt weergegeven dan de eigenaar ervan heeft bedoeld Een mooi voorbeeld daarvan is de iPhone app 'Trein' waarin zonder medewerking van NS gebruik werd gemaakt van de NS treindienstregeling op internet, lang voordat NS zelf met zo'n programma kwam. NS was er niet blij mee, maar heeft geen actie ondernomen. Naast het anders gebruiken van informatie die al op internet te zien is, zal in de toekomst ook veel informatie zichtbaar worden die niet eerder op internet werd getoond. Dat is het onderwerp van dit artikel: gebruik en hergebruik van informatie.

Laat ik beginnen met een praktijkvoorbeeld van het hergebruik van informatie waar niet eens een computer bij aan te pas komt. Stel je een bedrijf voor waar in de kantine op een whiteboard een lijstje wordt bijgehouden met verkeersproblemen van die dag. De werknemers willen op het whiteboard alleen zien op welke weg een probleem is (in rood), en tussen welke plaatsen (in blauw). Meer dan een paar whiteboard markers is niet nodig om deze 'app' te realiseren. Een van de gegevensbronnen die je hiervoor zou kunnen gebruiken is het oude en vertrouwde Teletekst. De benodigde informatie is te vinden op pagina 730v. Deze pagina heeft een hele strakke indeling, maar daardoor kun je wel heel goed er uit halen wat je wilt gebruiken. De structuur hier is dat de pagina begint met het soort informatie. In het voorbeeld is dat 'Afsluiting/Omleiding'. Dan begint iedere melding met een koppelteken, gevolgd door de naam van de snelweg, een spatie, de plaats waar het probleem begint, de tekens '–>', de plaats waar het probleem eindigt, een komma, een korte omschrijving, een punt, de tekst 'duur:', begindatum en tijd, de tekst 'tot' en de einddatum en tijd. Door die strakke indeling kun je aan iedereen duidelijk maken wat er op het whiteboard moet worden geschreven, zelfs als die persoon geen enkele voorstelling heeft van het Nederlandse wegennet. En daarmee hebben we de basisprincipes van informatie hergebruik compleet: identificatie (pagina 730 van Teletekst), interpretatie (het herkennen en vertalen van gegevens op die pagina) en presentatie (het lijstje in blauw en rood op het whiteboard). Hoe eenvoudig dit voorbeeld ook is, de procedure is representatief voor alle (her-)gebruik van gevevens. Alleen worden de procedures in de voorbeelden die hierna volgen niet uitgevoerd door een snuffelstagiaire maar door een computerprogramma, en komen de resultaten niet op een whiteboard maar op een computerscherm. Het voorbeeld laat ook de zwakke plekken zien van deze aanpak. Die werkt nameleijk alleen als er duidelijke afspraken zijn over hoe informatie te vinden is (in dit geval op Teletekst pagina 730) maar ook over de manier waarop informatie getoond wordt. Als de redactie van Teletekst besluit om deze informatie op een andere pagina te plaatsen of om de informatie op een totaal andere manier te tonen, dan kan onze stagiaire het whiteboard niet meer bijhouden. De redactie van Teletekst maakt deze pagina ook niet voor een whiteboard in een of ander bedrijf, maar voor de gemiddelde tv-kijker met Teletekst en zij kan ook niet met ander gebruik rekening houden. Informatie-aanbieders gaan daarom steeds vaker informatie op meerdere manieren presenteren, niet alleen voor publiek van de eigen website, maar ook voor informatie hergebruikers. Hoe dat werkt is goed te zien bij het Amsterdam Museum. Neem bij voorbeeld het schilderij 'De overlieden van de Voetboogdoelen' uit 1656 van Bartholomeus van der Helst. Hieronder vind je twee manieren waarop het museum naar informatie over dit schilderij te verwijst:

  1. http://ahm.adlibsoft.com/ahmonline/dispatcher.aspx?action=search&database=ChoiceCollect&search=priref=38475 .
  2. http://purl.org/collections/nl/am/proxy-38475

Beide methodes zijn internet links of URL'svi. URL 1 toont informatie in een webpagina die zodanig is vormgeven dat de gemiddelde bezoeker er goed mee overweg kan. De pagina laat niet alle beschikbare informatie zien maar maakt een selectie. Speciaal voor de hergebruikers van informatie zijn de gegevens ook in te zien via URL 2. In die presentatie is veel meer informatie te zien dan in de eerste, en er is duidelijk minder moeite gedaan om de pagina er aantrekkelijk te laten uitzien. Toch is ook deze weergave al aangepast en voor mensen leesbaarder dan de droge informatie die erachter schuil gaat. Voor de goede orde: de informatie over dit schilderij kan op nog meer manieren benaderd worden. De parallel met Teletekst is ook goed te zien. Blijkbaar is het 'paginanummer' van het schilderij van Van Der Helst 38475. Maar waar je in het Teletekst voorbeeld voor zoeken en interpreteren met eenvoudige instructies een mens aan het werk kunt zetten, is dat bij de collectie van het Amsterdam Museum niet meer mogelijk. Dat is computerwerk waarvoor stevig geprogrammeerd moet worden. Maar ook hier geldt dat je alleen iets met informatie kunt doen als vast ligt hoe je naar die informatie verwijst en hoe die informatie gestructureerd is. In de vorige alinea zijn twee verschillende manieren te zien om te verwijzen naar informatie op internet. De eerste maakt gebruik van een webservicevii, een programma dat op een webserver geïnstalleerd is en dat je bestuurt door een aantal parameters op te geven. Die parameters bepalen welke informatie de webservice moet opzoeken, maar ook de presentatie van die informatie. In het voorbeeld hierboven geeft de parameter database aan in welk gegevensbestand de webservice moet gaan zoeken, en de parameter search de exacte zoekopdracht. Webservices zijn uiterst flexibel in de manier waarop informatie gezocht en gepresenteerd wordt, maar die flexibiliteit maakt het werken ermee toch ook lastiger. De tweede zoekmethode is in die zin eenvoudiger dat alle informatie die bij elkaar hoort door één vaste regel wordt weergegeven. De link is meteen de identificatie van de achterliggende informatie. Dit is conform de principes van linked data. Tot nu toe hebben we het alleen gehad over het hergebruik van informatie uit één enkele bron. Hergebruik van informatie wordt interessanter als je verschillende bronnen gaat combineren. Laten we daarvoor eens gaan kijken naar Stadsarchief Amsterdam dat (onder andere) 3000 door de Jacob Olie gemaakte foto's van Amsterdam in haar bezit heeft, en Google Maps dat over kaarten en luchtfoto's beschikt. Aan de hand van de informatie uit die twee gegevensbronnen heeft Ronald Klip van Contentecontent een webapplicatie gemaakt die deze foto's plaatst op de juiste plaats in de kaart van Amsterdam. Deze webapplicatie is een van de inzendingen voor Apps For Amsterdam, een initiatief van Waag Society, Gemeente Amsterdam Economische Zaken en Hack de Overheid om te stimuleren dat er meer gebruik gaat worden van de de openbare informatiebronnen van de Gemeente Amsterdam. Ook Rotterdam is actief bezig om Open Data te promoten. Een mooi voorbeeld van een Rottermse applicatie is Bridgy. Deze applicatie is bedoeld voor Android telefoons en maakt gebruik van de door de stad Rotterdam verzamelde statistische informatie over het open en sluiten van beweegbare bruggen. Aan de hand van die informatie, in combinatie met Google Maps, probeert de applicatie te voorspellen en te tonen wanneer en hoe lang bruggen open staan. Het idee van Open Data is dat op grote schaal informatie beschikbaar komt voor digitaal hergebruik. Het woord 'Open' betekent vooral de informatie-aanbieders hun gegevens zonder of met een minimum aan restricties beschikbaar stellen. Met 'Data' wordt alle informatie bedoeld die digitaal kan worden verwerkt. Het gebruik van open data blijft vooralsnog voorbehouden aan programmeurs van (web-)applicaties. Het is wel te verwachten dat in de loop van de komende jaren steeds meer applicaties zullen verschijnen waarbij de eindgebruiker zelf kan aangeven welke gegevens gecombineerd moeten worden.

Er worden veel verschillende manieren gebruikt om naar open data te refereren en om deze data te tonen. Voor een brede inzet van Open Data is standaardisering op zijn minst erg wenselijk. In Engeland wordt al heel veel van open data gebruik gemaakt. Dit heeft vooral te maken met de Engelse regering die met hun Open Data Website overheidsdata als openbare informatie presenteert. Op dit moment zijn 2500 verschillende databases beschikbaar. Met deze data kunnen geïnteresseerden aan de slag om deze doorzoekbaar te maken op nieuwe manieren. De website is vanaf september 2010 online en al enkele duizenden ontwikkelaars hebben zich er al geregistreerd. Er staan nu al meer dan honderd applicaties online die gebruik maken van de Open Data van de Britse overheid. En dit is nog maar het begin. Iedereen die wil, kan zelf een applicatie maken en de beste applicaties worden toegevoegd aan de site. Maar ook als je niet kunt programmeren, kun altijd nog je je ideeën achterlaten.

Een van de kerninitiatieven in het kader van Open Data standaardisering is Linked Open Data. Het idee is eigenlijk heel eenvoudig: zorg ervoor dat alle kennis op Internet een eigen unieke verwijzing krijgt, een Uniform Resource Identifier. Het is een idee van Tim Berners-Lee, die ook al de ‘uitvinding’ van Internet op zijn naam heeft staan. Hij kan er ook erg bevlogen over praten. De wereld van Linked Data is er een waar alle informatie in de context van andere informatie bekeken en bestudeerd kan worden. Een mooi voorbeeld van hoe linked data werkt kun je zien bij BBC Musicwaar een groot deel van de informatie afkomstig is uit Linked Data bronnen als Wikipedia en MusicBrainz. Het idee van linked data heeft twee knelpunten: de gedaante van die URI en de weergave van de informatie bij die URI. Tim Berners-Lee vindt dat je aan een URI moet kunnen herkennen waar hij over gaat. Hij noemt dat ‘cool URI's’. Dus iets als data.theaterserver.nl/persoon/Joost_Van_Den_Vondel of iets dergelijks (de link is een fictief voorbeeld). Dat is leuk voor de mensen die ernaar kijken, alleen dat Linked Data vooral gebruikt wordt voor programma’s of websites die informatie combineren, dus die URL’s ziet vrijwel niemand. Maar dat is nog niet echt een probleem.

Echte problemen krijg je pas als je twee ‘dingen’ hebt met dezelfde naam. Hoe geef je die twee stukken informatie die de zelfde naam hebben dan toch een unieke URI? Bij mensen zou je het geboortejaar erachter kunnen plakken, dan is het geen normale naam meer. Zou het dan misschien handiger zijn om gewoon unieke nummers te gebruiken in plaats van voor mensen herkenbare tekst? Het belangrijkste van Linked Data URI’s is toch dat ze uniek zijn. Een uniek volgnummer voldoet dan net zo goed. Dat is bijvoorbeeld wat bij VIAF gebeurt. Daar is de URI van Vondel http://viaf.org/viaf/61555829/ . Het is in ieder geval stof voor discussie.

Een ander nog belangrijker probleem is hoe de informatie bij linked data er uit moet zien. De link http://nl.wikipedia.org/wiki/Joost_van_den_Vondel aan de eisen van 'Cool URI's', en de pagina is voor mensen goed te lezen, maar als je die informatie anders wilt vormgeven, is deze manier van weergeven een stuk lastiger. Programmeurs die websites bouwen zien die informatie liever als http://dbpedia.org/data/Joost_van_den_Vondel.rdf (niet schrikken). Een iets beter leesbare versie vind je op http://dbpedia.org/page/Joost_van_den_Vondel. Kern van het probleem hier is hoe je ervoor moet zorgen dat je al die verschillende delen informatie zodanig benoemt dat anderen weten wat ermee bedoeld wordt. Gegevens als naam en geboortedatum zijn dan nog vrij eenvoudig, maar wat doe je als iemand onder verschillende namen bekend is? Of dat je niet precies weet wanneer hij of zij is geboren. De informatie waar ik het steeds over heb, komt uit databases, en iedere database heeft ook nog eens zijn eigen ideeën over hoe je informatie benoemt en organiseert. Het enige waar men het over eens lijkt te zijn is dat de gegevens als RDF weergegeven moeten worden. Maar RDF is niet meer dan de grammatica voor de talen waarmee je informatie kunt beschrijven. De variatie in talen (of in RDF terminologie, name spaces) gaat aardig naar een Babylonische spraakverwarring. Over dit probleem en vele andere vergelijkbare problemen is uitgebreid nagedacht en geschreven, maar de veelheid aan mogelijkheden wordt er vooralsnog niet minder om.

Er is overigens nog een aandachtspunt bij Open Data. Als een organisatie beschikt over geschikte digitale informatie, moet die organisatie ook nog een beslissing nemen over het delen daarvan. Het heeft grote voordelen om dat te doen, want het brengt de organisatie onder de aandacht en biedt ook intern meer en flexibeler mogelijkheden om informatie te presenteren. Maar je moet er wel over nadenken: welke informatie wil je delen, met wie en onder welke voorwaarden? De ontwikkelaars van Open Data toepassingen zien het liefst zo weinig mogelijk beperkingen, waarbij een Creative Commons licentie de voorkeur geniet. Maar voor lang niet iedere organisatie is dat een voor de hand liggende keuze. Op dit moment is al heel veel open data beschikbaar, en dat wordt alleen maar meer. De bruikbaarheid van die data hangt wel van een aantal factoren af, waarbij standaardisering en gebruikslicenties voor informatie essentiële rollen spelen. Maar één ding is zeker: we gaan een interessante open data tijd tegemoet.



blog | by Dr. Radut