ZieOok: Recommendation voor Beeld en Geluid en de erfgoedsector

22 october 2010

Het Nederlands Instituut voor Beeld en Geluid heeft GridLine gekozen als leverancier voor het ontwikkelen van een innovatieve technologie voor het op maat aanbieden van (erfgoed-) content. GridLine werd geselecteerd na een selectietraject waar vijf leveranciers op hadden ingeschreven.

Recommentation technologie voor uiteenlopende platforms

Het platform, dat ZieOok heet, wordt een open-source, webgebaseerd platform waarmee makkelijk recommendation-diensten kunnen worden opgezet. Het plaform wordt ontwikkeld als onderdeel van het grootschalige digitaliseringsproject Beelden voor de Toekomst.

Dit gezamenlijke project van archiefhouders van audiovisueel materiaal legt een nieuwe basis voor de audiovisuele collectie Nederland. Uitgangspunt is het ondersteunen van de zo breed mogelijke publieke beschikbaarheid van content voor verdere publieke, semi-publieke en commerciële dienstenontwikkeling. Hiertoe hebben de consortiumpartners content platforms ontwikkeld t.b.v onderwijs, de creatieve industrie en het brede publiek.

ZieOok zal ingezet worden binnen deze platforms. Op basis van kenmerken zoals gebruik, populariteit en semantische gelijkenis gaat ZieOok op zoek naar betekenisvolle relaties tussen objecten uit erfgoedcollecties. Tevens wordt het ‘sociale netwerk’ van de gebruikers meegewogen in de ‘recommendations’ die het systeem genereerd. Door deze techniek wordt de breedte en diepte van de collecties gepresenteerd aan de gebruikers van het plaform. ZieOok helpt zo ook het uiteinde van de zogenaamde ‘Long Tail’ te laten zien, door gebruikers te wijzen op voor hem of haar relevant, maar nog onbekend materiaal.

GridLine en open source

Beeld en Geluid koos voor GridLine om zijn grote kennis van de benodigde algorithmes voor deze toepassing. GridLine bouwt het geheel op een open architectuur, waarin de Apache-componenten Hadoop en Mahout en ook de GridLine TaalServer een plaats krijgen. GridLine gaat zowel statistische methodes als machine learning en taaltechnologie inzetten. De taaltechnologie is specifiek door GridLine ontwikkeld voor het Nederlandse taaldomein. De GridLine TaalServer is binnen ZieOok een optionele verbetering, zie zorgt voor ondersteuning van onder meer spellingsvariatie, synoniemen, afkortingen entiteitenherkenning. Gezien de losse koppeling van dit product uit het portfolio van GridLine en de ZieOok infrastructuur blijft het ZieOok-platform open.

ZieOok is gebaseerd op state of the art open source technologie Apache Hadoop (gedistribueerde databeheerserver) en het Apache Mahout recommendation framework. ZieOok wordt opgezet als een web-based dienst, waarop de contentplatforms kunnen interfacen middels een te ontwikkelen API die door het gebruik van REST is te benaderen.

Operationele pilots binnen het onderwijs

De eerste operationele pilots met ZieOok worden uitgevoerd binnen ED*IT, het educatieve platform van Beeld en Geluid dat toegang tot honderdduizenden bronnen van diverse musea en archieven. Beeld en Geluid heeft zich uitdrukkelijk tot doel gesteld de ontwikkelde techniek erfgoedbreed beschikbaar te maken. Na de oplevering van het platform (maart 2011) zal Beeld en Geluid actief op zoek gaan naar kansrijke toepassingsgebieden binnen het Nederlandse Erfgoedveld.