Terminologie-extractie voor de TaalUnie

28 mei 2010

GridLine is door de Nederlandse TaalUnie na een Europese aanbesteding geselecteerd voor het project TermTreffer.

TermTreffer wordt een applicatie waarmee op hoog niveau terminologie en thesauri automatisch kunnen worden afgeleid uit documentverzamelingen.

Daarmee ontstaat software waarmee organisaties veel geld en tijd kunnen besparen. Toepassingen zijn onder meer semantische zoekmachines, text mining, vertaalhulp en normalisatie van het taalgebruik van een organisatie.

Na uitgebreid onderzoek door de TaalUnie bleek dat bestaande software niet voldoet. Ten eerste kan deze niet omgaan met specifiek Nederlandse taalconstructies. Bovendien heeft de gebruiker te weinig invloed op het extractieproces.

GridLine werd door de TaalUnie geselecteerd vanwege zijn unieke verzameling Nederlandse taalmodules, de GridLine TaalServer. TermTreffer wordt onder Open Architectuur gebouwd, met koppelingsmogelijkheden in een 15-tal veelgebruikte bestandsformaten zoals SKOS, TBX, en Word. Bovendien worden alle koppelingen gebouwd als REST webservices. Daardoor koppelt het programma met alle gangbare pakketten. De gebruiker kan kiezen uit een schier oneindig aantal extractiemethodes, instelbaar via een zogeheten pipeline.

Zo ontstaat een programma dat uniek is in Nederland, en, door de koppelingsmogelijkheden, open architectuur en instellingsmogelijkheden, zelfs uniek in de wereld.

Zie ook dit artikel in de Computable