Normal_4930

Google heeft een European Digital Humanities Award toegekend aan een project waarin taaltechnologen en informatici van de Radboud Universiteit Nijmegen samenwerken aan software die beter 'begrijpt' waar Nederlandse teksten over gaan.

Daarmee kunnen onderzoekers betere antwoorden op hun vragen krijgen. Google kent een geldbedrag van 50.000 Amerikaanse dollars toe om dit project tot uitvoer te brengen.

Onderzoekers in de humaniora (alfa- en geesteswetenschappen) hebben weinig aan algemene zoeksystemen waarin zij bijvoorbeeld 'Johan van Oldenbarnevelt' intikken: daar krijgen ze te veel algemene informatie op terug.

Als zij willen weten hoe Van Oldenbarnevelt stierf, waarom hij ter dood werd veroordeeld, wanneer hij werd geëxecuteerd, moeten ze dieper graven in de documenten die de zoekmachine heeft gevonden.

Opgesloten feiten 'bevrijden'
Het scheelt enorm veel werk als zij niet uitsluitend kunnen zoeken op steekwoorden, maar in plaats daarvan toegang hebben tot de feiten die impliciet opgesloten zitten in de bronteksten. Dat kan met een systeem dat gestructureerde feiten kan extraheren uit een lopende tekst. Zo bevat het Wikipedia-artikel over Johan van Oldenbarnevelt het volgende fragment:

'Prins Maurits pleegde hierop een staatsgreep. Hij ontsloeg daarna de waardgelders en op 29 augustus 1618 liet hij Johan van Oldenbarnevelt, en zijn medestanders Hugo de Groot, Rombout Hogerbeets en Gilles van Leedenberch, arresteren op verdenking van hoogverraad.'

Deze zinnen bevatten veel feitelijke, maar ook veel overbodige informatie. Eén van de feiten in deze tekst is 'Prins Maurits arresteert Johan van Oldenbarnevelt vanwege hoogverraad'.

Doel van het nu door Google gehonoreerde project is om een hulpmiddel te ontwerpen om dergelijke feiten uit Nederlandse teksten te trekken en op te slaan in een database als een niet vervoegde, 'uitgeklede' zin: Prins Maurits, arresteren, Johan van Oldenbarnevelt, vanwege hoogverraad. Als de oorspronkelijke tekst wordt verrijkt met een dergelijke database, kunnen onderzoekers betere antwoorden krijgen op hun vragen.

Google helpt wetenschappers wetenschappers helpen
Het hulpmiddel voor het extraheren van feiten moet syntactische en semantische rollen kunnen onderscheiden en labelen. De taaltechnologen van de letterenfaculteit van de Radboud Universiteit en de informatici van de bètafaculteit van diezelfde universiteit hebben enige ervaring met het bouwen van vergelijkbare software. Met de Google European Digital Humanities Award kunnen ze zo'n hulpmiddel ontwikkelen voor het Nederlands.

Het project 'Extracting Dutch Factoids from Text' gaat in januari 2011 van start. Hoofdaanvrager is Suzan Verberne, onderzoeker bij het Centre for Language and Speech Technology, onderdeel van het Centre for Language Studies van de Radboud Universiteit Nijmegen.

Verberne is erg blij met de toegekende financiering: 'Dit geeft ons de mogelijkheid om de eerste stappen te zetten met de extractie van kennis uit Nederlandse teksten. Dat is van groot belang voor de toekomstige ondersteuning van historici en letterkundigen in hun bronnenonderzoek.'