Normal_9164

NIJMEGEN - Geesteswetenschappers die nog opnames of grote tekstbestanden hebben liggen die ooit als basis dienden voor hun onderzoek kunnen voortaan met hun oude data terecht bij de taal- en spraaktechnologen van de Radboud Universiteit. Sinds 1 januari runnen zij een landelijke datacuratieservice, die interessante 'oude' data bruikbaar maakt voor nieuw onderzoek.

Interviews die zijn afgenomen voor bijvoorbeeld taalkundig of historisch onderzoek, grote tekstbestanden, verzameld door historici of letterkundigen: her en der in Nederland ligt onderzoeksmateriaal te verstoffen. En dat terwijl dat materiaal interessant kan zijn voor nieuw onderzoek, weet spraaktechnoloog Henk van den Heuvel.

Oplappen
Van den Heuvel is sinds 2009 betrokken bij het Europese project CLARIN dat zich toelegt op het inrichten van een digitale onderzoeksinfrastructuur voor de geesteswetenschappen. De Nederlandse tak van CLARIN richt zich op nieuwe, maar ook op bestaande dataverzamelingen en die hebben vaak enig opknapwerk (datacuratie, in vaktermen) nodig voordat ze voldoen aan alle eisen.

Bruikbaar maken
CLARIN-NL verstrekt geld aan onderzoeksvoorstellen, maar kan niet alle projecten honoreren, terwijl er vaak wel interessant materiaal achter ligt. Om dat bestaande materiaal in ieder geval bruikbaar te maken, heeft CLARIN-NL nu een datacuratieservice (kortweg DCS) opgericht, die vanaf januari gevestigd is bij het Centre for Language and Speech Technology (CLST) van de Radboud Universiteit.

CLST is in de loop der jaren betrokken geweest bij het maken van een groot aantal corpora waaronder het Corpus Gesproken Nederlands. Inmiddels heeft het centrum een zekere faam in het aanleggen en ontsluiten van grote dataverzamelingen.

© Nationale Onderwijsgids