Taaltechnologen Radboud geven oude data een nieuw leven

NIJMEGEN - Geesteswetenschappers die nog opnames of grote tekstbestanden hebben liggen die ooit als basis dienden voor hun onderzoek kunnen voortaan met hun oude data terecht bij de taal- en spraaktechnologen van de Radboud Universiteit. Sinds 1 januari runnen zij een landelijke datacuratieservice, die interessante 'oude' data bruikbaar maakt voor nieuw onderzoek.

Interviews die zijn afgenomen voor bijvoorbeeld taalkundig of historisch onderzoek, grote tekstbestanden, verzameld door historici of letterkundigen: her en der in Nederland ligt onderzoeksmateriaal te verstoffen. En dat terwijl dat materiaal interessant kan zijn voor nieuw onderzoek, weet spraaktechnoloog Henk van den Heuvel.

Oplappen
Van den Heuvel is sinds 2009 betrokken bij het Europese project CLARIN dat zich toelegt op het inrichten van een digitale onderzoeksinfrastructuur voor de geesteswetenschappen. De Nederlandse tak van CLARIN richt zich op nieuwe, maar ook op bestaande dataverzamelingen en die hebben vaak enig opknapwerk (datacuratie, in vaktermen) nodig voordat ze voldoen aan alle eisen.

Bruikbaar maken
CLARIN-NL verstrekt geld aan onderzoeksvoorstellen, maar kan niet alle projecten honoreren, terwijl er vaak wel interessant materiaal achter ligt. Om dat bestaande materiaal in ieder geval bruikbaar te maken, heeft CLARIN-NL nu een datacuratieservice (kortweg DCS) opgericht, die vanaf januari gevestigd is bij het Centre for Language and Speech Technology (CLST) van de Radboud Universiteit.

CLST is in de loop der jaren betrokken geweest bij het maken van een groot aantal corpora waaronder het Corpus Gesproken Nederlands. Inmiddels heeft het centrum een zekere faam in het aanleggen en ontsluiten van grote dataverzamelingen.

NOG blog

Soms zeg je meer wanneer je luistert

01 juli '25

In het vermakelijke boekenweekessay HèHè - over wat we zeggen zonder dat we het doorhebben van Paulien Cornelisse, las ik over het Corpus Gesproken Nederlands. Dat is een verzameling van negenhonderd uur Nederlandse spraak van zowel Nederlanders als Vlamingen. Dit komt in totaal neer op een bestand van zo’n negen miljoen woorden. In haar boekje ...

Taaltechnologen Radboud geven oude data een nieuw leven

NOG Plaats een reactie

NOG social media

NOG Zoeken

NOG blog

Soms zeg je meer wanneer je luistert

NOG Interview

‘Thuiszitters vertellen ons waar het onderwijssysteem knelt’

NOG video

Sovereign Citizens: Insights into public attitudes to law

NOG Nieuwsoverzicht

Taaltechnologen Radboud geven oude data een nieuw leven

NOG Plaats een reactie

NOG Verwante berichten

NOG Adverteren

NOG social media

NOG Gesponsord

NOG Zoeken

NOG blog

Soms zeg je meer wanneer je luistert

NOG Interview

‘Thuiszitters vertellen ons waar het onderwijssysteem knelt’

NOG video

Sovereign Citizens: Insights into public attitudes to law

NOG Nieuwsoverzicht