“Wetenschappelijk onderzoek kan niet zonder goede data en onderzoeksinstrumenten”

5 november 2021

In het onlangs verschenen blad Onderzoek wordt aandacht besteed aan de uitdagingen rondom de exponentieel groeiende terabytes aan data. Hoe sla je die veilig en efficiënt op? En hoe maak je die data toegankelijk en doorzoekbaar? Journalist Nienke Beintema sprak hierover onder andere met Henk Wals, directeur van DANS.

Goede dataopslag is cruciaal als je de kwaliteit van wetenschap wil waarborgen’, stelt Henk Wals, directeur van Data Archiving and Networked Services (DANS). Dit instituut van NWO en KNAW is het nationale servicecentrum voor opslag en beheer van onderzoeksdata. ‘Gelukkig ligt deze kwestie niet meer bij de wetenschapper alleen. Er zijn specialisten die zich hiermee bezighouden en er komt een steeds betere infrastructuur.

Tweehonderdduizend datasets

DANS is een van de grootste archieven voor onderzoeksdata ter wereld en beheert bijna tweehonderdduizend datasets. Naast DANS zijn er in Nederland nog enkele repositories voor verschillende domeinen, zoals het 4TUdata voor de technologische wetenschappen. Via het Nationaal Plan Open Science wordt daar een gezamenlijke structuur in aangebracht. Wals: ‘Je hebt de data zoals een onderzoeker die op een laptop heeft opgeslagen. Daarnaast staan de data vaak ook in een repository van de instelling. En dan zijn er domeingerichte instellingen waar die data bij elkaar komen.’

Coördinatie op grote thema’s

Alle universiteiten zijn bezig lokale Digitale Competentie Centra (DCC’s) op te richten, met data stewards die onderzoekers ondersteunen bij een consistente opbouw, opslag en doorzoekbaarheid van hun datasets. Daarnaast wordt gewerkt aan de oprichting van thematische DCC’s: een infrastructuur voor de nationale coördinatie op grote thema’s, zoals klimaatverandering of de coronapandemie. Deze thema’s vragen om data-uitwisseling en samenwerking tussen verschillende disciplines. Ook daar zijn 4TU en DANS nauw bij betrokken. ‘En tot slot is er een structuur voor de internationale coördinatie.’

Restricties

‘Het gaat niet alleen om de fysieke infrastructuur’, zegt Wals. ‘Er zitten ook veel niet-tastbare aspecten aan. Bijvoorbeeld de standaarden waaraan de data moeten voldoen, zoals de FAIR-principes: findable, accessible, interoperable en reusable. Toegankelijk betekent overigens niet dat iedereen zomaar bij alle data moet kunnen. Soms zijn data privacygevoelig. In de metadata – de labels die aan de data hangen – staat welke restricties er gelden en hoe de toegang is geregeld.’

Wat wordt waar geproduceerd?

De laatste decennia is er veel vooruitgang geboekt. Toch is in Nederland naar schatting nog geen kwart van alle data goed opgeslagen. ‘Eigenlijk weten we niet eens wat er precies wordt geproduceerd en waar, en wie dat opslaat. Daarom zijn die data stewards zo belangrijk: zij zorgen dat het databeheer vanaf het begin zorgvuldig gebeurt.’ Ook de uitwisselbaarheid tussen de verschillende domeinen laat nog te wensen over. Nu is het vaak een kwestie van knutselen met datasets. ‘Terwijl je – bijvoorbeeld bij de coronapandemie – snel verschillende data bij elkaar wil krijgen. Databeheer is een urgente maatschappelijke uitdaging.’

Meer informatie

Lees dit artikel, en andere onlangs verschenen artikelen, op de website van NWO.

Heb je vragen over dit bericht?

Je naam(Vereist)
Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.