DANS in het NRC
Op 13 april jl. publiceerde het NRC een achtergrondartikel over ‘wat er misgaat bij dataonderzoek’. Hiervoor is Ingrid Dillo, Senior Advisor bij DANS, geïnterviewd door Laura Wismans. In dit artikel licht Ingrid Dillo toe dat beschikbare data niet altijd van goede kwaliteit zijn en er nog veel werk te verzetten is op het gebied delen en hergebruiken van data.
DANS heeft het artikel hieronder beschikbaar gemaakt en vrij vertaald in het Engels. Aan de inhoud zijn geen wijzigingen aangebracht.
Een studie naar het herpesvirus doet de wenkbrauwen fronsen en laat zien wat er misgaat bij dataonderzoek
Bron: NRC door Laura Wismans
Data-onderzoek – Het was een spannende vinding, maar het bleek slecht uitgevoerd. Een studie naar het herpesvirus laat zien waar het mis kan gaan bij dataonderzoek.
Het koortslipvirus kan goed verstoppertje spelen. Waar dit virus, herpes simplex (HSV), zich in het lichaam verschuilt is al decennialang duidelijk, maar hoe het verschuilen precies werkt blijft raadselachtig. Toen wetenschappers in de Verenigde Staten vorig jaar op basis van een nieuwe techniek met grote hoeveelheden data rapporteerden dat het virus zich op méér plekken verstopt dan al die tijd bekend was, waren herpesonderzoekers wereldwijd direct geïnteresseerd.
Zou dit de reden zijn dat het zo lastig is om vaccins te maken? Moet de gangbare benadering voor het maken van antivirale middelen veranderen?
„Het was een heel spannende vinding”, zegt Georges Verjans, hoofdonderzoeker van Herpeslab NL in het Erasmus MC in Rotterdam. „Het bleek alleen niet waar. Het onderzoek was slecht uitgevoerd.” Maar voor Verjans en zijn collega’s daar achter waren, was er eerst getouwtrek om de data en toen uitgebreide heranalyse nodig. Daarna bleek rechtzetten van de foutieve conclusies ook een grote horde.
De casus legt volgens hen een groter probleem bloot: de omgang met wetenschappelijke data is nog lang niet altijd op orde. Het controlemechanisme werkt niet goed als het gaat om onderzoek met big data, terwijl er steeds meer mee gewerkt wordt en er verstrekkende conclusies uit getrokken worden.
Dit beeld herkent ook Ingrid Dillo, senior advisor bij DANS, het instituut van KNAW en NWO dat onderzoekers helpt hun data beschikbaar te maken voor hergebruik. „Er worden echt wel stappen vooruit gezet, maar internationaal en tussen disciplines zijn de verschillen in omgang met data groot, en overal geldt dat er flinke struikelblokken zijn. Onderzoekers worden bijvoorbeeld amper beloond voor het toegankelijk maken van hun data.”
Bestrijding is ingewikkeld
Wat gebeurde er precies in het herpes-onderzoek waardoor de Rotterdamse virologen hier aandacht voor willen?
Eerst even iets over HSV, een van de negen herpesvirussen die bij de mens voorkomt. Het laat zich zien bij een koortslip. Maar zo’n 70 procent van de mensen draagt het virus levenslang bij zich, en een groot deel daarvan krijgt nooit een koortslip. Zij verspreiden het wel, dat maakt bestrijding ervan ingewikkeld.
„Sinds de jaren 80 weten we al dat het slapende virus zich in de zenuwbanen terugtrekt”, zegt Werner Ouwendijk, viroloog in het Erasmus MC en collega van Verjans. „Maar hoe HSV daar onder controle gehouden wordt, en of andere cellen daarbij een rol spelen, weten we niet. Daar zoeken wij, en veel andere onderzoekers, naar.”
De onderzoekers in de VS zochten ook, in muizen. Ze gebruikten een vrij nieuwe moleculaire techniek: single cell sequencing. Daarmee is voor individuele cellen na te gaan of die virus bevatten of niet. Van de muizen werd een zenuwknoop gepakt – „die bevat al snel 50.000 zenuwcellen en nog heel veel andere typen cellen, in totaal misschien wel een paar miljoen” – en met behulp van enzymen zijn alle cellen losgeknipt. Daarna volgden enkele filterstappen en kreeg elke cel een soort streepjescode. Per cel vonden vervolgens metingen plaats. „Het is een mooie methode”, zegt Ouwendijk. „Doordat het veel data oplevert die vanuit allerlei kanten te bekijken zijn, is het handig om nieuwe ideeën te vormen.”
De Amerikanen zagen iets bijzonders: het slapende virus zat niet alleen in de zenuwcellen, maar werd ook gezien in verschillende typen afweercellen. In januari 2023 publiceerden ze erover in Science Advances.
„We waren niet meteen wantrouwend”, zegt Ouwendijk. „We vonden het feit dat het in andere cellen ook aanwezig is vooral interessant, we wilden het graag verder onderzoeken.” Bij het lezen van het artikel gingen in Rotterdam wel de wenkbrauwen omhoog.
„Als je zo’n belangrijke vinding doet, dan wil je je conclusies bevestigen met een of twee andere, onafhankelijke methodes”, zegt Verjans. Met gewone histologie bijvoorbeeld. „In een plakje weefsel kijk je dan of het virus ook daar in de afweercellen zit. Maar zulk bevestigend onderzoek is hier helemaal niet gedaan. Wij vonden het vreemd dat zo’n belangrijk tijdschrift daar niet om gevraagd had.”
Ze brachten een internationale groep HSV-onderzoekers bij elkaar om het Amerikaanse onderzoek tegen het licht te houden. Maar toen ze de data opvroegen bij Science Advances kregen ze die niet meteen. Na meerdere keren vragen volgde pas een link naar de ruwe data. Met de gegevens bleek van alles mis te zijn.
Aan elkaar geplakte cellen
„Er waren veel dode cellen en aan elkaar geplakte cellen meegenomen in de dataset”, zegt Ouwendijk. „Die dode cellen vormen een probleem omdat de virusdeeltjes daaruit eenvoudig bij ander celmateriaal terecht kunnen komen, en die aan elkaar geplakte cellen zijn problematisch omdat niet meer te onderscheiden is bij welke cel een meting precies hoort.”
Volgens de onderzoekers is dit een logische verklaring voor de conclusie dat het slapende virus ook in afweercellen zat. In werkelijkheid hoeft het er helemaal niet in te hebben gezeten. „Eigenlijk hadden ze moeten stoppen op het moment dat ze constateerden dat er te veel dode cellen in het monster zaten”, zegt Verjans.
Behalve op de onderzoekers, zijn Verjans en Ouwendijk ook kritisch op de rol van Science Advances. Dat had strenger moeten zijn. „Dat wij zoveel moeite hadden om de data te krijgen is al niet goed”, zegt Verjans. „Als er geen data aan een onderzoek hangen moet een tijdschrift het terugsturen, niet uitsturen voor review.”
In het geval van zulk groot dataonderzoek zou inhoudelijke beoordeling van de data en de analysestappen ook op zijn plaats zijn, vinden de virologen. „Je kunt niet van elke peerreviewer verwachten dat die deze expertise bezit”, zegt Verjans. „Die expertise zou eigenlijk toegevoegd moeten worden. Tijdschriften hebben ook mensen die kijken naar de ethische en de statistische kant van onderzoek, waarom niet naar data?”
Veelbesproken onderwerp
Omgang met data is in de hele wetenschap een veelbesproken onderwerp. Dankzij nieuwe technieken en meer rekenkracht werken talloze vakgebieden tegenwoordig veel meer met data. „Het delen van vindingen en gegevens wordt heel belangrijk gevonden”, zegt Ingrid Dillo van DANS. „Het maakt dat wetenschappers elkaar kunnen controleren en kunnen voortbouwen op elkaars werk.”
Tien jaar geleden is een pakkend acroniem bedacht. Onderzoeksgegevens zouden FAIR moeten zijn: findable, accessible, interoperable en reusable – vindbaar, toegankelijk, interoperabel en herbruikbaar.
„Niet dat er daarvoor niet over data werd nagedacht”, zegt Dillo, die aanwezig was op de internationale bijeenkomst in Leiden waar FAIR werd geïntroduceerd. „Maar het acroniem sloeg enorm aan, het werd omarmd door beleidsmakers, financiers en faculteiten. Het zijn overigens geen regels, maar richtlijnen. Dat is een belangrijk verschil, omdat het op allerlei manieren te interpreteren is. Wat is vindbaar precies? Dat is niet gedefinieerd. Wanneer zijn data FAIR genoeg? In 2016 publiceerden we er voor het eerst over, en nu nog wordt erover getwist.”
Wereldwijd zijn er grote verschillen in de aandacht die naar onderzoeksdata gaat, weet Dillo. „Aan Nederlandse universiteiten zijn nu bijvoorbeeld digital competence centers ingericht, om onderzoekers te helpen. Daar is geld voor vrijgemaakt vanuit de NWO. In Europa gebeurt dat nog niet overal. We werken wel aan een European Open Science Cloud. Je ziet soortgelijke ontwikkelingen in de VS en Australië, maar minder in Azië en Afrika.” Of data goed openbaar gemaakt zijn zegt overigens niks over de kwaliteit, waarschuwt Dillo. „Een nette dataset kan best voortkomen uit wetenschappelijk broddelwerk.”
Toch komen er niet aan de lopende band datamislukkingen naar buiten. Enkele recente voorbeelden springen wel in het oog: The Lancet en The New England Journal of Medicine moesten in 2020 allebei een paper over covidmedicijnen terugtrekken omdat onderliggende data geheim gehouden werden, en later niet in orde bleken. En in 2023 werd een paper over supergeleiding teruggetrokken dat in 2021 in Nature had gestaan, omdat met de data erachter geknoeid was.
Ik denk dat heel veel slecht dataonderzoek onontdekt blijft”, zegt Dillo. „Als het wel opvalt gaat het meestal om onderzoek dat opzienbarende bevindingen heeft. Zeker bij onderzoek dat een vakgebied op zijn kop zet zou er eigenlijk eerder een belletje moeten gaan rinkelen bij de tijdschriften, maar die willen natuurlijk graag publiceren.”
Zowel onderzoekers, hun instituten als de tijdschriften dragen verantwoordelijkheid om te zorgen dat de data op orde zijn, vindt Dillo. Over of dat op korte termijn beter zal worden is ze nuchter: „Het vraagt zo’n grote investering, een apart type academische staf bij universiteiten, een bataljon gespecialiseerde reviewers bij tijdschriften, dat het lastig wordt dit snel te verbeteren. Vaak denken mensen dat het vooral een technische vraag is, dat er ingewikkelde infrastructuur moet komen. Maar het ingewikkeldste bij dit alles zijn mensen en cultuurveranderingen.”
De heranalyse die Verjans, Ouwendijk en de groep virologen deden, is in een aparte paper beland. Die verscheen begin maart in het Journal of Virology. Waarom niet in Science Advances? Verjans zucht. „Daar klopten we eerst aan, maar ze accepteerden de paper niet. Ze wilden ons een ingezonden brief laten sturen. Maar wij vinden het belangrijk dat het op een relevante plek rechtgezet wordt en ingezonden brieven worden weinig gelezen. Ze zijn bovendien niet vindbaar via de zoekmachines. Het Journal of Virology accepteerde de paper wel. Gelukkig lezen alle virologen dat blad ook.”
Een versie van dit artikel verscheen ook in het NRC van 13 april 2024.
FAIR & Open data