Tijdens onze trainingen bespreken we vaak met het publiek, bestaande uit data stewards en andere onderzoeksondersteuners, wat voor soort informatie onderzoekers nodig hebben. Specifiek tijdens een training in 2023 over FAIR, georganiseerd door het DCC-PO, verzamelden we veelgestelde vragen over FAIR-data. Hieronder vind je een selectie van deze vragen, aangevuld met antwoorden en bronnen voor meer informatie. Als je een vraag hebt over het beheer van onderzoeksdata, FAIR-data of open science, neem dan contact met ons op via e-mail – misschien is jouw vraag wel de volgende die hieronder verschijnt!
Als je vragen hebt die meer specifiek betrekking hebben op de DANS Data Stations, kijk dan hier.
FAIR data
Wat is FAIR en waarom zou ik het implementeren?
De FAIR-richtlijnen voor beheer en stewardship van wetenschappelijke gegevens zijn een verzameling richtlijnen die je kunt volgen om je gegevens uiteindelijk beter herbruikbaar te maken voor anderen.
- F (Findable) – Vindbaar: ervoor zorgen dat zowel mensen als machines je gegevens kunnen vinden
- A (Accessible) – Toegankelijk: verduidelijken hoe mensen en machines toegang kunnen krijgen tot je data
- I (Interoperable) – Uitwisselbaar: je data afstemmen op andere data die beschikbaar zijn in de gemeenschap door dezelfde taal te gebruiken en verbindingen te leggen
- R (Reusable) – Herbruikbaar: anderen in staat stellen je gegevens te hergebruiken door je gegevens duidelijk te beschrijven en er een licentie voor te geven.
Het op grote schaal kunnen vinden en hergebruiken van data komt de wetenschap als geheel ten goede en kan kostbaar dubbel werk voorkomen. Door je gegevens FAIR te maken, bereik je een breder publiek en vergroot je de impact ervan.
Meer informatie:
- Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18
- FAIR-bewust: https://fairaware.dans.knaw.nl/
- FAIR is niet exclusief voor data, er zijn ook FAIR-principes voor onderzoekssoftware: Barker, M., Chue Hong, N.P., Katz, D.S. et al. Introducing the FAIR Principles for research software. Sci Data 9, 622 (2022). https://doi.org/10.1038/s41597-022-01710-x
Kunnen mijn gegevens FAIR zijn?
FAIR is geen alles-of-niets principe, dus je gegevens kunnen stapsgewijs meer of minder FAIR zijn op basis van verschillende praktijken die je implementeert. Op basis van de oorspronkelijke FAIR-principes zijn verschillende interpretaties van metrieken en praktijken gedefinieerd die je kunnen helpen uit te zoeken welke stappen je kunt nemen om de FAIR-heid van je gegevens te vergroten. Veel elementen van FAIR worden besproken in de andere FAQ’s. Je kunt ook een hulpmiddel gebruiken om de FAIRness van je gegevens te beoordelen, als startpunt om manieren te vinden om ze te verbeteren. Zie https://fairassist.org/#!/ voor een overzicht van tools die je kunt gebruiken om de FAIRness van je gegevens te beoordelen.
Wat is het verschil tussen FAIR-data en open data?
Gegevens die FAIR zijn, zijn niet hetzelfde als gegevens die open zijn. Je gegevens kunnen beperkt of gesloten toegankelijk zijn, maar toch in hoge mate FAIR zijn. De ‘A’ in FAIR staat voor toegankelijk, maar het principe schrijft niet voor dat gegevens openlijk toegankelijk moeten zijn, alleen dat duidelijk moet worden gecommuniceerd wat het niveau van toegankelijkheid is. Als je gegevens niet openlijk toegankelijk zijn, is het belangrijk dat je duidelijk aangeeft wat de voorwaarden voor toegang en hergebruik zijn (je kunt bijvoorbeeld toegang verlenen op verzoek, na bevestiging van het doel van het hergebruik of de rol van de aanvrager). Je kunt dit doen door een verklaring van beschikbaarheid van gegevens of een protocol voor gegevenstoegang te verstrekken en een licentie voor de gegevens te specificeren.
Data Management Plannen (DMPs)
Waarom heb ik een DMP nodig?
De meeste financiers en veel instellingen eisen tegenwoordig een DMP voor elk onderzoeksproject. Het idee hierachter is om onderzoek transparant, repliceerbaar en zo open mogelijk te maken. Door voor de start van een project een DMP op te stellen en dit gedurende het hele project up-to-date te houden, denk je vooruit over hoe je je onderzoeksdata gaat beheren en delen. Door moeite te steken in het DMP, is er vervolgens minder moeite nodig om de data gedurende het project effectief te beheren. Een goed DMP kan ook het risico op dataverlies of andere bedreigingen die een negatieve invloed kunnen hebben op de data (bijvoorbeeld veroudering van software) verkleinen.
Welk DMP-sjabloon moet ik gebruiken?
Dit hangt af van het doel: financiers en instellingen hebben vaak hun eigen sjablonen of richtlijnen waarvan ze willen dat je je eraan houdt, dus de website van de financier en de universiteitsbibliotheek zijn goede eerste punten om te controleren. In Europa werken steeds meer onderzoeksfinanciers met eisen en richtlijnen die zijn ontwikkeld door Science Europe. Hun document is een goede plek om te beginnen, en hoewel de sjablonen en richtlijnen variëren, maken de belangrijkste thema’s die door Science Europe zijn geïdentificeerd deel uit van elk sjabloon. Er zijn ook verschillende DMP-tools die je kunt gebruiken en deze hebben vaak ingebouwde sjablonen. Goede en gratis te gebruiken voorbeelden zijn Argos en DMPonline. Bijkomende voordelen zijn dat ze gezamenlijk schrijven ondersteunen en dat het geproduceerde DMP ook machineleesbaar kan zijn.
Meer informatie:
- Science Europe. (2021). Practical Guide to the International Alignment of Research Data Management – Extended Edition. https://doi.org/10.5281/zenodo.4915862
- Argos: https://argos.openaire.eu/
- DMPonline: https://dmponline.dcc.ac.uk/
- Swedish National Data Service DMP checklist: https://snd.gu.se/en/manage-data/guides/dmp-checklist
- Maaike Verburg & Marjan Grootveld. (2022). FAIR-Aware Aanvullende begeleiding bij de beoordelingsrubriek voor DMP van Science Europe. Zenodo. https://doi.org/10.5281/zenodo.6088215
- Horizon Europe DMP-sjabloon: https://enspire.science/wp-content/uploads/2021/09/Horizon-Europe-Data-Management-Plan-Template.pdf
Zijn er voorbeeld DMP's beschikbaar?
Omdat de informatie in een DMP verschilt per onderzoeksproject, instelling, discipline, enzovoort, is het het handigst om voorbeelden van soortgelijke projecten te bekijken. Openbare DMP’s zijn te vinden in Argos en DMPonline, op Zenodo en bijvoorbeeld op de DMP Use Case Project website. Jouw instelling heeft misschien een eigen sjabloon waarin bepaalde aspecten al voor je zijn ingevuld, zoals hoe gegevens worden gedeeld of geback-upt in jouw instelling.
- Openbare DMP’s in Argos: https://argos.openaire.eu/explore-plans
- Openbare DMP’s in DMPonline: https://dmponline.dcc.ac.uk/public_plans
- DMP Use Case Project: https://hdl.handle.net/11353/10.1140797
Metadata
Wat zijn metadata?
Metadata zijn “data over data”, dus data die informatie geven over andere data. Het is belangrijk om data te ontdekken, te vinden en te hergebruiken. Je kunt denken aan metadata op projectniveau, zoals wat is de titel van het project, waar gaat het over (bijv. trefwoorden), wie is erbij betrokken (bijv. wie zijn de auteurs van een dataset), wie is de financier, enzovoort. Andere belangrijke metadata hebben betrekking op wat de dataset bevat (bijv. wat voor soort bestanden), hoe het is verzameld, hoe het is verwerkt en hoe het kan worden geopend en hergebruikt (bijv. licenties, Persistent Identifiers (PID’s) zoals DOI). Er zijn ook metadata op gegevensniveau, zoals informatie over het bestand (gegevenstype, formaat, enz.) en over variabelen die in het bestand worden gebruikt. Gestructureerde metadata kunnen ook machineleesbaar zijn en zijn daarom gemakkelijker te vinden tijdens het zoeken in catalogi of op internet.
Meer informatie:
Wat is een metadatastandaard?
Zoals kort vermeld onder ‘Wat is metadata?’, zijn er verschillende soorten metadata, die verschillende metadata-elementen bevatten (bv. ’titel’, ‘auteur’, enz.). Voor verschillende doeleinden of in verschillende disciplines zijn verschillende combinaties van deze elementen vereist. Een metadatastandaard is een onderwerpspecifieke overeengekomen of aanbevolen (‘standaard’) groep metadata-elementen. De metadatastandaard bevat welke metadata-elementen gebruikt moeten worden en kan ook regels bevatten over de syntaxis en welke gecontroleerde vocabulaires gebruikt moeten worden (per metadata-element).
Internationaal erkende en veelgebruikte metadatastandaarden zijn:
- Dublin Core termen, voor bibliografische informatie en ontdekking van andere ‘informatieobjecten’. De Dublin Core Metadata Element Set bevat vijftien basis metadata elementen, zoals ‘Title’, ‘Creator’, ‘Date’, ‘Description’, terwijl de DCMI metadata termen aanvullende elementen bevatten.
- DataCite Metadata Schema voor het citeren en terugvinden van datasets. Het bevat twintig hoofdelementen, waaronder bijvoorbeeld ‘Titel’, ‘Maker’, ‘Uitgever’, ‘Onderwerp’, ‘Taal’, ‘Rechten’. Veel van de elementen zijn vergelijkbaar met Dublin Core.
- Data Documentation Initiative (DDI) voor enquêtes en andere observatiemethoden in de sociale, gedrags-, economische en gezondheidswetenschappen.
Als je je dataset in een betrouwbaar archief deponeert, zal het archief al metadatastandaarden hebben. DANS gebruikt metadata van Dublin Core, DDI en DataCite en volgt de OpenAIRE richtlijnen en andere aanbevelingen van de gemeenschap bij het bepalen welke metadata-elementen opgenomen moeten worden.
Meer informatie:
Hoe documenteer ik metadata?
Als onderzoeker is het goed om je bewust te zijn van het belang en de soorten metadata, omdat het niet veel tijd kost om metadata te documenteren als je vanaf het begin van een project begint (zie ‘Wat is metadata’ en ‘Wat is een metadatastandaard?’). Er zijn metadatasjablonen die helpen om te controleren of je alle relevante metadata (metadatavelden) verzamelt, zoals dublincoregenerator. Het belangrijkste om te overwegen is of je alle informatie toevoegt die nodig is om je data te vinden, te openen en te hergebruiken. Je kunt je metadata gewoon in een tekstbestand verzamelen en informatie op gegevensniveau in de databestanden insluiten (denk bijvoorbeeld aan EXIF-informatie in een afbeeldingsbestand). Om machineleesbare metadata te genereren, kun je je dataset indienen bij een betrouwbare data repository (zie ook ‘Waar moet ik mijn data opslaan?’) – het is dus niet nodig om dit zelf te doen. Als je wilt, is het echter mogelijk om zelf een machineleesbaar .xml-bestand te genereren, bijvoorbeeld met behulp van de hierboven genoemde dublincoregenerator.
Meer informatie:
Waar en hoe registreer ik metadata?
Als je jouw dataset deponeert in een repository, zoals een van de DANS Data Stations, word je gevraagd om metadatavelden in te vullen. Op deze manier worden de metadata-elementen gekoppeld aan de dataset. Zorg er altijd voor dat je je data deponeert in een repository waar je de mogelijkheid hebt om metadata toe te voegen, het liefst zo rijk (uitgebreid) mogelijk. Dit vergroot de kans dat anderen de data zullen vinden en hergebruiken.
Afhankelijk van de repository worden de metadata ook geïndexeerd (d.w.z. vindbaar via zoekmachines) of verzameld door metadatacatalogi. Metadata in het DANS Data Station Archaeology zijn bijvoorbeeld ook zichtbaar in het ARIADNE Portaal, terwijl metadata van het DANS Data Station Social Sciences and Humanities te zien zijn in het ODISSEI Portaal.
In sommige gevallen wil je de zichtbaarheid van je output vergroten door de metadata handmatig toe te voegen aan een register of catalogus. Als je bijvoorbeeld trainings- of lesmateriaal (bijv. dia’s of oefensjablonen) in Zenodo hebt gedeponeerd, kun je vervolgens besluiten om de metadata toe te voegen aan het TeSS-platform, een platform voor het vinden van trainingsmateriaal, om de zichtbaarheid ervan te vergroten. (NB: hoewel je metadata die verwijzen naar je data op meerdere plaatsen kunt toevoegen, moet je je eigenlijke data of andere materialen nooit twee keer deponeren).
Meer informatie:
Bestandsformaten
Wat is een bestandsformaat?
Bestanden worden opgeslagen in verschillende bestandsformaten. Bestandsformaten zijn standaard manieren om informatie te coderen voor opslag op een computer. Je kunt zien wat het bestandsformaat is op basis van de bestandsextensie (het achtervoegsel), zoals .jpg of .docx.
Er zijn normaal gesproken meerdere opties voor bestandsformaten voor hetzelfde type bestand. Je kunt bijvoorbeeld een afbeelding opslaan als JPG, TIFF, PNG en meer. Er is een fundamenteel onderscheid tussen bedrijfseigen formaten, die eigendom zijn van een bedrijf of organisatie, en niet bedrijfseigen of open formaten, die publiek toegankelijk zijn.
Referentie en meer informatie:
- https://howtofair.dk/how-to-fair/file-formats/ (D.B. Deutz, M.C.H. Buss, J. S. Hansen, K. K. Hansen, K.G. Kjelmann, A.V. Larsen, E. Vlachos, K.F. Holmstrand (2020). How to FAIR: een Deense website om onderzoekers te begeleiden bij het FAIRer maken van onderzoeksgegevens https://doi.org/10.5281/zenodo.3712065)
- https://fairaware.dans.knaw.nl/ > Aanvullende richtlijnen Q9
Wat wordt bedoeld met voorkeurs(bestands)formaten?
Voorkeursformaten zijn bestandsformaten waarvan een organisatie of repository, zoals DANS, op basis van internationale afspraken zeker weet dat ze op de lange termijn de beste garantie bieden op het gebied van bruikbaarheid, toegankelijkheid en duurzaamheid. Een algemene richtlijn is dat dit bestandsformaten zijn die:
- Veel gebruikt worden;
- open specificaties hebben (d.w.z. dat ze niet aan eigendomsrechten gebonden zijn);
- onafhankelijk zijn van specifieke software, ontwikkelaars of leveranciers.
Het is goed om te weten dat het in de praktijk niet altijd mogelijk zal zijn om een formaat te gebruiken dat aan alle drie de criteria voldoet. Een gesloten formaat kan bijvoorbeeld het formaat zijn dat het meest gebruikt wordt voor een specifiek doel in jouw vakgebied, zoals SPSS .sav-bestanden of ESRI shapefiles. In dit geval is het het beste om je data op te slaan in zowel het gesloten, veelgebruikte formaat als in het gewenste, open formaat dat meer kans heeft op langdurige bewaring en toegankelijkheid.
Meer informatie:
- https://dans.knaw.nl/en/file-formats/
- https://ukdataservice.ac.uk/learning-hub/research-data-management/format-your-data/recommended-formats/
- Wegwijzer voorkeursformaten https://www.wegwijzervoorkeursformaten.nl (meestal in het Nederlands, voor Engelse samenvatting zie https://www.wegwijzervoorkeursformaten.nl/index.php/Summary_Guide_to_Prefered_Formats).
Waarom zou ik voorkeursformaten gebruiken?
We raden aan om voorkeursformaten te gebruiken (zie vorige vraag: ‘Wat wordt bedoeld met voorkeurs(bestands)formaten?) omdat deze op de lange termijn de beste garantie bieden dat je data bruikbaar, toegankelijk en duurzaam blijven. Propriëtaire bestandsformaten kunnen bijvoorbeeld specifieke software vereisen om te openen en het is mogelijk dat deze niet beschikbaar blijft. Er zijn echter situaties waarin een propriëtair formaat het meest gebruikte formaat in je vakgebied kan zijn, zoals SPSS .sav-bestanden in de sociale wetenschappen of ESRI shapefiles in de archeologie of geografie. Er zijn ook gevallen waarin bedrijfseigen indelingen aanvullende informatie bevatten die verloren kan gaan bij conversie. In dergelijke gevallen raden we aan om bestanden zowel in het gepatenteerde formaat als in een voorkeursformaat te archiveren. Het laatste formaat bevat op dit moment misschien niet de meeste informatie of op de meest bruikbare manier, maar heeft op de lange termijn betere perspectieven. Bij DANS accepteren we in ieder geval elk bestandstype als er een goede reden is om het te gebruiken – je wordt dus nooit gedwongen om voorkeursformaten te gebruiken. Houd er wel rekening mee dat er bij niet-voorkeursformaten geen garantie is dat de gegevens op de lange termijn leesbaar blijven.
Meer informatie:
Datasets publiceren en delen
Mijn data kan niet door iemand anders begrepen worden, dus wat heeft het voor zin om ze te publiceren?
Ten eerste is het belangrijk om je data goed te documenteren zodat ze door anderen begrepen kunnen worden. Ook al is je vakgebied klein en werken er niet veel andere mensen met bijvoorbeeld hetzelfde instrument in het lab of hetzelfde type data, toch zullen er anderen zijn die dat wel doen en zijn er misschien andere mensen die in de toekomst hetzelfde type onderzoek zullen doen of zelfs op dat van jou willen voortbouwen. Uiteindelijk kunnen we wel raden, maar niet voorzien hoe de wetenschap zich zal ontwikkelen en wie er in de toekomst geïnteresseerd zal zijn in jouw data. Door je gegevens goed te documenteren (wat heb je gedaan, hoe heb je het gedaan, wat betekenen de variabelen in je bestanden?), bijvoorbeeld in een leesmij-bestand, maak je de gegevens begrijpelijk voor anderen.
Ten tweede, als je je gegevens publiceert door ze onder een open licentie in een repository te deponeren, maak je ze niet alleen beschikbaar voor anderen, maar zorg je er ook voor dat ze op de lange termijn bewaard blijven. Zelfs als maar weinig anderen in staat zullen zijn om ze te begrijpen, zijn ze tenminste bewaard voor degenen die dat wel kunnen.
Bovendien kan je financier of instelling eisen dat je je gegevens beschikbaar stelt in een onderzoeksdata repository. Het feit dat je onderzoek is gedaan is ook nuttig om te weten voor anderen, dus zelfs als de data niet als zodanig worden hergebruikt, kunnen de metadata belangrijke informatie geven aan anderen.
Meer informatie:
Mijn gegevens zijn niet nuttig voor anderen, dus waarom zou ik ze beschikbaar stellen voor hergebruik?
Weet je heel zeker dat jouw gegevens niet nuttig zijn voor anderen? Toen je aan je project begon, had je waarschijnlijk een onderzoeksvraag die je wilde beantwoorden en een reden waarom je die vraag wilde beantwoorden – anderen kunnen hetzelfde ook interessant en de moeite waard vinden. Door je data beschikbaar te stellen, zorg je er bovendien voor dat anderen kunnen zien waarop de conclusies in je tijdschriftartikel of hoofdstuk zijn gebaseerd; met andere woorden, het is belangrijk voor de onderzoeksintegriteit. Bovendien kan je financier of instelling eisen dat je je gegevens beschikbaar stelt in een onderzoeksdata repository.
Hoe zorg ik ervoor dat anderen mijn gegevens kunnen interpreteren?
Dit kun je doen door voldoende informatie te leveren, in de vorm van metadata en data documentatie. Wat moet iemand weten om de gegevens te begrijpen? Denk aan informatie op projectniveau, zoals waar ging het onderzoek over, waarom is het uitgevoerd en door wie, en aan informatie op dataniveau, zoals welke methoden zijn gebruikt om de data te meten, te verwerken en te analyseren, en wat betekenen de afkortingen en namen van variabelen in het gegevensbestand? Je kunt deze informatie bijvoorbeeld toevoegen als een leesmij-bestand (zie ‘Wat is een leesmij-bestand?’), inclusief een codeboek. Zorg er ook voor dat je alle relevante bestanden toevoegt aan je dataset, niet alleen je data, maar bijvoorbeeld ook experimentele protocollen, de vragenlijst die is gebruikt om de data te verzamelen, of scripts die zijn gebruikt voor analyse.
Meer informatie:
Wat is een leesmij-bestand?
Een leesmij-bestand is een tekstbestand waarin je informatie geeft over je dataset. Het is een goed gebruik om zo’n bestand aan je dataset toe te voegen. Het moet alle relevante informatie bevatten zodat je data begrepen en hergebruikt kan worden, zoals informatie over de gebruikte methoden, wat de gegevens betekenen (bijv. afkortingen, definities, meeteenheden) en informatie over toegang en hergebruik. Meer details en een goed voorbeeld vindt u in de 4TU.Research Data richtlijnen voor het maken van een README-bestand.
Meer informatie:
- 4TU.ResearchData (2020), Richtlijnen voor het maken van een README-bestand, https://data.4tu.nl/s/documents/Guidelines_for_creating_a_README_file.pdf
Hoe bepaal ik waar ik mijn gegevens publiceer?
We raden aan een onderzoeksdata repository te gebruiken om je gegevens te publiceren. Een alternatieve manier is om je gegevens toe te voegen als aanvullend materiaal bij een tijdschriftartikel, maar in dat geval verlies je mogelijk het auteursrecht op de gegevens, kunnen de gegevens achter een paywall terechtkomen en worden ze waarschijnlijk niet op de lange termijn bewaard.
Maar welke onderzoeksdata repository moet je kiezen? Soms vereist je financier of instelling een specifieke repository. Zo niet, dan kun je deze aanbevelingen van OpenAIRE volgen:
- Gebruik bij voorkeur een betrouwbare (gecertificeerde), domeinspecifieke repository. Een domeinspecifieke repository biedt specialistische expertise en metadatavelden. Vooral betrouwbare repositories bieden ook lange termijn bewaardiensten.
- Als alternatief kun je een institutionele opslagplaats gebruiken. Een institutionele repository accepteert waarschijnlijk alle soorten data van elke discipline, maar ze beheren de data mogelijk niet en bieden daarom mogelijk geen duurzame toegang tot de data op de lange termijn. OpenAIRE raadt daarom aan om alleen een dergelijke repository te gebruiken als deze wel langdurige toegang biedt.
- Als optie 1 en 2 niet beschikbaar of geschikt zijn, kun je een generieke, of catch-all, repository gebruiken, zoals Zenodo. Hoewel je hiermee een groot publiek kunt bereiken, is langdurige bewaring en toegang niet altijd gegarandeerd, en domeinspecifieke metadata zijn normaal gesproken niet beschikbaar.
- Vind een repository door te zoeken op re3data.org. Je kunt betrouwbare repositories vinden door te filteren op “Certificaat”, of je kunt filteren op andere kenmerken die je vooral belangrijk vindt voor jouw data, bijvoorbeeld ondersteuning voor een specifiek metadataschema of licentie.
Om er zeker van te zijn dat je een betrouwbare repository hebt gevonden, kijk je naar een CoreTrustSeal, Nestor of ISO 16363 certificeringslabel op de website van de repository.
Meer informatie:
- https://www.openaire.eu/find-trustworthy-data-repository
- https://dmeg.cessda.eu/Data-Management-Expert-Guide/6.-Archive-Publish/Data-publishing-routes
- https://fairaware.dans.knaw.nl/ > Aanvullende richtlijnen Q10
- Brinkman et al. (2023). Open Science: Een praktische gids voor beginnende onderzoekers. Zenodo. https://doi.org/10.5281/zenodo.7716153
Gevoelige data
Hoe kan ik een dataset met persoonlijke gegevens delen?
Er zijn ethische overwegingen en wettelijke voorschriften, zoals de Algemene verordening gegevensbescherming (AVG)General Data Protection Regulation (GDPR), waar je rekening mee moet houden, en we raden je aan om de privacyfunctionaris van je instelling te raadplegen als dat mogelijk is. Kort samengevat, maar niet uitputtend: Als je gegevensverwerking is gebaseerd op toestemming, moet je ervoor zorgen dat het delen van gegevens wordt behandeld in het formulier voor geïnformeerde toestemming (Informed Consent), en je zou zelfs toestemming kunnen vragen voor het delen van identificeerbare persoonsgegevens. Ten tweede moet je (tenzij je toestemming hebt om identificeerbare persoonsgegevens te delen en er goede redenen zijn om dat te doen) de gegevens anonimiseren of pseudonimiseren. Als dit echter zou leiden tot te veel informatieverlies, zodat de gegevens niet langer bruikbaar zijn, kan de data mogelijk toch delen, bijvoorbeeld met beperkte toegang of via gedecentraliseerde heranalyse.
Meer informatie:
- Verburg, M., Braukmann, R., & Mahabier, W. (2023). Making Qualitative Data Reusable – A Short Guidebook For Researchers And Data Stewards Working With Qualitative Data (Versie 2). Zenodo. https://doi.org/10.5281/zenodo.8160880
- OpenAIRE (n.d.). Hoe om te gaan met gevoelige gegevens: Leer hoe je gevoelige gegevens veilig kunt bewaren. https://www.openaire.eu/sensitive-data-guide
- Informatie over GDPR: https://gdpr-info.eu/
Hoe kan ik mijn data anonimiseren of pseudonimiseren?
Data kunnen als geanonimiseerd worden beschouwd als het proces van het verwijderen van identificerende kenmerken onomkeerbaar is, terwijl er bij gepseudonimiseerde data een sleutel is om de data weer te de-identificeren naar de oorspronkelijke data (zie het Guidebook Making Qualitative Data Reusable of de OpenAIRE Sensitive Data Guide).
Het belangrijkste doel is om alle identificerende kenmerken te verwijderen. Er zijn gidsen en hulpmiddelen beschikbaar om je hierbij te helpen:
- Amnesia tool van OpenAIRE.
- UKDS gids ‘Anonimiseren step by step‘ en ‘Text anonymisation tool’.
- anonymoUUS tool van de Universiteit Utrecht.
- Gids ‘Methods for anonymising qualitative data‘ van de Erasmus Universiteit Research Services.
Meer informatie:
- Erasmus University Research Services (2023). Methoden voor het anonimiseren van kwalitatieve data. https://www.eur.nl/en/research/research-services/research-data-management/anonymisation-research-data/qualitative-data
- OpenAIRE (n.d.). Hoe om te gaan met gevoelige gegevens: Leer hoe u uw gevoelige gegevens veilig kunt bewaren. https://www.openaire.eu/sensitive-data-guide
- UKDS (n.d.). Anonimiseren stap voor stap. https://ukdataservice.ac.uk/learning-hub/research-data-management/anonymisation/anonymisation-step-by-step/
- Verburg, M., Braukmann, R., & Mahabier, W. (2023). Making Qualitative Data Reusable – A Short Guidebook For Researchers And Data Stewards Working With Qualitative Data (Versie 2). Zenodo. https://doi.org/10.5281/zenodo.8160880
Mijn data kan niet worden gedeeld - wat moet ik doen?
Er zijn data die niet gedeeld kunnen worden, bijvoorbeeld omdat de dataset gevoelige data bevat, zoals persoonlijke of vertrouwelijke gegevens. Als het niet mogelijk is om de gevoelige data uit de dataset te halen, of om ze te de-identificeren, zonder informatieverlies, dan is het waarschijnlijk inderdaad niet mogelijk om de gegevens openlijk te delen. Je kunt de gegevens echter wel archiveren in een archief, met beperkte toegang. Op deze manier blijft de data op lange termijn bewaard en zijn de metadata beschikbaar. Als anderen geïnteresseerd zijn in toegang tot en/of hergebruik van de gegevens, kunnen ze een verzoek om toegang indienen, dat objectief en per geval kan worden beoordeeld.
Meer informatie:
- OpenAIRE (n.d.). Hoe om te gaan met gevoelige gegevens: Leer hoe u uw gevoelige gegevens veilig kunt bewaren. https://www.openaire.eu/sensitive-data-guide
- Verburg, M., Braukmann, R., & Mahabier, W. (2023). Making Qualitative Data Reusable – A Short Guidebook For Researchers And Data Stewards Working With Qualitative Data (Versie 2). Zenodo. https://doi.org/10.5281/zenodo.8160880.
Rechten en licenties
Wat is een licentie?
“Een datalicentie is een juridische afspraak tussen de maker van de data en de eindgebruiker, of de plaats waar de data worden gedeponeerd, waarin staat wat gebruikers met de data mogen doen” (Deutz et al. 2020). Als je een licentie toekent, maak je meteen duidelijk hoe mensen de data wel of niet mogen gebruiken. Gegevens zonder licentie of afstand van rechten kunnen niet worden hergebruikt.
Zowel voor data als voor veel andere outputs van onderzoek worden de Creative Commons-licenties het meest gebruikt. Je vindt een overzicht van alle licenties op de Creative Commons webpagina. Voor software en code zijn er andere soorten licenties beschikbaar, zoals MIT, GNU en de Apache licentie.
Meer informatie:
- https://the-turing-way.netlify.app/reproducible-research/licensing
- https://howtofair.dk/how-to-fair/data-licences/
Brinkman et al. (2023). Open Science: Een praktische gids voor beginnende onderzoekers. Zenodo. https://doi.org/10.5281/zenodo.7716153
Welke licentie moet ik kiezen?
Je moet een zo open mogelijke licentie kiezen, wat tegenwoordig vaak ook een vereiste is voor financiers.
Voor data of publicaties is een Creative Commons licentie zeer geschikt en algemeen bekend. Er zijn zes Creative Commons licenties met combinaties van vier elementen:
- Naamsvermelding (BY)
- Share Alike (SA) (je moet onder dezelfde voorwaarden hergebruiken)
- Niet-commercieel (NC)
- Geen Afgeleide Producten (ND) (je mag het originele werk niet veranderen)
- Er is ook een Creative Commons Public Domain toewijding, wat betekent dat je alle auteursrechten opgeeft; dit is de CC0 (CC Zero).
Bij DANS raden we aan om je werk zo open mogelijk te delen, wat betekent dat je CC0 gebruikt. Toch begrijpen we dat het belangrijk is om als onderzoeker erkend te worden voor je werk, en hiervoor is de CC BY licentie geschikt (of een CC BY licentie met extra beperkingen). De CC BY licentie is waarschijnlijk de meest gebruikte licentie voor open onderzoeksdata en open access publicaties. Meer beperkende licenties zoals de CC BY-SA (share-alike, d.w.z. de output die uit het hergebruik komt moet onder identieke voorwaarden gelicenseerd zijn) of de CC BY-NC (niet-commercieel) worden ook vaak gebruikt, maar we raden het niet aan, omdat hergebruik moeilijker kan worden. Een non-profitorganisatie die bijvoorbeeld training geeft tegen kostprijs of zelfs minder, kan nog steeds als commercieel worden beschouwd. Of in een ander voorbeeld, als je samen gegevens verzamelt in een database en een deel ervan is ‘share-alike’, betekent dit dat je je database onder dezelfde voorwaarden moet delen, zelfs als je het meer of minder open wilt maken.
Je hebt echter niet altijd de keuze, omdat uitgevers en repositories je misschien maar een beperkt aantal keuzes geven.
Meer informatie:
- https://www.rug.nl/library/open-access/blog/which-creative-commons-licence-should-i-choose-19-02-2021?lang=en en Pascal Braak, Hans de Jonge, Giulia Trentacosti, Irene Verhagen, & Saskia Woutersen-Windhouwer. (2020, 28 oktober).
- Gids voor Creative Commons voor wetenschappelijke publicaties en onderwijsmateriaal. Zenodo. http://doi.org/10.5281/zenodo.4090923
- https://the-turing-way.netlify.app/reproducible-research/licensing/licensing-data
- https://howtofair.dk/how-to-fair/data-licences/
Van wie zijn de data?
Dit is niet eenvoudig te beantwoorden. Wettelijk gezien, in ieder geval onder de Nederlandse wet, kunnen data geen eigendom zijn. Dit is enigszins logisch als je bijvoorbeeld denkt aan het meten van de temperatuur met een thermometer – niemand is eigenaar van het feit dat het 15,7 graden Celsius is. Maar hoewel je dit feit “niemand is eigenaar van data” kunt lezen, is het niet erg relevant voor de meeste onderzoeksdata. Dit komt omdat als je de data organiseert of er op een andere manier je stempel op drukt, het niet langer alleen maar kale feiten zijn – met andere woorden, het werk is ‘origineel’. Niettemin is een betere manier om ernaar te kijken misschien wie verantwoordelijk is voor (verwerkte, georganiseerde, verzamelde) data en wie kan beslissen wat ermee gebeurt. Het hangt af van waar je bent en welke wetten op jou van toepassing zijn, maar in Nederland en op veel andere plaatsen is het de instelling, d.w.z. de werkgever, die verantwoordelijk is. In de praktijk ligt de besluitvorming over bijvoorbeeld waar de data op de lange termijn worden opgeslagen vaak bij de onderzoeker, maar dit verschilt per instelling. Als het beleid in jouw instelling niet duidelijk is, kun je het beste om opheldering vragen. Als je niet voor een werkgever werkt, bijvoorbeeld als je zelfstandig onderzoeker bent, ben je zelf verantwoordelijk voor de data. Voor studenten die data produceren als onderdeel van hun studie is de situatie niet altijd duidelijk – als er geen duidelijke richtlijnen en regels zijn in je instelling, raden we je aan deze op te vragen bij je begeleider.
Meer informatie:
- LCRDM (in voorbereiding). Gegevenssoevereiniteit, gegevensbeheer en digitale soevereiniteit.
Vocabulaires
Wat zijn vocabulaires?
Een vocabulaire is in wezen een lijst met termen. Je kunt deze gebruiken voor de documentatie van je data of metadata. Een vocabulaire kan een eenvoudige lijst zijn of zeer gestructureerd.
Vocabulaires kunnen op verschillende manieren worden georganiseerd, bijvoorbeeld als:
- Een lijst. Dit kan een eenvoudige, platte lijst zijn (bijvoorbeeld een lijst met de provincies van Nederland), maar ook een data dictionary (een lijst met termen met definitie), of een controlled vocabulary (een lijst met termen met een proces om het te beheren, zoals beleid over wie het onderhoudt en beheert). Je ziet deze vaak als de waarden in dropdownmenu’s.
- Een taxonomie: een hiërarchisch systeem of classificatieschema met groepen klassen en subklassen en relaties daartussen. Ze kunnen worden weergegeven als een boomstructuur.
- Een thesaurus: een gecontroleerd vocabulaire waarin de termen (of concepten) met elkaar verbonden zijn door middel van relaties. Voorbeelden zijn de European Language Social Science Thesaurus en de Art and Architecture Thesaurus.
- Een axiomatische of formele ontologie: Een gedeeld systeem van klassen, subklassen en relaties, gebruikmakend van formele logica. Dit maakt het mogelijk om nieuwe informatie af te leiden: als je datapunt een instantie van een blad is, en in de ontologie kunnen we zien dat een blad deel uitmaakt van een plant en dat een plant een organisme is en dat organismen levend zijn of zijn geweest, dan kunnen we zeggen dat het blad deel uitmaakte van een (ooit) levend ding.
Deze concepten worden ook wel ‘ontologieën’ of ‘semantische artefacten’ genoemd, hoewel deze termen niet precies dezelfde betekenis hebben als vocabulaires. Om het nog ingewikkelder te maken, kunnen de termen verschillende betekenissen hebben voor verschillende gemeenschappen – hoewel verwarrend, helpt het om je hiervan bewust te zijn.
Meer informatie:
- Maineri. Angelica Maria. (2022). Controlled vocabularies for the social sciences: what they are, and why we need them. Zenodo. https://doi.org/10.5281/zenodo.7157800
- Pp. 14-19 in Yann Le Franc, Luiz Bonino, Hanna Koivula, Jessica Parland-von Essen, & Robert Pergl. (2022). D2.8 FAIR Semantics Recommendations Third Iteration (V1.0). Zenodo. https://doi.org/10.5281/zenodo.6675295
Waarom zou ik een (gecontroleerde) vocabulaire gebruiken?
De belangrijkste reden is dat je met een vaste lijst inconsistenties door typefouten en het gebruik van verschillende woorden voor hetzelfde (of een vergelijkbaar) concept voorkomt. Dit helpt weer om je data beter uitwisselbaar te maken met andere datasets. Het vergemakkelijkt ook het zoeken en filteren van je dataset, vooral als relaties tussen termen worden gespecificeerd. Bijvoorbeeld, zelfs als je alleen subdisciplines in je dataset hebt gespecificeerd, kun je nog steeds gemakkelijk alle items vinden die gerelateerd zijn aan de ‘geesteswetenschappen’ in het algemeen, als deze ouder-kind relaties bestaan in de thesaurus die je hebt gebruikt. Het gebruik van een gecontroleerd vocabulaire helpt ook bij de machineleesbaarheid.
Meer informatie:
- Maineri. Angelica Maria. (2022). Controlled vocabularies for the social sciences: what they are, and why we need them. Zenodo. https://doi.org/10.5281/zenodo.7157800
- https://faircookbook.elixir-europe.org/content/recipes/interoperability/introduction-terminologies-ontologies.html
Waar vind ik geschikte vocabulairetermen voor mijn data?
Welke termen je moet gebruiken en uit welke vocabulaire, hangt af van de context – vooral van je vakgebied en het onderwerp van je onderzoek. Omdat interoperabiliteit hier het belangrijkste doel is, is het de moeite waard om na te gaan wat anderen op hetzelfde gebied doen: welke termen gebruiken zij en komen deze uit een bepaald gecontroleerd vocabulaire of een thesaurus?
Andere goede startpunten zijn registers en repositories voor vocabulaires / ontologieën. Bartoc geeft een overzicht van dergelijke registers, repositories en andere diensten op het gebied van vocabulaire, en het is ook een register op zich, voor elk vakgebied. Je kunt ook zoeken in het FAIRsharing-standaardenregister. Sommige disciplines, zoals de biowetenschappen, hebben vrij uitgebreide ontologieregisters. Voor sommige andere disciplines bestaan dergelijke registers op het moment van schrijven nog niet als zodanig, maar er zijn bijvoorbeeld ‘geweldige’ lijsten met aanbevelingen voor de geesteswetenschappen en de sociale wetenschappen.
Meer informatie:
- Maineri. Angelica Maria. (2022). Controlled vocabularies for the social sciences: what they are, and why we need them. Zenodo. https://doi.org/10.5281/zenodo.7157800
- Algemeen:
- Geesteswetenschappen:
- Sociale wetenschappen:
- Aanbevolen vocabulaires: https://github.com/FAIR-Expertise-Hub/awesome-ontologies-social-sciences
- https://vocabularies.cessda.eu/
- Gezondheid, biomedische wetenschappen, biologie, landbouw, milieu:
De term die ik nodig heb staat niet in een vocabulaire, wat nu?
Omdat vocabulaires standaard vereenvoudigingen van de werkelijkheid zijn, zullen niet alle woorden beschikbaar zijn als vocabulairetermen. Er moet vaak een afweging worden gemaakt tussen het hebben van termen die toepasbaar zijn tussen verschillende onderzoeksprojecten, en dus uitwisselbaar, en het hebben van meer of specifiekere informatie in de term. Als je een bepaalde term nodig hebt voor je data, maar deze geen deel uitmaakt van de vocabulaire die je gebruikt, kun je twee dingen doen:
- Je kunt contact opnemen met de mensen die verantwoordelijk zijn voor de vocabulaire. Dit kan ontmoedigend lijken, maar een goede vocabulaire is gebouwd op consensus binnen de gemeenschap en heeft precies hiervoor procedures. Jouw term kan, als ‘de gemeenschap’ het ermee eens is, de volgende nieuwe term in de vocabulaire zijn!
- Je kunt gewoon je eigen term gebruiken naast de andere termen uit een of meer vocabulaires. Om je dataset toch optimaal uitwisselbaar te maken, adviseren we om ten eerste de term goed uit te leggen (bijvoorbeeld in je readme file) zodat er geen onduidelijkheid kan bestaan over wat je ermee bedoelt, en ten tweede de term te ‘mappen’ naar een term in een bestaande vocabulaire. Bij gegevens in tabelvorm kun je denken aan een extra kolom of een ‘mapping’-tabel. Als je bijvoorbeeld oude graftombes bestudeert en bepaalde regiospecifieke types zijn belangrijk voor je, maar niet beschikbaar in een bestaand vocabulaire, dan kun je natuurlijk nog steeds je typologie gebruiken, maar ook aangeven dat je term(en) bedoeld zijn als ‘kinderen’ van de ouderterm ‘graftombes’ in de Getty Art and Architecture Thesaurus (http://vocab.getty.edu/page/aat/300005926). Afhankelijk van je kennis over hoe je dit moet doen of de hulp die beschikbaar is in je instituut, is het beter om dit te doen met behulp van een machineleesbare syntaxis en indeling.
Meer informatie: