Introductie
Deze pagina bevat het selectiebeleid dat DANS heeft vastgesteld voor de DANS Data Stations. Het legt vast in welke gevallen aangeboden datasets passen bij de doelstellingen waarmee DANS de Data Stations heeft ingericht, te weten: archiveren en publiceren van onderzoeksdata om hergebruik mogelijk te maken.
De DANS Data Stations zijn domeinspecifieke research data repositories. Op dit moment zijn repositories beschikbaar voor de volgende onderzoeksdomeinen:
- archaeology
- social sciences and humanities
- life sciences
- physical and technical sciences
Selectiebeleid
DANS hanteert de volgende criteria om te bepalen of we een dataset accepteren in onze data stations:
#1. Onderzoeksdata
Wij archiveren en publiceren onderzoeksdata, waarvoor wij de volgende definitie hanteren:
- Alle data die zijn gegenereerd voor onderzoek. Dit blijkt uit:
- dat ze binnen een (verifieerbaar) onderzoeksproject zijn gegenereerd, of
- dat ze door een onderzoeksinstelling of -organisatie zijn geproduceerd.
- Data die niet zijn gegenereerd voor onderzoek, maar wel herbruikbaar zijn voor onderzoek, als er een redelijk vermoeden bestaat dat een andere bestemming voor publicatie en archivering niet beschikbaar is (zoals bijv. bibliotheek, archief, publicatieplatform).
- Data voortkomend uit citizen science, mits gevalideerd door een erkende onderzoeksinstelling of -organisatie, of als een van de data station managers de data accepteert als herbruikbaar voor onderzoek.
#2. Types digitale objecten
Voor de types digitale objecten die we archiveren en publiceren, hanteren we de volgende richtlijnen:
- Voor archeologie accepteren we onderzoeksrapporten. Voor de andere domeinen accepteren we alleen onderzoeksrapporten als deze onderdeel uitmaken van een dataset met onderzoeksgegevens. Hier kunnen uitzonderingen op gemaakt worden in overleg met DANS.
- Metadata-only deponeringen accepteren we alleen in speciale gevallen. DANS stelt daar wel voorwaarden aan, bijvoorbeeld dat de blijvende beschikbaarheid en toegankelijkheid van de data, waar de metadata naar verwijzen, gegarandeerd is. Hiervoor moeten deposanten altijd contact opnemen met DANS.
- Tijdelijke en niet-definitieve bestanden worden niet geaccepteerd.
- Scripts en code kunnen we opnemen als deze onderdeel uitmaken van een dataset en hergebruik bevorderen.
- Synthetische datasets nemen we op.
We accepteren in principe geen:
- Op zichzelf staande reprints van al gepubliceerde artikelen
- Op zichzelf staande presentaties (Powerpoint, Keynote of anderszins)
- Op zichzelf staande flyers
#3. Past de dataset binnen de designated community?
Ieder data station heeft een eigen designated community, disciplinair gedefinieerd. Dit zijn onderzoekers die actief zijn, hetzij (voorheen) verbonden aan een academische instelling, hetzij (voorheen) werkzaam bij een overheidsinstantie of andere organisatie die onderzoek verricht, hetzij als citizen scientist, in één van de volgende domeinen:
- archaeology
- social sciences and humanities
- life sciences
- physical and technical science
#4. Openheid
We archiveren in beginsel alleen datasets die worden gedeponeerd volgens het principe ‘as open as possible as closed as necessary’. Deposanten die willen afwijken van dit principe, bijvoorbeeld doordat hun datasets noch publiekelijk, noch na access request beschikbaar worden gesteld voor download, moeten contact opnemen met DANS.
#5. Repliceerbaarheid
De resultaten van wetenschappelijk onderzoek moeten repliceerbaar zijn (voor zover repliceerbaarheid van toepassing is). Daartoe moet voldoende documentatie met de dataset zijn meegeleverd, en de hele “Research Data Life Cycle” in ogenschouw worden genomen. In de dataset moet ook een verwijzing zijn opgenomen naar de research software die benodigd is voor het repliceren van de onderzoeksresultaten. Zelf geschreven code en algoritmes kunnen worden bijgesloten in de datasets, of worden opgeslagen in door DANS erkende software platforms en repositories en worden gelinkt aan de dataset middels persistent identifiers.
#6. Niveau van onderzoek
DANS accepteert datasets die voortkomen uit wetenschappelijk onderzoek of die herbruikbaar zijn voor wetenschappelijk onderzoek. Data afkomstig van onderzoek uitgevoerd binnen onderwijsprogramma’s archiveren wij in overleg met de begeleider, als er mogelijkheden zijn voor hergebruik. Daarbij verdient het de voorkeur als de begeleider, of een data steward van de afdeling waar de begeleider werkt, de data deponeert.
#7. Relatie van dataset met Nederland:
Er moet of in het onderzoeksconsortium of in het onderzoeksthema een relatie zijn met Nederland. Deze relatie kan in de ruimste zin denkbaar worden opgevat, zoals het onderwerp van onderzoek, de onderzoekers die bij het onderzoek zijn betrokken, de instelling waar het onderzoek is uitgevoerd, of de taal die in het onderzoek een rol speelt.
Als de deposant geen alternatief beschikbaar heeft (bijvoorbeeld als deze werkzaam is in een land dat niet over eigen infrastructuur beschikt voor research data management), proberen we de klant door te verwijzen naar beschikbare alternatieven.
Voor de opslag van datasets van bijzondere wetenschappelijke waarde die dreigen te verwezen of verdwijnen, kan DANS het criterium dat er een relatie is met Nederland opschorten.
#8. Omvang van deponeringen van één deposant
De grens voor gratis deponeren is nu 50 GB per deposant. Bij grotere deponeringen dient met DANS contact te worden opgenomen. Als er een wettelijke plicht is om te deponeren bij DANS, vervalt deze bovengrens.
#9. Ruwe data vs. bewerkte data
We willen datasets ontvangen die als basis kunnen dienen voor vervolgonderzoek. Archiveren bij DANS is gericht op herbruikbaarheid. Daarbij geniet volledigheid in principe de voorkeur. Het kan voorkomen dat er praktische bezwaren zijn tegen het opslaan van de gehele ruwe data (formats, grootte, overzichtelijkheid en aantal van de gedeponeerde bestanden). Bij twijfel zijn de Data Station Managers verantwoordelijk voor de uiteindelijke selectie.
#10. Bestandsformaten
DANS heeft een sterke voorkeur voor datasets met bestanden in de preferred formats. Van deze preferred formats garanderen we de lange-termijn toegankelijkheid. Bij afwijken hiervan onderzoekt DANS of de geleverde formaten alsnog als preferred formats gekenmerkt kunnen worden. Zo niet, dan kijkt DANS bij de curatie of het mogelijk is om conversies van de data in voorkeursformaten aan een nieuwe versie van de dataset toe te voegen, of nemen wij contact met de deposant op om naar alternatieve mogelijkheden voor de data te vragen. Als er geen preferred formats beschikbaar kunnen worden gesteld, worden non-preferred formats geaccepteerd. Hier kan DANS echter geen garanties voor de lange termijn aan verbinden.
#11. Wetenschappelijke integriteit
Datasets die gelinkt blijken te zijn aan niet bestaande auteurs, predatory journals, niet bestaande instituten, of anderzijds in strijd zijn met de integriteitsrichtlijnen van KNAW en NWO, worden geweigerd of verwijderd. Zie voor deze integriteitsrichtlijnen de Nederlandse Gedragscode Wetenschappelijke Integriteit.
#12. Recht tot afwijken
We behouden ons het recht voor om af te wijken van dit collectiebeleid in overleg met de deposant.
#13. Recht tot weigeren
We behouden ons het recht voor datasets te weigeren, de deposant wordt geïnformeerd over de redenen voor weigering. Dit besluit is niet aanvechtbaar.
© DANS. R.6.5 Versie 1.0, 9 december 2024