Preserveringsplan voor EASY
Deze pagina bevat het preserveringsplan van DANS’ EASY. Voor informatie over de procedures voor de Data Stations verwijzen we naar de Data Stations Policy. In het preserveringsplan worden de principes geschetst die ten grondslag liggen aan de activiteiten van DANS ten aanzien van het duurzame behoud en de blijvende toegankelijk van digitale onderzoeksgegevens zodat deze kunnen worden (her)gebruikt binnen haar gebruikersgemeenschap. Vanuit een oogpunt van preservering voldoet het beleid dat op deze principes is gebaseerd in het algemeen aan de beginselen van FAIR en die van het OAIS Reference Model (referenties zijn te vinden in de bijlage), met een aantal aanpassingen die specifiek zijn voor het materiaal dat wordt bewaard in EASY, https://easy.dans.knaw.nl, de basisvoorziening van DANS voor duurzame archivering (hierna “het Archief”). De term “preserveringsplan” is overgenomen uit en in overeenstemming met CoreTrustSeal-voorschrift R10 “Preservation Plan”: “De databewaarplaats neemt de verantwoordelijkheid voor duurzame preservering en beheert deze functie op planmatige en gedocumenteerde wijze.”
De basisprincipes van het preserveringsplan worden beschreven in deel I, hoofdstukken 1-8. Dit geheel is de preserveringsstrategie, het algemene kader waarin het data-archief opereert. Preserveringsbeslissingen aangaande het data-archief worden genomen in het kader van de missie en strategie van het data-archief, waarbij beperkingen ten aanzien van kosten, wetenschappelijke waarde, toegankelijkheid voor gebruikers en wettelijke toelaatbaarheid worden meegewogen.
Het preserveringsplan bevat ook het preserveringsbeleid zoals bedoeld in CoreTrustSeal-voorschrift R9 “Documented storage procedures”. Dit is te vinden in deel II, hoofdstukken 9-11. Het preserveringsbeleid is de tenuitvoerlegging van de principes die zijn geformuleerd in de preserveringsstrategie. In het preserveringsbeleid wordt uitvoerig beschreven hoe het duurzame beheer van data wordt bevorderd en worden ook de taken en verantwoordelijkheden geschetst van iedereen die betrokken is bij het verzamelen en beheren van die data. Ook de preserveringsplanning wordt uitvoerig besproken. Het doel van deze OAIS-functie is erop toe te zien dat de data in het data-archief op de lange termijn toegankelijk, begrijpelijk en voldoende bruikbaar blijven. In hoofdstuk 10, ‘Preserveringsplanning’, wordt aangegeven welke gevolgen dit voor DANS heeft.
DEEL I Preserveringsstrategie
1. Reikwijdte en doelen van dit plan
1.1. Reikwijdte van het plan
De reikwijdte van dit plan beperkt zich tot het Archief: de kerndienst van DANS voor duurzame archivering. Het gaat in op alle aspecten van preservering en is van toepassing op alle materialen die in het Archief worden opgeslagen. Het plan heeft geen betrekking op de preservering van andere materialen, zoals webpagina’s en interne documenten van DANS of het intranet van het Archief. Ook worden er geen andere diensten van DANS in behandeld, zoals DataverseNL of NARCIS.
Het preserveringsplan is opgesteld volgens verschillende externe richtlijnen en standaards voor digitale preservering zoals OAIS, de FAIR-principes, CoreTrustSeal (voorheen Data Seal of Approval), nestorSeal (op basis van DIN 31644) en ISO 16363.
1.2. Doelen van het plan
Het primaire doel van het Archief is de identificatie, het behoud en de beschikbaarstelling voor gebruik van digitale onderzoeksdata die permanente of blijvende waarde hebben. Het Archief is verantwoordelijk voor duurzame preservering en toegankelijkheid van digitale objecten.
De meeste onderzoeksdata zijn het waard om langdurig beschikbaar en toegankelijk te blijven voor nieuw onderzoek. DANS bevordert duurzame toegang tot digitale onderzoeksdata en stimuleert onderzoekers om data op duurzame wijze te archiveren en te hergebruiken.
Data moeten niet alleen voor mogelijk hergebruik beschikbaar blijven, maar ook voor replicatie- en verificatiedoeleinden. De Nederlandse Gedragscode Wetenschapsbeoefening (VSNU, 2014) schrijft voor onbewerkte onderzoeksdata een minimale bewaartermijn van tien jaar voor. DANS beschouwt tien jaar niet als “lange termijn”: haar oudste beschikbare data gaan terug tot 1964. Met andere woorden, ook na de minimale bewaartermijn blijven data toegankelijk in het Archief.
Het Archief heeft ook als taak de authenticiteit en integriteit van de data te waarborgen. In elke strategie voor duurzame preservering van digitale informatie moet rekening worden gehouden met het probleem van de software-afhankelijkheid. Voor de meeste digitale informatie, in het bijzonder voor onderzoeksdata, is het over het algemeen mogelijk een eind te maken aan de software-afhankelijkheid. Aldus is het primaire doel van het preserveringsplan van het Archief om de duurzame toegankelijkheid van elektronische informatie te waarborgen en daarbij toe te zien op het hoogst mogelijke niveau van authenticiteit.
Het preserveringsplan is specifiek bedoeld om:
- authentieke en betrouwbare instanties van datasets aan te bieden aan onderzoekers;
- de integriteit en kwaliteit van de datasets te handhaven;
- erop toe te zien dat digitale resources gedurende hun hele levenscyclus worden beheerd (bijv. wanneer migraties worden uitgevoerd of metadata worden gewijzigd) in het medium dat het meest geschikt is voor de functie die de resources vervullen;
- erop toe te zien dat het relevante niveau van informatiebeveiliging wordt toegepast op elke dataset;
- en daarmee een betrouwbare digitale opslagplaats (“trustworthy digital repository”) in stand te houden.
2. Missie van het Archief. Inhoud en aangewezen doelgroep
2.1.Missie
DANS heeft als missie de bevordering van duurzame toegang tot digitale onderzoeksgegevens. Om het permanente gebruik van deze resources mogelijk te maken, hanteert het Archief een beleid van actieve preservering met als doel toe te zien op de authenticiteit, betrouwbaarheid en logische integriteit van alle resources die aan haar zorg zijn toevertrouwd in formaten die geschikt zijn voor onderzoek op de lange termijn. De aangewezen doelgroep van het Archief bestaat overwegend uit onderzoekers in de geestes- en maatschappijwetenschappen.
In het preserveringsplan zijn de al jarenlang beoefende verantwoorde archiveringspraktijken van het Archief vastgelegd. In 1964 is de eerste dataset gearchiveerd door de Steinmetz Stichting voor Sociale Wetenschappen, een van de voorlopers van het Archief. Een andere voorloper was het Nederlands Historisch Data Archief (NHDA), opgericht in 1989. Bovendien zijn vanaf 2007 formele overeenkomsten in gebruik waarbij archeologen hun data kunnen deponeren in het e-depot voor de Nederlandse archeologie (EDNA), dat nu ook deel uitmaakt van het Archief. In de toekomst zal het Archief zijn werkterrein mogelijk geleidelijk uitbreiden, met name op het gebied van de biowetenschappen.
De opstelling en tweejaarlijkse herziening van een preserveringsplan zijn essentiële stappen voor de realisering van de strategische doelen en verantwoordelijkheden van het Archief: het geeft strategische richting zowel bij het voortzetten van initiatieven die noodzakelijk zijn voor het beheer en de bescherming van de collecties, als bij het naleven van nationaal en internationaal overeengekomen en overeen te komen normen voor digitale duurzaamheid.
2.2. Kenmerken van de inhoud
De inhoud van het Archief bestaat uit digital onderzoeksdata, hoofdzakelijk afkomstig uit de geestes- en maatschappijwetenschappen. Het aantal gepubliceerde datasets is ongeveer 40.000 (eind 2017). Het Archief verwerft ook data uit andere disciplines maar op het ogenblik vormen deze slechts een klein deel van de inhoud. De dataverzameling is zeer heterogeen in termen van datatypen, bestandsformaten, grootte en gebruik. De data zijn voor verschillende doeleinden en middels verschillende processen gegenereerd. Niet alleen de oorspronkelijke data moeten worden bewaard, maar ook de context waarin ze kunnen worden geïnterpreteerd. Deze diversiteit maakt de ontwikkeling van een preserveringsaanpak nog complexer.
De collectie van het Archief bestaat uit de volgende data:
- Data uit de geesteswetenschappen: teksten, spreadsheets, databases, afbeeldingen, transcripties (inclusief tijdgebonden transcripties), audio- en videobestanden en, meer recentelijk, grafische weergaven van kennis (gelinkte data-formaten).
- Data uit de maatschappijwetenschappen: voornamelijk kwantitatieve (statistische) data, vragenlijsten, codeboeken, reacties op tests en bepaalde kwalitatieve datasets waaronder veldaantekeningen, interviews en interviewtranscripties.
- Archeologische data: verslagen, data van opgravingen en proefopgravingen en analyses na afloop, zoals teksten, databases, spreadsheets, GIS-bestanden en afbeeldingen (vector en raster).
- Data uit geospatiale wetenschappen: vector graphics, CAD-tekeningen, GIS-bestanden
- Data uit de biowetenschappen en het gezondheidsonderzoek: afbeeldingen, statistische data, spreadsheets, databases, laboratoriumaantekeningen en teksten.
- Uit meerdere van deze of andere disciplines: Data in Linked Open Data-formaten, modellen, algoritmen, scripts, uitvoerbare bestanden.
Een gedetailleerde lijst van datatypen en dataformaten in het Archief is te vinden onder “Geprefereerde en aanvaardbare dataformaten” (zie bijlage).
2.3. Band met de gemeenschap en speciale services
De aangewezen doelgroep van het Archief bestaat overwegend uit onderzoekers in de geestes- en maatschappijwetenschappen. Het Archief houdt contact met deze gemeenschap door inhoudelijke contacten, bijvoorbeeld tijdens de verwerving en opname van data, in projecten voor toegepast onderzoek, als deelnemer aan Europese onderzoeksinfrastructuren, door pilotstudies met dataproducenten, via training en consultancy en door het aanbieden van vakspecifieke services. In dit gedeelte wordt een selectie van activiteiten en services voor specifieke doelgroepen beschreven, terwijl hoofdstuk 11, “Terugkerende monitorprocessen”, een overzicht geeft van generieke processen voor het bewaken en verbeteren van de kwaliteit van het Archief.
Een Europese infrastructuur voor onderzoeksdata (ERIC), behartigt de belangen van een grote, internationale gemeenschap. DANS neemt deel aan verschillende ERIC’s: CLARIN, CESSDA en DARIAH. DANS is aangewezen als serviceprovider voor Nederland binnen CESSDA, dat de Europese nationale archieven op het gebied van sociale wetenschappen omvat. DANS is verplicht zich te houden aan de CESSDA-voorschriften voor data en metadata. Deze voorschriften worden momenteel uitgewerkt. DANS heeft de (geautomatiseerde) beoordeling van sociaalwetenschappelijke data volgens het relevante schema nog niet geïmplementeerd.
CLARIN geeft toegang tot digitale verzamelingen taaldata in heel Europa en heeft daarvoor een speciaal metadataschema geïntroduceerd, CMDI. Telkens wanneer CMDI-metadata beschikbaar zijn voor een dataset, biedt het data-archief van DANS ze aan voor harvesters van metadata via een extra metadataprovider op basis van het protocol OAI-PMH.
DANS is ook de Nederlandse coördinator van DARIAH, een onderzoeksinfrastructuur voor kunst en geesteswetenschappen.
Samen maken deze infrastructuren het, met hun nationale afdelingen, mogelijk dat DANS in nauw contact blijft met haar doelgroepen, met name wat betreft voorgeschreven data- en metadataformaten.
Archeologen in Nederland zijn verplicht hun data te deponeren in het e-depot voor de Nederlandse archeologie (EDNA), dat is ondergebracht bij DANS. Teneinde het deponeren van data efficiënter te laten verlopen, heeft DANS het sectorale informatieuitwisselingsprotocol SIKB0102 geïmplementeerd. DANS is betrokken geweest bij de ontwikkeling van dit protocol. De metadata die het data-archief van DANS voorschrijft, worden automatisch overgenomen van de “digitale pakbon”. Andere voordelen van naleving van het protocol zijn de uniforme levering van data en de mogelijkheid om de data te koppelen aan andere onderzoeksgegevens, zoals archeologische rapporten.
Dendrochronologie is de wetenschappelijke dateringsmethode op basis van de analyse van jaarringen in bomen. Voor onderzoekers op dit terrein beheert DANS de DCCD-repository (Digital Collaboratory for Cultural Dendrochronology).
De focus van SDN zijn enquêtegegevens zijn ook de focus van Survey Data Netherlands, een meer recent samenwerkingsverband tussen CentERdata en DANS, waarmee gebruikers enquêtegegevens kunnen raadplegen uit verschillende opslagplaatsen, waaronder het data-archief. Dergelijke raadpleeg- en analyseservices boven op het data-archief versterken de verspreidingsfunctie van het data-archief zelf en maken het voor de doelgroep eenvoudiger om te beslissen of en hoe data kunnen worden hergebruikt.
DANS verwacht dat met de toekomstige verbreding van EASY naar andere aangewezen doelgroepen meer specifieke vakgerelateerde (domeinafhankelijke) metadatavelden zullen worden gedefinieerd in EASY, met name in het kader van internationale onderzoeksinfrastructuurprojecten waarbij DANS betrokken is.
Voor een aantal datasets in EASY zijn reviews beschikbaar. Het is de bedoeling een herzien reviewsysteem op basis van de FAIR-principes te introduceren. Citaties naar verwante werken worden in EASY aangeboden als standaardveld in het DIP (Dissemination Information Package). EASY genereert de citatie naar de betrokken dataset automatisch volgens het Datacite-model.
3. Vereisten
3.1.Vereisten van het Archief
Het Archief heeft een reeks vereisten ontwikkeld waarvan het de naleving zo goed mogelijk tracht te waarborgen:
- De data die het Archief verwerft gaan vergezeld van adequate documentatie die hun gebruik en hergebruik voor analyse- en onderzoeksdoeleinden mogelijk maken.
- De datasets worden gecontroleerd en gevalideerd volgens strikte opnameprocedures (zie paragraaf 9.2).
- De data worden professioneel gecatalogiseerd volgens geëigende standaards voor metadata.
- De data, documentatie, metadata en andere representatiegegevens worden gepreserveerd voor de lange termijn.
- De authenticiteit, integriteit en betrouwbaarheid van datasets die worden gepreserveerd voor toekomstig gebruik, worden in stand gehouden.
3.2. Wet- en regelgeving en toezicht
Het kader van wet- en regelgeving voor en toezicht op het beheer van de door het Archief verworven data is als volgt opgebouwd. Als instituut van de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW) is DANS zelf geen rechtspersoon. De KNAW is de rechtspersoon waaronder het Archief functioneert.
Bij de preservering van datasets en het toegankelijk maken daarvan heeft het Archief zich te houden aan:
- de Wet bescherming persoonsgegevens (Wbp), nader uitgewerkt in de “Gedragscode voor gebruik van persoonsgegevens in wetenschappelijk onderzoek” (VSNU, 2005). De wet wordt in 2018 vervangen. De gedragscode wordt wellicht ook in 2018 vervangen, maar mogelijk later;
- de Auteurswet (1912/2004);
- de Databankenwet (1999);
- de “OECD Principles and Guidelines for Access to Research Data from Public Funding” (2007);
- specifieke privacybepalingen voor de verwerking van persoonsgegevens zoals overeengekomen met depositeurs, gebruikers of andere derden.
De relatie tussen de depositeur van een dataset en DANS is gebaseerd op een juridisch bindende depotovereenkomst en -licentie (de Licentieovereenkomst) waarin:
- de rechten en plichten van beide partijen worden vastgesteld;
- wordt bepaald dat DANS er naar beste vermogen op toezien dat de gedeponeerde dataset op duurzame wijze wordt gearchiveerd en leesbaar en toegankelijk blijft;
- wordt bepaald dat DANS het recht heeft het formaat en/of de functionaliteit van de dataset te wijzigen indien dit noodzakelijk is om de digitale duurzaamheid, de digitale distributie en het digitale hergebruik van de dataset mogelijk te maken;
- de voorwaarden worden vastgesteld waaronder toegang mag worden verleend aan derden, zoals gespecificeerd door de depositeur (DANS hanteert als principe: open als het kan, beschermd als het moet);
- de depositeur verklaart alle noodzakelijke toestemmingen te hebben verworven.
Depositeurs wordt verzocht vooraf mogelijke problemen met rechten van derden op (delen van) de datasets op te lossen. DANS is niet aansprakelijk voor de inhoud van de datasets die via EASY beschikbaar worden gesteld, noch voor de bijbehorende documentatie. DANS is evenmin aansprakelijk voor inhoudelijke fouten of onjuiste verwijzingen in de datasets en de daarin opgenomen data.
De relatie tussen de gebruiker van een dataset en het Archief is gebaseerd op juridisch bindende Gebruiksvoorwaarden met betrekking tot:
- het gebruik van de data;
- de speciale beperkingen die gelden voor datasets met persoonlijke gegevens op grond van de Nederlandse wet bescherming persoonsgegevens (Wbp) of de Europese algemene verordening gegevensbescherming (AVG) en bijbehorende uitvoeringswet (UAVG) en andere relevante wetgeving;
- De vereiste bibliografische verwijzing naar de dataset.
- Geen inhoudsaansprakelijkheid voor DANS (disclaimer
4. Taken en verantwoordelijkheden
Alle DANS-medewerkers werken mee aan de uitvoering van het beleid dat wordt beschreven in dit preserveringsplan, zoals passend bij hun taken en verantwoordelijkheden. De directeur is verantwoordelijk voor de handhaving van dit beleid.
Alle medewerkers van DANS, met inbegrip van tijdelijke werknemers, trainees, bezoekende wetenschappers en vrijwilligers, zijn verantwoordelijk voor de instandhouding van de vertrouwelijkheid bij het verwerken van data, in het bijzonder persoonsgegevens, op welke manier dan ook, door ondertekening van de ‘DANS-vertrouwelijkheidsverklaring voor medewerkers’.
5. Inhoudelijke reikwijdte
Het onderzoek binnen de aangewezen doelgroep levert een breed scala van soorten gegevens op, zoals teksten, spreadsheets, databases, afbeeldingen, video, audio en geografische informatie. Het Archief streeft ernaar op al deze datatypen voorbereid te zijn. Voor elke type data bestaan verschillende digitale bestandsformaten.
Alle formaten van digitale bestanden lopen echter het risico in de toekomst onbruikbaar want verouderd te raken. Hedendaagse software zal niet altijd de inhoud van het bestand kunnen weergeven en gebruiken op de wijze die ten tijde van het ontstaan van het bestand bedoeld werd. Bovendien kan software afhankelijk zijn van hardware en bevindt het Archief zich niet in een positie om hardware te preserveren. Enkele voorzorgsmaatregelen kunnen echter wel worden getroffen. Eén zo’n maatregel is het kiezen van bestandsformaten die een goede kans lopen in de verre toekomst bruikbaar te blijven. Daarom heeft het Archief een aantal bestandsformaten beoordeeld, wat heeft geleid tot een lijst van geprefereerde en aanvaardbare formaten.
De geprefereerde formaten zijn de bestandsformaten die volgens het Archief op lange termijn de beste garanties bieden voor bruikbaarheid, toegankelijkheid en duurzaamheid. Datadepositeurs wordt ten sterkste aanbevolen hun data in het geprefereerde formaat voor hun type data aan te bieden. Het Archief staat ook het gebruik van aanvaardbare formaten toe, maar laat aanstaande depositeurs wel weten dat duurzame preservering van deze formaten onzeker is. De lijst van geprefereerde en aanvaardbare formaten verandert in de loop van de tijd doordat nieuwe formaten worden ontwikkeld en andere in onbruik raken.
De databestanden die het Archief wil verwerven, preserveren en beschikbaar stellen zijn van statische aard, d.w.z. dat ze niet langer ‘onderhanden werk’ vormen. Wanneer data worden gewijzigd of uitgebreid, worden de resulterende updates als nieuwe datasets beschouwd.
Tot nu toe verwerft of preserveert het Archief niet de softwareprogramma’s die zijn gebruikt om onderzoeksdata te genereren, al worden onderzoeker wel aangemoedigd om in samenhang met de data ook documentatie van de toegepaste software te deponeren (zoals het merk, de versie en de gebruikte configuratieparameters).
6. Te preserveren kenmerken
De bovenstaande lijst laat zien dat één datatype, bijvoorbeeld een GIS-bestand, kan worden gebruikt in meerdere academische disciplines. De significante kenmerken van een datatype kunnen echter per discipline verschillen. Dit betekent dat voor elk datatype het beoogde gebruik (‘intended use’) door de aangewezen doelgroep moet worden vastgesteld om te kunnen definiëren wat er moet worden gepreserveerd. Onlangs is het Archief begonnen aan een meer expliciete beschrijving van alle significante kenmerken van datatypen.
7. Integriteit en beveiliging
De complete keten van zorg die het Archief aan alle datasets besteed, wordt vastgelegd door middel van metadata. Alle acties zijn expliciet, volledig, correct en up-to-date. Alleen van de ‘originele’ versie kan echter worden gezegd dat deze een integrale kopie van de bij het Archief gedeponeerde versie is. De gepreserveerde en verspreide versies worden als authentiek beschouwd. Ze bevatten herkomstinformatie over alle wijzigingen die terugverwijst naar de originele gedeponeerde versie.
Het Archief verplicht zich alle nodige voorzorgsmaatregelen te treffen om de fysieke veiligheid en beveiliging te waarborgen van de data die het preserveert. Daartoe behoren een periodieke scan op technologische kwetsbaarheden, de Service Level Agreement (SLA) met de aanbieder van dataopslag, een procedure voor controle van de bestandsstabiliteit, de vertrouwelijkheidsverklaring voor medewerkers en een periodieke veiligheidsinventarisatie door de KNAW.
10. Duurzaamheidsplannen en financiering
Voor de vervulling van zijn missie ontvangt het Archief structurele lumpsumfinanciering van zowel de KNAW als de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO). In de ‘Samenwerkingsovereenkomst inzake DANS’ van NWO en KNAW is uitdrukkelijk bepaald dat NWO en KNAW in geval van discontinuering van DANS de verantwoordelijkheid voor de bij DANS gearchiveerde databestanden overnemen en ze “op een zo verantwoord mogelijke wijze en onder gelijkwaardige voorwaarden” (artikel 10.6 van de Samenwerkingsovereenkomst 2015 (.pdf)) elders onderbrengen.
Ook institutionele depositeurs vormen, anders dan individuele onderzoekers, een bron van financiering, evenals deelname in nationale en internationale data-infrastructuren en onderzoeks- en ontwikkelingsprojecten. Dat alles komt voort uit de doelstellingen die in het strategiebeleid van DANS zijn geformuleerd.
DEEL II Preserveringsbeleid
11. Implementatie van de preserveringsstrategie
De volgende hoofdstukken zijn opgebouwd rond de belangrijkste functionele concepten van het referentiemodel voor digitale preserveringsomgevingen OAIS (Open Archival Information System) en de FAIR-principes. Preserveringsbeslissingen worden bij het Archief genomen in het kader van de missie en strategie van het Archief, waarbij beperkingen ten aanzien van kosten, wetenschappelijke waarde, toegankelijkheid voor gebruikers en wettelijke toelaatbaarheid worden meegewogen. De processen van het Archief zijn geordend volgens dit model.
Figuur 1. Het OAIS-model
11.1. Voorbereiding op de opname
Officieel is de voorbereiding op de opname van data geen onderdeel van het OAIS-model. Het Archief weet echter uit ervaring dat voorbereidende services kunnen bijdragen aan de bruikbaarheid en toegankelijkheid van datasets dankzij betere metadata en documentatie.
Hierdoor worden ook de kosten in de opnamefase verlaagd.
In het bijzonder verstrekt het Archief datarichtlijnen, trainingen en adviezen aan groepen en individuele onderzoekers over zaken zoals dataformaten, databeheerplannen en juridische aspecten.
11.2. Opname
De opname of ‘ingest’ (het OAIS-model is beschreven in het Engels) is de eerste functionele component van het OAIS-referentiemodel. Deze omvat de ontvangst van informatie van een producent en de bevestiging dat de verstrekte informatie volledig is. Tijdens dit proces worden ook de specifieke kenmerken van de te preserveren informatie geïdentificeerd: er wordt geverifieerd dat de informatie is wat het geacht wordt te zijn. Het Archief werkt in principe als zelfbedieningssysteem: de dataproducent zelf is verantwoordelijk voor de documentatie en deponering van zijn of haar data.
De medewerkers van het Archief voeren kwaliteitscontroles uit aan de hand van een dataverwerkingsprotocol om te waarborgen dat de aangeleverde data op de lange termijn vindbaar, toegankelijk en begrijpelijk blijven.
De door de dataproducent aangeleverde versie staat binnen het Archief bekend als de ‘originele’ versie die wordt verduurzaamd in het originele formaat en opgeslagen in de juiste map van het preserveringssysteem. Deze aangeleverde versie vertoont een nauwe overeenkomst met de Submission Information Package (SIP) in OAIS-termen.
Daarnaast kan een archivaris tijdens de archiefprocedure bestanden converteren naar geprefereerde formaten om langdurig behoud en toegankelijkheid te garanderen.
Alleen de goedgekeurde/beheerde data en metadata worden gepubliceerd. Als de data en metadata moesten worden geconverteerd, worden de originele data bewaard maar niet gepubliceerd. Als bestanden zijn gemigreerd, worden de gemigreerde bestanden gepubliceerd met de te gebruiken dataset. De depositeur wordt van deze wijzigingen op de hoogte gebracht wanneer de dataset wordt gepubliceerd. Een archivaris kan kleine wijzigingen aanbrengen in de metadata of de mappenstructuur. Grotere vraagstukken worden overlegd met de depositeur.
Na indiening van de originele versie ontvangt de depositeur bericht dat het materiaal is overgedragen aan de zorg van het Archief. Wanneer de medewerkers van het Archief de dataset vervolgens hebben verwerkt en deze is geaccepteerd door het Archief, wordt de dataset gepubliceerd en de Licentieovereenkomst aan de depositeur gezonden samen met de unieke persistent identifier die door het systeem van het Archief is gegenereerd.
De versie die de uitkomst van het ‘ingest’-proces is, is een Archival Information Package (AIP). Alle acties in verband met de preservering van de data worden gedocumenteerd in het DANS-herkomstdocument.
In toenemende mate worden datasets vrijwel volledig geautomatiseerd opgenomen via ftp, SWORD of anderszins. Dit geldt met name voor datasets die worden opgenomen op basis van een collectief contract met een dataleverancier.
11.3. Archiefopslag
In wezen is de archiefopslagfunctie bedoeld om erop toe te zien dat wat binnenkomt vanuit de opnamefunctie identiek en toegankelijk blijft. In het Archief ontvangt deze functie de AIP’s van de opnamefunctie en voegt ze toe aan de permanente opslagvoorziening, houdt toezicht op het beheer van deze opslag, inclusief vernieuwing en monitoring van media. Deze functie moet er tevens op toezien dat AIP’s kunnen worden teruggehaald.
Het dataopslagbeheer is extern uitbesteed. Het Archief heeft een Service Level Agreement (SLA) met de aanbieder van het dataopslagbeheer, waarin een geheimhoudingsverklaring is opgenomen.
11.4. Databeheer
Databeheer of ‘datamanagement’ is de derde voorname functie in het OAIS-referentiemodel. Zij houdt databases van beschrijvende metadata bij, ondersteunt externe zoekmogelijkheden en beheert administratieve metadata ter ondersteuning van interne operaties, waaronder wijzigingsbeheer.
De waarborg dat elke wijziging in de gepreserveerde versie van alle onderdelen van een dataset correct wordt gedocumenteerd, is van integraal belang voor de authenticiteit van elke dataset. Het Archief maakt onderscheidt tussen twee vormen van wijziging na opname:
- Nieuwe versie en daarom een nieuwe dataset: bij een wijziging in de data.
- Kleine wijziging: bij een wijziging in metadata, beschrijvende documenten of aanvullende bestanden.
Een nieuwe versie wordt gedeponeerd als nieuwe dataset en ontvangt daarom een eigen persistent identifier. De nieuwe en de voorgaande dataset bevatten kruisverwijzingen naar elkaar in hun respectieve beschrijvende metadata. Wanneer er sprake is van een kleine wijziging, wordt deze gedocumenteerd in de administratieve metadata en wordt er geen nieuwe persistent identifier gegenereerd.
In geval van dataconversie naar een ander bestandsformaat voor preserverings- of toegankelijkheidsdoeleinden, houdt het Archief de originele bestanden in stand. De conversie is bedoeld om de inhoud van de data te preserveren, omdat de inhoud wordt beschouwd als het belangrijkste kenmerk van de data. Verduurzaming van andere aspecten, zoals de lay-out van het invoerformaat (de ‘look & feel’), wordt voor de meeste onderzoeksdata van minder belang geacht.
Verwijdering van data zou na publicatie een extreem geval van dataverandering zijn. In principe verwijdert het Archief echter geen gepubliceerde data, tenzij daarvoor voldoende gewichtige gronden bestaan.
11.5. Toegang
De OAIS-toegangsfunctie (‘access’) behelst de services en functies die de archiefcollectie en gerelateerde diensten zichtbaar voor consumenten. Eindgebruikers hebben contact met het Archief om datasets te zoeken, aan te vragen en in ontvangst te nemen. Standaard zijn deze processen op het web gebaseerd, met ondersteuning van de medewerkers van het Archief.
Naast de processen die deze drie activiteiten (d.w.z. datasets zoeken, aanvragen en ontvangen) ondersteunen, geeft de toegangsfunctie ook uitvoering aan de beveiliging in verband met de toegang.
Ter versterking van de vindbaarheid worden metadata waar nodig gecontroleerd en aangevuld. Ook samenwerkingsverbanden op het gebied van metadata versterken de vindbaarheid van de archiefinhoud. De kaartfunctionaliteit maakt dat gebruikers datasets op een kaart kunnen lokaliseren via hun coördinaten.
11.6. Administratie
In het OAIS-model beheert de administratiefunctie de dagelijkse bedrijfsvoering van het Archief. Processen die hieronder vallen, hebben bijvoorbeeld betrekking op onderhandelingen over licentieovereenkomsten en gebruiksvoorwaarden en op system engineering-functies voor de bewaking van de werking van het Archief (zie paragraaf 9.3).
12. Preserveringsplanning
Verschillende services en processen in de organisatie van het Archief hebben betrekking op wat in het OAIS-referentiemodel bekendstaat als ‘Preservation Planning’.
Figuur 2. Functies van de functionele eenheid Preservation Planning in het OAIS-model (Reference Model for an Open Archival Information System (OAIS), Recommended Practice, CCSDS 650.0-M-2 (Magenta Book) Issue 2, June 2012. Afbeelding overgenomen van pag. 4-14).
12.1. Preserveringsprincipes: FAIR
DANS houdt zich bij haar activiteiten aan de ‘FAIR Guiding Principles’om data in het Archief Findable,Accessible, Interoperable en Reusable (vindbaar, toegankelijk, interoperabel en herbruikbaar) te maken.Hierna wordt per principe beschreven hoe de data daaraan voldoen.
Findable
- Elke in het Archief gedeponeerde dataset krijgt automatische een Digital Object Identifier (DOI) en een URN:NBN identifier toegewezen om de vindbaarheid en duurzame verwijzingen mogelijk te maken.
- De metadata van het Archief, een extensie van de Dublin Core Terms (dcterms), zijn zeer veelzijdig wat betreft machineleesbaarheid. Ze kunnen via de user interface worden geëxporteerd naar de formaten XML en CSV, waardoor ze voor zowel mensen als computers terug te vinden zijn.
- Verder kunnen het geel of een selectie van de metadatarecords in EASY worden geharvest via OAI-PMH, de service die datasets ook beter zichtbaar maakt voor aanbieders van zoekfuncties.
Accessible
- Metadata in EASY (gedefinieerd als: de inhoud van alle velden die in EASY bij de dataset worden weergegeven op het tabblad ‘Description’) zijn vrij van auteurs- of databankrechten en altijd open toegankelijk – er is nooit authenticatie of autorisatie vereist – hetzij via de user interface, hetzij door gebruikmaking van het open en universele OAI-PMH-protocol.
- Voordat ze toegang hebben tot datasets in EASY, moeten nieuwe gebruikers eerst een user account maken door zich te registreren (authenticatie). Open data zijn gewoonlijk direct toegankelijk na inloggen bij het systeem, terwijl gebruikers voor beperkt toegankelijke (‘restricted’) data toestemming nodig hebben van de depositeur van de data (autorisatie). Authenticatie door registratie is niet verplicht voor het downloaden of gebruiken van data in toegangscategorie ‘Open Access (CC0 Waiver)’.
Interoperable
- De EASY-metadata zijn ingedeeld volgens de Dublin Core Terms – een formele, toegankelijke, gedeelde en breed toepasbare taal voor kennisrepresentatie. Om aan de wensen en behoeften van andere partners te voldoen, maakt DANS de EASY-metadata ook compatibel met andere metadataschema’s zoals DataCite, DIDL, Carare en ACDM.
- De interoperabiliteit wordt nog verder vergroot door voor de metadata in EASY gebruik te maken van de volgende vocabularies:
– De thesaurus van het Archeologisch Basis Register (ABR)
– De NARCIS-classificatie
– Contributor Information (Datacite 4)
– ISO 639 (taal)
– W3CDTF of ISO 8601 (datum) - Om relaties met andere resources van ieder type aan te geven en de data meer waarde te verlenen, wordt voor de metadata in EASY het Dublin Core Element Relationgebruikt. Alle kenmerken van DC-termen die relaties met andere bronnen kunnen aanduiden, zijn mogelijk (bijv. IsVersionOf, HasVersion, IsReplacedBy, Replaces, IsRequiredBy, Requires, IsPartOf, HasPart, IsReferencedBy, References, IsFormatOf, HasFormat).
Reusable
- Depositeurs wordt verzocht hun data zo gedetailleerd mogelijk te beschrijven. De EASY-metadata bevatten 17 Dublin Core Elements. Zes daarvan zijn verplicht: Title, Creator, Description, Date (created), Rights, Audience (resp. titel, maker, beschrijving, aanmaakdatum, rechten, doelgroep). De verplichte elementen leveren een uitvoerige beschrijving op van waar de data vandaan komen, waarop de data betrekking hebben, door wie en wanneer ze zijn gemaakt, hoe ze zijn gemaakt en voor welke doeleinden.
- Met het oog op correct hergebruik worden data in EASY altijd gepubliceerd met heldere gebruiksvoorwaarden.
- DANS erkent de noodzaak om belemmeringen zoveel mogelijk weg te nemen en hergebruik van data door verschillende doelgroepen te bevorderen. Daarom heeft zij enige mate van interoperabiliteit tussen verschillende standaarden voor metadata geïmplementeerd in haar eigen OAI-PMH service. DANS gebruikt indien nodig zowel domeinspecifieke als domeinneutrale metadatastandaards.
- Is een dataset eenmaal gepubliceerd, dan kan uitsluitend DANS nog wijzigingen aanbrengen. Zo bewaakt zij de authenticiteit.
- Ook de stabiliteit van bestanden wordt gecontroleerd om te verifiëren dat er geen data zijn veranderd of beschadigd zijn geraakt.
13. Terugkerende monitorprocessen
De volgende tabel geeft een overzicht van de processen in de organisatie van het Archief die bijdragen aan de preserveringsplanning doordat zij de doelgroepen, de technologie, juridische en strategische ontwikkelingen of risico’s bewaken.
Nr. | Proces | Frequentie | Verantwoordelijke |
1 |
De aangewezen doelgroepen van het Archief monitoren op ontwikkelingen die gevolgen kunnen hebben voor het Archief, zoals – gevraagde – veranderingen in de technologieën of bestandsformaten die worden gebruikt. Dit proces vindt plaats tijdens uitvoerige, vaak spontane contacten met de doelgroepen, bijvoorbeeld bij de verwerving van data, in projecten voor toegepast onderzoek, als lid van Europese onderzoeksinfrastructuren, in pilotprojecten met dataproducenten en tijdens trainings- en adviesactiviteiten. Verder levert de afdeling Research & Innovatie (R&I) bijdragen aan deze monitoractiviteit, zowel aanbodgestuurd (van R&I naar Archief) als vraaggestuurd (van Archief naar R&I). |
Dagelijks | Coördinator Archief + Coördinator Research & Innovatie |
2 |
Controleren of alle geprefereerde bestandsformaten van het Archief nog steeds de voorkeur verdienen en of de lijst nog altijd volledig is (gezien de missie en reikwijdte van het Archief). Zo niet:
|
Regelmatig | Hoofd Preservering + interne werkgroep Preferred Formats |
3 | De mogelijke impact voor het Archief in kaart brengen van (verwachte) wijzigingen in wet- en regelgeving, met inbegrip van gedragscodes, ook ten aanzien van persoonsgegevens. | Permanent | Juridisch adviseur |
5 |
De systemen van het Archief monitoren. Deze monitoring wordt uitgevoerd door de ICT-ondersteuning van DANS en door de externe aanbieders van diensten en opslagruimte. Wanneer een storing of defect wordt opgemerkt, wordt de bijbehorende herstelactie uitgevoerd. |
Permanent | Coördinator IT Support |
6 | Mogelijke externe gevaren voor het IT-netwerk monitoren. | Permanent, en jaarlijkse update van beveiligingsbeleid op initiatief KNAW/I&A | Hoofd Beveiliging |
7 | Dit preserveringsplan herzien: is het nog up-to-date of is er aanleiding om het aan te passen? Heeft herziening onbedoelde consequenties om rekening mee te houden? | Tweejaarlijks | Coördinator Archief |
8 | Aanpassen van de meerjarenstrategie van DANS, onder meer ten aanzien van de services (archiefdiensten en anderszins), strategische doelen en aangewezen doelgroepen. | Elke vier à vijf jaar | Directeur DANS |
Bijlage: Referenties
Alle url’s gecontroleerd in mei 2018.
Beleids- en strategiedocumenten van DANS
Overige referenties
- CoreTrustSeal
- DIN 31644 – Informatie en documentatie – Criteria voor betrouwbare digitale archieven
- ISO 16363:2012 – Overdrachtssystemen voor ruimtelijke data en informatie – Audit en certificatie van betrouwbare digitale repositories
- Reference Model for an Open Archival Information System (OAIS) (.pdf), Recommended Practice, CCSDS 650.0-M-2 (Magenta Book) Issue 2, June 2012.
- VSNU – Nederlandse Gedragscode Wetenschapsbeoefening (.pdf)
- FAIR Guiding Principles:
- Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/sdata.2016.18 (2016)
- OAI-PMH service
- Metadata-schema’s
- NARCIS-classificatie
- Steinmetzarchief: Het_Steinmetzarchief_geboren_uit_een_hausse_aan_veldonderzoek