CLARIAH Tech & Data Dag: FAIR data in de Nederlandse geesteswetenschappen

12 oktober 2023

Op 28 september was de tweede CLARIAH Tech & Data Day te gast bij DANS, met een focus op FAIR databeheer in de geesteswetenschappen. Hier volgt een verslag van de dag.

De CLARIAH gemeenschap houdt zich bezig met het bouwen van digitale infrastructuur voor geesteswetenschappelijk onderzoek in Nederland. Het doel van de Tech & Data Day is wetenschappers, onderzoeksondersteuning en software engineers bij elkaar te brengen, zodat ze van elkaar kunnen leren en de digitale voorzieningen voor de geesteswetenschappen verbeteren. De focus lag op databeheer in de geesteswetenschappen: hoe data te vinden en hergebruiken, en wat daarvoor nog nodig is op het gebied van technologie en beleid.

Jetze Touber (DANS), Data Station Manager Humanities en moderator van de dag, liet het publiek kennismaken met het DANS Data Station Social Sciences and Humanities (SSH). Het Data Station is gelanceerd in juni 2023 en wordt nog steeds op verschillende punten aangevuld en verbeterd. De metadata van Social Sciences and Humanities zijn bijvoorbeeld nog steeds gericht op de Sociale Wetenschappen, met de nadruk op surveyonderzoek. De aanwezigen werd gevraagd om een aantal taken uit te voeren in het Data Station SSH, zoals het zoeken naar data en het deponeren van een voorbeeld dataset. Hieruit ontstond discussie over de prioritering van zoekresultaten, de precieze betekenis van bepaalde metadata-elementen, documentatie van temporele en ruimtelijke aspecten, en vocabulaires. Dit leverde heel nuttige input voor verdere doorontwikkeling van zoekfunctionaliteiten en metadata-elementen in het Data Station, waar DANS in 2024 aan gaat werken.

Data koppelen

Presentaties van de Heritage Data onderzoeksprojecten, gefinancierd door CLARIAH, legden uit hoe datasets afkomstig van culturele erfgoedinstellingen worden gecureerd zodat ze compatibel worden met de CLARIAH infrastructuur. Leon van Wissen (UvA) vertelde over het FAIR Photos project, dat gaat over de collectie van een fotopersbureau. De bestaande, uitgebreide beschrijvingen van de duizenden foto’s in deze collectie worden gestructureerd en omgezet in linked data, waardoor mogelijkheden ontstaan om de collectie te bevragen, te linken met andere bronnen en er computationeel onderzoek op uit te voeren. Ruben Peeters (UAntwerpen) presenteerde vervolgens het project Tracing Wealth, dat zich bezighoudt met de fiscale registers van successierechten, te betalen door Nederlandse burgers die overleden in het jaar 1921. De centrale taak in dit project is om de erflaters die genoemd worden in de belastingregisters te koppelen aan individuen die voorkomen de gemeentelijke archieven, waardoor mogelijkheden ontstaan voor onderzoek naar geografische en intergenerationele verdeling van rijkdom.

Data routes en knooppunten

Discussies verschoven vervolgens naar meer abstracte perspectieven op FAIRness. Menzo Windhouwer (KNAW-Humanities Cluster) informeerde het publiek over de technische workflow die CLARIAH ontwikkelt om data naar haar infrastructuur te leiden, zodat ze vindbaar en toegankelijk worden voor geesteswetenschappers. Er zijn met name verschillende bronnen waar relevante data vandaan kunnen komen, die verschillende technische voorzieningen vereisen om de metadata naar een centrale plaats te leiden, de CLARIAH Data Registry. De workflow onderscheidt tussen verschillende routes met verschillende metadatastandaarden en verschillende communicatieprotocollen. Angelica Maineri (ODISSEI / EUR) nam het toen over en begon een discussie over de organisatorische kenmerken van de implementatie van FAIR-datamanagement in de geesteswetenschappen en de sociale wetenschappen. Ze merkte op dat er een veelheid aan belanghebbenden betrokken is bij het genereren en publiceren van onderzoeksdata, wat vraagt om een zorgvuldig onderscheid tussen wie verantwoordelijk is voor welk aspect van FAIR-databeheer. Het daaropvolgende debat concentreerde zich op hoe een onderzoeksgemeenschap kan worden gedefinieerd, en waar de knooppunten kunnen worden aangetroffen waar datastromen samenkomen.

Chatten met data

Tot slot gaf Slava Tykhonov (DANS) het publiek een voorproefje van toekomstige ontwikkelingen. Hij presenteerde zijn experimenten met het verbinden van Large Language Models met de kennisgrafiek die is gebaseerd op de metadata records van datasets, gedeponeerd in Dataverse repositories. Op deze manier zou een eindgebruiker de mogelijkheid hebben om te ‘chatten’ met een data repository, en zo datasets te bevragen en mogelijk te combineren, in alledaagse taal. Tegelijkertijd voorziet dit de Large Language Models van gevalideerde kennis en herkomstinformatie, waardoor eindgebruikers beter de waarde kunnen inschatten van de antwoorden die ze krijgen wanneer ze communiceren met de chatbots die op Large Language Models zijn gebouwd.

Voor meer informatie kunt u contact opnemen met Jetze Touber.

Social Sciences & Humanities

FAIR & Open dataRDMSamenwerkingenTools