De synergie tussen GitHub, Python en DataverseNL

19 april 2024

Het ASReview project maakt gebruik van state-of-the-art actieve leertechnieken om een van de meest interessante uitdagingen bij het systematisch screenen van grote hoeveelheden tekst op te lossen: er is niet genoeg tijd om alles te lezen!

Als spin-off van het ASReview-project is de SYNERGY dataset (De Bruin et al. 2023) te downloaden via een Python-package op DataverseNL. Deze volledig open dataset bevat informatie over 26 systematische reviews, waarvan details te vinden zijn op GitHub.

Door de vele beschikbare variabelen per record (zoals titels, abstracts, auteurs, referenties, en onderwerpen) is deze dataset nuttig voor onderzoekers op gebieden zoals NLP, machine learning, netwerkanalyse en meer. In totaal bevat de dataset 82.668.134 trainbare datapunten. Dat deze dataset nuttig is, blijkt ook uit het aantal downloads, dat tot nu toe meer dan 750.000 bedraagt (op 16 april 2024).

De SYNERGY-dataset is beschikbaar via DataverseNL, een datarepository die gezamenlijk wordt aangeboden door DANS en deelnemende instellingen. DANS beheert de technische infrastructuur, terwijl de instellingen die DataverseNL gebruiken verantwoordelijk zijn voor het beheer en de curatie van de gedeponeerde onderzoeksdata binnen de repository.

Heb je vragen over de SYNERGY-dataset of wil je jouw data toevoegen? Ga naar deze pagina
Meer informatie over DataverseNL vind je hier.



Heb je vragen over dit bericht?

Je naam(Vereist)
Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.

Drs. Marion Wittenberg

Service Manager DataverseNL