Croissant helpt ML-datasets standaardiseren

8 maart 2024

Op 6 maart 2024 kondigde MLCommons (een consortium in kunstmatige intelligentie engineering) de introductie aan van Croissant, een metadata format om machine learning (ML) datasets te helpen standaardiseren. Het doel van Croissant is om datasets gemakkelijk vindbaar en bruikbaar te maken voor verschillende tools en platforms. Dit is zeer relevant voor de European Open Science Cloud (EOSC) taken over FAIR data sustainability en belangrijk voor Linked Data in het algemeen.

Data vormen de kern van elk kunstmatige intelligentie (AI) en ML model. Echter, er is momenteel geen gestandaardiseerde methode voor het organiseren en ordenen van de data en bestanden waaruit elke dataset bestaat. Als gevolg hiervan kan het vinden, begrijpen en gebruiken van ML datasets vervelend en tijdrovend zijn. Een van de doelstellingen van Croissant is om data gemakkelijker toegankelijk en vindbaar te maken. 

De Croissant-standaard is gezamenlijk ontwikkeld door een community uit de industrie en de academische wereld, als onderdeel van MLCommons. Wij hebben bijgedragen aan de ontwikkeling van de Croissant-specificatie met het leveren van waardevolle input voor FAIR-gerelateerde kwesties, herkomstgegevens en verantwoordelijk AI gebruik. Deze release van Croissant bevat documentatie over formats, een open source bibliotheek en een visuele editor, met ondersteuning van onder andere HuggingFace, Google Dataset Search, Kaggle, en OpenML

De vocabulaire van Croissant is een uitbreiding op schema.org, een machineleesbare standaard om gestructureerde data te beschrijven, die wordt gebruikt door meer dan 40 miljoen datasets op het web, waardoor de datasets vindbaar zijn via specifieke datasets zoekmachines zoals Google Dataset Search. Croissant is gemakkelijk te implementeren omdat het niet nodig is om de data zelf te veranderen of de manier waarop ze worden weergegeven. In plaats daarvan voegt Croissant een laag metadata toe die de inhoud van de dataset op een gestandaardiseerde manier weergeeft en de belangrijkste attributen en eigenschappen beschrijft.

Voordelen voor Data Stations en DataverseNL

DANS levert in samenwerking met Harvard Institute for Quantitative Social Science (IQSS) de Croissant ondersteuning voor Dataverse. Deze verrijking wordt gefinancierd door het ODISSEI en SSHOC-NL project en is in de volgende release beschikbaar voor alle partners binnen het Dataverse-netwerk, evenals voor de DANS Data Stations en DataverseNL

We geloven dat deze functionaliteit de interoperabiliteit tussen data geproduceerd door academische en industriële partijen, opgeslagen op verschillende plaatsen, zal verbeteren om naadloos samen te werken. De toevoeging van een semantische laag, afgestemd op FAIR-principes, zal verder bijdragen aan het verbeteren van de kwaliteit van data op de lange termijn. Het zal academische onderzoekers ook toegang geven tot data uit de industrie, waardoor correcte citaties mogelijk worden.

Croissant helpt DANS Data Stations door het catalogiseren, integreren en verbeteren van machine learning, AI en handmatige tools voor dataverrijking. Dit vergroot de mogelijkheden voor onder andere SSH-onderzoekers met verschillende niveaus van technische expertise, om automatische verrijking tools op een FAIR en methodologisch verantwoorde manier te gebruiken.

Croissant is mogelijk gemaakt dankzij de inspanningen van de MLCommons Croissant werkgroep, die bestaat uit medewerkers van deze organisaties: Bayer, cTuning Foundation, DANS, Dotphoton, Google, Harvard, Hugging Face, Kaggle, King’s College London – Open Data Institute, Meta, NASA, NASA IMPACT – UAH, North Carolina State University, Open University of Catalonia – Luxembourg Institute of Science and Technology, Sage Bionetworks, en TU Eindhoven.

Als je meer wilt weten over Croissant, ga dan naar de website van MLCommons of Google Dataset Search.[1]

[1] Benjelloun, O.; Simperl, E.; Marcenac, P.;, Ruyssen, P.; Conforti, C.; Kuchnik, M.; Van der Velde, J.; Oala, L.; Vogler, S.;Akthar, M.; Jain, N.; Tykhonov, V. (2024) Croissant Format Specification. V1.0. https://mlcommons.github.io/croissant/docs/croissant-spec.html Permalink https://web.archive.org/web/20240313155656/https://mlcommons.github.io/croissant/docs/croissant-spec.html





Heb je vragen over dit bericht?

Je naam(Vereist)
Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.

Vyacheslav Tykhonov M.Sc.

Research & Development Engineer