De ontwikkelingen van Croissant Machine Learning

30 januari 2025

Vandaag, op ‘International Croissant Day’, kijken we naar de ontwikkelingen van Croissant ML, een metadata format dat is ontworpen om machine learning (ML) datasets te standaardiseren. Wat is er nieuw en wat voorziet de nabije toekomst? 

Wat is Croissant?   

Op 6 maart 2024 introduceerde MLCommons Croissant, een metadataformaat dat ontworpen is om machine learning (ML) datasets te standaardiseren. Dit initiatief, dat een samenwerking is tussen diverse organisaties en academische instellingen, waaronder DANS, heeft als doel datasets eenvoudiger vindbaar en bruikbaar te maken, wat essentieel is voor onder meer de European Open Science Cloud (EOSC) en Linked Data.   
Croissant bouwt voort op schema.org, een standaard die al door miljoenen datasets wordt gebruikt. Het formaat voegt een extra laag metadata toe die datasets op een gestandaardiseerde manier beschrijft zonder de data zelf te veranderen. Hierdoor kunnen datasets eenvoudig worden gevonden via platforms zoals Google Dataset Search.   
DANS heeft, samen met het Harvard Institute for Quantitative Social Science, ondersteuning voor Croissant geïntegreerd in Dataverse. Deze verbetering, gefinancierd door ODISSEI en SSHOC-NL-projecten, is nu beschikbaar voor alle Dataverse-partners, inclusief de DANS Data Stations en DataverseNL.  

Recente ontwikkelingen   

Sinds de lancering van Croissant zijn er diverse nieuwe ontwikkelingen:   

  • Publicatie van de Croissant-specificatie
    De specificatie bevat een uitgebreide vocabulaire en een open-source Python-bibliotheek om Croissant-metadata te valideren, genereren en consumeren.   
  • Adoptie door datasetrepositories  
    Platformen zoals Kaggle, Hugging Face en OpenML ondersteunen nu het Croissant-formaat, wat de interoperabiliteit en adoptie binnen de ML-gemeenschap vergroot.   
  • Integratie met ML-frameworks
    TensorFlow, PyTorch en andere frameworks ondersteunen nu Croissant via pakketten zoals TensorFlow Datasets (TFDS).   
  • Controlled vocabulary support
    DANS werkt samen met andere partners om de ondersteuning van externe controlled vocabularies in Croissant te verbeteren, waardoor de semi-automatische koppeling van concepten uit bestaande vocabulaires die beschikbaar zijn in de European Open Science Cloud (EOSC) en gepubliceerd zijn op platforms zoals Skosmos, OntoPortal, Getty en anderen mogelijk wordt. Deze bijdrage zal de FAIR-interoperabiliteit voor alle Croissant-datasets vergroten en het datalandschap in zowel de industrie als de academische wereld verbeteren. Het zal Machine Learning frameworks ook in staat stellen om de context beter te begrijpen, waardoor de kwaliteit en effectiviteit van hun output toeneemt. 

Innovatie in Muse-IT: Croissant helpt transcripties begrijpen   

Een van de meest interessante ontwikkelingen is binnen het Muse-IT-project, waar Croissant wordt gebruikt om rommelige videotranscripties te corrigeren en in de juiste context te plaatsen. Deze toepassing laat zien hoe Croissant helpt een zekere mate van “begrip” te bereiken, specifiek rondom mensen, organisaties en locaties die in video’s worden genoemd.   

Tijdens een presentatie voor de consortiumvergadering van het Horizon 2020-gefinancierde MuseIT-project in Londen werden voorbeelden getoond van hoe transcripten automatisch werden gecorrigeerd en opgeslagen in Dataverse.

Toekomst: Stemgestuurd zoeken   

Als volgende stap wordt een stemgestuurde zoekfunctie geïntroduceerd. Hiermee kunnen gebruikers direct vragen stellen, waarna AI relevante fragmenten uit video’s selecteert en afspeelt. Dit betekent een nieuwe dimensie in de interactie met data en maakt video-inhoud toegankelijker dan ooit.     De voortdurende ontwikkeling van Croissant benadrukt hoe standaardisatie een sleutelrol speelt in het bevorderen van AI-innovatie. Door datasets toegankelijker, begrijpelijker en bruikbaarder te maken, opent Croissant de deur naar nieuwe mogelijkheden in onderzoek, educatie en industrie.   

Heb je vragen over dit bericht?

Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.
Je naam(Vereist)