Nieuw in EASY: Hebrew Text Database ETCBC4b

2 december 2015

Onlangs is een dataset gedeponeerd met de onopvallende titel: Hebrew Text Database ETCBC4b.

Het is de opvolger van de dataset met de al even onopvallende titel Hebrew Text Database ETCBC4. Het gaat hier om de Hebreeuwse Bijbel, in de text van de Biblia Hebraica Stuttgartensia, taalkundig geannoteerd door het Eep Talstra Centre for Bible and Computer (ETCBC, VU Amsterdam), en gecureerd in het SHEBANQ-project dat liep van 2013 tot 2014.

Archiveren van tussentijdse versie

Het taalkundig annoteren gaat nog steeds door, er moet nog steeds gecorrigeerd worden. Tegelijk worden de data ook gebruikt in onderzoek, en dat levert een spanningsveld op. Vandaar dat gekozen is om een tussentijdse versie te archiveren. Dan kunnen de gebruikers van de data hun bronnen fatsoenlijk citeren, en kunnen ze hun onderzoek reproduceerbaar maken.

Eerste gebruiker

De eerste gebruiker van deze data is de website https://shebanq.ancient-data.org, waarvan een eenvoudige versie als demonstrator is opgeleverd door eerder genoemd SHEBANQ-project. Daarna is de site doorontwikkeld tot een volwaardige productiesite, gehost door DANS als CLARIN-center, op de infrastructuur van de KNAW. Via SHEBANQ zijn alle gearchiveerde versies van de data toegankelijk.

Op de afgelopen Annual Meeting van de Society for Biblical Literature te Atlanta werd duidelijk dat niet alleen SHEBANQ bekendheid aan het verwerven is, maar ook de onderliggende data. De professoren Joshua Berman (Bijbelwetenschappen, rechts op de foto) en Moshe Koppel (Computationele taalkunde, links op de foto) van de Bar-Ilan universiteit Israel demonstreerden er een bètaversie van Tiberias, een systeem waarmee gebruikers relatief gemakkelijk datamining op het corpus van Bijbelse teksten kunnen uitvoeren, vooral op het gebied van auteursherkenning. Het Tiberias-systeem wordt gevoed met de ETCBC-data, en in diezelfde sessie traden Martijn Naaijer, promovendus aan het ETCBC en Dirk Roorda, onderzoeker bij DANS, op als coreferent om het Tiberias-systeem te evalueren. Kortom, we zien hier een dataset als spil in allerlei soorten wetenschappelijk werk.

Meer informatie

Bekijk de dataset in EASY. Voor meer informatie over de dataset in EASY kunt u contact opnemen met Dirk Roorda.

Heb je vragen over dit bericht?

Je naam(Vereist)
Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.