Prof. Eep Talstra, de grondlegger van de linguïstische tekst database van de Hebreeuwse Bijbel, heeft de laatste jaren veel werk besteed aan het traceren van actoren in verhaallijnen in de bijbel. Dat doet hij met systemen van regels, die hij vervolgens op ‘zijn’ database loslaat. Højgaard heeft die data opgepakt, uitgepakt, opgeschoond en gebruikt om de wetstekst als sociaal netwerk te modelleren: een graaf waar de knooppunten de handelde personen zijn, en de verbindingen staan voor de interacties tussen hen.
Funderend werk van ETCBC en DANS heeft bijgedragen aan de totstandkoming van dit proefschrift. Dat was al eerder het geval bij het werk van Martijn Naaijer en Christiaan Erwich. Hoe deze omgang met tekstdata zich door de jaren heeft ontwikkeld wordt verteld in Coding the Hebrew Bible.
Text-Fabric
De tekst van de Hebreeuwse Bijbel is beschikbaar in Text-Fabric formaat. Hierbij zit de eigenlijke informatie in een structuur waar je al programmerend direct iets mee kunt doen, zonder al te veel pre-processing. Aanvullende data, zoals de actoren van Talstra, kunnen in hetzelfde formaat gezet worden. Vervolgens kan een onderzoeker in Jupyter notebooks de analyseren en visualisaties maken. Højgaard deed dit ook, en leverde zijn resultaten weer op in datzelfde Text-Fabric formaat. Andere onderzoekers kunnen hierdoor deze data weer naadloos gebruiken in hun eigen onderzoek.
Højgaard: “Text-fabric is een uniek onderzoeksgereedschap dat gemakkelijk toegang biedt tot de ETCBC database van de Hebreeuwse Bijbel (en ook andere oude corpora). Een van de belangrijkste voordelen van het gebruik van Text-Fabric is de mogelijkheid om het te combineren met andere Python pakketten voor het verwerken van de gegevens. Het opvragen, organiseren, verwerken en visualiseren van gegevens kan in dezelfde omgeving worden uitgevoerd, bijvoorbeeld met Jupyter notebook. Text-Fabric is daarom een zeer flexibel onderzoeksinstrument voor geavanceerd en transparant onderzoek.”
Ook opmerkelijk in een proefschrift over Bijbels Hebreeuws: de literatuurlijst citeert zowel de dataset als de software, inclusief DOI.
Meer informatie
Lees meer over het proefschrift in het ETCBC blog of lees hier het proefschrift zelf. Neem bij vragen contact op met Dirk Roorda.