Een workflow om Arabisch klassieke werken in gedrukte vorm om te zetten naar gestructureerde tekst.
Het FUSUS project werd geïnitieerd door Cornelis van Lit, veni-onderzoeker aan de Universiteit Utrecht, oprichter van de website The Digital Orientalist, en schrijver van het boek Among Digitized Manuscripts. Hij beschrijft het doel van dit project als volgt:
“Medieval Arabic texts, especially those from intellectual history (philosophy, natural theology, theoretical mysticism) are sorely underrepresented in current digital text databases. There are, however, many (critical or not so critical) editions available of these texts. We therefore wanted to advance the use of printed editions to automatically create digital texts. Commentary writing is the practice of taking an earlier text and interspersing it with additional text. A commentary tradition is the standardization of such a practice on a given earlier text. This phenomenon is widely perceived in late medieval and early modern Islamic intellectual history. Ibn Arabi’s Fusus al-hikam is an example of such a source text, on which dozens, perhaps hundreds, of commentaries were written through the centuries. We wish to revive our understanding of this corpus. The base text and fourteen commentaries have been edited and published. Their thousands of pages, millions of words, can quickly blur into each other one by one, as differences between commentaries can be narrowly small. We propose to turn this into a digital corpus, which, we believe, can be achieved within a small timespan and simply with technology currently available.”
Namens DANS heeft Dirk Roorda in nauwe samenwerking met Cornelis van Lit gewerkt aan een OCR pipeline die gedrukte Arabische pagina’s kan omzetten in data met gestructureerde tekst. Er deed zich ook de uitdaging voor om ordelijke tekst uit een idiosyncratische PDF te extraheren. Een overzicht van de problemen onderweg en hun oplossingen staat in een technisch rapport in release 0.5 van het GitHub repository among/fusus, het tussenresultaat van dit project. Hier is niet alleen de code opgeslagen, maar ook de output data, en niet te vergeten uitgebreide documentatie en een verzameling Jupyter notebooks. De bijdrage van DANS is bekostigd uit het Innovation fund for IT in research projects van de Universiteit van Utrecht.
Cornelis gaat door met het onderzoek en het project groeit door in hetzelfde repository, dat ondertussen ook gearchiveerd is in Zenodo en de Software Heritage Archive. De voorlopige resultaten zijn ook naar Text-Fabric geconverteerd. Nieuwe en verbeterde resultaten zullen daarin worden meegenomen. Dat levert een interessante manier op om Fusus in te zetten in het onderzoek en onderwijs van de Digital Humanities.