Standardized General Markup Language (SGML) en Extensible Markup Language (XML) zijn opmaaktalen die gebruikt worden voor tekstdocumenten en datasets, zowel voor presentatie aan mensen als om uitwisseling van data tussen computers mogelijk te maken.
- XML is een vorm van SGML: alle XML-bestanden zijn SGML-bestanden. Doordat XML veel strikter is wat betreft syntax, is het gemakkelijker te valideren.
- HTML (HyperText Markup Language) is een andere vorm van SGML die vooral bedoeld is voor presentatie van tekst met opmaak (en layout) en hyperlinks naar andere documenten.
- Naast “gewone” HTML bestaat ook XHTML. Dat is HTML volgens de striktere regels van XML.
SGML en XML worden niet of nauwelijks verder ontwikkeld. Van HTML is kort geleden de nieuwste versie 5 officieel tot W3C-standaard gemaakt. Omdat webtechnologie zich blijft ontwikkelen, is de verwachting dat HTML ook verder ontwikkeld blijft worden.
XML, HTML en SGML zijn veel gebruikte en ook geschikte formaten voor opmaaktaal, maar er moet wel goed op worden gelet dat de bestandsformaten valide en compleet zijn (zie paragraaf hieronder). Daarnaast kunnen op XML of SGML gebaseerde formaten voorkomen die enkel door specifieke software kunnen worden gelezen. Dergelijke bestanden kunnen niet zonder meer worden geaccepteerd zonder verdere controle; neem hiervoor contact op met DANS.
Validiteit
Valide Markup Language documenten zijn ‘well-formed’ én voldoen aan de regels die voor de bestandsformaten gelden.
Well-formed documenten vereisen dat de inhoud op een bepaalde wijze is gedefinieerd. Well-formed XML voldoet aan syntaxregels die onder meer stellen dat de gebruikte tekenset ook de aangegeven tekenset is; er geen verboden tekens in het bestand worden gebruikt; er sprake is van één ‘root-tag’ en elke ‘<tag>’ correct wordt afgesloten met een ‘</tag>’.
De regels voor de inhoud van een Markup-document staan beschreven in een DTD (Document Type Definition) of (XML) Schema bestand. Bovenaan XML- en HTML-documenten staat een verwijzing naar een het gebruikte DTD of schema. Deze verwijzing dient ook echt naar dit schema-bestand te leiden. Het liefst wordt dit schema meegeleverd, tenzij het bij een betrouwbare publieke dienstverlener staat.
Als gebruik wordt gemaakt van een Schema of DTD dat geen standaard is, moet de deponering van de data eerst nader besproken worden met DANS.
Middels schema’s en DTD’s kunnen hele nieuwe ‘bestandsformaten’ worden gedefinieerd, zoals SVG (Scalable Vector Graphics, voor vectorafbeeldingen), TEI (Text Encoding Initiative, gebruikt om tekst op te maken en te annoteren) en MathML (voor wiskundige formules).
Het World Wide Web Consortium (W3C) beheert de specificaties voor HTML en XML, en biedt een ‘Markup Validator’ die zowel XHTML als HTML kan valideren. Bovendien kan de validator enkele andere formaten valideren, zoals SMIL en MathML.
Compleetheid
Alle bestanden die bij een XML/HTML/SGML- bestand horen, moeten worden meegeleverd. Veelvoorkomende, direct aan opmaaktaal gerelateerde bestanden zijn XLST stylesheets, CSS- definitiebestanden en JS/ES scripttalen, zie ‘gerelateerde bestanden’ hieronder.
Preferred formats
- XML (.xml)
- HTML (.html)
- gerelateerde bestanden: .css, .xslt, .js, .es