Formalisme XML-TEI
XML (eXtended Markup Language) est un format permettant de décrire une structure de donnée normalisée. Il est particulièrement bien adapté à l’édition critique de documents, car il contient à la fois le texte original, les marqueurs délimitant les annotations ainsi que la description complète des annotations.
Ainsi, tout le travail réalisé sur le projet est projeté dans les documents XML. Depuis la création de la ressource originale jusqu’aux annotations finales, toutes les informations sont accessibles depuis le document XML, ce qui en facilite l’échange et l’exploitation.
Le consortium TEI (Text Encoding Initiative) a pour objectif de développer et maintenir un standard de représentation des textes dans leurs formes digitales. Le format est largement utilisé par les chercheurs pour présenter leurs données à la communauté et assurer leur pérennité.
Encodage Unicode / UTF-8
Le corpus Aliento est constitué de textes mêlant alphabets anciens (textes originaux) et modernes (annotations). Plusieurs alphabets et les deux sens de lecture peuvent cohabiter dans le même document.
Il nous fallait donc utiliser un encodage permettant de représenter tous ces caractères dans le même document :
Unicode est le standard informatique utilisé pour la représentation et la manipulation du texte. Dans sa version actuelle, il permet de représenter 136 755 caractères, couvrant 139 alphabets.
UTF-8 est l’implémentation d’Unicode que nous avons utilisé. Il couvre les besoins exprimés par le projet en termes de représentations des différents scripts et de leurs sens de lecture.