Formalismo XML-TEI
XML (eXtended Markup Language) es un formato que permite describir una estructura de datos normalizada. Se adapta particularmente bien a la edición crítica de textos, ya que contiene el texto original, las etiquetas que delimitan las anotaciones, así como la descripción completa de las anotaciones.
Por lo tanto, todo el trabajo realizado en el proyecto se ha volcado a los documentos XML. Desde su creación hasta las anotaciones finales, todas las informaciones son accesibles desde el documento XML, lo cual facilita el intercambio y la explotación.
El objetivo del consorcio TEI (Text Encoding Initiative) es desarrollar y mantener un estándar de representación de los textos en sus formas digitales. El formato es ampliamente utilizado por los investigadores para presentar sus datos a la comunidad y garantizar su perennidad.
Codificación Unicode / UTF-8
El corpus Aliento viene constituido de textos en los que se mezclan alfabetos antiguos (textos originales) y modernos (anotaciones). Varios alfabetos y dos direcciones de lectura pueden coexistir en el mismo documento.
Por lo tanto teníamos que utilizar una codificación que permitiese representar todos los caracteres en el mismo documento :
Unicode es el estándar informático utilizado para la representación y la manipulación del texto. En su versión actual permite representar 136 755 caracteres y abarca 139 alfabetos.
UTF-8 es una implementación de Unicode que hemos utilizado. Cubre todas las necesidades expresadas por el proyecto en términos de representación de las diferentes escrituras y de su sentido de lectura.