Anotación de la forma consta de 7 etapas, la lematización, la estructura lingüística, la estructura-tipo, la estructura formal, la estructura poética, el discurso, las figuras de discurso. Se ha requerido la ayuda de los lingüistas de las diferentes lenguas anotadas para establecer reglas comunes. Los anotadores pueden a cada momento explicar y justificar cada una de sus anotaciones en una nota.
La lematización reduce las formas conjugadas o declinadas a su forma mínima; en el caso de las lenguas neo-latinas a la entrada del diccionario: verbo en infnitivo, adjetivo en su forma masculina singular. Permite eliminar las variaciones debidas a la morfología o a la grafía. Se hace a partir del léxico del ESB y se moderniza su forma o su ortografía. Los elementos léxicos propios del léxico de la Edad media se conservan y se lematizan de acuerdo con los usos modernos. En cuanto a las lenguas semíticas no se reduce a la raíz, se conservan las categorías (nombre, verbo, adjetivo…), los verbos están en la 3a persona del masculino singular / pasado. El número de items lematizados debe corresponder exactamente con el número de elementos del enunciado, los artículos, pronombres, preposiciones acopladas a los términos se lematizan independientemente y se unen mediante un guión. En cuanto al árabe las raíces se indican en una nota.
Exemple : lavóse > lavar-se ; agora > ahora; tuelle > toller
(para más información pichar en el enlace https://apps.atilf.fr/aliento/img/documentationES.pdf)
La estructura lingüística también debe ajustarse a la lematización y al enunciado del ESB y tener para ello el mismo número de items en el mismo orden, enlazados si procede con guión. Las categorías anotadas son básicas y las etiquetas seleccionadas provienen de la lista del Leipzig Glossing Rules (enlace hipertexto: https://www.eva.mpg.de/lingua/pdf/Glossing-Rules.pdf, p. 8-10). Hemos privilegiado las etiquetas globalizadoras (en vez de artículo, demostrativo, posesivo) como DET (determinante). Los verbos indican principalmente la persona. Las precisiones se indican añadiendo un punto, un espacio separa dos unidades, las unidades compuestas se marcan mediante un guión.
(para más información pinchar en el enlace https://apps.atilf.fr/aliento/img/documentationES.pdf, p. 18-25)
La estructura-tipo o molde (pattern), permite extraer los modelos de formalización sentenciosa y refranesca. Se utiliza el esquema léxico modelo y se moderniza si procede; los sintagmas verbales que cambian se representan mediante Y acompañada de un número; los sintagmas nominales vienen representados por X acompañada de un número.
(para más información pinchar en el enlace: https://apps.atilf.fr/aliento/img/documentationES.pdf, p. 26-32)
La estructura formal consiste en la división lógica del ESB en oraciones distintas; se etiqueta las oraciones mediante corchetes angulares (de apertura y cierre) que marcan sus límites según la sintaxis XML <E.1> </E.1> <E.2> </E.2>.
(para más información pichar en el enlace: https://apps.atilf.fr/aliento/img/documentationES.pdf, p. 32-37)
El Discurso indica el tipo de enunciación a partir de una lista preestablecida. Se privilegia las etiquetas pertinentes en el caso de los ESB, forma dialogada, interlocución truncada, invocación, conjetura…
(para más información pichar en el enlace: https://apps.atilf.fr/aliento/img/documentationES.pdf, p. 41-44)
La estructura poética, no es obligada, su formulación es libre. Concierne a los anotadores que se interesan por los ritmos, la métrica, las rimas, asonancias, tipos poéticos en el caso de ciertos ESB.
Las figuras del discurso corresponden a una lista preestablecida. No todas las figuras vienen representadas. Hemos privilegiado las que se encuentran con mayor frecuencia en los ESB y las más conocidas, para que los anotadores que no son especialistas de estilística puedan indicarlas.
Muestra de etiquetado formal