L’appariement des énoncés sapientiels brefs est une tâche complexe et in fine réservée à l’expertise des parémiologues.
L’outil proposé ici doit être considéré comme une sorte de moteur de suggestion à destination des spécialistes. Sans interprétation et validation des suggestions par les experts, les résultats du moteur sont sans valeur.
L’hypothèse sémantique distributionnelle
Les techniques utilisées ici sont basées sur l’hypothèse sémantique distributionnelle, qui pourrait être résumé par ce principe général :
« Un mot est caractérisé par la compagnie qu’il garde » [Firth 1957]
Autrement dit, on considère que deux mots ont un sens proche s’ils sont employés dans des mêmes contextes.
Espace vectoriel sémantique
Un espace vectoriel sémantique permet de représenter des mots sous la forme de vecteurs, de façon à permettre leurs comparaisons en utilisant de simples opérations vectorielles.
La base d’un espace vectoriel sémantique est typiquement une matrice de co-occurence :
- Une ligne par terme distinct du corpus d’apprentissage.
- Une colonne par concept (par exemple, chaque paragraphe ou article d’un corpus)
- La valeur d’une cellule représente la fréquence pondérée du terme dans le concept.
Ainsi, deux termes sémantiquement proches auront des vecteurs proches dans l’espace des concepts. Autrement dit, plus la distance entre deux vecteurs sera petite, plus les termes associés seront considérés proches sémantiquement.
Dans ce système, une phrase peut être vue comme étant la somme pondérée des vecteurs des termes qui la compose.
La similarité inter-phrase est alors calculée à partir de la distance entre les deux vecteurs représentant chaque phrase.
Les annotations des énoncés ont été réalisées en trois langues. Nous entraînerons donc un modèle par langue (Français, Anglais et Espagnol).
Modèles vectoriels multilingues pour Aliento
Deux modèles différents sont entraînés, leurs résultats seront ensuite combinés pour offrir un score unique lors des calculs de similarités :
WikiRI [Hai Hieu Vu] est une implémentation de cette technique tirant partie de l’organisation intrinsèque de Wikipedia. Les concepts sont d’abord représentés par des vecteurs aléatoires de faible dimension, puis les vecteurs représentatifs des mots sont calculés par sommation des vecteurs des concepts auxquels ils sont associés. Nous utilisons dans nos travaux une version Random Indexing (RI) proposé par Niladri Chatterjee et une variante pondérée du Random Indexing qui utilise Wikipédia comme ressource linguistique. Le rôle de WikiRI est d’exprimer le contexte au niveau de document pour chaque terme.
Word2Vec [Mikolov] est un modèle prédictif qui utilise des réseaux de neurones pour apprendre les représentations vectorielles des mots à partir de corpus d’apprentissage. Les vecteurs induits sont denses, de faible dimension et chaque direction représente une caractéristique latente du mot, sensée capturer des propriétés syntaxiques et sémantiques. C’est un modèle simple et rapide, implémenté dans l’outil word2vec, a été récemment introduit par Mikolov et al. Ils utilisent deux modèles prédictifs basés sur des réseaux de neurones à simple couche : skip-gram et Continuous Bag Of Words (CBOW). Etant donnée une fenêtre de n mots autour d’un mot w, le modèle skip-gram prédit ses mots voisins dans la fenêtre fixée. Le modèle CBOW permet ensuite de prédire le mot cible w, étant donnés ses voisins dans la fenêtre. Le rôle de Word2Vec est d’exprimer le contexte au niveau de la phrase pour chaque terme.
Représentation vectorielle d’un énoncé sapientiel bref
Un énoncé est représenté par les trois vecteurs représentant ses annotations sémantiques : sens littéral, sens figuré et leçon
Il existe une représentation de chaque vecteur pour les deux modèles et pour chaque langue.
Calcul de similarité
Le score inter-énoncé représente une valeur absolue de similarité entre deux énoncés. Ce score est calculé comme la somme pondérée des scores de similarité entre chaque composante de chaque vecteur de même type.
Le système permet également de comparer une phrase libre avec les différentes composantes des énoncés sapientiels. Le score de la comparaison d’une phrase libre avec un énoncé se fait en comparant le vecteur de la phrase à chacun des trois vecteurs de l’énoncé.
Il est également possible de choisir sur quelles annotations réaliser la comparaison. On peut par exemple souhaiter comparer une phrase saisie avec uniquement les annotations de type sens littéral des énoncés.
On réalise ce calcul pour les deux modèles (WikiRI et Word2Vec) et on produit un score final en combinant leurs scores comme cette formule p*WikRI + (1-p)*Word2Vec. On a estimé p = 0.7 par l’expérimentation sur nos datasets annotés.