English Español français rss
> Accueil > Programme > Libre en Sciences

Vers un nouvel outil libre pour l’analyse syntaxique

Traduction(s) de cet article : English
Intervenant(s) :Agnès Souque
Type d'événement :Conférence
Niveau :Confirmé
Date :Vendredi 10 juillet 2009
Horaire :14h20
Durée :20 minutes
Langue :English
Lieu :Salle E202 - Ireste

Des outils open source mal adaptés au français

Le correcteur grammatical libre que nous avons étudié, LanguageTool de Daniel Naber, comme les autres logiciels open source du même type, possède une structure en couches successives des différents traitements du texte. Ceci génère un cercle vicieux impliquant une mauvaises analyse morphosyntaxique du texte et par conséquent des détections d’erreurs erronées. Par ailleurs, il fonctionne sur le principe du pattern-matching pour la détection des erreurs, avec des motifs de fautes décrits dans des règles de correction, principe à l’origine d’une explosion combinatoire du nombre de règles à rédiger.

Un nouveau modèle d’analyse « gauche-droite »

Pour pallier les limites des outils tels que LanguageTool, dans le cadre de notre thèse, nous envisageons un analyseur "gauche-droite", dans la mesure où il effectue les différents traitements en parallèle au fur et à mesure de la lecture/écriture du texte, de gauche à droite, et non plus en couches successives. L’étiquetage est réalisé à partir d’une adaptation du lexique open source Dicollecte. Les incohérences sont ensuite détectées grâce à la déclaration des attendus syntaxiques par opposition à l’énumération des erreurs possibles dans les systèmes précédemment étudiés. Dans des processus parallélisés, les phrases sont segmentées en chunks, zones de calcul au sein desquelles et entre lesquelles est calculée l’unification des différents éléments. Des rétroactions intelligibles expliquent alors l’incohérence détectée et ce qui est attendu.

Des ressources libres pour la recherche

Les ressources logicielles de notre outil seront libres, de même que les ressources langagières, à savoir les différents lexiques, qui seront librement accessibles et modifiables, ainsi que les ressources linguistiques constituées des différentes types de règles pour la détection des incohérences syntaxiques. Ces dernières ressources sont suffisamment génériques pour être adaptables à d’autres langues et donner une dimension multilingue à l’outil. Une des résultantes des traitements est une analyse syntaxique de textes tout venant nécessaires dans de nombreux domaines d’application : la correction grammaticale, mais aussi l’apprentissage des langues (aide à la compréhension des erreurs d’apprentissage), la recherche et l’extraction d’information, ou encore tout traitement documentaire nécessitant une analyse robuste préalable.

Auteurs : Agnès Souque, Thomas Lebarbé

Intervenante : Agnès Souque

Après un master 2 recherche en traitement automatique des langues, Agnès Souque a commencé à Grenoble une thèse sur la thématique de la correction grammaticale automatique. Son objectif est de développer un correcteur libre pour le français, adaptable le plus facilement possible à d’autres langues, et pouvant se greffer à diverses applications libres, telle OpenOffice.org par exemple. Elle est actuellement en deuxième année de thèse, sous la direction de Thomas Lebarbé, co-auteur du résumé.

Documents joints

Diaporama
Diaporama (opendocument presentation - 235.2 ko)