Unitex : un logiciel libre pour le TAL
Unitex est une plate-forme de traitement de corpus basée sur des technologies à états finis. Cet outil permet de construire et gérer des ressources linguistiques fines telles que dictionnaires et grammaires, et de les appliquer à des textes. Il est possible de travailler aux niveaux morphologiques, lexicaux et syntaxiques. Nous présenterons rapidement l’outil, et nous insisterons sur son histoire qui montre à quel point des logiciels fermés basés sur une vue protectionniste de la recherche sont plus une entrave au développement des connaissances que des contributions pleinement profitables à la communauté.
Sébastien Paumier est maître de conférence en informatique à l’Université Paris-Est Marne-la-Vallée. Spécialiste en traitement automatique des langues, il est l’auteur principal du logiciel libre de traitement de corpus Unitex. Il a également coécrit avec Cédrick Fairon et Jean-René Klein « Le langage SMS », un ouvrage détaillant un projet de collecte de SMS destinés à la recherche scientifique et analysant ses premiers résultats.
Documents joints
