Apache UIMA, une architecture logicielle robuste pour le TAL
UIMA est un standard en cours de normalisation à l’OASIS définissant une architecture logicielle pour le traitement des données non structurées. L’implémentation sous licence Apache de la norme par IBM, puis la Fondation Apache, offre de nouvelles perspectives au domaine du traitement automatique des langues, notamment en ce qui concerne la réutilisabilité des composants, le prototypage et le partage des corpus.
Nous présenterons rapidement les concepts clés de cette plateforme et discuterons ses points forts, notamment pour le traitement automatique des langues.
Nicolas Hernandez est maître de conférences au département
Informatique de l’Institut Universitaire de Technologie de Nantes où
il enseigne les réseaux, la sécurité et les outils et techniques de
développements logiciels. Il effectue sa recherche au sein de l’équipe
Traitement Automatique des Langues du Laboratoire d’Informatique
Atlantique-Nantes (LINA CNRS UMR 6241) autour du thème de l’analyse
sémantique et discursive des textes. Il participe à de nombreux
projets ANR PIITHIE, ANR C-Mantic, Region Miles et fait notamment
partie du comité éditorial de la revue électronique
Discours.revues.org. Il anime par ailleurs un axe fédérateur de
l’équipe : les outils et les techniques de développement en TAL. Entre
autres il a reçu le prix « IBM Unstructured Information Analytics
Innovation Awards » pour le projet de création d’une communauté
francophone d’utilisateurs et de développeurs du framework Apache
UIMA.
Les exposés autour d’Apache UIMA durant les RMLL 2009 ont débouché sur la création d’une communauté française qui communique désormais au travers d’un planet : http://uima-fr.org/planet/
Documents joints
