English Español français rss
> Accueil > Programme > Colloques parallèles

Coll. UIMA : DKPro-UGD : Une approche flexible de nettoyage de données pour traiter du discours généré par l’utilisateur

Traduction(s) de cet article : English
Intervenant(s) :Richard Eckart de Castilho, Iryna Gurevych
Type d'événement :Conférence
Niveau :Confirmé
Date :Jeudi 9 juillet 2009
Horaire :10h50
Durée :20 minutes
Langue :English
Lieu :Salle D202 - Ireste

Les discours générés par les utilisateurs à partir du Web 2.0 posent des problèmes particulier pour le traitement des langues naturelles (NLP) de par la présence de bruit et d’erreurs. Une étape de nettoyage en amont de l’analyse dans une châine NLP permet de réduire le problème. Alors que les efforts récents proposent des composants d’analyse UIMA pour des besoins classiques, le nettoyage des données ne semble pas encore avoir été abordé.

L’approche en cinq étapes discutée dans cette présentation offre un maximum de flexibilité pour identifier les artefacts problématiques, pour décider comment les traiter et pour analyser les données nettoyées. Des composants réutilisables ont été développés pour le nettoyage des données ainsi que pour la projection des annotations créées sur les données nettoyées sur les données originales. Ces composants sont distribués dans le dépôt Darmstadt Knowledge Processing Software Repository (DKPro) sous le nom DKPro-UDG.

PDF - 90.8 ko
Article soumis
PDF - 801.2 ko
Support de présentation