LGPLLR : une licence libre pour le TAL
La question de la protection des ressources linguistiques, en particulier les lexiques, pose problème, car aux yeux de beaucoup, un lexique n’est « qu’une liste de mots que tout le monde peut reproduire ». Cette vision simpliste dénie l’énorme travail accompli par les linguistes qui produisent de telles ressources en sélectionnant soigneusement les informations qu’elles contiennent. De plus, le fonctionnement collaboratif de la recherche pose la question de la réutilisation et de l’enrichissement de données existantes dans le respect de leurs auteurs originaux. En réponse à ces questions, nous présenterons la licence LGPLLR que nous avons développée afin d’apporter l’équivalent de la protection LGPL aux données linguistiques utilisées en recherche.
Sébastien Paumier est maître de conférence en informatique à l’Université Paris-Est Marne-la-Vallée. Spécialiste en traitement automatique des langues, il est l’auteur principal du logiciel libre de traitement de corpus Unitex. Il a également coécrit avec Cédrick Fairon et Jean-René Klein « Le langage SMS », un ouvrage détaillant un projet de collecte de SMS destinés à la recherche scientifique et analysant ses premiers résultats.
Documents joints
