Proposition de thèse en TAL/informatique

Proposition de thèse en TAL/informatique

Lieu: Grenoble, France
Début: Octobre 2013
Durée: 3 ans
Financement: Région Rhône-Alpes, ARC « TIC et usages informatiques innovants », environ 1680 euros brut par mois.

Titre: Communiquer par SMS : Analyse automatique du langage et extraction de l’information véhiculée.

Directeurs: Georges Antoniadis (laboratoire LIDILEM, Grenoble) - Matthieu Quignard (laboratoire ICAR, Lyon)

Depuis le 3 décembre 1992, date d’envoi du premier SMS (Short Message Service) par Neil Papworth, employé d’une société informatique britannique, ce mode de communication est devenu rapidement courant et familier pour une très grande partie de la population mondiale. En 2011, plus de 4000 milliards de SMS auraient été envoyés dans le monde. En France, l’utilisation du SMS est en forte progression les 10 dernières années : 3,5 milliards de SMS envoyés en 2001, 147,2 milliards en 2011, et 89,8 milliards pour les 6 premiers mois de 2012 (Fédération Française des Télécoms, http://www.fftelecoms.org).
L’objectif de cette thèse est d’étudier le langage SMS français et de construire un système pour l’extraction automatique des informations contenues dans les SMS. L’élaboration d’un tel système passe par la définition et la mise en œuvre des méthodes et procédures issues du traitement automatique des langues (TAL). Le point de départ sera l’étude et l’exploitation du corpus de 22000 SMS réels, collectés dans les Alpes, avec l’aide du Conseil Général des Hautes-Alpes.
Le projet prend appui sur les connaissances et outils du laboratoire LIDILEM de Grenoble concernant la conception et l’exploitation de corpus langagiers ainsi que de systèmes pour le traitement automatique des langues et ses applications, en particulier l’extraction d’informations. Dans le cadre de cette thèse ils seront couplés avec l’expertise du laboratoire ICAR concernant l’étude et l’exploitation du contenu des corpus langagiers. Le Pôle Innovation Viseo de l’entreprise Objet Direct de Grenoble, et sa responsable Mme Frédérique SEGOND, est partenaire du projet ; il apportera son expertise en génie logiciel et TAL, et s’intéresse aux applications de l’outil d’extraction d’informations contenues dans les SMS.

Description du sujet:
Une opération de collecte de SMS dans les Alpes, organisée dans le cadre du projet sms4science et avec l’appui du Conseil Général des Hautes-Alpes, a permis de constituer un corpus de 22000 SMS réels. Les SMS collectés ont été anonymisés et transcrits en français.
Le sujet proposé a comme point de départ l’exploitation des données de ce corpus.
L’objectif visé par cette thèse est double :
a) Etudier la structure du langage SMS français et élaborer un analyseur capable d’enrichir automatiquement le texte des SMS par des informations morphosyntaxiques et sémantiques, associées.
b) Elaborer une méthodologie et un système pour l’extraction des informations pertinentes contenues dans les SMS.
La méthodologie à mettre en œuvre pour le premier objectif, prend appui sur la problématique du traitement automatique des langues, ses procédures et ses techniques. Elles doivent néanmoins être adaptées pour la structuration particulière du langage SMS, et être optimisées en ce sens. Les résultats attendus pourront être utilisés pour bon nombre d’applications embarquées liées à l’écriture, la lecture et la gestion des messages SMS.
L’extraction des informations pertinentes portées par les SMS, devrait s’appuyer sur les résultats du premier objectif et expérimenter les méthodes et procédures propres au domaine de la recherche d’informations. L’écueil scientifique en ce sens a trait à la taille réduite des SMS, ce qui rend difficile a priori la mise en œuvre de méthodes purement statistiques.
L’évaluation des systèmes développés doit se faire avec les autres partenaires du projet sms4science disposant d’un corpus de SMS réels.
Par essence, le problème à traiter demande une approche et une démarche pluridisciplinaires. La démarche de travail envisagée s’appuie sur une coopération multidisciplinaire (codirection de la thèse par des chercheurs en informatique (traitement automatique des langues, extraction d’informations) et science du langage (structuration et formalisation de la langue, étude et exploitation de corpus langagiers). Elle est multi-sites (les équipes de recherche étant réparties sur Lyon et Grenoble) et intègre la participation active du Pôle Innovation Viseo de l’entreprise Objet Direct (Grenoble) qui est intéressé par les applications de l’extraction d’informations contenues dans les SMS, et qui apporte son expertise en traitement automatique des langues et génie logiciel.
Sur le plan de la conception du système d’analyse automatique du langage des SMS, plusieurs applications sont envisageables : systèmes de réduction/expansion des SMS, de transcription et de phonétisation des SMS, systèmes de collecte et de diffusion d’informations, etc. Sur le plan d’extraction d’informations des SMS, diverses utilisations sont envisageables dans tout échange entre les particuliers et les entreprises ou les administrations.

Profil du candidat:
Le candidat doit être titulaire d'un Master en informatique - traitement automatique des langues ou équivalent. Maîtrise de la langue française et anglaise.

Contexte:
Cette thèse interdisciplinaire sera réalisée sur deux laboratoires : LIDILEM (Linguistique et Didactique des Langues Etrangères et Maternelles, EA 609, université Stendhal de Grenoble, http://w3.u-grenoble3.fr/lidilem/) et ICAR (Interactions, Corpus, Apprentissages, Représentations, UMR 5191 CNRS, Lyon, http://icar.univ-lyon2.fr/), avec l’appui du Pôle Innovation Viseo (Grenoble, http://www.viseo.net/).

Candidature:
Envoyer un CV (avec le détail des cours et notes de Master), une lettre de candidature, ainsi qu'une lettre de recommandation ou les coordonnées d'au moins un référent universitaire aux adresses suivantes :
georges.antoniadis@u-grenoble3.fr
matthieu.quignard@ens-lyon.fr
fsegond@objetdirect.com

Date limite: Candidature avant le 23 juin 2013


Dernière mise à jour : 17 mai, 2013 - 12:20