|
|
|
|
Adresse professionnelle | Agrocampus Ouest
|
|
|
Téléphone professionnel | 02.23.48.58.88 |
Fax | 02.23.48.58.71 |
Courrier électronique | |
Page web | http://tice.agrocampus-ouest.fr/jalam |
Qualification | qualifié par le CNU Section 27 (Informatique) pour les fonctions de Maître de Conférences sous le numéro 04227137285 |
2004–2006 | Maître de conférences contractuel à Agrocampus Ouest. |
2003–2004 | Post-doc. Laboratoire ERIC. Université Lumière Lyon 2. |
2000–2002 | ATER. Faculté de Sciences Économiques et de Gestion. Université Lumière Lyon 2. |
1998–2000 | Chargé de travaux dirigés à l’Université Lyon 2. |
1993–1994 | Professeur-Assistant en traitement automatique de données. Faculté de Sciences Économiques. Université de Damas. |
1991–1993 | Chargé d’études. Centre National des Études et Recherches Scientifiques en Syrie. |
1998–2003 | Doctorat en informatique de l’Université Lumière Lyon 2 « Apprentissage automatique et catégorisation de textes multilingues ». Mention Très honorable. Soutenue le 4 juin 2003, devant le jury composé de :Annie Morin, Rapporteur, Maître de conférences habilitée à diriger des recherches, IRISA, Université de Rennes 1 ;Yves Kodratoff, Rapporteur, Directeur de recherche, CNRS, LRI Université d’Orsay ;Martin Rajman, Rapporteur, Professeur, École Polytechnique Fédérale de Lausanne ;Geneviève Boidin-Lallich, Examinateur, Professeur, Université Claude Bernard Lyon 1 ;Ludovic Lebart, Examinateur, Directeur de recherche, CNRS, ENST Paris ;Jean-Hugues Chauchat, Directeur de thèse, Professeur, Université Lumière Lyon 2 ; |
1996–1997 | DEA Modélisation Micro-économique et Applications. Université de Caen. Mention Bien. Spécialité : Théorie des jeux et choix social. Titre du mémoire : « La théorie de marchandage, analyse du point de conflit » sous la direction du professeur Maurice Salles, directeur du centre GEMMA (Groupe d’Economie Mathématique et de Microéconomie Appliquée). |
1994–1995 | Apprentissage de la langue française. Obtention des diplômes DELF et DALF. Université de Poitiers. |
1991–1992 | DEA en Sciences Économiques. Université de Damas. Mention Bien. |
1986–1990 | Maîtrise en Sciences Économiques. Université de Damas. Classé premier sur 550 étudiants sur les 4 ans. Mention Bien. |
1985–1986 | Baccalauréat Scientifique. Mention Très Bien. |
Ces dernières années, la recherche accorde beaucoup d’importance au traitement des données textuelles et en particulier aux données multilingues. Ceci pour plusieurs raisons : un nombre croissant de collections de textes numérisés mises en réseau et distribuées au plan international, le développement de l’infrastructure de communication et de l’Internet, la progression constante du nombre de personnes connectées au réseau mondial et dont la langue natale n’est pas l’anglais. Ceci a créé de nouveaux besoins pour organiser et traiter ces immenses volumes de données. Les traitements manuels de ces données (systèmes experts ou à base de connaissances) s’avèrent très coûteux en temps et en personnel, ils sont peu flexibles et leur généralisation à d’autres domaines sont quasiment impossibles ; c’est pourquoi on cherche à mettre au point des méthodes automatiques.
L’apprentissage automatique est un processus d’induction général qui permet la construction automatique de classifieurs. Ainsi il est intéressant d’utiliser l’apprentissage automatique pour catégoriser (ou classer) les textes. Ici, il s’agit d’affecter une ou plusieurs catégories à des documents : l’objectif est de trouver une liaison fonctionnelle, que l’on appelle également modèle de prédiction, entre les textes à classer et l’ensemble des catégories. Pour estimer le modèle de prédiction, il faut disposer d’un ensemble de textes préalablement étiquetés, dit ensemble d’apprentissage, à partir duquel on estime les paramètres du modèle de prédiction le plus performant possible, c’est-à-dire qui produit le moins d’erreurs en prédiction. L’objectif de la catégorisation de textes est donc d’associer automatiquement une étiquette à tout nouveau texte à classer.
Notre travail de thèse a pour objectif d’étendre la catégorisation de textes « classique » à la catégorisation de textes multilingues. La nouveauté apportée est la possibilité d’inférer pour un texte rédigé dans une langue quelconque. Cette extension au cas multilingues introduit des contraintes supplémentaires. Il faut adapter le processus habituellement mis en œuvre pour classer les nouveaux textes ; et certaines techniques à base linguistique, utilisées en monolingue, deviennent alors inopérantes.
Notre travail s’intéresse à l’application de méthodes issues de l’apprentissage automatique à la catégorisation de textes multilingues. La thèse comporte deux parties :
La première partie donne une présentation générale de la catégorisation de textes dite « monolingue » selon le schéma suivant :
La deuxième partie est dédiée à la catégorisation de textes multilingues. Dans ce cas, les méthodes utilisant des analyses linguistiques fines deviennent impraticables. Nous avons alors proposé une méthode générale, automatique et largement indépendante des langues.
La phase d’apprentissage s’effectue toujours de manière classique, à partir d’un corpus d’apprentissage étiqueté (c’est à dire, on connait à l’avance les catégories des textes de ce corpus), rédigé dans une langue donnée. Pour classer un texte rédigé dans une langue quelconque, il faut d’abord identifier automatiquement la langue utilisée ; ensuite, deux voies sont possibles :
Nous avons proposé trois schémas et nous en avons expérimentés deux. Les résultats auxquels nous sommes parvenus sont publiés dans [Jalam et al., 2004b].
[Jalam and Teytaud, 2001a] Jalam, R. and Teytaud, O. (2001a). "Identification de la langue et catégorisation de textes basées sur les n-grammes". Extraction de Connaissance et Apprentissage, 1(1-2) : 227–238. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_eca01.ps
[Jalam et al., 2004a] Jalam, R., Chauchat, J.-H., and Dumais, J. (2004). "Automatic recognition of characteristic key-words using n-grams". In COMPSTAT 2004, International Conference on Computational Statistics, pages 1245-1254. Physica Verlag, Heidelberg, Germany, 2004. ISBN 3-7908-1554-3. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_compstat04.pdf
[Jalam et al., 2004b] Jalam, R., Clech, J., and Rakotomalala, R. (2004). "Cadre pour la catégorisation de textes multilingues". In Fairon, C. and Purnelle, G., editors, 7èmes Journées internationales d’Analyse statistique des Données Textuelles, volume 2, pages 650–660, Presses Universitaires de Louvain, Louvain-la-Neuve, Belgique. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_jadt04.pdf
[Jalam and Chauchat, 2002] Jalam, R. and Chauchat, J.-H. (2002). "Pourquoi les n-grammes permettent de classer des textes ? Recherche de mots-clefs pertinents à l’aide des n-grammes caractéristiques". In Morin, A. and Sébillot, P., editors, 6èmes Journées internationales d’Analyse statistique des Données Textuelles, volume 1, pages 381–390, St. Malo France. IRISA, INRIA. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_jadt02.ps
[Jalam and Teytaud, 2001b] Jalam, R. and Teytaud, O. (2001b). "Kernel based text categorization". In Proceeding of IJCNN-01, 12th International Joint Conference on Neural Networks, pages 1891–1896, Washington, US. IEEE Computer Society Press, Los Alamitos, US. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_ijcnn01.pdf
[Jalam and Chauchat, 2004] Jalam, R., Chauchat, J.-H. (2004). "Catégorisation de textes multilingus : quelques solutions". In Kodratoff, Y. and Toussaint, Y., editors, Atelier Fouille de Textes dans le cadre de la conférence EGC 2004. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_egc04.pdf
[Clech et al., 2003] Clech, J., Rakotomalala, R., and Jalam, R. (2003). "Séléction multivariée de termes". In XXXVèmes Journées de Statistiques, pages 933–939, Lyon. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_sfds03.pdf
[Jalam R., 2003] Jalam, R. (2003) "Apprentissage automatique et catégorisation de textes multilingues". Thèse de doctorat, Université Lumière Lyon 2. http://tice.agrocampus-ouest.fr/jalam/these/these_radwan.ps.gz
[Jalam R., 1997] Jalam, R. (1997) "La théorie de marchandage, analyse du point de conflit". Mémoire de DEA, Université de Caen. http://tice.agrocampus-ouest.fr/jalam/these/dea_radwan.ps.gz
Mes activités d’enseignement en France, à l’Université Lumière Lyon 2, ont débuté en 1998. J’ai enseigné dans les facultés d’Histoire, des Langues, des Arts du Spectacle, de Sciences Économiques et de Gestion ainsi qu’à l’institut de la Communication.
|