Gabriel JALAM, Agrocampus Ouest



Adresse professionnelle	Agrocampus Ouest projet tice. bat 23 65 rue de Saint-Brieuc CS 84215 35042 RENNES

Téléphone professionnel	02.23.48.58.88
Fax	02.23.48.58.71
Courrier électronique	gabriel.jalam@agrocampus-ouest.fr
Page web	http://tice.agrocampus-ouest.fr/jalam
Qualification	qualifié par le CNU Section 27 (Informatique) pour les fonctions de Maître de Conférences sous le numéro 04227137285

1 Parcours professionnel

2004–2006	Maître de conférences contractuel à Agrocampus Ouest.
2003–2004	Post-doc. Laboratoire ERIC. Université Lumière Lyon 2.
2000–2002	ATER. Faculté de Sciences Économiques et de Gestion. Université Lumière Lyon 2.
1998–2000	Chargé de travaux dirigés à l’Université Lyon 2.
1993–1994	Professeur-Assistant en traitement automatique de données. Faculté de Sciences Économiques. Université de Damas.
1991–1993	Chargé d’études. Centre National des Études et Recherches Scientifiques en Syrie.

2 Parcours universitaire

1998–2003	Doctorat en informatique de l’Université Lumière Lyon 2 « Apprentissage automatique et catégorisation de textes multilingues ». Mention Très honorable. Soutenue le 4 juin 2003, devant le jury composé de :Annie Morin, Rapporteur, Maître de conférences habilitée à diriger des recherches, IRISA, Université de Rennes 1 ;Yves Kodratoff, Rapporteur, Directeur de recherche, CNRS, LRI Université d’Orsay ;Martin Rajman, Rapporteur, Professeur, École Polytechnique Fédérale de Lausanne ;Geneviève Boidin-Lallich, Examinateur, Professeur, Université Claude Bernard Lyon 1 ;Ludovic Lebart, Examinateur, Directeur de recherche, CNRS, ENST Paris ;Jean-Hugues Chauchat, Directeur de thèse, Professeur, Université Lumière Lyon 2 ;
1996–1997	DEA Modélisation Micro-économique et Applications. Université de Caen. Mention Bien. Spécialité : Théorie des jeux et choix social. Titre du mémoire : « La théorie de marchandage, analyse du point de conflit » sous la direction du professeur Maurice Salles, directeur du centre GEMMA (Groupe d’Economie Mathématique et de Microéconomie Appliquée).
1994–1995	Apprentissage de la langue française. Obtention des diplômes DELF et DALF. Université de Poitiers.
1991–1992	DEA en Sciences Économiques. Université de Damas. Mention Bien.
1986–1990	Maîtrise en Sciences Économiques. Université de Damas. Classé premier sur 550 étudiants sur les 4 ans. Mention Bien.
1985–1986	Baccalauréat Scientifique. Mention Très Bien.

3 Activités de recherche

3.1 Thèse : Apprentissage automatique et catégorisation de textes multilingues

3.1.1 Contexte

Ces dernières années, la recherche accorde beaucoup d’importance au traitement des données textuelles et en particulier aux données multilingues. Ceci pour plusieurs raisons : un nombre croissant de collections de textes numérisés mises en réseau et distribuées au plan international, le développement de l’infrastructure de communication et de l’Internet, la progression constante du nombre de personnes connectées au réseau mondial et dont la langue natale n’est pas l’anglais. Ceci a créé de nouveaux besoins pour organiser et traiter ces immenses volumes de données. Les traitements manuels de ces données (systèmes experts ou à base de connaissances) s’avèrent très coûteux en temps et en personnel, ils sont peu flexibles et leur généralisation à d’autres domaines sont quasiment impossibles ; c’est pourquoi on cherche à mettre au point des méthodes automatiques.

L’apprentissage automatique est un processus d’induction général qui permet la construction automatique de classifieurs. Ainsi il est intéressant d’utiliser l’apprentissage automatique pour catégoriser (ou classer) les textes. Ici, il s’agit d’affecter une ou plusieurs catégories à des documents : l’objectif est de trouver une liaison fonctionnelle, que l’on appelle également modèle de prédiction, entre les textes à classer et l’ensemble des catégories. Pour estimer le modèle de prédiction, il faut disposer d’un ensemble de textes préalablement étiquetés, dit ensemble d’apprentissage, à partir duquel on estime les paramètres du modèle de prédiction le plus performant possible, c’est-à-dire qui produit le moins d’erreurs en prédiction. L’objectif de la catégorisation de textes est donc d’associer automatiquement une étiquette à tout nouveau texte à classer.

Notre travail de thèse a pour objectif d’étendre la catégorisation de textes « classique » à la catégorisation de textes multilingues. La nouveauté apportée est la possibilité d’inférer pour un texte rédigé dans une langue quelconque. Cette extension au cas multilingues introduit des contraintes supplémentaires. Il faut adapter le processus habituellement mis en œuvre pour classer les nouveaux textes ; et certaines techniques à base linguistique, utilisées en monolingue, deviennent alors inopérantes.

3.1.2 Résumé de thèse

Notre travail s’intéresse à l’application de méthodes issues de l’apprentissage automatique à la catégorisation de textes multilingues. La thèse comporte deux parties :

La première partie donne une présentation générale de la catégorisation de textes dite « monolingue » selon le schéma suivant :

La deuxième partie est dédiée à la catégorisation de textes multilingues. Dans ce cas, les méthodes utilisant des analyses linguistiques fines deviennent impraticables. Nous avons alors proposé une méthode générale, automatique et largement indépendante des langues.

La phase d’apprentissage s’effectue toujours de manière classique, à partir d’un corpus d’apprentissage étiqueté (c’est à dire, on connait à l’avance les catégories des textes de ce corpus), rédigé dans une langue donnée. Pour classer un texte rédigé dans une langue quelconque, il faut d’abord identifier automatiquement la langue utilisée ; ensuite, deux voies sont possibles :

Nous avons proposé trois schémas et nous en avons expérimentés deux. Les résultats auxquels nous sommes parvenus sont publiés dans [Jalam et al., 2004b].

3.1.3 Résumé de mes principales contributions

Références

[Jalam and Teytaud, 2001a] Jalam, R. and Teytaud, O. (2001a). "Identification de la langue et catégorisation de textes basées sur les n-grammes". Extraction de Connaissance et Apprentissage, 1(1-2) : 227–238. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_eca01.ps

[Jalam et al., 2004a] Jalam, R., Chauchat, J.-H., and Dumais, J. (2004). "Automatic recognition of characteristic key-words using n-grams". In COMPSTAT 2004, International Conference on Computational Statistics, pages 1245-1254. Physica Verlag, Heidelberg, Germany, 2004. ISBN 3-7908-1554-3. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_compstat04.pdf

[Jalam et al., 2004b] Jalam, R., Clech, J., and Rakotomalala, R. (2004). "Cadre pour la catégorisation de textes multilingues". In Fairon, C. and Purnelle, G., editors, 7èmes Journées internationales d’Analyse statistique des Données Textuelles, volume 2, pages 650–660, Presses Universitaires de Louvain, Louvain-la-Neuve, Belgique. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_jadt04.pdf

[Jalam and Chauchat, 2002] Jalam, R. and Chauchat, J.-H. (2002). "Pourquoi les n-grammes permettent de classer des textes ? Recherche de mots-clefs pertinents à l’aide des n-grammes caractéristiques". In Morin, A. and Sébillot, P., editors, 6èmes Journées internationales d’Analyse statistique des Données Textuelles, volume 1, pages 381–390, St. Malo France. IRISA, INRIA. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_jadt02.ps

[Jalam and Teytaud, 2001b] Jalam, R. and Teytaud, O. (2001b). "Kernel based text categorization". In Proceeding of IJCNN-01, 12th International Joint Conference on Neural Networks, pages 1891–1896, Washington, US. IEEE Computer Society Press, Los Alamitos, US. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_ijcnn01.pdf

[Jalam and Chauchat, 2004] Jalam, R., Chauchat, J.-H. (2004). "Catégorisation de textes multilingus : quelques solutions". In Kodratoff, Y. and Toussaint, Y., editors, Atelier Fouille de Textes dans le cadre de la conférence EGC 2004. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_egc04.pdf

[Clech et al., 2003] Clech, J., Rakotomalala, R., and Jalam, R. (2003). "Séléction multivariée de termes". In XXXVèmes Journées de Statistiques, pages 933–939, Lyon. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_sfds03.pdf

[Jalam R., 2003] Jalam, R. (2003) "Apprentissage automatique et catégorisation de textes multilingues". Thèse de doctorat, Université Lumière Lyon 2. http://tice.agrocampus-ouest.fr/jalam/these/these_radwan.ps.gz

[Jalam R., 1997] Jalam, R. (1997) "La théorie de marchandage, analyse du point de conflit". Mémoire de DEA, Université de Caen. http://tice.agrocampus-ouest.fr/jalam/these/dea_radwan.ps.gz

3.2 Séminaires et groupes du travail

3.3 Animation scientifique

4 Activités d’enseignement

Mes activités d’enseignement en France, à l’Université Lumière Lyon 2, ont débuté en 1998. J’ai enseigné dans les facultés d’Histoire, des Langues, des Arts du Spectacle, de Sciences Économiques et de Gestion ainsi qu’à l’institut de la Communication.


1. Enseignements en première et deuxième cycles universitaires

année	Filière	Matière	Volume
98–99	Dept. Histoire, 1^ere année	Bureautique et initiation à Internet	24 heures
99–00	Dept. art du spectacle, 2^eme année	Bureautique et initiation à Internet et HTML	24 heures
99–00	Dept. art du spectacle, 1^ere année	Bureautique et initiation Photoshop	48 heures
99–02	Dept. économie, 1^ere année	Réseaux, Bureautique, Internet et HTML	150 heures
00–02	Dept. économie, 2^eme année	Algorithmique et Visual Basic	99 heures
00–01	Dept. Communication, 2^eme année	Bureautique avancée et HTML	32 heures
00–02	Dept. ISEA, 3^em année	UNIX et Langage C	32 heures
00–03	Dept. Économie 3^eme année	Excel Avancé et VBA	96 heures
01–02	Dept. Économie 4^eme année	Base des données et Access	16 heures
		Total	521 heures


2. Enseignements en Troisième cycle universitaire

Année	Filière	Matière	Volume
02–03	DESS Back & Middle Office	Base des données et Access	30 heures
02–03	DESS Contrôle de Gestion	Base des données et Access	36 heures
05–06	Master 2, Statistiques appliquées	Text Mining	11 heures
		Total	77 heures


3. Enseignements à l’école nationale supérieure d’agronomie (Agrocampus Ouest)

Année	Filière	Matière	Volume
04–06	ENSAR, 1^ere année ingénieur	Statistique générale	128 heures
04–05	INSFA, 2^eme année ingénieur	Statistique générale	64 heures
04–06	ENSAR et INSFA, 3^eme année ingénieur	VBA	46 heures
04–06	ENSAR et INSFA, 3^eme année ingénieur	Graphes d’induction	46 heures
		Total	284 heures