*Dernière mise à jour : 20 juin 2006*

Gabriel JALAM, Agrocampus Ouest


PIC

Adresse professionnelle

Agrocampus Ouest
projet tice. bat 23
65 rue de Saint-Brieuc
CS 84215
35042 RENNES

Téléphone professionnel

02.23.48.58.88

Fax

02.23.48.58.71

Courrier électronique

gabriel.jalam@agrocampus-ouest.fr

Page web

http://tice.agrocampus-ouest.fr/jalam

Qualification

qualifié par le CNU Section 27 (Informatique) pour les fonctions de Maître de Conférences sous le numéro 04227137285

1 Parcours professionnel
2 Parcours universitaire
3 Activités de recherche
Références
4 Activités d’enseignement

1 Parcours professionnel

2004–2006

Maître de conférences contractuel à Agrocampus Ouest.

2003–2004

Post-doc. Laboratoire ERIC. Université Lumière Lyon 2.

2000–2002

ATER. Faculté de Sciences Économiques et de Gestion. Université Lumière Lyon 2.

1998–2000

Chargé de travaux dirigés à l’Université Lyon 2.

1993–1994

Professeur-Assistant en traitement automatique de données. Faculté de Sciences Économiques. Université de Damas.

1991–1993

Chargé d’études. Centre National des Études et Recherches Scientifiques en Syrie.

2 Parcours universitaire

1998–2003

Doctorat en informatique de l’Université Lumière Lyon 2 « Apprentissage automatique et catégorisation de textes multilingues ». Mention Très honorable. Soutenue le 4 juin 2003, devant le jury composé de :Annie Morin, Rapporteur, Maître de conférences habilitée à diriger des recherches, IRISA, Université de Rennes 1 ;Yves Kodratoff, Rapporteur, Directeur de recherche, CNRS, LRI Université d’Orsay ;Martin Rajman, Rapporteur, Professeur, École Polytechnique Fédérale de Lausanne ;Geneviève Boidin-Lallich, Examinateur, Professeur, Université Claude Bernard Lyon 1 ;Ludovic Lebart, Examinateur, Directeur de recherche, CNRS, ENST Paris ;Jean-Hugues Chauchat, Directeur de thèse, Professeur, Université Lumière Lyon 2 ;

1996–1997

DEA Modélisation Micro-économique et Applications. Université de Caen. Mention Bien. Spécialité : Théorie des jeux et choix social. Titre du mémoire : « La théorie de marchandage, analyse du point de conflit » sous la direction du professeur Maurice Salles, directeur du centre GEMMA (Groupe d’Economie Mathématique et de Microéconomie Appliquée).

1994–1995

Apprentissage de la langue française. Obtention des diplômes DELF et DALF. Université de Poitiers.

1991–1992

DEA en Sciences Économiques. Université de Damas. Mention Bien.

1986–1990

Maîtrise en Sciences Économiques. Université de Damas. Classé premier sur 550 étudiants sur les 4 ans. Mention Bien.

1985–1986

Baccalauréat Scientifique. Mention Très Bien.

 3.1 Thèse: Apprentissage automatique et catégorisation de textes multilingues
  3.1.1 Contexte
  3.1.2 Résumé de thèse
  3.1.3 Résumé de mes principales contributions
 3.2 Séminaires et groupes du travail
 3.3 Animation scientifique

3 Activités de recherche

3.1 Thèse : Apprentissage automatique et catégorisation de textes multilingues

3.1.1 Contexte

Ces dernières années, la recherche accorde beaucoup d’importance au traitement des données textuelles et en particulier aux données multilingues. Ceci pour plusieurs raisons : un nombre croissant de collections de textes numérisés mises en réseau et distribuées au plan international, le développement de l’infrastructure de communication et de l’Internet, la progression constante du nombre de personnes connectées au réseau mondial et dont la langue natale n’est pas l’anglais. Ceci a créé de nouveaux besoins pour organiser et traiter ces immenses volumes de données. Les traitements manuels de ces données (systèmes experts ou à base de connaissances) s’avèrent très coûteux en temps et en personnel, ils sont peu flexibles et leur généralisation à d’autres domaines sont quasiment impossibles ; c’est pourquoi on cherche à mettre au point des méthodes automatiques.

L’apprentissage automatique est un processus d’induction général qui permet la construction automatique de classifieurs. Ainsi il est intéressant d’utiliser l’apprentissage automatique pour catégoriser (ou classer) les textes. Ici, il s’agit d’affecter une ou plusieurs catégories à des documents : l’objectif est de trouver une liaison fonctionnelle, que l’on appelle également modèle de prédiction, entre les textes à classer et l’ensemble des catégories. Pour estimer le modèle de prédiction, il faut disposer d’un ensemble de textes préalablement étiquetés, dit ensemble d’apprentissage, à partir duquel on estime les paramètres du modèle de prédiction le plus performant possible, c’est-à-dire qui produit le moins d’erreurs en prédiction. L’objectif de la catégorisation de textes est donc d’associer automatiquement une étiquette à tout nouveau texte à classer.

Notre travail de thèse a pour objectif d’étendre la catégorisation de textes « classique » à la catégorisation de textes multilingues. La nouveauté apportée est la possibilité d’inférer pour un texte rédigé dans une langue quelconque. Cette extension au cas multilingues introduit des contraintes supplémentaires. Il faut adapter le processus habituellement mis en œuvre pour classer les nouveaux textes ; et certaines techniques à base linguistique, utilisées en monolingue, deviennent alors inopérantes.

3.1.2 Résumé de thèse

Notre travail s’intéresse à l’application de méthodes issues de l’apprentissage automatique à la catégorisation de textes multilingues. La thèse comporte deux parties :

La première partie donne une présentation générale de la catégorisation de textes dite « monolingue » selon le schéma suivant :

  1. représentation des textes dans un format adapté aux algorithmes d’apprentissage ; on utilise souvent la représentation vectorielle mais d’autres modes de représentation existent aussi telle la représentation probabiliste (modèle de Robertson et Sparck-Jones ou le modèle Okapi), dans laquelle l’information concernant la position de termes dans les phrases peut être conservée, contrairement au modèle vectoriel. La représentation englobe trois éléments : le choix des termes, le choix des poids associés et le choix des méthodes de sélection de termes. Nous apportons deux contributions à ce sujet :

    1. pour le choix de ce qui est un terme (mot, phrase, lemme, etc.), nos travaux [Jalam et al., 2004aJalam and Chauchat, 2002] montrent les raisons de l’efficacité des n-grammes. Ces travaux ont montré par exemple que les n-grammes, comme choix de représentation, capturent les connaissances contenues dans les mots. Ainsi, à partir des n-grammes, nous sommes capables d’extraire automatiquement des candidats mots-clés, sans utiliser aucune connaissance linguistique ; ceci est intéressant car l’indépendance de la méthode par rapport à la langue sera nécessaire pour traiter les textes écrits en plusieurs langues.
    2. pour la sélection de termes, nos travaux [Clech et al., 2003] proposent une nouvelle utilisation de la statistique du χ2 (multivarié) calculée sur le tableau complet (termes×classes). Cette méthode prend en compte l’interaction soit entre les termes eux-même, soit entre les termes et les classes. Nos premiers résultats sont encourageants et montrent une amélioration des performances par rapport à l’utilisation du χ2 (univarié), utilisé pour la sélection des descripteurs par de nombreux auteurs ; ce χuni2 mesurait l’écart à l’indépendance entre un seul descripteur tk (présent ou absent) et un seul thème ci (présent ou absent).
  2. choix d’une méthode d’apprentissage pour construire un modèle de prédiction. Il s’agit de proposer une fonction qui associe une ou plusieurs catégories à un document telle que la décision donnée coïncide « le plus possible » avec la vraie fonction qui retourne pour chaque document dj la valeur ci de sa classe réelle. Plusieurs critères de choix sont possibles : si les résultats du classifieur sont destinés à des humains (experts ou décideurs), il est souhaitable de privilégier les méthodes “explicatives” comme les arbres de décision ; si, au contraire, le résultat produit est à intégrer dans un processus automatique, on peut alors choisir la méthode qui donne les meilleures performances.
    Dans [Jalam and Teytaud, 2001a] et [Jalam and Teytaud, 2001b] nous avons proposé de nouvelles utilisations des méthodes SVM (Support Vector Machines) et RBF (Radial Basis Functions) en introduisant un nouveau noyau, fondé sur le χ2, qui donne de bons résultats et qui confirment les résultats obtenus par les autres auteurs tels que Y. Yang et F. Sebastiani.
  3. évaluation du modèle appris afin de s’assurer qu’il est généralisable à d’autres textes.

La deuxième partie est dédiée à la catégorisation de textes multilingues. Dans ce cas, les méthodes utilisant des analyses linguistiques fines deviennent impraticables. Nous avons alors proposé une méthode générale, automatique et largement indépendante des langues.

La phase d’apprentissage s’effectue toujours de manière classique, à partir d’un corpus d’apprentissage étiqueté (c’est à dire, on connait à l’avance les catégories des textes de ce corpus), rédigé dans une langue donnée. Pour classer un texte rédigé dans une langue quelconque, il faut d’abord identifier automatiquement la langue utilisée ; ensuite, deux voies sont possibles :

  1. appliquer un modèle propre à chaque langue ; ceci exige de disposer d’ensembles d’apprentissage (préalablement étiquetés manuellement) suffisamment vastes et variés dans chaque langue, ce qui est souvent hors de portée ;
  2. utiliser des traducteurs automatiques vers une langue cible (disons l’anglais), puis construire (par apprentissage automatique) un modèle unique de catégorisation. Il y a encore deux façons de construire le modèle, en fonction du moment où l’on place l’étape de traduction ; on apprend :

    1. soit sur des textes écrits dans la langue cible,
    2. soit sur les traductions, vers la langue cible, de textes écrits dans différentes langues.

Nous avons proposé trois schémas et nous en avons expérimentés deux. Les résultats auxquels nous sommes parvenus sont publiés dans [Jalam et al., 2004b].

3.1.3 Résumé de mes principales contributions

Références

[Jalam and Teytaud, 2001a]    Jalam, R. and Teytaud, O. (2001a). "Identification de la langue et catégorisation de textes basées sur les n-grammes". Extraction de Connaissance et Apprentissage, 1(1-2) : 227–238. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_eca01.ps

[Jalam et al., 2004a]    Jalam, R., Chauchat, J.-H., and Dumais, J. (2004). "Automatic recognition of characteristic key-words using n-grams". In COMPSTAT 2004, International Conference on Computational Statistics, pages 1245-1254. Physica Verlag, Heidelberg, Germany, 2004. ISBN 3-7908-1554-3. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_compstat04.pdf

[Jalam et al., 2004b]   Jalam, R., Clech, J., and Rakotomalala, R. (2004). "Cadre pour la catégorisation de textes multilingues". In Fairon, C. and Purnelle, G., editors, 7èmes Journées internationales d’Analyse statistique des Données Textuelles, volume 2, pages 650–660, Presses Universitaires de Louvain, Louvain-la-Neuve, Belgique. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_jadt04.pdf

[Jalam and Chauchat, 2002]    Jalam, R. and Chauchat, J.-H. (2002). "Pourquoi les n-grammes permettent de classer des textes ? Recherche de mots-clefs pertinents à l’aide des n-grammes caractéristiques". In Morin, A. and Sébillot, P., editors, 6èmes Journées internationales d’Analyse statistique des Données Textuelles, volume 1, pages 381–390, St. Malo France. IRISA, INRIA. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_jadt02.ps

[Jalam and Teytaud, 2001b]   Jalam, R. and Teytaud, O. (2001b). "Kernel based text categorization". In Proceeding of IJCNN-01, 12th International Joint Conference on Neural Networks, pages 1891–1896, Washington, US. IEEE Computer Society Press, Los Alamitos, US. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_ijcnn01.pdf

[Jalam and Chauchat, 2004]   Jalam, R., Chauchat, J.-H. (2004). "Catégorisation de textes multilingus : quelques solutions". In Kodratoff, Y. and Toussaint, Y., editors, Atelier Fouille de Textes dans le cadre de la conférence EGC 2004. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_egc04.pdf

[Clech et al., 2003]   Clech, J., Rakotomalala, R., and Jalam, R. (2003). "Séléction multivariée de termes". In XXXVèmes Journées de Statistiques, pages 933–939, Lyon. http://tice.agrocampus-ouest.fr/jalam/pub/jalam_sfds03.pdf

[Jalam R., 2003]   Jalam, R. (2003) "Apprentissage automatique et catégorisation de textes multilingues". Thèse de doctorat, Université Lumière Lyon 2. http://tice.agrocampus-ouest.fr/jalam/these/these_radwan.ps.gz

[Jalam R., 1997]   Jalam, R. (1997) "La théorie de marchandage, analyse du point de conflit". Mémoire de DEA, Université de Caen. http://tice.agrocampus-ouest.fr/jalam/these/dea_radwan.ps.gz

3.2 Séminaires et groupes du travail

3.3 Animation scientifique

4 Activités d’enseignement

Mes activités d’enseignement en France, à l’Université Lumière Lyon 2, ont débuté en 1998. J’ai enseigné dans les facultés d’Histoire, des Langues, des Arts du Spectacle, de Sciences Économiques et de Gestion ainsi qu’à l’institut de la Communication.






1. Enseignements en première et deuxième cycles universitaires




année

Filière

Matière

Volume
98–99

Dept. Histoire, 1ere année

Bureautique et initiation à Internet

24 heures
99–00

Dept. art du spectacle, 2eme année

Bureautique et initiation à Internet et HTML

24 heures
99–00

Dept. art du spectacle, 1ere année

Bureautique et initiation Photoshop

48 heures
99–02

Dept. économie, 1ere année

Réseaux, Bureautique, Internet et HTML

150 heures
00–02

Dept. économie, 2eme année

Algorithmique et Visual Basic

99 heures
00–01

Dept. Communication, 2eme année

Bureautique avancée et HTML

32 heures
00–02

Dept. ISEA, 3em année

UNIX et Langage C

32 heures
00–03

Dept. Économie 3eme année

Excel Avancé et VBA

96 heures
01–02

Dept. Économie 4eme année

Base des données et Access

16 heures

Total

521 heures




2. Enseignements en Troisième cycle universitaire




Année

Filière

Matière

Volume
02–03

DESS Back & Middle Office

Base des données et Access

30 heures
02–03

DESS Contrôle de Gestion

Base des données et Access

36 heures
05–06

Master 2, Statistiques appliquées

Text Mining

11 heures

Total

77 heures




3. Enseignements à l’école nationale supérieure d’agronomie (Agrocampus Ouest)




Année

Filière

Matière

Volume
04–06

ENSAR, 1ere année ingénieur

Statistique générale

128 heures
04–05

INSFA, 2eme année ingénieur

Statistique générale

64 heures
04–06

ENSAR et INSFA, 3eme année ingénieur

VBA

46 heures
04–06

ENSAR et INSFA, 3eme année ingénieur

Graphes d’induction

46 heures

Total

284 heures

*Dernière mise à jour : 20 juin 2006*