Domaines de recherche

Apprentissage statistique, apprentissage profond

Vraisemblance empirique généralisée, φ-divergences

Spectre de matrices aléatoires et matrices de covariance

Shrinkage et régularisation en grande dimension

Sommes autonormalisées (statistiques de Hotelling T²)

Applications :

  • 📌 Linguistique : Natural Language Processing, modèles génératifs (Maximum d’entropie, Chaînes de Markov, embeddings)
  • 📌 Biologie moléculaire : Modèles probabilistes et statistiques appliqués aux systèmes biologiques, pour le design de séquences ADN et ARN in silico

  Parcours Académique

Post-doctorat

Université de Technologie de Compiègne (LMAC)

Encadrantes : Ghislaine Gayraud & Miraine Davila Felipe (LMAC, UTC)

Financement : Projet Num4Lyme, AAP équipes projets ISCD, Sorbonne Université

  • Développement de modèles mathématiques pour détecter l’agent pathogène de la maladie de Lyme
  • Application de techniques de représentation de séquences génétiques : RBM, MCMC et Gibbs
  • Outils : Python (RBM, Bio (SeqIO), nltk, scipy, numba, sklearn, re, matplotlib, itertools)

Thèmes : Apprentissage statistique, Bio-informatique, données moléculaires (aptamères, ADN, ARN), modèles probabilistes

Doctorat

Université Paris Nanterre (MODAL'X)

Titre : Modèles et algorithmes de simplification automatique de textes

Encadrant : Patrice Bertail (MODAL'X, Université Paris Nanterre)

Co-encadrants : Mélanie Zetlaoui, Thierry Dumont (MODAL'X, Univ. Paris Nanterre)

Financement : Contrat doctoral (MESR), École doctorale ED 139 - Université Paris Nanterre

Thèmes : Statistique en grande dimension, apprentissage profond, NLP, vraisemblance empirique

Jury de thèse : Antoine Chambaz, Amor Keziou, Estelle Kuhn, Delphine Battistelli, Jean-François Pradat Peyre, Marianne Clausel

Date de soutenance : 23/06/2023  |  Lien vers la thèse 📄

Travaux et Parcours professionnel


Publications


  • Publications

  • Prépublications
  • E. M. Issouani, P. Bertail, T. Dumont and M. Zetlaoui Penalized Generalised Empirical Likelihood in high dimension, application to POS Tagging. 2025. (Link).

  • E. Issouani, M. Guerin, S. Padiolleau, I. Maffucci, M. D. Felipe and G. Gayraud. Design of DNA Aptamers for Lyme disease Diagnosis Combining experimental and numerical approaches. 2025. (Link)

  • Thèse
  • E. M. Issouani, P. Bertail, T. Dumont and M. Zetlaoui Modèles et algorithmes de simplification automatique de textes. 2023. (Link).
  • Jury de thèse : Antoine Chambaz, Amor Keziou, Estelle Kuhn, Delphine Battistelli, Jean-François Pradat Peyre, Marianne Clausel.
    Date de soutenance :23/06/2023.

Enseignements


Compte tenu de l’impossibilité de faire des heures supplémentaires, certains services sont réalisés de manière partielle, ou bien assurés en remplacement d'un collègue pour une séance dont la durée permet de compléter le service. Un aperçu détaillé des services est présenté dans le fichier Excel suivant fichier.


  • 2022-2023 - Avenant 1/6 (Total 45 heures)
      Matière : Analyse sémantique des données textuelles
      Public : Master II en Data Science
      Volume et type : 18h CM + 18h TD
      Total (HeTD) : 45 heures

  • 2021-2022 - ATER (Total 192 heures)
      Matière : Analyse sémantique des données textuelles
      Public : Master II en Data Science
      Volume et type : 18h CM + 18h TD
      Total (HeTD) : 45 heures

      Matière : Inférence statistique niveau 2
      Public : L3 Psychologie
      Volume et type : (24h TD)x3
      Total (HeTD) : 72 heures

      Matière : Inférence statistique niveau 1
      Public : L2 Psychologie
      Volume et type : (24h TD)x2
      Total (HeTD) : 48 heures

      Matière : Statistique descriptive
      Public : L1 Psychologie
      Volume et type : (24h TD)x1
      Total (HeTD) : 24 heures

  • Photo de Júnior Ferreira sur Unsplash

  • 2020-2021 - ATER (Total 192 heures)
      Matière : Statistiques appliquées à la gestion
      Public : L3 Gestion classique
      Volume et type : (18h TD)x5
      Total (HeTD) : 88 heures

      Matière : Tests statistiques
      Public : L2 Économie
      Volume et type : (20h TD)x2
      Total (HeTD) : 40 heures

      Matière : Maths pour Éco-gestion : Analyse
      Public : L1 Économie
      Volume et type : (20h TD)x2
      Total (HeTD) : 40 heures

      Matière : Statistique descriptive
      Public : L1 Psychologie
      Volume et type : (24h TD)x1
      Total (HeTD) : 24 heures

  • 2019-2020 - Avenant 1/6 - Total : 64 (HeTD)
      Matière : Statistiques appliquées à la gestion
      Public : L3 Gestion classique
      Volume et type : (18h TD)x3.5

  • 2018-2019 - Avenant 1/6 - Total : 64 (HeTD)
      Matière : Statistiques appliquées à la gestion
      Public : L3 Gestion classique
      Volume et type : (18h TD)x3.5

  • 2018-2019 - Vacations - Total : 64 (HeTD)
      Matière : Mathématiques : Analyse
      Public : L1 Économie
      Volume et type : (24h TD)x2 + (24h TD)x(2/3)

  • Synthèse des services réalisés : fichier.

    Projets professionnels


    Fevrier 2017 CDD (4 mois)

    Reponsable projet chez
    Dalink Conseil
    Direction «R&D»

    • Gestion de projet en transformation digitale et intégration de nouveaux produits innovants
    • Analyse du marché : étude de l’impact économique et de la faisabilité
      • - Comptes rendus des réunions avec les investisseurs, les fournisseurs et les clients
      • - Gouvernance : Découpage du projet en chantiers, répartition de tâches et estimation de la charge
      • - Pilotage et tableaux de bords : Budget, suivi des comités de pilotage, reportings
    • Outils utilisés : Excel, VBA, R et InDesign



    Avril 2016 Stage (6 mois)
    Chargé d’études actuarielles à La Mutuelle Générale
    Direction technique - Département «Prévoyance individuelle et Contrats Collectifs»

    • Étude des dérives des coûts moyens en santé collective sur un compte clé :
      • - Construction, traitement et gestion de bases de données (BO et SQL)
      • - Statistiques : Analyses et explorations de données – Data Mining (SAS, R)
      • - Étude des dépenses des assurés, Modélisation probabiliste de la sinistralité
      • - Automatisation de reportings (VBA), mesure de performance et amélioration
    • Outils : BO, SQL, SAS Guide, Excel, VBA


    AI Generated: DALL·E 2025-03-20 01.25.58 - A futuristic, abstract panoramic image that blends organic molecular structures (representing DNA and aptamers) with geometric, interconnected neural .webp
    AI Generated: DALL·E 2025-03-20 01.25.58

    Activité de Recherche


    2023 - Aujourd'hui
    - Invitations

    • Cours sur les modèles de langage prédictifs (16 h), dispensé sous forme de mini-conférences à l'Institute of Mathematical Stochastics, Universität Braunschweig (Brunswick, 2025).
      Public : Chercheurs en mathématiques issus de plusieurs universités allemandes, notamment : Otto-Friedrich-Universität Bamberg, Fakultät Statistik - TU Dortmund, Leibniz Universität Hannover, Universität Leipzig et Universität Heidelberg, TU Braunschweig.
    • Journée IA (20 min) – Une approche interdisciplinaire de l’Intelligence Artificielle (droit, économie, gestion, informatique, mathématique).
      Événement organisé à l’Université Paris Nanterre (2024).
    • Elements Student Scientific Conference (40 min) – Présentation à l’AGH University of Science and Technology of Krakow (Cracovie, Pologne, 2024).
    • Journées MAS 2024 (30 min) – Conférence sur la représentation vectorielle continue pour la conception et l’analyse des aptamers, Université de Poitiers (2024).
    • Groupe de Travail EMS (40 min) – Maximum d'entropie appliqué au NLP, Université de Caen Normandie (2024).
    • Séminaire LMAC (1 h) – Présentation sur les bornes exponentielles pour la statistique de Hotelling régularisée en grande dimension, UTC (2023).



    2017 - Aujourd'hui - Colloques & Conférences

    • ISNPS2024 (20 min) – International Symposium on Nonparametric Statistics, Braga, Portugal (2024).
    • CMStatistics2023 (20 min) – Computational and Methodological Statistics, Berlin, Allemagne (2023).
    • StatMathAppli2023 – Mathematical Statistics and Applications, Fréjus, France (2023).
    • ECAS - SFdS 2021 (10 min) – Cours sur le Text Mining, Fréjus, France (2021).
    • EMS2019 (20 min) – European Meeting of Statisticians, Palerme, Italie (2019).
    • StatMathAppli2019 (20 min) – Mathematical Statistics and Applications, Fréjus, France (2019).
    • ISNPS2018 (20 min) – International Society for Nonparametric Statistics, Salerne, Italie (2018).


    Photo de Alina Grubnyak sur Unsplash


    2017 - Aujourd'hui - Groupes de travail

    • LMAC Doctoral & Postdoctoral Seminar (1 h) – Présentation sur la conception et l'analyse des aptamers avec des embeddings continus et parcimonieux, UTC (Compiègne, 2024).
    • GT - Projet en cours de construction – Collaboration entre le SAMU de Paris, l'Université Paris Nanterre, l'Université de Technologie de Compiègne et l'Université Paris Descartes (2023).
    • Rencontre MODAL'X - MODYCO (1 h) – Rencontre et groupe de travail avec les mathématiciens et linguistes de l’Université Paris Nanterre (2022).
    • Séminaire DAP2018 (>2 h) – Présentation sur le Maximum d'entropie pour le POS Tagging au séminaire Doctorants, ATERs et Post-docs de Modal'X, Université Paris Nanterre (2018).
    • GT "Entropie, Mots, Statistique" (1 h) – Exposé sur l'application du Maximum d'Entropie à la traduction et la simplification de texte, organisé par Organisé par Valérie Girardin.





    Ressources

    Programmation (Python)

    Fr: Les fichiers générés et le matériel nécessaire sont des fichiers Pickle qui ne peuvent être lu que par Pickle (module python). Chaque fichier est fourni sous trois formats : 1. pdf 2. code : affiché par nbviewer 3. le format brut : que vous pouvez télécharger et l'ouvrir sur python pour le faire tourner , soit en machine local si vous avez déjà Jupyter Notebook, ou sur google-colab. Parfois les graphiques ne s'affichent pas sur le fichier pdf, dans ce cas un fichier html et utilisé à la place.
    En: The files generated and the material required are Pickle files that can only be read by Pickle (python module). Each file is provided in three formats: 1. pdf 2. code: displayed by nbviewer 3. raw format: which you can download and open in python to run, either on your local machine if you already have Jupyter Notebook, or on google-colab.

    Analyse sémantique des données textuelles

    Getting textual data from different resources, processing these data, building models. For beginners, it's better to start with the Python and nltk introduction file.
    Extracting and reading data (Source)
    Reading PDF (numerical documents)
    Reading image (scanned documents)
    Extracting texts from the web (using urllib and re packages, using beautifulsoup)
    Precessing data
    Python and nltk introduction
    Acessing corpora
    Functions
    Little applications : Dictionnary and synonym Word embedding (transforming words to vectors: discrete-sparse, and continuous-dense methods)
    Modelisation
    Classical methods
    Deep Neural Networks