El Mehdi

Travaux et Parcours professionnel

Enseignement

Mathématiques : [TD] Professeur Assistant (Chargé de TD). [Cours] Professeur principal du cours.

Tests statistiques deuxième année de licence (L2) économie (2020-2021) [TD]
Statistiques descriptives première année de licence (L1) psychologie (2020-2021) [TD]
Statistiques appliquées à la gestion 3ème année de lic. (L3) gestion (2018-2021) [TD]
Statistiques 1ère, 2ème et 3ème année de licence psychologie (2020-2022) [TD]
Analyse première année de Licence (L1) économie (2017-2018 et 2020-2021) [TD]
Analyse sémantique des données textuelles deuxième année de Master (M2) Data Science (2021-2023) [Cours, TD et TP]

Colloque, Conférence et Séminaires

2023 - Séminaire - Au Laboratoire de Mathé- matiques Appliquées de Compiègne (LMAC)
> Présentation : "Exponential bounds for regularized Hotelling's T² statistic in high dimension"
2019 - Conférence Statistique Mathématique et Applications 2019 (StatMathAppli2019)
> Présentation : "Automatic Text Simplification"
2019 - Colloque - European Meeting of Statisticians 2019 Palermo (EMS2019)
> Exposé : "Automatic Text Simplification"

Big Data is watching you - Photo by Franki Chamaki on Unsplash

2019 - Colloque - International Society for NonParametric Statistics 2018 (l’ISNPS 2018)
> Présentation : "Feature based models"
2018 - Séminaire Doctorant, A.T.E.R et Post-docs Modal’X (DAP 2018)
> Exposé : "Maximum d’entropie pour le POS Tagging"
2017 - Événement Groupe de travail «Entropie, mots, statistique (2017)» Co-organisé par Patrice Bertail
> Exposé : "Maximum d’Entropie pour la traduction ou la réduction de texte"

Champs de Recherche

Mathématiques - Informatique - Linguistique

Statistique
- La vraisemblance empirique généralisée et la Hotelling T² régularisée (tests de moyennes en multidimensionnel, en grande dimension)
- Pénalisation de la matrice de variance-covariance empirique en grande dimension
- Inégalités de concentration en grande dimension, à horizon fini et en asymptotique
- Modèles paramètriques, modèles non paramètriques et séries temporelles
- La régression logistique pénalisée (normes L₁ et L₂ et combinaisons de L_P), Les chaînes de Markov cachées (plus appliqué que théorique)

Informatique :
- Les algorithmes de descente de gradient classique et stochastique
- Programmation Python (pyspark, sklearn, keras, tensorflow, scipy, numpy, numba, nltk, pandas, gensim, word2vec embedding)
- Extraction de corpus, nettoyage et pré-traitement, exploration. Extraction de bitextes (corpus parallèles), alignements et modélisations (Traducteur automatique)

linguistique :
- Traitement automatique du langage naturel (Découpage des textes en morceaux, Étiquetage morpho-syntaxique, Fragmentation en syntagmes, arbre syntaxique)
- Traitements "bas niveau", niveau lexical, niveau morphologique, syntaxique, sémantique et pragramtique

Apprentissage automatique

Apprentissage supervisé (Classification, Régression)
Apprentissage non-supervisé (Réduction de la dimension ACP-ACM-AFC, Clustering, Arbre de décision)

Apprentissage profond
Réseaux de neurones profonds Convolutifs (CNN), Récurrents (RNN), Génératifs (GAN) etc. (GRU, LSTM, GAN, Encoder-Decoder)

Recherche

Publications: articles et pre-print
- Papier 1 (théorique) : Exponential bounds for regularized Hotelling’s T² statistic in high dimension
  Avec Patrice Bertail et Emmanuelle Gautherat.
- Papier 2 (appliqué) : GEL and Complexity Measure
  Avec Patrice Bertail.
Autres
- Conférence ISNPS2018 Présentations
- Conférence StatMathAppli Diapos de la présentation
- Article Diapos de la présentation
- Rencontre avec Modyco Slides Mesure de complexité

Projets professionnels

Fevrier 2017 CDD (4 mois)
Reponsable projet chez
Dalink Conseil Direction «R&D»

Gestion de projet en transformation digitale et intégration de nouveaux produits innovants
Analyse du marché : étude de l’impact économique et de la faisabilité
- - Comptes rendus des réunions avec les investisseurs, les fournisseurs et les clients
- - Gouvernance : Découpage du projet en chantiers, répartition de tâches et estimation de la charge
- - Pilotage et tableaux de bords : Budget, suivi des comités de pilotage, reportings
Outils utilisés : Excel, VBA, R et InDesign

Avril 2016 Stage (6 mois)
Chargé d’études actuarielles à La Mutuelle Générale
Direction technique - Département «Prévoyance individuelle et Contrats Collectifs»

Étude des dérives des coûts moyens en santé collective sur un compte clé :
- - Construction, traitement et gestion de bases de données (BO et SQL)
- - Statistiques : Analyses et explorations de données – Data Mining (SAS, R)
- - Étude des dépenses des assurés, Modélisation probabiliste de la sinistralité
- - Automatisation de reportings (VBA), mesure de performance et amélioration
Outils : BO, SQL, SAS Guide, Excel, VBA

Ressources

Programmation (Python)

Les fichiers générés et le matériel requis sont au format Pickle, spécifique au module Python "Pickle". Chaque fichier Jupyter Notebook est fourni dans trois formats différents : 1. PDF 2. CODE : affiché par nbviewer 3. le format BRUT : téléchargeable et ouvrable dans Python (nécessite Jupyter Notebook ou Google Colab). En cas d'absence de graphiques dans le fichier PDF, un fichier HTML est fourni en remplacement.
Veuillez noter que les fichiers ne sont pas tous suffisamment commentés pour le moment. Si un fichier en particulier vous intéresse, veuillez me le signaler et je le commenterai et le rendrai accessible sur la page dans les plus brefs délais.
Le symbole ✅ sera utilisé pour indiquer les fichiers qui ont été finalisés (ou presque) en termes de commentaires et d'organisation. Cela permettra aux utilisateurs de repérer facilement les fichiers prêts à être consultés avec une bonne structure et des commentaires appropriés.

POS Tagging (étiquettage morpho-syntaxique)
Mesure de complexité
Hotelling T² et covariance emp. pénalisée
- Preparing true covariance matrix
  - True covariance matrix (Diagonal case) (Code) (Raw)
  - Necessary material: n_list ; q_list
- Simulations Monte Carlo
  - Generate samples - dependent, s = 0.6 (Code)(Raw)
  - Generate samples - dependent, s= 0.99 (Code)(Raw)
  - Generate samples - independent, d0.6 (Code)(Raw)
  - Generate samples - independent, d0.99 (Code)(Raw)
  - Necessary material: vp_collection_d06, vp_collection_d099
  - Generated files: data_d_s0.6, data_d_s0.99, data_vp_collection_d06, data_vp_collection_d099
- Représentations graphiques
  - Graphiques (Code)(Raw)
  - Graphiques bis (Code)(Raw)
Réseaux de neurones
- Un réseau de neurones simple (1 neurone) (Code) ✅
Autre outils
- API Wikipedia
- À venir

Des améliorations sont prévues pour chaque fichier notebook, notamment :

Commentaires détaillés dans toutes les cellules, avec une organisation claire.
Suppression des brouillons et des cellules non nécessaires, regroupement des fichiers fragmentés en un seul.
Mention et reconnaissance des personnes ayant servi d'inspiration dans le notebook, avec une signature appropriée.
Création d'un module Python permettant aux utilisateurs d'importer les données et de calculer la matrice de covariance pénalisée, ainsi que des régions de confiance et des tests, pour des travaux en grande dimension où la matrice de covariance n'est pas de plein rang.
Développement d'un outil permettant à tout utilisateur de construire un modèle de classification log-linéaire en utilisant le même choix de pénalité proposé dans le chapitre II de ma thèse.

Ces améliorations futures visent à rendre les fichiers plus accessibles, plus ordonnés et plus conviviaux tout en garantissant un niveau de professionnalisme élevé.

Analyse sémantique des données textuelles

Getting textual data from different resources, processing these data, building models. For beginners, it's better to start with the Python and nltk introduction file.

Extracting and reading data (Source)
Reading PDF (numerical documents)
Reading image (scanned documents)
Extracting texts from the web (using urllib and re packages, using beautifulsoup)

Precessing data
Python and nltk introduction
Acessing corpora
Functions
Little applications : Dictionnary and synonym Word embedding (transforming words to vectors: discrete-sparse, and continuous-dense methods)

Modelisation
Classical methods
Deep Neural Networks

Informations

Laboratoire MODAL'X, UMR 9023, Université Paris Nanterre
200 Avenue de la République - 92001 Nanterre Cedex
Entresol du Bâtiment Maurice Allais (G)
École Doctorale : Connaissances, Langage et Modélisation (ED 139)

emissouani@gmail.com

missouani@parisnanterre.fr

El Mehdi ISSOUANI

Copyright 2019-2023 issouani.perso.math.cnrs.fr Tous droits réservés ©

El Mehdi ISSOUANI

Data Scientist
Doctorant en Mathématiques appliquées

Bienvenue

Thèse : Modèles et Algorithmes de Simplification Automatique de Textes

Directeur : Patrice Bertail
Groupe de travail : Thierry Dumont, Emmanuelle Gautherat, Mélanie Zetlaoui

Travaux et Parcours professionnel

Ressources

El Mehdi ISSOUANI

Data ScientistDoctorant en Mathématiques appliquées

Bienvenue

Thèse : Modèles et Algorithmes de Simplification Automatique de Textes

Directeur : Patrice Bertail Groupe de travail : Thierry Dumont, Emmanuelle Gautherat, Mélanie Zetlaoui

Travaux et Parcours professionnel Appuyer ici pour cacher les informations ci-dessous

Ressources Appuyer ici pour cacher les informations ci-dessous

Data Scientist
Doctorant en Mathématiques appliquées

Directeur : Patrice Bertail
Groupe de travail : Thierry Dumont, Emmanuelle Gautherat, Mélanie Zetlaoui

Travaux et Parcours professionnel

Ressources