Travaux et Parcours professionnel


Enseignement


Mathématiques : [TD] Professeur Assistant (Chargé de TD). [Cours] Professeur principal du cours.
  • Tests statistiques deuxième année de licence (L2) économie (2020-2021) [TD]
  • Statistiques descriptives première année de licence (L1) psychologie (2020-2021) [TD]
  • Statistiques appliquées à la gestion 3ème année de lic. (L3) gestion (2018-2021) [TD]
  • Statistiques 1ère, 2ème et 3ème année de licence psychologie (2020-2022) [TD]
  • Analyse première année de Licence (L1) économie (2017-2018 et 2020-2021) [TD]
  • Analyse sémantique des données textuelles deuxième année de Master (M2) Data Science (2021-2023) [Cours, TD et TP]

Colloque, Conférence et Séminaires


Big Data is watching you - Photo by Franki Chamaki on Unsplash


Champs de Recherche


    Mathématiques - Informatique - Linguistique
  • Statistique
    • La vraisemblance empirique généralisée et la Hotelling T2 régularisée (tests de moyennes en multidimensionnel, en grande dimension)
    • Pénalisation de la matrice de variance-covariance empirique en grande dimension
    • Inégalités de concentration en grande dimension, à horizon fini et en asymptotique
    • Modèles paramètriques, modèles non paramètriques et séries temporelles
    • La régression logistique pénalisée (normes L1 et L2 et combinaisons de LP), Les chaînes de Markov cachées (plus appliqué que théorique)

  • Informatique :
    • Les algorithmes de descente de gradient classique et stochastique
    • Programmation Python (pyspark, sklearn, keras, tensorflow, scipy, numpy, numba, nltk, pandas, gensim, word2vec embedding)
    • Extraction de corpus, nettoyage et pré-traitement, exploration. Extraction de bitextes (corpus parallèles), alignements et modélisations (Traducteur automatique)

  • linguistique :
    • Traitement automatique du langage naturel (Découpage des textes en morceaux, Étiquetage morpho-syntaxique, Fragmentation en syntagmes, arbre syntaxique)
    • Traitements "bas niveau", niveau lexical, niveau morphologique, syntaxique, sémantique et pragramtique

Photo de Júnior Ferreira sur Unsplash

  • Apprentissage automatique
    • Apprentissage supervisé (Classification, Régression)
    • Apprentissage non-supervisé (Réduction de la dimension ACP-ACM-AFC, Clustering, Arbre de décision)

    • Apprentissage profond
    • Réseaux de neurones profonds Convolutifs (CNN), Récurrents (RNN), Génératifs (GAN) etc. (GRU, LSTM, GAN, Encoder-Decoder)

Projets professionnels


Fevrier 2017 CDD (4 mois)

Reponsable projet chez
Dalink Conseil
Direction «R&D»

  • Gestion de projet en transformation digitale et intégration de nouveaux produits innovants
  • Analyse du marché : étude de l’impact économique et de la faisabilité
    • - Comptes rendus des réunions avec les investisseurs, les fournisseurs et les clients
    • - Gouvernance : Découpage du projet en chantiers, répartition de tâches et estimation de la charge
    • - Pilotage et tableaux de bords : Budget, suivi des comités de pilotage, reportings
  • Outils utilisés : Excel, VBA, R et InDesign



Avril 2016 Stage (6 mois)
Chargé d’études actuarielles à La Mutuelle Générale
Direction technique - Département «Prévoyance individuelle et Contrats Collectifs»

  • Étude des dérives des coûts moyens en santé collective sur un compte clé :
    • - Construction, traitement et gestion de bases de données (BO et SQL)
    • - Statistiques : Analyses et explorations de données – Data Mining (SAS, R)
    • - Étude des dépenses des assurés, Modélisation probabiliste de la sinistralité
    • - Automatisation de reportings (VBA), mesure de performance et amélioration
  • Outils : BO, SQL, SAS Guide, Excel, VBA


Photo de Alina Grubnyak sur Unsplash



Ressources

Programmation (Python)

Les fichiers générés et le matériel requis sont au format Pickle, spécifique au module Python "Pickle". Chaque fichier Jupyter Notebook est fourni dans trois formats différents : 1. PDF 2. CODE : affiché par nbviewer 3. le format BRUT : téléchargeable et ouvrable dans Python (nécessite Jupyter Notebook ou Google Colab). En cas d'absence de graphiques dans le fichier PDF, un fichier HTML est fourni en remplacement.
Veuillez noter que les fichiers ne sont pas tous suffisamment commentés pour le moment. Si un fichier en particulier vous intéresse, veuillez me le signaler et je le commenterai et le rendrai accessible sur la page dans les plus brefs délais.
Le symbole ✅ sera utilisé pour indiquer les fichiers qui ont été finalisés (ou presque) en termes de commentaires et d'organisation. Cela permettra aux utilisateurs de repérer facilement les fichiers prêts à être consultés avec une bonne structure et des commentaires appropriés.


Des améliorations sont prévues pour chaque fichier notebook, notamment :

  1. Commentaires détaillés dans toutes les cellules, avec une organisation claire.
  2. Suppression des brouillons et des cellules non nécessaires, regroupement des fichiers fragmentés en un seul.
  3. Mention et reconnaissance des personnes ayant servi d'inspiration dans le notebook, avec une signature appropriée.
  4. Création d'un module Python permettant aux utilisateurs d'importer les données et de calculer la matrice de covariance pénalisée, ainsi que des régions de confiance et des tests, pour des travaux en grande dimension où la matrice de covariance n'est pas de plein rang.
  5. Développement d'un outil permettant à tout utilisateur de construire un modèle de classification log-linéaire en utilisant le même choix de pénalité proposé dans le chapitre II de ma thèse.

Ces améliorations futures visent à rendre les fichiers plus accessibles, plus ordonnés et plus conviviaux tout en garantissant un niveau de professionnalisme élevé.

Analyse sémantique des données textuelles

Getting textual data from different resources, processing these data, building models. For beginners, it's better to start with the Python and nltk introduction file.

Extracting and reading data (Source)
Reading PDF (numerical documents)
Reading image (scanned documents)
Extracting texts from the web (using urllib and re packages, using beautifulsoup)

Precessing data
Python and nltk introduction
Acessing corpora
Functions
Little applications : Dictionnary and synonym Word embedding (transforming words to vectors: discrete-sparse, and continuous-dense methods)

Modelisation
Classical methods
Deep Neural Networks