Programmation (Python)
Les fichiers générés et le matériel requis sont au format Pickle, spécifique au module Python "Pickle". Chaque fichier Jupyter Notebook est fourni dans trois formats différents : 1. PDF 2. CODE : affiché par nbviewer 3. le format BRUT : téléchargeable et ouvrable dans Python (nécessite Jupyter Notebook ou Google Colab). En cas d'absence de graphiques dans le fichier PDF, un fichier HTML est fourni en remplacement.
Veuillez noter que les fichiers ne sont pas tous suffisamment commentés pour le moment. Si un fichier en particulier vous intéresse, veuillez me le signaler et je le commenterai et le rendrai accessible sur la page dans les plus brefs délais.
Le symbole ✅ sera utilisé pour indiquer les fichiers qui ont été finalisés (ou presque) en termes de commentaires et d'organisation. Cela permettra aux utilisateurs de repérer facilement les fichiers prêts à être consultés avec une bonne structure et des commentaires appropriés.
Des améliorations sont prévues pour chaque fichier notebook, notamment :
- Commentaires détaillés dans toutes les cellules, avec une organisation claire.
- Suppression des brouillons et des cellules non nécessaires, regroupement des fichiers fragmentés en un seul.
- Mention et reconnaissance des personnes ayant servi d'inspiration dans le notebook, avec une signature appropriée.
- Création d'un module Python permettant aux utilisateurs d'importer les données et de calculer la matrice de covariance pénalisée, ainsi que des régions de confiance et des tests, pour des travaux en grande dimension où la matrice de covariance n'est pas de plein rang.
- Développement d'un outil permettant à tout utilisateur de construire un modèle de classification log-linéaire en utilisant le même choix de pénalité proposé dans le chapitre II de ma thèse.
Ces améliorations futures visent à rendre les fichiers plus accessibles, plus ordonnés et plus conviviaux tout en garantissant un niveau de professionnalisme élevé.
Analyse sémantique des données textuelles
Getting textual data from different resources, processing these data, building models. For beginners, it's better to start with the Python and nltk introduction file.
Extracting and reading data (Source)
Reading PDF (numerical documents)
Reading image (scanned documents)
Extracting texts from the web (using urllib and re packages, using beautifulsoup)
Precessing data
Python and nltk introduction
Acessing corpora
Functions
Little applications : Dictionnary and synonym
Word embedding (transforming words to vectors: discrete-sparse, and continuous-dense methods)
Modelisation
Classical methods
Deep Neural Networks