Projets
Gridworld Q-Learning
Navigation dans un labyrinthe avec Q-learning tabular
Implémentation from scratch de Q-learning tabular pour apprendre à naviguer dans un labyrinthe discret (GridWorld). Politique ε-greedy, convergence de la Q-table, visualisation de la politique apprise.
SARSA sur CartPole
Équilibrage de perche avec politique ε-greedy
Utilisation de SARSA (on-policy TD) pour résoudre CartPole-v1 de Gymnasium. Discrétisation de l'espace d'état, comparaison SARSA vs Q-learning, analyse de la sensibilité aux hyperparamètres (α, γ, ε).
Deep Q-Network (DQN)
Jeu Atari avec replay memory et réseau cible
Implémentation du DQN de DeepMind : réseau neuronal pour approximer Q(s,a), experience replay buffer, réseau cible gelé pour la stabilité. Application sur Atari Pong ou LunarLander-v2.
Prédateur-Proie Multi-Agent
Coopération émergente avec Q-learning indépendant
Environnement multi-agent où plusieurs prédateurs doivent coopérer pour capturer une proie. Q-learning indépendant (IQL) par agent, analyse des stratégies émergentes et limites du paradigme indépendant (non-stationnarité).
MADDPG — Jeu Compétitif
Multi-Agent Deep Deterministic Policy Gradient
Implémentation de MADDPG pour un environnement mixte coopératif-compétitif. Chaque agent a un acteur local et un critique centralisé. Analyse de la convergence, instabilités et techniques de stabilisation.
RL pour le TSP — Pointer Network
Résolution du Voyageur de Commerce via Reinforcement Learning
Utilisation d'un Pointer Network (mécanisme d'attention + RL) pour apprendre à résoudre le TSP. Comparaison avec les solveurs classiques (OR-Tools, heuristiques). Reproduit l'approche Bello et al. 2016.
MLP from Scratch — MNIST
Réseau multicouche implémenté en NumPy pur
Construction d'un perceptron multicouche (MLP) de zéro avec NumPy : forward pass, rétropropagation, descente de gradient. Classification des chiffres manuscrits MNIST, visualisation des neurones.
CNN Classification — CIFAR-10
Réseau convolutif avec PyTorch
Conception et entraînement d'un CNN pour la classification d'images CIFAR-10. Convolutions, pooling, batch normalization, data augmentation, transfer learning avec ResNet.
LSTM Séries Temporelles
Prévision de séries financières ou météo
Modèle LSTM pour la prévision de séries temporelles (prix d'actions ou données météo). Fenêtrage temporel, normalisation, évaluation RMSE/MAE, comparaison avec ARIMA.
Autoencoder — Détection d'Anomalies
Détection non supervisée par reconstruction
Autoencoder convolutif entraîné uniquement sur des données normales. Les anomalies sont détectées par seuil sur l'erreur de reconstruction. Application sur données industrielles (vibrations, logs réseau).
Transformer from Scratch
Implémentation complète du mécanisme d'attention
Implémentation du Transformer (Vaswani et al. 2017) de zéro : multi-head attention, positional encoding, encoder-decoder. Application sur traduction ou classification de texte.
GNN — Graphes de Transport
Graph Neural Network pour prédiction et optimisation
Réseau de neurones sur graphe (GCN / GraphSAGE) appliqué à un graphe de transport. Prédiction de temps de trajet, détection de congestion, aide à la décision pour le routage optimal.
Knapsack Problem — DP & Heuristiques
Sac à dos 0/1 : programmation dynamique et heuristiques
Résolution du problème du sac à dos 0/1 par programmation dynamique exacte, Branch & Bound, et heuristiques greedy. Comparaison qualité/temps sur instances de tailles croissantes.
Coloration de Graphe
Algorithmes gloutons, backtracking, DSATUR
Implémentation et comparaison d'algorithmes de coloration de graphe : glouton, backtracking avec élagage, DSATUR. Application à la planification d'examens (éviter les conflits horaires).
TSP — Métaheuristiques
Voyageur de Commerce : recuit simulé, tabou, génétique
Résolution du TSP avec trois métaheuristiques : recuit simulé, recherche tabou, algorithme génétique. Benchmarks sur instances TSPlib, comparaison qualité/temps et visualisation des tournées.
Scheduling avec PLNE
Ordonnancement d'emploi du temps par programmation linéaire
Modélisation et résolution d'un problème d'ordonnancement (emploi du temps étudiant ou planning d'équipes) par PLNE avec PuLP/CPLEX. Gestion des contraintes dures et molles, analyse de sensibilité.
Ring-Star Problem — Transport Public
Optimisation NP-difficile combinant p-médian et TSP
Modélisation du Ring-Star Problem (RSP) pour l'optimisation de réseaux de transport. Heuristiques constructives et d'amélioration itérative, formulation PLNE compacte, analyse sur instances TSPlib réelles avec variation du paramètre p.
Optimisation Stochastique Guidée par ML
Heuristiques intelligentes pour problèmes d'OR sous incertitude
Apprentissage d'une politique de sélection de voisinage pour améliorer les heuristiques de recherche locale (Large Neighborhood Search guidé par ML). Application à la planification logistique avec demande incertaine.
Analyse Parcoursup — Académie de Créteil
EDA, ML supervisé et non supervisé sur données réelles
Prétraitement et structuration de données Parcoursup. Feature engineering, sélection de variables, régression linéaire supervisée, ACP non supervisée, tests statistiques (χ²). Visualisation des disparités d'accès par académie.
Régression & Classification from Scratch
Régression linéaire et logistique en NumPy pur
Implémentation de la régression linéaire (moindres carrés, gradient), de la régression logistique (sigmoïde, cross-entropy) et de la régularisation (L1/L2) sans bibliothèque ML. Visualisation des frontières de décision.
Ensemble Methods — XGBoost & SHAP
Random Forest, XGBoost et interprétabilité sur données tabulaires
Pipeline complet de classification sur données tabulaires : Random Forest, Gradient Boosting, XGBoost avec tuning d'hyperparamètres (Optuna). Interprétabilité globale et locale via SHAP values.
Clustering & Réduction de Dimension
K-means, DBSCAN, GMM + visualisation UMAP / t-SNE
Comparaison de K-means, DBSCAN et Gaussian Mixture Models sur des jeux de données variés (formes complexes, bruit). Visualisation en 2D via UMAP et t-SNE. Application : segmentation client ou détection de communautés dans des graphes.
Pipeline ML Production-Ready
Feature selection, cross-validation, MLflow, déploiement
Construction d'un pipeline ML complet : sélection de features (recursive, SHAP), validation croisée imbriquée, traçage des expériences avec MLflow, exposition via FastAPI et conteneurisation Docker.
Time Series Forecasting + Attention
Prévision longue portée avec mécanisme d'attention
Modèle de prévision de séries temporelles longues (Informer / Temporal Fusion Transformer). Mécanisme d'attention temporelle, gestion de saisonnalités multiples, évaluation RMSE/MAPE vs baselines (ARIMA, Prophet, LSTM).