Post

Analyse des données Parcoursup — Académie de Créteil

EDA, feature engineering, apprentissage supervisé et non supervisé sur données réelles Parcoursup.

Analyse des données Parcoursup — Académie de Créteil

Contexte

Dans le cadre d’un module d’analyse de données, j’ai exploré le jeu de données Parcoursup de l’Académie de Créteil pour comprendre les facteurs influençant l’accès aux formations du supérieur.

L’objectif était d’appliquer un pipeline ML complet sur des données réelles : prétraitement, feature engineering, modélisation supervisée et non supervisée.

Problématique

  • Quels facteurs prédisent le taux d’admission dans une formation ?
  • Existe-t-il des profils de formations distincts selon leurs caractéristiques ?
  • Comment visualiser et expliquer ces disparités à un public non technique ?

Pipeline mis en œuvre

Données brutes (CSV Parcoursup) │ ├── 1. Prétraitement │ ├── Nettoyage (valeurs manquantes, doublons) │ ├── Encodage des variables catégorielles │ └── Normalisation (StandardScaler) │ ├── 2. Feature Engineering │ ├── Sélection de variables (corrélation, variance) │ └── Création de ratios (taux de sélectivité, taux de remplissage) │ ├── 3. Apprentissage supervisé │ └── Régression linéaire (prédiction du taux d'admission) │ └── 4. Apprentissage non supervisé ├── ACP (réduction de dimension) └── Tests statistiques (χ², SciPy)

Technologies utilisées

OutilRôle
PythonLangage principal
Pandas & NumPyManipulation et calcul matriciel
Scikit-learnModèles ML, preprocessing, ACP
SciPyTests statistiques (χ²)
Matplotlib / SeabornVisualisations
GitVersioning

Résultats

Régression linéaire supervisée

  • Variables les plus corrélées au taux d’admission : capacité d’accueil, nombre de candidats, type de formation
  • Score R² = 0.71 sur le jeu de test
  • MSE interprété en points de pourcentage

ACP non supervisée

  • Les 2 premières composantes expliquent 68% de la variance totale
  • Identification de 3 groupes distincts de formations :
    • Très sélectives (CPGE, certaines licences)
    • Moyennement sélectives (BTS, licences professionnelles)
    • Peu sélectives (formations ouvertes)

Tests statistiques

  • Test χ² confirme l’association significative entre le type d’établissement et le taux de sélectivité (p < 0.001)

Code source

Le code est disponible sur GitHub : lamine2004sow/parcoursup-analyse

Ce que j’ai appris

  • Travailler sur des données réelles imparfaites (valeurs manquantes, incohérences)
  • Choisir et justifier les transformations de features adaptées au problème
  • Interpréter les composantes d’une ACP de façon actionnable
  • Articuler des résultats statistiques pour un public non spécialiste
This post is licensed under CC BY 4.0 by the author.