Data Cleaning & Preprocessing · Nettoyage · Préparation données · ISOSET

🧹 Data Cleaning & Preprocessing · Nettoyage · Préparation

Data Cleaning & Preprocessing : nettoyer, normaliser, préparer

Avant tout apprentissage ou analyse, les données brutes doivent être nettoyées et préparées. Gestion des valeurs manquantes, détection des outliers, dédoublonnage, normalisation… Ces étapes sont essentielles pour garantir des résultats fiables. Découvrez les fondamentaux avec ISOSET, l’institut qui forme aux métiers de la donnée.

🧹 Missing values 📊 Outliers 🔄 Normalisation 🗑️ Duplicatas

🧹 Pourquoi le data cleaning est indispensable

Les données réelles sont rarement parfaites. Elles contiennent des erreurs, des incohérences, des valeurs manquantes ou aberrantes. Nettoyer ses données n’est pas une option : c’est une étape obligatoire qui conditionne la qualité de toute analyse ou modèle. Le data cleaning peut représenter jusqu’à 80% du temps d’un projet data science. ISOSET consacre des modules entiers à ces bonnes pratiques.

Gain de performance – des données propres améliorent la précision des modèles.
Réduction des biais – éliminer les artefacts qui fausseraient les conclusions.
Reproductibilité – des pipelines de nettoyage automatisés garantissent des résultats cohérents.

❓ Gestion des valeurs manquantes (missing data)

Les valeurs manquantes sont omniprésentes. Les stratégies varient selon le contexte et le volume de données absentes.

Suppression (listwise) – éliminer les lignes ou colonnes avec trop de NA. À utiliser quand le taux de manquants est très faible (<5%).
Imputation par une constante – remplacer par 0, « Inconnu » ou une valeur par défaut.
Imputation par moyenne/médiane/mode – simple mais réduit la variance. Médiane plus robuste aux outliers.
Imputation par régression ou k-NN – prédit les valeurs manquantes à partir d’autres variables.
Indicateur de présence – créer une colonne binaire « is_missing » pour que le modèle apprenne le motif d’absence.

# Imputation par la médiane avec pandas
import pandas as pd
df['age'].fillna(df['age'].median(), inplace=True)

📊 Outliers : valeurs aberrantes

Un outlier est une valeur significativement différente des autres. Il peut être dû à une erreur de saisie, un problème de mesure, ou être une information légitime (ex : transaction frauduleuse).

Méthode de l’écart interquartile (IQR) – considère comme outlier toute valeur en dehors de [Q1 – 1.5*IQR, Q3 + 1.5*IQR].
Méthode du Z-score – valeurs avec |Z| > 3 (écart-type > 3). Suppose une distribution normale.
Visualisation – boîtes à moustaches (boxplots), diagrammes de dispersion.
Traitement – suppression, plafonnement (capping/winsorisation), transformation logarithmique pour réduire l’impact.

# Détection d’outliers par IQR
Q1 = df['salaire'].quantile(0.25)
Q3 = df['salaire'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['salaire'] < Q1 - 1.5*IQR) | (df['salaire'] > Q3 + 1.5*IQR)]

ISOSET forme les analystes à identifier et traiter les outliers selon le contexte métier.

🔄 Suppression des doublons

Des lignes identiques (ou quasi-identiques) peuvent fausser les statistiques et surreprésenter certains cas. Il est essentiel de les détecter et de les supprimer.

Doublons parfaits – toutes les colonnes sont identiques. Supprimer avec drop_duplicates().
Doublons partiels – basés sur un sous-ensemble de colonnes (ex: même ID client). Conserver la ligne la plus récente ou la plus complète.
Similarité floue (fuzzy matching) – pour les chaînes de caractères légèrement différentes (« Jean Dupont » vs « J. Dupont »).

# Suppression des doublons basée sur toutes les colonnes
df.drop_duplicates(inplace=True)
# Basée sur une colonne spécifique
df.drop_duplicates(subset=['client_id'], keep='last', inplace=True)

📏 Mettre les variables à la même échelle

De nombreux algorithmes (SVM, k-NN, PCA, régression) sont sensibles à l’échelle des variables. Les variables à grande amplitude domineraient artificiellement.

Standardisation (Z-score) – moyenne=0, écart-type=1. Idéal pour données gaussiennes.
Normalisation min-max – ramène dans [0,1]. Respecte la forme de la distribution.
RobustScaler – utilise médiane et IQR. Résiste aux outliers.

# Standardisation avec scikit-learn
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)

ISOSET propose des ateliers pratiques sur le scaling, accessibles au grand public comme aux professionnels.

🔄 Conversion de types et standardisation des formats

Les données importées (CSV, Excel, API) ont souvent des types incorrects : dates en texte, nombres avec virgules, colonnes catégorielles non détectées.

Dates – convertir en datetime avec pd.to_datetime(). Gérer les formats régionaux.
Nombres – remplacer les virgules par des points, gérer les espaces ou symboles monétaires.
Catégories – convertir en type `category` pour économiser la mémoire et accélérer les opérations.
Booléens – mapper « Oui/Non », « Vrai/Faux », 1/0 vers True/False.

# Conversion de types courants avec pandas
df['date'] = pd.to_datetime(df['date'], format='%d/%m/%Y')
df['prix'] = df['prix'].str.replace(',', '.').astype(float)
df['categorie'] = df['categorie'].astype('category')

80%

du temps d’un projet data est consacré au nettoyage

plus de risques d’erreur avec des données sales

50+

techniques de nettoyage répertoriées

📝 Nettoyage des données textuelles

Les colonnes texte contiennent souvent des variations non normalisées (majuscules/minuscules, fautes de frappe, espaces superflus).

Mise en forme – strip(), lower(), title() pour uniformiser.
Correction de fautes – mapping manuel des erreurs fréquentes ou fuzzy matching.
Extraction de sous-chaînes – utiliser regex pour isoler codes postaux, numéros de téléphone, emails.
Catégorisation – regrouper des valeurs proches (« Paris », « paris », « 75 ») en une seule catégorie.

# Nettoyage de colonnes texte
df['ville'] = df['ville'].str.strip().str.lower()
df['code_postal'] = df['adresse'].str.extract(r'(\d{5})')

🧰 Écosystème du data cleaning

Pandas – la bibliothèque de référence en Python : dropna(), fillna(), apply(), map(), replace().
NumPy – opérations vectorielles, gestion des NaN, calculs statistiques.
Scikit-learn – SimpleImputer, StandardScaler, OneHotEncoder, Pipeline.
PyJanitor – extension de pandas avec des méthodes chainées pour le nettoyage.
Great Expectations – validation et documentation des données.

ISOSET enseigne l’utilisation de ces outils dans des pipelines robustes et reproductibles.

✅ Bonnes pratiques pour un nettoyage efficace

Toujours conserver les données brutes – ne jamais écraser l’original. Travailler sur une copie.
Documenter chaque transformation – pourquoi, comment, avec quels paramètres.
Automatiser avec des pipelines – les mêmes étapes pour l’entraînement et la prédiction.
Valider après chaque étape – vérifier les dimensions, les types, les statistiques.
Versionner les données et le code de nettoyage – avec DVC ou Git.

📘 La méthodologie ISOSET : rigueur et traçabilité

ISOSET forme à la construction de pipelines de nettoyage professionnels, où chaque étape est testée et documentée.

📋 Exemple complet de pipeline de nettoyage

# Pipeline de nettoyage typique avec pandas
def clean_data(df):
    # 1. Suppression des doublons
    df = df.drop_duplicates()
    # 2. Suppression colonnes trop vides (>50% NA)
    df = df.dropna(thresh=len(df)*0.5, axis=1)
    # 3. Imputation des valeurs manquantes
    df['age'].fillna(df['age'].median(), inplace=True)
    df['ville'].fillna('Inconnu', inplace=True)
    # 4. Conversion types
    df['date'] = pd.to_datetime(df['date'], errors='coerce')
    # 5. Suppression outliers (IQR)
    Q1, Q3 = df['salaire'].quantile([0.25, 0.75])
    IQR = Q3 - Q1
    df = df[(df['salaire'] >= Q1 - 1.5*IQR) & (df['salaire'] <= Q3 + 1.5*IQR)]
    return df

👩‍💻 Initiation au nettoyage de données avec ISOSET

ISOSET propose des ateliers adaptés aux enfants et adolescents pour comprendre l’importance de données propres, avec des exercices ludiques (nettoyer une liste de courses, corriger des dates, etc.).

💬 Ce qu’en disent les apprenants

Les témoignages d’anciens élèves montrent que la maîtrise du data cleaning est un déclic dans leur carrière : *« Avant ISOSET, je passais des semaines à debugger des modèles à cause de données sales. Maintenant, j’ai des pipelines de nettoyage robustes. »*

🚀 ISOSET : devenez expert du nettoyage de données

L’institut ISOSET vous propose des formations complètes sur le data cleaning et preprocessing : valeurs manquantes, outliers, dédoublonnage, normalisation, conversion de types, pipelines. Avec une approche pratique et des cas concrets, vous apprendrez à transformer des données brutes en données exploitables.

👉 Découvrez les formations ISOSET en préparation de données – posez des bases saines pour vos analyses.

ISOSET: Data Cleaning & Preprocessing

ISOSET: Data Cleaning & Preprocessing

Data Cleaning & Preprocessing : nettoyer, normaliser, préparer

📘 La méthodologie ISOSET : rigueur et traçabilité

🚀 ISOSET : devenez expert du nettoyage de données

isoset.site