Apprentissage non supervisé · Clustering · ACP · Machine Learning · ISOSET

🧬 Unsupervised Learning · Clustering · Dimension Reduction

Apprentissage non supervisé : clustering, ACP & exploration de données

L’apprentissage non supervisé explore les structures cachées des données sans étiquettes. Clustering (regroupement) et réduction de dimension (ACP) sont ses deux piliers. Découvrez ces techniques fondamentales avec ISOSET, l’institut qui forme aux métiers de la data science et de l’intelligence artificielle.

🌀 K-means 📊 ACP (PCA) 🌲 DBSCAN 📐 Silhouette

🧬 Définition et objectifs

Contrairement à l’apprentissage supervisé, l’apprentissage non supervisé travaille sur des données non étiquetées. L’algorithme doit découvrir par lui-même des structures, des similarités ou des régularités. Les deux grandes familles sont : le **clustering** (regroupement en classes naturelles) et la **réduction de dimension** (simplification de l’espace des variables).

🎯 Pourquoi l’apprentissage non supervisé ?

Exploration de données – découvrir des segments clients, des thématiques dans des textes.
Visualisation – projeter des données de haute dimension en 2D/3D (via ACP, t-SNE, UMAP).
Prétraitement – réduire la dimension avant un apprentissage supervisé (moins de bruit, plus rapide).
Détection d’anomalies – les points éloignés de tous les clusters peuvent être suspects.

ISOSET propose des cursus pratiques sur ces méthodes, avec des cas concrets de segmentation client et de visualisation de données complexes.

🌀 Clustering : regrouper sans étiquettes

Le clustering partitionne un ensemble d’observations en groupes (clusters) tels que les éléments d’un même groupe soient plus similaires entre eux qu’avec ceux des autres groupes.

🔹 K-means

L’algorithme le plus célèbre. Il partitionne les données en K clusters, chaque cluster étant représenté par son centroïde (moyenne des points). L’algorithme alterne entre affectation des points au centroïde le plus proche et recalcul des centroïdes. Il est rapide, efficace sur grands volumes, mais suppose des clusters sphériques et de taille similaire.

🔹 Clustering hiérarchique

Construit un dendrogramme (arbre des regroupements). Deux approches : ascendante (agglomérative) ou descendante (divisive). Utile quand on ne connaît pas K à l’avance, mais coûteux sur de grands jeux de données.

🔹 DBSCAN (Density-Based Spatial Clustering)

Détecte des clusters de forme arbitraire et gère le bruit. Basé sur la densité : un cluster est une région dense séparée par des zones peu denses. Idéal pour des données avec des clusters non sphériques ou de densités variables.

# K-means avec scikit-learn
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=5, random_state=42)
clusters = kmeans.fit_predict(X)
centroids = kmeans.cluster_centers_

📐 Comment évaluer un clustering ?

Sans vérité terrain, l’évaluation est délicate. On utilise des métriques intrinsèques qui mesurent la cohésion et la séparation.

Inertie (within-cluster sum of squares) – somme des distances au carré entre chaque point et son centroïde. Plus elle est faible, plus les clusters sont compacts. À minimiser, mais diminue mécaniquement avec K.
Silhouette score – mesure pour chaque point à quel point il est bien dans son cluster vs proche du cluster voisin. Entre -1 et 1, plus c’est élevé, mieux c’est.
Méthode du coude (Elbow method) – on trace l’inertie en fonction de K et on cherche le « coude » (diminution brutale).
Indice de Davies-Bouldin – rapport entre la dispersion intra-cluster et la séparation inter-clusters. À minimiser.

# Calcul du silhouette score pour K-means
from sklearn.metrics import silhouette_score
silhouette_avg = silhouette_score(X, kmeans.labels_)
print(f"Silhouette : {silhouette_avg:.3f}")

ISOSET aide les entreprises à choisir le bon algorithme et la bonne métrique pour leurs problèmes de segmentation.

📊 ACP (PCA) : réduire la dimension sans perdre l’essentiel

L’Analyse en Composantes Principales (PCA en anglais) est la technique de réduction de dimension linéaire la plus répandue. Elle projette les données sur un nouvel espace orthogonal dont les axes (composantes principales) sont orientés selon les directions de variance maximale.

Première composante – direction de plus grande variance.
Deuxième composante – direction orthogonale à la première, expliquant le maximum de variance restante, etc.
Réduction – on ne conserve que les premières composantes (ex : 2 ou 3 pour visualisation, ou un nombre expliquant 95% de la variance).
Interprétation – les coefficients (loadings) indiquent le poids de chaque variable d’origine dans chaque composante.

# ACP avec scikit-learn
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
print(f"Variance expliquée : {pca.explained_variance_ratio_}")

L’ACP est indispensable pour visualiser des données de haute dimension (ex : des centaines de variables) et comme prétraitement avant clustering ou classification pour réduire le bruit. ISOSET propose des ateliers pour le grand public sur la visualisation interactive avec PCA.

🌀 Au-delà de l’ACP : méthodes non linéaires

L’ACP est linéaire. Pour des structures non linéaires (ex : données en forme de cercle ou de ruban de Möbius), on utilise des méthodes non linéaires :

t-SNE (t-distributed Stochastic Neighbor Embedding) – excellente pour la visualisation de données locales (voisinages), très utilisée en bioinformatique et pour les images. Ne conserve pas les distances globales.
UMAP (Uniform Manifold Approximation and Projection) – plus rapide que t-SNE, préserve mieux la topologie globale.
Autoencodeurs (Deep Learning) – réseaux de neurones qui apprennent une représentation compressée non linéaire.

# t-SNE pour visualisation (attention, coûteux en calcul)
from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, random_state=42)
X_tsne = tsne.fit_transform(X)

70%

des données dans l’entreprise ne sont pas étiquetées

2 min

pour clusteriser 1 million de points avec K-means optimisé

95%

de variance conservée avec 10% des dimensions (ACP)

⚙️ Normalisation et scaling pour clustering et ACP

Les algorithmes non supervisés sont très sensibles aux échelles des variables. Une variable avec une grande amplitude dominerait artificiellement les distances ou la variance.

Standardisation (Z-score) – moyenne 0, écart-type 1. Recommandée pour K-means et ACP.
Normalisation min-max – ramène les valeurs dans [0,1]. Alternative si données non gaussiennes.
RobustScaler – utilise médiane et quartiles, résiste aux outliers.

# Standardisation avant ACP
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
pca.fit(X_scaled)

📘 La méthodologie ISOSET : préparer avant de modéliser

ISOSET insiste sur l’importance cruciale du prétraitement. Chaque formation inclut des exercices de scaling et de gestion des outliers avant clustering ou ACP.

🌍 Où utilise-t-on l’apprentissage non supervisé ?

Marketing – segmentation de clientèle (K-means, clustering hiérarchique) pour des campagnes ciblées.
Bioinformatique – classification de gènes, analyse de cellules uniques (t-SNE, UMAP).
Sécurité – détection d’anomalies (DBSCAN, isolation forest).
Recommandation – réduction de dimension pour les systèmes collaboratifs (PCA, SVD).
Analyse de texte – topic modeling (LDA) et clustering de documents.

ISOSET propose des ateliers ludiques pour initier les jeunes à la segmentation (ex : regrouper des images de formes sans étiquettes).

🔢 Trouver le bon K : méthodes et pièges

Dans K-means et le clustering hiérarchique, le nombre de clusters K n’est pas connu a priori. Plusieurs techniques aident à le déterminer :

Méthode du coude (inertie) – simple, mais parfois subjective.
Silhouette moyenne – on choisit le K maximisant le score de silhouette.
Indice de Davies-Bouldin – à minimiser.
Gap statistic – compare l’inertie avec celle de données aléatoires.

# Recherche du meilleur K par silhouette
best_k, best_score = 2, -1
for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    labels = kmeans.fit_predict(X)
    score = silhouette_score(X, labels)
    if score > best_score: best_k, best_score = k, score

⚠️ Pièges à éviter en apprentissage non supervisé

Appliquer K-means sur des données non normalisées – résultats faussés par les variables à grande échelle.
Supposer que K-means fonctionne sur des clusters non sphériques – préférer DBSCAN ou le clustering spectral.
Interpréter les composantes principales sans analyser les loadings – une composante n’a de sens que par ses variables contributrices.
Oublier que l’ACP est linéaire – pour des données fortement non linéaires, utiliser t-SNE ou autoencodeurs.

ISOSET forme des data scientists avertis, capables d’éviter ces écueils grâce à une solide compréhension théorique et pratique.

💬 Ce qu’en disent les apprenants

Les témoignages recueillis par ISOSET montrent que l’apprentissage non supervisé, souvent perçu comme abstrait, devient limpide après une mise en pratique sur des cas réels. *« J’ai enfin compris comment segmenter notre base clients sans étiquettes ! »*, raconte Marie, responsable marketing formée chez ISOSET.

🚀 ISOSET : explorez vos données sans étiquettes

L’institut ISOSET propose des parcours complets en apprentissage non supervisé : clustering (K-means, DBSCAN, hiérarchique), réduction de dimension (ACP, t-SNE, UMAP), évaluation et visualisation. Que vous soyez data scientist, analyste ou débutant, ces compétences sont clés pour extraire de la valeur de données non annotées.

👉 Découvrez les formations ISOSET en machine learning non supervisé – révélez les structures cachées de vos données.

ISOSET: Apprentissage non supervisé, Clustering, ACP, Machine Learning