Introduction au clustering : Kmeans


Plongez dans le monde intéressant du clustering, une méthode géniale et simple de regroupement de données. De la segmentation intelligente des données à la compréhension des schémas subtils, découvrez comment cette technique astucieuse nous permet de comprendre des ensembles de données complexes. Préparez-vous à un voyage passionnant, où chaque itération de K-means nous aide à voir des structures cachées dans nos informations.


INTRODUCTION

Avant de procéder au lavage des ustensiles de cuisine, une pratique courante consiste à les regrouper en fonction de leur matériau. Cette habitude consiste généralement à rassembler les articles en plastique, les objets cassables et les ustensiles en acier inoxydable, offrant ainsi des avantages notables tels que la simplification du processus de nettoyage et la réduction des risques de dommages.

Cette tendance au regroupement se répète dans d’autres activités, comme le rangement de nos tenues, des légumes dans le frigo, et bien d’autres. Face à un volume important d’informations à comprendre, étudier ou gérer, il semble naturel de les regrouper. Cependant, ce regroupement n’est pas aléatoire ; il découle de notre habitude de rassembler des éléments ayant des caractéristiques similaires.

Cette approche, aussi simple qu’elle puisse paraître, s’étend à la prise de décisions importantes. Par exemple, les entreprises cherchent à comprendre le comportement de leurs clients afin de prédire leurs actions futures. Avec une clientèle croissante, elles se tournent vers l’informatique pour analyser rapidement d’énormes quantités d’informations. L’utilisation de l’ordinateur pour effectuer une analyse de données peut se faire de deux manières : l’apprentissage supervisé, où l’ordinateur apprend à partir d’informations et de résultats fournis, et l’apprentissage non supervisé, où l’ordinateur trouve des affinités entre les éléments pour produire des résultats. C’est cette dernière approche qui nous intéresse ici, car elle aboutit au concept de “clustering“.

En bref, le clustering est une technique d’apprentissage non supervisé largement employée dans l’analyse des données. Dans cet article, nous explorerons les bases du clustering en mettant l’accent sur l’algorithme de K-means. Nous examinerons ses applications, son fonctionnement, ainsi que ses avantages et inconvénients. Enfin, nous illustrerons son utilisation pratique sur des données réelles en utilisant le langage de programmation R.

I. QU’EST-CE QUE LE CLUSTERING ET QUELLES SONT SES APPLICATIONS ?

Le clustering, également appelé regroupement, est une technique d’analyse de données appartenant à la catégorie de l’apprentissage non supervisé. Son objectif principal est de diviser un ensemble de données en groupes homogènes appelés clusters, où les éléments à l’intérieur d’un même cluster sont similaires les uns aux autres, tandis que ceux de clusters différents présentent des différences significatives.

         Applications du clustering :
Segmentation de la clientèle :

Les entreprises utilisent le clustering pour regrouper leurs clients en segments homogènes en fonction de leur comportements d’achat similaires. Cela permet de personnaliser les stratégies marketing et d’adapter les offres aux besoins spécifiques de chaque segment.

Détection d’anomalies :

Le clustering est utilisé pour identifier des comportements ou des observations inhabituels au sein d’un ensemble de données. Cela trouve des applications dans la détection de fraudes, la surveillance de la qualité des processus industriels, etc.

Classification automatique de documents :

Dans le domaine du traitement du langage naturel, le clustering peut être utilisé pour regrouper des documents similaires, facilitant ainsi la classification automatique de contenus textuels.

Compression d’images :

En regroupant des pixels similaires, le clustering peut être appliqué pour compresser des images tout en préservant l’information importante. Cela est utilisé dans divers domaines, y compris la transmission d’images sur Internet.

Analyse de données biologiques :

En biologie, le clustering est employé pour regrouper des gènes ou des protéines similaires, aidant ainsi à comprendre les modèles d’expression génique ou à identifier des groupes fonctionnels.

Recommandation de produits :

Dans le commerce électronique, les systèmes de recommandation utilisent le clustering pour identifier des groupes de produits similaires, permettant de recommander des articles pertinents en fonction des préférences passées de l’utilisateur.

Systèmes de recommandation de contenu :

Les plateformes de streaming ou de contenu en ligne utilisent le clustering pour regrouper des utilisateurs avec des préférences similaires, fournissant ainsi des recommandations de contenu personnalisées.

En résumé, le clustering est une technique polyvalente aux applications variées. Il offre un moyen efficace de découvrir des structures intrinsèques dans les données, facilitant la prise de décision et la compréhension des modèles sous-jacents.

II. COMMENT FONCTIONNE L’ALGORITHME DE K-MEANS ?

L’algorithme de K-means débute en fixant le nombre k de clusters à former, sélectionnant ensuite de manière aléatoire k points comme points centraux, communément appelés “centroïdes”. La phase initiale, nommée “initialisation”, consiste à définir ces centroïdes.

Par la suite, chaque point est assigné au voisinage (cluster) du centroïde le plus proche, et la somme des distances de chaque point à ce centroïde est calculée. Des sommes de distances élevées signalent des anomalies, indiquant la présence d’au moins un point éloigné du centroïde. En cas de distance significative, le point est réaffecté au voisinage du nouveau centroïde, déterminé en comparant les distances entre ce point et les autres centroïdes.

Ce processus de réaffectation induit un déplacement des centroïdes pour se rapprocher au maximum de tous les points de leur nouveau voisinage. Cette itération se répète jusqu’à ce que les centroïdes atteignent une stabilité, c’est-à-dire qu’ils ne bougent plus ou présentent un déplacement insignifiant qui n’affectera pas leur proximité avec leur cluster.

Le résultat final de l’algorithme de K-means est une partition des données en k clusters, où chaque point est associé au cluster dont le centroïde est le plus proche.

L’on peut utiliser la distance euclidienne pour calculer les distances, comme tout autre distance( la distance infinie, la distance associée à la norme 1, et j’en passe ), même si la distance euclidienne reste la plus utilisée.

III. AVANTAGES ET INCONVENIENTS DE  K-MEANS
                                    1. Avantages

L’algorithme K-means est :

  • Efficace pour de grandes quantités de données, ce qui en fait une méthode adaptée pour l’analyse de données volumineuses.
  • Facile à comprendre et à mettre en œuvre, même pour ceux qui sont nouveaux dans le domaine de l’apprentissage automatique.
  • Applicable à divers types de données, qu’il s’agisse de données numériques, catégorielles ou d’autres types, en en faisant une méthode polyvalente.
  • Intéressante, car ses résultats, présentés sous forme de clusters, sont généralement faciles à interpréter et à expliquer.
                                     2. Inconvénients
  • Les performances de l’algorithme K-means peuvent dépendre fortement de l’initialisation des centres ( centroïdes ). Une mauvaise initialisation peut conduire à la convergence vers un minimum local plutôt que vers la solution optimale.
  • L’utilisateur doit fournir le nombre de clusters (k) attendus, ce qui peut parfois être difficile à déterminer a priori.
  • La présence de valeurs aberrantes peut influencer négativement les résultats, car elles peuvent affecter significativement la position des centroïdes.

Par valeur aberrante, on parle d’une valeur distante des autres.

  • K-means suppose que les clusters sont de forme circulaire, ce qui peut être une limitation dans la détection de clusters de formes complexes.

En résumé, bien que l’algorithme K-means présente des avantages en termes de simplicité et d’efficacité, il est important de prendre en compte ses limitations, notamment sa sensibilité à l’initialisation et son incapacité à gérer des formes de clusters complexes.

 

IV. APPLICATION SUR DES DONNEES REELLES ( en langage R)

Nous utiliserons le jeu de données Iris, comprenant des mesures sur les sépales et pétales de trois espèces d’iris.

# Pour le tracé des points installons le package 'ggplot2' avec la commande:
# install.packages("ggplot2")

# Chargement du jeu de données 'iris'
data(iris)

# Petite visualisation (voir l'entête du jeu de données)
head(iris)

visualisation_iris

# Intéressons nous aux 4 premières colonnes de ce jeu de donnée
(donnée = iris[,1:4])

library(ggplot2)
# Standardisons les données
d_stan = scale(donnée)

#Application de l'algorithme K-means avec 3 clusters (k=3)
resultat = kmeans(d_stan, centers = 3, nstart = 20)

#Représentation graphique
donnéeCluster = as.factor(resultatcluster)
ggplot(donnée, aes(x = Sepal.Length, y = Sepal.Width, color = Cluster)) + geom_point() + labs(title = "Visualisation des clusters avec K-means", x = "Longueur du sépale",y = "Largeur du sépale") + theme_minimal()

  • La standardisation (ou normalisation) des données est importante car :

– Les variables dans un ensemble de données peuvent avoir des échelles différentes. Par exemple, la longueur en millimètres et la masse en kilogrammes n’ont pas la même échelle. La standardisation permet de mettre toutes les variables à la même échelle, ce qui permet à l’algorithme K-means de toutes les traiter de manière équitable.

– Elle peut améliorer la convergence de certains algorithmes, y compris K-means.

  • Le paramètre « centers » permet de préciser le nombre de clusters (graphes ou grouppes) que l’on souhaite former.
  • Pourquoi le paramètre « nstart » dans la fonction « kmeans » :

L’algorithme K-means peut être sensible à l’initialisation des centroïdes, et l’utilisation de plusieurs points de départ différents peut aider à atténuer ce problème. L’algorithme est exécuté plusieurs fois, chaque fois avec une initialisation différente, et le meilleur résultat ( la partition des données avec la somme des carrés des distances intra-cluster minimale ) est retenu.

En d’autres termes, on forme 3 clusters à partir de départs différents, on répète l’expérience « nstart » fois, et on prend le meilleur clustering fait.

Dans notre prochain article, nous chercherons à savoir sur quel critère l’on doit se baser pour affirmer qu’un regroupement est le meilleur à l’aide de formules mathématiques.

Si tout comme moi, vous êtes intéressé par le machine Learning, je vous recommande : Quelques méthodes de normalisation avec Scikit-Learn, ou même de la discretisation avec Scikit-Learn. Et si vous ne connaissez pas Scikit-Learn, visitez cette page