CENTROÏDES PARFAITS : MINIMISER LE SSE DANS LE CLUSTERING

 


L’algorithme k-means est une méthode puissante pour regrouper des éléments en fonction de leurs caractéristiques. Mais comment s’assurer que ces regroupements sont optimaux ? Découvrez comment minimiser les erreurs de clustering pour obtenir des résultats fiables et précis. Cet article vous guidera à travers les concepts clés et leurs applications pratiques.


Lire la suite


Introduction au clustering : Kmeans


Plongez dans le monde intéressant du clustering, une méthode géniale et simple de regroupement de données. De la segmentation intelligente des données à la compréhension des schémas subtils, découvrez comment cette technique astucieuse nous permet de comprendre des ensembles de données complexes. Préparez-vous à un voyage passionnant, où chaque itération de K-means nous aide à voir des structures cachées dans nos informations.


Lire la suite


Prétraitement des données qualitatives avec Tidymodels : Les “step_?” indispensables

Les variables catégorielles sont couramment présentes dans les jeux de données. Bien que certains modèles, tels que les modèles basés sur les arbres de décision, puissent fonctionner sans prétraitement, d’autres modèles nécessitent une transformation des variables catégorielles. Dans cet article, je vais vous présenter brièvement les méthodes couramment utilisées pour l’encodage des variables catégorielles, ainsi que la mise en pratique de ces méthodes en utilisant le package recipe de Tidymodels.

Lire la suite


Tidymodels : une approche claire pour la modélisation et le machine learning avec R

Durant cette semaine, j’ai décidé de partager une série d’articles de blog avec vous pour vous aider à maîtriser le framework tidymodels. Ce framework est très utile pour la modélisation et le machine learning en utilisant le langage de programmation R. L’ensemble d’outils que tidymodels fournit permet de simplifier les différentes étapes de la modélisation, de la préparation des données jusqu’à l’évaluation des modèles. Il est vrai que ce framework n’est pas aussi complet que scikit-learn en termes de fonctionnalités, mais il est en constante évolution et présente de nombreux avantages.

Lire la suite


Quelques mots sur le plongement lexical (word embedding)

Cet article de blog fait suite à un précédent article intitulé “Le modèle sac-de-mots : une introduction à la représentation de texte pour l’apprentissage automatique”, dans lequel j’ai présenté le modèle de Bag of Words (BoW) comme une approche simple pour représenter les mots sous forme vectorielle. À la fin de cet article, j’ai souligné deux limites principales de cette méthode :

Lire la suite


Le modèle de sac de mots : une introduction à la représentation de texte pour l’apprentissage automatique

De nos jours, il est fréquent de trouver des données textuelles telles que des commentaires, des descriptions de produits, des messages sur les réseaux sociaux, des articles de presse, des e-mails, des transcriptions de discours, etc. au sein des jeux de données. Cependant, les algorithmes de Machine Learning ne peuvent pas traiter directement ces données brutes. Il est donc nécessaire de les convertir en vecteurs numériques avant de pouvoir les utiliser pour la modélisation.

Lire la suite


Structures de sauvegarde de modèle de machine learning : le format hdf5

Lors de la construction d’une application en science de données, l’une des étapes les plus importantes concerne la sauvegarde et le chargement de modèles de machine learning. Cela permet de stocker des modèles entraînés pour une utilisation ultérieure et facilite le partage et le déploiement de modèles avec d’autres utilisateurs. En Python cette tache est relativement simple puisqu’il dispose de plusieurs structures de sauvegarde de modèles de machine learning, chacune offrant ses avantages et inconvénients.

Dans une série de 4 articles, nous explorerons ensemble certaines des structures de sauvegarde de modèles de machine learning les plus couramment utilisées en Python, ainsi que leurs caractéristiques et leur utilisation pratique. Il s’agit des structures HDF5 (Hierarchical Data Format 5), PICKLE, JOBLIB et ONNX.

Lire la suite