Prétraitement des données qualitatives avec Tidymodels : Les “step_?” indispensables

Les variables catégorielles sont couramment présentes dans les jeux de données. Bien que certains modèles, tels que les modèles basés sur les arbres de décision, puissent fonctionner sans prétraitement, d’autres modèles nécessitent une transformation des variables catégorielles. Dans cet article, je vais vous présenter brièvement les méthodes couramment utilisées pour l’encodage des variables catégorielles, ainsi que la mise en pratique de ces méthodes en utilisant le package recipe de Tidymodels.

Lire la suite


Tidymodels : une approche claire pour la modélisation et le machine learning avec R

Durant cette semaine, j’ai décidé de partager une série d’articles de blog avec vous pour vous aider à maîtriser le framework tidymodels. Ce framework est très utile pour la modélisation et le machine learning en utilisant le langage de programmation R. L’ensemble d’outils que tidymodels fournit permet de simplifier les différentes étapes de la modélisation, de la préparation des données jusqu’à l’évaluation des modèles. Il est vrai que ce framework n’est pas aussi complet que scikit-learn en termes de fonctionnalités, mais il est en constante évolution et présente de nombreux avantages.

Lire la suite


Quelques mots sur le plongement lexical (word embedding)

Cet article de blog fait suite à un précédent article intitulé “Le modèle sac-de-mots : une introduction à la représentation de texte pour l’apprentissage automatique”, dans lequel j’ai présenté le modèle de Bag of Words (BoW) comme une approche simple pour représenter les mots sous forme vectorielle. À la fin de cet article, j’ai souligné deux limites principales de cette méthode :

Lire la suite


Le modèle de sac de mots : une introduction à la représentation de texte pour l’apprentissage automatique

De nos jours, il est fréquent de trouver des données textuelles telles que des commentaires, des descriptions de produits, des messages sur les réseaux sociaux, des articles de presse, des e-mails, des transcriptions de discours, etc. au sein des jeux de données. Cependant, les algorithmes de Machine Learning ne peuvent pas traiter directement ces données brutes. Il est donc nécessaire de les convertir en vecteurs numériques avant de pouvoir les utiliser pour la modélisation.

Lire la suite


Distributions Multivariées pour le Machine Learning

Dans mes précédents articles, j’ai examiné les distributions discrètes et continues les plus couramment utilisées en science des données. Aujourd’hui, je voudrais vous présenter les distributions de probabilité multivariées continues, qui sont à la base de nombreux modèles de Machine Learning tels que la régression linéaire multivariée, l’analyse discriminante linéaire, l’analyse discriminante quadratique, etc.

Lire la suite


Distributions de probabilité continues pour le Machine Learning

Dans cet article, je vous propose de faire une repasse sur les distributions de probabilité classiques continues les plus utilisées en statistiques mais plus particulièrement en science des données. Les probabilités jouent un grand rôle en Machine Learning car elles permettent d’évaluer l’incertitude des prédictions qui sont réalisées.Une grande partie des modèles utilisés en Machine sont des modèles probabilistes.

Lire la suite


Distributions de probabilité discrètes pour le Machine Learning

 

Dans cet article, je vous propose de faire une repasse sur les distributions de probabilités classiques discrètes les plus utilisées en statistiques mais plus particulièrement en science des données. Les probabilités jouent un grand rôle en Machine Learning car elles permettent d’évaluer l’incertitude des prédictions qui sont réalisées. Une grande partie des modèles utilisés en Machine Learning sont des modèles probabilistes.

Lire la suite


Introduction au Machine Learning avec caret

Si vous voulez faire du Machine Learning avec R, le package caret (Classification And REgression Training) est l’un des packages indispensables que vous devez savoir manipuler. C’est un package qui met à votre disposition plus de 200 algorithmes de Machine Learning ( classification et régression)  avec une interface unifiée et simple à utiliser. C’est en quelques sortes l’un des “équivalents” du célèbre scikit-learn de python sur R.

Lire la suite


La régression linéaire : Régression PCR & PLS ( 2/2)

La régression par les moindres carrés partiels (PLS) est très similaire à la régression PCR. Elle permet également de transformer les variables initiales en nouvelles variables non corrélées et que l’on peut classer par ordre d’importance. La régression PCR opte pour la part de variabilité qu’elles représentent parmi les variables explicatives initiales comme critère dimportance tandis que la régression PLS a choisi dopter pour leur lien avec la variable à expliquer. 

Lire la suite