25 juillet 2022

Introduction au Machine Learning avec caret

Si vous voulez faire du Machine Learning avec R, le package caret (Classification And REgression Training) est l’un des packages indispensables que vous devez savoir manipuler. C’est un package qui met à votre disposition plus de 200 algorithmes de Machine Learning ( classification et régression)  avec une interface unifiée et simple à utiliser. C’est en quelques sortes l’un des “équivalents” du célèbre scikit-learn de python sur R.

Lire la suite


Data Science : Test de Shapiro-Wilk

Comme indiqué dans le premier article Data science : Droite de Henry, nous continuons notre série sur les tests de normalité avec ce troisième article consacré au test de Shapiro-Wilk.

Considéré comme le plus fiable des tests de normalité, ce test publié en 1965 par Samuel Shapiro et Martin Wilk était à l’origine limité à des échantillons de moins de 50 individus. Mais en 1982 puis 1992, Royston a apporté des modifications au test de Shapiro-Wilk pour qu’il soit valable pour des échantillons contenant jusqu’à 5000 individus.

Pour les illustrations nous utiliserons scipy (scipy.stats.shapiro).

Lire la suite


Data science : Les tests de Kolmogorov-Smirnov et Lilliefors

Les tests de Kolmogrov-Smirnov(KS) et Lilliefors(LF) sont certainement les tests les plus populaires lorsqu’il s’agit de tester la normalité d’un échantillon. Comme nous l’avons vu dans le premier article Data science : Droite de Henry, ces tests ne sont pas seulement réservés à la loi normale, la normalité n’étant qu’un cas particulier. Pour être plus précis, ils permettent de tester si un échantillon provient d’une distribution continue. Le test de Lilliefors, en particulier, ne s’applique qu’à trois distributions continues : NormaleExponentielle et Uniforme.

Lire la suite


Data science : Droite de Henry

De nombreuses procédures statistiques requièrent l’hypothèse de normalité, notamment lors des procédures statistiques paramétriques où on suppose que les données suivent une certaine distribution qui est généralement normale. Cet article est le premier d’une série de 5 qui a pour ambition de présenter le principe de la droite de Henry et les principaux tests de normalité notamment les tests de : Kolmogorov-Smirnov(KS), Lilliefors(LF), Shapiro-Wilks(SW), Anderson-Darling(AD) et enfin Cramer-Von Mises(CVM).

Lire la suite


La régression linéaire : Régression PCR & PLS ( 2/2)

La régression par les moindres carrés partiels (PLS) est très similaire à la régression PCR. Elle permet également de transformer les variables initiales en nouvelles variables non corrélées et que l’on peut classer par ordre d’importance. La régression PCR opte pour la part de variabilité qu’elles représentent parmi les variables explicatives initiales comme critère dimportance tandis que la régression PLS a choisi dopter pour leur lien avec la variable à expliquer. 

Lire la suite


La régression linéaire : Régression PCR & PLS (1/2)

Dans les articles précédents ([1] [2]), nous avons présenté les régressions sous contraintes (Ridge, Lasso & Elastic NeT ) comme des remèdes aux problèmes de multicolinéarité et d’un nombre excessif de variables explicatives. Dans cet article nous allons aborder deux autres approches pour résoudre ces problèmes :  la régression sur composantes principales (PCR) et la régression des moindres carrés partiels (PLS).

Lire la suite