Structures de sauvegarde de modèle de machine learning : le format hdf5

Lors de la construction d’une application en science de données, l’une des étapes les plus importantes concerne la sauvegarde et le chargement de modèles de machine learning. Cela permet de stocker des modèles entraînés pour une utilisation ultérieure et facilite le partage et le déploiement de modèles avec d’autres utilisateurs. En Python cette tache est relativement simple puisqu’il dispose de plusieurs structures de sauvegarde de modèles de machine learning, chacune offrant ses avantages et inconvénients.

Dans une série de 4 articles, nous explorerons ensemble certaines des structures de sauvegarde de modèles de machine learning les plus couramment utilisées en Python, ainsi que leurs caractéristiques et leur utilisation pratique. Il s’agit des structures HDF5 (Hierarchical Data Format 5), PICKLE, JOBLIB et ONNX.

Lire la suite


Data science : Test de Cramer-Von-Mises

Nous voilà arriver au dernier article de notre série, qui traitera du test de Cramer-Von-Mises.

Le test de Cramer-Von-Mises est une modification du test d’Anderson-Darling. C’est donc un test d’ajustement qui permet de tester si une variable continue donnée suit une loi de distribution fixée. La  normalité est un cas particulier.

A l’instar du test d’Anderson-Darling, le test de Cramer-Von-Mises peut être considéré comme une version puissante  du test de Kolmogorov-Smirnov car très peu sensible aux valeurs extrêmes.

Ce test est implémenté sous la bibliothèque scipy (stats.cramervonmises) et avec le logiciel openturns (NormalityTest.CramerVonMisesNormal).

Lire la suite


Data Science : Test de Shapiro-Wilk

Comme indiqué dans le premier article Data science : Droite de Henry, nous continuons notre série sur les tests de normalité avec ce troisième article consacré au test de Shapiro-Wilk.

Considéré comme le plus fiable des tests de normalité, ce test publié en 1965 par Samuel Shapiro et Martin Wilk était à l’origine limité à des échantillons de moins de 50 individus. Mais en 1982 puis 1992, Royston a apporté des modifications au test de Shapiro-Wilk pour qu’il soit valable pour des échantillons contenant jusqu’à 5000 individus.

Pour les illustrations nous utiliserons scipy (scipy.stats.shapiro).

Lire la suite


Data science : Les tests de Kolmogorov-Smirnov et Lilliefors

Les tests de Kolmogrov-Smirnov(KS) et Lilliefors(LF) sont certainement les tests les plus populaires lorsqu’il s’agit de tester la normalité d’un échantillon. Comme nous l’avons vu dans le premier article Data science : Droite de Henry, ces tests ne sont pas seulement réservés à la loi normale, la normalité n’étant qu’un cas particulier. Pour être plus précis, ils permettent de tester si un échantillon provient d’une distribution continue. Le test de Lilliefors, en particulier, ne s’applique qu’à trois distributions continues : NormaleExponentielle et Uniforme.

Lire la suite


Data science : Droite de Henry

De nombreuses procédures statistiques requièrent l’hypothèse de normalité, notamment lors des procédures statistiques paramétriques où on suppose que les données suivent une certaine distribution qui est généralement normale. Cet article est le premier d’une série de 5 qui a pour ambition de présenter le principe de la droite de Henry et les principaux tests de normalité notamment les tests de : Kolmogorov-Smirnov(KS), Lilliefors(LF), Shapiro-Wilks(SW), Anderson-Darling(AD) et enfin Cramer-Von Mises(CVM).

Lire la suite