Performances en présence de classes déséquilibrées
La présence de classes déséquilibrées dans un jeu de données requiert une attention particulière.
La présence de classes déséquilibrées dans un jeu de données requiert une attention particulière.
Dans l’évaluation des performances des modèles, il faut faire attention aux biais qui peuvent être issus de nos modélisations.
L’Exploration des données (en anglais Exploratory Data Analysis – EDA) est un processus essentiel en science des données qui nous permet de mieux connaître nos données avant la construction d’éventuels modèles d’apprentissage automatique.
L’Hyperparameter tuning ou ajustement des hyperparamètres est un sujet qui fait tourner les têtes. En effet, il y a très peu de règles sur comment choisir ces hyperparamètres.
Le data pré-processing ou pré-traitement des données est une étape très importante dans le développement de modèles de machine learning performants.
En science des données, la discrétisation désigne le procédé qui consiste à transformer une variable quantitative en une variable qualitative. Pour cela, la variable quantitative est découpée en intervalles (classes) qui deviennent désormais les modalités de la variable qualitative. Elle est communément utilisée comme une méthode de pré-traitement avant la mise en place de différents modèles.
Cliquez pour accéder à l’article introductif de la série sur l’analyse bivariée.
Dans cet article, nous allons découvrir comment étudier la liaison entre deux variables qualitatives. C’est une étude indispensable pendant l’exploration des données dans un projet de Data Science.
Dans un jeu de données, les valeurs aberrantes sont des valeurs qui se distinguent significativement des autres valeurs.
“distinguent significativement” voilà quelque chose de bien abstrait. Comment donc définir et repérer une valeur aberrante ? Comment la traiter ?
Cette sensation désagréable d’explorer un jeu de données avec des variables prometteuses et de tomber sur des valeurs manquantes. Que faire face à cette situation ?