Statistique inférentielle : Importance et exemples concrets

 


La statistique inférentielle est une branche très importante de la statistique, il est indispensable pour le Data scientist de comprendre vraiment son importance afin de mieux l’utiliser avec des langages tels que python.


La statistique est la discipline qui étudie des phénomènes à travers la collecte de données, leur traitement, leur analyse, l’interprétation des résultats et leur présentation, afin de rendre ces données compréhensibles par tous. Cette discipline se subdivise en deux grandes parties, dont la statistique descriptive et la statistique inférentielle. Dans cet article, nous montrerons la différence entre les deux sous branches de la statistique, afin de mieux comprendre l’importance de la statistique inférentielle.  

Cet article est divisé en trois parties : 

  • La définition de la statistique descriptive et inférentielle
  • La différence entre la statistique descriptive et inférentielle
  • Illustration de cette différence par des exemples. 
C’EST QUOI LA STATISTIQUE DESCRIPTIVE ?

La statistique descriptive fournit les outils nécessaires pour décrire un groupe d’éléments ou une unité d’analyse dans sa totalité, sans prétendre de généraliser les résultats à un plus large ensemble. Pour résumer les données, le Data scientist utilise les mesures de tendance centrale telles que : la moyenne, la médiane, le mode et les mesures de dispersion telles que : l’écart type, l’écart et la variance.

C’EST QUOI LA STATISTIQUE INFÉRENTIELLE ?

L’inférentiel est un terme qui se rapporte au processus d’inférence. Il englobe les raisonnements et méthodes, permettant de tirer des conclusions à partir d’une ou plusieurs propositions admises comme vraies.
A partir de la définition du terme « inférentiel », on dira que le but de la statistique inférentielle est de savoir dans quelle mesure, les résultats obtenus sur un échantillon convenablement choisi, apportent une connaissance fiable des caractéristiques de la population d’origine. En d’autres termes, est-ce que les résultats obtenus permettent de tirer des conclusions sur la population ?

Ces conclusions ne sont jamais certaines, mais toujours probables. C’est-à-dire que la statistique inférentielle, permet au Data scientist de tirer des conclusions sur la population, tout en connaissant la probabilité qu’il a, mais aussi qu’il n’a pas de se tromper, en généralisant les observations. Il y arrive en utilisant les estimations et les tests d’hypothèse.

LA DIFFÉRENCE ENTRE LA STATISTIQUE DESCRIPTIVE ET LA STATISTIQUE INFÉRENTIELLE 

En comparant la statistique descriptive et la statistique inférentielle, on voit que la statistique descriptive décrit une partie représentative de la population (un échantillon divers et aléatoire) par rapport à une étude bien précise qu’on veut mener sur la population. Elle fournit, selon l’étude, à mener des informations telles que la moyenne, le mode, la variance, l’écart type.
D’un autre côté, la statistique inférentielle utilise les informations obtenues sur la partie représentative de la population grâce à la statistique descriptive et essaie de les généraliser  à toute la population. 

ILLUSTRATION DE CETTE DIFFÉRENCE PAR DES EXEMPLES.
                                  Exemple 1

Prenons un exemple pour illustrer cette différence : supposons que nous voulions savoir quel est le plat le plus consommé à Abidjan.

Vu que la population d’Abidjan est grande (environ 4,395 millions d’habitants), nous allons mener une enquête sur une partie représentative de la population d’Abidjan. Cette enquête va consister à déterminer le plat le plus consommé par chaque individu.

Ici la statistique descriptive par rapport aux plats recensés, va nous donner la moyenne de consommation de chaque plat recensé dans l’échantillon, le mode, c’est-à-dire le plat qui apparaît le plus. Supposons que le mode est « l’Attiéké »

La statistique inférentielle, à son tour, va tenter de généraliser cette information à la population d’Abidjan. C’est-à-dire, prendre cette information obtenue sur une partie de la population et la généraliser à la population d’Abidjan, en vérifiant la probabilité que ce soit l’attiéké qui soit la nourriture la plus consommée. 

                                Exemple 2

Prenons encore un deuxième exemple : Imaginons, qu’on veuille savoir s’il existe une différence entre le salaire des hommes  et celui des femmes en Côte d’Ivoire. 
Encore une fois, la population de Côte d’Ivoire étant très grande, nous allons utiliser un échantillon, c’est -à -dire une partie représentative de la population. 

En menant sur cet échantillon, une enquête, nous constatons à partir des résultats de la statistique descriptive que la moyenne des salaires pour les hommes est de : 170000 et celle des femmes est de : 150000.
Est-ce que l’on peut affirmer à partir de ces résultats, que le salaire des hommes est supérieur à celui des femmes dans la population ?

Pour répondre à cette question, nous utiliserons la statistique inférentielle qui elle à partir des informations obtenues sur l’échantillon, va comparer ces deux moyennes obtenues et nous permettre de tirer des conclusions sur la population toute entière. C’est à dire, savoir si oui ou non on peut affirmer que le salaire des hommes est supérieur à celui des femmes dans la population ivoirienne. 

Donc la statistique inférentielle est donc une branche très importante de la statistique car elle permet au Data scientist de généraliser les informations obtenues sur échantillon à toute une population.