Lesvaleursextrêmessontsouventmal connuesetcorrespondentàdessituationstrès particulièrespeureprésentativesde l’ensemble de la population.Pourlesbassalaires,ontrouvedestemps partiels, des autoentrepreneurs, des détenus … Pourleshautssalaires,lapartennatureest difficileàestimer:prime,véhicule,logement, frais de représentation …C’est pour cela que l’INSEE n’utilise pas leminimumoulemaximummaislespremier et dernier déciles.
Les moyennes
Le premier traitement est la construction du tableau d’effectifs et de son graphique associé : l’histogramme.Il est construit sur deux axes : l’axe de la variable et l’axe des effectifs.
Les écarts ou les rapports inter-décilesPourlessalaires,nousavonsdéjàrencontrélerapportinterdécile(D9/D1) quiestunindicedeleurdispersion(‘‘l’éventaildessalaires’’)etpermetde mesurer l’évolution des inégalités au cours du temps.Pourlespetitesséries,onpeutsecontenterdel’écartinterquartile(Q3-Q1), simple et rapide, il donne déjà beaucoup d’informations.
Pour utiliser ces distributions, il est nécessaire de les caractériser par des indicateurs chiffrés.
Le calcul des moyennes
Une manière simple d’obtenir des indicateurs sans calcul, est d’utiliser les effectifs.La population, rangée par valeurs croissantes, est partagées en groupes d’effectifs égaux. Les quantiles sont les limites de ces groupes.
Les moyennes pondérées
On ne connaît souvent une série statistique que par son tableau d’effectifs où les valeurs de la variable se trouvent en première colonne.Pour calculer la moyenne, il faut tenir compte du poids de chaque valeur qui est déterminé par l’effectif dans la deuxième colonne. Par exemple, le nombre d’enfants dans les familles à 3 enfants est 3 x 18 = 54
Parexempleenmédecine,lorsd'uneprisedesang,vousavezdû remarquersurlafeuillederésultatsdes«valeursderéférence» à côté de vos mesures.Cetintervalleregroupelesvaleursobtenuesparlatrèsgrande majorité des personnes en bonne santé.
Si vos résultats se trouvent hors de l’intervalle, cela indique un risque de développer une pathologie. Il sera d’autant plus élevé que votre résultat sera éloigné des valeurs de référence.
L’envie est grande de vouloir caractériser une population par un seul nombre. Parexemple,onentendsouventquelatempératureducorpshumainest37°.Enréalitéellesesitueentre36°et38° carnousn’avonspastouslamêmetempérature.37°al’avantaged’êtreunnombresimpleetdesetrouverau ‘‘milieu’’ des valeurs possibles, par contre il ne donne aucune information sur la répartition.La médiane est une autre valeur centrale au ‘‘milieu’’ des effectifs, mais la plus connue est la moyenne.
Les indicateurs de dispersion
L’étendueEnseignéeaucollège,c’estsansaucundoutelaplussimple(étendue=maximum-minimum)mais dans la réalité elle n’est pas utilisée car elle ne dépend que deux valeurs souvent peu fiables.
L’écart-typeC’est l’indicateur de dispersion associé à la moyenne.Nous avons déjà vu que la somme des écarts à la moyenne est nulleet donc leur moyenne aussi.
Pour éviter les écarts négatifs la solution adoptée est d'utiliser les carrés. La moyenne des carrés des écarts à la moyenne s'appelle la variance. La variance n'a pas la même dimension que la variable. Si celle-ci est, par exemple, une longueur en m, la variance s'exprime en m². Pourretrouverladimensiondelavariable,onprendlaracinecarréedelavariance et on obtient l'écart type.
Comme on le voit, le calcul est très lourd et il ne s’effectue pas à la main mais sur une calculatrice ou un tableur.Un écart type faible indique que les valeurs sont regroupées autour de la moyenne, tandis qu’un écart type élevé indique une grande dispersion des valeurs.Il tient son importance de son utilisation en statistiques inférentielles.
Voiciencoursd'année, larépartitionparâge dans une classe de 3ème.Quelestl'âgemoyendes élèves de cette classe ?
Test
Histogrammes et intervalles
Moyenne ou médiane ?
Une pyramide des âges est un histogramme double où l’axe de la variable est vertical.
L’objectif des statistiques est de réduire la quantité de données.Ronald Fisher
Dans cet exemple, les salaires sont regroupés par tranche de 100 €. La hauteur des rectangles est proportionnelle à l’effectif .
Unemanièresimpleetefficacepourréduirelesdonnées est de les regrouper par intervalle de même largeur.
Il n’est pas obligatoire de choisir des tranches de même largeur, mais dans ce cas l’histogramme change de nature, les hauteurs ne sont plus proportionnelles à l’effectif mais à l’aire de chaque tranche.
feuille de calcul à télécharger
RemarqueIl est possible d’utiliser la densité comme axe pour repérer la hauteur des rectangles mais on peut aussi se contenter d’un seul axe en utilisant leur aire.
calcul des hauteurs
Oncalculed’abordladensitédechaqueintervalleendivisantl’effectif par la largeur, on obtient l’effectif moyen pour une tranche-unité. Toutescestranchesayantmêmelargeur,leurhauteurestproportionnelle à leur effectif c’est-à-dire la densité.Ilresteàchoisiruneéchellepourquelegraphiqueaitunetaille convenable. Ici j’ai choisi 1 cm pour une densité de 200.
Lanotiondedensitéétantdélicateàinterpréter, certainspréfèrentutiliserlesdiagrammesenboîtes( avec ou sans moustaches ).Lestranchesonttoutesunemêmelargeurarbitraire et sont limitées par des quantiles.Il n’y a donc aucun calcul à effectuer !Lalecturesebasesurlepositionnementdela médiane et sur les écarts inter-quantiles.