Statistiques
Introduction :
Pour aborder les statistiques en seconde, un rappel du vocabulaire de 3e est nécessaire avant d’aborder quelques nouveautés. Nous verrons dans ce cours comment représenter des données statistiques en fonction des caractéristiques étudiées et des informations qu’on veut faire apparaître. Enfin, nous étudierons les différents paramètres statistiques : les paramètres de position et les paramètres de dispersion.
Vocabulaire
Vocabulaire
Voici quelques mots du vocabulaire des statistiques déjà vus, pour la plupart au collège :
- une série statistique est un ensemble de nombres collectés,
- la population est l’ensemble sur lequel porte la série statistique,
- les individus sont les éléments qui composent cette série statistique,
- le caractère est une propriété que l’on observe sur les individus :
- un caractère est quantitatif si ses valeurs s’expriment par un nombre, sinon, c’est un caractère qualitatif.
- Si le caractère est quantitatif, il peut être continu ou discret.
- Un caractère quantitatif est discret lorsqu’il prend des valeurs isolées.
- Par exemple, des notes ou des quantités d’objet.
- Un caractère quantitatif est continu lorsqu’il prend n’importe quelle valeur dans un intervalle où les valeurs sont regroupées par classes.
- Par exemple le poids des individus ou leur taille en mètre : $[1,50\;; 1,60[\;; [1,60\;; 1,70[\;; [1,70\;; 1,80[… [2,00\;; 2,10[$.
- Les effectifs, souvent notés $n_i$ , sont les nombres d’individus de la population dont le caractère prend une valeur donnée.
- L’effectif total est le nombre d’individus de la population souvent noté $N$.
- Les fréquences, notée $f_i$ , sont les rapports $\dfrac{n_i}{N}$
- L’effectif cumulé croissant ou ECC est la somme des effectifs des valeurs inférieures.
- Le premier effectif cumulé croissant est la même valeur que le premier effectif.
- Le dernier effectif cumulé croissant est toujours égal à l’effectif total $N$.
Par exemple dans ce tableau, la première ligne nous donne une série de valeurs, la seconde les effectifs correspondant à chacune de ces valeurs et la troisième l’effectif cumulé croissant.
- L’effectif cumulé décroissant est la différence de l’effectif total et des effectifs des valeurs inférieurs.
- Le premier effectif cumulé décroissant est égal à l’effectif total $N$.
- Le dernier effectif cumulé décroissant est toujours la même valeur que le dernier effectif.
Représentations graphiques
Représentations graphiques
Caractère quantitatifs discrets
Caractère quantitatifs discrets
Lorsque la série statistique a des caractères quantitatifs discrets, on demande dans un exercice de tracer un diagramme en bâtons (ou en colonnes), un diagramme circulaire ou un nuage de points.
- Le diagramme en bâtons ou en colonnes
Si on reprend le tableau précédent, le diagramme en bâtons ou colonnes donne :
Valeur | -24 | 22 | 23 | 26 | 30 | 33 | 35 | 54 | 57 | 65 | 100 |
Effectifs | 1 | 2 | 1 | 1 | 2 | 3 | 1 | 2 | 2 | 1 | 1 |
- Ces bâtons (ou colonnes) sont des segments dont la hauteur est proportionnelle à l’effectif de la valeur qu’ils représentent.
- Le diagramme circulaire
Si on considère les données de ce tableau :
Valeur | 10 | 12 | 14 | 16 | 18 |
Effectifs | 6 | 8 | 5 | 4 | 7 |
- Pour tracer ce diagramme circulaire, nous avons besoin des angles ; nous les calculons par proportionnalité (autrement dit avec le produit en croix), sachant que 100 % correspondent à 360°.
Valeur | TOTAL | 10 | 12 | 14 | 16 | 18 |
Effectifs | $N=30$ | 6 | 8 | 5 | 4 | 7 |
Angles | 360° | 72° | 96° | 60° | 48° | 84° |
$\dfrac{360 \times 6}{30}=72$
- Le nuage de points
Le tableau ci-dessous donne les quantités de super sans plomb livrées et vendues en France de 2001 à 2009 (les quantités sont exprimées en millions de tonnes).
Année | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 |
Rang de l'année $x_i$ | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Quantité (millions de tonnes) $y_i$ | 11,6 | 11,4 | 11,2 | 10,9 | 10,7 | 10,2 | 9.8 | 9.1 | 8.7 |
Source : INSEE
- Les données ont la forme d’un nuage de points.
On a mis en abscisses les valeurs du caractère, et en ordonnées les effectifs correspondants. Ceux-ci sont parfois reliés par des segments.
Caractère quantitatif continu
Caractère quantitatif continu
Lorsque la série statistique a des caractères quantitatifs continus, il est possible de faire un histogramme ou bien un polygone d’effectifs ou de fréquences cumulés.
- L’histogramme
Prenons comme exemple le temps passé devant la télévision par 34 élèves pendant une certaine journée.
Temps en minutes | [0 ; 15[ | [15 ; 30[ | [30 ; 60[ | [60 ; 120[ | [120 ; 180[ |
Nombre d'élèves | 7 | 5 | 8 | 10 | 4 |
En pratique, il est conseillé de commencer par construire un tableau donnant la largeur et l’aire de chaque rectangle (selon les unités choisies).
On peut alors facilement en déduire la hauteur de chaque rectangle ce qui facilite la construction graphique de l’histogramme :
Temps en minutes | [0 ; 15[ | [15 ; 30[ | [30 ; 60[ | [60 ; 120[ | [120 ; 180[ |
Nombre d'élèves | 7 | 5 | 8 | 10 | 4 |
Aire du rectangle en cm2 | 7 | 5 | 8 | 10 | 4 |
Largeur du rectangle en cm | 1 | 1 | 2 | 4 | 4 |
Hauteur du rectangle en cm | 7 | 5 | 4 | 2,5 | 1 |
- Ce qui donne l’histogramme suivant :
Dans un histogramme, on représente une série statistique continue par des rectangles dont la largeur correspond au caractère quantitatif de chaque classe et dont l’aire est proportionnelle à l’effectif de la classe.
Remarque
Lorsque les classes ont toutes la même amplitude, la hauteur de chaque rectangle est proportionnelle à l’effectif de la classe qu’il représente.
On dit alors que l’histogramme est « à pas constant ».
- Les polygones d’effectifs ou de fréquences cumulées
Si on reprend les données précédentes :
Temps en minutes | [0 ; 15[ | [15 ; 30[ | [30 ; 60[ | [60 ; 120[ | [120 ; 180[ |
Nombre d'élèves | 7 | 5 | 8 | 10 | 4 |
ECC | 7 | 12 | 20 | 30 | 34 |
Voici le polygone des effectifs cumulés croissants :
Le polygone des effectifs cumulés croissants d’une série statistique continue est la ligne brisée qui joint les points du plan dont les abscisses sont les bornes de chaque classe et dont les ordonnées sont les effectifs cumulés croissants (respectivement décroissants) de ces valeurs.
Le polygone des effectifs cumulés décroissants d’une série statistique continue est la ligne brisée qui joint les points du plan dont les abscisses sont les bornes de chaque classe et dont les ordonnées sont les effectifs cumulés décroissants de ces valeurs.
- De la même façon, on peut faire le polygone des fréquences cumulées croissantes ou décroissantes.
Paramètres statistiques
Paramètres statistiques
On peut demander de déterminer les paramètres de position ou de dispersion de la série statistique donnée. Il s’agit en fait de la moyenne, médiane, quartiles, étendue ou mode. Encore faut-il savoir quels paramètres font partie des paramètres de dispersion et lesquels font partie des paramètres de position.
Les paramètres de position
Les paramètres de position
Le mode, la moyenne et la médiane sont considérés comme les paramètres de position.
Mode d’une série statistique :
Le mode d’une série statistique est une valeur de la série dont l’effectif est strictement supérieur à celui des autres valeurs.
Dans une série statistique, il peut y avoir plusieurs modes.
Valeur $x_i$ | -24 | 22 | 23 | 26 | 30 | 33 | 35 | 54 | 57 | 65 | 100 |
Effectifs $n_i$ | 1 | 2 | 3 | 1 | 2 | 3 | 1 | 2 | 2 | 1 | 1 |
Dans ce tableau de valeurs, il y a deux modes : 23 et 33
Moyenne d’une série statistique :
La moyenne de cette série statistique est le réel noté $\bar x$ défini par :
$\bar x=\dfrac{n_1x_1+n_2x_2+n_3x_3+…+n_px_p}{N}$
En notant $N$ l’effectif total de la série et $p$ le nombre de colonnes du tableau.
$\tiny \bar x=\dfrac{-24\times1+22\times2+23\times3+26\times1+30\times2+33\times3+35\times1+54\times2+57\times2+65\times1+100\times1}{19}\approx36,63$
Médiane d’une série statistique :
La médiane $M$ d’une série statistique est un réel qui partage cette série en deux parties telles que :
- au moins 50 % des valeurs sont inférieures ou égales à la médiane ;
- au moins 50 % des valeurs sont supérieures ou égales à la médiane.
- Déterminer la médiane $M$ d’une série statistique d’effectif total $N$ :
Si $N$ est pair, on calcule $N\over2$ et $\dfrac{N}{2}+1$.
$M$ est la moyenne des deux valeurs correspondantes aux deux effectifs trouvés $N\over2$ et $\dfrac{N}{2}+1$
Valeurs | 1 | 2 | 3 | 4 |
Effectifs | 8 | 8 | 13 | 3 |
$N=32$ on a alors $\dfrac{N}{2}=16$ et $\dfrac{N}{2}+1=17$.
La médiane est la moyenne entre la valeur des 16e et 17e places d’effectifs.
- Donc $M=\dfrac{2+3}{2}=2,5$
Si $N$ est impair, on calcule $N\over2$, $M$ est la valeur correspondante à cet effectif (ou juste après).
Valeurs | 1 | 2 | 3 | 4 |
Effectifs | 7 | 14 | 8 | 2 |
$N=7+14+8+2=31$on a alors $\dfrac{N}{2}=15,5$.
La médiane est la valeur de la 16e place des effectifs.
- Donc $M=2$.
Paramètres de dispersion
Paramètres de dispersion
En ce qui concerne les paramètres de dispersion, il s’agit de l’étendue, des quartiles, de l’écart interquartile et de l’intervalle interquartile.
Étendue d’une série statistique :
L’étendue d’une série statistique est la différence entre sa plus grande et sa plus petite valeur.
Premier quartile d’une série statistique :
Le premier quartile $Q1$ est la plus petite valeur de la série telle qu’au moins 25 % des données soient inférieures ou égales à $Q1$.
On calcule $\dfrac{N}{4}$, $Q1$ est la valeur juste après correspondant à cet effectif.
Troisième quartile d’une série statistique :
Le troisième quartile $Q3$ est la plus petite valeur de la série telle qu’au moins 75 % des données soient inférieures ou égales à $Q3$.
On calcule $\dfrac{3N}{4}$, $Q3$ est la valeur juste après correspondant à cet effectif.
Intervalle interquartile :
L’intervalle interquartile est $[Q1 ;Q3]$.
Écart interquartile d’une série statistique :
On appelle écart interquartile la différence $Q3-Q1$.
Valeur $x_i$ | -24 | 22 | 23 | 26 | 30 | 33 | 35 | 54 | 57 | 65 | 100 |
Effectifs $n_i$ | 1 | 2 | 3 | 1 | 2 | 3 | 1 | 2 | 2 | 1 | 1 |
Cette série statistique a pour étendue : $100-(-24)=124$.
- $\dfrac{N}{4}=\dfrac{19}{4}=4,75$ donc $Q1$ est la 5e valeur $Q1=23$.
- $\dfrac{3N}{4}=\dfrac{3\times19}{4}=14,25$ donc $Q3$ est la 15e valeur $Q3=54$.
- L’intervalle interquartile est $[23 ;54]$ et l’écart interquartile est : $54-23=31$.
Conclusion :
Lorsque la série statistique a des caractères quantitatifs discrets, on utilise un diagramme en bâtons (ou colonne), un diagramme circulaire ou un nuage de points.
Lorsque la série statistique a des caractères quantitatifs continus, on peut réaliser un histogramme ou bien un polygone d’effectifs ou de fréquences cumulés.
Il faut donc réviser les différents caractères de position, le mode, la moyenne et la médiane, ainsi que les caractères de dispersion : l’étendue, les quartiles, l’écart interquartile et l’intervalle interquartile.