Statistiques

Introduction :

Les caractéristiques d’une série statistique dont le caractère étudié est quantitatif sont des indicateurs qui permettent d’avoir une vue d’ensemble de la série.
Nous commencerons ce cours par un rappel du vocabulaire statistique et des outils d’organisation de données. Puis, nous nous intéresserons plus particulièrement aux caractéristiques de position, avec la moyenne d’une série statistique, que nous connaissons déjà, et la médiane, que nous découvrirons pour la première fois.
Enfin, nous en profiterons pour approfondir un peu, en définissant une première caractéristique dite de dispersion : l’étendue. Car il est aussi très important de savoir, dans une série statistique, comment les données se répartissent.

Rappels

Vocabulaire

Dans une enquête statistique, on relève un ensemble de données sur plusieurs individus (qui ne sont pas nécessairement des personnes). On obtient ainsi une série de données statistiques.

  • L’ensemble des individus étudiés est appelé population.
  • Le caractère est le type de mesure que l’on recueille. Il peut être qualitatif ou quantitatif.
  • Les valeurs sont les valeurs prises par ce caractère.
  • L’effectif d’une valeur du caractère est le nombre de fois que cette valeur apparaît dans la liste, c’est-à-dire le nombre d’individus qui possèdent cette valeur du caractère.
  • L’effectif total de la série est le nombre total d’individus de la population étudiée, c’est-à-dire la somme des effectifs.
  • La fréquence d’une valeur est le quotient de l’effectif de cette valeur par l’effectif total.
bannière exemple

Exemple

Étude 1
On souhaite se donner une idée de la fréquentation du cinéma par les jeunes de 18 à 25 ans. On demande à $20$ jeunes (dont on vérifie l’âge), pris au hasard dans la rue, le nombre de films qu’ils ont vus durant les six derniers mois. Voici les réponses obtenues :

$1$ - $0$ - $1$ - $4$ - $3$ - $1$ - $3$ - $0$ - $5$ - $1$ - $0$ - $6$ - $3$ - $1$ - $5$ - $12$ - $0$ - $3$ - $1$ - $4$

  • La population étudiée est l’ensemble des $20$ jeunes de 18 à 25 ans pris au hasard dans la rue.
  • Le caractère étudié est le nombre de films vus durant les six derniers mois (caractère quantitatif).
  • Les données sont tous les résultats obtenus (soit les $20$ données citées dans la série ci-dessus).
  • Les valeurs sont les $7$ valeurs prises par le caractère : $0$, $1$, $3$, $4$, $5$, $6$ et $12$.
  • L’effectif total est le nombre d’individus sur lesquels est faite l’enquête, soit $20$.

Par exemple :

  • l’effectif de la valeur $4$ est $2$ ($4$ apparaît $2$ fois dans la liste ;
  • $2$ jeunes interrogés ont vu $4$ films durant les six derniers mois) ;
  • la fréquence de la valeur $4$ est :

$$\dfrac{2}{20} = \dfrac{1}{10} = 0,1 = 10\,\%$$

  • $10\,\%$ des jeunes interrogés ont vu $4$ films durant les six derniers mois.

Organisation des données

Les résultats d’une étude statistique sont le plus souvent rassemblés dans un tableau de données où apparaissent les valeurs, les effectifs, ainsi que les fréquences si nécessaire.

bannière exemple

Exemple

Étude 1
On souhaite se donner une idée de la fréquentation du cinéma par les jeunes de 18 à 25 ans. On demande à $20$ jeunes (dont on vérifie l’âge), pris au hasard dans la rue, le nombre de films qu’ils ont vus durant les six derniers mois. Voici les réponses obtenues :

$1$ - $0$ - $1$ - $4$ - $3$ - $1$ - $3$ - $0$ - $5$ - $1$ - $0$ - $6$ - $3$ - $1$ - $5$ - $12$ - $0$ - $3$ - $1$ - $4$

En effectuant les mêmes calculs que précédemment pour toutes les valeurs de la série, on obtient le tableau de données suivant :

Nombre de films vus les six derniers mois

$0$ $1$ $3$ $4$ $5$ $6$ $12$ Total

Effectifs

$4$ $6$ $4$ $2$ $2$ $1$ $1$ $20$

Fréquences
(sous forme de quotient)

$\dfrac{4}{20}$ $\dfrac{6}{20}$ $\dfrac{4}{20}$ $\dfrac{2}{20}$ $\dfrac{2}{20}$ $\dfrac{1}{20}$ $\dfrac{1}{20}$ $\dfrac{20}{20}$

Fréquences
(sous forme décimale)

$0,2$ $0,3$ $0,2$ $0,1$ $0,1$ $0,05$ $0,05$ $1$

Fréquences
(sous forme de pourcentage)

$20\,\%$ $30\,\%$ $20\,\%$ $10\,\%$ $10\,\%$ $5\,\%$ $5\,\%$ $100\,\%$

Ces différents rappels étant faits, nous pouvons maintenant introduire la notion de caractéristiques d’une série statistique.

Moyenne et médiane

bannière definition

Définition

Caractéristique de tendance centrale :

Une caractéristique de tendance centrale est un nombre autour duquel se répartissent les valeurs collectées lors d’une enquête ou d’une série de mesures.

La moyenne et la médiane, que nous allons découvrir ou redécouvrir, sont des caractéristiques de position de la série.

Moyenne

Moyenne

bannière definition

Définition

Moyenne d’une série statistique :

Dans une série de données numériques, la moyenne est le quotient de la somme de toutes les données de cette série par l’effectif total :

$$\text{moyenne}=\dfrac{\text{somme des données}}{\text{effectif total}}$$

bannière à retenir

À retenir

  • La moyenne de la série de données n’est pas forcément une des valeurs de la série.
  • La moyenne d’une série est toujours comprise entre ses deux valeurs extrêmes.
  • Ce n’est généralement pas la moyenne des deux valeurs extrêmes de la série.
bannière exemple

Exemple

Étude 1
On souhaite se donner une idée de la fréquentation du cinéma par les jeunes de 18 à 25 ans. On demande à $20$ jeunes (dont on vérifie l’âge), pris au hasard dans la rue, le nombre de films qu’ils ont vus durant les six derniers mois. Voici les réponses obtenues :

$1$ - $0$ - $1$ - $4$ - $3$ - $1$ - $3$ - $0$ - $5$ - $1$ - $0$ - $6$ - $3$ - $1$ - $5$ - $12$ - $0$ - $3$ - $1$ - $4$

Pour cette étude, le calcul de la moyenne donne :

$$\begin{aligned}\small{\dfrac{1+0+1+4+3+1+3+0+5+1+0+6+3+1+5+12+0+3+1+4}{20}}&\small{= \dfrac{54}{20}} \\ &\small{= 2,7} \end{aligned}$$

Ce qui peut être analysé ainsi : au total, les $20$ jeunes ont vu $54$ films, ce qui fait une moyenne de $2,7$ films.

  • Les jeunes de ce groupe ont vu en moyenne $2,7$ films durant les six derniers mois.

On remarque que :

  • $2,7$ n’est pas une valeur de la série de données.
  • $2,7$ est bien compris entre $0$ et $12$.
  • $2,7$ n’est pas égal à la valeur de la moyenne des deux valeurs extrêmes $0$ et $12$ :

$$\dfrac{0+12}{2} = 6 \neq 2,7$$

Moyenne pondérée

Lorsque des valeurs apparaissent plusieurs fois dans une série de données, pour notamment diminuer le risque d’erreurs et simplifier les calculs, on additionne les produits de chaque valeur par son effectif, et on divise le résultat par l’effectif total. On calcule ainsi la moyenne pondérée.

bannière definition

Définition

Moyenne pondérée :

Dans une série de données numériques, la moyenne pondérée est égale à la somme des produits de chaque valeur par son effectif, divisée par l’effectif total :

$$\text{moyenne pondérée}=\dfrac{\text{somme des produits des valeurs par leurs effectifs}}{\text{effectif total}}$$

bannière exemple

Exemple

Reprenons le même exemple et le tableau des effectifs réalisé :

Nombre de films vus les six derniers mois

$0$ $1$ $3$ $4$ $5$ $6$ $12$ Total

Effectifs

$4$ $6$ $4$ $2$ $2$ $1$ $1$ $20$

Le calcul de la moyenne pondérée $M_\text{p}$ donne :

$$\begin{aligned} M_\text{p}&=\dfrac{0\times4+1\times6+3\times4+4\times2+5\times2+ 6\times1+12\times1}{20} \\ &= \dfrac{6+12+8+10+6+12}{20} \\ &= \frac{54}{20} \\ &= 2,7 \end{aligned}$$

  • Nous obtenons bien sûr la même valeur que celle obtenue pour la moyenne.

Médiane

bannière definition

Définition

Médiane d’une série statistique :

Les données d’une série numérique étant rangées dans l’ordre croissant, on appelle médiane de cette série une valeur qui la partage en deux groupes de même effectif.

bannière à retenir

À retenir

  • La médiane est telle que :
  • au moins la moitié des données lui sont inférieures ou égales ;
  • au moins la moitié des données lui sont supérieures ou égales.
  • Elle est généralement différente de la moyenne de la série.
  • La médiane n’est pas forcément une des valeurs de la série.

MÉTHODOLOGIE

Pour déterminer la médiane d’une série de données :

Dans le cas d’un effectif total pair

  • On classe les données dans l’ordre croissant.
  • On sépare les données en $2$ groupes de même effectif.
  • La valeur de la médiane est située entre les $2$ valeurs centrales de la série ordonnée.
bannière exemple

Exemple

Cas de l’étude 1 (effectif total égal à $20$)

  • Classons nos données dans l’ordre croissant. On obtient la série ordonnée suivante :
    $0$ - $0$ - $0$ - $0$ - $1$ - $1$ - $1$ - $1$ - $1$ - $1$ - $3$ - $3$ - $3$ - $3$ - $4$ - $4$ - $5$ - $5$ - $6$ - $12$

  • L’effectif total est égal à $20$. Ainsi, nous pouvons partager cette série en deux groupes de $10$ données chacun :

$$\small \underbrace{0 - 0 - 0 - 0 - 1 - 1 - 1 - 1 - 1 - \red 1}_{\normalsize \text {dix données}} \red- \underbrace{\red 3 - 3 - 3 - 3 - 4 - 4 - 5 - 5 - 6 - 12}_{\normalsize \text {dix données}}$$ $$\red {\overbrace {\text{Valeurs centrales}}}$$

  • Les $2$ valeurs centrales sont la $10^{\text e}$ et la $11^{\text e}$ données, soit $1$ et $3$.
  • La médiane est donc comprise entre $1$ et $3$.

Comme on le fera le plus souvent, on choisit pour valeur de la médiane la moyenne des deux valeurs centrales, soit :

$$\dfrac{1+3}{2} = \dfrac 42 = 2$$

  • Une médiane de la série est donc $2$, ce qui signifie ici qu’il y a autant de jeunes qui ont vu moins de $2$ films que de jeunes qui ont vu plus de $2$ films.

Nous constatons que la médiane n’est pas une des valeurs de la série et qu’elle est différente de la moyenne égale à $2,7$.

bannière astuce

Astuce

Remarquons que, contrairement à la moyenne, la médiane ne dépend pas des valeurs extrêmes. Ainsi, dans ce dernier exemple, si on remplace la valeur $12$ par $25$, ou par $6$, la médiane ne changera pas.

  • Dans certains cas, notamment ceux où les valeurs extrêmes sont très inférieures ou supérieures aux valeurs de la majorité des données, la médiane est un meilleur indicateur de position que la moyenne.

Dans le cas d’un effectif total impair

  • On classe les données dans l’ordre croissant.
  • On sépare les données en $2$ groupes de même effectif.
  • La valeur de la médiane est la valeur centrale de la série ordonnée.
bannière exemple

Exemple

Cas de l’étude 2
On étudie les notes obtenues à un TP de physique-chimie par les $13$ élèves d’un demi-groupe de 4e.
Voici les notes obtenues :
$12$ - $13,5$ - $19$ - $12,5$ - $18$ - $12$ - $18$ - $10$ - $12$ - $19$ - $14$ - $15$ - $9$

  • Classons nos données dans l’ordre croissant. On obtient la série ordonnée suivante :
    $9$ - $10$ - $12$ - $12$ - $12$ - $12,5$ - $13,5$ - $14$ - $15$ - $18$ - $18$ - $19$ - $19$
  • L’effectif total est égal à $13$. Ainsi, nous pouvons partager cette série en deux groupes de $6$ données chacun :

$$\underbrace{9 - 10 - 12 - 12 - 12 - 12,5}_{\normalsize \text {six données}} - \red{13,5} - \underbrace{14 - 15 - 18 - 18 - 19 - 19}_{\normalsize \text {six données}}$$ $$\red{\overbrace{\text{Valeur centrale}}}$$

La valeur centrale est la $7^{\text e}$ donnée, soit $13,5$.

  • La médiane est donc égale à $13,5$, ce qui signifie ici qu’il y a autant d’élèves qui ont eu une note inférieure ou égale à $13,5$ que d’élèves qui ont eu une note supérieure ou égale à $13,5$.
bannière à retenir

À retenir

  • Il y a autant de données avant la médiane qu’après la médiane.
  • Lorsque l’effectif total est pair, la médiane est n’importe quel nombre compris entre les deux valeurs centrales. On prend généralement la moyenne des deux.
  • Lorsque l’effectif total est impair, la médiane est la valeur centrale de la série.

Approfondissement : l’étendue

Nous connaissons maintenant plusieurs caractéristiques de tendance centrale, avec la moyenne et la médiane, qui indique des « centres » de la série.
Mais il est aussi important de connaître la répartition des données. Pour cela, on utilise des caractéristiques dites de dispersion.

bannière definition

Définition

Caractéristique de dispersion :

Une caractéristique de dispersion donne une idée de l’éparpillement des valeurs collectées lors d’une enquête ou d’une série de mesures.

Nous en définirons ici une première, assez simple : l’étendue d’une série statistique, sur laquelle nous reviendrons en 3e.

bannière definition

Définition

Étendue d’une série statistique :

L’étendue d’une série statistique est la différence entre la plus grande valeur et la plus petite valeur de cette série :

$$\text{Étendue} = \text{Valeur max} - \text{Valeur min}$$

Pour bien comprendre le type d’information que nous donne l’étendue, nous allons prendre un exemple, avec les deux séries suivantes, où seule la dernière donnée change :

  • Série 1 :

$0$ - $0$ - $0$ - $0$ - $1$ - $1$ - $1$ - $1$ - $1$ - $1$ - $3$ - $3$ - $3$ - $3$ - $4$ - $4$ - $5$ - $5$ - $6$ - $\red{12}$

  • Série 2 :

$0$ - $0$ - $0$ - $0$ - $1$ - $1$ - $1$ - $1$ - $1$ - $1$ - $3$ - $3$ - $3$ - $3$ - $4$ - $4$ - $5$ - $5$ - $6$ - $\red{25}$

Plus haut, nous avons dit que la médiane ne dépend pas des valeurs extrêmes.
Et, en effet, dans les deux cas, on trouve une médiane de $2$. Pourtant, les deux séries ne sont pas semblables.

L’étendue, elle, va nous permettre de voir la différence :

  • étendue de la série 1 : $\red{12}-0=12$ ;
  • étendue de la série 2 : $\red{25}-0=25$.
  • L’étendue de la série 2 est beaucoup plus grande que celle de la série 1.

Conclusion :

Le vocabulaire et l’organisation des données étant maintenant acquis, les points importants à retenir de ce cours sont les notions de moyenne et de médiane.
Il est aussi utile de retenir que, souvent, ces caractéristiques de tendance centrale ne suffisent pas à donner un bon reflet de la série et qu’elles ont besoin d’être complétées par d’autres caractéristiques, dites de dispersion.