Caractéristiques d'une série statistique

information-icon

Si tu es en classe de 3eme,tu dois savoir que tu passeras ton premier examen 😉. Consulte notre dossier spécial brevet des collèges pour tout savoir sur les dates du brevet 2025, les conseils de révisions… 💪

Introduction :

Très souvent, une série statistique avec des données brutes, surtout si elles sont nombreuses, n’est pas très parlante. Il est donc important d’en calculer des caractéristiques, aussi appelées indicateurs.
Nous reverrons ainsi dans ce cours les deux caractéristiques de position que nous connaissons : la moyenne et la médiane. Puis nous aborderons une caractéristique de dispersion : l’étendue, que certains ont peut-être déjà vu. Nous pourrons alors appliquer ces notions à un exercice type brevet.
Enfin, nous verrons comment organiser et représenter des données dont les valeurs sont très variées, en les regroupant par classes.

Caractéristiques de position

Les caractéristiques de position permettent de repérer certaines valeurs importantes, comme les valeurs minimales et maximales, ou, comme nous le savons déjà, la moyenne et la médiane, qui sont plus particulièrement des caractéristiques de tendance centrale.

La moyenne

bannière definition

Définition

Moyenne d’une série de données numériques :

La moyenne d’une série de données numériques est égale à la somme de toutes les données, divisée par l’effectif total :

$$\text{moyenne}=\dfrac{\text{somme des données}}{\text{effectif total}}$$

Dans de nombreuses séries statistiques, les valeurs apparaissent plusieurs fois. Et les données sont organisées sous la forme d’un tableau d’effectifs, que l’on peut compléter en donnant les fréquences.

bannière rappel

Rappel

La fréquence d’une valeur est le quotient de son effectif par l’effectif total.

  • On l’exprime sous forme de fraction, décimale ou de pourcentage.

Par exemple, lors d’une étude statistique, on a demandé à $100$ élèves (population), choisis au hasard dans un collège, combien de livres ils avaient lus (caractère) durant les douze derniers mois – sans compter ceux lus pour la classe.

  • Le tableau suivant récapitule les réponses, avec les fréquences, exprimées en pourcentage (car c’est bien pratique, vu que l’effectif total est de $100$) :

Nombre de livres Nombre d’élèves Fréquence
$\textcolor{#1BAF79}0$ $\textcolor{#9F32BF}{14}$ $14\,\%$
$\textcolor{#1BAF79}1$ $\textcolor{#9F32BF}{11}$ $11\,\%$
$\textcolor{#1BAF79}2$ $\textcolor{#9F32BF}{31}$ $31\,\%$
$\textcolor{#1BAF79}3$ $\textcolor{#9F32BF}{10}$ $10\,\%$
$\textcolor{#1BAF79}4$ $\textcolor{#9F32BF}{8}$ $8\,\%$
$\textcolor{#1BAF79}5$ $\textcolor{#9F32BF}{9}$ $9\,\%$
$\textcolor{#1BAF79}6$ $\textcolor{#9F32BF}{2}$ $2\,\%$
$\textcolor{#1BAF79}7$ $\textcolor{#9F32BF}{3}$ $3\,\%$
$\textcolor{#1BAF79}{11}$ $\textcolor{#9F32BF}{7}$ $7\,\%$
$\textcolor{#1BAF79}{12}$ $\textcolor{#9F32BF}{4}$ $4\,\%$
$\textcolor{#1BAF79}{24}$ $\textcolor{#9F32BF}{1}$ $1\,\%$
Totaux $\textcolor{#DC143C}{100}$ $100\,\%$

Pour calculer la moyenne de livres lus durant les douze derniers mois, nous allons ici utiliser la moyenne pondérée.

bannière definition

Définition

Moyenne pondérée :

La moyenne pondérée d’une série statistique numérique est égale à la somme des produits de chaque valeur par son effectif, divisée par l’effectif total :

$$\text{moyenne pondérée}=\dfrac{\text{somme des produits des valeurs par leurs effectifs}}{\text{effectif total}}$$

Commençons par calculer la somme $S_\text{p}$ des produits de chaque valeur (soit le nombre de livres lus) par son effectif (soit le nombre d’élèves ayant lu cette quantité de livres) :

$$\begin{aligned} S_\text{p}&=\textcolor{#1BAF79}{0}\times \textcolor{#9F32BF}{14} + \textcolor{#1BAF79}{1}\times \textcolor{#9F32BF}{11} + \textcolor{#1BAF79}{2}\times \textcolor{#9F32BF}{31} + \textcolor{#1BAF79}{3}\times \textcolor{#9F32BF}{10} + \textcolor{#1BAF79}{4}\times \textcolor{#9F32BF}{8} + \textcolor{#1BAF79}{5}\times \textcolor{#9F32BF}{9} \\ &\qquad + \textcolor{#1BAF79}{6}\times \textcolor{#9F32BF}{2} + \textcolor{#1BAF79}{7}\times \textcolor{#9F32BF}{3} + \textcolor{#1BAF79}{11}\times \textcolor{#9F32BF}{7} + \textcolor{#1BAF79}{12}\times \textcolor{#9F32BF}{4} + \textcolor{#1BAF79}{24}\times \textcolor{#9F32BF}{1} \\ &=0+11+62+30+32+45+12+21+77+48+24 \\ &=362 \end{aligned}$$

Il suffit donc de diviser cette somme par l’effectif total, pour déterminer la moyenne (pondérée) de livres lus, notée $M_\text{p}$ :

$$M_\text{p}=\dfrac{S_\text{p}}{\textcolor{#DC143C}{100}}=\dfrac{362}{100}=3,62$$

  • Parmi la population des $100$ élèves choisis, un élève a lu en moyenne $3,62$ livres sur l’année écoulée.

Pour donner une image plus visuelle des données, on peut les représenter graphiquement, par exemple par un diagramme en bâtons :

Diagramme en bâtons Diagramme en bâtons

Ce diagramme permet, entre autres, de voir d’un simple coup d’œil que la valeur qui apparaît le plus souvent est « $2$ ».

  • « $2$ livres » est la réponse la plus fréquente.
bannière astuce

Astuce

La valeur qui est la plus fréquente est appelée mode de la série. C’est une autre caractéristique de position.

Par ailleurs, madame A., professeure de français du collège, considère qu’un élève est un lecteur régulier s’il a lu $6$ livres ou plus durant l’année écoulée (soit, en moyenne, un livre tous les deux mois). Elle se demande alors quel est, dans ce même groupe d’élèves, le pourcentage de lecteurs réguliers.

Pour déterminer ce pourcentage, on se sert du tableau ou du diagramme pour repérer les effectifs des valeurs supérieures ou égales à $6$, que l’on additionne, avant de diviser par l’effectif total.

  • $2$ élèves ont lu $6$ livres.
  • $3$ élèves ont lu $7$ livres.
  • $7$ élèves ont lu $11$ livres.
  • $4$ élèves ont lu $12$ livres.
  • $1$ seul élève a lu $24$ livres.
  • Donc, $2+3+7+4+1=17$ élèves ont lu $6$ livres ou plus.
    $17\,\%$ des élèves interrogés sont des lecteurs réguliers, selon la définition de madame A.
bannière astuce

Astuce

On peut aussi ajouter directement les fréquences des valeurs concernées, lorsqu’on souhaite avoir une fréquence en résultat.

La médiane

bannière definition

Définition

Médiane d’une série statistique :

Les données d’une série numérique étant rangées dans l’ordre croissant, on appelle médiane de cette série une valeur qui la partage en deux groupes de même effectif.

Distinguons deux cas.

Cas 1 : Effectif total impair

Ludivine pratique le saut en longueur à assez haut niveau.
Lors d’une session d’entraînement, elle a réalisé $7$ sauts, et a relevé les longueurs atteintes (en mètre) :

$$4,20 \qquad 4,55 \qquad 4,92 \qquad 4,70 \qquad 5,07 \qquad 5,01 \qquad 4,85$$

Pour calculer la médiane de cette série, on commence par la ranger dans l’ordre croissant :

$$4,20 \qquad 4,55 \qquad 4,70 \qquad 4,85 \qquad 4,92 \qquad 5,01 \qquad 5,07$$

On cherche maintenant une valeur qui partage la série en deux séries de même effectif.

  • Ici, comme l’effectif total est impair, la médiane est une donnée de la série.

$$\underbrace{4,20 \qquad 4,55 \qquad 4,70}_{\footnotesize{\textcolor{#A9A9A9}{\text{$3$ données}}}} \qquad \red{\underbrace{4,85}_{\footnotesize{\text{Médiane}}}} \qquad \underbrace{4,92 \qquad 5,01 \qquad 5,07}_{\footnotesize{\textcolor{#A9A9A9}{\text{$3$ données}}}}$$

  • La médiane de cette série vaut $4,85\ \text{m}$.
    Autrement dit, Ludivine a effectué autant de sauts inférieurs ou égaux à $4,85\ \text{m}$ que de sauts supérieurs ou égaux à $4,85\ \text{m}$.

Cas 2 : Effectif total pair

Un peu plus tard dans la journée, Ludivine effectue une nouvelle session d’entraînement, cette fois de $6$ sauts. On donne les longueurs réalisées, déjà ordonnées :

$$3,82 \qquad 4,65 \qquad 4,73 \qquad 4,90 \qquad 4,99 \qquad 5,12$$

Pour déterminer la médiane, on cherche toujours une valeur qui partage la série en deux séries de même effectif.

  • Ici, comme l’effectif total est pair, la médiane est entre deux données de la série.

$$\underbrace{3,82 \qquad 4,65 \qquad 4,73}_{\footnotesize{\textcolor{#A9A9A9}{\text{$3$ données}}}} \red{\underbrace{\phantom{2,22}}_{\footnotesize{\text{Médiane}}}} \underbrace{4,90 \qquad 4,99 \qquad 5,12}_{\footnotesize{\textcolor{#A9A9A9}{\text{$3$ données}}}}$$

N’importe quel nombre compris entre $4,73$ et $4,90$ partagera cette série en deux séries de même effectif.

  • Par convention, on prend la moyenne de ces deux valeurs :

$$\dfrac{4,73+4,90}2=\dfrac{9,63}2=4,815$$

  • La médiane de cette série vaut $4,815\ \text{m}$.
    Autrement dit, Ludivine a effectué autant de sauts inférieurs à $4,815\ \text{m}$ que de sauts supérieurs à $4,815\ \text{m}$.

Remarque : En saut en longueur, les millimètres ne comptent pas vraiment. On peut alors choisir comme médiane de cette deuxième session $4,81\ \text{m}$ ou $4,82\ \text{m}$.

Comparaison

On peut aussi calculer les moyennes des deux sessions.

  • Moyenne de la session 1

$$\begin{aligned} \dfrac{4,20 + 4,55 + 4,7 + 4,85 + 4,92 + 5,01 + 5,07}7&=\dfrac{33,3}7 \\ &\approx 4,76\ \text{m} \end{aligned}$$

  • Moyenne de la session 2

$$\begin{aligned} \dfrac{3,82 + 4,65 + 4,73 + 4,90 + 4,99 + 5,12}6&=\dfrac{28,21}6 \\ &\approx 4,70\ \text{m} \end{aligned}$$

Récapitulons tous nos résultats :

Moyenne Médiane
Session 1 $4,76\ \text{m}$ $4,85\ \text{m}$
Session 2 $4,70\ \text{m}$ $4,815\ \text{m}$

On voit que la moyenne et la médiane sont meilleures pour la session 1 que pour la session 2. On pourrait donc conclure que Ludivine a été meilleure lors de cette première session.
Toutefois, à y regarder de plus près, et comme on sait que, dans ce sport, c’est la saut le plus long qui compte, on se rend compte que sa meilleure session pourrait aussi être la seconde, où elle a atteint une longueur de $5,12\ \text{m}$ !

Ainsi, la moyenne et la médiane sont des caractéristiques de position importantes. Mais, souvent, elles ne suffisent pas : ici, il est tout aussi important de noter la valeur maximale, qui est également une caractéristique de position.

Caractéristique de dispersion

Vous découvrirez, au fil de vos études, plusieurs caractéristiques de dispersion, qui permettent de donner des indications sur la répartition des données.
En 3e, nous travaillons uniquement avec l’étendue.

Étendue d’une série statistique

Reprenons les deux sessions de saut de Ludivine.
Il est aussi intéressant pour elle, afin de mieux juger ses prestations, de regarder le plus mauvais saut de chaque session (le minimum), ainsi que le meilleur (le maximum) :

$$\begin{aligned} \textcolor{#A9A9A9}{\text{Session 1\ :}} &\quad\red{4,20} \quad 4,55 \quad 4,70 \quad 4,85 \quad 4,92 \quad 5,01 \quad \green{5,07} \\ \textcolor{#A9A9A9}{\text{Session 2\ :}} &\quad\red{3,82} \quad 4,65 \quad 4,73 \quad 4,90 \quad 4,99 \quad \green{5,12} \end{aligned}$$

On peut alors calculer la différence entre maximum et minimum.

  • Cette différence est appelée étendue.
bannière definition

Définition

Étendue d’une série statistique :

L’étendue d’une série statistique est la différence entre la plus grande valeur et la plus petite valeur de cette série :

$$\text{Étendue} = \text{Valeur max} - \text{Valeur min}$$

Pour Ludivine, cela donne :

$$\begin{aligned} \textcolor{#A9A9A9}{\text{Étendue pour la série 1\ : }} &\green{5,07}-\red{4,20}=0,87\ \text{m} \\ \textcolor{#A9A9A9}{\text{Étendue pour la série 2\ : }} &\green{5,12}-\red{3,82}=1,30\ \text{m} \end{aligned}$$

L’étendue de la série 2 est supérieure à celle de la série 1.

  • Une façon d’interpréter cela, c’est de dire que, si Ludivine a effectué son meilleur saut lors de la session 2, elle y a aussi raté un saut.

On peut ainsi résumer les deux sessions de sauts par les caractéristiques suivantes :

Moyenne Médiane Maximum Étendue
Session 1 $4,76\ \text{m}$ $4,85\ \text{m}$ $5,01\ \text{m}$ $0,87\ \text{m}$
Session 2 $4,70\ \text{m}$ $4,815\ \text{m}$ $5,12\ \text{m}$ $1,30\ \text{m}$
  • On a alors pas mal d’informations, et on peut choisir laquelle nous intéresse plus particulièrement (meilleure moyenne, meilleur saut, différence entre pire et mauvais saut réduite…).

Regroupement par classes

Regrouper des données par classes

Revenons à Ludivine, la sauteuse en longueur et à son club d’athlétisme.
$25$ filles au total dans ce club pratiquent le saut en longueur.

  • Le tableau suivant recense les records personnels de chacune des athlètes (en mètre) :

$4,57$ $4,66$ $4,68$ $4,78$ $4,64$
$5,07$ $4,67$ $4,94$ $4,85$ $5,13$
$4,93$ $4,77$ $4,54$ $4,51$ $4,92$
$4,84$ $4,98$ $5,16$ $4,75$ $4,87$
$4,95$ $4,81$ $4,97$ $4,95$ $4,60$

Nous nous rendons compte très vite qu’il y a de nombreuses valeurs différentes ($24$, en fait).

  • Nous allons donc les regrouper.
bannière à retenir

À retenir

Quand, dans une série de données numériques, il y a de très nombreuses valeurs différentes, on peut les regrouper en classes, c’est-à-dire en intervalles de valeurs.

  • On compte alors le nombre de valeurs qui appartiennent à chaque classe et on récapitule, dans un tableau, les effectifs.
bannière definition

Définition

Amplitude d’une classe :

L’amplitude d’une classe est égale à la différence entre la valeur la plus grande de la classe et la plus petite.

  • Au collège, nous travaillerons uniquement avec des classes de même amplitude.

Pour le saut en longueur, il est intéressant de regrouper les longueurs par classes de $10\ \text{cm}$, à partir, pour notre série, de $4,50\ \text{m}$, jusqu’à avoir la classe contenant le saut le plus long.

  • On obtient ainsi les classes suivantes :

Longueur $l$ (en $\text m$)
$4,50\leq l < 4,60$
$4,60\leq l < 4,70$
$4,70\leq l < 4,80$
$4,80\leq l < 4,90$
$4,90\leq l < 5,00$
$5,00\leq l < 5,10$
$5,10\leq l < 5,20$

Pour trouver les effectifs de chaque classe, il suffit de compter les données comprises entre sa plus petite valeur et sa plus grande. Par exemple :

  • les longueurs appartenant à la première classe sont celles supérieures ou égales à $4,50\ \text{m}$ et strictement inférieures à $4,60\ \text{m}$ (sur fond orange ci-dessous) ;
  • les longueurs appartenant à la dernière classe sont celles supérieures ou égales à $5,10\ \text{m}$ et strictement inférieures à $5,20\ \text{m}$ (sur fond vert ci-dessous).

$4,57$ $4,66$ $4,68$ $4,78$ $4,64$
$5,07$ $4,67$ $4,94$ $4,85$ $5,13$
$4,93$ $4,77$ $4,54$ $4,51$ $4,92$
$4,84$ $4,98$ $5,16$ $4,75$ $4,87$
$4,95$ $4,81$ $4,97$ $4,95$ $4,60$

Il y a ainsi :

  • $\textcolor{#FFA500} 3$ données comprises entre $4,50\ \text{m}$ et $4,60\ \text{m}$ ;
  • $\textcolor{#32CD32} 2$ données comprises entre $5,10\ \text{m}$ et $5,20\ \text{m}$.

On procède de même pour toutes les autres classes.
On peut aussi calculer les fréquences des classes, en calculant le quotient de l’effectif de la classe par l’effectif total.

Longueur $l$ (en $\text m$) Effectif Fréquence
$4,50\leq l < 4,60$ $\textcolor{#FFA500}3$ $0,12$
$4,60\leq l < 4,70$ $5$ $0,2$
$4,70\leq l < 4,80$ $3$ $0,12$
$4,80\leq l < 4,90$ $4$ $0,16$
$4,90\leq l < 5,00$ $7$ $0,28$
$5,00\leq l < 5,10$ $1$ $0,04$
$5,10\leq l < 5,20$ $\textcolor{#32CD32}2$ $0,08$

Prenons maintenant l’exemple d’une question que pourrait vous poser un exercice.

bannière exemple

Exemple

Seules les filles ayant déjà sauté à au moins $4,90\ \text{m}$ pourront participer à la prochaine compétition.

  • Quel est le pourcentage des athlètes du club qui pourront y participer ?

On se sert ici du tableau précédent, en repérant les classes où les longueurs sont supérieures à la longueur minimale. Les records personnels suffisants appartiennent ainsi aux trois dernières classes.

Il suffit maintenant d’ajouter les fréquences de ces trois classes, que l’on n’oubliera pas d’exprimer en pourcentage :

$$0,28+0,04+0,08=0,4=40\,\%$$

  • $40\,\%$ des filles du club pourront participer à la prochaine compétition.

Représenter graphiquement des données regroupées par classes : l’histogramme

bannière definition

Définition

Histogramme :

Un histogramme est un diagramme permettant de représenter des données regroupées en classes.
Les classes sont représentées par des rectangles dont les aires sont proportionnelles aux effectifs.

bannière propriete

Propriété

Cas particulier : Lorsque les classes sont de même amplitude, ce qui est le cas des situations que nous rencontrons en troisième, les rectangles représentant les classes ont la même largeur et leurs hauteurs sont proportionnelles aux effectifs.

Pour les records personnels du club de Ludivine, on obtient ainsi :

Histogramme Histogramme

Calculer une moyenne avec des données regroupées par classe

Pour calculer la moyenne des records personnels du club de Ludivine, on pourrait faire comme d’habitude, en effectuant la somme de toutes les longueurs, puis en la divisant par l’effectif total. On obtiendrait ainsi la moyenne exacte.
Il s’agirait toutefois d’un calcul fastidieux, qui l’est encore plus quand les données sont très nombreuses. De plus, souvent, les données sont directement données regroupées par classes.

  • On peut alors calculer (ou tout au moins approcher) la moyenne, en utilisant les centres des classes.
bannière à retenir

À retenir

Pour calculer une moyenne lorsque les données sont regroupées par classe :

  • on détermine le centre de chaque classe, qui est égal à la moyenne entre les valeurs extrêmes de la classe ;
  • on calcule ensuite la moyenne pondérée en prenant comme valeurs les centres des classes.

Pour Ludivine et ses camarades du club, les centres de classes sont simples à déterminer.

  • On les ajoute dans le tableau que nous avons fait plus haut :

Longueur $l$ (en $\text m$) Centre de la classe Effectif Fréquence
$4,50\leq l < 4,60$ $4,55$ $3$ $0,12$
$4,60\leq l < 4,70$ $4,65$ $5$ $0,2$
$4,70\leq l < 4,80$ $4,75$ $3$ $0,12$
$4,80\leq l < 4,90$ $4,85$ $4$ $0,16$
$4,90\leq l < 5,00$ $4,95$ $7$ $0,28$
$5,00\leq l < 5,10$ $5,05$ $1$ $0,04$
$5,10\leq l < 5,20$ $5,15$ $2$ $0,08$

On peut maintenant calculer la moyenne pondérée :

$$\begin{aligned} M_\text{p}&=\dfrac{4,55\times 3+4,65\times 5+4,75\times 3+4,85\times 4+4,95\times 7+5,05\times 1+5,15\times 2}{25} \\ &=\dfrac{13,65+23,25+14,25+19,4+34,65+5,05+10,3}{25} \\ &=\dfrac{120,55}{25} \\ &=4,822\ \text{m} \end{aligned}$$

  • En passant par les centres des classes, on trouve un record personnel moyen égal à $4,822\ \text{m}$.
bannière astuce

Astuce

Puisqu’on dispose ici de toutes les données, on peut calculer la moyenne exacte, en faisant appel à un tableur. Celui-ci nous renvoie une moyenne exacte de $4,8216\ \text{m}$.

  • Ici, moyenne exacte et moyenne calculée avec les centres des classes sont très proches.
    Cette dernière est donc dans notre cas très fiable.

Conclusion :

Tout au long du collège, nous avons appris à traiter et à interpréter des séries de données statistiques, en les représentant et en en déterminant des premières caractéristiques. Ces bases sont fondamentales pour bien comprendre le monde actuel, où les statistiques et le traitement des données ont une place sans cesse grandissante, avec Internet notamment.
Au lycée, nous continuerons à approfondir l’étude des statistiques. Nous en découvrirons la puissance, mais aussi les limites. Et nous serons ainsi plus sensibles à tous les enjeux du traitement des données.