Analyse de l’information chiffrée
Introduction :
Dans notre monde très informatisé, les données ont pris une place prépondérante, et leurs exploitations sont devenues des enjeux centraux, que ce soit sur le plan économique, démocratique ou environnemental. Il est donc important de comprendre les différents outils mathématiques qui permettent d’interpréter ces données, afin de garder un esprit critique vis-à-vis des études statistiques qui sont aujourd’hui omniprésentes.
Dans ce cours, nous nous attacherons plus particulièrement à l’étude de séries statistiques dites à deux variables, et nous verrons, ou reverrons, comment les représenter graphiquement pour les rendre plus parlantes.
Tableau croisé d’effectifs
Tableau croisé d’effectifs
Durant les années précédentes, nous avons étudié des séries statistiques où l’on s’intéresse à un seul caractère à l’aide de différents indicateurs (moyenne et écart-type, médiane et écart interquartile…).
Nous allons ici travailler sur des séries statistiques à deux variables (ou bivariées) où l’on s’intéresse, pour chaque individu de la population considérée, à deux caractères différents.
Prenons l’exemple suivant : on relève, pour chaque salarié d’une entreprise, la distance domicile-travail, et on lui demande son moyen de transport habituel pour rejoindre son lieu de travail.
On s’intéresse ainsi au lien entre distance à parcourir et moyen de transport utilisé. Pour recenser les résultats, on se sert alors d’un tableau croisé d’effectifs.
Tableau croisé d’effectifs :
On considère une étude statistique où l’on s’intéresse à deux caractères (quantitatifs ou qualitatifs).
Le tableau croisé d’effectifs est un tableau à double entrée qui permet de donner, aux croisements des lignes et des colonnes, les effectifs des individus possédant les deux valeurs correspondantes.
Pour notre étude, on a obtenu les résultats suivants :
Tableau croisé d’effectifs
Dans ce tableau, on peut lire, par exemple :
- qu’il y a $\textcolor{#FF8000}{17}$ salariés qui habitent à moins de deux kilomètres mais qui viennent tout de même en voiture ;
- que $\textcolor{#00CC00}{21}$ salariés au total viennent à vélo ;
- que $\textcolor{#CC00CC}{179}$ salariés habitent à plus de cinq kilomètres des locaux de la société ;
- qu’il y a au total $\textcolor{#FF0000}{275}$ salariés dans cette entreprise.
[Pour une étude réelle du lien entre distance domicile-travail et moyen de transport, on pourra se référer au document « La voiture reste majoritaire pour les déplacements domicile-travail, même pour de courtes distances » de l’Insee (2021).]
Représentations graphiques
Représentations graphiques
Diagramme en bâtons empilés
Diagramme en bâtons empilés
Pour représenter une série statistique à deux variables, on peut utiliser un diagramme en bâtons empilés qui, pour chacune des valeurs d’une variable, représente l’effectif total par un bâton, lui-même décomposé selon les effectifs de l’autre variable.
En reprenant l’étude des moyens de transport en fonction de la distance, on obtient :
Diagramme en bâtons empilés
Un tel diagramme permet par exemple de voir que la majorité des salariés habitent à plus de cinq kilomètres (bâton le plus haut) et que la plupart d’entre eux viennent en voiture (effectif représenté par la partie orange).
On peut aussi voir que la voiture reste le moyen de transport principal, et ce quelle que soit la distance domicile-travail (dans chaque barre, la partie orange est la plus grande).
Diagrammes circulaires
Diagrammes circulaires
On peut aussi comparer, par catégorie de distance, la répartition des moyens de transport, à l’aide de diagrammes circulaires, où la mesure de l’angle d’un secteur circulaire est proportionnelle à l’effectif.
Toujours dans notre étude, en les plaçant côte à côte, on obtient :
Diagrammes circulaires
Ces diagrammes permettent de voir notamment que la part de la voiture augmente avec la distance domicile-travail.
Remarque :
Pour comparer la répartition, on peut aussi utiliser une variante du diagramme en bâtons empilés, où tous les bâtons ont la même hauteur (ils représentent $100\,\%$ des effectifs de chaque valeur) et, dans chaque bâton, on représente la proportion des différents modes de transport :
Diagramme en bâtons empilés (proportions)
Nuage de points
Nuage de points
On peut aussi, pour représenter une série à deux variables, notamment quand les caractères étudiés sont quantitatifs, utiliser un nuage de points.
Nuage de points :
On considère une série statistique où on s’intéresse à deux caractères.
Dans un repère, on construit un nuage de points en représentant chaque individu par un point, dont les coordonnées correspondent au couple de valeurs qu’il possède.
Remarques :
- Un nuage de points peut permettre de mettre en valeur le lien, ou l’absence de lien, entre les deux caractères étudiés. Si l’on souhaite étudier la dépendance d’un des caractères en fonction du second, on placera ce dernier caractère en abscisse.
- Les échelles de grandeur peuvent être différentes entre les deux grandeurs (ainsi que les unités), on n’hésitera donc pas à adapter l’échelle des axes.
Le tableau suivant donne, pour différentes années :
- le prix annuel moyen du paquet de cigarettes le plus vendu, en euro ;
- et le nombre de cigarettes vendues, en million.
[Source : Rapport « Tabagisme et arrêt du tabac en 2021 » de l’Observatoire français des drogues et tendances addictives (OFDT)]
On souhaite regarder si le prix du paquet influe sur le nombre de cigarettes vendues.
On construit donc le nuage de points avec, en abscisses, les prix et, en ordonnées, les quantités vendues :
Nuage de points
Ce nuage de points montre, visuellement, que plus le prix du paquet augmente, plus le nombre de cigarettes vendues diminue. Il semble donc qu’il y ait une corrélation (négative) entre prix du paquet et consommation de tabac : le prix paraît être un vecteur intéressant pour faire diminuer le tabagisme et améliorer ainsi la santé publique.
Remarques :
- Il existe des indicateurs mathématiques pour étudier plus précisément la corrélation entre deux caractères quantitatifs, qui seront étudiés en terminale.
- Attention : corrélation entre deux caractères ne veut pas dire nécessairement lien de cause à effet ! Par exemple, on pourrait remarquer qu’il y a corrélation entre le nombre de glaces vendues et le nombre de coups de soleil ; cela ne signifie bien sûr pas que la consommation de glaces cause des coups de soleil… il y a un autre facteur qui entre en jeu : la chaleur ensoleillée.