Statistique à deux variables
Série statistique à deux variables
Série statistique à deux variables
- Soit une population de $n$ individus, pour lesquels nous étudions deux caractères quantitatifs $x$ et $y$.
- Les couples $(x_i\ ;\, y_i)$ pour chaque individu $i$ ($1\leq i\leq n$) constituent une série statistique à deux variables :
Individu $i$ | $1$ | $2$ | $…$ | $n$ |
Caractère $x_i$ | $x_1$ | $x_2$ | $…$ | $x_n$ |
Caractère $y_i$ | $y_1$ | $y_2$ | $…$ | $y_n$ |
- On représente une série statistique à deux variables $x$ et $y$ par un nuage de points dans un repère orthogonal $(O\ ;\, I,\,J)$, constitué de points $M_i$ de coordonnées $(x_i\ ;\, y_i)$ :
Exemple de nuage de points
- On définit le point moyen de ce nuage comme le point $G$, de coordonnées $(\bar{x}\ ;\, \bar{y})$, où :
- $\bar{x}$ est la moyenne arithmétique des valeurs $x_i$ associées à la variable $x$ ;
- $\bar{y}$ est la moyenne arithmétique des valeurs $y_i$ associées à la variable $y$.
- Soit une série statistique à deux variables $x$ et $y$, d’effectif $n$ : $\big((x_1\ ;\, y_1),\,(x_2\ ;\, y_2),\,…,\,(x_n\ ;\, y_n)\big)$, respectivement de moyennes $\bar x$ et $\bar y$.
- La covariance de $(x\ ;\, y)$, notée ici $\text{cov}(x\ ;\, y)$, est donnée par :
$$\text{cov}(x)=\dfrac 1n \sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)$$
- Soit une série statistique à deux variables $x$, de variance $\text{var}(x)$, et $y$, de variance $\text{var}(y)$.
Soit $\text{cov}(x\ ;\, y)$ la covariance de $x$ et $y$. - Le coefficient de corrélation $r$ est défini par :
$$r=\dfrac{\text{cov}(x\ ;\, y)}{\sqrt{\text{var}(x)\text{var}(y)}}$$
- Ce coefficient indique le lien, linéaire, qui existe entre les variables $x$ et $y$ :
- il appartient à l’intervalle $[-1\ ;\, 1]$ ;
- plus il est proche des bornes de l’intervalle $-1$ et $1$, plus la corrélation linéaire entre $x$ et $y$ est forte ;
- s’il est positif, alors $x$ et $y$ varient « dans le même sens » ;
- s’il est négatif, alors $x$ et $y$ varient « en sens contraires ».
Ajustement affine
Ajustement affine
- Si l’on étudie une série statistique, c’est pour pouvoir effectuer des estimations et des prévisions.
- Lorsque l’on s’intéresse à des valeurs inconnues mais qui font partie du domaine couvert par les données fournies par l’étude, alors on effectue une interpolation.
- Si l’on travaille hors de ce domaine, alors on effectue une extrapolation.
- À cet effet, le principe de l’ajustement affine est de tracer, lorsque les points d’un nuage semblent globalement alignés, une droite passant « au plus près » de ces points.
- Cette droite est alors appelée droite d’ajustement, ou droite de régression.
- Méthode de Mayer :
- On divise le nuage en $2$ groupes de points de même effectif (ou l’un avec un point supplémentaire, si l’effectif est impair).
- On calcule le point moyen de ces $2$ groupes.
- On relie ces $2$ points moyens pour obtenir la droite d’ajustement.
- On peut aussi, si besoin, connaissant les coordonnées de $2$ points, déterminer l’équation de la droite.
- Soit une série statistique à deux variables $x$, de moyenne $\bar x$ et de variance $\text{var}(x)$, et $y$, de moyenne $\bar y$ et de variance $\text{var}(y)$.
Soit $\text{cov}(x\ ;\, y)$ la covariance de $x$ et $y$. - La droite des moindres carrés, ou droite d’ajustement de $y$ en $x$, a pour équation $y=ax+b$ où :
$$\begin{aligned} a&=\dfrac {\text{cov}(x\ ;\, y)}{\text{var}(x)} \\ &=\dfrac {\text{cov}(x\ ;\, y)}{\sigma^2(x)} \\ b&=\bar y-a\bar x \end{aligned}$$
- Méthode des moindres carrés :
Soit une série statistique à deux variables $x$ et $y$ - Si nécessaire, représenter le nuage de points $(x_i\ ;\, y_i)$ dans un repère orthogonal.
- Calculer les moyennes $\bar x$ et $\bar y$ des deux variables.
- Placer le cas échéant le point moyen $G\,(\bar x\ ;\, \bar y)$ dans la représentation.
- Calculer les variances $\text{var}(x)$ et $\text{var}(y)$ des deux variables.
- Calculer la covariance $\text{cov}(x\ ;\, y)$ des deux variables.
- Déduire l’équation de la droite d’ajustement de $y$ en $x$.
- Calculer le coefficient de corrélation $r$.
- Si l’ajustement s’avère suffisamment pertinent ($\vert r\vert \approx 1$), alors on peut s’en servir pour effectuer :
- des interpolations (« entre » les données de la série),
- des extrapolations (« hors » des données de la série).
Ajustement affine par changement de variable (méthodologie)
Ajustement affine par changement de variable (méthodologie)
- Si les points du nuage ne semblent pas alignés, et en fonction de l’allure du nuage, décider d’un changement de variable (s’il n’est pas indiqué dans l’énoncé).
- Calculer les nouvelles valeurs déduites du changement de variable.
- Représenter le nouveau nuage de points et tracer la droite d’ajustement.
- Calculer le coefficient de corrélation correspondant, afin de confirmer la pertinence du changement de variable.
- À partir de la définition de la nouvelle variable, en déduire la fonction d’ajustement des données initiales.
- Représenter dans le nuage initial la courbe représentative de cette fonction, si l’on souhaite faire graphiquement des interpolations et des extrapolations.
- La définition de cette fonction permet aussi de faire, par le calcul, des interpolations et des extrapolations.
Exemples d’ajustement