L'échantillonnage

Introduction :

Dans cette leçon, nous allons voir une méthode très utilisée aujourd’hui pour étudier des données chiffrées : l’échantillonnage. Pour cela on verra dans un premier temps ce qu’est exactement l’échantillonnage, puis ce qu’est un intervalle de fluctuation avec un exemple d’application et enfin l’intervalle de confiance avec là aussi un exemple explicatif.

L’échantillonnage, de quoi s’agit-il ?

L’échantillonnage est utilisé en statistique lorsqu’il est impossible ou inutile d’observer un caractère sur l’ensemble des individus d’une population. On utilise alors un échantillon de population.

On opère ainsi essentiellement dans deux situations :

  • lorsque l’effectif de la population est trop grand pour que l’on puisse mener à bien tous les relevés et calculs ;
  • lorsque la mesure effectuée est destructrice. Par exemple, la durée de vie d’une ampoule électrique est connue lorsque l’ampoule ne fonctionne plus.

À partir des individus d’un échantillon, on peut se faire une idée des caractéristiques de la population. Mais il est clair que les résultats dépendent de l’échantillon choisi. Toutefois, si le nombre d’individus de l’échantillon est suffisamment grand, on peut avoir une image assez fidèle de la population complète.

bannière definition

Définition

Échantillon d’une expérience aléatoire :

Lors d’une expérience aléatoire sur l’ensemble de la population étudiée, on appelle échantillon de taille $n$ l’ensemble constitué de $n$ éléments de cette population.

bannière exemple

Exemple

Dans une entreprise qui fabrique 10 000 composants électroniques par semaine, on prélève au hasard 500 composants.
On dit que cet ensemble de 500 composants constitue un échantillon de taille 500 de la population de tous les composants fabriqués en une semaine.
On pourra alors avoir une idée de la fréquence de composants défectueux fabriqués en une semaine.

Intervalle de fluctuation

Définition

Si on fait plusieurs prélèvements de même taille à des moments différents, il est fortement probable que les fréquences étudiées varient.

bannière definition

Définition

Fluctuation d’échantillonnage :

Pour une population donnée, les différences de fréquences observées sur des échantillons aléatoires s’appellent une fluctuation d’échantillonnage.

On peut créer un intervalle de fluctuation à 95 %, que l’on appelle $I$, permettant de répertorier les fréquences des échantillons en considérant 5 % de marge d’erreur (2,5 % dans les petites valeurs et 2,5 % dans les grandes valeurs).

Cela signifie qu’il est « rare » de trouver un échantillon dans lequel la fréquence n’est pas dans l’intervalle $I$.

On pourra alors considérer qu’un tel échantillon n’est pas « normal » avec un risque de se tromper de 5 %.

Pour calculer cet intervalle de fluctuation à 95 % $I$, il faut que l’échantillon soit assez grand, c’est-à-dire que sa taille $n$ soit au moins de 25 éléments. De plus, il faut que la proportion $p$ d’un caractère dans la population totale soit comprise entre 0,2 et 0,8.

bannière definition

Définition

Intervalle de fluctuation :

Soit $p$ la proportion d’un caractère dans la population étudiée et $f$ la fréquence du caractère dans un échantillon de taille $n$.

Si $n\geq25$ et $0,2\leq p\leq0,8$

$I=[p-\dfrac{1}{\sqrt{_n}}\ ;p+\dfrac{1}{\sqrt{_n}} ]$

$I$ est l’intervalle de fluctuation à 95 % de $f$.

bannière astuce

Astuce

Plus la taille de l’échantillon est grande, plus l’intervalle de fluctuation est petit, c’est-à-dire plus précis.

Entraînement

bannière exemple

Exemple

Dans une usine de fabrication de trottinettes, on contrôle les défauts de peinture. Lorsque la fabrication est standard, on a 26 % de défaut de peinture. Quand on prélève au hasard 70 trottinettes, on observe 20 % de défauts. La question est de savoir si cette proportion est normale ou pas ?

  • Pour répondre à cette question, calculons l’intervalle de fluctuation à 95 %.
  • La taille de l’échantillon est 70. Donc $n=70$.
  • La proportion de défauts dans la population est 26 %. Donc $p=0,26$.
  • Comme $n\geq 25$ et $0,2\leq p\leq 0,8$, l’intervalle de fluctuation à 95% $I$ peut se calculer avec la formule :

$$\begin{aligned}\\ I&=[p-\dfrac{1}{\sqrt{_n}}\ ;p+\dfrac{1}{\sqrt{_n}} ]\\ I&=[\ 0,26-\dfrac{1}{\sqrt{70}};\ 0,26+\dfrac{1}{\sqrt{70}} ]\\ I&=[\ 0,14;\ 0,38\ ] \end{aligned}$$

  • Donc il est normal d’avoir entre 14 % et 38 % de trottinettes ayant un défaut de peinture lorsqu’on prélève 70 trottinettes. Lors de ce contrôle, on a prélevé 20 % de trottinettes avec défaut.
  • Donc cette proportion est tout à fait normale.

Intervalle de confiance

Définition

Lorsqu’on veut estimer une proportion $p$ dans une population statistiquement inconnue à partir d’un échantillon, on va utiliser un intervalle de confiance. Forcément, on connaîtra la fréquence $f$ d’un caractère dans un échantillon de taille $n$ connue.

Par contre, pour pouvoir calculer l’intervalle de confiance, il faut (comme pour l’intervalle de fluctuation) que l’échantillon soit de taille plus grande que 25 et que la proportion dans la population soit comprise entre 0,2 et 0,8.

bannière definition

Définition

Intervalle de confiance :

Soit $p$ la proportion théorique d’un caractère dans la population étudiée et $f$ la fréquence observée du caractère dans un échantillon de taille $n$.

Si $n\geq 25$ et $0,2\leq p \leq0,8$

$I_c=[f-\dfrac{1}{\sqrt{_n}}\ ;f+\dfrac{1}{\sqrt{_n}}]$

$I_c$ est l’intervalle de confiance à 95 % de $p$.

bannière astuce

Astuce

Il n’est pas sûr que l’intervalle de confiance contienne $p$ car c’est dans 95 % des cas que le procédé fournit un intervalle qui contient $p$.

Entraînement

bannière exemple

Exemple

Une nouvelle série est diffusée à 21H00 sur une chaîne de télévision. Le taux d’audience a été mesuré à partir de 1000 appareils installés au hasard chez des particuliers. On a relevé une audience de 32 %.

Une autre chaîne de télévision prétend avoir une meilleure audience à la même heure en affirmant qu’un institut de mesure a relevé 39 % d’audience sur 140 appareils installés au hasard chez des particuliers. Que peut-on penser de cette affirmation ?

  • Calculons tout d’abord l’intervalle de confiance à 95 % de l’audience de la première chaine.

$n=1000\geq25\;$ et $\;f=0,32\;$ donc $\;0,2\leq\ f\ \leq 0,8$.

$\begin{aligned} I_c&=[f -\frac{1}{\sqrt{_n}}\ ; f+\frac{1}{\sqrt{_n}} ]\\ &=[\ 0,32-\dfrac{1}{\sqrt{1000}}\ ;\ 0,32+\dfrac{1}{\sqrt{1000}} ]\\ &=[\ 0,319\ ;\ 0,321\ ] \end{aligned}$

  • Calculons ensuite l’intervalle de confiance à 95 % de l’audience de la deuxième chaine.

$n=140\geq25\;$ et $f=0,39\;$ donc $0,2\leq\ f\leq 0,8$.

$\begin{aligned}\\ I_c&=[\ f-\dfrac{1}{\sqrt{_n}}\ ;\ f+\dfrac{1}{\sqrt{_n}} ] \\ &=[\ 0,39-\dfrac{1}{\sqrt{140}}\ ;\ 0,39+\dfrac{1}{\sqrt{140}} ] \\ &=[\ 0,393\ ;\ 0,401\ ] \end{aligned}$

  • Analysons les résultats : l’intervalle de confiance de la deuxième chaine est au-dessus de l’intervalle de confiance de la première chaine.
  • Donc la deuxième chaine de télévision a effectivement fait une meilleur audience que la première chaine.