Échantillonnage

Introduction :

Lorsqu’on désire travailler sur une population de très grand effectif, il est difficile d’en déterminer ses propriétés. On utilise alors un échantillon de cette population. Ainsi, cela réduit le volume de données à étudier. Dans ce chapitre, nous allons déterminer les caractéristiques d’un échantillon en connaissant les caractéristiques d’une population. Nous allons également essayer, à partir des caractéristiques d’un échantillon, de déduire les caractéristiques d’une population comme dans le cadre d’un sondage.

Intervalle de fluctuation

Dans cette partie, on considère une population comportant un grand nombre d’individus dont on connaît la proportion $p$ d’un caractère.

bannière definition

Définition

Échantillon :

Un échantillon de taille $n$ est une sélection de $n$ individus choisis aléatoirement dans une population.

Alt texte

bannière exemple

Exemple

Une entreprise confectionne des pneumatiques pour des véhicules. La production journalière s’élève à $100\,000$ unités. Il n’est pas possible de vérifier si tous les pneumatiques sont conformes au cahier des charges, alors on prélève au hasard $500$ pneumatiques chaque jour et on effectue des tests.

  • On a donc prélevé un échantillon de taille $n = 500$ sur une population d’effectif $100\,000$.

Dans une population, les individus ayant un caractère donné représentent une proportion $p$. Pour chaque échantillon extrait de la population, la fréquence d’apparition $f$ du caractère peut varier. 

bannière definition

Définition

Intervalle de fluctuation :

Quand on prélève un échantillon de taille $n$ (avec $n\geq 25$) dans une population qui contient une proportion $p$ (avec $0,2\leq p\leq 0,8$) du caractère étudié, alors la fréquence $f$ d’un échantillon aléatoire de taille $n$ appartient à l’intervalle $\bigg[p-\sqrt{\dfrac{1}{n}}\ ;\ p+\sqrt{\dfrac{1}{n}}\bigg]$ avec une probabilité de $0,95$.

  • Cet intervalle s’appelle intervalle de fluctuation à $95\ \%$.
bannière exemple

Exemple

  • Exemple 1

L’entreprise confectionne $100\,000$ pneumatiques journaliers et on sait que $20\ \%$ des pneumatiques sont défectueux, soit une proportion $p = 0,2$. Sachant que l’on prélève au hasard $500$ pneumatiques chaque jour, on peut déterminer l’intervalle de fluctuation, c’est-à-dire l’intervalle où la majorité des fréquences des pneumatiques défectueux des échantillons se situent.
Cet intervalle est :

$$\bigg[0,2-\sqrt{\dfrac{1}{500}}\ ;\ 0,2+\sqrt{\dfrac{1}{500}}\bigg]\approx [0,155\ ;\ 0,245]$$

Ainsi, la proportion de pneus défectueux dans chaque échantillon se trouve majoritairement comprise dans cet intervalle, soit entre $0,155$ et $0,245$.

  • Autrement dit, la majorité des échantillons comportent entre $15,5\%$ et $24,5\ \%$ de pneus défectueux.
  • Exemple 2

Considérons un bassin contenant $50\ \%$ de saumons femelles et $50\ \%$ de saumons mâles. On prélève un échantillon de taille $n = 100$, donc l’intervalle de fluctuation est :

$$\bigg[0,5-\sqrt{\dfrac{1}{100}}\ ;\ 0,5+\sqrt{\dfrac{1}{100}}\bigg]= [0,4\ ;\ 0,6]$$

  • La majorité des échantillons contiennent entre $40\ \%$ et $60\ \%$ de saumons femelles (ou mâles).
bannière propriete

Propriété

Plus la taille de l’échantillon est grande, plus l’étendue de l’intervalle de fluctuation diminue.

Intervalle de confiance

Dans cette partie on considère une population comportant un grand nombre d’individus dont on ne connaît pas la proportion $p$ d’un caractère.

bannière definition

Définition

Intervalle de confiance :

Quand un échantillon de taille $n$ contient une fréquence $f$ du caractère étudié (avec $n\geq 30$, $n\times f\geq 5$ et $n\times(1- f)\geq 5$), alors la proportion $p$ du caractère dans la population appartient à l’intervalle $\left[f-\sqrt{\dfrac{1}{n}}\ ;\ f+\sqrt{\dfrac{1}{n}}\right]$ avec une probabilité de $0,95$.

  • Cet intervalle s’appelle intervalle de confiance à $95\ \%$.
bannière exemple

Exemple

En prévision des élections régionales, $1\,500$ personnes ont été interrogées et $280$ ont déclaré avoir l’intention de voter pour monsieur $A$.

On a donc : $n=1\,500$ et $f=\dfrac{280}{1\,500}$.
L’intervalle de confiance est donc :

$$\Big[\dfrac{280}{1500}-\sqrt{\dfrac{1}{1500}}\ ;\ \dfrac{280}{1500}+\sqrt{\dfrac{1}{1500}}\Big]= [0,161\ ;\ 0,212]$$

On peut donc dire que, sur l’ensemble de la population et pour la majorité des échantillons étudiés, la proportion de gens votant pour monsieur $A$ dans la population appartient à l’intervalle $ [0,161\ ;\ 0,212]$.

  • Autrement dit, pour la plupart des échantillons étudiés, il y entre $16,1\ \%$ et $21,2\ \%$ des personnes qui vont voter pour monsieur $A$.
bannière à retenir

À retenir

  • On utilise un intervalle de fluctuation lorsque la proportion $p$ dans la population est connue et la fréquence $f$ observée dans un échantillon appartient dans la majorité des cas à l’intervalle de fluctuation considéré.
  • On utilise un intervalle de confiance lorsque l’on veut estimer une proportion inconnue $p$ dans une population à partir de la fréquence $f$ observée dans un échantillon, comme par exemple dans le cadre d’un sondage.

Loi des grands nombres

bannière exemple

Exemple

On jette $100$ fois une pièce équilibrée. On note la fréquence d’apparition de chaque côté dans un tableau.

Côté Pile Face
Effectif $56$ $44$
Fréquence $0,56$ $0,44$

On regarde la fréquence d’apparition de pile : $f=0,56$.
La pièce n’est pas truquée, la probabilité d’obtenir pile est égale à $p=\dfrac{1}{2}$.
Ainsi :

$$\begin{aligned} \vert f-p\vert &= \Big\vert 0,56-\dfrac{1}{2}\Big\vert \\ &=0,06 \end{aligned}$$

On jette maintenant $10\,000$ fois cette pièce. On note la fréquence d’apparition de chaque face dans un tableau.

Côté Pile Face
Effectif $4\,985$ $5\,015$
Fréquence $0,4985$ $0,5015$

On regarde la fréquence d’apparition de pile, elle est égale à $f=0,4985$.
La pièce n’est pas truquée, la probabilité d’obtenir pile est égale à $p=\dfrac{1}{2}$.
Ainsi :

$$\begin{aligned} \vert f-p \vert &=\Big\vert 0,4985-\dfrac{1}{2} \Big\vert \\ &=0,0015 \end{aligned}$$

  • Plus le nombre d’expériences aléatoires est grand, plus la fréquence d’apparition d’un événement semble tendre vers la probabilité de cet événement.
bannière definition

Définition

Loi des grands nombres (version simplifiée) :

Soit une expérience aléatoire répétée $n$ fois, qui a pour résultat une fréquence d’apparition.
Plus $n$ est grand, plus la fréquence d’apparition se rapproche de la probabilité de l’expérience aléatoire.

Conclusion :

L’échantillonnage fait maintenant partie intégrante du processus de sondage. À l’issue de ce cours, vous comprenez pourquoi les résultats des sondages sont d’autant plus précis que la taille de l’échantillon issu d’une population est grande. Lorsque vous lirez maintenant ce genre d’information : « Sur $956$ personnes interrogées, $58\ \%$ comptent voter pour monsieur ou madame Y », vous pourrez estimer la fluctuation de ce pourcentage.