Échantillonnage
Introduction :
Lorsqu’on désire travailler sur une population de très grand effectif, il est difficile d’en déterminer ses propriétés. On utilise alors un échantillon de cette population. Ainsi, cela réduit le volume de données à étudier. Dans ce chapitre, nous allons déterminer les caractéristiques d’un échantillon en connaissant les caractéristiques d’une population. Nous allons également essayer, à partir des caractéristiques d’un échantillon, de déduire les caractéristiques d’une population comme dans le cadre d’un sondage.
Intervalle de fluctuation
Intervalle de fluctuation
Dans cette partie, on considère une population comportant un grand nombre d’individus dont on connaît la proportion $p$ d’un caractère.
Échantillon :
Un échantillon de taille $n$ est une sélection de $n$ individus choisis aléatoirement dans une population.
Une entreprise confectionne des pneumatiques pour des véhicules. La production journalière s’élève à $100\,000$ unités. Il n’est pas possible de vérifier si tous les pneumatiques sont conformes au cahier des charges, alors on prélève au hasard $500$ pneumatiques chaque jour et on effectue des tests.
- On a donc prélevé un échantillon de taille $n = 500$ sur une population d’effectif $100\,000$.
Dans une population, les individus ayant un caractère donné représentent une proportion $p$. Pour chaque échantillon extrait de la population, la fréquence d’apparition $f$ du caractère peut varier.
Intervalle de fluctuation :
Quand on prélève un échantillon de taille $n$ (avec $n\geq 25$) dans une population qui contient une proportion $p$ (avec $0,2\leq p\leq 0,8$) du caractère étudié, alors la fréquence $f$ d’un échantillon aléatoire de taille $n$ appartient à l’intervalle $\bigg[p-\sqrt{\dfrac{1}{n}}\ ;\ p+\sqrt{\dfrac{1}{n}}\bigg]$ avec une probabilité de $0,95$.
- Cet intervalle s’appelle intervalle de fluctuation à $95\ \%$.
- Exemple 1
L’entreprise confectionne $100\,000$ pneumatiques journaliers et on sait que $20\ \%$ des pneumatiques sont défectueux, soit une proportion $p = 0,2$. Sachant que l’on prélève au hasard $500$ pneumatiques chaque jour, on peut déterminer l’intervalle de fluctuation, c’est-à-dire l’intervalle où la majorité des fréquences des pneumatiques défectueux des échantillons se situent.
Cet intervalle est :
$$\bigg[0,2-\sqrt{\dfrac{1}{500}}\ ;\ 0,2+\sqrt{\dfrac{1}{500}}\bigg]\approx [0,155\ ;\ 0,245]$$
Ainsi, la proportion de pneus défectueux dans chaque échantillon se trouve majoritairement comprise dans cet intervalle, soit entre $0,155$ et $0,245$.
- Autrement dit, la majorité des échantillons comportent entre $15,5\%$ et $24,5\ \%$ de pneus défectueux.
- Exemple 2
Considérons un bassin contenant $50\ \%$ de saumons femelles et $50\ \%$ de saumons mâles. On prélève un échantillon de taille $n = 100$, donc l’intervalle de fluctuation est :
$$\bigg[0,5-\sqrt{\dfrac{1}{100}}\ ;\ 0,5+\sqrt{\dfrac{1}{100}}\bigg]= [0,4\ ;\ 0,6]$$
- La majorité des échantillons contiennent entre $40\ \%$ et $60\ \%$ de saumons femelles (ou mâles).
Plus la taille de l’échantillon est grande, plus l’étendue de l’intervalle de fluctuation diminue.
Intervalle de confiance
Intervalle de confiance
Dans cette partie on considère une population comportant un grand nombre d’individus dont on ne connaît pas la proportion $p$ d’un caractère.
Intervalle de confiance :
Quand un échantillon de taille $n$ contient une fréquence $f$ du caractère étudié (avec $n\geq 30$, $n\times f\geq 5$ et $n\times(1- f)\geq 5$), alors la proportion $p$ du caractère dans la population appartient à l’intervalle $\left[f-\sqrt{\dfrac{1}{n}}\ ;\ f+\sqrt{\dfrac{1}{n}}\right]$ avec une probabilité de $0,95$.
- Cet intervalle s’appelle intervalle de confiance à $95\ \%$.
En prévision des élections régionales, $1\,500$ personnes ont été interrogées et $280$ ont déclaré avoir l’intention de voter pour monsieur $A$.
On a donc : $n=1\,500$ et $f=\dfrac{280}{1\,500}$.
L’intervalle de confiance est donc :
$$\Big[\dfrac{280}{1500}-\sqrt{\dfrac{1}{1500}}\ ;\ \dfrac{280}{1500}+\sqrt{\dfrac{1}{1500}}\Big]= [0,161\ ;\ 0,212]$$
On peut donc dire que, sur l’ensemble de la population et pour la majorité des échantillons étudiés, la proportion de gens votant pour monsieur $A$ dans la population appartient à l’intervalle $ [0,161\ ;\ 0,212]$.
- Autrement dit, pour la plupart des échantillons étudiés, il y entre $16,1\ \%$ et $21,2\ \%$ des personnes qui vont voter pour monsieur $A$.
- On utilise un intervalle de fluctuation lorsque la proportion $p$ dans la population est connue et la fréquence $f$ observée dans un échantillon appartient dans la majorité des cas à l’intervalle de fluctuation considéré.
- On utilise un intervalle de confiance lorsque l’on veut estimer une proportion inconnue $p$ dans une population à partir de la fréquence $f$ observée dans un échantillon, comme par exemple dans le cadre d’un sondage.
Loi des grands nombres
Loi des grands nombres
On jette $100$ fois une pièce équilibrée. On note la fréquence d’apparition de chaque côté dans un tableau.
Côté | Pile | Face |
Effectif | $56$ | $44$ |
Fréquence | $0,56$ | $0,44$ |
On regarde la fréquence d’apparition de pile : $f=0,56$.
La pièce n’est pas truquée, la probabilité d’obtenir pile est égale à $p=\dfrac{1}{2}$.
Ainsi :
$$\begin{aligned} \vert f-p\vert &= \Big\vert 0,56-\dfrac{1}{2}\Big\vert \\ &=0,06 \end{aligned}$$
On jette maintenant $10\,000$ fois cette pièce. On note la fréquence d’apparition de chaque face dans un tableau.
Côté | Pile | Face |
Effectif | $4\,985$ | $5\,015$ |
Fréquence | $0,4985$ | $0,5015$ |
On regarde la fréquence d’apparition de pile, elle est égale à $f=0,4985$.
La pièce n’est pas truquée, la probabilité d’obtenir pile est égale à $p=\dfrac{1}{2}$.
Ainsi :
$$\begin{aligned} \vert f-p \vert &=\Big\vert 0,4985-\dfrac{1}{2} \Big\vert \\ &=0,0015 \end{aligned}$$
- Plus le nombre d’expériences aléatoires est grand, plus la fréquence d’apparition d’un événement semble tendre vers la probabilité de cet événement.
Loi des grands nombres (version simplifiée) :
Soit une expérience aléatoire répétée $n$ fois, qui a pour résultat une fréquence d’apparition.
Plus $n$ est grand, plus la fréquence d’apparition se rapproche de la probabilité de l’expérience aléatoire.
Conclusion :
L’échantillonnage fait maintenant partie intégrante du processus de sondage. À l’issue de ce cours, vous comprenez pourquoi les résultats des sondages sont d’autant plus précis que la taille de l’échantillon issu d’une population est grande. Lorsque vous lirez maintenant ce genre d’information : « Sur $956$ personnes interrogées, $58\ \%$ comptent voter pour monsieur ou madame Y », vous pourrez estimer la fluctuation de ce pourcentage.