Échantillonnage et estimation 0.1 Introduction Si l’on désire étudier une variable statistique sur une population, il est généralement coûteux, voire impossible de questionner toute la population. Le but de la statistique mathématique ( ou inférentielle) est de parvenir à l’aide d’un échantillon à une bonne connaissance de la population. Lorsque l’on extrait au hasard un échantillon dans une population, on peut rencontrer deux cas de figure dans la démarche statistique : • Les paramètres statistiques envisagés sur la population sont parfaitement connus. Le statisticien va alors parier (en utilisant des probabilités) sur ce que donnera l’échantillon. On parlera de problèmes d’échantillonnage qui font alors appel aux méthodes qui aident à prévoir les propriétés des échantillons issus de la population. Par exemple si on a une population dont le QI moyen est de 100 et un écart type de 10. A quelle valeur moyenne vraisemblable (« très probable »du QI doit-on s’attendre pour un échantillon choisi au hasard dans cette population ? Ou alors si un échantillon a fourni un QI moyen de 120, est-il vraisemblable que cet échantillon ait été choisi au hasard dans cette population ? Étant donné qu’il existe des fluctuations d’échantillonnage, on aura besoin modèles probabiliste théoriques qui contrôlent la variabilité des paramètres statistiques des échantillons ( proportion ou fréquence, moyenne, variance, etc... ). • La caractéristique étudiée sur la population est inconnue. On cherchera alors à obtenir des informations sur cette caractéristique en utilisant les observations effectuées sur des échantillons choisis au hasard dans cette population. On parle alors de problèmes d’estimation. Par exemple si une nouvelle méthode d’apprentissage de la lecture testée sur un échantillon de 250 élèves de CE1 choisis au hasard à conduit à 75% de résultats satisfaisant sur l’échantillon, quelle serait la proportion de résultats satisfaisants qu’on obtiendrait si la méthode était appliquée à toute la population des élèves de CE1 ? 0.2 Cas d’une proportion Dans une population P, on désigne par p la proportion des individus qui satisfont un caractère 00 C 00 donné. On prélève ensuite dans P un échantillon E de taille n. 0.2.1 Échantillonnage Etude sur un Exemple. Une urne de très grande taille contient 60% de boules blanches et 40% de boules rouges. On choisit au hasard un échantillon avec remise de n boules et on s’intéresse aux boules blanches dans l’échantillon. et on désigne par X le nombre de boules blanches de l’échantillon, alors les valeurs possibles de X sont : 0; 1; · · · ; n. On note Pn la proportion la proportion de boules blanches dans cet échantillon Pn = X ; n X = nPn . 1 Les valeurs possibles de Pn sont : n−1 1 2 ; ;···; ;1 n n n Comme X la variable Pn est aléatoire et sa loi de probabilité est déduite de celle de X. Dans le chapitre précédent, nous avons vu que la loi de probabilité de X est binomiale : X ,→ B(n; 0.60)) et que si n est assez grand, alors la loi de X est proche à celle d’une loi normale. Plus précisément, on utilisera le résultat suivant • Si n ≤ 30 on se ramène à la loi binomiale en utilisant X = nPn . q 0; • Cas avec remise. Si n > 30, np > 5 et n(1 − p) > 5, on a Pn ≈ N p; p(1−p) . n q q N −n • Cas sans remise. Si n > 30, np > 5 et n(1 − p) > 5 , on a Pn ≈ N p; p(1−p) n N −1 . 1. Supposons que n = 25. Quelle est la probabilité pour que la proportions de blanches dans l’échantillon soit comprise entre 45% et 65%? On doit calculer P[0.45 ≤ Pn ≤ 0.65]. Comme n ≤ 30 on doit se ramener à la loi binomiale : X = 25P25 ,→ B(25; 0.60). P[0.45 ≤ Pn ≤ 0.65] = P[25 × 0.45 ≤ X ≤ 25 × 0.65] = P[11.25 ≤ X ≤ 16.25 Comme les valeurs de X sont des entiers, on doit additionner les probabilités des valeurs : 12; 13; 14; 15; 16. On obtient 25 25 25 12 13 13 14 (0.6) (0.4) + (0.6) (0.4) + (0.6)14 (0.4)11 P[0.45 ≤ Pn ≤ 0.65] = 13 14 12 25 25 15 10 + (0.6) (0.4) + (0.6)16 (0.4)9 = 0, 0760 + 0, 1140 + 0, 1465 + 0, 1612 + 0, 1511 = 0, 6487 15 16 Interprétation. Si dans l’urne il y a 60% de boules blanches, et si on choisit au hasard 25 boules, il y a 64.87% de chances que la proportion de blanches dans l’échantillon soit comprise entre 45% et 65%. 2. Supposons maintenant que n = 200. Calculer la probabilité pour que la proportion de boule blanches soit comprise entre 45% et 65%. Cette fois-ci on est dans le cas des grands échantillons, donc on peut utiliser une approximation normale puis que r p(1 − p) n = 200 > 30; np = 0.6 × 200 = 120; n(1 − p) = 0.4 × 200 = 80; = 0.0346. n Donc Pn ≈ N (0.6; 0.0346); Z= Pn − 0.6 ,→ N (0; 1). 0.0346 0.45 − 0.6 0.65 − 0.6 ≤Z≤ = P[−4.335 ≤ Z ≤ 1.445] = 0.5+0.4258 = 0.9258. 0.0346 0.0346 Interprétation. Si dans l’urne il y a 60% de boules blanches, et si on choisit au hasard 200 boules, il y a 92.58% de chances que la proportion de blanches dans l’échantillon soit comprise entre 45% et 65%. Remarquons que cette probabilité a augmenté lorsque la taille de l’échantillon a augmenté. P[0.45 ≤ Pn ≤ 0.65] = P[ 2 0.2.2 Estimation Dans cette partie, on part d’une population P sur laquelle on s’intéresse à la proportion p des individus qui satisfont un caractère donné. On suppose que cette proportion est inconnue et on souhaite l’estimer en choisissant un échantillon E au hasard dans cette population. On note pe la proportion expérimentale dans l’échantillon E. Estimation ponctuelle L’estimation ponctuelle de la proportion p inconnue est la valeur expérimentale pe de l’échantillon. Estimation par intervalle de confiance Si n > 30, npe > 5 et n(1 − pe ) > 5. 1. On se donne une confiance c = 1 − α avec α le risque d’erreur. 2. Dans la table de la loi normale, on cherche la valeur zα telle que φ(zα ) = confiance : c risque d’erreur : α zα 0, 9 0, 95 0, 1 0, 05 1, 645 1, 96 0, 96 0, 98 0, 04 0, 02 2, 054 2, 326 0, 99 0, 01 2, 575 1−α 2 = c 2 0, 995 0, 005 2, 81 q e e) 3. • Si le tirage est avec remise on calcule aα = zα . p (1−p n q q e e) N −n • Si le tirage est sans remise on calcule aα = zα . p (1−p . n N −1 4. Avec la confiance c = 1 − α, on peut affirmer que p se trouve dans l’intervalle : Iα (p) = [pe − aα , pe + aα ] Exemple On a testé l’efficacité d’une méthode d’apprentissage de la lecture en l’expérimentant sur un échantillon de 400 élèves de CP et constaté que que 320 des élèves ont donné des résultats satisfaisants. Avec une confiance de 95% donner une estimation de la proportion de résultats satisfaisants que donnerait la méthode sur l’ensemble des élèves. 1. La valeur expérimentale de l’échantillon est pe = de 0.80. 320 400 = 0.80. Donc l’estimation ponctuelle de p est 2. on fixe une confiance c = 0.95 donc un risque d’erreur α = 0.05. La table de la loi normale nous fournit la valeur zα = 1.96. 3. la marge de l’estimation est r aα = 1.96 0.80 × 0.20 = 0.0392 400 4. l’intervalle de confiance est I0.95 (p) = [0.80 − 0.0392; 0.80 + 0.0392] = [0.7608; 0.8392] ≈ [76%; 84%] 5. Interprétation : Avec une confiance de 95% on peut affirmer que la proportion de résultats satisfaisants sur l’ensemble de la population serait compris entre 76% et 84%. 3 Taille de l’échantillon Dans l’exemple précédant la marge ou précision de l’estimation est aα = 0.0392 = 3.92% Quelques fois on n’est pas satisfait de cette précision et on souhaite donc réduire cette marge d’erreur. Cela impose donc de choisir un échantillon de plus grande taille. On utilisera le résultat suivant : La taille minimale de l’échantillon pour avoir une précision h avec une confiance c = 1 − α est : e e ) • si on a un échantillon de référence on utilise sa valeur pe on prend n > zα2 p (1−p h2 2 1 • si on n’a pas d’échantillon de référence alors on a n > zα 4h2 . Dans l’exemple précédent, si on voulait estimer p avec une précision h = 1% et une confiance de 98% on doit choisir un échantillon de taille minimale n ≥ 2.3262 0.80 × 0.20 = 8656.24 =⇒ n = 8657. 0.012 Si on n’avait pas d’échantillon der référence on prendrait n≥ 2.3262 = 13525.7 =⇒ n = 13526. 4 × 0.012 Nous remarquons que le fait d’avoir un échantillon de référence réduit la taille de l’échantillon à prélever. 0.3 Cas d’une moyenne Dans une population P, on désigne par X une variable statistique de moyenne µ et d’écart-type σ. On prélève ensuite dans P un échantillon E de taille n. 0.3.1 Échantillonnage Etude d’un exemple L’inventaire de l’estime de soi de Coopersmith est un auto questionnaire qui permet d’obtenir des évaluations que l’on fait de soi-même en rapport avec nos propres valeurs. Le score total X est normalisé de façon que pour une population générale, la moyenne est de 133 avec un écart type de 22. Si on choisit au hasard un échantillon de taille n, la valeur moyenne Mn de l’échantillon varie d’un échantillon à l’autre. C’est donc une variable aléatoire et sa loi de probabilité est déduite de celle de X. Souvent la loi de X n’est pas connue, dans ce cas ont choisir un grand échantillon. Plus précisément, nous rencontrerons la pratique les situations suivantes. Soit X une variable statistique de moyenne µ et d’écart type σ sur toute la population. On note Mn √ la moyenne aléatoire, Vn la variance aléatoire et Sn = Vn l’écart-type aléatoire pour des échantillons de taille n choisis au hasard dans la population. • Si X suit une loi normale et σ connu (ce qui est rare) alors on utilise : σ Mn N µ, √ n • Si n ≤ 30 et si X suit une loi normale et σ inconnu alors on utilise : Tn = Mn − µ √ n − 1 qui suit une loi de Student à n − 1 degrés de liberté : (d.d.l) Sn 4 • Si n > 30 et σ inconnu (ici, on n’a pas besoin de la normalité de X) alors on utilise : sˆe se N µ, √ = N µ, √ n n−1 Mn où sen et sˆen sont respectivement l’écart-type et l’écart type corrigé de l’échantillon. 1. Supposons alors dans un premier cas que X ,→ N (133; 22). Si on choisit un échantillon de 28 individus, quelle est la probabilité que son score moyen soit compris entre 120 et 140 ? dans ce cas on 22 Mn ,→ N (133; √ = N (133; 4.158). 28 P[120 ≤ Mn ≤ 140] = P[ 120 − 133 140 − 133 ≤Z≤ ] = P[−3.13 ≤ Z ≤ 1.68] = 0.4994+0.4535 = 0.9529. 4.158 4.158 2. Est-il vraisemblable qu’un échantillon de 28 individus chois au hasard dans la population donne un score moyen inférieur à 120 ? P[Mn < 120] = P[Z < 120 − 133 ] = P[Z < −3.13] = 0.5 − 0.4994 = 0.0006. 4.158 Cette probabilité étant trop petite, on peut alors conclure qu"’avec un risque d’erreur de 0.0006 que l’échantillon n’est pas choisi au hasard dans la population générale. 3. Si on n’a pas l’hypothèse de normalité, on doit alors choisir un échantillon de taille n > 30 et utiliser aussi la loi normale. 0.3.2 Estimation Si µ et σ sont inconnus. On note me , sen et sˆen respectivement la moyenne, l’écart-type et l’écart type corrigé de l’échantillon. • Cas n > 30. 1. On se donne une confiance c = 1 − α avec α le risque d’erreur. 2. Dans la table de la loi normale, on cherche la valeur zα telle que φ(zα ) = confiance : c risque d’erreur : α zα 0, 9 0, 95 0, 1 0, 05 1, 645 1, 96 0, 96 0, 98 0, 99 0, 04 0, 02 0, 01 2, 054 2, 326 2, 575 1−α 2 = 2c . 0, 995 0, 005 2, 81 3. Avec la confiance c = 1 − α, on peut affirmer que µ se trouve dans l’intervalle : Iα (µ) = [me − aα , me + aα ] où aα = zα . √ sen sˆe = zα . √n n n−1 4. Exemple. On a choisit au hasard un échantillon de 45 sujets phobiques sociaux et obtenu un score moyen me = 90 et un écart type se = 23.5. Donner une estimation du score moyen de la population constituée des phobiques sociaux avec une confiance de 95% • On a une confiance c = 0.95 et donc un risque d’erreur α = 0.05. Comme la taille de l’échantillon est supérieure à 30, on utilise la table de la loi normale qui donne zα = 1.96. 5 • La marge de l’estimation aα est aα = zα √ se 23.5 = 1.96 √ = 6.94. n−1 44 • L’intervalle de confiance de la moyenne µ inconnue est [me − aα; me + aα ] = [90 − 6.94; 90 + 6.94] = [83.06; 96.94]. • Cas n < 30. On doit avoir l’hypothèse "X suit une loi normale." 1. On se donne une confiance c = 1 − α, où α est le risque d’erreur. 2. Dans la table de la loi de Student, on cherche tα telle que P [−tα 6 Tn 6 tα ] = c/2. Cela revient à lire sur la table de Student la valeur tα avec p = α2 pour n − 1 degrés de liberté ( d.d.l). confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 lire sur la table pour p = 0, 05 0, 025 0, 02 0, 01 0, 005 3. Avec la confiance c = 1 − α, on peut affirmer que µ se trouve dans l’intervalle : Iα (µ) = [me − aα , me + aα ] où aα = tα . √ sen sˆe = tα . √n n n−1 4. On a choisit au hasard un échantillon de 27 individus qui ont une personnalité évitante et constaté un score moyen de me = 80 et un écart type corrigé sˆe = 19.3. En admettant que les scores varie comme une loi normale, donner une estimation de la moyenne avec une confiance de 95%. • Comme on travaille avec un petit échantillon et que la distribution statistique est supposée normale, on doit utiliser la loi de Student. Comme n = 27 le nombre de degrés de liberté est n − 1 = 26. La table de student nous donne pour une confiance c = 0.95 la valeur tα = 2.055. • La marge de l’estimation est : ( ici on nous donne l’écart type corrigé) sˆe 19.3 aα = tα √ = 2.055 √ = 7.63. n 27 • L’intervalle de confiance de la moyenne inconnue µ est I0.95 (µ) = [me − aα ; me + aα ] = [80 − 7.63; 80 + 7.63] = [72.37; 87.63]. 0.3.3 Taille de l’échantillon La taille minimale de l’échantillon pour avoir une précision h avec une confiance c = 1 − α est : n > zα2 (se )2 + 1. h2 On doit alors avoir un échantillon de référence ou une estimation ponctuelle de l’écart type pour effectuer ce calcul. 6 0.4 Cas d’une variance Dans une population P de taille N, on désigne par X une variable statistique suivant une loi N (µ, σ). On prélève ensuite dans P un échantillon E de taille n. 0.4.1 Échantillonnage Pn On note Vn = n1 i=1 (xi − Mn )2 la variance aléatoire sur les échantillons de taille n choisis au hasard dans la population. On utilise la variable : Y = 0.4.2 nVn σ2 qui suit une loi de χ2 à n − 1 ddl. Estimation Si σ est inconnue. On note respectivement se et sˆe l’écart type et l’écart type corrigé de l’échantillon. 1. On se donne une confiance c = 1 − α où α est le risque d’erreur. 2. On cherche dans la table de la loi du χ2 à n − 1 ddl les valeurs : 1−c α = 2 2 α 1+c x2 lu pour p = 1 − = 2 2 Ce qui revient à lire sur la table du χ2 de la façon suivante : x1 lu pour p = confiance : c 0, 9 risque d’erreur : α 0, 1 lire sur la table pour chercher x1 : p = 0, 05 lire sur la table pour chercherx2 : p = 0, 95 0, 95 0, 05 0, 025 0, 975 0, 96 0, 04 0, 02 0, 98 0, 98 0, 99 0, 02 0, 01 0, 01 0, 005 0, 99 0, 995 3. Avec la confiance c = 1 − α, on peut affirmer que σ se trouve dans l’intervalle : r r i h r h rn n n − 1 e n − 1i e e e ,s = sˆ , sˆ Iα (σ) = s x2 x1 x2 x1 4. Exemple Donner une estimation de l’écart type de la population de ceux qui une personnalité évitante. sachant que l’échatillon de 27 individus a donné un écart type corrigé sˆe = 19.3 soit aussi un écart type de se = 18.94. • comme on a 27 individus, on utilise la table du χ2 en prenant n − 1 = 26ddl. Pour une confiance c = 0.95 on doit chercher les valeurs x1 et x2 en prenant comme probabilité 1−c = 0.025 et 2 1+c = 0.975. On trouve x = 13.844 et x = 41.923. 1 2 2 • l’intervalle de confiance de l’écart type σ de la population est donné par :( On peut utiliser soit l’écart type ou l’écart type corrigé en prenant la bonne formule correspondante.) r r h rn − 1 rn − 1i h i 26 26 i h e e I0.95 (σ) = sˆ , sˆ = 19.3 ; 19.3 = 15.2; 24.45 x2 x1 41.923 13.844 7
© Copyright 2024