UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 – 2015 L2 Économie Cours de B. Desgraupes Méthodes Statistiques Séance 07: Tests de conformité II Table des matières 1 Tests sur la fréquence 1.1 Le test de proportions . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Le test binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 4 2 Tests sur la variance 6 1 Tests sur la fréquence On utilise les tests de fréquence lorsqu’on étudie une variable statistique X qui présente deux modalités : 1/0, vrai/faux, pile/face, succès/échec, etc. On s’intéresse à la proportion de réalisation de l’une des modalités dans un échantillon et on veut tester si elle est significativement différente d’une proportion théorique déterminée par avance. Exemple Par exemple, dans le cas d’une naissance, on peut se demander s’il s’agit d’un garçon ou d’une fille. Si on dénombre k naissances de filles parmi n naissances, k on obtient une fréquence empirique égale à . n On convient de coder la réalisation d’un événement par 1 et celle de son contraire par 0 : ( 1 si succès X= 0 si échec Le nombre Sn de succès parmi n réalisations de l’événement est la somme des Xi pour i = 1, . . . , n : n X Sn = Xi i=1 Si p0 est la vraie probabilité de l’événement, la variable X suit une loi de Bernoulli de paramètre p0 et la variable Sn suit une loi binomiale B(n, p0 ). On a la formule suivante pour calculer la probabilité que la somme vaille k : P (Sn = k) = Cnk pk0 (1 − p0 )n−k 1 On sait que E(Sn ) = np0 et Var(Sn ) = np0 (1 − p0 ) Dans ce cas, la fréquence empirique n’est autre que la moyenne empirique de la variable X : ¯ n = 1 Sn Fn = X n On obtient donc son espérance et sa variance à partir de celles de Sn : 1 E(Sn ) = p0 n p0 (1 − p0 ) 1 Var(Fn ) = 2 Var(Sn ) = n n r p0 (1 − p0 ) . D’où l’écart-type σ(Sn ) = n Cette fréquence empirique est un estimateur pˆ de la vraie fréquence p0 de l’événement : Sn k pˆ = = n n E(Fn ) = Le théorème central limite permet d’affirmer que, si n est suffisamment grand, la distribution de la variable centrée réduite Z=r pˆ − p0 p0 (1 − p0 ) n tend vers celle de la loi normale N (0, 1). 1.1 Le test de proportions On considère que l’approximation de la loi binomiale par la loi normale est acceptable si les conditions suivantes sont remplies :    n ≥ 30 n p0 ≥ 5   n (1 − p0 ) ≥ 5 On peut alors construire le test de proportions pour grand échantillon en prenant comme hypothèse nulle : H0 : p = p0 2 Sous l’hypothèse H0 , la variable Z = r pˆ − p0 p0 (1 − p0 ) n suit asymptotiquement une loi normale N (0, 1). Dans le cas d’un test bilatéral au seuil α, on détermine le quantile uα tel que P (|Z| > u) = α On a déjà vu que u ≈ 1.96. Si la valeur calculée |Z| est supérieure à u, on rejette l’hypothèse de conformité : on conclut, dans ce cas, en disant, avec un risque α de se tromper, que la fréquence observée dans l’échantillon n’est pas conforme à la fréquence théorique p0 . Sinon, on ne peut pas rejeter l’hypothèse H0 . Remarque Il est important de vérifier, avant d’exécuter ce test, que les conditions d’application sont bien vérifiées : n ≥ 30 n p0 ≥ 5 n (1 − p0 ) ≥ 5 Exemple Une roulette de casino comporte 37 cases : la case 0 est de couleur verte et les autres, numérotées de 1 à 36, sont alternativement rouges et noires. Un joueur a remarqué que, sur 300 parties, le zéro était sorti 13 fois. Peut-il conclure, au seuil 5%, que la roulette est défectueuse ? La probabilité théorique que la case verte sorte est, en supposant l’équiprobabilité 1 = 0.0270. Cela constitue l’hypothèse H0 . de toutes les cases, de p0 = 37 On choisit ici de formuler l’hypothèse alternative sous la forme : H1 : p 6= p0 Le vert devrait sortir en moyenne 8 fois (300/37 ≈ 8) mais il est sorti 13 fois. Les observations du joueur conduisent à une proportion empirique de pˆ = 13 = 0.04333 300 L’écart-type attendu, sous l’hypothèse H0 , vaut r r p0 (1 − p0 ) 0.0270(1 − 0.0270) = = 0.00935 n 300 3 On calcule donc la statistique de test : Z=r pˆ − p0 p0 (1 − p0 ) n 0.04333 − 0.0270 = 0.00935 = 1.7465 La valeur de la statistique Z = 1.7465 est inférieure à la valeur critique 1,96. On ne peut donc pas rejeter l’hypothèse H0 : l’apparition excessive du vert peut être simplement l’effet du hasard. 1.2 Le test binomial Lorsque la taille des échantillons est très petite, on peut envisager de faire un test exact. Les tests exacts sont ceux pour lesquels on peut, sous l’hypothèse H0 , calculer la probabilité exacte d’obtenir les valeurs qui ont été observées. On n’utilise pas de statistique ou de variable de décision. On compare directement la probabilité de rejeter l’hypothèse au risque α. S’il est très improbable, sous l’hypothèse H0 , d’obtenir les données observées alors on rejette l’hypothèse nulle. Le test binomial est un test exact utilisé dans le cas d’une variable aléatoire ayant deux modalités. On va voir son fonctionnement sur un exemple. Pour un test bilatéral, l’hypothèse nulle est que le nombre d’observations dans une classe est conforme à une probabilité théorique connue d’avance et l’hypothèse alternative est que les valeurs observées diffèrent des valeurs attendues. Pour un test unilatéral, l’hypothèse nulle est que le nombre d’observations dans une classe est inférieur ou égal à la valeur attendue et l’hypothèse alternative est qu’il est strictement supérieur. Exemple On joue à pile ou face 15 fois et on obtient 3 faces. Peut-on dire, au seuil 5%, que la pièce est truquée ? On appelle S la variable aléatoire représentant le nombre de faces. L’hypothèse H0 est que la pièce est équilibrée autrement dit que la proportion PF de faces est égale à la proportion PP de piles, donc à 1/2. L’hypothèse H1 , au vu des résultats obtenus, sera PF < PP . Donc ( H0 : PF = PP H1 : PF < PP C’est un test unilatéral. Sous l’hypothèse H0 , on connaît la loi de probabilité exacte suivie par la 4 variable S : c’est la loi binomiale B(15, 1/2) de paramètres n = 15 (nombre d’expériences) et p0 = 1/2 (probabilité de faces). Par définition, on a : P (S = k) = Cnk pk0 (1 − p0 )n−k On est donc capables de calculer la probabilité exacte qu’il y ait au plus 3 faces : P (S ≤ 3) = P (S = 0) + P (S = 1) + P (S = 2) + P (S = 3) = 0.00003 + 0.00046 + 0.0032 + 0.0139 = 0, 01759 ≈ 1, 76% Cette probabilité P (S ≤ 3) représente la p-valeur associée à notre échantillon. Comme elle est inférieure au seuil de 5%, on rejette l’hypothèse H0 et on considère donc que la pièce est défectueuse. Si le seuil avait été de 1%, on n’aurait pas pu rejeter l’hypothèse H0 . 0.05 0.10 0.15 Voici une représentation graphique des densités de masse de la loi binomiale B(15, 1/2). 0.00 1.76 % 0 1 2 3 4 5 6 7 8 9 10 12 14 La p-valeur dépend de l’échantillon. Voyons ce qui se passerait si, dans une autre expérience, le nombre de faces était de 4. 5 La p-valeur serait alors P (S ≤ 4) : P (S ≤ 4) = P (S ≤ 3) + P (S = 4) = 0, 01759 + 0.0417 = 0.05929 ≈ 5, 93% 0.05 0.10 0.15 On ne pourrait pas rejeter l’hypothèse H0 . Si on le faisait, on aurait un risque de se tromper qui serait au moins de 5,93% puisque l’événement qui s’est produit (à savoir S ≤ 4) a une probabilité de 5,93% avec une pièce correctement équilibrée. 0.00 5.92 % 0 2 1 2 3 4 5 6 7 8 9 10 12 14 Tests sur la variance Le test de variance permet de tester la valeur de la variance Var(X) d’un caractère X dans la population au vu de la variance empirique d’un échantillon. On suppose que la variable est distribuée selon une loi normale. L’hypothèse H0 est que la variance au niveau de la population a une certaine valeur σ 2 : H0 : Var(X) = σ 2 En notant s2 la variance empirique de l’échantillon, on montre le résultat suivant : Sous l’hypothèse H0 , la statistique Y = n−1 2 s σ2 6 suit une loi du χ2 à n − 1 degrés de liberté. L’intervalle d’acceptation se construit avec les quantiles de la loi du χ2 . Par exemple, dans le cas d’un test bilatéral au seuil 5%, il faut trouver les bornes a et b telles que : α α P (Y ≤ a) = et P (Y ≥ b) = 2 2 Exemple Avec un échantillon de taille n = 10, on a n − 1 = 9 degrés de liberté et les tables de la loi du χ2 donnent les valeurs suivantes pour les quantiles : a = 2.70 et b = 19.02 0.15 Test de variance bilatéral 0.05 0.10 χ2(n) 0.00 95% a=2.7 0 b=19.02 5 10 15 20 25 Remarques 1. Noter qu’ici l’intervalle n’est pas symétrique autour de l’espérance. 2. La variance utilisée dans la statistique de ce test est la variance empirique modifiée (c’est-à-dire l’estimateur sans biais de σ 2 ). 3. Le mode de la loi χ2 (n) vaut n − 2 (pour n > 1). C’est l’abscisse du maximum sur le graphe précédent. 7 • Approximations de la loi du χ2 Lorsque la taille de l’échantillon est grande, les quantiles de la loi du χ2 ne sont pas toujours disponibles dans les tables (car les tables ne peuvent pas donner toutes les valeurs pour tous les degrés de liberté). On peut néanmoins, lorsque n est assez grand, remplacer la loi du χ2 par des lois approchantes. Une loi du χ2 à n degrés de liberté a pour espérance n et pour variance 2n. Si U ∼ χ2 (n), alors le théorème central limite permet d’affirmer que Z = U −n √ tend en loi vers la loi normale N (0, 1). On construit donc l’intervalle 2n d’acceptation pour la variable Z avec la loi normale plutôt que pour la variable U avec la loi du χ2 . Une autre approximation possible est fournie par le théorème suivant : Théorème 2.1 (de Fisher). Si U est une variable aléatoire suivant une loi du χ2 à n degrés de liberté alors √ 2U − √ 2n − 1 L −→ N (0, 1) lorsque n → +∞. À partir √ de la√statistique Y calculée dans le test de variance, on calcule la quantité 2 Y − 2n − 1 et on voit si elle est dans la région d’acceptation ou pas. On n’utilise ces approximations que si n est grand. L’intérêt de l’approximation de Fisher par rapport au théorème central limite est qu’elle procure une convergence plus rapide. Exemple Une société fabrique un câble en acier trempé galvanisé dont la charge de rupture est de 210 kg avec une marge de 5 kg. Un contrôle de qualité effectué sur 10 bobines a conduit aux résultats suivants : 203.70 201.80 211.80 214.90 201.60 217.40 226.00 215.80 213.30 206.90 Cet échantillon confirme-t-il la marge annoncée ? On calcule la moyenne et la variance modifiée de l’échantillon : ¯ = 211.32 et Var(X) = s2 = 61.357 X La statistique du test de variance vaut : Y = n−1 2 9 × 61.357 s = = 22.088 σ2 25 Cette valeur se trouve dans la région de rejet, à l’extérieur de l’intervalle [2.70 ; 19.02] trouvé précédemment pour 9 degrés de liberté. On doit donc rejeter l’hypothèse et considérer, au risque 5% de se tromper, que l’échantillon étudié présente une variance qui ne correspond pas à la variance annoncée. 8