Séance 07

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE
U.F.R. SEGMI
Année universitaire 2014 – 2015
L2 Économie
Cours de B. Desgraupes
Méthodes Statistiques
Séance 07:
Tests de conformité II
Table des matières
1 Tests sur la fréquence
1.1 Le test de proportions . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Le test binomial . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
4
2 Tests sur la variance
6
1
Tests sur la fréquence
On utilise les tests de fréquence lorsqu’on étudie une variable statistique X qui
présente deux modalités : 1/0, vrai/faux, pile/face, succès/échec, etc.
On s’intéresse à la proportion de réalisation de l’une des modalités dans
un échantillon et on veut tester si elle est significativement différente d’une
proportion théorique déterminée par avance.
Exemple
Par exemple, dans le cas d’une naissance, on peut se demander s’il s’agit d’un
garçon ou d’une fille. Si on dénombre k naissances de filles parmi n naissances,
k
on obtient une fréquence empirique égale à .
n
On convient de coder la réalisation d’un événement par 1 et celle de son
contraire par 0 :
(
1 si succès
X=
0 si échec
Le nombre Sn de succès parmi n réalisations de l’événement est la somme
des Xi pour i = 1, . . . , n :
n
X
Sn =
Xi
i=1
Si p0 est la vraie probabilité de l’événement, la variable X suit une loi de
Bernoulli de paramètre p0 et la variable Sn suit une loi binomiale B(n, p0 ).
On a la formule suivante pour calculer la probabilité que la somme vaille k :
P (Sn = k) = Cnk pk0 (1 − p0 )n−k
1
On sait que
E(Sn ) = np0
et Var(Sn ) = np0 (1 − p0 )
Dans ce cas, la fréquence empirique n’est autre que la moyenne empirique
de la variable X :
¯ n = 1 Sn
Fn = X
n
On obtient donc son espérance et sa variance à partir de celles de Sn :
1
E(Sn ) = p0
n
p0 (1 − p0 )
1
Var(Fn ) = 2 Var(Sn ) =
n
n
r
p0 (1 − p0 )
.
D’où l’écart-type σ(Sn ) =
n
Cette fréquence empirique est un estimateur pˆ de la vraie fréquence p0 de
l’événement :
Sn
k
pˆ =
=
n
n
E(Fn ) =
Le théorème central limite permet d’affirmer que, si n est suffisamment
grand, la distribution de la variable centrée réduite
Z=r
pˆ − p0
p0 (1 − p0 )
n
tend vers celle de la loi normale N (0, 1).
1.1
Le test de proportions
On considère que l’approximation de la loi binomiale par la loi normale est
acceptable si les conditions suivantes sont remplies :


 n ≥ 30
n p0 ≥ 5


n (1 − p0 ) ≥ 5
On peut alors construire le test de proportions pour grand échantillon en
prenant comme hypothèse nulle :
H0 : p = p0
2
Sous l’hypothèse H0 , la variable Z = r
pˆ − p0
p0 (1 − p0 )
n
suit asymptotiquement une
loi normale N (0, 1).
Dans le cas d’un test bilatéral au seuil α, on détermine le quantile uα tel que
P (|Z| > u) = α
On a déjà vu que u ≈ 1.96.
Si la valeur calculée |Z| est supérieure à u, on rejette l’hypothèse de conformité : on conclut, dans ce cas, en disant, avec un risque α de se tromper,
que la fréquence observée dans l’échantillon n’est pas conforme à la fréquence
théorique p0 . Sinon, on ne peut pas rejeter l’hypothèse H0 .
Remarque
Il est important de vérifier, avant d’exécuter ce test, que les conditions
d’application sont bien vérifiées :
n ≥ 30
n p0 ≥ 5
n (1 − p0 ) ≥ 5
Exemple
Une roulette de casino comporte 37 cases : la case 0 est de couleur verte et les
autres, numérotées de 1 à 36, sont alternativement rouges et noires. Un joueur
a remarqué que, sur 300 parties, le zéro était sorti 13 fois. Peut-il conclure, au
seuil 5%, que la roulette est défectueuse ?
La probabilité théorique que la case verte sorte est, en supposant l’équiprobabilité
1
= 0.0270. Cela constitue l’hypothèse H0 .
de toutes les cases, de p0 =
37
On choisit ici de formuler l’hypothèse alternative sous la forme :
H1 : p 6= p0
Le vert devrait sortir en moyenne 8 fois (300/37 ≈ 8) mais il est sorti 13
fois. Les observations du joueur conduisent à une proportion empirique de
pˆ =
13
= 0.04333
300
L’écart-type attendu, sous l’hypothèse H0 , vaut
r
r
p0 (1 − p0 )
0.0270(1 − 0.0270)
=
= 0.00935
n
300
3
On calcule donc la statistique de test :
Z=r
pˆ − p0
p0 (1 − p0 )
n
0.04333 − 0.0270
=
0.00935
= 1.7465
La valeur de la statistique Z = 1.7465 est inférieure à la valeur critique 1,96.
On ne peut donc pas rejeter l’hypothèse H0 : l’apparition excessive du vert peut
être simplement l’effet du hasard.
1.2
Le test binomial
Lorsque la taille des échantillons est très petite, on peut envisager de faire un
test exact.
Les tests exacts sont ceux pour lesquels on peut, sous l’hypothèse H0 , calculer
la probabilité exacte d’obtenir les valeurs qui ont été observées.
On n’utilise pas de statistique ou de variable de décision. On compare directement la probabilité de rejeter l’hypothèse au risque α. S’il est très improbable, sous l’hypothèse H0 , d’obtenir les données observées alors on rejette
l’hypothèse nulle.
Le test binomial est un test exact utilisé dans le cas d’une variable aléatoire
ayant deux modalités. On va voir son fonctionnement sur un exemple.
Pour un test bilatéral, l’hypothèse nulle est que le nombre d’observations
dans une classe est conforme à une probabilité théorique connue d’avance et
l’hypothèse alternative est que les valeurs observées diffèrent des valeurs attendues.
Pour un test unilatéral, l’hypothèse nulle est que le nombre d’observations
dans une classe est inférieur ou égal à la valeur attendue et l’hypothèse alternative est qu’il est strictement supérieur.
Exemple
On joue à pile ou face 15 fois et on obtient 3 faces. Peut-on dire, au seuil
5%, que la pièce est truquée ?
On appelle S la variable aléatoire représentant le nombre de faces.
L’hypothèse H0 est que la pièce est équilibrée autrement dit que la proportion
PF de faces est égale à la proportion PP de piles, donc à 1/2.
L’hypothèse H1 , au vu des résultats obtenus, sera PF < PP .
Donc
(
H0 : PF = PP
H1 : PF < PP
C’est un test unilatéral.
Sous l’hypothèse H0 , on connaît la loi de probabilité exacte suivie par la
4
variable S : c’est la loi binomiale B(15, 1/2) de paramètres n = 15 (nombre
d’expériences) et p0 = 1/2 (probabilité de faces).
Par définition, on a :
P (S = k) = Cnk pk0 (1 − p0 )n−k
On est donc capables de calculer la probabilité exacte qu’il y ait au plus 3
faces :
P (S ≤ 3) = P (S = 0) + P (S = 1) + P (S = 2) + P (S = 3)
= 0.00003 + 0.00046 + 0.0032 + 0.0139
= 0, 01759
≈ 1, 76%
Cette probabilité P (S ≤ 3) représente la p-valeur associée à notre échantillon. Comme elle est inférieure au seuil de 5%, on rejette l’hypothèse H0 et on
considère donc que la pièce est défectueuse.
Si le seuil avait été de 1%, on n’aurait pas pu rejeter l’hypothèse H0 .
0.05
0.10
0.15
Voici une représentation graphique des densités de masse de la loi binomiale
B(15, 1/2).
0.00
1.76 %
0
1
2
3
4
5
6
7
8
9 10
12
14
La p-valeur dépend de l’échantillon. Voyons ce qui se passerait si, dans une
autre expérience, le nombre de faces était de 4.
5
La p-valeur serait alors P (S ≤ 4) :
P (S ≤ 4) = P (S ≤ 3) + P (S = 4)
= 0, 01759 + 0.0417
= 0.05929
≈ 5, 93%
0.05
0.10
0.15
On ne pourrait pas rejeter l’hypothèse H0 . Si on le faisait, on aurait un
risque de se tromper qui serait au moins de 5,93% puisque l’événement qui s’est
produit (à savoir S ≤ 4) a une probabilité de 5,93% avec une pièce correctement
équilibrée.
0.00
5.92 %
0
2
1
2
3
4
5
6
7
8
9 10
12
14
Tests sur la variance
Le test de variance permet de tester la valeur de la variance Var(X) d’un caractère X dans la population au vu de la variance empirique d’un échantillon. On
suppose que la variable est distribuée selon une loi normale.
L’hypothèse H0 est que la variance au niveau de la population a une certaine
valeur σ 2 :
H0 : Var(X) = σ 2
En notant s2 la variance empirique de l’échantillon, on montre le résultat
suivant :
Sous l’hypothèse H0 , la statistique
Y =
n−1 2
s
σ2
6
suit une loi du χ2 à n − 1 degrés de liberté.
L’intervalle d’acceptation se construit avec les quantiles de la loi du χ2 . Par
exemple, dans le cas d’un test bilatéral au seuil 5%, il faut trouver les bornes a
et b telles que :
α
α
P (Y ≤ a) =
et P (Y ≥ b) =
2
2
Exemple
Avec un échantillon de taille n = 10, on a n − 1 = 9 degrés de liberté et les
tables de la loi du χ2 donnent les valeurs suivantes pour les quantiles :
a = 2.70 et b = 19.02
0.15
Test de variance bilatéral
0.05
0.10
χ2(n)
0.00
95%
a=2.7
0
b=19.02
5
10
15
20
25
Remarques
1. Noter qu’ici l’intervalle n’est pas symétrique autour de l’espérance.
2. La variance utilisée dans la statistique de ce test est la variance empirique
modifiée (c’est-à-dire l’estimateur sans biais de σ 2 ).
3. Le mode de la loi χ2 (n) vaut n − 2 (pour n > 1). C’est l’abscisse du
maximum sur le graphe précédent.
7
• Approximations de la loi du χ2
Lorsque la taille de l’échantillon est grande, les quantiles de la loi du χ2
ne sont pas toujours disponibles dans les tables (car les tables ne peuvent pas
donner toutes les valeurs pour tous les degrés de liberté). On peut néanmoins,
lorsque n est assez grand, remplacer la loi du χ2 par des lois approchantes.
Une loi du χ2 à n degrés de liberté a pour espérance n et pour variance
2n. Si U ∼ χ2 (n), alors le théorème central limite permet d’affirmer que Z =
U −n
√
tend en loi vers la loi normale N (0, 1). On construit donc l’intervalle
2n
d’acceptation pour la variable Z avec la loi normale plutôt que pour la variable
U avec la loi du χ2 .
Une autre approximation possible est fournie par le théorème suivant :
Théorème 2.1 (de Fisher). Si U est une variable aléatoire suivant une loi du
χ2 à n degrés de liberté alors
√
2U −
√
2n − 1
L
−→
N (0, 1)
lorsque n → +∞.
À partir
√ de la√statistique Y calculée dans le test de variance, on calcule la
quantité 2 Y − 2n − 1 et on voit si elle est dans la région d’acceptation ou
pas.
On n’utilise ces approximations que si n est grand. L’intérêt de l’approximation
de Fisher par rapport au théorème central limite est qu’elle procure une convergence plus rapide.
Exemple
Une société fabrique un câble en acier trempé galvanisé dont la charge de
rupture est de 210 kg avec une marge de 5 kg. Un contrôle de qualité effectué
sur 10 bobines a conduit aux résultats suivants :
203.70
201.80
211.80
214.90
201.60
217.40
226.00
215.80
213.30
206.90
Cet échantillon confirme-t-il la marge annoncée ?
On calcule la moyenne et la variance modifiée de l’échantillon :
¯ = 211.32 et Var(X) = s2 = 61.357
X
La statistique du test de variance vaut :
Y =
n−1 2
9 × 61.357
s =
= 22.088
σ2
25
Cette valeur se trouve dans la région de rejet, à l’extérieur de l’intervalle
[2.70 ; 19.02] trouvé précédemment pour 9 degrés de liberté. On doit donc rejeter
l’hypothèse et considérer, au risque 5% de se tromper, que l’échantillon étudié
présente une variance qui ne correspond pas à la variance annoncée.
8