Table des matières 1 Test de Kolmogorov

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE
U.F.R. SEGMI
Année universitaire 2014 – 2015
L2 Économie
Cours de B. Desgraupes
Méthodes Statistiques
Séance 11:
Tests d’adéquation II
Table des matières
1 Test de Kolmogorov-Smirnov
1.1 Fonction de répartition empirique . . . . . . . . . . . . . . . . . .
1.2 Procédure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
4
2 Exemples
5
3 Table de Kolmogorov-Smirnov
7
1
Test de Kolmogorov-Smirnov
Le test de Kolmogorov-Smirnov est un test d’ajustement. La différence avec le
test du χ2 est qu’il est fondé sur les fonctions de répartition plutôt que sur les
densités.
L’hypothèse nulle est:
H0 : la loi P a la même fonction de répartition F qu’une loi continue
donnée.
L’idée est que, si l’hypothèse nulle H0 est vraie, la fonction de répartition
empirique Fb de l’échantillon doit être “proche” (en un sens qui va être précisé)
de F .
1.1
Fonction de répartition empirique
On cherche à obtenir une estimation de la fonction de répartition à partir de
l’échantillon observé afin de la comparer ensuite à la fonction de répartition de
la loi théorique.
1
Pour cela, on commence par trier par ordre croissant les valeurs Xi de
l’échantillon. On les appelle traditionnellement des statistiques d’ordre.
La fonction de répartition empirique est

0 pour




i
Fb(x) =
pour

n



1 pour
définie par:
x < X1
Xi ≤ x < Xi+1
x ≥ Xn
On estime donc F (x) = P (X ≤ x) au moyen de la proportion Fb(x) d’éléments
de l’échantillon qui sont inférieurs ou égaux à x.
Exemple
Considérons la séquence de nombres suivante :
0.06
0.11
0.29
0.63
0.94
1.15
1.69
2.66
3.45
On peut la visualiser comme ceci :
x
0.0
0.5
1.0
1.5
2
2.0
2.5
3.0
3.5
0.0
0.2
0.4
0.6
0.8
1.0
Fonction de répartition empirique
|| |
|
|
0
|
|
|
1
2
|
3
4
Il faut donner maintenant un sens à la “distance” entre la fonction de répartition empirique et la fonction de répartition de la loi théorique.
On mesure l’adéquation de la fonction Fb à la fonction F au moyen d’une distance particulière dite de Kolmogorov-Smirnov, qui est la distance de la norme
uniforme entre fonctions de répartition. Graphiquement, c’est le plus grand
écart vertical en valeur absolue entre la valeur empirique et la valeur théorique.
Pour obtenir cette distance, on calcule la différence entre Fb et F aux points
Xi et on cherche le maximum selon la formule:
DKS (F, Fb) = max
i=1,...,n
n
i i − 1 o
F (Xi ) − , F (Xi ) −
n
n
Sur le graphique suivant, la courbe continue représente une hypothétique
fonction de répartition, croissant de 0 à 1.
3
0.0
0.2
0.4
0.6
0.8
1.0
Distance de Kolmogorov−Smirnov
|| |
0
|
|
xi
|
|
|
1
2
|
3
4
Sous l’hypothèse H0 , la loi de la variable de décision DKS (F, Fb) ne dépend
pas de F . On compare la valeur obtenue à une valeur critique Dα (n) fournie
par les tables de Kolmogorov-Smirnov (voir à la fin de ce document). Le test
est unilatéral.
Si DKS > Dα (n), on rejette l’hypothèse H0 avec un risque α de se tromper.
1.2
Procédure
Voici une description détaillée de la procédure d’exécution du test de KolmogorovSmirnov
1. classer les valeurs observées par ordre croissant ;
i
2. calculer les nombres , c’est-à-dire les valeurs supérieures de la distribun
tion empirique ;
i 3. calculer les valeurs absolues des écarts F (Xi ) − entre F et les valeurs
n
précédentes ;
4. calculer les nombres
bution empirique ;
i−1
, c’est-à-dire les valeurs inférieures de la distrin
i − 1 5. calculer les valeurs absolues des écarts F (Xi ) −
entre F et les
n
valeurs précédentes ;
6. la distance de Kolmogorov-Smirnov est le plus grand de tous ces écarts ;
4
7. on conclut le test en acceptant l’hypothèse H0 si la distance calculée est
inférieure à la valeur critique donnée dans la table et en la rejetant sinon.
2
Exemples
Exercice 1
On a testé un échantillon de 5 appareils et noté leurs durées de vie en heures :
Appareil
Durée de vie
1
133
2
169
3
8
4
122
5
58
On voudrait savoir si la durée de vie suit une loi de probabilité exponentielle.
On dispose de n = 5 observations.
On estime le paramètre λ de la loi exponentielle par la moyenne empirique
¯ de l’échantillon car X
¯ est un estimateur de E(X) = 1 .
X
λ
¯ = 98 et donc on fera les calculs avec λ = 1/98.
On trouve X
La fonction de répartition de la loi exponentielle est donnée par la formule :
F (x) = 1 − e−λ x
Voici comment il faut disposer les calculs :
i
1
2
3
4
5
Xi
8
58
122
133
169
F (Xi )
0.078
0.447
0.712
0.743
0.822
0.2
0.4
0.6
0.8
1.0
0.122
0.047
0.112
0.057
0.178
0.0
0.2
0.4
0.6
0.8
0.078
0.247
0.312
0.143
0.022
i
n
|F (Xi ) −
i
n|
i−1
n
|F (Xi ) −
i−1
n |
La distance de Kolmogorov-Smirnov est le plus grand des écarts en valeur
absolue. On trouve ici DKS = 0.312.
La table de Kolmogorov-Smirnov pour n = 5 au seuil α = 0.05 donne la
valeur critique 0,565.
Puisque 0.312 < 0, 565, on accepte l’hypothèse H0 .
Voici la sortie du logiciel R pour le test précédent :
One-sample Kolmogorov-Smirnov test
5
data: duree
D = 0.312, p-value = 0.6165
alternative hypothesis: two-sided
On retrouve bien la valeur de la distance D = 0.312. La p-valeur 0.6165 est
nettement supérieure à 0.05, donc on accepte effectivement l’hypothèse H0 .
Exercice 2
Un calculateur a simulé un échantillon de n = 10 valeurs distribuées selon
une loi normale. Les valeurs Xi produites sont rangées par ordre croissant :
X
10.8
10.9
11.9
13.5
15.9
16.6
17.4
17.9
18.7
23.0
On va chercher à vérifier si cet échantillon est correct.
a) Donner une estimation de la moyenne et l’écart-type de l’échantillon.
On trouve :
¯ = 15.66 et s(X) = 3.90
X
b) Calculer, au moyen d’une table de la loi normale, les valeurs de la fonction
de répartition F pour l’échantillon.
Il faut calculer les quantités F (Xi ) pour la loi normale N (15.66 , 3.90). On
Xi − 15.66
doit donc centrer et réduire les observations en calculant Zi =
:
3.90
Zi
F
-1.25
0.106
-1.22
0.111
-0.96
0.167
-0.55
0.290
0.06
0.525
0.24
0.595
0.45
0.672
0.57
0.717
0.78
0.782
1.88
0.970
c) Exécuter un test de Kolmogorov-Smirnov au seuil de 5% pour décider si
la distribution de l’échantillon est en adéquation avec la loi normale.
Voici le détail des calculs :
i
1
2
3
4
5
6
7
8
9
10
Xi
10.8
10.9
11.9
13.5
15.9
16.6
17.4
17.9
18.7
23.0
F (Xi )
0.106
0.111
0.167
0.290
0.525
0.595
0.672
0.717
0.782
0.970
i
n
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
i
n|
0.007
0.089
0.132
0.110
0.025
0.005
0.028
0.083
0.118
0.030
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
i−1
n |
0.107
0.011
0.032
0.010
0.125
0.095
0.072
0.017
0.018
0.070
|F (Xi ) −
i−1
n
|F (Xi ) −
La distance de Kolmogorov-Smirnov est le plus grand des écarts en valeur
absolue. On trouve ici DKS = 0, 132.
6
La table de Kolmogorov-Smirnov pour n = 10 au seuil α = 0.05 donne la
valeur critique 0,410.
Puisque 0, 132 < 0, 410, on accepte l’hypothèse H0 .
Voici la sortie du logiciel R pour le test précédent :
One-sample Kolmogorov-Smirnov test
data: obs
D = 0.1322, p-value = 0.9851
alternative hypothesis: two-sided
On retrouve bien la valeur de la distance D = 0.1322. La p-valeur 0.6165
est nettement supérieure à 0.05, donc on accepte effectivement l’hypothèse H0 .
3
Table de Kolmogorov-Smirnov
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
α = 0.20
0.900
0.684
0.565
0.494
0.446
0.410
0.381
0.358
0.339
0.322
0.307
0.295
0.284
0.274
0.266
Seuils critiques Dα (n)
α = 0.15 α = 0.10 α = 0.05
0.925
0.950
0.975
0.726
0.776
0.842
0.597
0.642
0.708
0.525
0.564
0.624
0.474
0.510
0.565
0.436
0.470
0.521
0.405
0.438
0.486
0.381
0.411
0.457
0.360
0.388
0.432
0.342
0.368
0.410
0.326
0.352
0.391
0.313
0.338
0.375
0.302
0.325
0.361
0.292
0.314
0.349
0.283
0.304
0.338
7
α = 0.01
0.995
0.929
0.828
0.733
0.669
0.618
0.577
0.543
0.514
0.490
0.468
0.450
0.433
0.418
0.404
n
16
17
18
19
20
25
30
35
> 35
α = 0.20
0.258
0.250
0.244
0.237
0.231
0.210
0.190
0.180
√
1.07/ n
Seuils critiques Dα (n)
α = 0.15 α = 0.10 α = 0.05
0.274
0.295
0.328
0.266
0.286
0.318
0.259
0.278
0.309
0.252
0.272
0.301
0.246
0.264
0.294
0.220
0.240
0.270
0.200
0.220
0.240
0.190
0.210
0.230
√
√
√
1.14/ n 1.22/ n 1.36/ n
8
α = 0.01
0.392
0.381
0.371
0.363
0.356
0.320
0.290
0.270
√
1.63/ n