UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 – 2015 L2 Économie Cours de B. Desgraupes Méthodes Statistiques Séance 11: Tests d’adéquation II Table des matières 1 Test de Kolmogorov-Smirnov 1.1 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . 1.2 Procédure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 4 2 Exemples 5 3 Table de Kolmogorov-Smirnov 7 1 Test de Kolmogorov-Smirnov Le test de Kolmogorov-Smirnov est un test d’ajustement. La différence avec le test du χ2 est qu’il est fondé sur les fonctions de répartition plutôt que sur les densités. L’hypothèse nulle est: H0 : la loi P a la même fonction de répartition F qu’une loi continue donnée. L’idée est que, si l’hypothèse nulle H0 est vraie, la fonction de répartition empirique Fb de l’échantillon doit être “proche” (en un sens qui va être précisé) de F . 1.1 Fonction de répartition empirique On cherche à obtenir une estimation de la fonction de répartition à partir de l’échantillon observé afin de la comparer ensuite à la fonction de répartition de la loi théorique. 1 Pour cela, on commence par trier par ordre croissant les valeurs Xi de l’échantillon. On les appelle traditionnellement des statistiques d’ordre. La fonction de répartition empirique est 0 pour i Fb(x) = pour n 1 pour définie par: x < X1 Xi ≤ x < Xi+1 x ≥ Xn On estime donc F (x) = P (X ≤ x) au moyen de la proportion Fb(x) d’éléments de l’échantillon qui sont inférieurs ou égaux à x. Exemple Considérons la séquence de nombres suivante : 0.06 0.11 0.29 0.63 0.94 1.15 1.69 2.66 3.45 On peut la visualiser comme ceci : x 0.0 0.5 1.0 1.5 2 2.0 2.5 3.0 3.5 0.0 0.2 0.4 0.6 0.8 1.0 Fonction de répartition empirique || | | | 0 | | | 1 2 | 3 4 Il faut donner maintenant un sens à la “distance” entre la fonction de répartition empirique et la fonction de répartition de la loi théorique. On mesure l’adéquation de la fonction Fb à la fonction F au moyen d’une distance particulière dite de Kolmogorov-Smirnov, qui est la distance de la norme uniforme entre fonctions de répartition. Graphiquement, c’est le plus grand écart vertical en valeur absolue entre la valeur empirique et la valeur théorique. Pour obtenir cette distance, on calcule la différence entre Fb et F aux points Xi et on cherche le maximum selon la formule: DKS (F, Fb) = max i=1,...,n n i i − 1 o F (Xi ) − , F (Xi ) − n n Sur le graphique suivant, la courbe continue représente une hypothétique fonction de répartition, croissant de 0 à 1. 3 0.0 0.2 0.4 0.6 0.8 1.0 Distance de Kolmogorov−Smirnov || | 0 | | xi | | | 1 2 | 3 4 Sous l’hypothèse H0 , la loi de la variable de décision DKS (F, Fb) ne dépend pas de F . On compare la valeur obtenue à une valeur critique Dα (n) fournie par les tables de Kolmogorov-Smirnov (voir à la fin de ce document). Le test est unilatéral. Si DKS > Dα (n), on rejette l’hypothèse H0 avec un risque α de se tromper. 1.2 Procédure Voici une description détaillée de la procédure d’exécution du test de KolmogorovSmirnov 1. classer les valeurs observées par ordre croissant ; i 2. calculer les nombres , c’est-à-dire les valeurs supérieures de la distribun tion empirique ; i 3. calculer les valeurs absolues des écarts F (Xi ) − entre F et les valeurs n précédentes ; 4. calculer les nombres bution empirique ; i−1 , c’est-à-dire les valeurs inférieures de la distrin i − 1 5. calculer les valeurs absolues des écarts F (Xi ) − entre F et les n valeurs précédentes ; 6. la distance de Kolmogorov-Smirnov est le plus grand de tous ces écarts ; 4 7. on conclut le test en acceptant l’hypothèse H0 si la distance calculée est inférieure à la valeur critique donnée dans la table et en la rejetant sinon. 2 Exemples Exercice 1 On a testé un échantillon de 5 appareils et noté leurs durées de vie en heures : Appareil Durée de vie 1 133 2 169 3 8 4 122 5 58 On voudrait savoir si la durée de vie suit une loi de probabilité exponentielle. On dispose de n = 5 observations. On estime le paramètre λ de la loi exponentielle par la moyenne empirique ¯ de l’échantillon car X ¯ est un estimateur de E(X) = 1 . X λ ¯ = 98 et donc on fera les calculs avec λ = 1/98. On trouve X La fonction de répartition de la loi exponentielle est donnée par la formule : F (x) = 1 − e−λ x Voici comment il faut disposer les calculs : i 1 2 3 4 5 Xi 8 58 122 133 169 F (Xi ) 0.078 0.447 0.712 0.743 0.822 0.2 0.4 0.6 0.8 1.0 0.122 0.047 0.112 0.057 0.178 0.0 0.2 0.4 0.6 0.8 0.078 0.247 0.312 0.143 0.022 i n |F (Xi ) − i n| i−1 n |F (Xi ) − i−1 n | La distance de Kolmogorov-Smirnov est le plus grand des écarts en valeur absolue. On trouve ici DKS = 0.312. La table de Kolmogorov-Smirnov pour n = 5 au seuil α = 0.05 donne la valeur critique 0,565. Puisque 0.312 < 0, 565, on accepte l’hypothèse H0 . Voici la sortie du logiciel R pour le test précédent : One-sample Kolmogorov-Smirnov test 5 data: duree D = 0.312, p-value = 0.6165 alternative hypothesis: two-sided On retrouve bien la valeur de la distance D = 0.312. La p-valeur 0.6165 est nettement supérieure à 0.05, donc on accepte effectivement l’hypothèse H0 . Exercice 2 Un calculateur a simulé un échantillon de n = 10 valeurs distribuées selon une loi normale. Les valeurs Xi produites sont rangées par ordre croissant : X 10.8 10.9 11.9 13.5 15.9 16.6 17.4 17.9 18.7 23.0 On va chercher à vérifier si cet échantillon est correct. a) Donner une estimation de la moyenne et l’écart-type de l’échantillon. On trouve : ¯ = 15.66 et s(X) = 3.90 X b) Calculer, au moyen d’une table de la loi normale, les valeurs de la fonction de répartition F pour l’échantillon. Il faut calculer les quantités F (Xi ) pour la loi normale N (15.66 , 3.90). On Xi − 15.66 doit donc centrer et réduire les observations en calculant Zi = : 3.90 Zi F -1.25 0.106 -1.22 0.111 -0.96 0.167 -0.55 0.290 0.06 0.525 0.24 0.595 0.45 0.672 0.57 0.717 0.78 0.782 1.88 0.970 c) Exécuter un test de Kolmogorov-Smirnov au seuil de 5% pour décider si la distribution de l’échantillon est en adéquation avec la loi normale. Voici le détail des calculs : i 1 2 3 4 5 6 7 8 9 10 Xi 10.8 10.9 11.9 13.5 15.9 16.6 17.4 17.9 18.7 23.0 F (Xi ) 0.106 0.111 0.167 0.290 0.525 0.595 0.672 0.717 0.782 0.970 i n 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 i n| 0.007 0.089 0.132 0.110 0.025 0.005 0.028 0.083 0.118 0.030 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 i−1 n | 0.107 0.011 0.032 0.010 0.125 0.095 0.072 0.017 0.018 0.070 |F (Xi ) − i−1 n |F (Xi ) − La distance de Kolmogorov-Smirnov est le plus grand des écarts en valeur absolue. On trouve ici DKS = 0, 132. 6 La table de Kolmogorov-Smirnov pour n = 10 au seuil α = 0.05 donne la valeur critique 0,410. Puisque 0, 132 < 0, 410, on accepte l’hypothèse H0 . Voici la sortie du logiciel R pour le test précédent : One-sample Kolmogorov-Smirnov test data: obs D = 0.1322, p-value = 0.9851 alternative hypothesis: two-sided On retrouve bien la valeur de la distance D = 0.1322. La p-valeur 0.6165 est nettement supérieure à 0.05, donc on accepte effectivement l’hypothèse H0 . 3 Table de Kolmogorov-Smirnov n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 α = 0.20 0.900 0.684 0.565 0.494 0.446 0.410 0.381 0.358 0.339 0.322 0.307 0.295 0.284 0.274 0.266 Seuils critiques Dα (n) α = 0.15 α = 0.10 α = 0.05 0.925 0.950 0.975 0.726 0.776 0.842 0.597 0.642 0.708 0.525 0.564 0.624 0.474 0.510 0.565 0.436 0.470 0.521 0.405 0.438 0.486 0.381 0.411 0.457 0.360 0.388 0.432 0.342 0.368 0.410 0.326 0.352 0.391 0.313 0.338 0.375 0.302 0.325 0.361 0.292 0.314 0.349 0.283 0.304 0.338 7 α = 0.01 0.995 0.929 0.828 0.733 0.669 0.618 0.577 0.543 0.514 0.490 0.468 0.450 0.433 0.418 0.404 n 16 17 18 19 20 25 30 35 > 35 α = 0.20 0.258 0.250 0.244 0.237 0.231 0.210 0.190 0.180 √ 1.07/ n Seuils critiques Dα (n) α = 0.15 α = 0.10 α = 0.05 0.274 0.295 0.328 0.266 0.286 0.318 0.259 0.278 0.309 0.252 0.272 0.301 0.246 0.264 0.294 0.220 0.240 0.270 0.200 0.220 0.240 0.190 0.210 0.230 √ √ √ 1.14/ n 1.22/ n 1.36/ n 8 α = 0.01 0.392 0.381 0.371 0.363 0.356 0.320 0.290 0.270 √ 1.63/ n
© Copyright 2024