INSA 4ème Département IF année Examen de statistique 2014/2015 Corrigé Durée : 1h30. Tous documents autorisés. Calculatrices autorisées. Barème : Exercice 1 = 8.5 points / Exercice 2 = 11.5 points. -1pt s'il n'y a pas d'eort de rédaction. Exercice 1. On a construit un algorithme, noté A1, dont on souhaite déterminer les performances en terme de temps de calcul. Soit Xi le temps de réalisation de l'algorithme A1 sur la i-ème simulation. On suppose les Xi indépendants et de loi N (m, σ 2 ). On réalise n = 41 simulations. On obtient une moyenne empirique de 55 minutes et une variance empirique égale à 97.6 minutes2 . 1. Donner des estimations sans biais convergentes de m et de σ 2 . 0.5pt L'estimation sans biais convergente de m est xn = 55. n 2 2 0 2 1pt L'estimation sans biais convergente de σ est sn = n−1 sn = 100.04. 2. Donner l'intervalle de conance de niveau 95% de m. 0 Sn 0.5pt L'intervalle de conance de niveau 1 − α de m est IC1−α (m) = [Xn ± sqrtn tn−1;α ]. 0.5pt La table de Student donne t40;5% = 2.021. 1pt On obtient IC95% (m) = [51.84; 58.16]. 3. On souhaite comparer avec un algorithme concurrent A2. Cet algorithme n'est malheureusement pas disponible et compliqué à implémenter. On décide donc de reprendre les données de l'article présentant A2. Il s'agit de simulations similaires aux précédentes mais la graine du générateur n'est a priori pas la même. Soient Y1 , Y2 , . . . Yn les temps obtenus par l'algorithme A2. On suppose les Yi indépendants et de loi N (my , σy2 ). On obtient une moyenne empirique yn = 65 minutes et un écart-type estimé s0y = 14 minutes. (a) Donner l'intervalle de conance de niveau 95% de my . 1pt S0 L'intervalle de conance de niveau 1 − α de my est IC1−α (m) = [Yn ± √Yn tn−1;α ]. On obtient IC95% (mY ) = [60.58; 69.42]. (b) Comparer à l'intervalle donné en question 2. Est-il nécessaire d'implémenter l'algorithme A2 ? Remarque : on ne demande pas ici de faire une procédure de test, uniquement de comparer les deux intervalles de conance. Les deux intervalles sont disjoints. Plus précisément toutes les valeurs de l'intervalle IC95% (m) sont inférieures aux valeurs de IC95% (mY ). Donc avec une probabilité 95% les valeurs de m et de mY sont diérentes. Il n'y a pas besoin d'implémenter l'algorithme A2, on peut armer que A1 est plus rapide en moyenne. Remarque : Comparer les deux intervalles de conance de même niveau revient à faire le test de (H0 ) m = mY contre (H1 ) m 6= mY . 1pt 4. On souhaite aussi se comparer avec un autre algorithme concurrent A3. Le code étant accessible, on le refait tourner sur les mêmes simulations que A1 (avec la même graine dans le générateur). An de comparer les deux algorithmes, on regarde alors la diérence de temps de calcul entre A1 et A3. Soit Z1 , Z2 , . . . Zn les diérences de temps entre A1 et A3 sur les simulations. On suppose les Zi indépendants et de loi N (mZ , σZ2 ). On observe une moyenne empirique zn = −8.5 minutes et un écart-type estimé s0z = 12 minutes. Faire le test de (H0 ) mz > 0 contre (H1 ) mz < 0 avec un risque de 5%. Conclure. La région critique du test pour un risque α est RCα = {T0 < −tn−1;2α } avec Zn T0 = S 0 /sqrtn . 0.5pt Z La réalisation de T0 vaut t0 = −4.53. 0.5pt La table de Student donne t40;10% = 1.684. 1pt On est dans RC5% donc on peut valider que l'algorithme A1 est plus rapide que A3 en moyenne. 0.5pt Exercice 2. Lors d'un TP en 3IF, vous avez simulé des variables aléatoires et testé la qualité de diérents simulateurs. Le but de cet exercice est de reprendre les tests qui ont été faits d'un point de vue théorique. On génère plusieurs nombres avec un générateur pseudo-aléatoire donné. On concatène tous les bits de toutes les réalisations pour obtenir une seule séquence. Le but est de vérier que les 0 et les 1 sont bien présents dans des proportions identiques et qu'ils sont répartis de manière non structurée dans la séquence. Notons Xi la valeur du i-ème bit, Xi est égal à 0 ou 1. Soit p la proportion de 1 donnée par le générateur, p = P(Xi = 1). On considère n = 900 bits. Parmi ceux-ci, on a observé 459 bits égaux à 1. 1. Quelle est la proportion pbn de 1 dans la séquence ? 0.5pt La proportion de 1 observée est p bn = 51%. 2. Pre-test. Réaliser le test usuel de (H0 ) p = 50% contre (H1 ) p 6= 50% avec un risque de 1%. 0.5pt La région critique du test pour un risque α est RCα = {|U0 | > uα } avec U0 = √pbn −0.5 . 0.5·0.5/n La réalisation de U0 vaut u0 = 0.6. 0.5pt La table de la loi normale donne u1% = 2.5758. 0.5pt On n'est pas dans RC1% donc on ne peut pas armer avec un risque de 1% que p est diérent de 50%. 0.5pt 3. Test de fréquence monobit. ( +1 si Xi = 1 On introduit les variables aléatoires Yi = 2Xi − 1 = . −1 si Xi = 0 On peut montrer à l'aide du théorème de la limite centrale que Yn − (2p − 1) loi UY = p −→ N (0, 1). (4p(1 − p)/n) On souhaite réaliser le test de (H0 ) p = 50% contre (H1 ) p 6= 50% à l'aide de U . (a) Construire la région critique asymptotique de (H0 ) p = p0 contre (H1 ) p 6= p0 pour un risque α donné en utilisant la variable aléatoire UY . On pourra chercher la région critique sous la forme RCα = {|Yn − (2p0 − 1)| > cα } avec cα > 0. Par dénition, α = supsous (H0 ) P(X1 , . . . , Xn ∈ RCα ), donc en prenant la forme de la région critique suggérée par l'énoncé, α = Pp=p0 (|Yn − (2p0 − 1)| > cα ). On introduit UY 0 , la variable UY sous l'hypothèse p = p0 ; alors α = P(|UY 0 | > √ cα ) avec UY 0 = √Yn −(2p0 −1) de loi asymptotique N (0, 1). 2.5pt (4p(1−p)/n) (4p0 (1−p0 )/n) On en déduit qu'asymptotiquement, √ cα (4p(1−p)/n) = uα . Ainsi la région critique RCα est donnée par RCα = {|Yn − (2p0 − 1)| > uα p (4p0 (1 − p0 )/n)} ou encore RCα = {|UY 0 | > uα }. Remarque : je valide si la région critique nale est donnée directement. (b) La réalisation de Yn pour la séquence observée vaut yn = 0.02. Réaliser le test (H0 ) p = 50% contre (H1 ) p 6= 50% qui a été construit en (a) sur la séquence observée avec un seuil α = 1%. La région critique du test pour un risque α est RCα = {|UY 0,0 | > uα } avec √ UY 0,0 = nYn . 0.5pt La réalisation de UY 0,0 vaut uY 0,0 = 0.6. 0.5pt La table de la loi normale donne u1% = 2.5758. 0.5pt On n'est pas dans RC1% donc on ne peut pas armer avec un risque de 1% que p est diérent de 50%. 0.5pt (c) Y a-t-il selon vous une diérence entre le test réalisé en question 1. et le test que vous venez de faire ? (On n'attend pas de réponse détaillée.) Les deux tests sont équivalents. En eet on a juste appliquer une transformation linéaire aux Xi mais le reste du raisonnement est identique. On peut notamment vérier facilement que UY = √ pˆn −p 1pt p(1−p)/n Le but du deuxième test est uniquement de faire une comparaison avec 0 et non avec 50% lorsque l'on teste la proportion de 1 dans la séquence, et d'obtenir ainsi une forme plus simple de la région critique. 4. Test des runs. Le principe du test des runs est de vérier si les longueurs moyennes successives de 0 et de 1 sont identiques. Plus précisément, on peut construire un test de (H0 ) contre (H1 ) la répartition des 1 est aléatoire la répartition des 1 n'est pas aléatoire . On obtient une p-valeur de 6.10%. Commenter. La p-valeur est le risque que l'on prend si on arme que la répartition des 1 n'est pas aléatoire avec le générateur. Avec le seuil usuel de 5% on en déduit que l'on ne peut pas valider (H1 ), c'est-à-dire qu'on ne peut pas armer que le générateur n'est pas de bonne qualité. Cette p-valeur semble bien faible pour armer que le générateur est de bonne qualité. On ne pourra jamais valider que le générateur est bon, mais plus la p-valeur sera élevée moins on prendra de risque en émettant l'hypothèse que le générateur est bon. En eet, si même avec un risque élevé on ne peut dire que le générateur est mauvais, alors il semble plus plausible de supposer qu'il est correct. Cf aussi la dernière question. 1pt Remarque : je n'ai pas validé ceux qui me disaient que 6.10% est un risque susament faible pour rejeter (H0 ). 5. Test d'indépendance. Une autre façon de formuler l'hypothèse donnée par le test des runs est l'indépendance entre les valeurs successives. Si on peut prédire le bit suivant alors la qualité du générateur aléatoire est discutable. Ceci signie qu'on veut tester (H0 ) il y a indépendance entre les valeurs Xi et Xi+1 pour tout i = 1, . . . , n − 1 contre (H1 ) il n'y a pas indépendance entre les valeurs Xi et Xi+1 pour tout i . Pour répondre à cette question, on fait un tableau croisé des valeurs Xi et Xi+1 . Pour la séquence observée, Xi Xi+1 0 1 Total 0 1 Total 231 209 440 209 250 459 440 459 899 Ce tableau signie par exemple que dans la séquence il y a 231 fois l'élément 00 et 209 fois l'élément 01. La distance du χ2 à l'indépendance de ce tableau vaut δ 2 = 4.36. Conclure. On prendra un seuil de 5%. Le nombre de degrés de liberté vaut 1. 2 0.5pt La lecture de la table des quantiles de la loi du χ donne z1,5% = 3.84. 2 0.5pt Comme δ > z1,5% , on rejette l'hypothèse d'indépendance. On peut armer qu'il n'y a pas indépendance entre les Xi , donc que le générateur n'est pas de bonne qualité, avec un risque de 5%. 0.5pt 6. An de valider la qualité d'un générateur, on souhaiterait pouvoir valider les hypothèses (H0 ) des tests présentés ici. Lors du TP les procédures de tests ont été appliquées avec un seuil de 1%. Discuter ce choix. On ne pourra jamais valider les hypothèses (H0 ). Cependant on ne peut pas construire de procédure de test permettant de les valider donc l'approche choisie de faire les tests présentés ici est justiée. Concernant le choix du seuil 1%, celui-ci ne semble pas approprié pour valider le générateur. En eet il faudrait plutôt réaliser les tests avec un seuil élevé de 95% ou 99% par exemple. Si les tests concluent qu'on ne rejette pas (H0 ) cela signiera que même en prenant un risque élevé on ne peut pas rejeter (H0 ). Il n'y aura donc pas de contradiction à supposer de supposer que (H0 ) est vérié. En pratique faire un test avec un seuil de 95% est irréaliste dans la mesure où, sous (H0 ), les p-valeurs suivent une loi uniforme sur [0; 1]. Le mieux est donc de calculer les p-valeurs de manière répétée sur des simulations et de voir si elles suivent une loi uniforme. Petit hors-sujet. Attention, cette partie ne fait pas partie du sujet et n'est pas évaluée ! Pour illustrer le test des runs et le test d'indépendance, prenons un exemple en deux dimensions. Soit Xi,j égal à 1 si la case (i,j) est noire et 0 sinon. Lequel de ces deux damiers correspond à des variables Xi,j indépendantes ? Les scores obtenus sur les réponses faites sur les copies sont de 14 votes pour le damier de gauche et 5 pour celui de droite. Le damier correspondant à des variables indépendantes est celui de droite. En eet dans le premier, une case noire a une plus forte probabilité d'être entourée de cases blanche et inversement. Tandis que les couleurs des cases du deuxième damier a été générées de manière indépendantes. Notre perception de l'aléatoire n'est en générale pas bonne, comme de nombreuses études l'ont illustré ces dernières années.
© Copyright 2025