Cours - C. Holtzmann

Dans la suite, si X est une variable aléatoire, on posera donc (X1 , . . . , Xn ) un n-échantillon
de X.
Chapitre 11
Théorèmes limites et statistique inférentielle
—
Commentaires :
En statistiques, on souhaite en général décrire les caractéristiques théoriques (espérance,
variance et loi) d’une variable aléatoire X à partir d’un n-échantillon observé.
Commentaires :
En statistiques descriptive, on a souvent à faire à des variables dont on ne connait pas
les caractéristiques théoriques (espérance, variance, ou loi). Or, ce sont des informations
capitales si on veut pouvoir établir des résultats théoriques (par exemple si on veut évaluer le comportement d’un matériau inconnu ou faire des prévisions sur les réalisations
futures de la variable)
Exemple :
On s’intéresse à une pièce déséquilibrée et on se demande quelle est la probabilité d’obtenir
Pile. Instinctivement, la proportion observée de "Piles" sur une suite de lancers devrait
être assez proche de la probabilité théorique. C’est-à-dire que, si X est une variable de
Bernoulli de succès "obtenir un pile", on a
Xn =
La seule possibilité est donc de faire un certain nombre d’observations et d’essayer d’en
déduire un comportement théorique.
X1 + . . . + Xn
' P ("obtenir un pile")
n
Cette intuition résultat repose sur la loi faible des grands nombres que nous allons décrire
dans ce chapitre.
Afin d’obtenir des approximations élémentaires des espérances et variances, nous aurons
besoin des résultats de la première partie ("loi faible des grands nombres")
On différencie ainsi les paramètres théoriques (que l’on cherche souvent à déterminer) et les
résultats observés. On distingue donc en particulier :
Afin de pouvoir simplifier les comportements asymptotiques des échantillons observés
sans trop de perte d’information, nous nous appuierons ensuite sur le "théorème central
limite" (partie II)
— la moyenne théorique E[X] et la moyenne empirique Xn =
— la variance théorique V (X) et la variance empirique Sn2 =
Définition :
Dans tout le chapitre, sauf précision, le terme variable aléatoire désignera une variable aléatoire réelle finie, ou discrète, ou à densité. De plus les suites de variables aléatoires (Xn ) seront
systématiquement construites sur un même espace probabilisé.
Soit X une variable aléatoire. Un estimateur d’un paramètre θ (généralement E[X] ou
V (X)) est une suite (Tn ) de variables aléatoires où :
Loi faible des grands nombres
1
Tn dépend du n-échantillon (X1 , . . . , Xn )
Tn donne des informations sur θ, généralement Tn ' θ pour n grand.
La valeur de Tn ainsi obtenue sera appelée estimation du paramètre.
Vocabulaire de l’échantillonnage et de l’estimation
Exemple :
Dans l’exemple précédent, on peut dire (pour l’instant intuitivement) que Xn est un
estimateur de la probabilité du succès.
Définition :
Si X est une variable aléatoire, on appelle n-échantillon de X une n-liste (X1 , . . . , Xn ) de
variables aléatoires mutuellement indépendantes et de même loi que X.
Xn )2 .
— la loi et l’histogramme d’un n-échantillon
Et pour finir, afin d’évaluer l’erreur commise par le remplacement de la valeur théorique
par la valeur empirique, nous utiliserons des "intervalles de confiance" (partir III)
I
X1 +...+Xn
.
n
n
P
1
(Xi −
n
i=1
Commentaires :
Exemple :
Soit X est le résultat d’un lancer de dés. Si on fait n lancers et qu’on note X1 , . . . , Xn les
résultats des n lancers successifs, (X1 , . . . , Xn ) est un n-échantillon de X.
1
Lorsque l’on remplace la valeur théorique d’un paramètre par son estimateur, on comment certainement une erreur. On considère donc les notions ci-dessous
Définition :
Remarque :
Si θ est le paramètre à estimer, on appelle erreur d’estimation la valeur
Contrairement à la moyenne, Sn2 n’est pas sans biais. En effet,
Err(Tn ) = Tn − θ
E[Err(Sn )] =
et on appelle biais d’un estimateur Tn la quantité
B(Tn ) = E Err(Tn ) = E[Tn ] − θ.
n−1 2
σ 6= σ 2 :
n
On a toutefois (et c’est rassurant !)
E[Err(Sn )] ' σ 2
Ainsi, on dira qu’un estimateur est sans biais si B(Tn ) = 0. (Notations "locales")
Proposition :
pour n grand
Démonstration :
Soit X une variable aléatoire admettant un moment d’ordre 2. On note µ = E[X] et
σ 2 = V (X). On pose la moyenne empirique
Xn =
E[Err(Sn2 )]
X1 + . . . + Xn
.
n
=
n
1X E (Xi − Xn )2
n i=1
=
n
1X E (Xi − µ + µ − Xn )2
n i=1
=
n
n
n
1X
2X
1X E (Xi − µ)2 +
E (µ − Xn )2 +
E (Xi − µ)(µ − Xn )
n i=1 |
n
n
{z
}
{z
}
{z
}
|
|
i=1
i=1
Alors Xn est un estimateur sans biais de µ.
Démonstration :
=σ 2
2
V (Xn )= σn
? La partie "estimateur" est à venir grâce à la loi faible des grands nombres.
Or,
? Comme X admet un moment d’ordre 2 (donc 1), il en va de même pour tous les Xi .
Ainsi, par linéarité de l’espérance,
A
1
E[Xn ] = (E[X1 ] + . . . + E[Xn ]) = E[X]
n
d’où
=
Cov(Xi − µ, µ − Xn ) + E[X] E[Y ]
| {z }
=
Cov(Xi − µ, µ − Xn )
1
Cov (Xi − µ, nµ − (X1 + . . . + Xn ))
n
!
n
X
1
Cov Xi − µ,
(µ − Xk )
n
=0
B(Xn ) = 0
=
Remarque :
=
La moyenne empirique est un estimateur assez précis, au sens où, pour n grand, la
dispersion est très faible :
k=1
=
V (Err(Xn )) −−−−−→ 0 :
n→+∞
V (Err(Xn )) = V (Xn − µ) = V (Xn ) =
1
V
n2
n
P
i=1
A
n
X
1
Cov (Xi − µ, µ − Xk )
n
k=1
Xi
=
|{z}
2
σ
n
−−−−−→ 0
n→+∞
=
Cov(Xi − µ, µ − Xi )
=
−V (Xi − µ) = −V (Xi )
par indépendance des Xj
Xi ind.
Ainsi,
E[Err(Sn2 )]
Proposition :
Soit X une variable aléatoire. On pose Sn2 =
1
n
n
P
σ2 −
σ2
n
−−−−−→ 0
n→+∞
(Xi − Xn )2 . Alors Sn2 est un estima-
i=1
teur de V (X).
Remarque :
Du résultat précédent, on tire également une variance corrigée
Démonstration :
En admettant que Xn ' E[X] (ce que nous démontrerons plus tard), on a
Sn2 '
=
Sn02 =
n
1X
(Xi − E[X])2 = V (X)
n i=1
n
n
1 X
Sn2 =
(Xi − Xn )2
n−1
n − 1 i=1
Ainsi, pour n grand, Sn02 sera également un estimateur de σ 2 et, de plus Sn02 est sans biais.
2
— Théorèmes limites et statistique inférentielle —
Voilà pourquoi dans le cadre de l’étude d’échantillons, on trouvera le plus souvent dans
la littérature l’utilisation de la variance corrigée. Ceci n’est toutefois pas un attendu du
programme de BCPST.
Démonstration :
• Cas d’une variable discrète : On note Supp(X) = {xi | i ∈ N} les valeurs de X.
(Toutes positives par hypothèse.) Alors,
———————– En Python :
E(X)
=
Pour obtenir les caractéristiques de base d’un échantillon avec Python, les commandes sont
les suivantes :
+∞
P
xi P (X = xi ) =
i=0
+∞
P
>
i=0
from numpy import *
xi >a
+∞
P
i=0
xi <a
xi P (X = xi ) > a
|{z}
>a
xi P (X = xi ) +
|
{z
}
>0
+∞
X
xi P (X = xi )
i=0
xi >a
P (X = xi ) = a P (X > a)
i=0
xi >a
|
# Donnees est une liste de données obtenues à partir
d’un échantillon
{z
}
P (X>a)
• Cas d’une variable à densité : On note f une densité de X. Notons que, comme X
est positive, on peut supposer que f est nulle sur ] − ∞; 0[.
# moyenne empirique Xn :
mean(Donnees)
# variance empirique Sn2 :
var(Donnees)
# écart-type empirique Sn ("standard deviation") :
std(Donnees)
# ou
from math import *
sqrt(var(Donnees))
# Les quartiles :
median(Donnees)
# 2eme quartile ou médiane
# pour les autres :
from scipy import stats
stats.scoreatpercentile(Donnees,25)
stats.scoreatpercentile(Donnees,50)
d’avoir une médiane)
stats.scoreatpercentile(Donnees,75)
+∞
P
Z +∞
xf (x) dx =
xf (x) dx
0
Z +∞
Z−∞
a
x f (x) dx
xf (x) dx +
|{z}
a
0 | {z }
>a
Z +∞>0
Z +∞
af (x) dx = a
f (x) dx > a P (X > a)
0
|a
{z
}
Z
E(X)
=
=
>
+∞
(X > 0)
P (X>a)
Théorème (Inégalité de Bienaymé-Tchebychev) :
# 1er quartile
# (autre manière
Si X est une variable aléatoire admettant un moment d’ordre 2, alors elle vérifie l’inégalité
P (|X − E(X)| > ) 6
# 3eme quartile
V (X)
2
∀ > 0
Démonstration :
2
On pose Y = |X − E(X)|2 . Y est une variable aléatoire positive.
Comme X admet un moment d’ordre 2, alors E(|X − E(X)|2 ) existe (c’est la variance
de X) et donc, d’après l’inégalité de la proposition précédente, on a
Inégalités
Lemme (Inégalité de Markov) :
P (|X − E(X)|2 > 2 ) 6
Si X est une variable aléatoire réelle positive admettant une espérance, alors elle vérifie
l’inégalité
E(X)
P (X > a) 6
∀a > 0
a
i.e.
E(|X − E(X)|2
2
∀ > 0
V (X)
2
∀ > 0
P (|X − E(X)| > ) 6
Remarque :
Commentaires :
Ce résultat confirme en particulier que la probabilité que X prenne des valeurs très
grandes est forcément petite. (Ceci est d’ailleurs trivial sur les variables finies...)
On constate que plus est grand, plus la probabilité devient faible. Autrement dit, X
ne peut s’éloigner de manière trop importante de son espérance qu’avec une probabilité
faible.
3
— Théorèmes limites et statistique inférentielle —
3
Théorème (Théorème de Bernoulli) :
Loi faible
Soit (Xn )n∈N une suite de variables aléatoires indépendantes suivant une même loi de
X1 + . . . + Xn
Bernoulli B(p). Alors, si on pose Xn =
, on a
n
lim P |Xn − p| > = 0
Théorème (Loi faible des grands nombres) :
Soit (Xn )n∈N une suite de variables aléatoires
(i.e. Cov(Xi , Xj ) = 0
i
deux à deux non corrélées,
ii
admettant toutes la même espérance µ,
iii
et admettant toutes la même variance,
alors la moyenne Xn =
n→+∞
∀i 6= j)
Démonstration :
C’est la loi faible appliquée aux variables de Bernoulli.
X1 + . . . + Xn
vérifie
n
lim P |Xn − µ | > = 0
n→+∞
|{z}
Commentaires :
↑
E(Xn )
Cet exemple justifie en particulier que si on répète un grand nombre de fois une épreuve
de Bernoulli B(p), la fréquence du nombre de succès se rapproche fatalement de la probabilité de succès p. La théorie confirme donc l’intuition. De plus, ceci confirme que
Démonstration :
C’est une application du théorème de Bienaymé-Tchebychev. On note
Xn est un estimateur de E[X].
Sn = X1 + . . . + Xn .
Par linéarité de E, on a E(Sn ) = nµ, d’où
E(Xn ) = µ.
II
Approximations de lois et première forme du théorème central limite
Comme les variables sont non corrélées, on a également
V (Sn ) = V (X1 ) + . . . + V (Xn ) = nσ 2 ,
Sn
1
= σ2 .
d’où V (Xn ) = V
n
n
D’après l’inégalité de Bienaymé-Tchebytchev, on a
P (|Xn − µ| > ) 6
1
Approximation de lois discrètes par d’autres lois discrètes
1.a
σ2
n2
Approximation d’une loi hypergéométrique par une loi binomiale
Théorème :
Le passage à la limite achève la démonstration. Soit n ∈ N∗ et p ∈ [0; 1]. On pose (XN )N >n une suite de variables aléatoires t.q.
Commentaires :
L(Xn ) = H(n, N, p)
La loi faible des grands nombres signifie qu’en quelque sorte, Xn converge vers son espérance, c’est-à-dire que la moyenne des variables aléatoires devient forcément de plus en
plus proche de leur espérance. Ceci vaut en particulier pour des variables Xk qui suivent
une loi de Bernoulli, comme le traduit ci-dessous un théorème déjà intuitivement bien
connu ...
alors, pour tout k ∈ J0; nK, on a
∀N > n
lim P (XN = k) =
N →+∞
n
k
k
p (1 − p)n−k
N p∈N
Commentaires :
Remarque :
L’interprétation de ce théorème est que, si le nombre N de boules dans une urne devient
grand, à proportion constante, un tirage sans remise de n boules peut être considéré
comme une tirage avec remise.
Dans le théorème, on peut remplacer la première hypothèse par : "X1 , . . . , Xn deux à
deux indépendantes" comme par exemple dans le theorème ci-dessous, corollaire immédiat du théorème précédent.
En pratique, on estime que,
dès que N > 10n, on peut approcher la loi H(n, N, M ) par
la loi binomiale B n, M
N
4
— Théorèmes limites et statistique inférentielle —
Démonstration :
Démonstration :
Soit k ∈ J0; nK. Si k 6 M, en notant M = pN , on a
P (Xn = k)
=
=
=
=
N
n
M !(N − M )!n!(N − n)!
k!(M − k)!(n − k)!(N − M − n + k)!N !
M !(N − M )!(N − n)!
n!
k!(n − k)! (M − k)!(N − M − n + k)!N !
| {z }
=
Soit k ∈ N fixé, n > k et λ ∈]0; +∞[. On a
N −M
n−k
M
k
n
k
P (Xn = k)
=
=
!
n M . . . (M − k + 1) (N − M ) . . . (N − M − n + k + 1)
N . . . (N − n + 1)
k
!
n M . . . (M − k + 1) (N − M ) . . . (N − M − n + k + 1)
k N . . . (N − k + 1) (N − k) . . . (N − n + 1)
An
Le numérateur et le dénominateur ont tous les deux n facteurs, indpépendant de N .
La limite du produit est donc le produit des limites. Or,
lim
N →+∞
N p∈N
lim
et
N →+∞
N p∈N
D’où
pN − j
M −j
= lim
=p
N →+∞ N − j
N −j
Or,
An =
Bn
n(n − 1) . . . (n − k + 1)
n n−1
n−k+1
=
...
−−−−−→ 1
nk
n
n
n } n→+∞
{z
|
k fois
∀j = 0 . . . k − 1
N p∈N
et
N −M −j
N − pN − j
= lim
=1−p
∀j = 0 . . . n − k − 1
N →+∞ N − k − j
N −k−j
N p∈N
k
n−k
lim P (Xn = k) = n
k p (1 − p)
N →+∞
n−k
λ
λ
= e(n−k) ln(1− n )
Bn = 1 −
n
Or,
N p∈N
=
! n−k
k
n
λ
λ
1−
k
n
n
k n−k
λ
λ
n!
1−
k!(n − k)! n
n
n−k
λk
n!
1
λ
1
−
k! (n − k)! nk
n
|
{z
}|
{z
}
λ
(n − k) ln 1 −
n
∼
n→+∞
−(n − k)
λ
n
∼
n→+∞
−λ
Exemple :
On suppose que X suit la loi H(10, 100, 20).
• Calcul exact :
P (X > 1) = 1 − P (X = 0) = 1 −
20
0
80
10
100
10
D’où Bn −−−−−→ e−λ puis la limite annoncée : limn→+∞ P (Xn = k) =
=1−
n→+∞
1 × 80 × . . . × 71
' 0, 905
100 × . . . × 91
En pratique, on estime que, dès que n > 30 et p 6 0, 1, on peut approcher la loi binomiale
B(n, p) par la loi de Poisson P(np).
• Calcul approché :
On a 10n = 10 × 10 = 100 6 N . On peut donc approcher le résultat par la loi
M
B(n,
) = B(10; 0, 2)
N
0
10
10
D’où P (X > 1) ' 1 − P (X = 0) = 1 − 10
0 (0, 2) (0, 8) = 1 − (0, 8) ' 0, 893
1.b
λk −λ
e
k!
(Voilà pourquoi on appelle quelquefois la loi de Poisson la "loi des événements rares".)
Approximation d’une loi binomiale par une loi de Poisson
Exemple :
On considère une variable aléatoire X suivant une loi B(50; 0, 05). On souhaite calculer
P (X = 3).
• Calcul exact :
50 × 49 × 48
3
47
P (X = 3) = 50
(0, 05)3 (0, 95)47 ' 0, 2199
3 (0, 05) (0, 95) =
3×2
Théorème :
λ
Si (Xn )n∈N∗ est une suite de variables aléatoires suivant respectivement une loi B(n, ),
n
avec λ > 0, alors
λk
lim P (Xn = k) = e−λ
∀k ∈ N
n→+∞
k!
5
• Calcul approché : On a n = 50 > 30 et p 6 0, 1.
On peut donc approcher B(50; p) par la loi P(np) = P(2, 5)
3
−2,5 2, 5
D’où P (X = 3) ' e
' 0, 214
3×2
— Théorèmes limites et statistique inférentielle —
2
D’après le TCL, on peut donc estimer que
Théorème central limite : première forme
P (240 < Sn 6 260)
2.a
Le théorème
'
φ(1, 55) − φ(−1, 55) = 2φ(1, 55) − 1 ' 0.879
Remarque :
Dans le théorème précédent, si on note Tn = X1 + . . . + Xn , on a également
Définition :
Yn∗ =
Soit Y une variable aléatoire réelle admettant une variance non nulle. Alors, lorsque l’on
note
Y −µ
µ = E(Y ), σ 2 = V (Y ) et Y ∗ =
σ
on appelle Y ∗ la variable centrée réduite associée à Y . (car E(Y ) = 0 et V (Y ) = 1).
Tn − nµ
Yn − µ
√ =
√
= Tn∗
σ/ n
σ n
Les exemples suivants seront rédigés grâce à Tn∗ .
Théorème central limite (ou de la limite centrée) ; première forme :
2.b
Appl 1 : approximation d’une loi binomiale par une loi normale
Soit (X1 , . . . , Xn ) un n-échantillon d’une variable aléatoire X. On note
Théorème de Moivre-Laplace :
X1 + . . . + Xn
Xn − µ
√
et Xn ∗ =
n
σ/ n
¯ avec a < b,
on obtient que pour tout a, b ∈ R
Z b
2
1
lim P (a < Xn ∗ 6 b) = √
e−t /2 dt = φ(b) − φ(a)
n→+∞
2π a
µ = E(X),
σ 2 = V (X),
Xn =
Soit (Sn )n∈N∗ une suite de variables aléatoires qui suivent respectivement une loi B(n, p),
¯ ou a < b, on a
où p ∈]0; 1[. Alors, pour tous a, b ∈ R
!
Z b
t2
1
Tn − np
6 b −−−−−→ φ(b) − φ(a) = √
P a< p
e− 2 dt
n→+∞
σ 2π a
np(1 − p)
où φ est la fonction de répartition associée à la loi N (0; 1).
Démonstration : admise.
Démonstration :
C’est tout simplement la traduction du théorème central limite à une suite de variables
de Bernoulli. En effet, on pose (Xn )n∈N∗ est une suite de variables aléatoires indépendantes suivant une même loi B(p), de manière à ce que Sn = X1 + . . . + Xn . Alors elles
sont
mutuellement indépedantes
de même loi
admettant une variance p(1 − p) non nulle
D’après le TCL, on a
Exemple :
On choisit 500 fois au hasard un nombre compris entre 0 et 1. Quelle est la probabilité
que la somme de ces nombres soit comprise entre 240 (strictement) et 260 ?
————–
Solution
————–
On introduit les variables aléatoires Xi correspondant au nombre obtenu au ième
choix. Alors, les variables X1 , . . . , X500 sont
mutuellement indépedantes
de même loi uniforme U([0; 1]), (telle que µ = E(X1 ) = 1/2)
admettant une variance non nulle σ 2 =
P (a < Xn∗ 6 b) −−−−−→ Φ(b) − Φ(a)
n→+∞
1
12
Or
En posant Sn = X1 + . . . + Xn , on a alors,
Sn /n − µ
260/n − µ
240/n − µ
√
√
√
P (240 < Sn 6 260) = P
<
6
σ/ n
σ/ n
σ/ n
=
P
Xn∗ =
240/500 − 0, 5
Sn /n − µ
260/500 − 0, 5 √
√
√
<
6
σ/ n
1/ 500 × 12
1/ 500 × 12
|
|
{z
}
{z
}
α'−1,55
Tn /n − p
Tn − np
Tn − np
√
= √
= p
σ/ n
nσ
np(1 − p)
Dans la pratique, on estime que l’on peut approcher la loi de Yn∗ par une N (0; 1) dès que
n > 30, np > 5 et n(1 − p) > 5.
β'1,55
6
— Théorèmes limites et statistique inférentielle —
Remarque :
Si la loi de
Yn∗
peut être approchée par une loi normale, cela signifie que la loi Sn , i.e.
Exemple :
On reprend l’exemple précédent en utilisant une correction de continuité.
P (20 6 Tn 6 30)
B(n, p), peut être approchée par une loi N np, np(1 − p) .
=
=
p
(car Tn = np(1 − p)Yn∗ + np).
En pratique, on utilisera plutôt la variable Yn∗ , parce que l’on dispose des valeurs de φ.
=
Exemple :
On lance un dé équilibré 100 fois. On souhaite approximer la probabilité pour que le
nombre de 3 soit compris entre 20 et 30 (au sens large).
P (α < Yn∗ 6 β) ' φ(β) − φ(α) ' φ(3, 712) − φ(0, 760) ' 0, 9999 − 0, 7764 ' 0, 2235
B(n, p), où p = 1/6.
À titre d’information, le calcul effectué par ordinateur donne environ 0,2195 . . .
> 5 et n(1 − p) = 100 × 5/6 ('83) > 5.
Tn − np
∗
peut donc être approchée par la loi normale
D’après le TCL, la variable Yn = p
np(1 − p)
centrée réduite N (0; 1). D’où
On a n > 30, np = 100/6
('17)
P (20 6 Tn 6 30)
=
=
=
'


 19, 5 − 100/6
30, 5 − 100/6 
∗


< Yn 6 p
P p
100 × 5/36 

 100 × 5/36
|
{z
}
|
{z
}
α'0,760
β'3,712
P (α < Z 6 β) où Z
N (0; 1)
Ainsi, d’après les tables de la loi normale,
On note Tn la variable aléatoire donnant le nombre de 3 dans la série de lancés. Alors
Tn
'
P (19, 5 < Tn 6 30, 5)
!
Sn /n − p
19, 5 − np
30, 5 − np
√
P p
6 p
<
σ/ n
np(1 −p)
 np(1 − p)
2.c
P (19 < Tn 6 30)
!
Tn /n − p
19 − np
30 − np
√
P p
<
6 p
σ/ n
np(1 −p)
 np(1 − p)
Appl 2 : approximation d’une loi de Poisson par une loi normale
Théorème :


 19 − 100/6
30 − 100/6 
∗

p
p
P
<
Y
6
n
 100 × 5/36
100 × 5/36 


|
|
{z
}
{z
}
α'0,626
β'3,578
P (α < Z 6 β) où Z
N (0; 1)
Soit (Tn )n∈N∗ une suite de variables aléatoires qui suivent respectivement une loi P(nλ),
¯ ou a < b, on a
où λ > 0. Alors, pour tous a, b ∈ R
P (a < Tn∗ 6 b) −−−−−→ φ(b) − φ(a).
n→+∞
Ainsi, d’après les tables de la loi normale,
Démonstration :
P (α < Yn∗ 6 β) ' φ(β) − φ(α) ' φ(3, 578) − φ(0, 626) ' 0, 9998 − 0, 7357 ' 0, 2651
Correction de continuité
Encore une fois, ce n’est que l’application du TCL à la suite (Sn )n∈N∗ .
En effet, on peut écrire que pour tout n ∈ N Tn = X1 + . . . + Xn , où (Xn )n∈N∗ est
une suite de variables aléatoires mutuellement indépendantes, de même loi de Poisson
P(λ) (et donc de variance σ 2 = λ non nulle.) Lorsque l’on approche une loi discrète par une loi continue, on a un problème d’approximation
du type suivant : Si X suit une loi discrète (par exemple entière), on a par exemple
P (10 6 X 6 15) = P (9, 9 < X 6 15, 3) = . . .
Évidemment, l’approximation s’en trouve donc légèrement modifiée. On souhaite alors équilibrer l’erreur obtenue "de chaque coté de X". La solution la moins douloureuse en général
consiste donc à introduire une correction de continuité, c’est-à-dire, si n et m sont deux entiers,
on écrira
P (n 6 X 6 m) = P (n − 0, 5 < X 6 m + 0, 5)
Remarque :
• En pratique, on estime que l’on peut approcher la loi de Tn∗ par N (0; 1) si nλ > 18.
7
• Pour λ > 18, la loi P(λ) peut être approchée par N (λ, λ).
— Théorèmes limites et statistique inférentielle —
Théorème TCL (deuxième forme) :
Exemple :
On pose n = 30 et λ = 0, 5. On suppose que X suit une loi P(nλ) = P(15). On cherche
P (X 6 14).
Dans la table de la loi de Poisson, on peut lire en particulier que P (X 6 14) ' 0, 4657.
L’approximation par loi normale donne :
P (X 6 14)
=
=
'
Soit (X1 , . . . , Xn ) un n-échantillon d’une variable aléatoire X. On note
µ = E(X),
Xn =
n
1X
Xi ,
n i=1
et
Sn2 =
n
1X
(Xi − Xn )2
n i=1
¯ avec a < b,
on obtient que pour tous a, b ∈ R
Z b
2
1
Xn − µ
√ 6b = √
lim P a <
e−t /2 dt = φ(b) − φ(a)
n→+∞
Sn / n
2π a
P (X 6 14, 5)
(correction de continuité)
X − nλ
14, 5 − nλ
X − nλ
14, 5 − 15
√
√
√
P(
6
) = P( √
6
)
15
nλ
nλ
nλ
| {z }
1 − φ(0, 1291) ' 0, 5 − 0, 0517 = 0, 4483 α'−0,1291
où φ est la fonction de répartition associée à la loi N (0; 1).
3
Les approximations en bref
Remarque :
Par rapport à la première version, on a remplacé σ par Sn . Ceci revient à remplacer
Xn − µ
√ .
Xn ∗ par
Sn / n
Remarquez que Xn
Condition
On peut approcher
par
N > 10n
H(n, N, M )
n > 30 et p 6 0, 1
B(n, p)
P(np)
n > 30, np > 5 et n(1 − p) > 5
B(n, p)
N np, np(1 − p)
λ > 18
P(λ)
N (λ, λ).
∗
était la "centrée réduite" de Xn , ce qui n’est plus le cas de
Xn − µ
√ .
Sn / n
Le TCL est toutefois encore valable.
B n,
M
N
2
III
Intervalle de confiance et test de conformité
2.a
Intervalle de confiance
Commentaires :
Par la loi faible des grands nombres, on sait que Xn est une approximation de µ, mais
rien ne garantit qu’il faut effectivement prendre Xn et qu’un autre nombre proche ne
conviendrait pas aussi. En réalité, on pourrait peut être prendre n’importe quel nombre
dans un "voisinage proche" de Xn . La partie ci-dessous sert maintenant à définir comment on peut établir "raisonnablement" ce voisinage, au sens où on cherche un intervalle
I dans lequel
P (µ ∈ I) est élevé
Intervalles de confiance et tests
Théorème :
1
Deuxième forme du TCL
Soit (X1 , . . . , Xn ) est un n-échantillon d’une variable aléatoire X d’espérance µ. En notant :
n
X1 + . . . + Xn
1X
Xn =
et
Sn2 =
(Xk − Xn )2
n
n
k=1
Commentaires :
Alors, pour tout α ∈]0; 1[, on a
Xn − µ Sn
Sn
√ < u1− α2 = P Xn − u1− α2 √ < µ < Xn + u1− α2 √
P −−−−−→ 1 − α
Sn / n
n
n n→+∞
La première version du TCL utilise l’espérance µ et la variance σ de la variable X. Or,
en statistiques inférentielles, on ne dipose pas de ces caractéristiques lorsqu’on étudie
un caractère sur un échantillon de population. D’après la première partie, on sait néanmoins que l’on peut les approcher à l’aide (respect.) de Xn et Sn (notation de la partie I.)
On souhaite donc savoir dans quel cadre le théorème central limite est encore valable :
où φ(u1− α2 ) = 1 −
8
α
.
2
— Théorèmes limites et statistique inférentielle —
Définition :
Démonstration :
Soit (X1 , . . . , Xn ) est un n-échantillon d’une variable aléatoire X d’espérance µ. En notant :
n
X1 + . . . + Xn
1X
Xn =
et
Sn2 =
(Xk − Xn )2
n
n
k=1
h
i
S
Sn
Alors, pour tout α ∈]0; 1[, on note Iα = Xn − u1− α2 √nn < µ < Xn + u1− α2 √
l’intervalle
n
de confiance de niveau de confiance 1 − α.
C’est une conséquence de la deuxième forme du théorème central limite. En effet, si
u > 0, Posons
Pn
=
P
=
P
=
P
=
P
Xn − µ Sn /√n < u
µ − Xn
√ <u
−u <
Sn / n
Sn
Sn
−u √ < µ − Xn < u √
n
n
Sn
Sn
Xn − u √ < µ < Xn + u √
n
n
Exemple :
Un boulanger souhaite savoir s’il réussi à fabriquer ses pains de 500g à vue ou s’il a encore
besoin de peser sa pâte. Il faut donc un test sur sa production de 200 pains de la journée
et obtient des moyennes et variances empiriques de
Mn = 505
Or, d’après le théorème central limite (version 2), on sait que
Quel est l’intervalle de confiance de niveau 95% adapté à cette situation.
————–
Pn = P
µ − Xn
√ <u
−u <
Sn / n
−−−−−→ φ(u) − φ(−u) = 2φ(u) − 1
n→+∞
φ(u) = 1 −
α
2
0.05
= 0.975
2
On trouve (avec Python par exemple)
φ(1.95996
| {z }) ' 0.975
d’où
2φ(u) − 1 = 2(1 −
u
α
)−1=1−α
2
Ainsi,
√
Sn
1500
= 5.37
u √ = 1.95996 √
n
200
D’où l’intervalle de confiance
Ainsi,
P
Solution
————–
Tout d’abord, on cherche u tel que
Ainsi, si
φ(u) = 1 −
Sn2 = 1500
Xn − µ Sn
Sn
< u = P Xn − u √
√
√
−−−−−→ 1 − α
<
µ
<
X
+
u
n
Sn / n n
n n→+∞
I0.05 = [505 − 5.37; 505 + 5.37] = [499, 63; 510, 37]
Étant donné que 500 ∈ Iα , on ne peut pas exclure le fait qu’il n’ait pas la main avec
le risque de 5% de se tromper.
Remarque :
Commentaires :
Dans l’exemple précédent, avec un niveau de confiance de 5%, on ne peut pas affirmer
que le boulanger fait des pains de moyenne exactement 500g, mais seulemement qu’il
fait des pains de poids compris entre 499, 63 et 510, 37 (ce qui est par ailleurs favorable
au client). (cf. tests de conformité)
Ce théorème dit que pour
un échantillon de grande taille, la
h
i probabilité pour µ d’être
Sn
S
α √n
dans l’intervalle Iα = Xn − u1− α2 √
est d’environ 1 − α.
<
µ
<
X
+
u
n
1−
n
n
2
Le nombre 1 − α représente donc la probabilité d’avoir raison en affirmant que µ ∈ Iα .
(On veut donc en général 1 − α
De même, α représente donc le risque de commettre une erreur en affirmant que µ ∈ Iα .
(On veut donc en général α faible.)
D’où la définition suivante :
9
— Théorèmes limites et statistique inférentielle —
————– Le calcul des valeurs précédentes avec Python :
Avec Python, on peut simuler une variable aléatoire suivant une loi normale ainsi que sa
fonction de répartition ou l’inverse de sa fonction de répartition :
Exemple :
Reprenons l’exemple du boulanger. Les données empiriques étaient
Mn = 505
from scipy.stats import *
va=norm()
N (0, 1).
# on crée une v.a. du nom de va qui suit
va.rvs(10)
va.pdf(x)
x
va.cdf(x)
va.ppf(x)
# réalise 10 tirages de va
# rend la valeur de la fonction densité en
Sn2 = 1500
Est-il raisonnable de penser que sa moyenne théorique est bien de 500g
1. Pour un risque de 5% ?
2. Pour un risque de 10% ?
————–
Solution
————–
• Pour un risque de 5%, l’intervalle de confiance était
# rend φ(x)
# rend φ−1 (x)
I0.05 = [499, 63; 510, 37]
On ne peut pas conclure sur le fait qu’il soit raisonnable de penser que µ = 500.
• Pour un risque de 10%, le calcul de l’intervalle de confiance est
[500.5; 509.5]
Remarque :
On peut conclure avec un risque de 10% de se tromper que µ 6= 500g, (mais le risque
est important ici !)
Les abréviations ci-dessus correspondent aux termes suivants :
pdf
cdf
ppf
# probability density fonction
# cumulative density fonction
# percent point function
Commentaires :
À ce stade, on ne pourra jamais affirmer que µ = Xn mais seulement rejeter cette
hypothèse dans l’éventualité où µ 6∈ Iα .
2.b
Test de conformité
2.c
Application : intervalle de confiance d’une proportion
Commentaires :
La proposition ci-dessous (seconde forme du TCL, mais énoncé un peu différemment)
sert également à évaluer s’il est raisonnable d’affirmer que µ 6= Xn .
On suppose que X est une variable aléatoire suivant une loi binomiale B(n, p), avec n grand
et p inconnu.
Proposition :
Soit (X1 , . . . , Xn ) est un n-échantillon d’une variable aléatoire X d’espérance µ. En notant :
n
X1 + . . . + Xn
1X
Xn =
et
Sn2 =
(Xk − Xn )2
n
n
k=1
10
Exemple :
Un institut effectue un sondage sur les intentions de vote pour un candidat (noté A) aux
prochaines présidentielles pour un candidat. On note p la proportion d’électeurs souhai— Théorèmes
et statistique
inférentielle —
tant voter pour A et on souhaite évaluer p sans interroger
les 66limites
millions
de français.
Ne pouvant être certain du p exact, on souhaite déterminer un intervalle I tel que
P (p ∈ I) = 1 − α
Exemple :
Pour le sondage précédente, l’institut décide d’interroger 200 français et observe que 122
d’entre eux souhaitent voter pour le candidat A avec une variance de 90. Déterminer
l’intervalle de confiance à 5% de risque pour p.
Pour ce faire, notons que
X = X1 + . . . + Xn
————–
où
Xi ,→ B(p)
représente la possibilité de succès au rang i
On peut donc considérer que (X1 , . . . , Xn ) est un n-échantillon d’une même variable Z ,→ B(p).
On aura donc
p = E[Z] = ”µ”
On a ici
Z=
122
= 0.61
200
Attention, pour la variance de on a :
r
L’estimateur de p est donc Z Attention, pour la variance, il faut considérer que
Sn2 =
Solution
————–
n
1X
(Xk − Z)2
n
Sn2 =
k=1
90
' 9, 49
2002
de plus,
et on peut donc établir un intervalle de confiance :
φ−1 (1 −
P (µ ∈ Iα ) = 1 − α
Donc
Autrement dit,
P (p ∈ Iα ) = 1 − α
11
0, 05
) = φ−1 (0, 975) ' 1, 96
2
9, 49
Iα = 0.61 − √
200
— —