Download Report

STATISTIQUES - PROPOSITION DE CORRIGÉ
OLIVIER COLLIER
Exercice 1
Partie A : Statistique descriptive.
(1) La population est constituée de 4 912 vaches, dont le caractère étudié est la quantité de
lait, en gallon par semaine. Il s’agit d’un caractère quantitatif.
(2)
(3) La moyenne x
¯ est donnée par
1
· (123 × 10 + 726 × 14 + 1636 × 17 + 1530 × 20 + 821 × 24 + 76 × 30)
4912
≈ 18, 69 à 10−2 près,
x
¯=
et l’écart-type est donné par
1
· 123 × (10 − x
¯)2 + 726 × (14 − x
¯)2 + 1636 × (17 − x
¯ )2
4912
+ 1530 × (20 − x
¯)2 + 821 × (24 − x
¯)2 + 76 × (30 − x
¯)2 ,
s2 =
d’où s ≈ 3, 65 à 10−2 près.
(4) (a) Le premier quartile correspond à la 1 228ième vache, donc à l’intervalle de production
[15, 5 18, 5[, qui lui correspond concerne les vaches de la 848ième à la 2 485ième . Par
interpolation linéaire, on en déduit que la 1 228ième vache produit la quantité de lait
Q1 = 15, 5 +
18, 5 − 15, 5
· (1228 − 849) ≈ 16, 19 gallons de lait par semaine, à 10−2 près.
2485 − 849
(b) Ce diagramme indique que la production de lait est fortement concentrée autour de
la médiane.
Partie B : Ajustement à une loi normale.
(1) Si X ∼ N (µ, σ 2 ), alors X−µ
σ ∼ N (0, 1).
(2) Avec la calculatrice, on calcule que Π−1 (0, 03) ≈ −1, 88 et Π(0, 51) ≈ 0, 03 à 10−2 près.
(3) (a)
(b) Le coefficient de corrélation linéaire, √
Cov(X,Y )
√
,
Var(X) Var(Y )
est environ égal à 0, 96, à 10−2
près. Comme ce coefficient est proche de 1, un ajustement linéaire est justifié.
(c) La méthode des moindres carrés donne t ≈ −5, 58 + 0, 3 x.
1
2
OLIVIER COLLIER
(d) Notons F la fonction de répartition de X et N une variable aléatoire suivant la loi
N (0, 1). On a choisi t de telle sorte que Π(t) = F (x). Donc, selon le point précédent,
F (x) = Π(−5, 58 + 0, 3 x)
= P(N ≤ −5, 58 + 0, 3 x)
10
= P( N + 18, 60 ≤ x).
3
10
Or 3 N +18, 60 est une variable aléatoire de loi normale de moyenne 18, 60 et d’écarttype 10
3 , et F est la fonction de répartition de cette variable, donc X suit cette loi.
Exercice 2
(1) (a) X suit une loi binômiale de paramètres 925 et 0, 32.
(b) D’après le théorème central limite, la loi de X peut être approchée par une loi normale
de paramètres 925 × 0, 32 et 925 × 0, 32 × 0, 68.
(c) En notant Φ la fonction de répartition d’une loi gaussienne centrée réduite et en
utilisant l’approximation précédente, on
P(0, 30 × 925 ≤ X ≤ 0, 40 × 925)
0, 40 × 925 − 0, 32 × 925 0, 30 × 925 − 0, 32 × 925 √
√
≈Φ
−Φ
925 × 0, 32 × 0, 68
925 × 0, 32 × 0, 68
≈ 0, 903 à 10−3 près.
46
(2) (a) L’estimation de son score est de 200
= 23%.
(b) Appelons sˆ l’estimateur associé, qui compte le nombre de voix en faveur de la tête
de liste et le divise par 200. 200ˆ
s suit une loi binômiale de paramètres 200 et s, où s
est le vrai score. On approxime cette loi par une loi normale de paramètres 200s et
200s(1 − s). Donc, avec probabilité au moins égale à 95%, on a
p
√
|200ˆ
s − 200s| ≤ 1, 96 × 200s(1 − s) ≤ 1, 96 × 50,
car on a p(1 − p) ≤ 1/4 quelque soit p compris entre 0 et 1. D’où l’intervalle à 95%
pour le score :
s ∈ sˆ − 3, 40, sˆ + 3, 40 = 19, 60 , 26, 40 .
Exercice 3
Exercice 1.
(1) Notons X1 , . . . , Xn1 les indicatrices des événements "le iième ménage de C1 possède le
bien durable considéré", i = 1, . . . , n1 , et de même, notons Y1 , . . . , Yn2 les indicatrices des
événements "le iième ménage de C2 possède le bien durable considéré", i = 1, . . . , n2 . Alors
n
P 1
P 2
F1 = n11 ni=1
Xi , F2 = n11 ni=1
Yi .
2
= p, donc les trois estimateurs sont sans biais.
D’où E(F1 ) = E(F2 ) = E F1 +F
2
STATISTIQUES - PROPOSITION DE CORRIGÉ
3
(2) D’après les écritures précédentes, n1 F1 suit une loi binômiale de paramètres n1 et p, et
n2 F2 suit une loi binômiale de paramètres n2 et p.
p(1−p)
F1 +F2
,
Var(F
)
=
et
Var
(3) Calculons les variances des estimateurs : Var(F1 ) = p(1−p)
=
2
n1
n2
2
p(1 − p) × 14 n11 + n12 .
Supposons maintenant que n1 > n2 . Alors le premier estimateur est meilleur que le deuxième. D’autre part, le troisième estimateur est toujours meilleur que le deuxième, et est
meilleur que le premier si et seulement si
1
1
1 1
+
⇔ n1 < 3 n2 .
<
4 n1 n2
n1
L’estimateur F1 +F2 est sans biais si et seulement si a+b = 1, et sa variance est alors égale
2
2 p(1−p) . Notons f (a) = a2 + (1−a) pour tout réel a. f est une fonction
à a2 p(1−p)
n1 + (1 − a)
n2
n1
n2
polynômiale du second degré, et son coefficient dominant est strictement positif, donc elle
1
admet un minimum pour a = a0 , n1n+n
. Donc le meilleur estimateur non-biaisé de la
2
forme aF1 + bF2 est
n2
n1
F1 +
F2 .
n1 + n2
n1 + n2