Cours 10 - Statistiques descriptives (2 de 2) SCI6060 (Hiver

Cours 10 - Statistiques descriptives (2 de 2)
SCI6060 (Hiver 2015)
Cours 10
1/20
SCI6060 – Cours 10
Statistiques descriptives
(partie 2 de 2)
20 mars 2015
SCI6060 (Hiver 2015)
Cours 10
2/20
Caractérisation d’une distribution [1/2]
Distribution
Comment les données sont réparties
Moyen pour la visualiser
Histogramme
SCI6060 (Hiver 2015)
Cours 10
3/20
Caractérisation d’une distribution [2/2] Point de comparaison pour décrire une distribution
Distribution normale
SCI6060 (Hiver 2015)
1
Cours 10 - Statistiques descriptives (2 de 2)
SCI6060 (Hiver 2015)
Cours 10
4/20
COURBE NORMALE
Distribution Moyenne/Médiane/Mode = 0
Écart-type = 1
normale
68% de l'échantillon
entre + ou - 1 écart-type
-1 écart-type
-4
-3
-2
-1
+1 écart-type
0
Moyenne
Médiane
Mode
1
2
3
4
SCI6060 (Hiver 2015)
Cours 10
5/20
Dans Excel :
=coefficient.asymetrie(plage)
Symétrie
Courbe symétrique
mode = médiane = moyenne
Courbe asymétrique (étalée) à droite,
(asymétrie positive)
Courbe asymétrique (étalée) à gauche,
(asymétrie négative)
mode < médiane < moyenne
mode > médiane > moyenne
SCI6060 (Hiver 2015)
Cours 10
6/20
Dans Excel :
=kurtosis(plage)
Aplatissement
Courbe régulière
Kurtosis nul
Aplatissement faible
Kurtosis positif
SCI6060 (Hiver 2015)
Aplatissement élevé
Kurtosis négatif
2
Cours 10 - Statistiques descriptives (2 de 2)
SCI6060 (Hiver 2015)
Cours 10
7/20
Illustration des mesures de
tendance centrale et de dispersion
Tendance centrale et dispersion : deux dimensions pour caractériser des données
Soit 16 personnes ayant dans leur portefeuille 10$, 20$, 30$, 40$ ou 50$ : 3 personnes ont 10$, 5 en ont 20$, …
Médiane = 25
Salomon
Mode = 20
Popularité
10
20
30
40
50
Moyenne = 26,4
Différents indicateurs de centralité
SCI6060 (Hiver 2015)
Équilibre
3
Cours 10 - Statistiques descriptives (2 de 2)
SCI6060 (Hiver 2015)
Cours 10
10/20
Seule une distribution symétrique aura la même
valeur pour sa médiane, son mode et sa
moyenne. La distribution symétrique est
parfaitement équilibrée!
Médiane = Mode = Moyenne
10
20
30
40
50
Différents indicateurs de centralité
1
Tendances centrales : Impact des valeurs aux extrémités
1
5
Médiane = "Salomon"
(10)
Mode =
le plus fréquent
(5)
5
5
10
10
25
32
40
40
0
20
40
60
50
Moyenne = point d'équilibre
(18,67)
1
1
5
Médiane = "Salomon"
(10)
5
5
Mode =
le plus fréquent
(5)
10
10
40
40
50
50
0
20
Moyenne = point d'équilibre
(23,08)
40
60
60
SCI6060 (Hiver 2015)
Cours 10
14/20
Impact de l’asymétrie
sur la moyenne et la médiane
Tendances centrales et asymétrie
SCI6060 (Hiver 2015)
4
Cours 10 - Statistiques descriptives (2 de 2)
SCI6060 (Hiver 2015)
Cours 10
15/20
Choix des mesures de tendance centrale
Mesures de dispersion
0
5
Moyenne = 30
Médiane = 30
Étendue = 60
Mode = aucun
Écart-type = 19,5
10
Moyenne
15
Écart‐type
20
25
30
35
40
45
50
0
40
20
60
55
60
Moyenne
0
30
Moyenne = 30
Médiane = 30
Étendue = 60
Mode = 30
Écart-type = 12,2
30
Écart‐type
30
30
30
30
30
30
30
30
0
Cas 1
40
20
Moyenne
Moyenne - 1 écart-type
Moyenne + 1 écart-type
30
60
60
SCI6060 (Hiver 2015)
Cours 10
17/20
Illustration du lien entre la dispersion des données et
l’écart‐type
Exemples de distribution des notes
pour 2 examens différents dans un cours
Cas 2
Moyenne
Moyenne - 1 écart-type
Moyenne + 1 écart-type
Cas 1 (examen fictif) :
Moyenne = 82
Nbre étudiants = 79
Presque tous les étudiants entre 80 et 85
Écart-type = 3,26991
Coefficient de variation = 3,99%
Cas 2 (final) :
Moyenne = 82
Nbre étudiants = 79
Notes sont plus étendues entre 77 et 86
Écart-type = 4,7231
Coefficient de variation = 5,76%
SCI6060 (Hiver 2015)
5
Cours 10 - Statistiques descriptives (2 de 2)
SCI6060 (Hiver 2015)
Cours 10
18/20
Interprétation de l’écart‐type [1/2]
• Soit les deux indicateurs suivants :
– A) Somme mensuelle dépensée pour les transports en commun ($)
– B) Longueur de la repousse des cheveux par mois (cm)
• 10 personnes vous fournissent leurs données pour ces deux
indicateurs et vous calculez leur moyenne ainsi que leur écart-type
Transports ($)
Cheveux (cm)
Moyenne
100
1,13
Écart‐type
6,67
0,49
• Selon vous, pour lequel de ces indicateurs vos répondants diffèrentils le plus (i.e. que les données sont les plus dispersées)?
SCI6060 (Hiver 2015)
Cours 10
19/20
Interprétation de l’écart‐type [2/2]
0,5
1,5
1,0
2,0
Repousse des cheveux (cm)
Rép.
Transports ($)
1
90
100
110
Transport en commun ($)
L’écart-type ne s’interprète pas uniquement sur la grandeur
de son chiffre mais doit s’interpréter par rapport à la
moyenne et en fonction de son unité de mesure. Ici, il
s’avère que c’est pour la repousse des cheveux que l’écarttype est le plus grand!
Cheveux (cm)
90
0,7
2
90
0,8
3
100
0,9
4
100
1,1
5
100
2,0
6
100
0,9
7
100
1,3
8
100
0,7
9
110
10
110
0,9
Moyenne
100
1,13
Écart‐type
6,67
0,49
2,0
SCI6060 (Hiver 2015)
Cours 10
20/20
Coefficient de variation (COV)
• Aide à interpréter l’écart-type en le ramenant en %
• COV = écart-type / moyenne
Rép.
1
Transports ($)
Cheveux (cm)
90
0,7
2
90
0,8
3
100
0,9
4
100
1,1
5
100
2,0
6
100
0,9
7
100
1,3
8
100
0,7
9
110
2,0
10
110
0,9
Moyenne
100
Ici, le COV nous permet de facilement voir
que c’est l’indicateur sur la repousse des
cheveux qui a la plus grande dispersion
des données.
Si COV < 15%, les données sont
considérées comme homogènes par
rapport à l’indicateur.
1,13
Écart‐type
6,67
0,49
COV
6,67%
43,56%
SCI6060 (Hiver 2015)
Plus le COV est grand, plus l’écart-type
représente une grande proportion de la
moyenne, plus les données sont
dispersées autour de la moyenne.
Si COV > 15%, les données sont
hétérogènes par rapport à l’indicateur.
6