Download Report

Projet de MASTER 2 d'analyse statistique de données réelles
Guillaume SAINT PIERRE
IFSTTAR/COSYS/LIVIC
Institut français des sciences et technologies des transports, de l'aménagement et des réseaux
Département Composants & Systèmes
Laboratoire sur les Interactions Véhicules-Infrastructure-Conducteurs
20 avril 2015
Table des matières
1 Préambule :
1
2 Régression linéaire multiple
1
1.1
1.2
1.3
2.1
2.2
2.3
2.4
2.5
2.6
Critères d'évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Présentation du rapport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Remise du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quelques rappels . . . . . . . . . . .
Les données . . . . . . . . . . . . . .
Estimation des paramètres et analyse
Selection et comparaison de modèles
Prediction . . . . . . . . . . . . . . .
Analyse de données de Fitness . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
de la qualité du modèle
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
1
2
3
4
5
5
3 Tests statistiques
5
4 Analyse de variance multivariée à un facteur
5 Analyse de données réelles
7
8
3.1
3.2
Tests pour un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tests pour deux échantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
5
6
1
Préambule :
Le projet pourra être réalisé en binôme. L'objectif de ce projet est de vous initier à toutes les
étapes nécessaires à la production d'un rapport d'analyse de données réelles : du nettoyage et de
l'importation des données brutes jusqu'à leur traitement statistique et leur présentation formelle.
1.1
Critères d'évaluation
Le barème de notation est à peu près de 1 point par question. En outre, 1 point sera réservé à
l'appréciation générale des commentaires (pertinence de ceux ci par rapport au sujet), ainsi qu'à la
présentation et la qualité des tableaux et graphiques contenus dans le rapport. Des points peuvent
être enlevés en cas de copie trop évidente d'une page web ou d'une autre copie. La note peut donc
être dans un premier temps supérieure à 20, mais est ensuite recalée entre 0 et 20 après réception et
notation de toutes les copies.
La totalité des documents sera accessible sur le site http ://g.saintpierre.online.fr.
1.2
Présentation du rapport
Une attention particulière sera portée à la présentation du rapport. La rédaction du rapport
obéira aux règles classiques : page de garde, table des matières, introduction, rédaction, conclusion.
Il ne devra pas dépasser 30 pages et pourra comporter 10 pages d'annexes au maximum (soit 40
pages max au total). Le corps du texte comportera quelques sorties numériques et/ou graphiques
obtenues avec SAS judicieusement choisies. Quelques précisions sur les sorties pourront être données
en annexes. Sur le rapport devront gurer une adresse électronique et un numéro de téléphone où
l'on peut joindre les auteurs.
1.3
Remise du projet
lundi 1er juin 2015
La remise de ce sujet est xée au
. Elle se fera par un envoi de courrier
électronique avec accusé de réception à l'adresse [email protected]. Le projet en luimême consistera en un document au format pdf, ps, ou word, auquel sera joint le code sas (chier
séparé et compressé, an de pouvoir en vérier la bonne exécution).
2
2.1
Régression linéaire multiple
Quelques rappels
Nous rappelons que le modèle de régression linéaire multiple dans le cas Gaussien s'écrit sous la
forme :
yi = β0 + β1 x1i + β2 x2i + . . . + βp xpi + i , i = 1, . . . , n
où les i sont des variables aléatoires i.i.d. N (0, σ 2 ). Ce modèle peut aussi s'écrire sous forme matricielle :
y = Xβ + L'estimation des paramètres β par moindres carrés est donnée par :
βˆ = (X 0 X)−1 X 0 y,
et les valeurs prédites sont dénies par
yˆ = X βˆ = Hy,
On dispose des critères suivants pour juger de la qualité du modèle :
Coecient de détermination : R = =
Coecient de détermination ajusté : Radj = 1 −
(1 − R )
P
(y − yˆ ) , où yˆ
Predicted residual sum of squares : P RESS =
de y obtenue en supprimant la i-ème observation
Test de Student : H : β = 0 contre H : β 6= 0
Test global de Fisher : H : β = β = . . . = β = 0 contre H : l'un des β
ky−ˆ
yk
ky−¯
yk
2
SSE
SST
2
n−1
n−p−1
n
i=1 i
2
(i)
2
(i)
est l'estimation
i
0
j
1
j
6= 0
Lorsque l'on supprime certaines covariables X1 , . . . , Xq , q < p on peut utiliser le coecient de
détermination ajusté Radj 2 et la statistique de Mallows Cq pour comparer le modèle réduit et
le modèle complet.
: soit Rj le cosinus de l'angle entre X j et le sous espace vectoriel engendré
par les variables Vj = V ect{X 1 , . . . , X j−1 , X j+1 . . . , X p }. Si Xj est linéairement indépendant
des autres covariables, alors Rj est proche de 1 et plus la variance de βj est grande. On appelle
1
facteur d'ination de la variance (VIF) le coecient : Vj = 1−R
2 . Si Vj est grand, alors on
0
1
2
p
1
j
Multicolinéarité
j
peut en conclure que la variable explicative Xj est fortement corrélée avec les autres variables
explicatives.
Comme dans le cas de la régression linéaire simple on peut dénir pour chaque observation :
l'eet levier (diagonale de la matrice H ), les résidus standardisés et studentisés, la distance de
Cook...
2.2
Les données
Pour cette première partie, on dispose de données (Jobson, 1991) qui décrivent les résultats
comptables de 80 entreprises du Royaume Uni. Les entreprises sont réparties aléatoirement en deux
groupes de 40 entreprises qui se trouvent dans les chiers ukcomp1.dat et ukcomp2.dat. Un total de
13 variables ont été collectées qui décrivent les résultats comptables des entreprises. RETCAP est la
variable à prédire :
RETCAP
Return on capital employed
WCFTDT
Ratio of working capital ow to total debt
LOGSALE Log to base 10 of total sales
LOGASST Log to base 10 of total assets
CURRAT
Current ratio
QUIKRAT Quick ratio
NFATAST
Ratio of net xed as sets to total assets
FATTOT
Gross sixed assets to total assets
PAYOUT
Payout ratio
WCFTCL
Ratio of working capital ow to total current liabilities
GEARRAT Gearing ratio (debt-equity ratio)
CAPINT
Capital intensity (ratio of total sales to total assets)
INVTAST
Ratio of total inventories to total assets
Q. 1
Copier le chier ukcomp1.dat sur votre ordinateur. Utiliser une étape data pour créer une
ukcomp1 contenant les variables indiquées ci-dessus sachant que les observations du chier
ukcomp1.dat sont séparées par le caractère tabulation. Procéder ensuite à une analyse descriptive des
table
variables et de leurs liens potentiels, linéaires ou non. Décrire rapidement les principales caractéristiques du jeu de données fourni.
2.3
Q. 2
Estimation des paramètres et analyse de la qualité du modèle
RET CAP en fonction des autres variables
ukcomp1.dat. Dans la fenêtre Output, analyser les tableaux suivants :
Analysis of variance : commenter les valeurs de R2 , Radj 2 , P RESS . Que peut-on déduire
Faire la régression linéaire multiple de la variable
de la table
du test global de Fisher ?
Parameters estimates
: commenter les valeurs de la p-value pour le test de Student (nullité
d'un coecient). Que pouvez-déduire des valeurs du VIF ? Quel est le lien entre VIF et écarttype des estimateurs ?
Model cross products, Covariance of estimates et Correlation of estimates : que pouvezvous en déduire sur la multicolinéarité des variables explicatives ?
Pour cette question, on pourra utiliser les options covb, Influence, tol, et vif de la proc REG. Les
mot-clés covb, Influence, et vif correspondent respectivement à la matrice de variance-covariance
des paramètres estimés, aux valeurs de l'eet levier pour chaque observation, aux valeurs du facteur
d'ination de la variance pour chaque paramètre estimé.
Q. 3
Tracer l'eet levier, les résidus standardisés et studentisés, la distance de Cook en fonction des
observations. Quelles sont les observations qu'il faudrait examiner avec attention ? Que pouvez vous
dire de la forme du graphe des résidus ? Expliquer et détailler vos conclusions.
2.4
Selection et comparaison de modèles
Lorsque p est grand il n'est pas raisonnable d'explorer les 2p modèles possibles an de sélectionner
le meilleur au sens de l'un des critères dénis précédemment (Radj 2 , Cq ...). Diérentes stratégies
peuvent être choisies pour sélectionner un modèle parcimonieux (contenant moins de variables que
le modèle complet). Nous en citerons quelques unes :
Elimination
•
(backward selection) : l'algorithme démarre du modèle complet. A chaque étape,
la variable associée à la plus grande p-valeur du test de Student est éliminée du modèle. La procédure
s'arrête lorsque les variables restant dans le modèle ont des p-valeurs plus petites qu'un seuil xé par
défaut (e.g. 0.05).
Sélection
•
(forward selection) : à chaque pas, une variable est ajoutée au modèle. C'est celle
dont la p-valeur associée au test de Fisher pour comparer deux modèles est minimale. La procédure
s'arrête lorsque toutes les variables sont introduites ou lorsque la p-valeur reste plus grande qu'une
valeur seuil xée par défaut (e.g. 0.05).
Mixte
•
(stepwise selection) : cet algorithme introduit une étape d'élimination de variable après
chaque étape de sélection an de retirer du modèle d'éventuelles variables qui seraient devenues moins
indispensables du fait de la présence de celles nouvellement introduites.
Global
•
L'algorithme de Furnival et Wilson est utilisé pour comparer tous les modèles possibles
en cherchant à optimiser un critère choisi par l'utilisateur (Radj 2 , Cq ). Par souci d'économie, cet
algorithme évite de considérer des modèles de certaines sous-branches de l'arborescence dont on peut
savoir a priori qu'ils ne sont pas compétitifs.
Q. 4
Estimer les paramètres du modèle complet comme précédemment. Itérer la procédure suivante :
choisir parmi les variables explicatives celle
Xj
pour laquelle la p-value du test de Student est
maximale.
retirer cette variable du modèle et recalculer l'estimation.
Le processus s'arrête lorsque tous les coecients sont considérés comme signicativement diérents
de zéro pour un seuil pré-xé (e.g. 0.05). Attention, la variable
β0
ne peut être considérée au même
titre que les autres variables et il ne faut donc pas la retirer du modèle.
/ selection=backward slstay=0.05, / selection=forward slstay=0.05,
/ selection=stepwise slstay=0.05 dans la procédure reg pour générer des modèles concurrents.
Utiliser ensuite / selection=rsquare cp adjrsq bic best=1 pour faire automatiquement de la sé2
lection de modèle globale. Dans ce dernier cas, conserver les modèles qui maximisent le Radj et qui
minimisent le Cq .
Utiliser les instructions
et
Analyser les diérences entre le modèle complet et les modèles obtenus par sélection. Que pouvez vous
2
2
déduire de la comparaison des R , Radj , P RESS , graphes des résidus ? Quelles sont les observations
inuentes dans les diérents modèles ?
2.5
Prediction
On se propose de comparer les valeurs eectivement observées sur le deuxième ensemble d'entreprises avec les prévisions calculées à l'aide de modèles estimés sur le premier ensemble.
Q. 5
Copier le chier
ukcomp2.dat
ukcomp2 contenant les
ukcomp2.dat sont séparées
sur votre ordinateur. Créer une table
variables décrites précédemment sachant que les observations du chier
par le caractère tabulation.
Concaténer les tables
ukcomp1
et
ukcomp2
(ensemble des entreprises). Imprimer la table
Q. 6
ukcomp contenant
fenêtre Output.
pour créer une table
ukcomp
dans la
80 observations
Estimer le modèle complet et les modèles obtenus par sélection sur les 40 premières observations
et prévoir les 40 suivantes. Comparer les valeurs prédites et les valeurs observées en calculant la somme
des carrés des erreurs. Déterminer le modèle qui minimise cette erreur de prédiction.
2.6
Analyse de données de Fitness
On dispose de données (provenant de la librairie d'exemples de SAS) collectées lors de séances
d'aérobie chez 31 personnes. Les 7 variables qui ont été mesurées sont les suivantes :
age
âge des sportifs
weight
poids des sportifs
oxy
consommation d'oxygène
runtime
temps de l'eort
rstpulse
mesure de pulsation cardiaque 1
runpulse mesure de pulsation cardiaque 2
maxpulse mesure de pulsation cardiaque 3
Les observations sont réparties aléatoirement en deux groupes de 16 et 15 personnes qui se
trouvent respectivement dans les chiers fitness1.dat et fitness2.dat. On souhaite trouver un
modèle de prédiction de la consommation d'oxygène (variable oxy) en fonction des autres variables.
Q. 7
En utilisant les techniques d'analyse d'un modèle de régression linéaire multiple que vous avez
vues précédemment, proposez un modèle (le plus simple et le meilleur possible) de la consommation
d'oxygène en fonction des autres variables.
3
3.1
Q. 8
Tests statistiques
Tests pour un échantillon
On se place dans le cadre des tests portant sur la moyenne d'un échantillon supposé tiré selon
une loi continu. Décrire brièvement les spécicités et le cadre d'application des tests de Student, de
Wilcoxon, et des signes.
Le chier mesure.don contient les résultats d'une mesure continue comprise entre 10 et 20, réalisée sur un échantillon de 12 individus indépendants. Les observations de cette mesure gurent en
deuxième colonne du chier, la première indiquant les numéros des individus. On se pose la question
de savoir si 14 peut être considéré comme un indicateur de tendance centrale pour cette mesure.
Q. 9
{H0 : µ = 14}. Pour cela,
mesure contenant les observations du chier mesure.don.
créer une table SAS test contenant les quantités yi = xi − 14, i = 1, . . . , 12.
utiliser la procédure univariate sur la table test.
Créer une table SAS sortie contentant les valeurs des statistiques des trois tests ainsi que
Utiliser les trois tests précédents pour tester l'hypothèse nulle
créer une table SAS
les
p-valeurs associées.
{H0 : µ = 14}
{H1 : µ > 14} ?
Pour quels tests pouvez vous rejeter l'hypothèse nulle
question en prenant pour hypothèse alternative
Q. 10
au seuil
α = 0.05 ?
Même
Reprendre la question précédente pour tester si 15 peut être considéré comme un indicateur
de tendance centrale pour cette mesure.
Le chier course.don contient pour un échantillon de 10 individus indépendants (dont les numéros
gurent en colonne 1), les temps réalisés lors d'une course de vitesse, avant (colonne 2) et après
(colonne 3) une période d'entraînement. Il s'agit donc de mesures appariées. On s'interroge sur
l'ecacité de cette période d'entraînement.
Q. 11
Proposer trois statistiques diérentes, pour tester s'il existe une diérence dans les perfor-
mances avant et après l'entraînement. Que pouvez vous conclure au seuil
α = 0.05 ?
Comment expli-
quer les résultats donnés par le test des signes ?
3.2
Q. 12
Tests pour deux échantillons
On se place dans le cadre des tests portant sur la comparaison entre deux échantillons indépen-
dants. Décrire brièvement les spécicités et le cadre d'application des tests de Fisher, de Student, les
approximations normales et de Satterthwaite du test de Student, ainsi que le test de Mann-Whitney.
Le chier habil.don contient les performances réalisées par 2 groupes d'élèves à un test d'habileté
manuelle (les scores sont entiers, compris entre 11 et 31). Le chier des données comporte un numéro
pour chaque élève (de 01 à 18) dans la 1ère colonne, les scores dans la 2ème et le groupe d'appartenance (1 ou 2) dans la 3ème. Le problème est de savoir si les 2 groupes d'élèves sont homogènes
relativement au test d'habileté manuelle.
Q. 13
Utiliser les tests de Fisher, de Student et de Mann-Whitney pour tester l'égalité des fonctions
de répartition qui correspondent aux deux échantillons. Pour cela,
créer une table SAS
utiliser la procédure
habil contenant les observations du chier habil.don.
ttest puis la procédure npar1way sur la table habil.
A partir du test de Fisher, déterminer si on doit utiliser un test de Student exact ou bien une
approximation (Normale ou Satterthwaite) ? Au seuil
tests ?
α = 0.05,
que pouvez vous conclure de ces trois
4
Analyse de variance multivariée à un facteur
En général, un modèle de classication a un facteur peut être déni par une variable à a niveaux
(ou groupes). En notant yij le vecteur (p × 1) des réponses pour l'individu j du ième groupe, alors
le modèle s'écrit :
yij = µ + τi + ij , j=1,...,ni ; i=1,...,a,
avec ij le vecteur aléatoire (p × 1) associé aux erreurs aléatoires supposées suivre une loi normale
centrée et de matrice de variance-covariance Σ. L'eet propre au groupe i est noté τi (vecteur (p × 1))
et le vecteur µ (p × 1) représente l'eet moyen, ni étant le nombre d'observations du groupe i. On
peut tester l'hypothèse nulle multivariée de l'absence de diérence de traitement entre les groupes
(H0 : τ1 = τ2 = ... = τa ) en utilisant 4 tests multivariés diérents.
Q. 14
Décrire brièvement ce que fait la PROC
GLM
et les principaux résultats générés par défaut.
Décrire les 4 tests multivariés disponibles pour tester l'hypothèse d'égalité des eets dans le cas multivarié, leurs expressions et conditions d'application.
Q. 15
Décrire les diérentes décompositions de la somme des carrés (Sum of Square) que SAS peut
fournir en sortie de PROC GLM (i.e. type I, type II, type III et type IV sum of squares).
Q. 16
Utiliser la PROC
GLM
avec l'option
Manova
pour analyser les données "Labos" fournies plus
bas. Comparer les résultats des diérents tests multivariés et donner une conclusion sur l'hypothèse
nulle.
data Labos;
input lab methode1 methode2;
lines;
1 10.1 10.5
1 9.3 9.5
1 9.7 10.0
1 10.9 11.4
2 10.0 9.8
2 9.5 9.7
2 9.7 9.8
2 10.8 10.7
3 11.3 10.1
3 10.7 9.8
3 10.8 10.1
3 10.5 9.6
;
Q. 17
Expliquer ce que fait le code SAS ci dessous. Argumentez vos conclusions.
proc glm data = Labos;
class lab;
model methode1 methode2 = lab/nouni;
contrast 'Test : labos' lab 1 -1 0,
lab 1 0 -1;
manova/printe printh;
run;
Q. 18
Expliquer la diérence entre un plan d'expérience balancé et non-balancé, et décrire l'impact
que cela peut avoir lors de l'usage de la PROC GLM pour une ANOVA a un puis deux facteurs.
Q. 19
Reprendre l'analyse des données écoconduite et décrire le résultat d'une analyse de variance
multivariée (Consommation de carburant et distance parcourue) à un facteur (sans système / avec
système).
5
Analyse de données réelles
Cette section considère l'application de l'ensemble des méthodes vues dans ce sujet à un jeu
de données réel enregistré dans le cadre d'un projet de recherche récent (http ://www.ecodriverproject.eu/). Le jeu de données contient des valeurs d'indicateurs calculés pour une série de trajets
en voiture. Ces trajets sont tous identiques (même route empruntée) et ont tous été eectués par des
conducteurs indépendants. Les conducteurs ont par contre eectués plusieurs fois le trajet dans des
conditions de route parfois identiques. Pour la première partie de cette étude, on pourra cependant
considérer que les trajets sont indépendants entre eux. Voici les variables contenues dans le jeu de
données écoconduite :
Distance
Distance (en m)
DureeMilliSec
Durée du trajet en millisecondes
ConsoL100
Consommation moyenne en litre/100km
TripID
Numéro du trajet eectué par le conducteur
Triptype
Type de trajet : Sans système (SS) ou Android system (AS)
Ctagdriverid
Code identiant le conducteur
MeanVitesse
Vitesse moyenne (km/h)
SumChangeVitesse
Nb de changements de rapport de boite
TempsArrete
% de temps passé à l'arrêt
TempsFreinMoteur
% de temps passé avec le frein moteur
TempsHorsConsigne
% de temps au delà de la consigne
SumArret
Nombre d'arrêts
MeanRMChangeVitUp Moyenne du régime moteur auquel
se fait le vrai changement de rapport ascendant
TFM
Time Engine brake
ArretParKm
Nombre d'arrêts par km
Nb de changements de rapport de boite par km
ChangeVitParKm
L'objectif de cette expérience était de tester l'eet de l'usage d'un système d'aide à l'écoconduite
pour smartphones (Android system), en comparant avec des trajets identiques eectués en conditions
normales (sans système, SS).
Q. 20
En utilisant les méthodes de votre choix parmi celles étudiées dans ce sujet, et en argumentant
vos conclusions et résultats, il vous est demandé de répondre aux questions suivantes :
La consommation de carburant est elle signicativement réduite lorsque le système ecoDriver
est utilisé ?
Quels sont les facteurs (qualitatifs et quantitatifs) ayant un lien signicatif avec la consommation de carburant ?
Proposer un modèle linéaire parcimonieux permettant de prédire la consommation de carburant
sur ce trajet, en fonction des indicateurs mesurés.
L'usage du système entraîne t'il une modication signicative de la vitesse moyenne ? du nombre
de changements de rapports de boîte ? de l'usage du frein moteur ? de la durée des excès de
vitesse ?
Le temps passé à l'arrêt a t'il une inuence sur la consommation de carburant ?
En regardant les règles d'or de l'écoconduite (cf par exemple :
http://www.ecoconduite.org/),
est il raisonnable de dire que ces règles de conduite sont mieux appliquées lorsque les conducteurs
utilisent le système ecoDriver ? Argumentez.