TD2 : Analyse Typologique

TD2 : Analyse Typologique
M1 IDS DIS, S2 2014-2015
1
Distances
Démontrer que les applications suivantes sont des distances (métriques) sur Rp :
d(x, y) =
p
X
|xi − yi |
(Manhattan)
i=1
d(x, y) =
v
u p
uX
t (x
i
− yi )2
(Euclidienne)
i=1
d(x, y) = max |xi − yi |
(Chebyshev)
1≤i≤p
2
Mesures de similarité entre vecteurs binaires
Soient x, y deux vecteurs binaires de dimension p, i. e. x, y ∈ {0, 1}p .
On défini les quantités suivantes
a=
b=
c=
d=
p
X
(Concordance des positifs)
xj y j
j=1
p
X
xj (1 − yj )
(Nb. de X positifs & Y négatif)
(1 − xj )yj
(Nb. de X négatif & Y positifs)
j=1
p
X
j=1
p
X
(1 − xj )(1 − yj )
(Concordance des negatifs)
j=1
Écrivez une fonction en R pour chacune des similarités ci-dessous.
a
a+b+c
2a
Sdic (x, y) =
2a + b + c
Sjac (x, y) =
3
(Jaccard)
(Dice)
Données catégorielles
Nous utiliserons l’ensemble de données Mushroom à télécharger depuis le UCI Machine Learning
Repository.
(i) Téléchargez les données et les charger dans R.
1
(ii) Identifiez le nombre de variables, la nature de chaque variable et la présence de valeurs
manquantes.
Désormais travaillez uniquement avec les premiers 5 variables du jeu de données.
(iii) Transformez les variables catégorielles en variables binaires.
(iv) Utilisez la similarité de Jaccard pour obtenir une matrice de similarité.
(v) Installez le package proxy et utilisez la fonction simil pour vérifier vos calculs.
Exercices additionnelles
Distances (difficile)
Démontrer que les application suivantes sont des distances (métriques)
Hamming d(x, y) =
Pp
i=1
1xi 6=yi avec x, y ∈ Np .
Minkowski Pour tout r ≥ 1 (y compris r = ∞):
dr (x, y) =
p
X
!1/r
r
|xi − yi |
,
x, y ∈ Rp
i=1
Observez que pour r = 1 on a la distance de Manhattan, pour r = 2 la Euclidienne et
pour r = ∞ la de Chebyshev. Astuce: Utiliser l’inégalité de Minkowski.
Mesures de similarité entre vecteurs binaires
Écrivez une fonction en R pour chacune des similarités ci-dessous.
a
Soch (x, y) = q
(a + b)(a + c
1
a
a
Skul (x, y) =
+
2 a+b a+b
a+d
Ssok (x, y) =
a+b+c+d
(Ochiai)
(Kulczynski)
(Sokal-Michener)
Vous pouvez aussi examiner toutes les similarités et distances du package proxy (voir ce
lien)
Données catégorielles
Répétez l’exercice avec les données Mushroom maintenant avec le jeu de données complet. Faites
attention aux données manquantes.
2