Besedilo - UNM | Univerzitetni prostor Novo mesto

FAKULTETA ZA INFORMACIJSKE ŠTUDIJE
V NOVEM MESTU
DOKTORSKA DISERTACIJA
ANDREJ KASTRIN
FAKULTETA ZA INFORMACIJSKE ŠTUDIJE
V NOVEM MESTU
DOKTORSKA DISERTACIJA
ˇ
UVRŠCANJE
IN DISKRETIZACIJA
MNOGORAZSEŽNIH MIKROMREŽNIH
DNA-PODATKOVIJ
Mentor: izr. prof. dr. Janez Povh
Novo mesto, junij 2015
Andrej Kastrin
Izjava o avtorstvu
Podpisani Andrej Kastrin, študent Fakultete za informacijske študije v Novem mestu,
izjavljam:
• da sem doktorsko disertacijo pripravil samostojno na podlagi virov, ki so navedeni
v doktorski disertaciji,
• da dovoljujem objavo doktorske disertacije v polnem tekstu, v prostem dostopu,
na spletni strani Fakultete za informacijske študije v Novem mestu oz. v digitalni
knjižnici,
• da je doktorska disertacija, ki sem jo oddal v elektronski obliki, enaka tiskani
razliˇcici,
• da je doktorska disertacija lektorirana.
V Novem mestu, 2. junija 2015
iv
Andrej Kastrin
Moji zdravnici, ge. Dragici Resman. Brez nje bi ne bilo niti
mene niti te doktorske naloge. Hvala za vse.
vi
Povzetek
Tehnologija DNA-mikromrež je danes dostopna v vsakem bolje opremljenem biomedicinskem laboratoriju. Kljub dovršenosti postopkov je statistiˇcna analiza mikromrežnih
DNA-podatkovij za statistika še zmeraj velik izziv. Mikromrežno podatkovje opišemo z
matriko razsežnosti n × p, kjer se vrstice matrike nanašajo na posamezne primere, stolpci
pa na prouˇcevane gene. Velja, da je n << p. Na osnovi analize geometrijskih lastnosti
mnogorazsežnih podatkovnih objektov lahko pokažemo, da je v tem primeru podatkovni
prostor zelo redek. Fenomenu praznega prostora se poskušamo izogniti z uporabo metod
za krˇcenje podatkovne strukture. Empiriˇcna evidenca razkriva, da na podroˇcju statistiˇcne
analize mikromrežnih DNA-podatkovij sistematiˇcna raziskava, ki bi prouˇcevala vpliv
metod za krˇcenje podatkovnih struktur, še ni bila opravljena. Prav tako ostaja odprto
vprašanje smiselnosti diskretizacije mikromrežnih podatkov. V doktorski nalogi smo
obravnavali tri problemske naloge. V prvem sklopu eksperimentov smo prouˇcili kakovost razliˇcnih klasifikatorjev v nalogi uvršˇcanja primerov v dva vnaprej podana razreda.
Uporabili smo nekatere najpogosteje uporabljene metode, kot so nevronske mreže, metoda najbližjih sosedov, klasifikacijska drevesa s sluˇcajnimi gozdovi, metoda podpornih
vektorjev, logistiˇcna regresija s kaznijo ter tri izpeljanke linearne diskriminantne analize
(Fisherjeva, klasiˇcna in diagonalna). V drugi problemski nalogi smo analizirali vpliv
metod za krˇcenje števila razsežnosti na uvršˇcanje. Podrobno smo prouˇcili vpliv analize
glavnih komponent in metode delnih najmanjših kvadratov na kakovost uvršˇcanja. V
tretjem sklopu smo se ukvarjali s prouˇcevanjem vpliva diskretizacije neodvisnih spremenljivk na uvršˇcanje. V analizo smo vkljuˇcili nekatere najpogosteje uporabljene algoritme
diskretizacije, kot so metode enake širine intervalov, enake zastopanosti intervalov, 1R,
MDLP in ChiMerge. Eksperimente smo izvedli nad 37 realnimi DNA-podatkovji. Vpliv
metode uvršˇcanja in izbire spremenljivk smo ovrednotili tudi nad sintetiˇcnimi podatki.
Izbor parametrov uvršˇcanja in ovrednotenje kakovosti uvršˇcanja smo opravili po shemi
preˇcnega preverjanja. Kakovost smo izrazili s štirimi merami: toˇcnostjo uvršˇcanja, obˇcutljivostjo, specifiˇcnostjo in plošˇcino pod ROC-krivuljo. Pri uvršˇcanju realnih mikromrežnih
podatkovij se najbolje odreže logistiˇcna regresija s kaznijo, najslabše pa nevronske mreže.
Nad sintetiˇcnimi podatkovji po kakovosti izstopa metoda podpornih vektorjev. Med
metodama krˇcenja podatkovne matrike glede na kakovost uvršˇcanja ni statistiˇcno znaˇcilnih razlik (z izjemo plošˇcine pod ROC-krivuljo). Med metodami diskretizacije se glede
na uvršˇcanje najbolje odrežeta metodi MDLP in ChiMerge. Po našem védenju in dostopni empiriˇcni evidenci gre za prvo raziskavo na tako velikem številu mikromrežnih
podatkovij.
Kljuˇcne besede: raˇcunska statistika, biostatistika, bioinformatika, strojno uˇcenje, analiza
DNA-mikromrež, uvršˇcanje podatkov, diskretizacija spremenljivk
vii
viii
Abstract
High-throughput DNA microarray technology is nowadays available in any modern
biomedical laboratory. Despite the sophistication of the microarray technology, a state-ofthe-art statistical analysis of microarray data is still a great challenge. Microarray dataset
could be described by a matrix with n rows and p columns, where the former refer to
individual samples, and the later to the particular genes. It is assumed that n « p. Based on
a topological analysis of the geometrical properties of the high-dimensional data objects
we can show, that in this case the data space is very sparse. The empty-space phenomenon
can be effectively managed using various dimensionality reduction techniques. The
empirical evidence reveals that systematic evaluation that examined the behavior of
different dimensionality reduction methods on the microarray data has not yet been
performed. Moreover, the question of the usefulness of discretization of microarray data
still remains unanswered. In this thesis, we discussed three different problem tasks. In the
first set of experiments, we systematically studied the performance of various classifiers in
a standard classification task with two pre-defined classes. We used a bundle of state-ofthe-art classifiers, including neural networks, nearest neighbors, classification trees with
random forests, support vector machines, penalized logistic regression, and three variants
of linear discriminant analysis (Fisher, classical and diagonal). In the second experiment,
we analyzed the effect of dimensionality reduction on the classification performance; in
particular we examine principal component analysis and partial least squares. In the third
experiment we studied the effect of data discretization on classification performance. The
analysis included some of the most commonly used discretization algorithms, including
equal width and equal frequency discretization, 1R, MDLP, and ChiMerge. Experiments
were carried out on a set of 37 real DNA microarray datasets. Effect of classification
method and variable selection procedure was evaluated on synthetic data as well. Learning
parameters and performance measures were evaluated using the cross-validation scheme.
The classification results were represented by standard performance measures including
classification accuracy, sensitivity, specificity, and area of the ROC curve. Results showed
best classification performance with penalized logistic regression for real datasets and
support vector machines for synthetic data. Neural networks perform worst in both
settings. Principal component analysis and partial least squares did not show statistically
significant differences according to classification performance (with the exception of
the area under the ROC curve). Among discretization methods the best classification
performance was achieved using the MDLP and ChiMerge algorithms. To the best of our
knowledge and according to available empirical evidence this is the first study on such
large number of microarray datasets.
Keywords: computational statistics, biostatistics, bioinformatics, machine learning, DNA
microarray analysis, data classification, data discretization
ix
x
Predgovor
Nemogoˇce si je predstavljati
štirirazsežni prostor. Sam imam težave
že s predstavami v treh razsežnostih.
Stephen Hawking
Uvedba tehnologije DNA-mikromrež je v zadnjih dveh desetletjih pomembno zaznamovala statistiˇcno znanost. Zlasti pomembno se zdi prepriˇcanje veˇcine raziskovalcev, da
je statistika neloˇcljivo povezana s celotnim postopkom naˇcrtovanja, priprave, analize in
interpretacije mikromrežnih podatkov. Zdi se, da je statistika ravno v navezi z znanostmi
o življenju našla svojo potrditev kot prava znanstvena disciplina.
S tehnologijo mikromrež je neloˇcljivo povezana problematika analize mnogorazsežnih
podatkovij. Po pravilu imamo opraviti s podatkovnimi tabelami, ki po stolpcih združujejo
nekaj 10 000 genov, po vrsticah pa le nekaj desetin primerov. Pomembnost tematike
ilustrira ena od najvplivnejših monografij s podroˇcja statistiˇcnega uˇcenja – The Elements of
Statistical Learning (Hastie, Tibshirani & Friedman, 2011) – ki v svoji drugi izdaji vkljuˇcuje
tudi obširno poglavje o analizi mnogorazsežnih podatkov.
Pomembno vlogo v biomedicinski praksi ima problem uvrstitve vzorca v ustrezen razred.
V primeru mikromrež bi to npr. pomenilo, da znamo pravilno napovedati, ali profil
meritev veˇcjega števila genov ustreza skupini pacientov s parkinsonovo boleznijo ali
kontrolni skupini z zdravimi posamezniki. V nalogi, ki je pred vami, raziskujemo vedenje
razliˇcnih klasifikatorjev v problemski nalogi uvršˇcanja primerov v dva vnaprej podana
razreda. Posebej nas zanima kakovost uvršˇcanja ob hkratni uporabi metod za krˇcenje
mnogorazsežnih podatkov. Dodatno prouˇcimo tudi vpliv diskretizacije zveznih spremenljivk na uvršˇcanje. Po našem védenju in dostopni empiriˇcni evidenci tovrstna raziskava
na vzorcu, ki bi zagotavljal ustrezno posplošljivost rezultatov, še ni bila opravljena. To
vrzel poskušamo zapolniti s tem delom.
Hvala prof. dr. Borutu Peterlinu za koristne napotke ob mojih prvih korakih v znanosti.
Hvala Janezu, ker je prevzel mentorstvo, verjel vame in me spodbujal. Hvala asist. dr. Lanu
Umku za skrben strokovni pregled. Hvala Marjani Miškoviˇc za pomoˇc pri organizacijskih
zadevah in Katji Paladin za lektorski pregled. Hvala Jožefu Kocipru, Dragici Resman
in Nerini Battelli za pomoˇc, vztrajnost ter toplo besedo. Hvala Mitku za konstruktivne
pogovore po Skypu. Hvala Mojci za ponovni zagon sistema in otrokom za dolgo cˇ akanje.
Ljubljana, junij 2015
Avtor
xi
Kazalo
1 Uvod
1.1 Sistemska biologija . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Tehnologija DNA-mikromrež . . . . . . . . . . . . . . . . . . . . . . .
1.3 Statistiˇcno ozadje analize podatkov z DNA-mikromrež . . . . . . . .
1.3.1 Eksperimentalni naˇcrt . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Analiza slike izraženosti . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Predpriprava podatkov . . . . . . . . . . . . . . . . . . . . . .
1.3.4 Analiza podatkov . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.5 Interpretacija rezultatov . . . . . . . . . . . . . . . . . . . . . .
1.4 Motivacija in opis problema . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Raziskovalna vprašanja . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Vpliv klasifikatorja in izbire spremenljivk na uvršˇcanje . . . .
1.5.2 Vpliv metod za krˇcenje razsežnosti podatkovja na uvršˇcanje .
1.5.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje . . . .
1.6 Notacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
4
5
6
8
10
10
15
16
17
17
17
2 Mnogorazsežna podatkovja
2.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Mnogorazsežni podatkovni prostor . . . . . . . . . . . . . . . . . . . . .
2.3 Fenomen praznega prostora . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Geometrijske lastnosti mnogorazsežnega prostora . . . . . . . . . . . . .
2.4.1 Hiperkocka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 Hipersfera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3 Razmerje med prostorninama hipersfere in hiperkocke . . . . . .
2.4.4 Prostornina tanke lupine . . . . . . . . . . . . . . . . . . . . . . .
2.4.5 Diagonale hiperprostora . . . . . . . . . . . . . . . . . . . . . . . .
2.4.6 Robna gostota verjetnosti pri veˇcrazsežni normalni porazdelitvi
2.4.7 Norme in razdalje . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
20
21
22
23
25
26
27
29
30
31
3 Izbira spremenljivk
3.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Relevantnost in redundantnost spremenljivk . . . . .
3.2.1 Relevantnost . . . . . . . . . . . . . . . . . . . .
3.2.2 Redundantnost . . . . . . . . . . . . . . . . . .
3.3 Optimalna podmnožica spremenljivk . . . . . . . . .
3.4 Pregled postopkov za optimalno izbiro spremenljivk
3.4.1 Filtracijske metode . . . . . . . . . . . . . . . .
3.4.2 Ovojne metode . . . . . . . . . . . . . . . . . .
3.4.3 Vgrajene metode . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
35
36
36
37
39
40
41
41
42
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xiii
Kazalo
3.5
3.6
3.7
Mere za vrednotenje podmnožice izbranih spremenljivk . . . . . . . . . .
3.5.1 Mere za vrednotenje podmnožice izbranih spremenljivk, ki temeljijo
na splošnih lastnostih podatkovne tabele . . . . . . . . . . . . . . .
3.5.2 Mere za vrednotenje podmnožice izbranih spremenljivk, ki temeljijo
na klasifikacijskem pravilu . . . . . . . . . . . . . . . . . . . . . . .
Algoritmi za iskanje optimalne podmnožice spremenljivk . . . . . . . . .
3.6.1 Popolno iskanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.2 Zaporedno iskanje . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.3 Sluˇcajno iskanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Stabilnost postopkov za izbiro spremenljivk . . . . . . . . . . . . . . . . .
4 Sestavljanje spremenljivk
4.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Latentne spremenljivke . . . . . . . . . . . . . . . . . . .
4.3 Intrinziˇcna razsežnost podatkovne tabele . . . . . . . .
4.4 Pregled postopkov za doloˇcanje intrinziˇcne razsežnosti
4.4.1 Lokalne cenilke . . . . . . . . . . . . . . . . . . .
4.4.2 Globalne cenilke . . . . . . . . . . . . . . . . . .
4.5 Pregled metod za sestavljanje spremenljivk . . . . . . .
4.5.1 Analiza glavnih komponent . . . . . . . . . . . .
4.5.2 Veˇcrazsežno lestviˇcenje . . . . . . . . . . . . . .
4.5.3 Delni najmanjši kvadrati . . . . . . . . . . . . . .
4.5.4 Fisherjeva diskriminantna analiza . . . . . . . .
. 43
. 43
.
.
.
.
.
.
45
45
45
47
48
48
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
51
54
55
56
58
60
60
62
65
67
5 Uvrščanje podatkov
5.1 Formalna predstavitev problema uvršˇcanja . . . . . . . . . . .
5.1.1 Statistiˇcna teorija odloˇcanja . . . . . . . . . . . . . . . .
5.2 Pregled metod uvršˇcanja . . . . . . . . . . . . . . . . . . . . . .
5.2.1 Bayesov klasifikator . . . . . . . . . . . . . . . . . . . .
5.2.2 Metoda najbližjega soseda . . . . . . . . . . . . . . . . .
5.2.3 Linearna diskriminantna analiza . . . . . . . . . . . . .
5.2.4 Nevronske mreže . . . . . . . . . . . . . . . . . . . . . .
5.2.5 Odloˇcitvena drevesa . . . . . . . . . . . . . . . . . . . .
5.2.6 Metoda podpornih vektorjev . . . . . . . . . . . . . . .
5.2.7 Metoda najbližjih skrˇcenih centroidov . . . . . . . . . .
5.2.8 Logistiˇcna regresija . . . . . . . . . . . . . . . . . . . . .
5.3 Ocenjevanje kakovosti uvršˇcanja . . . . . . . . . . . . . . . . .
5.3.1 Napaka posplošitve . . . . . . . . . . . . . . . . . . . .
5.3.2 Pristranost in razpršenost uvršˇcanja . . . . . . . . . . .
5.3.3 Pregled mer kakovosti uvršˇcanja . . . . . . . . . . . . .
5.3.4 Pregled postopkov za ocenjevanje kakovosti uvršˇcanja
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
71
71
73
73
77
78
80
82
86
91
92
94
94
95
97
100
6 Diskretizacija zveznih spremenljivk
6.1 Uvod . . . . . . . . . . . . . . .
6.2 Tipi spremenljivk . . . . . . . .
6.3 Opredelitev diskretizacije . . .
6.3.1 Prednosti diskretizacije
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
103
103
103
104
104
xiv
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kazalo
6.4
6.5
6.6
Lastnosti metod diskretizacije . . . . . . . . . . . . . .
Postopek diskretizacije . . . . . . . . . . . . . . . . . .
6.5.1 Kriteriji za primerjanje metod diskretizacije .
Pregled metod za diskretizacijo zveznih spremenljivk
6.6.1 Metode cepitve . . . . . . . . . . . . . . . . . .
6.6.2 Metode združevanja . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Metoda
7.1 Podatki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1.1 Realni podatki . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1.2 Sintetiˇcni podatki . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja
uvršˇcanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Eksperimentalni naˇcrt . . . . . . . . . . . . . . . . . . . . . . . .
7.2.2 Postopek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Vpliv metod za krˇcenje razsežnosti podatkovja na uvršˇcanje . . . . . .
7.3.1 Eksperimentalni naˇcrt . . . . . . . . . . . . . . . . . . . . . . . .
7.3.2 Postopek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje . . . . . . . . .
7.4.1 Eksperimentalni naˇcrt . . . . . . . . . . . . . . . . . . . . . . . .
7.4.2 Postopek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
. .
na
. .
. .
. .
. .
. .
. .
. .
. .
. .
8 Rezultati
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na
uvršˇcanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.1.1 Realni podatki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.1.2 Sintetiˇcni podatki . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje . . . .
8.2.1 Izbira spremenljivk z uporabo statistiˇcnih testov . . . . . . . . . . .
8.2.2 Sluˇcajna izbira spremenljivk . . . . . . . . . . . . . . . . . . . . . .
8.2.3 Ovrednotenje uˇcinka metode krˇcenja razsežnosti, metode uvršˇcanja
in metode izbire spremenljivk na uvršˇcanje . . . . . . . . . . . . . .
8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje . . . . . . . . . . .
8.3.1 Pregled mer natanˇcnosti uvršˇcanja . . . . . . . . . . . . . . . . . . .
8.3.2 Ovrednotenje uˇcinka metode diskretizacije in metode uvršˇcanja na
uvršˇcanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9 Razprava
9.1 Povzetek rezultatov . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.1.1 Vpliv metode uvršˇcanja in izbire spremenljivk na uvršˇcanje .
9.1.2 Vpliv metod za krˇcenje razsežnosti podatkovja na uvršˇcanje .
9.1.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje . . . .
9.2 Primerjava rezultatov z obstojeˇco empiriˇcno evidenco . . . . . . . . .
9.2.1 Vpliv metode uvršˇcanja in izbire spremenljivk na uvršˇcanje .
9.2.2 Vpliv metod za krˇcenje razsežnosti podatkovja na uvršˇcanje .
9.2.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
105
106
108
109
109
115
119
. 119
. 119
. 119
.
.
.
.
.
.
.
.
.
122
122
125
126
126
127
129
129
131
133
.
.
.
.
.
.
133
133
143
165
165
172
. 173
. 175
. 175
. 179
.
.
.
.
.
.
.
.
189
189
189
190
191
191
191
193
194
xv
Kazalo
9.3
9.4
9.5
9.6
Splošna razprava . . . . . . . . . . . . . . . . . . . . .
9.3.1 Naˇcrtna optimizacija rezultatov . . . . . . . .
9.3.2 Problem interpretacije latentnih spremenljivk
9.3.3 Diskretizacija mikromrežnih DNA-podatkov .
9.3.4 Priporoˇcila raziskovalcem . . . . . . . . . . . .
Omejitve raziskave . . . . . . . . . . . . . . . . . . . .
Predlogi za nadaljnje delo . . . . . . . . . . . . . . . .
Zakljuˇcki . . . . . . . . . . . . . . . . . . . . . . . . . .
Literatura
xvi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
195
196
196
197
198
200
201
203
205
1 Uvod
Sodobna podatkovna analitika na podroˇcju genskih mikromrež zahteva vsaj bežen vpogled v tiste faze raziskovalnega postopka, ki se ukvarjajo neposredno z biološkim materialom. V našem primeru bomo to znanje potrebovali, da bomo lažje razumeli posebnosti
in omejitve, ki jih pred nas postavlja rudarjenje po bioloških podatkih. V tem razdelku
zato naredimo kratek uvod v tehnologijo DNA-mikromrež in opredelimo osnovne pojme.
1.1 Sistemska biologija
Sistemska biologija je znanstvena paradigma z dolgo preteklostjo, a kratko zgodovino.
Prvo resno sreˇcanje s sistemsko epistemologijo je biologija doživela z Wienerjevo (1965)
kibernetiko in Bertalanffyjevo (1969) splošno sistemsko teorijo. V zadnjem desetletju
je sistemska biologija doživela skokovit in nesluten razvoj. Gre za interdisciplinarno
znanstveno podroˇcje, pod okriljem katerega se raziskovalci ukvarjajo s prouˇcevanjem
strukturnih lastnosti, dinamike procesov in kompleksnih interakcij v bioloških sistemih
(Ideker, Galitski & Hood, 2001). V nasprotju z redukcionistiˇcnim pristopom, ki je v
biologiji prevladoval do nedavnega, poskuša sistemska biologija lastnosti in delovanje
celic, tkiv ali organizmov razumeti v jeziku sistemskega pristopa, v katerem je celota veˇc
kot le vsota njenih delov. Za kompleksno razumevanje živega sistema je treba poznati
vsaj štiri njegove komponente (Kitano, 2002): (i) strukturo, (ii) dinamiko (iii) kontrolne in
(iv) razvojne mehanizme.
Pomemben cilj sistemske biologije je premostitev razkoraka med koliˇcino zbranih informacij ter koliˇcino znanstvenega védenja, pridobljenega na osnovi teh informacij. Ta
ˇ
razkorak lahko ponazorimo na primeru odmevnega projekta Cloveški
genom, v okviru
katerega so raziskovalci že leta 2001 prebrali celotno zaporedje baznih parov cˇ lovekovega
genoma in s tem pridobili ogromno koliˇcino informacij. Vsem naporom navkljub pa so
od približno 40 000 cˇ loveških genov funkcijo doloˇcili le v dobri polovici primerov, kar je v
primerjavi s koliˇcino informacij razmeroma majhna koliˇcina znanja.
Sistemska biologija združuje številna znanstvena podroˇcja (t. i. omike), med katerimi so
nekatera že zelo uveljavljena (kot so npr. fenomika, genomika, transkriptomika, metabolomika), nekatera pa šele porajajoˇca se (npr. semiomika) (Hoheisel, 2006; Metzker, 2010;
Nicholson & Lindon, 2008; Nilsson in sod., 2010). V sistemski biologiji je zelo pomembna
tudi vloga bioinformatike in statistike (Henry, Bandrowski, Pepin, Gonzalez & Desfeux,
2014). Slednja je v zadnjem desetletju, predvsem na raˇcun intenzivnega interdisciplinarnega sodelovanja, moˇcno oplemenitila svojo zakladnico raˇcunskih postopkov ter utrdila
svojo vlogo kot samostojna znanost.
1
1 Uvod
Frekvenca
6000
4000
2000
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
0
Leto
Slika 1.1: Zastopanost MeSH-deskriptorja “Oligonucleotide Array Sequence Analysis”
v bibliografski zbirki PubMed. Frekvenco bibliografskih zapisov za posamezno leto smo pridobili z iskalno zahtevo “Oligonucleotide Array Sequence
Analysis[MH]”.
1.2 Tehnologija DNA-mikromrež
Transkriptomika se je med vsemi omikami razvijala najhitreje. Ukvarja se s prouˇcevanjem
izraženosti posameznih genov (Dopazo, 2014; Hoheisel, 2006). Gensko izražanje je proces, v katerem se informacija iz gena uporabi za sintezo genskega proizvoda (obiˇcajno
proteina). Koliˇcina sporoˇcilne RNA (mRNA) kot genskega produkta je sorazmerna koliˇcini proteina, ki ga kodira mRNA, oz. je sorazmerna stopnji izraženosti posameznega
gena (Dr˘aghici, 2012; Rueda & Ali, 2014). To je osnovna predpostavka, na kateri temelji
tehnologija DNA-mikromrež.
Do razkritja strukture cˇ loveškega genoma je bila veˇcina raziskav usmerjena v prouˇcevanje posameznih genov in drugih bioloških oznaˇcevalcev. Klasiˇcne metode prouˇcevanja
izraženosti genov (npr. verižna reakcija s polimerazo) so omogoˇcale le spremljanje enega
ali manjše množice izbranih genov v razliˇcnih eksperimentalnih pogojih (npr. med testno in kontrolno skupino, v razliˇcnih cˇ asovnih rezinah, v izbranih fizioloških pogojih).
Tak pristop ni prinesel pomembnih rezultatov pri raziskavah, ki so poskušale opisati
molekulske osnove kompleksnejših bioloških fenomenov, fizioloških stanj in patologij
(Komel, 2005). Do paradigmatskega preskoka je prišlo s pojavom DNA-mikromrež, s
katerimi lahko spremljamo izraženost nekaj tisoˇc genov hkrati (Stumpf, Balding & Girolami, 2011). Tehnologija DNA-mikromrež je na široko odprla vrata v razumevanje
vloge genov in prepletenosti njihovega delovanja. DNA-mikromreže so najbližje ideji
sistemske biologije o kompleksnem prouˇcevanju živih sistemov. Kot indikator pogostosti
uporabe DNA-mikromrež na podroˇcju biomedicine je na sliki 1.1 prikazana zastopanost
MeSH-descriptorja “Oligonucleotide Array Sequence Analysis” v bibliografski zbirki
MEDLINE med letoma 1998 in 2012.
DNA-mikromreža je matrika toˇck, ki so nanesene na trdo podlago (steklo, plastiko,
najlonsko ali nitrocelulozno membrano) v velikosti objektnega stekla. Velikost posamezne
toˇcke v premeru obiˇcajno ne presega 200 µm. Položaj toˇcke na mikromreži je natanˇcno
doloˇcen. Na podlagi je lahko od nekaj 100 do 50 000 toˇck, na katere so naneseni lovilci
2
1.3 Statistiˇcno ozadje analize podatkov z DNA-mikromrež
(sonde) za posamezne gene. Vsaka toˇcka ponazarja en gen oz. specifiˇcno zaporedje
nukleotidov molekule DNA (Dr˘aghici, 2012; Rueda & Ali, 2014). Toˇcka lahko vsebuje
do milijon enakih lovilcev za specifiˇcen gen. Lovilec je sestavljen iz veˇc 10 do nekaj 100
nukleotidov dolgega zaporedja enoverižne DNA, ki ustreza zaporedju v doloˇcenem genu.
Pripravljeno mikromrežo izpostavimo fluorescentno ali radioaktivno oznaˇceni preizkusni
snovi, ki jo pripravimo iz preiskovanih celic. Tarˇcno cDNA, ki jo uporabimo za hibridizacijo mikromreže, pripravimo s pomoˇcjo reverzne transkriptaze na osnovi mRNA, ki smo
jo pridobili iz vzorca celic (Dr˘aghici, 2012). Med procesom hibridizacije se nukleotidno
zaporedje lovilca in cDNA ustreznega gena spleteta v dvoverižno DNA. Postopek hibridizacije temelji na komplementarnem parjenju baz A-T in G-C po modelu Watsona in
Cricka. Hibridizacijski signal na doloˇcenem mestu mikromreže doloˇca identiteto nukleotidnega zaporedja, velikost signala pa je merilo za koliˇcino izraženega genskega produkta.
Hibridizacijski signal odˇcitamo z veˇclaserskim optiˇcnim cˇ italcem. Rezultat odˇcitavanja je
raˇcunalniška slika, kjer intenziteta slikovnih pik ponazarja jakost hibridizacijskega signala
(Juvan & Rozman, 2006).1
Mikromreže so razliˇcnih vrst. Razlikujejo se po naˇcinu izdelave, vrsti podlage, glede na
vrsto nanesene nukleinske kisline ter število genov, ki jih lahko analiziramo. Mikromreža
je lahko sestavljena iz kratkih, oligonukleotidnih lovilcev ali pa iz daljših nukleotidnih
zaporedij (cDNA). Kratek lovilec je sintetiˇcen oligonukleotid, ki je dolg od 25 do 70
nukleotidov. Daljši cDNA-lovilec je dolg okoli 300 nukleotidov in ga pripravimo z metodo
verižne reakcije s polimerazo v realnem cˇ asu iz tkivne RNA oz. ga pripravimo iz zbirke
cDNA. Po naˇcinu nanosa lovilcev loˇcimo med dvema vrstama mikromrež. Prviˇc, lovilci so
lahko naneseni s pomoˇcjo robota s tehnologijo inkjet. Ta tehnologija omogoˇca nanos toˇck
v velikosti okoli desetinke milimetra. Na ta naˇcin nanašamo cDNA- oz. oligonukleotidne
lovilce, najpogosteje na objektna stekelca. Drugi naˇcin nanosa lovilcev je s postopkom
fotolitografije, ki omogoˇca sintezo oligonukleotidnih lovilcev neposredno na podlagi
(sinteza in situ). V tem primeru so toˇcke veliko manjše (okoli stotinke milimetra). Glede
na število toˇck loˇcimo med nizko- in visokogostotnimi mikromrežami. Nizkogostotne
mikromreže imajo nekaj 100 toˇck, visokogostotne pa veˇc 10 000 oz. lahko vsebujejo
lovilce za celotni genom. Po vrsti nukleinske kisline v preiskovanem vzorcu loˇcimo
med genomskimi in ekspresijskimi mikromrežami. Prve vsebujejo lovilce za kodirajoˇce
in nekodirajoˇce odseke DNA, namenjene pa so predvsem analizi kromosomske slike.
Ekspresijske mikromreže pa nosijo lovilce le za kodirajoˇce odseke DNA (Debeljak, 2007;
Dr˘aghici, 2012).
1.3 Statistično ozadje analize podatkov z DNA-mikromrež
V klasiˇcnem poskusu z DNA-mikromrežami posredno merimo izraženost genov na
osnovi koliˇcine mRNA v doloˇcenem tkivu. Tipiˇcna raziskovalna vprašanja, na katera
poskušamo dobiti odgovore z analizo DNA-mikromrež, so npr. (Kelmansky, 2013): (i) kako
se izražanje genov razlikuje v razliˇcnih tipih celic, (ii) kakšne so razlike v izraženosti
1 Zaradi
nazornosti je opisan le splošni postopek priprave in uporabe DNA-mikromrež. Tehnologije se med
proizvajalci mikromrež (npr. Affymetrix, Illumina, Agilent) zelo razlikujejo. Podroben opis postopkov bo
bralec našel v Dr˘aghici (2012).
3
1 Uvod
med zdravo in bolezensko spremenjeno celico, (iii) kako se izraženost genov spreminja v
odvisnosti od naˇcina terapije, (iv) kako se izraženost spreminja z razvojem organizma in
diferenciacijo celic, (v) kateri geni so pomembni za regulacijo patoloških procesov v celici
itd.
Potek poskusa z DNA-mikromrežami razdelimo v naslednje korake (Dr˘aghici, 2012):
(i) postavitev ciljev raziskave, (ii) statistiˇcni naˇcrt poskusa, (iii) naˇcrt in priprava mikromrež, (iv) hibridizacija in zajem slik izraženosti, (v) analiza slik izraženosti, (vi) priprava
matrike podatkov, (vii) predpriprava podatkov, (viii) analiza podatkov ter (ix) interpretacija rezultatov. Znanje statistike ima pomembno vlogo v vseh korakih, z izjemo toˇck (iii)
in (iv), ki se nanašata na delo z biološkim materialom. V nadaljevanju podajamo zgošˇcen
pregled tistih korakov poskusa, ki so za statistika najbolj pomembni.
1.3.1 Eksperimentalni načrt
Ustrezno naˇcrtovanje poskusa je nujni pogoj za uˇcinkovito izvedbo poskusa in uspešno
interpretacijo rezultatov. Gre za enega najbolj kljuˇcnih korakov, ki pa je v praksi pogosto
zanemarjen. Prvi korak naˇcrtovanja poskusa je enoznaˇcna opredelitev raziskovalnih vprašanj ter postavitev raziskovalnih domnev. Izbrati je treba ustrezno tehnologijo postopka,
saj se analiza mikromrež glede na razliˇcne proizvajalce pomembno razlikuje.
Pri naˇcrtovanju poskusa moramo enoznaˇcno opredeliti posamezne tipe spremenljivk.
Medtem ko z doloˇcitvijo odvisnih spremenljivk nimamo težav (obiˇcajno je to nivo izraženosti posameznih genov), je ustrezna identifikacija neodvisnih spremenljivk (faktorjev)
veliko bolj zahtevna. Obiˇcajno je pogojena z naravo raziskovalnega vprašanja, kljub temu
pa je smiselno, da v analizo vkljuˇcimo tudi faktorje, ki s prouˇcevanim problemom niso
neposredno povezani (angl. nuisance factors).
Pri zasnovi eksperimentalnega naˇcrta obiˇcajno upoštevamo tri naˇcela (Dr˘aghici, 2012):
(i) ponovitve (angl. replication), (ii) sluˇcajenje (angl. randomization) ter (iii) bloˇcenje (angl. blocking). Naˇcelo ponovitev raziskovalcu omogoˇca oceno razpršenosti (eksperimentalne napake), ki je nujna za oceno morebitne statistiˇcne znaˇcilnosti v prouˇcevani spremenljivki.
Ponovitve merjenj v analizi DNA-mikromrež lahko nastopajo v razliˇcnih fazah poskusa.
ˇ nas npr. zanima, ali položaj toˇcke na mikromreži vpliva na meritve, bomo posamezno
Ce
toˇcko na mreži predstavili veˇckrat, nato pa z ustreznimi statistiˇcnimi testi preverili, ali
ˇ nas zanimajo razlike med dvema
je uˇcinek položaja dejansko statistiˇcno pomemben. Ce
razliˇcnima vrstama vzorcev (kar je pravzaprav najveˇckrat zastavljeno raziskovalno vprašanje), bomo merjenje ponovili na veˇcjem številu vzorcev v obeh skupinah. Naˇcelo sluˇcajenja
zahteva, da pri faktorjih, ki jih eksperimentalni naˇcrt eksplicitno ne kontrolira (moteˇci
dejavniki), posamezne enote nastopajo sluˇcajno. Za ilustracijo si lahko izberemo naslednji
primer. Denimo, da želimo izmeriti razlike v izraženosti genov med dvema razliˇcnima
skupinama pacientov ter pri tem uporabimo DNA-mikromreže dveh razliˇcnih tipov.
Sluˇcajenje zahteva, da bomo tip mikromreže za posamezno skupino pacientov izbrali po
sluˇcaju, saj v nasprotnem primeru ne moremo loˇciti med razpršenostjo, ki jo povzroˇca
skupina, in razpršenostjo, ki je posledica uporabe dveh razliˇcnih tipov mikromreže. Blocˇ enje predvideva združevanje opazovanih enot v homogene bloke, znotraj katerih so
opazovane enote po moteˇcih faktorjih med seboj podobne.
4
1.3 Statistiˇcno ozadje analize podatkov z DNA-mikromrež
Velika veˇcina mikromrežnih poskusov je zasnovana na preprostem enofaktorskem modelu, v katerem med seboj primerjamo dve skupini (npr. zdrave in bolne posameznike)
oz. veˇc skupin (npr. razliˇcne vrste bolezenskih stanj). V statistiˇcni terminologiji takemu
modelu pravimo naˇcrt s fiksnimi uˇcinki (angl. fixed effect design). Ostali modeli, ki pa
so v analizi DNA-mikromrež manj pogosto uporabljeni, so še sluˇcajnostni bloˇcni naˇcrt
(angl. randomized block design), uravnoteženi nepopolni bloˇcni naˇcrt (angl. balanced incomplete block design), naˇcrt latinskega kvadrata (angl. latin square design) ter faktorski naˇcrt
(angl. factorial design) (Dr˘aghici, 2012).
1.3.2 Analiza slike izraženosti
Digitalna slika je pravokotna mreža, v kateri so vrednosti predstavljene z razliˇcnimi
intenzitetami. Slika ima dva pomembna parametra: loˇcljivost in barvno globino. Vsaka
intenziteta ustreza eni toˇcki na sliki, ki ji pravimo piksel. Loˇcljivost slike je število pikslov
na sliki in jo izrazimo kot zmnožek med številom vrstic in številom stolpcev matrike
(npr. 1024 × 768). Barvna globina je število bitov, ki jih potrebujemo za zapis vrednosti
intenzitete posameznega piksla (Frery & Perciano, 2013). Loˇcljivost cDNA-mikromrež je
obiˇcajno taka, da je premer toˇcke najmanj 10 pikslov, barvna globina pa znaša 16 bitov,
kar omogoˇca, da s pikslom predstavimo 65 536 razliˇcnih intenzitet signala. Zgoraj smo
povedali (gl. razdelek 1.2), da poskušamo v mikromrežnem poskusu doloˇciti izraženost
posameznih genov na osnovi koliˇcine mRNA iz vzorca, ki se hibridizira z naneseno
cDNA na mikromreži. Vsak gen ima na mikromreži toˇcno doloˇceno mesto, zato lahko
na osnovi koliˇcine svetlobe v posameznih toˇckah ocenimo koliˇcino hibridizirane DNA
(Dr˘aghici, 2012). Na sliki 1.2 je prikazana slika izraženosti genov za vzorˇcno cDNAmikromrežo. Analiza slike za cDNA-mreže obiˇcajno2 sledi štirim korakom: (i) lokalizaciji
mreže, (ii) segmentaciji slike, (iii) kvantifikaciji in (iv) nadzoru kakovosti.
Lokalizacija mreže je proces, pri katerem na sliki doloˇcimo posamezne toˇcke mikromreže
(Dr˘aghici, 2012). Toˇcke so pred desetletjem doloˇcali roˇcno, danes pa se to poˇcne s polavtomatskimi oz. avtomatskimi postopki. Pri segmentaciji slike je treba doloˇciti obliko
in lego aktivnega mesta toˇcke ter jo loˇciti od njenega ozadja. Segmentacija se opravi
na osnovi prostorske razporeditve pikslov, na osnovi intenzitet signalov, kombinacije
obeh pristopov ali s pomoˇcjo posebne Mann-Whitneyjeve analize porazdelitve piksov. V
procesu kvantifikacije združimo vrednosti posameznih pikslov, ki se nanašajo na posamezno toˇcko, tako da dobimo enotno numeriˇcno vrednost, s katero predstavimo nivo
izraženosti posameznega gena. Kvantifikacijo je treba opraviti selektivno, saj vanjo ne
smemo zajeti popaˇcenih delov slike; doloˇcena mesta so namreˇc lahko zaradi sluˇcajnih napak v postopku neuporabna. Reprezentativno vrednost toˇcke lahko raˇcunamo na osnovi
preprostih statistik, kot so npr. aritmetiˇcna sredina, mediana ali modus intenzitet signalov,
ali bolj specifiˇcnih mer, kot je npr. prostornina intenzitet signalov. Oceno kvalitete ocenimo
z razmerjem med površino signala in skupno površino toˇcke, pravilnostjo oblike toˇcke,
razmerjem med površino toˇcke in njenim obsegom ali odmaknjenostjo toˇcke od njene
predvidene pozicije na mreži.
2 Proizvajalci
komercialnih DNA-mikromrež (npr. Affymetrix, Ilumina, Agilent) predpisujejo standardizirane
postopke analize slike, ki se od tukaj opisanega v nekaterih podrobnostih razlikujejo. Zaradi nazornosti
podajamo zgolj splošen opis postopka.
5
1 Uvod
Slika 1.2: Slika izraženosti za cDNA-mikromrežo. Toˇcke svetijo v kombinaciji rdeˇce in
zelene barve. Geni, moˇcno izraženi v tkivu “A”, svetijo zeleno, geni v tkivu “B”
pa rdeˇce. Geni, ki so v obeh tkivih izraženi enako, svetijo rumeno.
1.3.3 Predpriprava podatkov
Priprava in analiza DNA-mikromrež je kompleksen postopek, zato se vanj lahko prikradejo razliˇcne sistematiˇcne in sluˇcajne napake, ki prispevajo k popaˇceni oceni prave
vrednosti meritve. Najbrž ni odveˇc opozoriti, da je ocena kvalitete zbranih podatkov
izrednega pomena za nadaljnjo analizo. Že ena sama mikromreža, pri kateri je prišlo do
napak v hibridizaciji, lahko moˇcno prikroji rezultate in popaˇci njihovo interpretacijo. V
laboratoriju obstaja vrsta standardiziranih postopkov, s katerimi preverjamo ustreznost
genskega materiala pred nanosom na mikromrežo. mRNA je zelo neobstojna, zato je treba
hibridizacijo opraviti hitro. Bioconductorjevi (Gentleman in sod., 2004) paketi ponujajo
paleto funkcij, s katerimi hitro preverimo ustreznost surovih podatkov (npr. paket affy).
Obiˇcajno najprej pripravimo pregled porazdelitev intenzitet signalov (npr. s frekvenˇcnimi
poligoni ali okvirji z roˇcaji), s katerim hitro ugotovimo odstopanja od priˇcakovane porazdelitve. Testirane vzorce obiˇcajno vizualno pregledamo s slikami intenzitet signalov
(angl. probe intensity images), na katerih lahko zaznamo morebitne prostorske nepravilnosti. Mikromreže komercialnih proizvajalcev (npr. Affymetrix) imajo posebne kontrolne
toˇcke, ki so namenjene prav kontroli kvalitete in morajo biti med testiranimi vzorci enako
izražene.
Intenzitete signalov so asimetriˇcno porazdeljene, zato obiˇcajno podatke najprej pretvorimo s pomoˇcjo logaritemske transformacije. Logaritemska transformacija je v primeru
ekspresijskih mikromrež tudi z biološkega stališˇca najbolj primerna, saj z njo izravnamo
nesorazmerja v relativnih spremembah v izraženosti genov med posameznimi vzorci
(Dr˘aghici, 2012).
Zaradi tehniˇcnih razlik v protokolih, razliˇcne koliˇcine nanesene mRNA, razliˇcnih nastavitev optiˇcnega cˇ italca in ostalih razlik posameznih mikromrežnih poskusov med
seboj ne moremo neposredno primerjati. Pred nadaljnjo analizo je zato treba podatke
6
1.3 Statistiˇcno ozadje analize podatkov z DNA-mikromrež
●
●
●
●
●
●
s7cy3t2
s7cy5t1
s8cy3t2
s8cy5t1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
s7cy5t1
s8cy3t2
s8cy5t1
●
●
●
●
●
●
●
●
●
●
●
s7cy3t2
●
●
●
●
●
●
●
●
●
●
●
●
s6cy5t1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
s6cy5t1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
s6cy3t2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
s6cy3t2
●
●
●
●
●
●
●
●
●
●
s5cy5t1
s5cy3t2
●
●
●
●
●
●
●
●
●
●
●
●
s5cy5t1
●
●
●
●
●
●
●
●
●
●
s5cy3t2
●
●
●
●
●
●
●
●
●
●
●
s4cy5t2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
s4cy5t2
●
●
●
●
●
●
●
●
●
●
s4cy3t1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
s3cy5t2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
s3cy3t1
●
●
●
●
●
●
●
●
●
●
●
●
●
s2cy5t2
s1cy3t1
3
●
●
●
●
●
●
●
●
●
s2cy3t1
6
s1cy5t2
Vrednost
9
Poskus
(a)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
s2cy3t1
s2cy5t2
s3cy3t1
s3cy5t2
s4cy3t1
2.5
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
s1cy5t2
5.0
s1cy3t1
Vrednost
7.5
Poskus
(b)
Slika 1.3: Normalizacija mikromrežnih podatkov. Razpršenost srednjih vrednosti intenzitet signalov (a) smo zmanjšali z normalizacijo (b). Za prikaz smo uporabili
simulirano podatkovje.
normalizirati. Z normalizacijo odpravimo vpliv sistematiˇcnih napak v postopku. Metode
normalizacije mikromrežnih podatkov lahko razvrstimo v dve skupini (Dr˘aghici, 2012):
(i) metode, ki za normalizacijo uporabljajo referenˇcno mikromrežo, in (ii) metode, ki za
namen normalizacije združijo podatke vseh poskusov. Normalizacija se obiˇcajno nanaša
na celo mikromrežo, lahko pa normaliziramo le del podatkov na mikromreži. Izbira ustrezne normalizacije je pogojena z izbiro tehnologije DNA-mikromrež, s katero izvajamo
poskuse. Posameznih postopkov normalizacije zato tukaj ne navajamo; bralec bo dober
pregled našel v Dr˘aghici (2012). Uˇcinek normalizacije podatkov nad cDNA-mikromrežami
je predstavljen na sliki 1.3.
Podatke z DNA-mikromrež shranimo v podatkovno matriko. Vrstice matrike se nanašajo
na posamezne gene, stolpci pa na prouˇcevane vzorce. Zaradi razliˇcnih sistematiˇcnih ali
nesistematiˇcnih napak lahko nekatere vrednosti v podatkovni matriki manjkajo. Take
vrednosti obiˇcajno nadomestimo s katerim od postopkov za imputacijo podatkov (npr. z
metodo k-najbližjih sosedov).
7
1 Uvod
1.3.4 Analiza podatkov
Analiza podatkov sledi zastavljenemu naˇcrtu raziskave. Statistiˇcno analizo na podroˇcju
DNA-mikromrež lahko razdelimo na tri glavne problemske naloge: (i) identifikacija
bioloških oznaˇcevalcev, kjer gre za iskanje genov, ki so glede na izbrane eksperimentalne
pogoje med seboj razliˇcno izraženi (angl. class comparison); (ii) neusmerjeno odkrivanje
znanja (angl. class discovery), kjer na osnovi podobnosti profilov sestavljamo skupine
podobno izraženih genov in/ali primerov, ter (iii) usmerjeno odkrivanje znanja (angl. class
prediction), kjer posamezne primere uvršˇcamo v vnaprej znane razrede (npr. tipe tumorjev,
razvojne stopnje bolezni).
Najosnovnejše raziskovalno vprašanje, ki ga sreˇcamo dejansko pri vsaki mikromrežni
analizi, se sprašuje po genih, ki so razliˇcno izraženi. Raziskovalec poskuša identificirati
tiste gene, ki se med razliˇcnimi eksperimentalnimi pogoji (npr. med razliˇcnimi bolezenskimi stanji) v nivojih izraženosti kar najbolj razlikujejo. Preprosta in intuitivna mera
razliˇcne izraženosti genov je relativna sprememba (angl. fold change), s katero izrazimo
razmerje v izraženosti genov med dvema eksperimentalnima pogojema. Pomanjkljivost
tega pristopa je arbitrarna doloˇcitev pražne vrednosti. Za doloˇcitev podmnožic genov
pogosto uporabimo tudi parametriˇcne in neparametriˇcne teste za preverjanje statistiˇcnih
domnev, kot jih poznamo v klasiˇcni statistiki (npr. razliˇcne izpeljanke t-testa, modeli
ANOVA, pristop LIMMA (Smyth, 2005) itd.). Pri tem moramo biti pozorni na fenomen
veˇckratnega testiranja in rezultate ustrezno popraviti (npr. z metodo FDR (Benjamini &
Hochberg, 1995) ali SAM (Tusher, Tibshirani & Chu, 2001)).
Poleg klasiˇcnega testiranja statistiˇcnih domnev pri analizi DNA-mikromrež pogosto uporabimo tudi orodja sodobne podatkovne analitike, ki so namenjena odkrivanju skritih
zakonitosti v podatkih (angl. knowledge discovery). Med metodami neusmerjenega odkrivanja zakonitosti je najpogosteje uporabljeno razvršˇcanje v skupine s številnimi izpeljankami
(npr. nehierarhiˇcno in hierarhiˇcno razvršˇcanje, Kohonenove mape (angl. Kohonen maps),
razbijanje okrog medoidov (angl. partitioning around medoids)), kjer na osnovi podobnosti
v izraženosti profilov išˇcemo skupine podobnih genov oz. vzorcev. Na sliki 1.4 je prikazan
primer toplotnega diagrama, v katerem smo posamezne biološke vzorce in gene razvrstili
po podobnosti s pomoˇcjo hierarhiˇcnega razvršˇcanja v skupine. Za namene vizualizacije
se pogosto uporablja tudi analiza glavnih komponent, s katero skrˇcimo prostor vhodnih
spremenljivk; glavne komponente prikažemo v nižjerazsežnem prostoru, ki je miselno
lažje obvladljiv.
Pri usmerjenem odkrivanju znanja poleg vrednosti posameznih spremenljivk poznamo
tudi oznako razreda primerov. Tak tip problemskih nalog je uporaben zlasti za konstrukcijo razliˇcnih diagnostiˇcnih postopkov, kjer poskušamo na osnovi izraženosti množice
ˇ je odvigenov sklepati na odziv odvisne spremenljivke (npr. razvojno stopnjo bolezni). Ce
sna spremenljivka kategorialna, govorimo o nalogi uvršˇcanja oz. klasifikacije (angl. classification), v primeru zvezne odvisne spremenljivke pa o regresijski nalogi. Za konstrukcijo
uˇcnih modelov obiˇcajno uporabimo katerega od standardnih pristopov strojnega uˇcenja
(npr. metoda delnih najmanjših kvadratov, metoda podpornih vektorjev, diskriminantna
analiza, ridge in lasso regresija). Posebno pozornost je treba nameniti shemam uˇcenja, saj
pogosto nimamo na voljo dovolj podatkov za neodvisno preverjanje veljavnosti uˇcnih
8
1.3 Statistiˇcno ozadje analize podatkov z DNA-mikromrež
297392
1469292
236282
193913
868304
68977
236034
435953
725454
283315
897177
1493527
163174
207274
296448
Geni
280507
343867
756556
491692
365515
377468
769959
769716
767495
25725
796613
461425
298062
284001
BL.C6
BL.C2
BL.C3
BL.C1
BL.C8
BL.C7
BL.C5
EWS.C8
EWS.C7
EWS.T9
EWS.C11
EWS.T2
EWS.C6
EWS.C9
EWS.C1
EWS.C4
EWS.C2
EWS.C3
EWS.T19
EWS.T1
EWS.T15
EWS.T6
EWS.T7
EWS.T14
EWS.T12
EWS.T3
EWS.T11
EWS.T4
EWS.T13
EWS.C10
755750
Vzorci
Slika 1.4: Toplotni diagram in hierarhiˇcno razvršˇcanje v skupine na primeru realnih DNAmikromrežnih podatkov (Khan in sod., 2001). Vrstice matrike pomenijo gene,
stolpci pa biološke vzorce.
9
1 Uvod
modelov (Boulesteix, Strobl, Augustin & Daumer, 2008). V zadnjem cˇ asu so zaˇceli raziskovalci intenzivno prouˇcevati uˇcenje nad neuravnoteženimi podatki, saj se pri analizi
DNA-mikromrež mnogokrat znajdemo v situaciji, ko so množice primerov v posameznih
razredih razliˇcno velike (Blagus & Lusa, 2010; Blagus, 2011).
V znanosti se vse bolj uveljavlja paradigma ponovljivega raziskovanja (Laine, Goodman,
Griswold & Sox, 2007; Peng, 2009, 2011). Objavo rezultatov mikromrežnega eksperimenta naj bi zato spremljala objava surovih rezultatov ter programske kode, s katero
so raziskovalci analizirali rezultate. Objavi surovih podatkov so namenjena spletna skladišˇca, med katerimi sta najuglednejši Gene Expression Omnibus (Barrett in sod., 2013)
in ArrayExpress (Rustici in sod., 2013). Združenje za funkcionalno genomiko (FGED) je
pripravilo standard za dokumentiranje mikromrežnega poskusa MIAME ter standarda
za izmenjavo mikromrežnih podatkov MAGE-OM in MAGE-TAB (Brazma in sod., 2001;
Brazma, 2009).
1.3.5 Interpretacija rezultatov
Interpretacija rezultatov DNA-mikromrež je najustvarjalnejši del celotnega mikromrežnega eksperimenta. Rezultate analize moramo ustrezno ovrednotiti ter umestiti v ustrezen biološki oz. biomedicinski kontekst. Zelo priljubljena je integracija rezultatov z
razliˇcnimi biomedicinskimi ontologijami (npr. Gene Ontology) ali zbirko roˇcno narisanih
presnovnih poti (npr. KEGG).
Gene Ontology (Ashburner in sod., 2000) je kontroliran slovar, strukturiran v obliki
usmerjenega acikliˇcnega grafa, ki vsebuje biološke pojme, s katerimi opisujemo funkcije
genov, njihovo celiˇcno lokalizacijo ter interakcije z ostalimi celiˇcnimi komponentami.
Ontologija se v smislu interpretacije mikromrežnih poskusov uporablja za analizo nasicˇ enosti (angl. over-representation analysis) posameznih ontoloških pojmov z geni, ki smo
jih identificirali v poskusu (Dr˘aghici, Khatri, Martins, Ostermeier & Krawetz, 2003). Na
osnovi razlike med dejanskim in priˇcakovanim številom genov po posameznih pojmih
lahko izloˇcimo tiste ontološke pojme, ki so v naši množici genov statistiˇcno znaˇcilno
zastopani. Za analizo nasiˇcenosti lahko uporabimo preproste statistiˇcne postopke, kot je
npr. analiza kontingenˇcnih tabel, ali pa bolj napredne metode, kot je npr. analiza GSEA
(Subramanian in sod., 2005).
V zadnjih letih so raziskovalci razvili tudi avtomatizirane podporne sisteme, s katerimi
lahko surove rezultate mikromrežnih poskusov integriramo z že objavljenim znanjem
iz bibliografske zbirke MEDLINE (Faro, Giordano & Spampinato, 2012). Primer takega
sistema smo predstavili pred nedavnim (Hristovski, Kastrin, Peterlin & Rindflesch, 2010).
1.4 Motivacija in opis problema
V ciklu klasiˇcnega znanstvenega postopka domneva–napoved–poskus–opazovanje–sklep
lahko eksperiment z DNA-mikromrežo prepoznamo kot poskus, ki vrne ogromno koliˇcino
podatkov, urejenih v podatkovno tabelo X s p stolpci in n vrsticami (slika 1.6) (Blejec,
2005).
10
1.4 Motivacija in opis problema
●
●
●
●
●
●●
●● ●
●●
●
●●● ●
●
●
●
●
●●●●
●●●
●
●
●
●
●●● ●
●●
●
●●
●
●
●
● ●
●
●
● ●●
● ● ●
●● ● ●
●●
●
●●
●● ●●●
● ●
●
●
●
●
●
●
●●
●●●●● ●●●
●●
●●
●●●● ● ●
● ●● ● ●● ●● ●
●
●
●
●
● ● ● ●● ●● ●● ●
●● ●●
● ●
●●● ●
●●
●
● ●
● ●● ● ●●
●●
●
●
● ●
●
●
●
●
●
●
●
Slika 1.5: Analiza nasiˇcenosti pojmov iz slovarja Gene Ontology za domeno celiˇcnih
komponent (CC). Za prikaz smo uporabili podatke ALL iz istoimenskega Bioconductorjevega paketa. Usmerjen acikliˇcen graf je sestavljen na osnovi 35
najbolj razliˇcno izraženih genov. Obarvana vozlišˇca se nanašajo na pojme, ki
so z izbranimi geni najbolj nasiˇceni. Imena vozlišˇc zaradi preglednosti niso
prikazana.
11
1 Uvod




X=


x1
x2
..
.
x1
x11
x21
..
.
x2
x12
x22
..
.
xn
xn1 xn2
· · · xp
· · · x1p
· · · x2p
..
..
.
.
· · · xnp







Slika 1.6: Podatkovna tabela
X1 , . . . , X p naj bodo zvezne spremenljivke, s katerimi oznaˇcimo izraženost posameznega
gena, Y pa kategorialna spremenljivka z oznako razreda. xi = ( xi1 , . . . , xip )T naj oznaˇcuje
sluˇcajni vektor, ki se nanaša na primer oz. opazovano enoto i. Primer lahko pripada
enemu od 1, . . . , K razliˇcnih razredov, kjer je K ≥ 2. Pripadnost primera i razredu bomo
shranili v yi . Množico vseh primerov predstavimo s pari ( x1 , y1 ), . . . , ( xi , yi ).
V nalogi posebej obravnavamo usmerjeno odkrivanje znanja, zato na tem mestu formalno
definirajmo problem uvršˇcanja v razrede. Pri nalogah uvršˇcanja išˇcemo klasifikator
(odloˇcitveno funkcijo) f , ki ima obliko
f : R p → {1, . . . , K }
x 7→ Yˆ = f ( x ).
Klasifikator d bomo v nadaljevanju opisali z eno od metod uvršˇcanja (npr. logistiˇcna
regresija, metoda najbližjega soseda). Dober klasifikator kar najbolje napoveduje vrednost
odvisne spremenljivke Y. Kriterij ustreznosti lahko definiramo na razliˇcne naˇcine, obiˇcajno
pa zahtevamo, da je napaka uvršˇcanja
e = Pr(d( x ) 6= Y )
karseda majhna (Bishop, 2007; Ripley, 2008).
Praviloma velja, da število merjenih genov moˇcno presega število posameznih primerov
(n << p); v klasiˇcnem eksperimentu obiˇcajno merimo nekaj 10 000 genov na nekaj
desetih primerih. Metod za analizo eno- in dvorazsežnih podatkovij ne moremo preprosto
uporabiti na mnogorazsežnih podatkovnih tabelah. Problem mnogorazsežnosti prinaša
s seboj svojevrstne statistiˇcne težave (J. A. Lee & Verleysen, 2007; D. W. Scott, 1992;
Verleysen, 2003; Verleysen & François, 2005). Dobro znan je primer linearne regresije, kjer
je v primeru n < p vzorˇcna kovarianˇcna matrika singularna, kar ima za posledico, da ne
moremo izraˇcunati njenega inverza (Kirk, 2015). Podobno je z množico toˇck najbližjih
sosedov, ki je v dvorazsežnem prostoru lahko zelo kompaktna, v mnogorazsežnem
prostoru pa postane difuzna. Tudi algoritmi za preiskovanje prostora rešitev lahko
v nižjih razsežnostih delujejo zadovoljivo, v mnogorazsežnem prostoru pa postanejo
neobvladljivi. Skupni imenovalec problemov mnogorazsežnega podatkovnega prostora
je t. i. fenomen praznega prostora (angl. curse of dimensionality). Fenomen je prvi opisal
Bellman (1966), ki pravi, da s poveˇcevanjem števila razsežnosti prostora število toˇck,
potrebnih, da napolnimo podatkovni prostor, eksponentno raste (slika 1.7).
12
1.4 Motivacija in opis problema
1.00
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
0.75
●
●
●
●
●
●
●
●
Y
0.50
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
0.25
●
● ● ●● ●●●●●●● ● ●●
●
●
0.25
0.50
X
0.75
1.00
●
●
●
●
●
●
0.00
0.00
●
●
●●
●
●●
● ● ●
●
●● ●
●●
● ●●●●
●
●●
●
●●
●
●● ●
●●
●
● ●● ●●
●
●●●●
●●●
●
●
●
0.00
0.25
0.50
X
(a)
0.75
1.00
(b)
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
0.8
●
●
●
●
0.6
●
●
●
●
●
●
●
●
Z
●●
●
0.4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.2
●●
●
●●
●
●●
●
●
●
●
●
● ●
●
0.8
●
0.6
0.4
Y
0.8
●
●
0.6
0.4
0.2
0.2
X
(c)
Slika 1.7: Fenomen praznega prostora. 64 podatkovnih toˇck v eno- (a), dvo- (b) in trirazsežnem (c) prostoru. Z veˇcanjem razsežnosti postaja podatkovni prostor vse bolj
prazen.
13
1 Uvod
Z narašˇcanjem števila spremenljivk (oz. parametrov ocenjevanja) v statistiˇcnem modelu
moramo zato zagotoviti tudi ustrezno število primerov. V nasprotnem primeru bo naš
podatkovni prostor prazen oz. vsaj redek (Jain & Duin, 2000). Upoštevanje fenomena
praznega prostora je pomembno zlasti v uporabni statistiki, saj le redko lahko zagotovimo
ustrezno eksponentno rast števila primerov; v veˇcini situacij imamo tako ob velikem
številu spremenljivk na voljo le nekaj deset uˇcnih primerov. Podatkovne toˇcke so tako
raztresene po prostoru, ki je videti praktiˇcno prazen, poleg tega pa so razdalje med pari
toˇck skoraj enake. Zgrešeno je torej intuitivno prepriˇcanje, da bomo s širšim naborom spremenljivk dosegli kvalitetnejši statistiˇcni model. Ravno nasprotno, kvaliteta modela pada,
ko število razsežnosti prostora spremenljivk poveˇcujemo. Najbolj neposredna posledica
fenomena praznega prostora je Hughesov fenomen. Hughes (1968) je namreˇc pokazal, da
pri nadzorovanem uˇcenju toˇcnost klasifikacije s poveˇcevanjem števila spremenljivk raste
le do doloˇcene meje, nato pa zaˇcne padati (slika 1.8).
0.75
Št. primerov
2
0.70
4
Točnost
10
20
0.65
60
120
0.60
200
500
0.55
1000
Bayes
0.50
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Št. razsežnosti
Slika 1.8: Hughesov fenomen. Klasifikacijska toˇcnost s poveˇcevanjem števila spremenljivk
na zaˇcetku raste, nato pa zaˇcne padati.
Logiˇcna rešitev, ki se ponuja, je da poskušamo mnogorazsežno podatkovno strukturo
predstaviti v nižjerazsežnem prostoru in ob tem ohraniti karseda veliko zaˇcetne informacije. Navkljub dejstvu, da so podatki predstavljeni z velikim številom spremenljivk,
lahko domnevamo, da je njihova intrinziˇcna razsežnost manjša (J. A. Lee & Verleysen,
2007). Ta domneva je osnovana na dveh empiriˇcnih predpostavkah (Bartholomew, Knott
& Moustaki, 2011; Bartholomew, 2013): (i) veliko spremenljivk je takih, pri katerih je
njihova razpršenost manjša od napake merjenja, in (ii) veliko spremenljivk je med seboj
koreliranih. Redundantne spremenljivke lahko zato brez škode za izgubo informativnosti
odstranimo oz. jih nadomestimo z novimi, med seboj nekoreliranimi spremenljivkami. Na
osnovi zgornjih predpostavk sta osnovana dva pristopa k obvladovanju mnogorazsežnih
podatkovij (Jain & Duin, 2000): (i) pristop izbire informativnih spremenljivk (angl. feature
selection) ter (ii) pristop konstrukcije novih spremenljivk (angl. feature extraction). Prvi
pristop z uporabo ustreznih statistiˇcnih postopkov nad množico vseh spremenljivk izloˇci
tiste spremenljivke, ki se glede na obravnavani kriterij (oz. odvisno spremenljivko) med
seboj statistiˇcno znaˇcilno razlikujejo. V tem okviru je bilo razvitih mnogo postopkov;
med njimi so najbolj uveljavljeni npr. klasiˇcni t-test, Welchev t-test ali pristop LIMMA.
Rezultat teh postopkov je množica genov, ki dobro diskriminira med primeri glede na
izbrani kriterij. Pri konstrukciji novih spremenljivk pa izhajamo iz dejstva, da so merjene
14
1.5 Raziskovalna vprašanja
spremenljivke med seboj korelirane, so redundantne in jih lahko nadomestimo z novimi spremenljivkami. Konstrukcijo novih spremenljivk formalno popišemo s preslikavo
R p 7→ Rk , kjer množico medsebojno koreliranih spremenljivk X1 , X2 , . . . , X p nadomestimo z manjšim številom obiˇcajno med seboj nekoreliranih spremenljivk oz. komponent
Z1 , Z2 , . . . , Zk , tako da velja k << p (Hastie in sod., 2011). Dobljene komponente lahko
zapišemo kot obtežene vsote merskih spremenljivk
Zi = wi1 X1 + wi2 X2 + . . . + wip X p
za i = 1, . . . , k.
Število izbranih komponent je praviloma manjše od števila merjenih spremenljivk (ter v
praksi hkrati tudi mnogo manjše od števila primerov), zato lahko izloˇcene komponente
uporabimo kot prediktorje v klasifikacijskem modelu.
V zadnjih dveh desetletjih so raziskovalci na podroˇcju statistiˇcne analize DNA-mikromrež
predlagali razliˇcne pristope za uvršˇcanje ter poenostavljanje strukture mnogorazsežnega
prostora, ki pa niso bili sistematiˇcno ovrednoteni. V okviru poenostavljanja strukture
mnogorazsežnih podatkovij ostaja odprto tudi vprašanje smiselnosti diskretizacije zveznih spremenljivk, s katero lahko moˇcno poenostavimo kompleksnost podatkovnega
prostora. Diskretizacija je proces, v katerem zvezne vrednosti razbijemo na ustrezno
število intervalov z izbranimi toˇckami loma, tako da vsak interval pomeni svojo kategorijo. Diskretne vrednosti so intervali v razponu zveznih vrednosti. Medtem ko je število
zveznih vrednosti za izbrano spremenljivko neskonˇcno, je število diskretnih vrednosti
omejeno. Toˇcka loma je vrednost, ki razpon zveznih vrednosti razcepi na dva intervala.
Toˇcke loma lahko seveda doloˇcamo poljubno, vendar pa je v ta namen smiselno uporabiti
namenske algoritme.
Pregled dostopne empiriˇcne evidence na podroˇcju diskretizacije podatkov odkriva nekatere pomembne prednosti, ki govorijo v prid uporabe diskretnih spremenljivk. Reprezentacija znanja s pomoˇcjo diskretnih spremenljivk je lažja in uˇcinkovitejša (H. A. Simon,
1996); z diskretizacijo podatke koliˇcinsko zmanjšamo in poenostavimo oz. abstrahiramo
(van Harmelen, Lifschitz & Porter, 2008). Diskretne vrednosti so za razumevanje problemskih nalog lažje razumljive, z njimi lažje miselno manipuliramo. Diskretizacija pripomore
k uˇcinkovitejšemu in hitrejšemu strojnemu uˇcenju (J. Dougherty, Kohavi & Sahami, 1995).
V splošnem so dobljeni rezultati po diskretizaciji bolj nazorni (npr. odloˇcitvena drevesa),
krajši (npr. pri asociacijskih pravilih) ter bolj zanesljivi kot pri zveznih spremenljivkah.
Rezultati so zato poslediˇcno bolj posplošljivi in primerljivi med seboj. Ne nazadnje lahko
nekatere algoritme uˇcenja uporabimo le nad diskretnimi podatki (npr. ID3-algoritem za
uˇcenje klasifikacijskih dreves).
1.5 Raziskovalna vprašanja
V disertaciji bomo obravnavali tri problemske naloge (eksperimente). V sklopu prve
naloge želimo prouˇciti kakovost delovanja razliˇcnih klasifikatorjev v nalogi uvršˇcanja
primerov v vnaprej podane razrede. V tem okviru želimo prouˇciti morebitno pristranost
pri izbiri klasifikatorja, izbiri spremenljivk in parametrov uˇcenja. V drugi problemski
nalogi bomo analizirali vpliv metod za zmanjševanje razsežnosti na uvršˇcanje. Podrobno
si bomo ogledali delovanje metod, ki jih v analizi DNA-mikromrež uporabljamo za krˇcenje
15
1 Uvod
prostora merskih spremenljivk (analizo glavnih komponent in metodo delnih najmanjših
kvadratov). V okviru tretje problemske naloge bomo prouˇcili vpliv diskretizacije zveznih
spremenljivk na uvršˇcanje.
1.5.1 Vpliv klasifikatorja in izbire spremenljivk na uvrščanje
Uvršˇcanje DNA-mikromrežnih rezultatov je problemska naloga, s katero so se raziskovalci ukvarjali od pojava mikromrežne tehnologije dalje (gl. npr. Golub in sod., 1999).
Danes praktiˇcno ni znanstvene revije s podroˇcja biostatistike ali bioinformatike, ki ne
bi vkljuˇcevala vsaj enega cˇ lanka s tematiko uvršˇcanja mikromrežnih podatkov. Kljub
dozdevni raziskanosti podroˇcja pregled empiriˇcne evidence ne odkriva raziskave, ki bi
sistematiˇcno prouˇcila delovanje veˇcjega števila klasifikatorjev na veˇcjem številu mikromrežnih podatkovij in s tem dosegla ustrezno posplošljivost zakljuˇckov. Veˇcina raziskav
namreˇc poroˇca o novih metodah uvršˇcanja oz. o izpeljankah obstojeˇcih metod. Za ilustracijo nove metode avtorji bralcu ponudijo rezultate primerjave s katerim od pogosteje
uporabljenih klasifikatorjev (npr. logistiˇcno diskriminacijo ali linearno diskriminantno
analizo). V nalogi želimo to vrzel zapolniti.
Nenapisano pravilo v znanosti je, da v objavi poroˇcamo o znaˇcilni pomembnosti izsledkov
raziskovanja. Objavljeni revijalni cˇ lanki poroˇcajo izkljuˇcno o pozitivnih rezultatih in o
potrjenih raziskovalnih domnevah (Kyzas, Denaxa-Kyza & Ioannidis, 2007). Na podroˇcju
statistiˇcne analize DNA-mikromrež v razdelku z rezultati zato pogosto naletimo na
množice identificiranih bioloških oznaˇcevalcev, za katere raziskovalci trdijo, da so med
prouˇcevanimi skupinami znaˇcilno razliˇcno izraženi, ali pa na klasifikacijska pravila z
zavidljivo majhno napako napovedi.
Eksperimentalni naˇcrt mora pri delu z mikromrežnimi podatkovji (predvsem zaradi
razlogov, ki smo jih navedli v razdelku 1.4) zagotavljati nepristranost zakljuˇckov. Boulesteix in Strobl (2009) ugotavljata, da raziskovalci pri problemih uvršˇcanja pogosto
preizkusijo razliˇcne metode uvršˇcanja, razliˇcne metode za izbiro spremenljivk ter razliˇcne
parametre uˇcenja v statistiˇcnih modelih, nato pa izberejo tisto kombinacijo, ki vraˇca najboljše rezultate. Dupuy in Simon (2007) zato celo priporoˇcata, da je pri nalogah uvršˇcanja
smiselno poroˇcati o vseh preizkušenih metodah in uporabljenih klasifikatorjih. Le na ta
naˇcin se namreˇc izognemo preveliki napaki (pristranosti) posploševanja. To je še zlasti
pomembno pri analizi DNA-mikromrež, saj so analize praviloma narejene na majhnem
številu primerov.
V disertaciji želimo eksperimentalno ovrednotiti uˇcinke namerne optimizacije rezultatov.
V tem okviru bomo prouˇcili vpliv (i) metode izbora merjenih spremenljivk, (ii) metode
uvršˇcanja in (iii) izbire parametrov uˇcenja na rezultate uvršˇcanja. Za uvršˇcanje bomo
uporabili najpogosteje uporabljene klasifikatorje, kot so npr. metoda najbližjih sosedov,
klasifikacijska drevesa s sluˇcajnimi gozdovi, metoda podpornih vektorjev in logistiˇcna
regresija s kaznijo. Spremljali bomo vpliv števila spremenljivk in parametrov uˇcenja na
kakovost uvršˇcanja. Zakljuˇcke bomo podali na osnovi analize veˇcjega števila realnih in
simuliranih podatkovij.
16
1.6 Notacija
1.5.2 Vpliv metod za krčenje razsežnosti podatkovja na uvrščanje
Empiriˇcna evidenca odkriva, da je bila v zadnjih dveh desetletjih na podroˇcju statistiˇcne
analize DNA-mikromrež opravljena vrsta raziskav, ki so bodisi predlagale nove metode
bodisi preverjale obstojeˇce metode za krˇcenje razsežnosti podatkovij. Rezultati raziskav
so zaradi razliˇcnih eksperimentalnih naˇcrtov med seboj neprimerljivi. Veˇcina raziskav je
bila izvedena nad manjšim številom podatkovij, kar postavlja pod vprašaj posplošljivost
njihovih zakljuˇckov. Sistematiˇcne analize, ki bi hkrati preverjala veˇcje število metod krˇcenja
z uporabo razliˇcnih metod uvršˇcanja na veˇcjem številu podatkovij, v literaturi nismo
zasledili.
V disertaciji želimo eksperimentalno ovrednotiti vpliv razliˇcnih metod krˇcenja razsežnosti
mikromrežnih DNA-podatkovij na problem uvršˇcanja. Omejili se bomo na metode linearnega zmanjševanja razsežnosti, med katerimi nas bosta posebej zanimali analiza glavnih
komponent in metoda delnih najmanjših kvadratov. Kot metodi uvršˇcanja bomo v eksperimentalni naˇcrt vkljuˇcili logistiˇcno diskriminacijo in klasiˇcno linearno diskriminantno
analizo. Kot kovariati bomo v analizo vkljuˇcili metodo izbora merjenih spremenljivk in
število merjenih spremenljivk.
1.5.3 Vpliv diskretizacije zveznih spremenljivk na uvrščanje
Diskretizacija zveznih spremenljivk je problem, ki v domeni podatkovne analitike mikromrežnih DNA-podatkovij pomeni odprto vprašanje. Raziskovalna evidenca na tem
podroˇcju je zelo skopa in se omejuje na tri prispevke (Y. Li in sod., 2010; Pensa, Leschi,
Besson & Boulicaut, 2004; Tillander, 2012).
V disertaciji želimo eksperimentalno ovrednotiti vpliv razliˇcnih metod diskretizacije
zveznih spremenljivk na problem uvršˇcanja. Omejili se bomo na najpogosteje uporabljene
pristope k diskretizaciji, kot so npr. metoda enake širine intervala, metoda ChiMerge in
1R. Rezultate uvršˇcanja za diskretne spremenljivke bomo primerjali z rezultati uvršˇcanja
nad zveznimi spremenljivkami. Eksperimentalni naˇcrt zato zahteva, da za uvršˇcanje uporabimo metode, ki omogoˇcajo razvršˇcanje tako zveznih kot tudi diskretnih spremenljivk;
omejili se bomo na tri metode: naivni Bayesov klasifikator, metodo najbližjega soseda in
klasifikacijska drevesa. Kot kovariati bomo v analizo vkljuˇcili metodo izbora merjenih
spremenljivk in število merjenih spremenljivk.
1.6 Notacija
ˇ je X vektor, bomo njegove
(Neodvisno) spremenljivko bomo v splošnem oznaˇcili z X. Ce
komponente naslovili z X j . Številsko odvisno spremenljivko bomo v splošnem oznaˇcili
z Y, kategoriˇcno pa z G. Opazovane vrednosti bomo zapisovali z malimi cˇ rkami; i-to
opazovano vrednost spremenljivke X bomo oznaˇcili z xi , kjer je xi bodisi skalar bodisi
vektor.
17
1 Uvod
Število razliˇcnih podatkovnih toˇck bomo oznaˇcili z n, število spremenljivk pa s p. Vrednost
j-te spremenljivke za i-ti primer bomo oznaˇcili z xij , z indeksoma i = 1, 2, . . . , n in
j = 1, 2, . . . , p. Z X bomo oznaˇcili matriko razsežnosti n × p


x11 x12 · · · x1p
 x21 x22 · · · x2p 


X= .
..
..  ,
..
 ..
.
.
. 
xn1 xn2 · · · xnp
v kateri je xij element (i, j). Pogosto se bomo sreˇcali z vrsticami matrike X, ki jih bomo
oznaˇcili z x1 , x2 , . . . , xn . V tem primeru je xi vektor dolžine p, formalno
 
xi1
 xi2 
 
xi =  .  .
 .. 
xip
Nasprotno bomo stolpce matrike X oznaˇcevali s poudarjenimi cˇ rkami x1 , x2 , . . . , x p , kjer
je vsak vektor x j dolžine n
 
x1j
 x2j 
 
xj =  .  .
 .. 
xnj
Z vpeljano notacijo lahko matriko X predstavimo kot
X = x1 , x2 , . . . , x p
oz. kot

x1T
xT 
 2
X =  . .
 .. 

xnT
Vektorje dolžine n bomo vedno izpisovali poudarjeno, npr.
 
a1
 a2 
 
a =  . ,
 .. 
an
vektorje dolžine l pa nepoudarjeno.
18
2 Mnogorazsežna podatkovja
2.1 Uvod
Na prvi pogled se zdi, da je cˇ lovekov kognitivni aparat oblikovan do potankosti. Procesiranje prostorskih informacij združuje vrsto razliˇcnih kognitivnih funkcij. Elementarni
kognitivni procesi, kot so npr. lokalizacija toˇck v prostoru, zaznavanje globine, doloˇcanje
orientacije cˇ rt in miselna rotacija objektov, so osnova kompleksnejšim miselnim procesom,
kot sta npr. znajdenje v prometu ali branje zemljevida.
Težave nastopijo pri procesiranju informacij v mnogorazsežnem prostoru. Raziskave
kažejo, da je cˇ lovekov kognitivni aparat pri znajdevanju v takem prostoru zelo omejen
(Kellert, 1994). Izkaže se, da ima veˇcina ljudi velike težave že z miselno reprezentacijo in
manipulacijo preprostih tri- in štirirazsežnih objektov. Nazoren primer je štirirazsežna
kocka na sliki 2.1. Ko tak model kocke predstavimo poskusnim osebam ter jih prosimo,
naj svojo podobo kocke prenesejo na papir, bomo hitro ugotovili, da so njihove miselne
predstave zelo razliˇcne. Obstajajo sicer priˇcevanja redkih posameznikov (npr. igralcev
raˇcunalniških igric), da lahko uˇcinkovito miselno manipulirajo tudi v štirirazsežnem
prostoru, vendar je tovrstna empiriˇcna evidenca zelo skopa (Poincaré, 2009; Rucker &
Povilaitis, 1984).
S preprostim besednjakom bi lahko rekli, da mislimo v prostoru treh evklidskih razseˇ
žnosti (tj. dolžina, širina in globina). Clovek
je pri procesiranju informacij v veˇc kot treh
razsežnostih nemoˇcen. Pri spoznavanju podatkovnih svetov v mnogorazsežnem prostoru
si zato pomagamo z raˇcunalnikom.
Slika 2.1: Štirirazsežna kocka. Prikaz je prirejen po J. A. Lee in Verleysen (2007).
19
2 Mnogorazsežna podatkovja
2.2 Mnogorazsežni podatkovni prostor
Z razvojem znanosti postaja narava podatkov vse bolj kompleksna in veˇcrazsežna. S
problemom mnogorazsežnih podatkov se dandanes sreˇcujemo na vsakem koraku. Brez
posebnih zadržkov lahko reˇcemo, da je sodobna podatkovna analitika v veliki meri
pogojena prav z obvladovanjem mnogorazsežnih podatkovij. Še pred dobrega pol stoletja
se je pojem mnogorazsežnega podatkovja navezoval na podatkovno tabelo z najveˇc štirimi
ali petimi spremenljivkami (Rao, 1948), medtem ko je danes podatkovje z nekaj tisoˇc
spremenljivkami že del statistiˇcnega vsakdana (Guyon & Elisseeff, 2003; Verleysen, 2003).
Primere mnogorazsežnih podatkovij najdemo npr. pri analizi biomedicinskih podatkov,
strojnem uvršˇcanju besedil, analizi finanˇcnih transakcij ali iskanju kompleksnih vzorcev v
astrofizikalnih podatkih.
Kot bomo videli v nadaljevanju tega poglavja, metod za analizo eno- in dvorazsežnih
podatkovij ne moremo preprosto uporabiti na mnogorazsežnih podatkovnih tabelah,
saj problem mnogorazsežnosti prinaša s seboj svojevrstne statistiˇcne težave. Kot primer
si oglejmo množico toˇck najbližjih sosedov. V dvorazsežnem prostoru je taka množica
obiˇcajno zelo homogena, v mnogorazsežnem prostoru pa hitro postane razpršena (Beyer,
Goldstein, Ramakrishnan & Shaft, 1999). Podobno je z npr. z algoritmi za preiskovanje prostora rešitev, ki v dvo- in trirazsežnem prostoru delujejo zadovoljivo, v mnogorazsežnem
prostoru pa postanejo neobvladljivi. Tudi uˇcinkovit grafiˇcni prikaz mnogorazsežnega prostora in podatkov v njem je postal mogoˇc šele z razvojem sodobnih statistiˇcnih postopkov.
Problem analize mnogorazsežnih podatkovij je povezan s prepletom dveh dejavnikov.
Prviˇc, mnogorazsežni prostor se ponaša z geometrijskimi lastnostmi, ki so v primerjavi z
eno- ali dvorazsežnim prostorom bistveno drugaˇcne. Nekatere pomembne geometrijske lastnosti obravnavamo v razdelku 2.4. Drugiˇc, veˇcina statistiˇcnih orodij za analizo podatkov
je prilagojena delu z nizkorazsežnimi podatkovji. Pouˇcen primer je že preprosta analiza
glavnih komponent. Veˇcina uˇcbenikov multivariatne statistike analizo glavnih komponent
predstavi na primeru dvorazsežnega podatkovja z nekaj 100 primeri (gl. npr. Anderson,
2003; R. A. Johnson & Wichern, 2007; Rencher & Christensen, 2012). Bistveno drugaˇce
pa je, cˇ e enako analizo poženemo na podatkovju, ki ima le nekaj deset primerov ter 100
ali veˇc spremenljivk. V takem primeru se bomo hitro sreˇcali s problemom kolinearnosti
spremenljivk in numeriˇcno nestabilnostjo rešitve. Problem je še bolj pereˇc pri uporabi
nelinearnih statistiˇcnih postopkov, pri katerih je v splošnem število parametrov modela
mnogo veˇcje od števila razsežnosti v prostoru podatkov. To prinaša s seboj probleme,
povezane z identifikabilnostjo modela, nestabilnostjo rešitve, preveliko prilagojenostjo
modela podatkom itd.
Za posamezen podatkovni objekt oz. primer bomo v nadaljevanju privzeli, da je opisan
z veˇc spremenljivkami. Formalno bomo primer v veˇcrazsežnem prostoru predstavili s
podatkovno toˇcko v vektorskem prostoru, katerega število razsežnosti ustreza številu
spremenljivk. Mnogorazsežne podatke bomo zložili v podatkovno matriko X razsežnosti
20
2.3 Fenomen praznega prostora
n × d1




X=


x1
x2
..
.
x1
x11
x21
..
.
x2
x12
x22
..
.
xn
xn1 xn2
· · · xd
· · · x1d
· · · x2d
..
..
.
.
· · · xnd




,


v kateri bomo posamezno podatkovno toˇcko oznaˇcili z xi ∈ Rd .
2.3 Fenomen praznega prostora
Problem analize mnogorazsežnih podatkovij je neloˇcljivo povezan s fenomenom praznega
prostora. Termin je prvi uporabil Bellman (1966) pri opisovanju problema optimizacije z
metodo izˇcrpnega preiskovanja v produktnih prostorih. Strategija izˇcrpnega preiskovanja
pregleda in ovrednoti vse možne rešitve v optimizacijskem prostoru, nato pa izbere
zadovoljive. Pokazal je, da z linearnim poveˇcevanjem prostora spremenljivk velikost
optimizacijskega prostora raste eksponentno. To ima za posledico veˇcjo raˇcunsko zahtevnost ter veˇcjo verjetnost, da se optimizacija zakljuˇci v lokalnem minimumu. Reševanje
optimizacijske naloge po metodi izˇcrpnega preiskovanja zato že pri relativno majhnem
številu razsežnosti preraste v neobvladljiv problem.2
Primer 1. Bellmanovo zakonitost ilustrirajmo s preprostim primerom. Denimo, da obravnavamo
ˇ želimo mrežo napolniti s toˇckami, bomo
d-razsežno karteziˇcno mrežo s korakom e = 1/10. Ce
10
pri d = 10 razsežnostih potrebovali 10 toˇck, pri d = 20 razsežnostih pa se število potrebnih
toˇck poveˇca že na 1020 ; v splošnem torej potrebujemo O((1/e)d ) toˇck. Izkaže se, da z linearnim
poveˇcevanjem prostora spremenljivk velikost prostora rešitev eksponentno raste.
Primer 2. Primer 1 lahko prevedemo tudi v nam bolj zanimivo statistiˇcno domeno. Denimo, da
imamo d-razsežno hiperkocko, znotraj katere smo enakomerno porazdelili podatkovne toˇcke. Iz
podatkovnega hiperprostora želimo povzeti vzorec toˇck, ki bo pomenil r-ti delež celotne prostornine
hiperkocke. Zanima nas dolžina stranice l vzorˇcne hiperkocke.
Upoštevajmo, da za zvezo med dolžino stranice, številom razsežnosti in deležem zajete prostornine
velja l = r1/d . S preprostim izraˇcunom hitro ugotovimo, da bo ob vzorˇcnem deležu r = 0.01
stranica hiperkocke pri razsežnosti d = 1 zavzemala 1 % celotne dolžine, pri razsežnosti d = 10 pa
kar 63 % dolžine stranice hiperkocke. Ob vzorˇcnem deležu r = 0.1 se bo pri d = 10 razsežnostih
dolžina stranice hiperkocke poveˇcala na 80 %. Odnos med deležem prostornine hiperkocke in dolžino
stranice je za štiri razliˇcne razsežnosti prikazan na sliki 2.2.
Ugotovitev, povzeta iz primerov 1 in 2, nam nalaga, da z narašˇcanjem števila spremenljivk
v statistiˇcnem modelu zagotovimo tudi ustrezno število primerov. V nasprotnem primeru
bo naš podatkovni prostor prazen oz. vsaj redek. Poznavanje fenomena praznega prostora
je pomembno zlasti v vsakdanji statistiˇcni praksi, saj lahko le redko zagotovimo ustrezno
1 Zaradi
skladnosti z literaturo, na katero se sklicujemo, bomo v tem poglavju število razsežnosti oznaˇcevali
z d.
2 Kot rešitev je Bellman predlagal metodo dinamiˇ
cnega programiranja, s katero lahko problem rešimo v
polinomskem cˇ asu, cˇ eprav bi naivna rešitev zahtevala eksponentni cˇ as.
21
2 Mnogorazsežna podatkovja
1.00
Dolžina stranice
0.75
Razsežnost
0.50
d=1
d=2
0.25
d=3
d = 10
0.00
0.00
0.25
0.50
0.75
Prostornina
1.00
Slika 2.2: Odnos med deležem prostornine in dolžino stranice d-razsežne hiperkocke
eksponentno rast števila primerov; v veˇcini situacij imamo tako ob velikem številu
spremenljivk na voljo le nekaj deset primerov.
Intuitivne predstave, ki veljajo v eno- in dvorazsežnem prostoru, postanejo v mnogorazsežnem prostoru nepravilne. Mnogorazsežni prostor ima namreˇc neintuitivne geometriˇcne
lastnosti. Predstava podatkovnih toˇck v veˇcrazsežnem prostoru je lahko zato zavajajoˇca.
Nobenih težav ne bomo imeli, cˇ e bomo želeli predstaviti podatkovje 100 enot, merjenih
na dveh spremenljivkah. Iz razsevnega diagrama bomo po vsej verjetnosti lahko celo
izloˇcili strukturo podatkov (npr. skupine podatkov, odnose med spremenljivkami). Zdaj
pa si predstavljajmo, da želimo predstaviti podatkovje, ki ima enako število primerov, le
da število spremenljivk poveˇcamo na 500. V razsevnem diagramu bodo podatkovne toˇcke
ˇ
takega podatkovja bolj ali manj sluˇcajno razpršene (D. W. Scott, 1992). Ceprav
obstaja v
podatkih neka notranja struktura, bo po vsej verjetnosti iz razsevnega diagrama težko
razvidna. Z veˇcanjem števila spremenljivk namreˇc postajajo razdalje med posameznimi
primeri v prostoru cˇ edalje veˇcje, kar pomeni, da se tudi najbližji primeri medsebojno zelo
razlikujejo. To je glavni razlog, da se metode, ki temeljijo na lokalnosti primerov (k-NN,
parzenova okna, Relief), slabo obnesejo pri velikem številu spremenljivk.
2.4 Geometrijske lastnosti mnogorazsežnega prostora
V tem razdelku bomo opisali nekatere osnovne geometrijske lastnosti mnogorazsežnega
evklidskega prostora. Izkaže se, da je topološka analiza za študij takega prostora zelo
primerna. Pregled je pripravljen po Zaki in Meira (2014), veˇc podrobnosti pa bo bralec
našel tudi v Kendall (2004) in D. W. Scott (1992).
22
2.4 Geometrijske lastnosti mnogorazsežnega prostora
2.4.1 Hiperkocka
Minimalno in maksimalno vrednost spremenljivke X j iz podatkovne matrike D zapišemo
kot
min X j = min xij
in max X j = max xij .
i
i
Podatkovni hiperprostor D si lahko predstavljamo v prispodobi d-razsežnega hiperpravokotnika, ki je definiran s predpisom
d
Rd =
∏
min X j , max X j
j =1
o
= x = ( x1 , x2 , . . . , xd )T x j ∈ min X j , max X j , za j = 1, . . . , d .
n
Predpostavimo še, da smo surove vrednosti spremenljivk predhodno pretvorili v odklonske vrednosti, tako da je vektor njihovih aritmetiˇcnih sredin enak µ = 0. Najveˇcjo
absolutno vrednost v podatkovni matriki D definirajmo s predpisom
d
n m = max max | xij | .
j =1
i =1
Podatkovni hiperprostor lahko zdaj obravnavamo kot hiperkocko s središˇcem v toˇcki 0 in
dolžino stranice l = 2m. Formalno bomo to zapisali kot
Hd (l ) =
l l
.
x = ( x1 , x2 , . . . , xd ) ∀i, xi ∈ − ,
2 2
T
Primer 3. Narišimo podatkovni prostor v razliˇcnih razsežnostih (slika 2.3). Pri razsežnosti d = 1
podatkovni prostor predstavimo z intervalom H1 (l ) (a), pri d = 2 s kvadratom H2 (l ) (b), pri
d = 3 s kocko H3 (l ) (c) ter pri d = 4 s hiperkocko H4 (l ) (d).
Prostornino hiperkocke s stranico dolžine l izraˇcunamo po obrazcu
V ( Hd (l )) = l d .
ˇ je l = 1, je prostornina hiperkocke od števila razsežnosti neodvisna. Prostornina bo
Ce
ˇ je l > 1, bo prostornina z narašˇcanjem
v tem primeru vedno enaka V ( H p (1)) = 1. Ce
števila razsežnosti divergirala k neskonˇcnosti, pri l < 1 pa konvergirala k vrednosti niˇc.
Primer 4. Odnos med številom razsežnosti podatkovnega prostora in prostornino hiperkocke je za
tri razliˇcne dolžine stranice prikazan na sliki 2.4.
23
2 Mnogorazsežna podatkovja
(a)
(b)
(c)
(d)
Slika 2.3: Podatkovni prostor v eni (a), dveh (b), treh (c) in štirih (d) razsežnostih
●
Dolžina
15
●
●
●
0.9
Prostornina
●
●
●
1
●
10
●
●
1.1
●
●
●
●
●
●
●
● ●
● ●
●
● ●
● ● ●
● ● ●
● ●
● ●
●
● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ●
● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
5
0
0
10
20
30
Razsežnost
Slika 2.4: Odnos med številom razsežnosti in prostornino hiperkocke za razliˇcne dolžine
stranice
24
2.4 Geometrijske lastnosti mnogorazsežnega prostora
2.4.2 Hipersfera
Podobno kot v razdelku 2.4.1 predpostavimo, da spremenljivke nastopajo v odklonski
obliki, tako da je µ = 0. Razdaljo med središˇcem podatkovnega hiperprostora D in najbolj
oddaljeno podatkovno toˇcko definirajmo s predpisom
r = max {k xi k} .
i
Podatkovni hiperprostor lahko zdaj predstavimo kot d-razsežno hiperkroglo s središˇcem
v toˇcki 0 ter polmerom r, tako da je
Bd (r ) = { x | k x k ≤ r }
oz.
(
Bd (r ) =
)
d
2
2
x = ( x1 , x2 , . . . , x d ) ∑ x j ≤ r .
j =1
Površino hiperkrogle Bd ponazarja hipersfera Sd . Hipersfero sestavljajo vse podatkovne
toˇcke, ki so od izhodišˇca 0 oddaljene natanko za r:
Sd (r ) = { x | k x k = r }
oz.
(
Sd (r ) =
)
p
x = ( x1 , x2 , . . . , xd ) ∑ x2j = r2 .
j =1
Prostornino hipersfere v nižjih razsežnostih znamo enostavno izraˇcunati s pomoˇcjo znanih
obrazcev, npr.
V (S1 (r )) = 2r,
V (S2 (r )) = πr2 ,
4
V (S3 (r )) = πr3 .
3
Splošen obrazec za izraˇcun prostornine d-razsežne hipersfere se glasi
π d/2
V (Sd (r )) =
rd ,
Γ (d/2 + 1)
kjer je
Γ
d
+1
2

(d/2)!
= √ d!!  π (d + 1)/2
2
cˇ e d sodo št.
cˇ e d liho št.
(2.1)
V obrazcu (2.1) je d!! dvojna fakulteta, definirana s predpisom
(
1
cˇ e d = 0 ali d = 1
d!! =
d(d − 2)!! cˇ e d ≥ 2
25
2 Mnogorazsežna podatkovja
S poveˇcevanjem števila razsežnosti prostornina hipersfere najprej narašˇca, nato pa zaˇcne
padati in se približuje vrednosti niˇc. Za enotsko hipersfero zato velja
π d/2
lim V (Sd (1)) = lim
= 0.
d→∞
d→∞ Γ (d/2 + 1)
Primer 5. Na sliki 2.5 je predstavljen odnos med številom razsežnosti in prostornino enotske
hipersfere. Prostornina sfere najprej narašˇca, doseže najveˇcjo prostornino pri d = 5, kjer znaša
V (S5 (1)) = 5.26. Prostornina se nato zaˇcne zmanjševati in pri d = 30 doseže zanemarljivo
vrednost.
●
●
Prostornina
4
● ●
●
●
●
●
●
2
●
●
●
●
●
0
0
●
● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
10
20
30
Razsežnost
Slika 2.5: Odnos med številom razsežnosti in prostornino hipersfere
2.4.3 Razmerje med prostorninama hipersfere in hiperkocke
Denimo, da podatkovni prostor omejimo s hiperkocko H, na enak naˇcin, kot smo to
storili v razdelku 2.4.1. Vanjo postavimo karseda veliko hipersfero S. Polmer hipersfere
oznaˇcimo z r, stranico hiperkocke pa z 2r. Obravnavajmo razmerje med prostorninama
obeh teles. Za zaˇcetek primerjajmo obe prostornini v dveh in treh razsežnostih. V prvem
primeru znaša razmerje
V (S2 (r ))
πr2
π
= 2 = = 78.5 %,
V ( H2 (2r ))
4r
4
kar pomeni, da krožnica omejuje π/4 površine kvadrata, v katerega je vrisana. V treh
razsežnostih znaša razmerje
4/3πr 3
V (S3 (r ))
π
=
= = 52.4 %,
3
V ( H3 (2r ))
8r
6
kar je le še π/6 prostornine kocke. V splošnem s poveˇcanjem števila razsežnosti d velja
V (Sd (r ))
π d/2
= lim d
= 0,
d→∞ V ( Hd (2r ))
d→∞ 2 Γ (d/2 + 1)
lim
kar pomeni, da je asimptotiˇcna prostornina hiperkocke zgošˇcena ob robovih prostora,
medtem ko je središˇce prazno.
26
2.4 Geometrijske lastnosti mnogorazsežnega prostora
Primer 6. Na sliki 2.6 je prikazano razmerje med prostorninama enotske hipersfere in hiperkocke za
razliˇcne razsežnosti prostora. Pri razsežnosti d = 2 znaša razmerje π/4, kar pomeni, da hipersfera
obsega skoraj celotno prostornino kvadrata. Z narašˇcanjem števila razsežnosti se razmerje hitro
približuje vrednosti niˇc ter pri d = 10 doseže zanemarljivo vrednost.
1.00
●
●
Prostornina
0.75
●
0.50
●
0.25
●
●
0.00
● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0
10
20
30
Razsežnost
Slika 2.6: Razmerje med prostorninama hipersfere in hiperkocke za razliˇcno število razsežnosti
Predstavljajmo si d-razsežno enotsko hiperkocko, v katero vˇcrtamo hipersfero. Razdalja med
√
izhodišˇcem hiperkocke in katerokoli stranico znaša 1/2, razdalja do oglišˇca pa d/2. S poveˇcevanjem
števila razsežnosti se razdalja med središˇcem in oglišˇci veˇca, prostornina hipersfere pa manjša.
Prostornina hiperkocke se zato zgošˇca na robovih, središˇce pa postaja prazno (slika 2.7). HechtNielsen (1990) pravi, da je v mnogorazsežnem prostoru hiperkocka tako koniˇcasta, da ima skoraj
fraktalno obliko.
(a)
(b)
(c)
(d)
Slika 2.7: Odnos med hiperkocko in hipersfero v dveh (a), treh (b), štirih (c) in šestih (d)
razsežnostih. V d razsežnostih ima hiperkocka 2d oglišˇc. Polmer hipersfere sledi
razmerju med prostorninama hipersfere in hiperkocke. Prikaz je prirejen po
Zaki in Meira (2014).
2.4.4 Prostornina tanke lupine
Obravnavajmo prostornino tanke lupine debeline e, ki jo omejujeta notranja hipersfera s
polmerom r ter zunanja hipersfera s polmerom r + e (slika 2.8).
Prostornino tanke lupine Sd (r, e) izraˇcunamo kot razliko prostornin obeh hipersfer po
27
2 Mnogorazsežna podatkovja
r
r+
Slika 2.8: Tanka lupina
obrazcu
V (Sd (r, e)) = V (Sd (r )) − V (Sd (r − e)),
razmerje med prostorninama tanke lupine in zunanje sfere pa po obrazcu
V (Sd (r, e))
e d
.
= 1− 1−
V (Sd (r ))
r
Primer 7. Na sliki 2.9 je prikazano razmerje med dvema sferama s parametroma r = 1 in e = 0.01
(gl. sliko 2.8). Razmerje njunih prostornin pada eksponentno z veˇcanjem razsežnosti. V dveh
razsežnostih je prostornina tanke lupine enaka 1 − (0.99)2 ≈ 2 %. V treh razsežnostih se delež
prostornine poveˇca na 1 − (0.99)3 ≈ 3 %. Pri d = 30 pa prostornina lupine naraste kar na
1 − (0.99)30 ≈ 26 %.
0.8
Prostornina
0.6
0.4
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
● ●
●
● ●
● ●
●
●
0.2
●
●
●
●
0
10
20
30
Razsežnost
Slika 2.9: Odnos med številom razsežnosti in prostornino tanke lupine za razliˇcno število
razsežnosti
Ko število razsežnosti d narašˇca prek vseh mej, velja
V (Sd (r, e))
e d
= lim 1 − 1 −
= 1.
r
d→∞ V ( Sd (r ))
d→∞
lim
Izkaže se, da se s poveˇcevanjem razsežnosti prostornina hipersfere zgošˇca v tanki lupini.
Veˇcji del prostornine zato najdemo v okolici površine hipersfere (znotraj e), medtem ko je
28
2.4 Geometrijske lastnosti mnogorazsežnega prostora
središˇce hipersfere prazno. Z drugimi besedami, cˇ e so podatkovne toˇcke v d-razsežnem
prostoru porazdeljene enakomerno, se bo veˇcina toˇck zgostila ob robovih tega prostora.
2.4.5 Diagonale hiperprostora
Obravnavajmo d-razsežno hiperkocko z izhodišˇcem v toˇcki 0d = (01 , 02 , . . . , 0d ) (D. W.
Scott, 1992; Zaki & Meira, 2014). Razsežnosti naj bodo omejene v razponu [−1, 1].
Vsako oglišˇce hiperprostora lahko predstavimo z d-razsežnim vektorjem, ki ima obliko
(±11 , ±12 , . . . , ±1d ). Z ei = (01 , . . . , 1i , . . . , 0d )T oznaˇcimo d-razsežni enotski vektor v
razsežnosti i, z 1 pa d-razsežni diagonalni vektor (11 , 12 , . . . , 1d )T (slika 2.10).
1
θ
e1
(a)
(b)
Slika 2.10: Diagonale hiperkocke v dveh (a) in treh (b) razsežnostih
Kot θd med diagonalnim vektorjem 1 in prvo osjo e1 v d razsežnostih bomo izraˇcunali po
obrazcu
e1T 1
eT 1
1
1
cos(θd ) =
= q 1√
=√ √ =√ .
ke1 kk1k
1 d
d
e T e1 1 T 1
1
Primer 8. Na sliki 2.10 je oznaˇcen kot med diagonalnim vektorjem 1 in vektorjem e1 v dvo- in
√
√
trirazsežnem prostoru. V prvem primeru znaša cos (θ2 ) = 1/ 2, v drugem pa cos (θ3 ) = 1/ 3.
S poveˇcevanjem števila razsežnosti d se kot med d-razsežnim diagonalnim vektorjem 1 in
vektorjem e1 asimptotiˇcno približuje
1
lim cos(θd ) = lim √ = 0,
d→∞
d
d→∞
kar pomeni
lim θd =
d→∞
π
= 90°.
2
Poslediˇcno sklepamo, da so v visokih razsežnostih prostora diagonalni vektorji pravokotni na osi tega prostora. V d-razsežnem prostoru najdemo 2d oglišˇc ter enako število
diagonalnih vektorjev. Pari diagonalnih vektorjev v nasprotnih smereh zato sestavljajo
29
2 Mnogorazsežna podatkovja
2d−1 novih osi prostora. Nove koordinatne osi so pravokotne3 na vsako od d glavnih osi
prostora.
Primer 9. V mnogorazsežnem prostoru so diagonale hiperkocke približno pravokotne na osi
prostora. Za primer vzemimo grafiˇcno predstavitev podatkovnih toˇck s pomoˇcjo matrike razsevnih
diagramov. Ugotovimo lahko, da se skupina toˇck, ki leži v okolici diagonale prostora, prezrcali
v izhodišˇca razsevnih diagramov. Izbira ustreznega koordinatnega sistema je zato v analitiki
mnogorazsežnih podatkovij kljuˇcnega pomena (D. W. Scott, 1992; X. Wang, 2012).
2.4.6 Robna gostota verjetnosti pri večrazsežni normalni porazdelitvi
Obravnavajmo standardizirano veˇcrazsežno normalno porazdelitev. V zgornjih razdelkih
smo ugotovili, da se ob enakomerni porazdelitvi podatkovnih toˇck te zgošˇcajo ob robovih
hipersfere oz. hiperkocke. V tem razdelku bomo pokazali, da podoben fenomen opazimo
tudi pri veˇcrazsežni normalni porazdelitvi.
Funkcija gostote za veˇcrazsežno normalno porazdelitev z aritmetiˇcno sredino µ = 0d in
kovarianˇcno matriko Σ = Id je definirana s predpisom
f ( x ) = √
1
2π
xT x
d exp −
2
.
Zanimalo nas bo, kako se gostota podatkovnih toˇck okoli aritmetiˇcne sredine spreminja s
poveˇcevanjem števila razsežnosti.
√
Gostota verjetnosti v toˇcki µ = 0d znaša f (0d ) = 1/( 2π )d . Toˇcke x, katerih gostota znaša
vsaj α gostote f (0), kjer je 0 < α < 1, definiramo z neenaˇcbo
f (x)
≥ α.
f (0)
To pomeni
xT x
exp −
≥α
2
oz.
ali
x T x ≤ −2 ln(α)
d
∑ (xi )2 ≤ −2 ln(α).
(2.2)
i =1
ˇ predpostavimo, da so spremenljivke X1 , X2 , . . . , Xk med seboj neodvisne in enako
Ce
porazdeljene ter da se hkrati vsaka od njih porazdeljuje po standardizirani normalni
porazdelitvi, potem velja, da se vsota njihovih kvadratov X12 + X22 + · · · + Xk2 porazdeljuje
po χ2 -porazdelitvi s k stopnjami prostosti. Ker je projekcija standardizirane veˇcrazsežne
3 Pravokotnost
30
velja približno. Popolna pravokotnost velja le v limiti, pa še to ne za vse pare.
2.4 Geometrijske lastnosti mnogorazsežnega prostora
normalne porazdelitve na poljubno komponento X j standardna normalna porazdelitev,
velja da produkt
xT x =
d
∑ ( x i )2
i =1
iz (2.2) sledi χ2 -porazdelitvi z d stopnjami prostosti. Verjetnost, da podatkovna toˇcka x
leži znotraj nivojnice s polmerom α izraˇcunamo kot (Zaki & Meira, 2014)
Pr
f (x)
≥α
f (0)
= Pr( x T x ≤ −2 ln(α)).
(2.3)
S poveˇcevanjem števila razsežnosti se verjetnost iz (2.3) manjša ter asimptotiˇcno približuje
lim Pr( x T x ≤ −2 ln(α)) = 0.
d→∞
Ugotovimo lahko, da se v visokih razsežnostih gostota verjetnosti z oddaljevanjem od
aritmetiˇcne sredine hitro zmanjšuje; v asimptoti je celotna gostota verjetnosti porazdeljena
v repih porazdelitve.
Primer 10. Gostota verjetnosti normalne porazdelitve se z veˇcanjem razsežnosti prostora, ob
konstantni oddaljenosti od izhodišˇca porazdelitve, hitro zmanjšuje. Uˇcinek je najlepše opazen,
cˇ e primerjamo normalno porazdelitev v dvo- in trirazsežnem prostoru (slika 2.11). Plošˇcina
pod krivuljo se ob konstantni oddaljenosti od izhodišˇca zato veˇca. Verjetnost, da je podatkovna
toˇcka za vsaj dva standardna odklona oddaljena od izhodišˇca, pri enorazsežni porazdelitvi znaša
Pr( x ) ≥ 2 = 0.05, pri dvorazsežni porazdelitvi pa že Pr( x ) ≥ 2 = 0.14. Verjetnosti za veˇcje
število razsežnosti so prikazane na sliki 2.12.
2.4.7 Norme in razdalje
Z analizo podatkov v mnogorazsežnem prostoru je povezan tudi problem zgošˇcanja norm.
Norme so v statistiki izrednega pomena, saj z njimi merimo razdalje med podatkovnimi
toˇckami (npr. pri razvršˇcanju v skupine ali metodi najbližjih sosedov). Najpogosteje
uporabljamo normo Minkovskega, ki je za podatkovni vektor x = ( x1 , x2 , . . . , xd ) ∈ Rd
definirana s predpisom
!1/p
d
kxk p =
∑ | xi | p
i =1
ˇ je p = 1, dobimo normo z uporabo geometrije taksijev, ki se imenuje
s p ∈ N \ {0}. Ce
razdalja Manhattan. Normo s p = 2 poznamo pod imenom evklidska norma. V nadaljevanju bomo videli, da je v analizi mnogorazsežnih podatkov ustrezna izbira parametra p
izrednega pomena.
Denimo, da z x ( j) : 1 ≤ j ≤ n oznaˇcimo n d-razsežnih sluˇcajnih vektorjev, ki se porazdeljujejo po poljubni veˇcrazsežni porazdelitvi F. Komponente vektorjev naj bodo neodvisne in
31
2 Mnogorazsežna podatkovja
f (x)
−3
−2
−1
0
x
1
2
3
(a)
(b)
Slika 2.11: Eno- (a) in dvorazsežna (b) normalna porazdelitev
1.00
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
●
●
0.75
Pr(x) ≥ 2
●
●
0.50
●
●
0.25
●
●
0.00
0
10
20
30
Razsežnost
Slika 2.12: Prostornina pod normalno krivuljo za podatkovno toˇcko x, ki je za vsaj dva
standardna odklona oddaljena od središˇca porazdelitve. Prikazane so verjetnosti za razliˇcno število razsežnosti.
32
2.4 Geometrijske lastnosti mnogorazsežnega prostora
enako porazdeljene. Demartines (1994) je pokazal, da v tem primeru velja
h
i √
1
E k x ( j) k2 = ad − b + O
d
1
( j)
Var k x k2 = b + O √
,
d
kjer sta a in b konstanti, neodvisni od števila razsežnosti. To pomeni, da pri sluˇcajnih
vektorjih z neodvisnimi in √
enako porazdeljenimi komponentami priˇcakovana vrednost
evklidske norme narašˇca s d, razpršenost pa ostaja enaka.
Beyer in sod. (1999) so pokazali, da ob izpolnjenem pogoju
!
k x ( j) k
=0
lim Var
d→∞
E k x ( j) k
za vsak e > 0 velja
"
lim Pr
d→∞
max j k x ( j) k − min j k x ( j) k
min j k x ( j) k
#
≤ e = 1,
(2.4)
kjer min j k x ( j) k in max j k x ( j) k oznaˇcujeta najkrajšo oz. najdaljšo normo v vzorcu sluˇcajnih
podatkovnih toˇck. Izrek (2.4) pravi, da relativne razlike med najdaljšimi in najkrajšimi
normami z veˇcanjem razsežnosti podatkovnega prostora postajajo vse manjše.
Primer 11. Obravnavajmo porazdelitev norm k X k2 , kjer je X = ( X1 , X2 , . . . , Xd ) ∈ Rd sluˇcajni
vektor, enakomerno porazdeljen na intervalu [0, 1]d . Na sliki 2.13 so prikazani aritmetiˇcna sredina,
standardni odklon, najmanjša in najvišja vrednost ter najvišja možna vrednost
evklidske norme.
√
Za dano razsežnost d je domena norme takega vektorja kar interval [0, d] (Francois, 2007).
Povpreˇcna vrednost norme z veˇcanjem števila razsežnosti prostora narašˇca, medtem ko razpršenost
ostaja enaka. Minimalna √
in maksimalna vrednost norme sta v nižjih razsežnostih (slika 2.13a)
blizu mejam intervala [0, d], s poveˇcevanjem števila razsežnosti (slika 2.13b) pa se odmikata. V
mnogorazsežnem prostoru se norme zgostijo na omejenem obmoˇcju domene (v okolici priˇcakovane
vrednosti), ki z narašˇcanjem števila razsežnosti postaja vse manjše. V tem primeru so vse norme
približno enako dolge. Obe sliki sta konstruirani na sluˇcajnem vzorcu podatkovnih toˇck.
33
2 Mnogorazsežna podatkovja
M
3
Norma
M ± 1 SD
Min / Max
2
d
1
0
2.5
5.0
Razsežnost
7.5
10.0
(a)
10.0
M
M ± 1 SD
7.5
Norma
Min / Max
d
5.0
2.5
0.0
0
25
50
Razsežnost
75
100
(b)
Slika 2.13: Fenomen zgošˇcanja norm. Za pojasnilo gl. besedilo.
34
3 Izbira spremenljivk
3.1 Uvod
Postopek izbire spremenljivk se nanaša na doloˇcitev optimalne podmnožice spremenljivk,
kjer iz podatkovne tabele odstranimo nerelevantne in redundantne spremenljivke, ki za
indukcijo klasifikatorja niso nujno potrebne (Guyon & Elisseeff, 2003; H. Liu & Motoda,
1998, 2007). Povedano bolj formalno, izbira spremenljivk je veˇcrazsežni optimizacijski
problem, v katerem prostor p spremenljivk optimalno skrˇcimo na m spremenljivk (m ≤ p)
ter hkrati poveˇcamo oz. pomembno ne zmanjšamo kakovosti uvršˇcanja (Dash & Liu,
1997, 2003; H. Liu & Motoda, 1998; H. Liu & Yu, 2005). Z izbiro spremenljivk ne samo
zmanjšamo število parametrov v statistiˇcnem modelu, paˇc pa vplivamo tudi na hitrost
izvajanja uˇcnih algoritmov, izboljšamo kakovost uvršˇcanja in poveˇcamo interpretativnost
modela. Raziskave kažejo, da se s premišljeno odstranitvijo manj pomembnih spremenljivk
podatkovna struktura pomembno ne spremeni (Donoho, 2006; Ng, 2004).
Izbira optimalne podmnožice spremenljivk temelji na naˇcelu Ockhamove britve (Bell
& Wang, 2000). Ta pravi, da je boljši tisti (statistiˇcni) model, ki ima najmanjše število
parametrov ter hkrati zagotavlja cˇ im boljše prileganje podatkom. Z ustrezno izbiro manjše
podmnožice spremenljivk poveˇcamo kakovost uvršˇcanja, zmanjšamo raˇcunsko zahtevnost
uvršˇcanja ter omogoˇcimo boljše razumevanje strukture podatkov (Ma & Huang, 2008).
Splošni algoritem izbire spremenljivk je prikazan na sliki 3.1 (Dash & Liu, 1997; H. Liu,
Motoda, Setiono & Zhao, 2010; Z. Zhu, Ong & Kuo, 2009). Algoritem sestavljajo štiri
osnovne komponente: (i) izbira podmnožice spremenljivk, (ii) funkcija za ovrednotenje
podmnožice spremenljivk, (iii) ustavitveni kriterij in (iv) preizkus z neodvisno množico
podatkov. Podmnožico spremenljivk izberemo sluˇcajno oz. z ustrezno hevristiko. Izbrano
podmnožico v naslednjem koraku ovrednotimo, kar storimo bodisi neodvisno glede na
postopek uvršˇcanja (neodvisni kriterij) bodisi tako, da upoštevamo kakovost uvršˇcanja
(odvisni kriterij).1 Postopek sestavljanja in vrednotenja podmnožice spremenljivk ponavljamo toliko cˇ asa, dokler ne zadostimo ustavitvenemu kriteriju. Ustavitveni kriterij je
obiˇcajno podan vnaprej. V zadnjem koraku podmnožico spremenljivk preizkusimo na
neodvisni, testni množici podatkov.
Izbira optimalne podmnožice atributov je NP-polni problem (Albrecht, 2006; Gheyas &
Smith, 2010). Število možnih podmnožic raste eksponentno s številom spremenljivk in
v primeru m spremenljivk znaša O(2m ). Izˇcrpno preiskovanje vseh možnih podmnožic
1 H.
Liu in sod. (2010) loˇcijo med nadzorovano, polnadzorovano in nenadzorovano izbiro spremenljivk. Pri
nadzorovani izbiri v procesu vrednotenja upoštevamo odvisno spremenljivko (razred), pri nenadzorovani
izbiri spremenljivk pa ovrednotenje opravimo samo nad neodvisnimi spremenljivkami. Polnadzorovani
algoritmi pri indukciji klasifikatorja uporabijo le del informacije odvisne spremenljivke.
35
3 Izbira spremenljivk
Izberi
podmnožico
Uˇcni
podatki
Ovrednoti
podmnožico
ne
Ustavitev
da
Testni
podatki
Validacija
Konec
Slika 3.1: Splošni algoritem izbire spremenljivk
spremenljivk seveda ni smiselno. Za izbiro optimalne podmnožice zato uporabljamo
razliˇcne hevristiˇcne pristope, ki so opisani v nadaljevanju.
Zgošˇcen pregled in povzetek osnovnih metod za izbiro spremenljivk ponujata H. Liu in
Yu (2005). Dash in Liu (1997) obravnavata algoritme izbire spremenljivk z vidika uvršˇcanja,
Guyon in Elisseeff (2003) pa njun pogled razširita na celotno domeno statistiˇcnega uˇcenja.
Obnašanje metod izbire spremenljivk nad sintetiˇcnimi podatki bomo našli v BolónCanedo, Sánchez-Maroño in Alonso-Betanzos (2013). Pregled uporabe splošnih postopkov
izbire spremenljivk v bioinformatiki podajajo Saeys, Inza in Larrañaga (2007) ter Hilario
in Kalousis (2008). Poleg tega bo za bioinformatika primeren tudi pregled metod izbire
spremenljivk s pomoˇcjo kaznovanja (Ma & Huang, 2008), ki kljub specifiˇcnosti ponuja
dovolj splošen pregled nad podroˇcjem. Bralcu, ki ga problematika izbire spremenljivk
podrobneje zanima, priporoˇcamo v branje monografijo Feature Selection for Knowledge
Discovery and Data Mining (H. Liu & Motoda, 1998) oz. nekoliko novejše delo istih avtorjev
Computational Methods of Feature Selection (H. Liu & Motoda, 2007). Pri pregledu osnovnih
konceptov in algoritmov izbire spremenljivk smo v nalogi, poleg sproti omenjenih sklicev
na literaturo, sledili A. R. Webb in Copsey (2011).
3.2 Relevantnost in redundantnost spremenljivk
3.2.1 Relevantnost
Pri izbiri spremenljivk nas zanimajo take spremenljivke, ki so hkrati relevantne (pomembne) in niso redundantne (L. Yu & Liu, 2004). Nerelevantne so spremenljivke, ki za
klasifikacijsko pravilo niso pomembne, redundantne pa spremenljivke, ki so med seboj
moˇcno korelirane. Glede na relevantnost oz. redundantnost spremenljivke združujemo v
štiri tipe (Blum & Langley, 1997; Kohavi & John, 1997; L. Yu & Liu, 2004): (i) nerelevantne, (ii) redundantne, (iii) šibko relevantne in neredundantne ter (iv) moˇcno relevantne.
Optimalna množica spremenljivk vkljuˇcuje zadnja dva tipa spremenljivk.
V nadaljevanju razdelka obravnavajmo posamezne tipe spremenljivk bolj podrobno. Z X
oznaˇcimo množico sluˇcajnih spremenljivk, v kateri se Xi nanaša na sluˇcajno spremenljivko
36
3.2 Relevantnost in redundantnost spremenljivk
i. S naj oznaˇcuje množico spremenljivk brez spremenljivke Xi , tako da je S = X − { Xi }.
C je pripadajoˇca odvisna spremenljivka, ki se nanaša na oznako razreda posameznega
sluˇcajnega primera.
Spremenljivka Xi je moˇcno relevantna, cˇ e zanjo velja
Pr(C | Xi , S) 6= Pr(C | S).
V tem primeru je porazdelitev odvisne spremenljivke odvisna od izbrane spremenljivke Xi .
Slednje ne moremo odstraniti, ne da bi s tem popaˇcili porazdelitev odvisne spremenljivke
ter tako zmanjšali diskriminantno moˇc podatkovja.
Spremenljivka Xi je šibko relevantna, cˇ e velja
Pr(C | Xi , S) = Pr(C | S)
in ∃S ⊂ S0 , tako da je Pr(C | Xi , S0 ) 6= Pr(C | S0 ). To pomeni, da odstranitev spremenljivke
Xi iz podatkovne tabele ne popaˇci napovedi odvisne spremenljivke, vendar pa njena odstranitev vpliva na napoved razreda na osnovi podmnožice S. Spremenljivka zato ni nujno
potrebna, vendar mora biti prisotna v nekaterih podmnožicah (v optimalni podmnožici
ni nujno potrebna), ko postane pomembna v kombinaciji z ostalimi spremenljivkami
(slika 3.2).
Spremenljivka Xi je nerelevantna, cˇ e
∀S0 ⊆ S,
Pr(C | Xi , S0 ) = Pr(C | S0 ).
Spremenljivka Xi v tem primeru ne vpliva na napoved odvisne spremenljivke, ne glede
na izbrano podmnožico.
3.2.2 Redundantnost
V razdelku 3.2.1 smo povedali, da optimalna podmnožica spremenljivk vkljuˇcuje vse
moˇcno relevantne spremenljivke in podmnožico šibko relevantnih spremenljivk ter izkljucˇ uje vse nerelevantne spremenljivke. S konceptom redundantnosti pa si pomagamo pri
presoji, katere šibko relevantne spremenljivke je smiselno obdržati. Pri razlagi koncepta
redundantnosti si bomo pomagali z markovsko odejo (angl. Markov blanket) (Koller &
Sahami, 1996; Pearl, 1988).
Naj bo M podmnožica spremenljivk iz množice spremenljivk X, ki ne vsebuje spremenljivke Xi ; torej je M ⊆ X in Xi 6∈ M. Potem reˇcemo, da je M markovska odeja
za spremenljivko Xi , cˇ e je ta pogojno neodvisna od ( X ∪ C ) − M − { Xi } pri M, torej
Pr( X − M − { Xi }, C | Xi , M) = Pr( X − M − { Xi }, C | M ). Markovsko odejo si lahko predstavljamo s pomoˇcjo Bayesove mreže2 . Markovsko odejo za izbrani podatkovni objekt
sestavljajo starševska vozlišˇca, vozlišˇca potomcev ter starševska vozlišˇca skupnih otrok
(slika 3.3).
2 Bayesova
domeni.
mreža je statistiˇcni model, ki grafiˇcno predstavi soodvisnosti med podatkovnimi objekti v izbrani
37
3 Izbira spremenljivk
●
●
3
●
●
●
X2
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
● ●
● ● ●
●
● ●●
●
●
● ●
●
●
● ●●
● ●
●
●
● ● ●
●●
●
●
●●●
●
●
●
●
●
● ●
● ●
●
●
●
●
●
●
●
●
● ●
● ●●
●
●
●●
●
●
●
●
●
●
2
● ●
●
●
●
1
0
●
●
●
●●
−1
●
−2
●
●
0
●
2
X1
(a)
2
●
●
●
1
●
X2
●
●
●
0
●
●
●●
●
●
●
●● ●
● ●
●
●
●
● ●
●
●
●
●
● ●
●
●
●
●● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●● ●
●
●
−1
●
●
●
●
●
● ●
●
●
●
●●
●
●●
●
●
●
●●
●
●●
●
2
X1
●
●
●● ●●
1
●
●●
●
●
−2
0
●
●
●
3
4
(b)
Slika 3.2: Relevantnost spremenljivk. Na slikah (a) in (b) sta prikazana primera, kjer
individualna obravnava spremenljivk X1 in X2 narekuje njuno nerelevantnost.
ˇ spremenljivki obravnavamo skupaj, postaneta obe relevantni.
Ce
38
3.3 Optimalna podmnožica spremenljivk
a
c
b
e
d
g
f
X
i
h
j
Slika 3.3: Ilustracija markovske odeje s pomoˇcjo Bayesove mreže. Markovsko odejo M za
spremenljivko X sestavlja množica vozlišˇc {d, e, f , g, h, i }.
Denimo, da z G oznaˇcimo množico spremenljivk, tako da je G ⊂ X. Reˇcemo, da je
spremenljivka v G redundantna, cˇ e je šibko relevantna ter jo lahko pokrijemo z markovsko odejo. Tako spremenljivko iz podatkovja odstranimo.3 Optimalno množico potem
sestavljajo le moˇcno relevantne ter šibko relevantne in neredundantne spremenljivke.4
3.3 Optimalna podmnožica spremenljivk
V tem razdelku obravnavamo problem izbire spremenljivk, kot je predstavljen v literaturi
s podroˇcja strojnega uˇcenja (gl. npr. A. R. Webb & Copsey, 2011).
Formalno bomo problem iskanja optimalne podmnožice spremenljivk definirali takole.
Podobno kot zgoraj z G oznaˇcimo podmnožico spremenljivk iz množice vseh spremenljivk
3 Bralec
bo podroben pregled postopkov za izbiro spremenljivk s pomoˇcjo markovske odeje našel v Fu in
Desmarais (2010).
4 Raˇ
cunanje markovske odeje v realnem podatkovju z velikim številom spremenljivk je zaradi kombinatoriˇcne kompleksnosti seveda nesmiselno. Kot aproksimacijo markovske odeje lahko uporabimo
npr. simetriˇcno negotovost (Press, Teukolsky, Vetterling & Flannery, 1992), ki je definirana s predpisom
"
#
IG( Xi | X j )
SU = ( Xi , X j ) = 2
,
H ( Xi ) + H ( X j )
kjer je IG( Xi | X j ) informacijski prispevek za spremenljivki Xi in X j , H ( Xi ) in H ( X j ) pa sta entropiji
spremenljivk. Reˇcemo, da je X j element markovske odeje za Xi , cˇ e velja SU j,C ≥ SUi,C in SUi,j ≥ SUi,C . Z
SUi,C je oznaˇcena korelacija med spremenljivko Xi in odvisno spremenljivko C.
39
3 Izbira spremenljivk
X. Pr(C | x ) naj oznaˇcuje posteriorno verjetnost odvisne spremenljivke C pri vektorju
meritev x nad množico spremenljivk X. Podobno bomo s Pr(C | g) oznaˇcili posteriorno
verjetnost odvisne spremenljivke pri vektorju meritev g nad spremenljivkami G. Cilj
postopka je izbira take podmnožice G, da se bosta pogojni verjetnosti Pr(C | x ) in Pr(C | g)
kar najmanj razlikovali.
Od tu dalje si pomagamo s Kullback–Leiblerjevo (KL) divergenco. Za porazdelitvi µ(z) in
σ(z) je KL-divergenca definirana s predpisom
KL(µ | σ) =
∑ µ(z) log
z
µ(z)
σ(z)
.
(3.1)
KL-divergenca meri stopnjo napake, ki jo zagrešimo, ko za aproksimacijo porazdelitve
µ uporabimo σ. V našem primeru bomo (3.1) preuredili in poiskali tako podmnožico
spremenljivk, da bo
δG ( x ) = KL (Pr (C | x ) | Pr (C | g))
Pr (C | x )
= ∑ Pr (C | x ) log
Pr (C | g)
C
(3.2)
karseda majhna. Obrazec (3.2) ovrednoti samo en primer, zato je treba izraˇcunati še
skupno divergenco za celotno podatkovje po obrazcu
∆G =
∑ Pr (x)δG (x) .
x
V praksi pa se pri raˇcunanju KL-divergence sreˇcamo z dvema problemoma: (i) prave
porazdelitve Pr(C | x ) oz. Pr(C | g) ne poznamo in (ii) raˇcunanje ∆G za vse možne podmnožice je pri veˇcjem številu spremenljivk raˇcunsko preveˇc zahtevno.
Pri uvršˇcanju nam bo zato prav prišla operacionalna definicija iskanja relevantnih spremenljivk (Jain & Zongker, 1997; Kohavi & John, 1997). Denimo, da imamo podatkovje D
s spremenljivkami X1 , X2 , . . . , X p ter algoritem uvršˇcanja I . Optimalno podatkovje Dopt
potem združuje tiste spremenljivke, pri katerih je kakovost induciranega klasifikatorja
I(D) karseda visoka.
3.4 Pregled postopkov za optimalno izbiro spremenljivk
Literatura s podroˇcja strojnega uˇcenja deli postopke izbire spremenljivk glede na odnos
med procesoma izbire optimalne podmnožice in indukcije klasifikatorja na tri skupine
(Guyon & Elisseeff, 2003): (i) filtracijski, (ii) ovojni in (iii) vgrajeni postopki. V nadaljevanju
naredimo kratek pregled vseh treh sklopov postopkov.
40
3.4 Pregled postopkov za optimalno izbiro spremenljivk
3.4.1 Filtracijske metode
Filtracijske metode (John, Kohavi & Pfleger, 1994) sestavijo podmnožico spremenljivk
samo na osnovi statistiˇcnih lastnosti spremenljivk v podatkovni tabeli (npr. razdalje
med podatkovnimi toˇckami, velikosti razlike med spremenljivkami glede na odvisno
spremenljivko). Filtracijske metode so od klasifikatorja neodvisne, kar pomeni, da izbor
optimalne podmnožice spremenljivk opravimo pred indukcijo klasifikatorja (slika 3.4).
Izbor optimalnih spremenljivk obiˇcajno pripravimo tako, da za vsako spremenljivko
izraˇcunamo vrednost izbrane statistike in nato iz urejenega seznama izberemo prvih
m spremenljivk oz. tiste spremenljivke, ki presegajo vnaprej doloˇceno pražno vrednost
(gl. razdelek 3.6.2). Izbiro podmnožice spremenljivk obiˇcajno opravimo le enkrat.
Izbira spremenljivk
Uˇcenje
Ovrednotenje
modela
Slika 3.4: Postopek filtracijske metode
Prednosti filtracijskih metod so predvsem (i) raˇcunska preprostost, (ii) hitrost izbora
optimalnih spremenljivk, (iii) moˇc uporabe na podatkovnih tabelah z ogromnim številom
spremenljivk ter (iv) dobra odpornost proti preprileganju (Guyon & Elisseeff, 2003; Kohavi
& John, 1997). Med glavnimi pomanjkljivostmi velja omeniti, da (i) je veˇcina filtracijskih
metod enorazsežnih in zato ne upoštevajo morebitne povezanosti med spremenljivkami,
(ii) je preiskovanje v prostoru spremenljivk loˇceno od preiskovanja v prostoru hipotez in
(iii) je ozko grlo arbitrarna izbira pražne vrednosti.
Primeri enorazsežnih filtracijskih metod so npr. t-test, χ2 -test, evklidska razdalja in
informacijski prispevek. Med veˇcrazsežne metode pa uvršˇcamo pristope CFS (Hall, 1999),
MBF (Koller & Sahami, 1996) in FCBF (L. Yu & Liu, 2004). Tipiˇcen predstavnik filtracijskih
metod je tudi Relief (Kira & Rendell, 1992).
3.4.2 Ovojne metode
Ovojne metode (John in sod., 1994; Kohavi & John, 1997) temeljijo na rekurzivnem sestavljanju optimalne podmnožice spremenljivk. Postopek sestavljata dva koraka (slika 3.5):
(i) izbor podmnožice spremenljivk in (ii) preizkus kakovosti klasifikatorja, s cˇ imer ovrednotimo ustreznost izbrane podmnožice. Zato pravimo, da je postopek izbire spremenljivk
ovit (angl. wraparound) okoli klasifikatorja.
Algoritmiˇcno najpreprostejše je požrešno preiskovanje in vrednotenje vseh možnih podmnožic spremenljivk, tako da v vsakem koraku sledimo lokalno najvišji vrednosti kriterijske funkcije. V mnogih primerih požrešno preiskovanje ne prinese optimalne rešitve,
vendar pa najde lokalno optimalno rešitev, ki se približa globalni optimalni rešitvi. Pri
zelo širokih podatkovnih tabelah je požrešno preiskovanje raˇcunsko preveˇc zahtevno, zato
za doloˇcitev optimalne podmnožice uporabimo razliˇcne hevristiˇcne pristope. Te delimo
na deterministiˇcne in sluˇcajne.
41
3 Izbira spremenljivk
Izbira atributov in ovrednotenje
Priprava podmnožice spremenljivk
Uˇcenje
Ovrednotenje
modela
Slika 3.5: Postopek ovojne metode
Veˇcina ovojnih metod je multivariatnih, kar pomeni, da pri izboru optimalne podmnožice
spremenljivk upoštevamo korelacije med njimi. Med glavnimi slabostmi pa sta predvsem
(i) raˇcunska zahtevnost, ki narašˇca s številom spremenljivk, ter (ii) poveˇcana obˇcutljivost za
preprileganje (zlasti na podatkovnih tabelah z majhnim številom primerov), saj algoritem
uvršˇcanja in vrednotenje napajamo le na uˇcnih podatkih. Kakovost obiˇcajno preizkušamo
s preˇcnim preverjanjem, vendar Kohavi in John (1997) zaradi poˇcasnosti te strategije
priporoˇcata uporabo neodvisne testne množice (gl. razdelek 5.3.4).
Pri ovojnih metodah loˇcujemo med deterministiˇcnimi in stohastiˇcnimi postopki izbire
spremenljivk (Stracuzzi, 2012). Med deterministiˇcnimi metodami bomo našli algoritme,
kot so npr. zaporedna izbira naprej (angl. incremental forward selection) (R. Ruiz, Riquelme
& Aguilar-Ruiz, 2006), zaporedna izbira nazaj (angl. incremental backward elimination)
(Potamias, Koumakis & Moustakis, 2004), izbira plus l – odstrani r (angl. plus q take-away
r) (Ferri, Pudil, Hatef & Kittler, 1994) ter iskanje v snopu (angl. beam search) (Siedelecky &
Sklansky, 1988). Predstavniki sluˇcajnih metod pa so npr. RHC (Skalak, 1994), EDA (Inza,
Larrañaga, Etxeberria & Sierra, 2000) in simultano ohlajevanje (Stracuzzi, 2012).
3.4.3 Vgrajene metode
Pri vgrajenih metodah je proces iskanja optimalne podmnožice spremenljivk sestavni
del klasifikatorja. Izbiro spremenljivk opravimo med procesom uvršˇcanja. Pravimo, da
optimalno rešitev išˇcemo v združenem prostoru spremenljivk in (uˇcnih) hipotez. Najbolj
ilustrativen primer vgrajene metode so klasifikacijska drevesa (npr. CART (Breiman,
Friedman, Olshen & Stone, 1984), C4.5 (Quinlan, 1993)), pri katerih za uvršˇcanje optimalno
spremenljivko izberemo v vsakem vozlišˇcu drevesa posebej. Rešitev vgrajenih metod je
odvisna od uporabljenega klasifikatorja. Raˇcunsko so manj zahtevne kot ovojne metode
ter bolj odporne proti preprileganju.
Poleg že omenjenih klasifikacijskih dreves k vgrajenim metodam uvršˇcamo še uteženi
naivni Bayesov klasifikator (Duda, Hart & Stork, 2001), izbiro spremenljivk s pomoˇcjo
metode podpornih vektorjev (Guyon, Weston, Barnhill & Vapnik, 2002; J. Zhu, Rosset,
Hastie & Tibshirani, 2004) in logistiˇcne regresije (Cawley, Talbot & Girolami, 2007).
42
3.5 Mere za vrednotenje podmnožice izbranih spremenljivk
Uˇcenje
Izbira spremenljivk
in ovrednotenje
Ovrednotenje
modela
Slika 3.6: Postopek vgrajene metode
3.5 Mere za vrednotenje podmnožice izbranih spremenljivk
Izbrana podmnožica spremenljivk mora zagotavljati optimalno diskriminativnost glede
na odvisno spremenljivko. V nadaljevanju razdelka naredimo pregled razliˇcnih mer, s
katerimi vrednotimo relevantnost in redundantnost podmnožice spremenljivk. Te pristope
v grobem razdelimo na dve skupini: (i) mere, ki temeljijo na splošnih lastnostih podatkovja,
in (ii) mere, ki za vrednotenje uporabijo klasifikacijsko pravilo.
3.5.1 Mere za vrednotenje podmnožice izbranih spremenljivk, ki temeljijo na
splošnih lastnostih podatkovne tabele
V to skupino postopkov uvršˇcamo mere za ocenjevanje relevantnosti posameznih spremenljivk in mere, ki so osnovane na primerjavi porazdelitev celotne in izbrane množice
spremenljivk. Predstavljene mere so neodvisne od klasifikacijskega pravila in so sestavna
komponenta filtracijskih metod (gl. razdelek 3.4.1).
Rangiranje spremenljivk
Rangiranje posameznih spremenljivk je najpreprostejši pristop k odstranjevanju nerelevantnih oz. redundantnih spremenljivk. Mere so raˇcunsko preproste, ne zahtevajo ocenjevanja
gostote verjetnosti porazdelitev ter jih lahko brez posebnih omejitev uporabljamo tudi
nad diskretnimi podatki.
V to skupino postopkov uvršˇcamo raˇcunanje (i) linearne povezanosti med pari spremenljivk, (ii) vzajemno informacijo, s katero merimo nelinearno povezanost, ter (iii) simetriˇcno
negotovost. Višja ko je vrednost mere, bolj redundantna je spremenljivka v paru. Nekatere
spremenljivke postanejo relevantne šele ob prisotnosti drugih spremenljivk (gl. sliko 3.2a),
zato je pri konˇcnem rangiranju to smiselno upoštevati; uporabimo lahko npr. metodologijo
Relief (Kira & Rendell, 1992).
43
3 Izbira spremenljivk
Razdalja med razredi
Redundantnost spremenljivk merimo s pomoˇcjo razdalje med razredi posameznih primerov. Povpreˇcno razdaljo Jas med razredoma ω1 in ω2 bomo izraˇcunali po obrazcu
Jas =
1
n1 n2
n1 n2
∑ ∑ d ( xi , y j )
(3.3)
i =1 j =1
za xi ∈ ω1 in yi ∈ ω2 . d( x, y) v (3.3) je razdalja med primeroma x in y, merjena s poljubno
ˇ je razredov C > 2, se obrazec glasi
metriko. Ce
J=
C
1 C
Pr(ωi ) ∑ Pr(ω j ) Jas (ωi , ω j ),
∑
2 i =1
j =1
(3.4)
ˇ v (3.3) razdaljo med x in y merimo z
kjer je Pr(wi ) apriorna verjetnost za razred ωi . Ce
evklidsko metriko ter d( x, y) kvadriramo, dobimo (A. R. Webb & Copsey, 2011)
ˆ ),
J = J1 = sl(SW + S B ) = sl(Σ
kjer je SW razpršenost znotraj razredov, S B pa razpršenost med razredi. Poiskati moramo
tako podmnožico spremenljivk, za katero bo razpršenost znotraj razredov karseda majhna,
med razredi pa karseda velika. V ta namen lahko uporabimo razliˇcne kriterije (A. R. Webb
& Copsey, 2011), npr.
−1
J2 = sl(SW
S B ).
Verjetnostna razdalja
Verjetnostna razdalja meri razdaljo med porazdelitvama Pr( x | ω1 ) in Pr( x | ω2 ). Pri izbiri optimalne podmnožice spremenljivk išˇcemo tako verjetnostno razdaljo, da bodo
razredi med seboj karseda oddaljeni. Za mero podobnosti lahko uporabimo npr. Chernoffovo, Bhattacharyyevo, Patrick-Fisherjevo mero razliˇcnosti ali pa Kullback-Leiblerjevo
divergenco. Slednjo bomo izraˇcunali po obrazcu (A. R. Webb & Copsey, 2011)
Z
Pr( x | ω1 )
JD (ω1 , ω2 ) = [Pr( x | ω1 ) − Pr( x | ω2 )] log
dx.
(3.5)
Pr( x | ω2 )
V primeru normalne porazdelitve lahko veˇcino mer izraˇcunamo analitiˇcno. Obrazec (3.5)
se v tem primeru poenostavi v
1
JD = (µ2 − µ1 )T Σ1−1 + Σ2−1 (µ2 − µ1 ) + sl Σ1−1 Σ2 + Σ1−1 Σ2 − 2I .
2
V primeru veˇc razredov kriterijsko funkcijo izraˇcunamo za vse pare razredov in izberemo
najdaljšo razdaljo (A. R. Webb & Copsey, 2011),
J = max J (ωi , ω j ),
i,j
kjer je i 6= j.
44
3.6 Algoritmi za iskanje optimalne podmnožice spremenljivk
Verjetnostna odvisnost
Mere verjetnostne odvisnosti merijo razdaljo med pogojnimi gostotami razredov in
skupno, mešano gostoto verjetnosti.
ˇ sta gostoti Pr( x | ωi ) in Pr( x ) enaki, sta x in ωi med seboj neodvisna. Veˇcja ko je razdalja
Ce
med porazdelitvama, bolj je x odvisen od razreda ωi . Za mero razdalje lahko vzamemo
npr. Chernoffovo, Bhattacharyyevo, Joshijevo ali Patrick-Fisherjevo mero razliˇcnosti (A. R.
Webb & Copsey, 2011).
Uporaba verjetnostne odvisnosti je v praksi omejena, saj razdalj ne moremo izraˇcunati
analitiˇcno (A. R. Webb & Copsey, 2011).5
3.5.2 Mere za vrednotenje podmnožice izbranih spremenljivk, ki temeljijo na
klasifikacijskem pravilu
Stopnja napake
V to skupino mer uvršˇcamo klasiˇcne mere kakovosti uvršˇcanja, kot so npr. toˇcnost uvršˇcanja, χ2 -preizkus, informacijski prispevek in razmerje obetov (Forman, 2003; Japkowicz
& Shah, 2011). Oceno kakovosti uvršˇcanja merimo na neodvisni množici podatkov; cˇ e ta
ni na voljo, pa lahko uporabimo preˇcno preverjanje, metodo pipca ali zankanje.
3.6 Algoritmi za iskanje optimalne podmnožice spremenljivk
V splošnem loˇcimo tri skupine algoritmov za iskanje optimalne podmnožice spremenljivk: (i) popolno iskanje, (ii) zaporedno iskanje ter (iii) sluˇcajno iskanje. V nadaljevanju
naredimo kratek pregled vseh treh skupin.
3.6.1 Popolno iskanje
Kot primer popolnega iskanja bomo obravnavali algoritem razvejevanja in omejevanja.
Razvejevanje in omejevanje
Algoritem razmejevanja in omejevanja (angl. branch and bound) je naˇcin iskanja optimalne
podmnožice spremenljivk, pri katerem ni treba preiskati celotnega prostora vseh možnih
podmnožic. Algoritem zaˇcne s preiskovanjem prostora p spremenljivk ter gradi drevo z
zaporednim izloˇcanjem spremenljivk. Za množici spremenljivk X in Y naj velja lastnost
monotonosti6
X ⊂ Y ⇒ J ( X ) < J (Y ) ,
(3.6)
5 Tudi
cˇ e so pogojne gostote verjetnosti po razredih normalne, se mešana gostota ne porazdeljuje normalno.
ni nujno restriktivna (Narendra & Fukunaga, 1977).
6 Monotonost
45
3 Izbira spremenljivk
kar pomeni, da mora biti vrednost kriterijske funkcije J, izraˇcunana nad podmnožico
spremenljivk X, manjša kot vrednost kriterijske funkcije izraˇcunana nad množico Y.
Algoritem bomo ilustrirali na primeru.
Primer 12. V podatkovni tabeli imamo pet spremenljivk, izmed katerih bi radi izbrali tri najboljše.
Postopek izbiranja spremenljivk bomo predstavili z drevesom, v katerem bodo vozlišˇca oznaˇcevala
vse možne podmnožice s tremi, štirimi oz. petimi spremenljivkami (slika 3.7).
(1, 2, 3, 4, 5)
(2, 3, 4, 5)
(1, 3, 4, 5)
0
(1, 2, 4, 5)
(3, 4, 5) (2, 4, 5) (2, 3, 5) (2, 3, 4) (1, 4, 5) (1, 3, 5) (1, 3, 4)
(1, 2, 5) (1, 2, 4)
(1, 2, 3, 5) 1
(1, 2, 3)
2
Slika 3.7: Postopek izbiranja spremenljivk z algoritmom razvejevanja in omejevanja predstavimo z drevesom. Vozlišˇca ponazarjajo možne podmnožice s petimi, štirimi
oz. tremi spremenljivkami.
Drevo preiskujemo od najmanj gostega proti najbolj gostemu delu; v našem primeru torej od
desne proti levi. Zaˇcnemo v vozlišˇcu {1, 2, 3} z vrednostjo kriterijske funkcije J = 77.2 (slika 3.8).
Trenutno maksimalno vrednost kriterijske funkcije bomo shranili v J ∗ . Preko korenskega vozlišˇca se
pomaknemo v vozlišˇce {1, 2, 4, 5}. V tem vozlišˇcu je vrednost kriterijske funkcije J (1, 2, 4, 5) veˇcja
od J ∗ , zato nadaljujemo po drevesu navzdol, v vozlišˇce {1, 2, 4}. Vrednost kriterijske funkcije je
manjša (J ({1, 2, 4}) = 76.2) od trenutnega maksimuma J ∗ . Premaknemo se v sosednje vozlišˇce
{1, 2, 5}, v katerem kriterijska funkcija spet doseže maksimalno vrednost (J ∗ = 80.1). Vrnemo se v
korensko vozlišˇce ter preiskovanje nadaljujemo v vozlišˇcu {1, 3, 4, 5}. Ker je vrednost kriterijske
funkcije manjša od J ∗ , to vejo preskoˇcimo. Podobno se zgodi v vozlišˇcu {2, 3, 4, 5}, zato preiskovanje
zakljuˇcimo. Optimalno podmnožico torej sestavljajo spremenljivke {1, 2, 5}.
92.1
76.7
60.9
0
80.4
80.1
76.2
81.6
1
77.2
2
Slika 3.8: Postopek izbiranja spremenljivk z algoritmom razvejevanja in omejevanja. V
vozlišˇcih drevesa so predstavljene vrednosti kriterijske funkcije.
Z opisanim postopkom zaradi lastnosti (3.6) ni bilo treba preiskati celotnega drevesa, vendar smo
kljub temu dobili optimalno podmnožico treh spremenljivk.
46
3.6 Algoritmi za iskanje optimalne podmnožice spremenljivk
3.6.2 Zaporedno iskanje
Popolnega iskanja (gl. razdelek 3.6.1) ni moˇc uporabiti v vsaki situaciji. Pri algoritmu
razvejevanja in omejevanja namreˇc število pregledanih podmnožic raste eksponentno s
številom spremenljivk, kar že ob širši podatkovni tabeli pomeni neobvladljiv problem.
Poleg tega ni nujno, da v vseh vozlišˇcih drevesa velja predpostavka monotonosti. Zato
popolno preiskovanje pogostokrat nadomestimo z zaporednim preiskovanjem. Pravimo,
da so algoritmi zaporednega iskanja suboptimalni, saj preišˇcejo le tiste podmnožice
spremenljivk, za katere upajo, da bo med njimi najbolj optimalna. Primeri zaporednega
preiskovanja so npr. (A. R. Webb & Copsey, 2011) (i) najboljših N, (ii) (posplošena)
zaporedna izbira naprej, (iii) (posplošena) zaporedna izbira nazaj, (iv) (posplošena) izbira
plus l – odstrani r ter (v) postopki plavajoˇcega iskanja. V nadaljevanju si oglejmo prve tri
pristope.
Najboljših N
Najboljših N (angl. best individual N) je eden od najpreprostejših in najpogosteje uporabljenih pristopov za iskanje optimalne podmnožice spremenljivk. Za vsako spremenljivko
izraˇcunamo vrednost kriterijske funkcije (npr. t-test, kjer odvisno spremenljivko pomeni
razred), nato pa glede na vrednost kriterija spremenljivke uredimo po velikosti, tako da
je npr.
J ( X1 ) ≥ J ( X2 ) ≥ · · · ≥ J X p .
V podmnožico optimalnih spremenljivk uvrstimo prvih N spremenljivk z najboljšim
dosežkom. Velikost podmnožice podamo s parametrom N.
Kot alternativo opisanemu postopku lahko uporabimo metodo ugnezdenih podmnožic
(Guyon, 2008), kjer so
S1 = { X1 } , S2 = { X1 , X2 } , . . . , S p = { X1 , . . . , X p } .
Za vsako podmnožico spremenljivk izraˇcunamo vrednost kriterijske funkcije in kot
optimalno izberemo tisto podmnožico, ki ima karseda visoko vrednost kriterijske funkcije
ter hkrati cˇ im manjše število spremenljivk.
Zaporedna izbira naprej
Zaporedna izbira naprej je algoritem iskanja od spodaj navzgor, ki v vsaki iteraciji v
podmnožico doda po eno spremenljivko.
Denimo, da imamo podmnožico d1 spremenljivk, ki jo oznaˇcimo z Xd1 ; Xd1 je na zaˇcetku
prazna množica. Za vsako od spremenljivk ξ j ∈ X − Dd1 izraˇcunamo vrednost kriterijske
funkcije Jj = J ( Xd1 + ξ j ). Spremenljivko z najvišjo vrednostjo kriterija nato uvrstimo v
podmnožico Xd1 . Postopek nadaljujemo toliko cˇ asa, dokler se vrednost kriterija poveˇcuje,
oz. ga ustavimo, ko dosežemo vnaprej izbrano število spremenljivk. Pomanjkljivost
algoritma je mehanizem za odstranjevanje že izbranih spremenljivk.
47
3 Izbira spremenljivk
Zaporedna izbira nazaj
Jedro algoritma zaporedne izbire nazaj je podobno kot pri zaporedni izbiri naprej (gl. razdelek 3.6.2), le da postopek izbire spremenljivk poteka od zgoraj navzdol.
Algoritem za vsako od ξ j spremenljivk iz polne množice X izraˇcuna vrednost kriterijske
funkcije J ( X − ξ j ) ter izbere tisto spremenljivko, za katero je vrednost kriterija najveˇcja.
Izbrano spremenljivko uvrsti v podmnožico { X − ξ j }. Postopek ponavljamo toliko cˇ asa,
dokler ne dosežemo vnaprej doloˇcenega števila spremenljivk. Algoritem je raˇcunsko
zahtevnejši od zaporedne izbire naprej, saj zaˇcnemo kriterijsko funkcijo raˇcunati nad
polno množico spremenljivk.
3.6.3 Slučajno iskanje
Sluˇcajno iskanje optimalne podmnožice spremenljivk uporabimo v dveh primerih: (i) ko
obstaja nevarnost, da se algoritem popolnega oz. zaporednega preiskovanja ustavi v
lokalnem ekstremu, in (ii) ko je prostor spremenljivk prevelik, da bi ga preiskovali s
popolnimi oz. zaporednimi algoritmi.
Podatkovno tabelo obiˇcajno sluˇcajimo tako, da po sluˇcaju izberemo manjše število spremenljivk. Prva možnost je, da po sluˇcajnem izboru spremenljivk nadaljujemo s katerim
od algoritmov zaporednega preiskovanja. Primer je npr. algoritem simuliranega ohlajanja
(angl. simulated annealing) (Stracuzzi, 2012). Algoritem izboljšuje zaˇcetno stanje tako, da
v podmnožici del spremenljivk mutira; cˇ e je vrednost kriterijske funkcije po mutaciji
višja kot pred mutacijo, novo stanje obdržimo, sicer pa ne. Druga možnost je ponavljanje
sluˇcajenja, tako da v vsaki iteraciji sestavimo novo podmnožico spremenljivk. Po izbranem številu iteracij izberemo tisto podmnožico, pri kateri je vrednost kriterijske funkcije
najvišja.
3.7 Stabilnost postopkov za izbiro spremenljivk
Razliˇcni postopki izbire spremenljivk lahko vrnejo moˇcno razliˇcne podmnožice spremenljivk. Še veˇc, isti postopek, ponovljen nad isto podatkovno tabelo, a s spremenjenim
sluˇcajnim semenom, praviloma vraˇca razliˇcne podmnožice. Ta uˇcinek je izrazit zlasti
v obrnjenih podatkovnih tabelah, kjer je p >> n. Stabilnost oz. robustnost metode za
izbor spremenljivk definiramo kot razpršenost v podmnožicah izbranih spremenljivk ob
ponovljenih poskusih (Pengyi Yang, Zhou, Yang & Zomaya, 2013). Stabilnost je za dobro
interpretativnost rešitve prav tako pomembna kot visoka kakovost uvršˇcanja.
48
3.7 Stabilnost postopkov za izbiro spremenljivk
Merjenje stabilnosti rešitev
Stabilnost st obiˇcajno merimo s podobnostjo med pari razliˇcnih podmnožic spremenljivk
po obrazcu (Saeys, Abeel & Peer, 2008; Pengyi Yang in sod., 2013)
st =
2 ∑ik=−11 ∑kj=i+1 S( f i , f j )
k ( k − 1)
,
kjer je k število razliˇcnih podatkovnih množic, f i rešitev, ki jo ponuja i-ta metoda (oz. i-ta
sluˇcajna podmnožica spremenljivk), ter S( f i , f j ) podobnost med rešitvama f i in f j .
Kot mero podobnosti med pari rešitev lahko npr. uporabimo Jaccardov koeficient (Pengyi
Yang in sod., 2013)
| fi ∩ f j |
S( f i , f j ) =
| fi ∪ f j |
ali pa Spearmanov koeficient korelacije rangov (Pengyi Yang in sod., 2013), ki ga izraˇcunamo po obrazcu
2
N
f il − f jl
S( f i , f j ) = 1 − 6 ∑
,
n ( n2 − 1)
l =1
kjer sta f il in f jl izraˇcunana ranga za spremenljivko l za metodo i oz. metodo j, n pa
oznaˇcuje število spremenljivk.
49
4 Sestavljanje spremenljivk
4.1 Uvod
Sestavljanje spremenljivk je postopek transformacije merskih spremenljivk, v katerem z
(ne)linearnimi kombinacijami doloˇcimo manjše število novih, latentnih spremenljivk (H.
Liu & Motoda, 1998). Latentne spremenljivke konstruiramo tako, da karseda optimalno
povzamemo informacijo, ki jo ponujajo merske spremenljivke. V domenskem jeziku bi
natanˇcneje rekli, da želimo poiskati tako projekcijo podatkovne tabele, da bo vrednost
kriterijske funkcije karseda visoka. Kot kriterijsko funkcijo lahko npr. izberemo koliˇcino
informacije, ki jo z zmanjšanjem podatkovnega prostora ohranimo.
Glavna ideja linearnega krˇcenja razsežnosti z doloˇcanjem latentnih spremenljivk temelji
na projekciji merskih spremenljivk X1 , X2 , . . . , X j v nižjerazsežni prostor sestavljenih spremenljivk Z1 , Z2 , . . . , Zj s pomoˇcjo linearne transformacije Φ. Z Z1 , Z2 , . . . , ZM oznaˇcimo
M < p linearnih kombinacij p merskih spremenljivk, tako da je
p
Zm =
∑ φjm Xj
j =1
za izbrane konstante φ1m , φ2m , . . . , φ pm , m = 1, . . . , M (James, Witten, Hastie & Tibshirani,
2013). Nadzorovane metode krˇcenja transformacijsko matriko Φ optimizirajo tako, da
upoštevajo porazdelitev odvisne spremenljivke, nenadzorovane metode pa ne.
Primer 13. Na sliki 4.1 je prikazan rezultat krˇcenja razsežnosti podatkovne tabele z doloˇcanjem
pomembnih latentnih spremenljivk. 11 merskih spremenljivk smo nadomestili z dvema obteženima
vsotama. S postopkom krˇcenja smo ohranili 55 % celotne razpršenosti merskih spremenljivk ter
lepo razkrili strukturo podatkovja.
4.2 Latentne spremenljivke
Uveljavljeni uˇcbeniki s podroˇcja sodobnih statistiˇcnih metod (npr. Hastie in sod., 2011,
James in sod., 2013, R. A. Johnson & Wichern, 2007, A. R. Webb & Copsey, 2011) ter
specializirane monografije (npr. Bartholomew in sod., 2011) doloˇcanje latentnih spremenljivk obravnavajo izkljuˇcno v navezavi na nenadzorovano uˇcenje. Glede na tip vhodnih
in izhodnih spremenljivk so Bartholomew in sod. (2011) metode za analizo latentnih
spremenljivk razdelili v štiri kategorije (tabela 4.1). Nas bo zanimala le kombinacija
51
4 Sestavljanje spremenljivk
4
●
Razred
●
Z2
2
0
−2
●
● 1
● ●
●
●
●
●● ●
●
●
●
●
●
●● ●
● ●● ● ●●
● 2
●●●● ● ●
●●
●
●
●●
●●●●● ●
● ●
●
●
●
● 3
●● ●
● ● ●
●
●●
●● ●
●
● ●
●
●
●
● ●
●
●
● ● ●●
●
●
● ●
● ● ● ●●
●
● ●●
●●●
●
●●
●●
●
●
●●
●●
●
●●
●
●
● ●●● ●
●●
●●
●
●●
●
●
● ● ●●
● ● ●
●●
●
●
●● ●
●
●● ●
●
●●
●● ●
● ●
●
●
●
●●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
● ●
●
−2.5
0.0
Z1
2.5
Slika 4.1: Krˇcenje razsežnosti podatkovne tabele z doloˇcitvijo sestavljenih spremenljivk.
Podatkovje obsega 11 merskih spremenljivk, ki smo jih z eno od metod dolocˇ anja znaˇcilk projicirali v nov koordinatni sistem. Kljub moˇcno zmanjšanemu
obsegu podatkovja lepo prepoznamo njegovo notranjo strukturo. Barva primerov oznaˇcuje pripadnost razredu. Prikaz je narejen za podatkovje wine.data s
spletnega podatkovnega skladišˇca UCI Machine Learning Repository.
številskih merskih spremenljivk in številskih latentnih spremenljivk, med katerimi je
najbolj znana družina postopkov faktorske analize.1
Tabela 4.1: Razvrstitev metod za analizo latentnih spremenljivk
Merska
Latentna
Številska
Diskretna
Številska
Faktorska analiza
Analiza latentnih potez
Diskretna
Analiza latentnih profilov
Analiza latentnih razredov
V podatkovni analitiki pogosto naletimo na situacijo, ko v ozadju (kompleksnega) modeliranega fenomena (ki ga obiˇcajno opisujemo v mnogorazsežnem prostoru) leži manjše
število latentnih spremenljivk, ki so za opis tega fenomena zadostne (Bartholomew in
sod., 2011; Everitt, 1984).
Primer 14. Obravnavajmo problem interpretacije preproste 2 × 2 kontingenˇcne tabele. Primer
je prirejen po Bartholomew in sod. (2011). Denimo, da sestavimo vzorec 1000 pacientov. V
spremenljivko A bomo shranili paciente, ki kadijo, v spremenljivko B pa paciente, ki so oboleli za
rakom pljuˇc. Urejeni podatki so prikazani v tabeli 4.2. Pokažemo lahko, da sta obe spremenljivki
med seboj razmeroma moˇcno povezani; Yulov koeficient korelacije (Agresti, 2013) med njima znaša
1 Kot
najbolj preprosto metodo faktorske analize v nadaljevanju obravnavamo analizo glavnih komponent.
Dober pregled nad vsemi štirimi sklopi metod ponujajo npr. Bartholomew in sod., 2011, ali Bartholomew,
2013.
52
4.2 Latentne spremenljivke
Q = 0.3. Pri kadilcih znaša verjetnost obolenja za rakom pljuˇc Pr( B | A) = 0.7, pri nekadilcih pa
Pr( B | A{ ) = 0.4.
Tabela 4.2: Kontingenˇcna tabela z dvema spremenljivkama
B
B{
Total
A
A{
Total
350
150
500
200
300
500
550
450
1000
Zdaj uvedemo še tretjo spremenljivko, nivo izobrazbe; s C oznaˇcimo paciente z nizko stopnjo
izobrazbe, s C{ pa tiste z visoko stopnjo. Razdelitev je prikazana v tabeli 4.3.
Tabela 4.3: Kontingenˇcna tabela s tremi spremenljivkami
C{
C
B
B{
Total
A
A{
Total
A
A{
Total
320
80
400
80
20
100
400
100
500
30
70
100
120
280
400
150
350
500
Ob pregledu tabele opazimo, da znaša povezanost med spremenljivkama A in B glede na spremenljivko C natanko Q = 0. Zato reˇcemo, da sta spremenljivki A in B glede na spremenljivko
C med seboj neodvisni. Kljub temu je vzorec povezanosti med skupinama razliˇcen. V skupini C
znašata verjetnosti dogodkov Pr( B | A) = 0.8 oz. Pr( B | A{ ) = 0.8, medtem ko sta verjetnosti
istih dogodkov pri višje izobraženih Pr( B | A) = 0.30 in Pr( B | A{ ) = 0.3.
Tabelo 4.2 smo razcepili na dve manjši podtabeli (tabela 4.3), tako da sta spremenljivki A in B
postali med seboj neodvisni. Pravimo, da smo poiskali latentno spremenljivko (oz. skupni faktor), s
katero lahko pojasnimo izvorno korelacijo med spremenljivkama A in B.
Problem doloˇcanja latentnih spremenljivk bomo opisali takole. Denimo, da imamo vzorec
{ xi }in=1 d-razsežnih realnih vektorjev. Predpostavka, ki jo bomo privzeli, je, da vzorec podatkovnih toˇck leži v podprostoru (mnogoterosti), v katerem je število razsežnosti mnogo
manjše od d. Cilj zmanjševanja razsežnosti podatkovja je zato poiskati nov koordinatni
sistem, ki bo omogoˇcal karseda dobro projekcijo podatkovnih vektorjev na manjše število
razsežnosti. Problem krˇcenja razsežnosti ilustrirajmo na primeru.
Primer 15. Na sliki 4.2 smo enorazsežno nelinearno mnogoterost M v trirazsežnem prostoru
(tj. spiralo s polmerom R in korakom s) parametrizirali s parametrom t, formalno
M = x ∈ R3 : x = f ( t ) , t ∈ [ t A , t B ] ,
kjer je
f(t) = ( R sin 2πt, R cos 2πt, st)T .
V nadaljevanju se bomo ukvarjali samo z linearnimi mnogoterostmi.
53
4 Sestavljanje spremenljivk
B
M
1
A
0.5
1
0
−1
−0.5
0
0
0.5
1 −1
(a)
tA
tB
(b)
Slika 4.2: Predstavitev enorazsežne nelinearne mnogoterosti M v trirazsežnem prostoru
(a) s segmentom spirale t ∈ [t A , t B ] (b)
4.3 Intrinzična razsežnost podatkovne tabele
Število merskih spremenljivk je obiˇcajno precej veˇcje od števila razsežnosti, ki so (nujno)
potrebne za opis modeliranega fenomena. V problemih, kjer je število podatkovnih toˇck
manjše od števila razsežnosti, število prvih narekuje maksimalno število razsežnosti
podprostora. Pogosto podatki vsebujejo take spremenljivke, ki so za dani problem nerelevantne. Še pogosteje pa najdemo pare spremenljivk, ki so v moˇcni medsebojni korelaciji.
Reˇcemo, da je intrinziˇcna razsežnost podatkovne tabele število stopenj prostosti, ki je
zadostno za opis prouˇcevanega problema (J. A. Lee & Verleysen, 2007).
Pravilna ocena intrinziˇcne razsežnosti je zlasti pomembna v tistih statistiˇcnih aplikacijah,
ki imajo za cilj cˇ im bolj natanˇcen opis podatkovja s cˇ im manjšo izgubo informacije. V
aplikacijah, ki so namenjene prikazovanju podatkov, je število dopustnih razsežnosti
obiˇcajno vnaprej omejeno, zato lahko ta problem izpustimo.
Primer 16. Za poljubno izbrano podatkovno toˇcko A lahko preštejemo vse sosednje toˇcke C A (e), ki
ˇ so toˇcke v prostoru posejane dovolj gosto, lahko priˇcakujemo,
so od toˇcke A oddaljene za najveˇc e. Ce
ˇ je
da se bo koliˇcina Ci (e) poveˇcevala z ed , pri cˇ emer je d intrinziˇcna razsežnost podatkovja. Ce
n
število podatkovnih toˇck omejeno, je C (e) = ∑i=1 Ci (e).
Grassberger in Procaccia (1983) sta definirala
1
× število parov xi , x j za katere je xi − x j < e ,
n → ∞ n ( n − 1)
C (e) = lim
54
(4.1)
4.4 Pregled postopkov za doloˇcanje intrinziˇcne razsežnosti
kjer je n število fiksnih, vnaprej podanih podatkovnih toˇck. Intrinziˇcno razsežnost ν sta ocenila z
naklonom log(C (e)) kot funkcijo log(e). Na sliki 4.3 je prikazana sfera, na kateri smo sluˇcajne
podatkovne toˇcke porazdelili tako, da je gostota porazdelitve veˇcja na obeh temenih.
Slika 4.3: Toˇcke na sferi smo porazdelili tako, da je gostota porazdelitve veˇcja na obeh
temenih sfere
Po (4.1) izraˇcunajmo vrednost statistike C (e) za e na intervalu [0, 1). Odnos med obema koliˇcinama
je prikazan na sliki 4.4. Regresijski nagib znaša β = 1.78. Na sliki je v okolici vrednosti e =
0.01 opazno popaˇcenje med dejanskimi in napovedanimi vrednostmi, kar gre na raˇcun zgostitve
porazdelitve toˇck v obeh temenih sfere. Za prvih 100 podatkovnih toˇck je zato regresijski nagib
β 100 = 1.84 nekoliko višji. Zakljuˇcimo, da znaša intrinziˇcna razsežnost sluˇcajnega podatkovja
ν = 2.
log(C(ε))
−1
−3
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●●●
●●●
●●●
●●●
●
●
●
●●
●●
●●
●●
●●
●●
●●
●
●
−2
−1
log(ε)
0
Slika 4.4: Odnos med log(e) in log(C (e)) za podatkovje na sliki 4.3. Modra cˇ rta oznaˇcuje
premico najboljšega prileganja.
4.4 Pregled postopkov za določanje intrinzične razsežnosti
V tem razdelku naredimo kratek pregled postopkov za doloˇcanje intrinziˇcne razsežnosti
podatkovne tabele. Pregled seveda ni popoln, je pa za naše potrebe dovolj izˇcrpen.2 V
2 Bralec,
ki ga podroˇcje podrobneje zanima, bo veˇc sklicev na literaturo našel v Camastra (2003).
55
4 Sestavljanje spremenljivk
pregledu loˇcujemo med globalnimi in lokalnimi (topološkimi) pristopi k ocenjevanju
intrinziˇcne razsežnosti (Jain & Dubes, 1988).
4.4.1 Lokalne cenilke
Denimo, da v podatkovnem prostoru izberemo poljubno toˇcko in jo oznaˇcimo z A. A
naj bo središˇce hipersfere s polmerom r. V hipersfero vložimo najbližje sosede toˇcke
A. Lokalne cenilke intrinziˇcne razsežnosti temeljijo na predpostavki, da število sosedov
raste sorazmerno z r d , pri cˇ emer je d intrinziˇcna razsežnost mnogoterosti okoli toˇcke
A. Poslediˇcno lahko intrinziˇcno razsežnost ocenimo s preštevanjem števila podatkovnih
toˇck v hipersferi. Postopek obiˇcajno ponovimo še na ostalih podatkovnih toˇckah. V
nadaljevanju predstavimo tri lokalne pristope: (i) korelacijsko razsežnost, (ii) najbližje
sosede in (iii) najveˇcje verjetje.
Korelacijska razsežnost
Ocenjevanje korelacijske razsežnosti je ena od najpreprostejših metod za doloˇcitev optimalne intrinziˇcne razsežnosti (Grassberger & Procaccia, 1983). Relativno število fiksnih
podatkovnih toˇck, ki so vložene v hiperkroglo s polmerom r, definiramo s korelacijskim
integralom (gl. primer 16)
n
n
2
I k xi − x j k ≤ r ,
∑
∑
n → ∞ n ( n − 1)
i =1 j = i +1
C (r ) = lim
kjer je I indikatorska funkcija.
Ker je vrednost korelacijskega integrala C (r ) sorazmerna z r d , lahko intrinziˇcno razsežnost
d izraˇcunamo kot limito
log C (r )
d = lim
.
(4.2)
r →0 log r
Limite v (4.2) eksplicitno ne moremo izraˇcunati. Grassberger in Procaccia (1983) sta zato
predlagala direktno oceno (4.2), po kateri je d smerni koeficient razmerja med log C (r )
in log r. V praksi se je uveljavil tudi pristop, ki sta ga predlagala Camastra in Vinciarelli
(2001); oceno intrinziˇcne razsežnosti v tem primeru izraˇcunamo s pomoˇcjo dveh poljubno
izbranih polmerov r1 in r2 po obrazcu
log(C (r2 ) − C (r1 ))
dˆ =
.
log(r2 − r1 )
V literaturi najdemo nekaj razširitev metode, ki omogoˇcajo oceno korelacijske razsežnosti.
Takensov (1985) pristop npr. na osnovi Fisherjeve metode najveˇcjega verjetja omogoˇci
oceno korelacijske razsežnosti skupaj s pripadajoˇco standardno napako.
56
4.4 Pregled postopkov za doloˇcanje intrinziˇcne razsežnosti
Metoda najbližjih sosedov
Cenilka po metodi najbližjih sosedov izraˇcuna najmanjši polmer r hipersfere, ki je zadosten
za vložitev k najbližjih sosedov. Izraˇcunamo
C (k) =
1
n
∑ Tk (xi ),
i
kjer je Tk ( xi ) polmer najmanjše hipersfere s središˇcem v podatkovni toˇcki xi , ki vkljuˇcuje
k najbližjih sosedov. Podobno kot pri korelacijski razsežnosti intrinziˇcno razsežnost
izraˇcunamo po obrazcu
log(C (k2 ) − C (k1 ))
dˆ =
.
log(k2 − k1 )
V nadaljevanju na kratko opišimo tri algoritme, ki temeljijo na metodi najbližjih sosedov.
Najpreprostejši pristop je predlagal Trunk (1976). Vsakemu primeru v podatkovni tabeli
poišˇcemo k najbližjih sosedov. Nato konstruiramo podprostor, ki ga razpenjajo vektorji
vseh primerov do njegovih k najbližjih sosedov. V naslednjem koraku izraˇcunamo kot
med podprostorom za i-ti primer in njegovimi (k + 1) najbližjimi sosedi. Intrinziˇcna
razsežnost je enaka k, cˇ e je povpreˇcje kotov manjše od vnaprej izbrane pražne vrednosti.
V nasprotnem primeru parameter k poveˇcamo za 1 in postopek raˇcunanja kotov ponovimo.
Arbitrarna izbira pražne vrednosti je glavna pomanjkljivost te metode.
Pettis, Bailey, Jain in Dubes (1979) so predlagali izboljšavo Trunkovega algoritma. Avtorji so predpostavili enakomerno porazdelitev spremenljivk v podatkovju ter ocenili
intrinziˇcno razsežnost na osnovi obrazca
dˆ =
µk
,
( µ k +1 − µ k ) k
kjer je µk aritmetiˇcna sredina razdalj med primeri in njegovimi k najbližjimi sosedi. Izkaže
pa se, da je cenilka, tudi pri majhnih razsežnostih, pristrana (Camastra, 2003). Verveer in
Duin (1995) sta kot izboljšavo predlagala neiterativni algoritem, ki za oceno intrinziˇcne
razsežnosti uporabi linearno regresijo. Oba zadnja algoritma sta moˇcno obˇcutljiva za
podatkovne osamelce (Camastra, 2003).
Metoda največjega verjetja
Podobno kot korelacijska razsežnost in metoda najbližjih sosedov tudi cenilka po metodi
najveˇcjega verjetja modelira število podatkovnih toˇck, vloženih v hipersfero (Levina &
Bickel, 2005). Primere znotraj hipersfere obravnavamo kot homogen Poissonov proces,
cenilko za intrinziˇcno razsežnost pa dobimo z maksimizacijo funkcije logaritma verjetja.
Podrobno izpeljavo cenilke bo bralec našel v Levina in Bickel (2005).
Intrinziˇcno razsežnost d okoli podatkovne toˇcke xi za k najbližjih sosedov izraˇcunamo po
obrazcu
"
# −1
k −1
1
T
(
x
)
i
k
dˆk ( xi ) =
log
,
k − 1 j∑
Tj ( xi )
=1
57
4 Sestavljanje spremenljivk
kjer sta Tk (xi ) in Tj (xi ) evklidski razdalji med xi in k-tim oz. j-tim najbližjim sosedom.
Izraˇcun ponovimo za vse podatkovne toˇcke znotraj hipersfere ter izraˇcunamo povpreˇcno
razsežnost za k najbližjih sosedov po obrazcu
1 n
dˆk = ∑ dk ( xi ).
n i =1
Postopek ponovimo za m vnaprej izbranih vrednosti k. Intrinziˇcna razsežnost podatkovne
tabele je potem
1 m ˆ
dk .
(4.3)
dˆ =
m i∑
=1
Cenilka (4.3) je pristrana; ustrezno obliko nepristrane cenilke z modifikacijo parametra m
bo bralec našel v Levina in Bickel (2005).
4.4.2 Globalne cenilke
Za razliko od lokalnih pristopov globalne metode intrinziˇcno razsežnost ocenijo v enem
koraku nad celotno podatkovno tabelo. V nadaljevanju bomo predstavili tri globalne
pristope: (i) lastne vrednosti, (ii) paketno število in (iii) GMST-cenilko.
Lastne vrednosti
Metoda temelji na raˇcunanju lastnih vrednosti kovarianˇcne matrike s pomoˇcjo spektralnega razcepa. Lastne vrednosti ponujajo informacijo o razpršenosti, ki jo pojasnijo
pripadajoˇci lastni vektorji (Jolliffe, 2002; Kirby, 2001). Prvih d lastnih vrednosti obiˇcajno
moˇcno odstopa od ostalih. Oceno intrinziˇcne razsežnosti pomeni število lastnih vrednosti, katerih vrednost je višja od izbrane pražne vrednosti e. Cenilka po metodi lastnih
vrednosti je pristrana (slika 4.5), saj je ocenjeno število intrinziˇcne razsežnosti višje od
dejanskega (Bishop, 1995).
Paketno število
Metoda števila paketov je zgrajena na predpostavki, da je r-prekrivno število N (r ) sorazmerno z r −d (Kégl, 2002). Število N (r ) oznaˇcuje število hipersfer s polmerom r, ki
jih potrebujemo za prekritje vseh podatkovnih toˇck v podatkovni tabeli. V splošnem je
intrinziˇcna razsežnost podatkovne tabele definirana kot
log N (r )
.
r →0
log r
d = − lim
Ker je iskanje r-prekrivnega števila N (r ) v danem podatkovju raˇcunsko nemogoˇce opravilo, pri izraˇcunu vpeljemo število M (r ). Število M (r ) oznaˇcuje najveˇcje število toˇck
58
4.4 Pregled postopkov za doloˇcanje intrinziˇcne razsežnosti
y
v
u
x
Slika 4.5: Podatkovje Ω sestavljajo podatkovne toˇcke, ki ležijo na zgornjem obsegu krožnice z enaˇcbo x2 + y2 = 1. Metoda lastnih vrednosti predlaga dve intrinziˇcni
razsežnosti (u in v), cˇ eprav je dejansko število razsežnosti enako 1.
v podatkovni tabeli, ki jih lahko vložimo v hipersfero s polmerom r. Za ne preširoke
podatkovne tabele lahko intrinziˇcno razsežnost izraˇcunamo kot
d = − lim
r →0
log M (r )
.
log r
Ker limite eksplicitno ne moremo izraˇcunati, intrinziˇcno razsežnost ocenimo s pomoˇcjo
dveh poljubno izbranih polmerov r1 in r2 po obrazcu
log( M (r2 ) − M (r1 ))
.
dˆ =
log(r2 − r1 )
GMST-cenilka
Cenilka GMST (angl. geodesic minimal spanning tree) temelji na predpostavki, da je funkcija
dolžine minimalno vpetega drevesa odvisna od intrinziˇcne razsežnosti d (Costa & Hero,
2004). Funkcija dolžine v drevesu je vsota evklidskih razdalj, ki ustrezajo povezavam v
geodeziˇcnem minimalno vpetem drevesu.
Algoritem GMST konstruira graf sosedov G nad podatkovno tabelo, v katerem je vsaka
podatkovna toˇcka xi povezana s k najbližjimi sosedi xi j . Geodeziˇcno minimalno vpeto
drevo T je definirano kot minimalni graf nad podatkovno tabelo X, katere dolžina je
enaka
L( X ) = min ∑ ge ,
T ∈T e∈ T
kjer je T množica vseh dreves, ki jih lahko konstruiramo nad G, e povezava v drevesu T,
ge pa evklidska razdalja, ki ustreza povezavi e. Cenilka GMST konstruira razliˇcne podmnožice A ⊂ X z m elementi ter za vsako izraˇcuna dolžino L( A). Razmerje log( L( A))/log(m)
59
4 Sestavljanje spremenljivk
je linearno, zato ga lahko ocenimo z linearno regresijo. Cenilka za intrinziˇcno razsežnost
je potem
1
dˆ =
,
1 − β0
kjer je β 0 prvi regresijski parameter.
4.5 Pregled metod za sestavljanje spremenljivk
4.5.1 Analiza glavnih komponent
Analiza glavnih komponent (angl. principal component analysis, PCA) je najpogosteje
uporabljena linearna metoda krˇcenja podatkovne tabele. Osnovo zanjo je razvil Pearson
(1901), dodelal pa Hotelling (1933). Metoda je intuitivna in preprosta za uporabo, za
njeno raˇcunanje pa imamo na voljo hitre algoritme. Dober pregled teoretiˇcnega ozadja in
napotkov za uporabo ponuja Jolliffe (2002).
PCA p medsebojno koreliranih merskih spremenljivk nadomesti s k nekoreliranimi
obteženimi vsotami oz. glavnimi komponentami, tako da je 1 ≤ k ≤ p. Doloˇcimo lahko
toliko glavnih komponent, kot je merskih spremenljivk, vendar se v standardni aplikaciji
obiˇcajno omejimo le na prvih k komponent, ki pojasnijo karseda velik delež razpršenosti
merskih spremenljivk.
Primer 17. Razsevni diagram na sliki 4.6 prikazuje porazdelitev vrednosti dveh sluˇcajnih spremenljivk, na osnovi katerih smo izdelali dve glavni komponenti. Prva komponenta je oznaˇcena s
polno, druga komponenta pa s cˇ rtkano cˇ rto. Prva komponenta se prilega korelacijskemu oblaku v
smeri najveˇcje razpršenosti. Vsota kvadriranih razdalj med glavno komponento in posameznimi
toˇckami je najmanjša možna. Obenem to pomeni, da je razpršenost projekcij podatkovnih toˇck na
glavno komponento najveˇcja možna. Reˇcemo tudi, da prva glavna komponenta ustreza linearni
kombinaciji z najveˇcjo razpršenostjo. Preostanek razpršenosti pojasni druga glavna komponenta.
V nadaljevanju razdelka bomo prikazali postopek izraˇcuna glavnih komponent. Merske
spremenljivke oznaˇcimo z x1 , . . . , x p , z ξ i , i = 1, . . . , p pa njihove linearne kombinacije
p
ξi =
∑ aij x j oz. ξ = A0 X,
j =1
kjer je A matrika uteži.
Najprej obravnavajmo prvo linearno kombinacijo ξ 1
p
ξ 1 = a11 x1 + a12 x2 + . . . + a1q xq =
∑ a1j x j .
j =1
Prvi glavni komponenti ξ 1 je treba poiskati take uteži a1 = ( a11 , a12 , . . . , a1p )0 , da bo
njena razpršenost karseda velika. Razpršenost komponente seveda raste s poveˇcevanjem
vrednosti uteži; da je problem enoliˇcno rešljiv, zato dodamo še pogoj a1T a1 = 1.
60
4.5 Pregled metod za sestavljanje spremenljivk
●
2
●
●
●
●
1
●
●
●
●
●●
X2
●
●
0
● ●
●
●
●
●
−1
●
−2
−2
−1
0
X1
1
2
Slika 4.6: Glavni komponenti dveh sluˇcajnih spremenljivk. Polna cˇ rta oznaˇcuje prvo,
cˇ rtkana pa drugo glavno komponento.
Iz osnov statistike se spomnimo (gl. npr. R. A. Johnson & Wichern, 2007), da je razpršenost
komponente ξ 1 enaka
Var(ξ 1 ) = E ξ 12 − E [ξ 1 ]2
h
i
h
i h
i
= E a1T xx T a1 − E a1T x E x T a1
h
i
h i
= a1T E xx T − E [ x ] E x T a1
= a1T Σa1
kjer je Σ kovarianˇcna matrika merskih spremenljivk. Za maksimizacijo funkcije veˇc
spremenljivk ob dodatnih omejitvah obiˇcajno uporabimo metodo Lagrangeevih multiplikatorjev (Jolliffe, 2002; Morrison, 2004). Iskanje stacionarne vrednosti a1T Σa ob pogoju
a1T a1 = 1 zato prevedemo na iskanje stacionarne vrednosti brez pogoja
f ( a1 ) = a10 Σa1 − ν( a10 a1 − 1),
(4.4)
kjer je ν Lagrangeev multiplikator. ν in a1 , za katera bo imela funkcija (4.4) najveˇcjo
vrednost, sta rešitvi postavljenega problema. S parcialnimi odvodi nato dobimo
Σa1 − νa1 = 0.
(4.5)
Za vektor uteži a1 so smiselne le netrivialne rešitve. Ker je razpršenost prve glavne
komponente enaka
a10 Σa1 = νa1T a1
= ν,
bomo za ν vzeli najvišjo lastno vrednost λ1 , vektor uteži a1 pa bo njen lastni vektor.
Druga glavna komponenta je linearna kombinacija
ξ 2 = a21 x1 + a22 x2 + . . . + a2q xq .
(4.6)
61
4 Sestavljanje spremenljivk
Uteži a2 v (4.6) izberemo tako, da je razpršenost linearne kombinacije karseda velika, ob
pogojih
a20 a2 = 1
a20 a1 = 0.
(4.7)
Zadnja omejitev v (4.7) implicira, da sta spremenljivki ξ 1 in ξ 2 med seboj nekorelirani:
E [ξ 2 ξ 1 ] − E [ξ 2 ] E [ξ 1 ] = 0
oz.
a20 Σa1 = 0.
(4.8)
Ker je a1 v (4.8) lastni vektor matrike Σ, je (4.8) enak a2T a1 = 0, kar pomeni, da sta a2 in
a1 med seboj ortogonalna. Optimalne uteži a2 podobno kot zgoraj doloˇcimo s pomoˇcjo
Lagrangeevih multiplikatorjev in parcialnega odvajanja.
Glavna komponenta j je linearna kombinacija ξ j = a Tj X z omejitvama
a Tj a j = 1
a Tj ai = 0
( i < j ).
V splošnem je vektor uteži a j za j-to glavno komponento lastni vektor matrike Σ, ki
ˇ q lastnih vrednosti oznaˇcimo z λ1 , . . . , λq , lahko
ustreza j-ti najveˇcji lastni vrednosti. Ce
T
ob omejitvi ai ai = 1 pokažemo, da je razpršenost i-te glavne komponente natanko λi .
Razpršenost vseh glavnih komponent je enaka razpršenosti merskih spremenljivk, tako
da je
p
∑ λi = σ12 + σ22 + · · · σp2 ,
i =1
s2i
kjer je
razpršenost spremenljivke xi . Glavna komponenta j pojasni Pj -ti del celotne
razpršenosti podatkovne tabele, kjer je
Pj =
λj
.
sl(Σ)
Prvih m glavnih komponent (m < q) pojasni P(m) -ti del celotne razpršenosti, kjer je
P(m) =
∑m
j =1 λ j
.
sl(Σ)
4.5.2 Večrazsežno lestvičenje
Veˇcrazsežno lestviˇcenje (angl. multidimensional scaling) je družina algoritmov za krˇcenje
podatkovnih tabel in vizualizacijo podatkov (Borg & Groenen, 2005; T. F. Cox & Cox, 2001).
Cilj veˇcrazsežnega lestviˇcenja je izdelati predstavitev podatkovne tabele v nižjerazsežnem
prostoru, pri tem pa cˇ im bolj ohraniti razdalje med pari podatkovnih toˇck.
62
4.5 Pregled metod za sestavljanje spremenljivk
V nadaljevanju si najprej oglejmo klasiˇcno lestviˇcenje (Torgerson, 1952), ki temelji na
spektralnem razcepu matrike razdalj in je zelo podobno postopku PCA (gl. razdelek 4.5.1).
Nato naredimo kratek vpogled v lestviˇcenje razdalj. Slednji pristop združuje metriˇcno in
nemetriˇcno lestviˇcenje. Pri prvem so razdalje med podatkovnimi objekti definirane na
razmiˇcnem oz. razmernostnem merskem nivoju, pri drugem pa na urejenostnem nivoju.
Klasično lestvičenje
Denimo, da imamo n podatkovnih toˇck x1 , . . . , xn ∈ R p , na osnovi katerih izraˇcunamo
matriko razdalj ∆ = (δij ).
Oddaljenost med toˇckama i in j je (obiˇcajno) definirana z evklidsko razdaljo
(
δij = k xi − x j k =
Iz obrazca (4.9) sledi
p
∑ (xik − x jk )2
)1/2
.
(4.9)
k =1
δij2 = k xi k2 + k x j k2 − 2xiT x j .
(4.10)
2 − δ2 ), kjer je δ2 = k x k2 kvadrirana oddaljenost toˇ
Naj bo bij = xiT x j = − 21 (δij2 − δi0
cke
i
j0
i0
xi od izhodišˇca. Ko (4.10) seštejemo preko vseh i in j, dobimo med drugim naslednje
identitete (Izenman, 2008)
2
2
n−1 ∑ δij2 = n−1 ∑ δi0
+ δj0
,
i
n
−1
∑
i
δij2
=
2
δi0
j
2
+ n−1 ∑ δj0
,
(4.11)
j
2
n−2 ∑ ∑ δij2 = 2n−1 ∑ δi0
,
i
j
i
ki jih vstavimo v (4.10) in dobimo
bij = aij − ai. − a.j + a.. ,
kjer so
1
1
aij = − δij2 , ai. =
2
n
n
∑ aij ,
j =1
a.j =
1
n
1
∑ aij in a.. = n2 ∑ ∑ a2ij .
i
i
j
Elemente aij in bij shranimo v matriki A = ( aij ) in B = (bij ). Velja, da je B = HAH, kjer
je H = In − n−1 Jn odklonska matrika, Jn pa matrika enic razsežnosti n × n. Matriki B
pravimo tudi dvojna odklonska matrika. V praksi se zgodi, da matrika B ni pozitivno semidefinitna; ta problem obiˇcajno rešimo tako, da zavržemo vse negativne lastne vrednosti
(T. F. Cox & Cox, 2001).
Klasiˇcni algoritem lestviˇcenja temelji na spektralnem razcepu matrike B, na osnovi
katerega izdelamo q glavnih koordinat y1 , . . . , yn ∈ Rq , q < p. Glavne koordinate izberemo
tako, da so razdalje
d2ij = kyi − y j k2 = (yi − y j )T (yi − y j )
63
4 Sestavljanje spremenljivk
cˇ im bolj podobne razdaljam v matriki ∆. Zanima nas torej tista q-razsežna predstavitev
p-razsežnega podatkovja, pri kateri bodo reproducirane razdalje v kar najveˇcji meri
ohranjene (gl. primer 18). Jedro postopka je podrobneje predstavljeno v algoritmu 1.
Primer 18. Na sliki 4.7 smo v cˇ rni barvi prikazali dejanske zemljepisne dolžine in širine devetih
izbranih mest v ZDA. Na osnovi koordinat mest smo izraˇcunali matriko razliˇcnosti ter nad njo
pognali klasiˇcno veˇcrazsežno lestviˇcenje. Cilj naloge je bil karseda dobro reproducirati koordinate
mest. Reproducirane koordinate so prikazane v modri barvi.
50
Spokane
●
●
45
Zemljepisna širina
Boston
●
●
40
Indianapolis
St. Louis ●
●
●
35
●
●
Memphis
Los Angeles
●
●Tempa
●
●
●
Dallas
Atlanta
● ●
●
●
30
25
−120
−100
Zemljepisna dolžina
−80
ˇ
Slika 4.7: Veˇcrazsežnostno lestviˇcenje. Crne
toˇcke prikazujejo dejanske koordinate mest,
modre toˇcke pa reproducirane koordinate.
Lestvičenje razdalj
Pri klasiˇcnem lestviˇcenju smo zahtevali, da je dij ≈ δij , da sta torej dejanska in reproducirana matrika med seboj cˇ im bolj enaki. Pri lestviˇcenju razdalj predpostavko omilimo in
zahtevamo, da je
dij ≈ f (δij ),
kjer je f monotono padajoˇca funkcija. Glede na obliko kriterijske funkcije3 , s katero
ocenjujemo ustreznost reprodukcije matrike razdalj, loˇcimo veˇc razliˇcnih pristopov k
metriˇcnemu lestviˇcenju. V nadaljevanju si oglejmo (i) metodo najmanjših kvadratov in
(ii) Sammonovo projekcijo.
Metoda
kvadratov
Ker je f parametriˇcna funkcija, lahko odnos med razda najmanjših
ljami dij in f (δij ) modeliramo s pomoˇcjo metode najmanjših kvadratov.4
3 Literatura
s podroˇcja veˇcrazsežnostnega lestviˇcenja stroškovno funkcijo pozna pod imenom stres funkcija
(angl. stress function).
4 Ce
ˇ so razliˇcnosti med podatkovnimi objekti predstavljene z evklidskimi razdaljami in je f identiˇcna
funkcija, potem je ta pristop enak klasiˇcnemu lestviˇcenju.
64
4.5 Pregled metod za sestavljanje spremenljivk
Algoritem 1: Klasiˇcni postopek veˇcrazsežnostnega lestviˇcenja
1. Na osnovi matrike razdalj ∆ = (δij ) med pari primerov, razsežnosti n × n, sestavi
matriko A = ( aij ), kjer je aij = −1/2δij2 .
2. Konstruiraj dvojno odklonsko matriko B = HAH razsežnosti n × n, kjer je
H = In − n−1 Jn in Jn = 1n 10n .
3. Izraˇcunaj lastne vrednosti in lastne vektorje matrike B. Lastne vrednosti shrani v
diagonalno matriko Λ = diag{λ1 , . . . , λn }, lastne vektorje pa kot stolpce v matriko
V = (v1 , . . . , vn ). Negativne lastne vrednosti in pripadajoˇce lastne vektorje matrike
B zavrzi ali jim prištej konstantno vrednost (δij ← δij + c za i 6= j). V diagonalno
matriko Λ1 = diag{λ1 , . . . , λq } shrani pozitivne lastne vrednosti, pripadajoˇce lastne
vektorje pa v matriko V1 = (v1 , . . . , vq ). Potem je
B = V1 Λ1 V10 = (V1 Λ1/2 )(Λ1/2 V1 ) = YY0 ,
1
1
√
√
1
kjer je Y = V1 Λ1/2 = ( λ1 v1 , . . . , λt vt ) = (y1 , . . . , yn )0 .
4. Glavne koordinate y1 , . . . , yn so stolpci matrike Y0 , razsežnosti q × n. Razdalje med
pari podatkovnih toˇck v q-razsežnem prostoru dij = kyi − y j k so enake razdaljam
δij v matriki ∆.
Glavne koordinate doloˇcimo tako, da minimiziramo funkcijo
"
#1/2
2
.
S M (y1 , . . . , yn ) = ∑ dij − f δij
(4.12)
i< j
Minimizacijo funkcije obiˇcajno opravimo z metodo gradientnega spusta (Hastie in sod.,
2011).
Sammonova projekcija Sammonova projekcija (angl. Sammon mapping) je nelinearna
metoda lestviˇcenja in je poseben primer metode najmanjših kvadratov iz prejšnjega
razdelka. Kriterijska funkcija je definirana s predpisom (Hastie in sod., 2011)
2
dij − f δij
SS ( y1 , . . . , y n ) = ∑
.
dij
i< j
Sammonova projekcija ohranja majhne razdalje δij tako, da jih v postopku ocenjevanja
prileganja modela moˇcneje uteži.
4.5.3 Delni najmanjši kvadrati
Pri analizi glavnih komponent, ki smo jo obravnavali v razdelku 4.5.1, smo se ukvarjali z
iskanjem linearnih kombinacij, s katerimi karseda dobro povzamemo merske spremenljivke x1 , . . . , x p . Spomnimo se, da smo smeri glavnih komponent doloˇcili le na osnovi
65
4 Sestavljanje spremenljivk
neodvisnih spremenljivk, brez védenja o porazdelitvi odvisne spremenljivke. Zato ni
nujno, da so smeri, ki dobro predstavljajo neodvisne spremenljivke v skrˇcenem prostoru,
hkrati tudi optimalne za napovedovanje vrednosti odvisne spremenljivke. To pomanjkljivost lahko odpravimo z metodo delnih najmanjših kvadratov (angl. partial least squares,
PLS).
Metoda PLS združuje družino postopkov, ki so bili prvotno razviti kot orodje za veˇcrazsežno (multivariatno) regresijo v ekonometriji (Wold, Ruhe, Wold & Dunn, III, 1984) in
kasneje tudi v kemometriji (Martens & Næs, 1992). Šele kasneje so metodo podrobneje
obdelali tudi statistiki (Frank & Friedman, 1993; Garthwaite, 1994; Stone & Brooks, 1990).
V statistiki velja nenapisano pravilo, da je PLS zbir algoritmov in ni metoda v klasiˇcnem
pomenu te besede (Helland, 2001). Zgodovinski pregled razvoja metode podaja Martens
(2001). PLS je namenjena napovedovanju vrednosti ene ali veˇc odvisnih zveznih spremenljivk na osnovi velike množice neodvisnih zveznih spremenljivk. Glavna ideja PLS
je poiskati med seboj nekorelirane linearne transformacije neodvisnih spremenljivk, za
katere velja, da karseda moˇcno kovariirajo z odvisno spremenljivko. Tako dobljene linearne kombinacije potem uporabimo kot prediktorje v klasiˇcnem linearnem regresijskem
modelu5 za napovedovanje vrednosti odvisne spremenljivke. Posebej velja poudariti, da
je PLS uporabna tudi v primeru, ko je število merskih spremenljivk p mnogo veˇcje od
števila primerov n, saj smo p merskih spremenljivk nadomestili z manjšim številom komponent. Razliˇcice algoritma PLS se razlikujejo v naˇcinu doloˇcanja latentnih spremenljivk.
V nadaljevanju bomo obravnavali algoritem PLS1, ki vkljuˇcuje eno odvisno spremenljivko.
Najprej konstruiramo latentne spremenljivke, ki jih nato uporabimo za napovedovanje
odvisne spremenljivke. Komponente konstruiramo tako, da karseda dobro (i) pojasnjujejo
razpršenost merjenih spremenljivk in (ii) kovariirajo6 z odvisno spremenljivko.
Postopek PLS je iterativen. Podobno kot doslej bomo neodvisne spremenljivke zložili v
matriko X razsežnosti n × p. Odvisno spremenljivko shranimo v vektor y dolžine n. PLS
temelji na razcepu
X = TP T + E
(4.13)
in
y = Tb + f,
(4.14)
kjer je T matrika komponentnih dosežkov razsežnosti n × c, P matrika koeficientov
komponentnih dosežkov razsežnosti p × c, E in f pa matrika ostankov razsežnosti n × p
oz. vektor ostankov dolžine n. Vrednostim v matriki P pravimo tudi nasiˇcenosti matrike
X.
Komponento j poišˇcemo tako, da je pripadajoˇci vektor uteži
w j = arg max Cov(X, w, y).
w T w =1
Podobno kot pri postopku PCA zahtevamo, da so komponente med seboj pravokotne,
torej t0k t j = 0 za 1 ≤ j ≤ k. Postopek doloˇcanja komponent je prikazan v algoritmu 2 (Lu,
Plataniotis & Venetsanopoulos, 2014).
5 Ce
ˇ
je odvisna spremenljivka imenska, lahko linearno regresijo nadomestimo z izbrano metodo uvršˇcanja.
kovarianco v tem primeru dobro povzamemo razpršenost merskih spremenljivk ter hkrati njihovo
korelacijo z odvisno spremenljivko (Varmuza & Filzmoser, 2009).
6S
66
4.5 Pregled metod za sestavljanje spremenljivk
Algoritem 2: PLS1-algoritem
1. Indeks, s katerim štejemo število komponent, nastavi na j = 1. V matriko X1 prepiši
matriko X, v vektor y1 pa vektor y.
2. Izraˇcunaj vektor uteži za matriko X po obrazcu w j = X0j y j/kX0j y j k.
3. Izraˇcunaj vektor komponentnih dosežkov za matriko X po obrazcu t j = X j w j .
4. Izraˇcunaj regresijski koeficient po obrazcu bˆ = t0j y j/t0j t j .
5. Izraˇcunaj vektor nasiˇcenosti po obrazcu p j = X0j t j/t0j t j .
6. Konstruiraj deflacijsko matriko X j+1 = X j − t j p0j in deflacijski vektor
y j+1 = y j − t j cˆ 0j .
ˇ je števec enak j = g, postopek ustavi, sicer nastavi j = j + 1 in nadaljuj s
7. Ce
korakom 2.
8. Po stolpcih zloži uteži v matriko W, komponentne dosežke v matriko T in
nasiˇcenosti v matriko P. Regresijske koeficiente shrani v vektor b.
4.5.4 Fisherjeva diskriminantna analiza
V razdelku 5.2.3 smo obravnavali linearno diskriminantno analizo kot metodo za uvršˇcanje podatkov. V tem razdelku bomo pokazali, da je metoda uporabna tudi za krˇcenje
podatkovne tabele.
Fisherjeva diskriminantna analiza (FLDA) pomeni razširitev metode PCA, kjer pri zmanjševanju razsežnosti upoštevamo odvisno spremenljivko. Medtem ko pri PCA išˇcemo
karseda dobre projekcije podatkovne tabele, se pri FLDA ukvarjamo z iskanjem projekcije
w, ki bo glede na odvisno spremenljivko razreda med seboj cˇ im bolje loˇcevala (slika 4.8).
Denimo, da obravnavamo p-razsežni vektor podatkov x. Vektor bomo projicirali v eno
razsežnost s transformacijo
y = w T x.
Z m1 in m2 bomo v nadaljevanju oznaˇcili vektorja aritmetiˇcnih sredin neodvisnih spremenljivk v razredih C1 oz. C2 . Vektorja izraˇcunamo po obrazcih
m1 =
1
n1
∑
n∈C1
xn
in
m2 =
1
n2
∑
xn .
n∈C2
Najpreprostejša mera loˇcevanja med dvema razredoma je projekcija aritmetiˇcnih sredin razredov. Za ta namen je smiselno izbrati tak w, da bo razlika med projiciranima
aritmetiˇcnima sredinama
µ2 − µ1 = w T ( m2 − m1 )
karseda velika. Pri tem w omejimo tako, da je ∑i wi2 = 1. S pomoˇcjo metode Lagrangeevega
multiplikatorja lahko pokažemo, da je w ∝ (m2 − m1 ) (Bishop, 2007). Ker so kovariance
67
4 Sestavljanje spremenljivk
●
10
●
● ● ●
●●●
● ●
●
●
●
● ●●● ●
●
●
● ● ●●●●●
●
●
● ●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●●● ●●
●
●
●
●●
● ●
●●
●
●
●
●●
●
●
●
●
●
● ●
● ●●
●
●
●
●
●
●
● ●
●
●
●●
●
● ●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●●
● ●
●
●● ●
● ●●●
●
●
● ●●
● ●●● ●●
●●
●●
● ●●
● ●
●
●
●●
●
●
●●
●
●
X2
5
0
−5
●●
●
●
−10
−2.5
0.0
X1
2.5
5.0
Slika 4.8: Fisherjeva linearna diskriminantna analiza. Pri krˇcenju razsežnosti upoštevamo
odvisno spremenljivko, tako da poišˇcemo projekcijo, ki bo razreda med seboj
cˇ im bolje loˇcevala.
po razredih obiˇcajno moˇcno nediagonalne, je poleg dobre loˇcenosti med projiciranimi
aritmetiˇcnimi sredinami razredov smiselno zahtevati tudi karseda majhno razpršenost
znotraj razreda Ck . Slednjo izraˇcunamo po obrazcu
s2k =
∑
n∈Ck
( y n − m k )2 ,
kjer je yn = w T xn . Skupna razpršenost znotraj razredov je potem preprosto vsota s21 + s22 .
Fisherjev kriterij lahko zdaj zapišemo kot
J (w) =
( m2 − m1 )2
.
s21 + s22
(4.15)
Obrazec (4.15) v matriˇcni obliki predstavimo kot
J (w) =
wS B w
,
w T SW w
(4.16)
kjer matriko razpršenosti med razredoma S B sestavimo po obrazcu
S B = (m2 − m1 )(m2 − m1 )T ,
(4.17)
matriko razpršenosti znotraj razredov SW pa po obrazcu
SW =
∑ (xn − m1 )(xn − m1 )T + ∑ (xn − m2 )(xn − m2 )T .
n∈C1
68
n∈C2
(4.18)
4.5 Pregled metod za sestavljanje spremenljivk
Z odvodom (4.16) po w lahko pokažemo, da J (w) doseže maksimalno vrednost, ko je
(wT S B w)SW w = (wT SW w)S B w.
(4.19)
Iz (4.17) vidimo, da produkt S B w leži v smeri (m2 − m1 ). Ker nas zanima le smer w,
−1
lahko v (4.19) izpustimo faktorja (w T S B w) in (w T SW w). (4.19) nato pomnožimo z SW
in
dobimo
−1
w ∝ SW
( m2 − m1 ).
(4.20)
Rezultat (4.20) imenujemo Fisherjeva linearna diskriminanta in pomeni optimalno smer
projekcije merskih spremenljivk. Velja poudariti, da je v primeru dveh razredov taka
projekcija samo ena.
69
5 Uvrščanje podatkov
5.1 Formalna predstavitev problema uvrščanja
Na podroˇcju strojnega uˇcenja se obiˇcajno sreˇcujemo z dvema tipoma problemskih nalog
(Hastie in sod., 2011; Izenman, 2008): (i) z nadzorovanim (angl. supervised) in (ii) z nenadzorovanim (angl. unsupervised) uˇcenjem. Pri nenadzorovanem uˇcenju gre za problemsko
nalogo, v kateri moramo na osnovi analize podatkovja doloˇciti optimalno število razredov,
nato pa posamezne primere razvrstiti v ustrezen razred. Pri nadzorovanem uˇcenju je
situacija obrnjena; naša naloga je uvrstiti primere v enega od vnaprej podanih razredov
tako, da bo napaka uvršˇcanja karseda majhna.
V nadaljevanju obravnavamo problem uvršˇcanja kot tipiˇcno nalogo nadzorovanega uˇcenja.
Z X1 , . . . , X p bomo oznaˇcili merske spremenljivke. Posamezne primere bomo oznaˇcili
z xi = ( xi1 , . . . , xip )T za i = 1, . . . , n ter jih po vrsticah zložili v podatkovno matriko
X ∈ Rn × p .
V statistiˇcnem uˇcenju obiˇcajno razlikujemo med uˇcno in testno množico podatkov. Uˇcno
množico podatkov bomo oznaˇcili z L, testno množico pa z T . Vsak primer ima pripisano
oznako razreda, ki jo v uˇcni množici uporabimo za gradnjo klasifikatorja, v testni množici
pa v postopku preverjanja kakovosti uvršˇcanja. Pripadajoˇci podatkovni matriki bomo
oznaˇcili z X L oz. X T . Oznake razredov za primere iz množice L bomo zložili v vektor y L ,
iz množice T pa v vektor y T . Klasifikator f je definiran s preslikavo
f (·, X L , y L ) : R p → {1, . . . , K }
xi 7 → f ( xi , X L , y L ) ,
kjer kot argumenti funkcije f nastopajo vektorja xi in y L ter matrika X L .
5.1.1 Statistična teorija odločanja
Z X ∈ R p bomo oznaˇcili sluˇcajni vektor, z Y ∈ R pa sluˇcajno spremenljivko s skupno
porazdelitvijo Pr( X, Y ). Množico možnih razredov oznaˇcimo z G . Na osnovi vektorja
merskih spremenljivk X se moramo odloˇciti za razred G, v katerega bomo uvrstili dani
primer. Napovedano vrednost razreda bomo oznaˇcili z Gˆ (Hastie in sod., 2011).
Z L bomo oznaˇcili funkcijo izgube (angl. loss function) uvršˇcanja. Možne izide funkcije
izgube predstavimo v matriki L razsežnosti K × K, kjer je K = |G|. Elementi na glavni
diagonali matrike L so enaki niˇc, ostali elementi pa so nenegativni. Z L(k, l ) bomo oznaˇcili
ceno, ki jo moramo plaˇcati, cˇ e primer, ki dejansko pripada razredu Gk , uvrstimo v razred
71
5 Uvršˇcanje podatkov
Gl . Obstaja vrsta razliˇcnih funkcij izgube; v nadaljevanju bomo obravnavali funkcijo
izgube 0-1, pri kateri je treba napaˇcno uvrstitev plaˇcati z eno enoto.
Priˇcakovana napaka napovedi (angl. expected prediction error) za vektor podatkov X je
našem primeru enaka (Hastie in sod., 2011)
EPE = E L( G, Gˆ ( X ))
oz.
K
EPE = EX
∑L
k =1
Gk , Gˆ ( X ) Pr(Gk | X ).
Primer x bomo zato uvrstili v razred, za katerega je priˇcakovana napaka napovedi
najmanjša:
K
Gˆ ( x ) = arg min ∑ L(Gk , g) Pr(Gk | X = x ).
g∈G
(5.1)
k =1
V primeru funkcije izgube 0-1 se obrazec (5.1) poenostavi v
Gˆ ( x ) = arg min [1 − Pr( g | X = x )]
g∈G
oz.
Gˆ ( X ) = Gk cˇ e Pr(Gk | X = x ) = max Pr( g | X = x ).
g∈G
(5.2)
Obrazec (5.2) poznamo pod imenom optimalni oz. Bayesov klasifikator. Bayesov klasifikator uvrsti primer v razred, pri katerem je posteriorna verjetnost Pr( G | x ) najveˇcja.
Primer Bayesovega klasifikatorja je prikazan na sliki 5.1. Bayesov klasifikator podrobneje
obravnavamo v razdelku 5.2.1.
3
●●
●
●
●
●
● ●
●●●
●● ● ●
●
●
● ●
●
●
●
●
● ●
●●
●
●●
●
● ● ●
●●
●
●
●
●
●●● ● ●●
● ●
●
●
●
●
●
●
● ● ● ●●●
●● ● ●●
●
●
●
●
●●
●●●
●
●●
●
●
●● ● ●
●●
● ●
●● ●●●●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●● ●
●
●
●
●●
●● ●● ●●●
● ●
●
●
● ● ●
●
●
●
●● ● ●● ●
●
● ●
● ●●●
● ●
● ●●
●
●●
●
● ●
●
● ●●
●
●
● ●
● ●
●
●●●
● ● ●●● ●
●
●●
●
●
●
●
2
X2
1
0
−1
−2
●
●
●●
●
●
●
−2
0
2
4
X1
Slika 5.1: Optimalni Bayesov klasifikator. Primer je prikazan nad sintetiˇcnim podatkovjem
mixture.example iz R-jevega paketa ElemStatLearn. Apriorne verjetnosti razredov in njihove gostote poznamo, zato lahko klasifikacijsko ravnino natanˇcno
narišemo.
72
5.2 Pregled metod uvršˇcanja
Pristopi k statističnemu učenju
Bishop (2007) na podroˇcju statistiˇcnega uˇcenja identificira tri razliˇcne pristope k reševanju
odloˇcitvenih problemov:
1. Generativni pristop, pri katerem najprej poišˇcemo gostote verjetnosti Pr( x | Gk ) v
vsakem od razredov ter apriorne verjetnosti Pr(Gk ). S pomoˇcjo Bayesovega izreka
nato izraˇcunamo posteriorne verjetnosti razredov Pr(Gk | x ). Primer uvrstimo v
razred, za katerega je posteriorna verjetnost najveˇcja.
2. Diskriminativni pristop, kjer posteriorno verjetnost razredov Pr(Gk | x ) ocenimo
neposredno, nov primer pa uvrstimo v tisti razred, pri katerem je posteriorna
verjetnost najveˇcja.
3. Pristop diskriminantne funkcije, kjer konstruiramo funkcijo f ( x ), ki preslika vektor
atributov x neposredno v oznako razreda. V primeru odloˇcitvene naloge z dvema
razredoma bo npr. vrednost funkcije f = 0 doloˇcala pripadnost primera razredu G1 ,
vrednost funkcije f = 1 pa razredu G2 . Primera takega uˇcenja sta npr. perceptron in
metoda podpornih vektorjev.
5.2 Pregled metod uvrščanja
5.2.1 Bayesov klasifikator
Uˇcno matriko predstavimo z n podatkovnimi pari {( x1 , y1 ), . . . , ( xn , yn )} v p-razsežnem
prostoru, kjer z yi oznaˇcimo razred, ki lahko zaseda vrednosti yi = { g1 , g2 , . . . , gk }. Z ni
bomo oznaˇcili število primerov v razredu i. Bayesov klasifikator na osnovi Bayesovega
izreka doloˇci najverjetnejši razred novega primera, ki ga bomo oznaˇcili z x. Klasifikator
oceni posteriorno verjetnost Pr( gi | x ) za vsak razred gi , nato pa na osnovi Bayesovega
pravila izbere tisti razred, pri katerem je posteriorna verjetnost najveˇcja:
Gˆ ( x ) = arg max {Pr( gi | x )} .
(5.3)
gi
Tipiˇcna naloga uvršˇcanja, za katero smo uporabili Bayesov klasifikator, je prikazana na
sliki 5.2a. V nadaljevanju obravnavamo nekatere tehniˇcne podrobnosti klasifikatorja.
Z Bayesovim izrekom lahko izrazimo posteriorno verjetnost kot
Pr( gi | x ) =
Pr( x | gi ) · Pr( gi )
,
Pr( x )
(5.4)
kjer je Pr( x | gi ) verjetje, Pr( gi ) apriorna verjetnost razreda gi , Pr( x ) pa verjetnost za
primer x, ki jo izraˇcunamo po obrazcu
Pr( x ) =
k
∑ Pr(x | gj ) · Pr( gj ).
j =1
73
5 Uvršˇcanje podatkov
Slednja verjetnost je v obrazcu (5.4) med razredi enaka, zato lahko obrazec (5.3) prepišemo
v
Pr
(
x
|
g
)
Pr
(
g
)
i
i
Gˆ ( x ) = arg max
= arg max {Pr( x | gi ) Pr( gi )} .
(5.5)
Pr( x )
i
i
Za uvrstitev nove enote moramo torej na osnovi danih podatkov oceniti verjetje in
apriorno verjetnost. Z oceno zadnje ne bomo imeli težav; najlaže jo ocenimo kot relativno
frekvenco
ˆ ( gi ) = n i .
Pr
n
Za oceno verjetja je treba oceniti pogojno verjetnost dogodka Pr( x | gi ).1 Skupno verjetnost
bomo ocenili2 tako, da bomo predpostavili, da so spremenljivke v razredu gi normalno
porazdeljene okoli aritmetiˇcne sredine µi s kovarianˇcno matriko Σi . Oba parametra bomo
ocenili na osnovi uˇcnih podatkov. Za razred gi je gostota verjetnosti f i ( x ) enaka
)
(
( x − µi )T Σi−1 ( x − µi )
1
p
.
(5.6)
f i ( x ) = f ( x | µi , Σi ) = √
exp −
2
( 2π ) p |Σi |
Ker je f i ( x ) zvezno porazdeljena, je verjetnost v katerikoli toˇcki enaka niˇc, torej Pr( x | gi ) =
0. V tem primeru lahko verjetje izraˇcunamo tako, da upoštevamo hiperkroglo polmera e,
usredinjeno okoli x (Zaki & Meira, 2014):
Posteriorna verjetnost je potem
Pr( gi | x ) =
Pr( x | gi ) = 2e · f i ( x ).
2e · f i ( x ) Pr( gi )
∑ik=1 2e
· f i ( x ) Pr( gi )
=
f i ( x ) Pr( gi )
.
k
∑i=1 f i ( x ) Pr( gi )
(5.7)
Vsota v imenovalcu (5.7) je med razredi enaka, zato napovedani razred doloˇcimo kot
(prim. 5.5)
Gˆ ( x ) = arg max { f i ( x ) Pr( gi )} .
i
Parametra, ki ju potrebujemo za oceno gostote verjetnosti v obrazcu (5.6), ocenimo na
osnovi vzorˇcne aritmetiˇcne sredine in vzorˇcne kovarianˇcne matrike. Vzorˇcno aritmetiˇcno
sredino za razred gi izraˇcunamo po obrazcu
µˆ i =
1
ni
∑
xj,
x j ∈ Di
vzorˇcno kovarianˇcno matriko pa po obrazcu
1
Σˆ i = Zi0 Zi ,
ni
kjer je Zi odklonska matrika vrednosti spremenljivk za razred gi .
1V
nadaljevanju pokažemo, kako to naredimo nad številskimi spremenljivkami. Bralec, ki ga zanima
obravnava diskretnih spremenljivk, bo veˇc informacij našel v Mitchell (1997).
2 Prikazani postopek se nanaša na parametriˇ
cno ocenjevanje. Pri neparametriˇcnem pristopu izraˇcunamo
empiriˇcno skupno gostoto verjetnosti neposredno na osnovi uˇcnih podatkov, npr. s pomoˇcjo metod za
ocenjevanje gostote jedra.
74
5.2 Pregled metod uvršˇcanja
4.5
●
●
●
●
Širina čašnega lista
4.0
●
●
●
●
●
●●
●
●●
●●●
● ● ●●●
●●
●●
●
● ●●
●●●
3.5
●
3.0
●●
●
●
●
●
●
●
2.5
●
●
●
●
2.0
●
●
●
●
● ●
●● ● ●
●●
●●
●●● ● ●
●
●
●
●
● ● ●
● ●●
●●
●
●
●
●
● ●
●
5
6
Dolžina čašnega lista
7
(a)
4.5
●
●
●
●
Širina čašnega lista
4.0
●
●
●
●
●
●●
●
●●
●●●
● ● ●●●
●●
●●
●
● ●●
●●●
3.5
●
3.0
●●
●
●
2.5
●
●
●
2.0
●
●
●
●
●
●
●
●
●
● ●
●● ● ●
●●
●●
●●● ● ●
●
●
●
●
● ● ●
● ●●
●●
●
●
●
●
● ●
●
5
6
Dolžina čašnega lista
7
(b)
Slika 5.2: Bayesov (a) in naivni Bayesov (b) klasifikator. Prikaz je narejen na osnovi podatkovja iris iz R-jevega paketa datasets. Naloga je zahtevala uvrstitev zelene
podatkovne toˇcke x = (6.75, 4.25)T bodisi v razred setosa (c1 ) bodisi v razred
versicolor (c2 ). Elipsa prikazuje nivojnico gostote verjetnosti za dvorazsežno
normalno porazdelitev (α = 0.1). Križec oznaˇcuje aritmetiˇcno sredino spremenljivk za posamezni razred. V obeh primerih bomo primer x uvrstili v razred
versicolor, saj velja Pr( g2 | x ) > Pr( g1 | x ).
75
5 Uvršˇcanje podatkov
Naivni Bayesov klasifikator
Naivni Bayesov klasifikator predpostavi, da so spremenljivke med seboj pogojno neodvisne glede na odvisno spremenljivko. Verjetje zato zapišemo kot produkt verjetnosti
posameznih spremenljivk:
p
Pr (x | gi ) = Pr x1 , x2 , . . . , x p | gi =
∏ Pr
j =1
x j | gi .
Predpostavimo še, da se spremenljivke v posameznih razredih porazdeljujejo normalno.
Z µij in σij2 oznaˇcimo aritmetiˇcno sredino oz. razpršenost spremenljivke X j v razredu gi .
Verjetje Pr( x j | gi ) za spremenljivko X j v razredu ci je tedaj
(
)
( x j − µij )2
1
2
Pr( x j |ci ) ∝ f ( x j | µij , σij ) = √
exp −
.
2σij2
2πσij
Posledica predpostavke o neodvisnosti spremenljivk je, da so vse kovariance v kovarianˇcni
matriki Σi enake niˇc:
 2

σi1 0 · · · 0
 0 σ2 · · · 0 
i2


Σi =  .
..
..  ,
..
 ..
.
.
. 
0
0
· · · σid2
kar pomeni, da je determinanta iz (5.6) v tem primeru enaka
d
|Σi | = det(Σi ) = σi12 σi22 · · · σid2 = ∏ σij2 .
j =1
V (5.6) poenostavimo še matriˇcni zapis, ki je zdaj
(x − µi )0 Σi−1 (x − µi ) =
( x j − µij )2
.
σij2
j =1
d
∑
Obrazec (5.6) lahko prepišemo v obliko
( x j − µij )2
exp − ∑
Pr(x| gi ) = √
p
2σij2
( 2π ) p ∏ j=1 σij2
j =1
)!
(
p
( x j − µij )2
1
=∏ √
exp −
2σij2
2πσij
j =1
1
q
(
p
)
(5.8)
p
= ∏ Pr( x j | gi ).
j =1
Za oceno verjetja Pr( x j | ci ) uporabimo vzorˇcne aritmetiˇcne sredine µˆ i = (µˆ i1 , . . . , µˆ id )0 ter
2,...,σ
2 )0 . V primerjavi s klasiˇ
ˆ id
razpršenosti σˆ i2 = (σˆ i1
cnim Bayesovim klasifikatorjem, kjer
2
je treba oceniti d + d parametrov, moramo pri naivni razliˇcici oceniti le 2d parametrov.
76
5.2 Pregled metod uvršˇcanja
5.2.2 Metoda najbližjega soseda
Pri Bayesovem klasifikatorju (gl. razdelek 5.2.1) smo verjetje Pr( x | gi ) ocenili s parametriˇcnim pristopom. V tem razdelku bomo obravnavali neparametriˇcno metodo najbližjega
soseda, pri kateri posteriorno verjetnost izraˇcunamo neposredno na osnovi podatkov.
Podatkovje D naj obsega n podatkovnih toˇck xi ∈ Rd . Z Di oznaˇcimo podmnožico toˇck
z oznako razreda gi , tako da je ni = |Di |. Razdaljo med podatkovno toˇcko x in njenim
K-tim najbližjim sosedom v D bomo oznaˇcili z r.
Zdaj obravnavajmo d-razsežno hiperkroglo s središˇcem v toˇcki x in polmerom r, formalno
Bd ( x, r ) = { xi ∈ D | δ( x, xi ) ≤ r } ,
kjer smo z δ( x, xi ) oznaˇcili razdaljo med toˇckama x in xi . Predpostavimo še, da je
| Bd ( x, r )| = K. S Ki oznaˇcimo število podatkovnih toˇck med K najbližjimi sosedi toˇcke x,
ki so oznaˇceni z oznako razreda gi , formalno
Ki = x j ∈ Bd ( x, r ) | y j = gi .
Pogojno gostoto za toˇcko x lahko ocenimo kot
fˆ( x | gi ) =
Ki/ni
V
,
kjer je V prostornina d-razsežne hiperkrogle Bd ( x, r ).
Posteriorno verjetnost Pr( gi | x ) bomo ocenili po obrazcu
Pr( gi | x ) =
ˆ ( gi )
fˆ( x | gi ) Pr
.
k
ˆ (gj )
∑ j=1 fˆ( x | g j ) Pr
ˆ ( gi ) = ni/n, je potem
Ker je Pr
ˆ ( gi ) = K i · n i = K i .
fˆ( x | gi ) Pr
ni V n
nV
Od tu dalje lahko posteriorno verjetnost raˇcunamo po obrazcu
Pr( gi | x ) =
Ki/nV
∑kj=1 K j/nV
=
Ki
.
K
Napovedani razred za podatkovno toˇcko x je
Gˆ ( x ) = arg max {Pr( gi | x )} = arg max
gi
gi
Ki
K
= arg max {Ki } .
gi
ˇ primer hkrati pripada veˇc
Situacija uvršˇcanja za K = 3 je prikazana na sliki 5.3a. Ce
razredom, oznako razreda doloˇcimo po sluˇcaju. Pred uvršˇcanjem spremenljivke obiˇcajno
77
5 Uvršˇcanje podatkov
standardiziramo. Razdaljo med primeri in prototipi lahko merimo na razliˇcne naˇcine;
najpogosteje uporabimo evklidsko razdaljo.
Kljub preprostemu algoritmu so rezultati metode najbližjega soseda pogosto zelo blizu
optimalnemu Bayesovemu klasifikatorju (Hastie in sod., 2011) (slika 5.3b). Na uspešnost
uvršˇcanja moˇcno vpliva izbira ustreznega števila prototipov. Pri majhnem K je odloˇcitvena
ravnina fleksibilna, kar ima za posledico nizko pristranost, a visoko razpršenost uvršˇcanja
(gl. razdelek 5.3.2). Z narašˇcanjem števila prototipov se odloˇcitvena ravnina približuje
linearni, kar se kaže v veˇcji pristranosti in manjši razpršenosti uvršˇcanja.
Pomembne prednosti metode so preprostost, razumljivost in hitrost uvršˇcanja. Metoda je
obˇcutljiva za fenomen praznega prostora, zato pravilo pravi, da na posamezen razred
uporabimo vsaj desetkrat toliko primerov, kot je spremenljivk.
5.2.3 Linearna diskriminantna analiza
Denimo, da želimo primer uvrstiti v enega od K razredov, kjer je K ≥ 2. S πk oznaˇcimo
apriorno verjetnost, da sluˇcajno izbran primer pripada razredu k, s f k ( x ) = Pr( X =
x | Y = k ) pa gostoto verjetnosti za primer iz razreda k. Z drugimi besedami, gostota f k ( x )
bo relativno visoka, cˇ e je verjetnost, da za primer v razredu k velja X ≈ x in narobe. Po
Bayesovem pravilu je (Hastie in sod., 2011)
Pr(Y = k | X = x ) =
f k ( x )πk
.
K
∑ l =1 π l f l ( x )
(5.9)
V obrazec (5.9) vstavimo ocene za πk in f k ( X ). πk bomo ocenili kot delež uˇcnih primerov,
ki pripadajo razredu k, gostoto f k ( X ) pa izpeljemo v nadaljevanju.
Najprej privzemimo, da se X porazdeljuje normalno z gostoto f k . Potem je
!
1
1
f k (x) = √
exp −
,
2πσk
2σk2 ( x − µk )2
(5.10)
kjer sta µk in σk2 aritmetiˇcna sredina oz. varianca za razred k. Privzemimo, da je razpršenost
med razredi enaka, torej da je σ12 = · · · = σK2 , in jo oznaˇcimo s σ2 . Obrazec (5.10) vstavimo
v obrazec (5.9) in dobimo (James in sod., 2013)
1
πk √2πσ
exp − 2σ1 2 ( x − µk )2
.
(5.11)
pk ( x ) =
2
K
1
1
√
exp
−
x
−
µ
π
(
)
∑l =1 l 2πσ
l
2σ2
Bayesov klasifikator uvrsti primer X = x v razred, za katerega je posteriorna verjetnost
v (5.11) najvišja.
ˇ obrazec (5.11) logaritmiramo in preuredimo, dobimo (James in sod., 2013)
Ce
δk ( x ) = x ·
78
µ2k
µk
−
+ log(πk ).
σ2 2σ2
(5.12)
5.2 Pregled metod uvršˇcanja
5
●
●
●
4
●
X2
●
3
2
●
●
●
1
●
●
1
2
3
4
X1
(a)
3
●●
●
●
●
●
● ●
●●●
●● ● ●
●
●
●
●
●
●
●
●
● ●
●●
●
●●
●
● ● ●
●●
●
●
●
●
●●● ● ●●
● ●
●
●
●
●
●
●
● ● ● ●●●
●● ● ●●
●
●
● ●
●●
●●●
●
●●
●
●
●● ● ●
●●
● ●
●● ●●●●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●● ●
●
●
●
●●
●● ●● ●●●
● ●
●
●●
●
●
●
●
●
●● ● ●● ●
●
● ●
● ●●●
● ●
● ●●
●
●●
●
● ●
●
● ●●
●
●
● ●
● ●
●
●●●
● ● ●●● ●
●
●●
●
●
●
●
2
X2
1
0
−1
−2
●
●
●●
●
●
●
−2
0
2
4
X1
(b)
Slika 5.3: Metoda najbližjega soseda. Slika (a) prikazuje preprosto situacijo s šestimi
modrimi in šestimi rdeˇcimi primeri. Enoto, ki jo želimo uvrstiti, ponazarja
zelena toˇcka. Za K = 3 smo zanjo identificirali tri najbližje sosede, ki so oznaˇceni
s trikotniki. Novo enoto uvrstimo v veˇcinski rdeˇci razred. Slika (b) prikazuje
Bayesovo odloˇcitveno ravnino (ˇcrtkana cˇ rta) ter odloˇcitveno ravnino za 15-NN.
Obe ravnini sta si zelo podobni.
79
5 Uvršˇcanje podatkov
V obrazcu (5.12) bomo funkcijo δk imenovali linearna diskriminantna funkcija. Podobno
kot zgoraj primer uvrstimo v tisti razred, za katerega je vrednost linearne diskriminantne
funkcije najveˇcja. Odloˇcitveno pravilo formalno zapišemo kot
Gˆ ( x ) = arg max (δk ( x )) .
k
Poseben primer linearne diskriminantne analize je diagonalna kvadratna diskriminantna analiza, kjer predpostavimo, da so kovarianˇcne matrike po posameznih razredih
ˇ so diagonalne kovarianˇcne matrike med seboj tudi enake, govorimo o
diagonalne. Ce
diagonalni linearni diskriminantni analizi (Hastie in sod., 2011; Speed, 2003).
5.2.4 Nevronske mreže
Teorija nevronskih mrež obravnava široko paleto modelov in uˇcnih algoritmov. V tem
razdelku si bomo ogledali nevronsko mrežo z eno skrito plastjo oz. enoplastni perceptron.
Nevronska mreža je dvostopenjski regresijski model oz. model uvršˇcanja, ki ga obiˇcajno
predstavimo z diagramom, podobnim tistemu na sliki 5.4. Vhodna vozlišˇca oznaˇcujejo
neodvisne spremenljivke, izhodna vozlišˇca pa odvisno spremenljivko. Pri regresijskem
problemu je izhodno vozlišˇce eno samo, pri nalogi uvršˇcanja pa število izhodnih vozlišˇc
ustreza številu razredov spremenljivke K. Nevronska mreža ima v splošnem lahko seveda
veˇc kot eno skrito plast. Vse povezave so utežene in usmerjene proti izhodni plasti. Vhodna
vozlišˇca nimajo posebne vloge pri procesiranju informacij; pomenijo le podatkovni vektor
spremenljivk, ki vstopajo v nevronsko mrežo. Uˇcenje se izvaja na skritem in izhodnem
sloju vozlišˇc.
Sestavljene spremenljivke Zm na srednjem nivoju izraˇcunamo kot linearne kombinacije
vhodnih spremenljivk, vrednosti izhodnih vozlišˇc Yk pa doloˇcimo kot funkcije linearnih
kombinacij spremenljivk na srednjem nivoju. Formalno bomo model nevronske mreže
predstavili takole:
Zm = σ(α0m + α0m X ), m = 1, . . . , M,
Tk = β 0k + β0k Z,
k = 1, . . . , K,
Yk = gk ( T ),
k = 1, . . . , K,
(5.13)
kjer sta Z = ( Z1 , Z2 , . . . , ZM ) in T = ( T1 , T2 , . . . , TK ). S T smo oznaˇcili agregacijo rezultatov
na izhodnem nivoju. V raˇcunskem modelu nevronske mreže obiˇcajno dodamo tudi cˇ len
pristranosti (angl. bias); v obrazcu (5.13) ga oznaˇcujeta α0m in β 0k .
Aktivacijska funkcija σ(v) je obiˇcajno sigmoidna funkcija σ(v) = 1/(1 + e−v ), s katero
lahko dobro ponazorimo zvezno delovanje pravega nevrona. Funkcija gk ( T ) omogoˇca
izhodno transformacijo. Pri regresijskih nalogah je to obiˇcajno kar identiˇcna funkcija
gk ( T ) = Tk , pri nalogah uvršˇcanja pa najpogosteje uporabimo softmax funkcijo
gk ( T ) =
80
e Tk
∑lK=1 e Tl
.
(5.14)
5.2 Pregled metod uvršˇcanja
1
.07
X1
.17
−1
Dolžina
čašnega
lista
1
−
1.4
3
.48
3
−1.08
Z1
Y1
setosa
Y2
versicolor
Y3
virginica
−.08
.64
.61
−
.59
−.
07
X2
0
1.0
Širina
čašnega
lista
−1.8
−
2.5
.66
0
5
X3
3.90
Z2
1.9
Širina
venčnega
lista
48
−.
−.8
Dolžina
venčnega
lista
9
.08
X4
Slika 5.4: Nevronska mreža s štirimi vhodnimi in tremi izhodnimi vozlišˇci. Nevronska
mreža ima eno skrito plast z dvema vozlišˇcema. Prikaz je narejen za podatkovje
iris iz R-jevega paketa datasets. Naloga je zahtevala uvrstitev perunike v
ustrezen razred.
81
5 Uvršˇcanje podatkov
Neznane parametre v modelu nevronske mreže imenujemo uteži. Cilj uˇcenja je prilagoditi
uteži tako, da bo napaka uvršˇcanja karseda majhna. Množico uteži oznaˇcimo s θ in je
sestavljena iz množice {α0m , αm ; m = 1, 2, . . . , M} , v kateri je M ( p + 1) uteži, ter množice
{ β 0k , β k ; k = 1, 2, . . . , K }, v kateri je K ( M + 1) uteži. V primeru naloge uvršˇcanja uteži
doloˇcimo tako, da je navzkrižna entropija (Hastie in sod., 2011)
N
R(θ ) = − ∑
K
∑ yik log f k (xi )
(5.15)
i =1 k =1
karseda majhna. Kriterijsko funkcijo (5.15) obiˇcajno minimiziramo z gradientnim spustom
z uporabo delta pravila; v teoriji nevronskih mrež to optimizacijo poznamo pod imenom
vzvratno popravljanje (angl. back-propagation). Ker ima kriterijska funkcija veliko lokalnih
minimumov, je optimizacijo smiselno ponoviti z razliˇcnimi zaˇcetnimi vrednostmi.
Pri raˇcunanju uteži lahko uporabimo regularizacijo, tako da uteži krˇcimo proti niˇc
(gl. razdelek 5.2.8). V ta namen kriterijski funkciji (5.15) dodamo cˇ len kaznovanja R(θ ) +
λJ (θ ), kjer je J (·) kazenska funkcija, λ ≥ 0 pa parameter, s katerim nadzorujemo koliˇcino
kaznovanja. Razliˇcne oblike kazenskih funkcij obravnavajo Hastie in sod. (2011) in jih
tukaj ne navajamo.
Odloˇcitveno pravilo formalno zapišemo kot
Gˆ ( x ) = arg max( f k ( x )).
k
Pomanjkljivost nevronskih mrež je v tem, da nimajo mehanizma, s pomoˇcjo katerega bi
lahko dobljene rešitve razložili. Zaradi tega so manj primerne za uporabo pri odloˇcanju,
uspešne pa so pri razpoznavanju vzorcev. Nevronske mreže so moˇcno odporne proti
podatkom z veliko šuma in manjkajoˇcim podatkom. Bralec, ki ga tematika nevronskih
mrež podrobneje zanima, bo širši pregled podroˇcja našel v Bishop (1995) ali Ripley (2008).
5.2.5 Odločitvena drevesa
Odloˇcitvena drevesa3 lahko uporabimo tako pri regresijskih nalogah (regresijska drevesa)
kot pri problemih uvršˇcanja (klasifikacijska drevesa). Pristop je preprost za uporabo,
rezultati pa so obiˇcajno lahko razložljivi. Metoda temelji na razbitju (segmentaciji) prostora
spremenljivk na ustrezno število regij. Nov primer uvrstimo na osnovi veˇcinskega razreda
tistih primerov v regiji, ki so po izbranih spremenljivkah novi enoti najbolj podobni.
Množico cepitvenih pravil, ki jih uporabimo za konstrukcijo regij, predstavimo z drevesno
strukturo (slika 5.5). Zaradi popolnosti prikaza najprej obravnavamo regresijska, nato pa
še klasifikacijska drevesa.
3 Pri
predstavitvi odloˇcitvenih dreves se omejimo na metodologijo CART, ki je uporabljena v nadaljevanju
naloge. Bralec, ki ga zanimajo ostali pristopi, bo veˇc informacij našel v Hastie in sod. (2011) in Mitchell
(1997).
82
5.2 Pregled metod uvršˇcanja
2.5
● ●●
● ●
●●●● ● ● ●
●
●●
●
●●●● ●
●
●●●●
● ●
●● ●
●
●● ● ●● ● ● ●
● ●
●● ●
●
● ●●● ●●●
● ● ●●●
●
● ●●●●●●●
●● ● ● ●
●
●●
● ● ● ●●
Razred
Širina venčnega lista
2.0
1.5
1.0
0.5
●
●
● ●●● ●
●●● ●
● ●●
●●
●●
●
●●● ●
● ●●
●
setosa
●
versicolor
●
virginica
0.0
2
4
6
Dolžina venčnega lista
(a)
da
setosa
Dolžina
venčnega
lista
< 2.5
ne
Širina
venčnega
lista
< 1.8
da
versicolor
ne
virginica
(b)
Slika 5.5: Klasifikacijsko drevo. Slika (a) prikazuje razbitje prostora dveh spremenljivk na
tri regije. Za prikaz smo uporabili podatkovje iris iz R-jevega paketa datasets.
Na sliki (b) je prikazano pripadajoˇce klasifikacijsko drevo.
83
5 Uvršˇcanje podatkov
Regresijska drevesa
S pari ( xi , yi ), i = 1, . . . , n predstavimo uˇcne podatke, kjer je xi ∈ R p vektor s p neodvisnimi spremenljivkami, yi pa vrednost odvisne spremenljivke. Denimo, da imamo razbitje
z M regijami R1 , . . . , R M , tako da vsaka regija ustreza enemu listu drevesa. Vrednost
odvisne spremenljivke bomo doloˇcili s pomoˇcjo obrazca
M
f (x) =
∑
m =1
cm · I { x ∈ Rm } ,
kjer je cm konstanta za vsako od regij. Regije doloˇcimo tako, da prostor neodvisnih
spremenljivk razbijemo na (veˇcrazsežne) pravokotnike, tako da bo vrednost statistike
M
∑ ∑
m =1 i ∈ R j
yi − yˆ R j
2
karseda majhna. Izkaže se, da je optimalen cˆm kar povpreˇcje vrednosti yi v regiji Rm :
cˆm = ave (yi | xi ∈ Rm ) .
Zaradi raˇcunskih omejitev je nemogoˇce upoštevati vsa možna razbitja prostora neodvisnih
spremenljivk v M regij. Drevo zato gradimo na osnovi rekurzivnega dvojiškega razbijanja
(angl. recursive binary splitting) prostora spremenljivk. CART-algoritem zaˇcne gradnjo
drevesa s cepitvijo spremenljivke j v toˇcki s na regiji
R1 ( j, s) = X | X j ≤ s
in R2 = X | X j > s
nato pa stopenjsko izbere j in s na osnovi minimizacije

min min
j,s
c1
∑
xi ∈ R1 ( j,s)
(yi − c1 )2 + min
c2
∑
xi ∈ R2 ( j,s)

( y i − c2 )2  ,
kjer sta
cˆ1 = ave (yi | xi ∈ R1 ( j, s))
in
cˆ2 = ave (yi | xi ∈ R2 ( j, s)) .
Algoritem rekurzivno ovrednoti cepitev znotraj vsakega para novih regij, dokler ne
zadosti ustavitvenemu kriteriju (npr. doloˇcenemu številu primerov v regiji).
Polno drevo T0 z listi, ki definirajo regije R1 , . . . , Rm , se bo dobro obnašalo na uˇcni množici
podatkov, njegova posplošljivost pa bo zaradi prevelike kompleksnosti slaba. Drevo zato
obiˇcajno odrežemo (angl. prunning), kar pomeni, da veje drevesa zapremo v starševska
vozlišˇca. Najboljše bo tisto odrezano drevo, ki bo imelo karseda majhno napako pri
uvršˇcanju na testnih podatkih.
Za vsako poddrevo T ⊆ T0 s | T | oznaˇcimo število njegovih listov, s cˇ imer izrazimo
kompleksnost drevesa. Števec za terminalna vozlišˇca oznaˇcimo z m; vozlišˇce m tako
ponazarja regijo Rm . Definirajmo
cˆm =
84
1
nm
∑
xi ∈ R m
yi
5.2 Pregled metod uvršˇcanja
in
Qm ( T ) =
1
nm
Kriterij cene kompleksnosti je potem
|T |
∑
Cα ( T ) =
m =1
(yi − cˆm )2 .
(5.16)
n m Q m ( T ) + α | T |.
(5.17)
∑
xi ∈ R m
Ideja je, da za vsak α poišˇcemo tako poddrevo Tα ⊆ T0 , pri katerem bo Cα ( T ) minimalen. S
parametrom kompleksnosti α ≥ 0 uravnavamo odnos med velikostjo drevesa in njegovim
prileganjem podatkom. Višja ko bo vrednost α, manjše bo drevo in obratno. Pri α = 0 je
rešitev enaka celemu drevesu T0 . Breiman in sod. (1984) so pokazali, da za vsak α obstaja
najmanjše poddrevo Tα , pri katerem je vrednost Cα ( T ) najmanjša. Drevo Tα poišˇcemo
s postopkom rezanja na osnovi cene kompleksnosti (angl. cost complexity pruning), kjer
zaporedno zapiramo vozlišˇca drevesa, pri katerih je cˇ len ∑m nm Qm ( T ) v obrazcu (5.17)
najmanjši. Zapiranje ponavljamo toliko cˇ asa, dokler ne zapremo vseh vozlišˇc. Na ta naˇcin
pridemo do zaporedja poddreves, med katerimi nato izberemo Tα . Postopek je podrobneje
predstavljen v Breiman in sod. (1984) in Ripley (2008), dober skrajšan prikaz pa ponuja
Izenman (2008). Optimalno vrednost α doloˇcimo s preˇcnim preverjanjem.
Klasifikacijska drevesa
Pri klasifikacijskih drevesih lahko odvisna spremenljivka zasede eno od 1, 2, . . . , K vrednosti. V algoritmu za gradnjo drevesa je treba spremeniti kriterij za cepljenje in rezanje
drevesa. V primeru regresije smo kot mero cˇ istosti vozlišˇca uporabili vrednost statistike
Qm ( T ) v obrazcu (5.16). Za vozlišˇce m, ki ponazarja regijo Rm z nm primeri, naj bo
pˆ mk =
1
nm
∑
I ( yi = k )
xi ∈ R m
delež primerov, ki pripadajo razredu k. Primer v vozlišˇcu m bomo uvrstili v veˇcinski razred
k (m) = arg maxk pˆ mk . Kot mero cˇ istosti vozlišˇca obiˇcajno vzamemo napako uvršˇcanja
1
nm
Ginijev indeks
∑
i ∈ Rm
I (yi 6= k (m)) = 1 − pˆ mk(m) ,
K
∑0 pˆ mk pˆ mk0 = ∑ pˆ mk (1 − pˆ mk )
ali križno entropijo
k =1
k6=k
K
− ∑ pˆ mk log pˆ mk .
k =1
Odnos med tremi razliˇcnimi merami neˇcistoˇce vozlišˇca je prikazan na sliki 5.6.
Poleg metodologije CART se v praksi za gradnjo odloˇcitvenih dreves pogosto uporablja
tudi podoben algoritem C4.5 (in C5.0). Natanˇcnejši opis razlik med njima bo bralec našel
v X. Wu in sod. (2007).
85
5 Uvršˇcanje podatkov
0.5
Ent
Gini
Nečistoča
0.4
MSE
0.3
0.2
0.1
0.0
0.00
0.25
0.50
p
0.75
1.00
Slika 5.6: Entropija, Ginijev indeks oz. napaka uvršˇcanja kot funkcija deleža primerov v
razredu 1. Navzkrižno entropijo smo standardizirali, tako da seka toˇcko (0.5,
0.5).
Naključni gozdovi
ˇ npr. uˇcno
Za odloˇcitvena drevesa je znano, da imajo visoko razpršenost napovedi. Ce
množico podatkov po sluˇcaju razpolovimo ter nad vsako polovico zgradimo odloˇcitveno
drevo, bodo rezultati po vsej verjetnosti zelo razliˇcni. Temu problemu se lahko izognemo
z uporabo nakljuˇcnih gozdov (angl. random forest).
Nakljuˇcni gozdovi so sestavljeni iz skupka odloˇcitvenih dreves. Iz uˇcne množice s pomoˇcjo
zankanja (angl. bootstraping) sestavimo B sluˇcajnih vzorcev, nad katerimi v nadaljevanju
zgradimo odloˇcitvena drevesa. Obiˇcajno jih gradimo brez rezanja. Vsako drevo zgradimo
na osnovi m prediktorjev, ki jih po sluˇcaju vzorˇcimo iz množice p prediktorjev. Obiˇcajno
√
izberemo m ≈ p. Z nakljuˇcnim izborom spremenljivk se izognemo cˇ ezmernemu vplivu
moˇcnih prediktorjev na rezultate uvršˇcanja. V povpreˇcju bomo namreˇc v ( p − m)/p uˇcnih
podmnožicah tako spremenljivko izpustili iz uˇcenja.
V primeru uvršˇcanja bomo nov primer uvrstili v tisti razred, ki je med B napovedmi
najpogostejši.
5.2.6 Metoda podpornih vektorjev
Obravnavajmo podatkovje z n podatkovnimi toˇckami ( x1 , y1 ), ( x2 , y2 ), . . . , ( xn , yn ), kjer
sta xi = R p in yi = {−1, 1}. S predpisom
n
o
x : f (x) = xT β + β0 = 0
(5.18)
definirajmo hiperravnino z razsežnostjo p − 1, kjer je k βk = 1. S hiperravnino smo prostor
možnih vrednosti spremenljivk razdelili na dva polprostora. Klasifikacijsko pravilo, ki ga
v (5.18) inducira f ( x ), zapišemo kot
h
i
G ( x ) = sign x T β + β 0 .
Primer hiperravnine v dvorazsežnem prostoru je prikazan na sliki 5.7a.
86
5.2 Pregled metod uvršˇcanja
Klasifikator z maksimalnim robom
V nadaljevanju privzemimo, da lahko razrede popolnoma loˇcimo s hiperravnino. V
tem primeru lahko konstruiramo neskonˇcno takih hiperravnin. Denimo, da izraˇcunamo
razdalje med primeri in ravnino. Najkrajši taki razdalji pravimo rob (angl. margin) ravnine.
Smiselno je izbrati tako hiperravnino, ki je kar najbolj oddaljena od uˇcnih primerov. Taki
ravnini reˇcemo hiperravnina z najširšim robom (angl. maximal margin hyperplane).
Poiskati moramo tako razmejitveno ravnino, ki bo karseda dobro loˇcevala oba razreda,
pri kateri bo rob med uˇcnimi primeri za oba razreda karseda velik. Pokažemo lahko, da
je hiperravnina z maksimalnim robom rešitev optimizacijskega problema (Hastie in sod.,
2011):
max
(5.19)
C
β,β 0
p
pri pogojih
∑ β2j = 1
(5.20)
yi ( xiT β + β 0 ) ≥ C, ∀i = 1, . . . , n.
(5.21)
j =1
Omejitvi (5.19) in (5.20) zagotavljata, da bo vsak primer uvršˇcen na pravo stran hiperravnine ter za vsaj C oddaljen od nje. C oznaˇcuje rob hiperravnine, uteži pa izberemo tako,
da bo ta karseda širok. Na sliki 5.7b najdemo tri podatkovne toˇcke, ki so od hiperravnine
ˇ
enako oddaljene. Takim toˇckam pravimo podporni vektorji (angl. support vectors). Ce
iz uˇcne množice odstranimo vektorje, ki niso podporni, ostane rešitev optimizacijskega
problema enaka.
Klasifikator s podpornimi vektorji
Pogostokrat pa podatki niso linearno loˇcljivi, zato optimizacijski problem (5.19)–(5.21)
nima rešitve. V tem primeru razredov ne moremo popolnoma loˇciti. Ta problem rešimo
z vpeljavo mehkega roba. Posplošitev klasifikatorja z maksimalnim robom na neloˇcljive
podatke se imenuje klasifikator s podpornimi vektorji. Pri tem klasifikatorju dovolimo,
da so nekateri primeri na napaˇcni strani hiperravnine oz. roba. Hiperravnino izberemo
tako, da pravilno uvrstimo veˇcino primerov (Hastie in sod., 2011):
max
β,β 0 ,e
(5.22)
C
p
pri pogojih
∑ β2j = 1,
(5.23)
yi ( xiT β + β 0 ) ≥ C (1 − ei ),
(5.24)
∑ ei ≤ M,
(5.25)
j =1
ei ≥ 0,
n
i =1
∀i = 1, . . . , n,
kjer je M nenegativni regularizacijski nastavitveni parameter. C oznaˇcuje širino roba, za
katero želimo, da je karseda velika. Z e1 , . . . , en bomo oznaˇcili kazenske spremenljivke, s
87
5 Uvršˇcanje podatkov
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
1
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
X2
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
−1
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
−1
0
X1
1
(a)
Širina venčnega lista
1.5
1.0
●
0.5
●
●
●
●
●●●
●●
●●●●●●●●●●
●●
2.0
2.5
●
●
●
3.0
3.5
Širina čašnega lista
●
●
●
4.0
4.5
(b)
Slika 5.7: Slika (a) prikazuje hiperravnino z enaˇcbo 1 + 2X1 + 3X2 = 0. Rdeˇce podroˇcje
oznaˇcuje množico toˇck, za katere velja 1 + 2X1 + 3X2 > 0, modro podroˇcje pa
toˇcke, kjer je 1 + 2X1 + 3X2 < 0. Slika (b) prikazuje klasifikator z maksimalnim
robom. Polna cˇ rta oznaˇcuje hiperravnino, cˇ rtkane cˇ rte pa rob. Podporni vektorji
so oznaˇceni z rdeˇco barvo.
88
5.2 Pregled metod uvršˇcanja
y
xT
β
+
β
0
=
0
b
ro
C
x
(a)
y
e1
e2
e3
x
(b)
Slika 5.8: Klasifikator s podpornimi vektorji. Slika (a) prikazuje linearno loˇcljiv primer.
Polna cˇ rta oznaˇcuje hiperravnino, cˇ rtkani cˇ rti pa omejujeta rob klasifikatorja s
širino 2C. Slika (b) prikazuje linearno neloˇcljiv primer. Tri podatkovne toˇcke
ležijo na napaˇcni strani roba; od roba so oddaljene za ei .
89
5 Uvršˇcanje podatkov
katerimi dovolimo posameznim primerom, da so uvršˇceni na napaˇcno stran roba oz. hiperravnine. Kazenska spremenljivka ei nam pove, kje je primer i glede na hiperravnino
in rob. ei = 0, cˇ e je primer uvršˇcen na provo stran roba, ei > 0, cˇ e je na napaˇcni strani
roba in e1 > 1, cˇ e je na napaˇcni strani hiperravnine. S parametrom M omejimo vsoto
ˇ je M = 0, so e1 = · · · = en = 0, model (5.22)–(5.24) pa se
kazenskih spremenljivk. Ce
reducira na klasifikator z najširšim robom. Za M > 0 je lahko na napaˇcni strani najveˇc
M primerov, kajti cˇ e je primer na napaˇcni strani, je ei > 1. Z narašˇcanjem M narašˇca
toleranca za kršitev in rob se širi. Ko M zmanjšujemo, se oži tudi rob. Vrednost parametra
M obiˇcajno doloˇcimo na osnovi preˇcnega preverjanja. Z M nastavljamo razmerje med
pristranostjo in razpršenostjo (gl. razdelek 5.3.2). Ko je M majhen, bo pristranost majhna,
razpršenost pa visoka.
Na hiperravnino vplivajo samo podporni vektorji in podatkovne toˇcke, ki kršijo rob. Ta
klasifikator je odporen proti podatkovnim toˇckam, ki so moˇcno oddaljene od hiperravnine.
Metoda podpornih vektorjev
Klasifikator s podpornimi vektorji se dobro obnese na linearno loˇcljivih podatkih, odpove pa pri nelinearnih odnosih med spremenljivkami. Metoda podpornih vektorjev je
nadgradnja klasifikatorja s podpornimi vektorji.
Glavna ideja metode je, da vhodni prostor spremenljivk razširimo do te mere, da bo
problem postal linearno loˇcljiv. Problem rešimo s preslikavo prostora spremenljivk v
prostor znaˇcilk, v katerem poišˇcemo hiperravnino, ki podatke karseda dobro loˇci. V
nadaljevanju obravnavamo zgolj glavno idejo metode.4 Pokažemo lahko (Hastie in sod.,
2011),
i) da pri doloˇcanju ravnine z najveˇcjim robom klasifikator s podpornimi vektorji
zapišemo v obliki
n
f ( x ) = β 0 + ∑ αi h x, xi i ,
(5.26)
i =1
kjer vsakemu od n primerov pripada neniˇcelni koeficient αi 5 , ter
ii) da za oceno parametrov α1 , . . . , αn in β 0 potrebujemo le (n2 ) skalarnih produktov
h xi , xi0 i med vsemi pari uˇcnih primerov.
Klasifikator zapišemo v obliki
Gˆ ( x ) = sign [ f ( x )]
h
i
= sign β 0 + x T β .
Pri raˇcunanju funkcije (5.26) za nov primer x je treba izraˇcunati skalarne produkte med
novo podatkovno toˇcko x in vsakim od uˇcnih primerov xi . Izkaže se, da je αi neniˇceln
4 Bralec
bo veˇc informacij našel npr. v Hastie in sod. (2011).
αi so rešitve dualnega optimizacijskega programa.
5 Koeficienti
90
5.2 Pregled metod uvršˇcanja
ˇ z S oznaˇcimo množico indeksov podpornih
samo v primeru podpornih vektorjev. Ce
vektorjev, lahko obrazec (5.26) prepišemo v obliko
f (x) = β0 +
∑ αi hx, xi i .
(5.27)
i ∈S
Metoda podpornih vektorjev pri raˇcunanju (5.26) oz. (5.27) skalarne produkte nadomesti
s posplošitvijo
K ( x i , x i 0 ),
kjer je K funkcija, ki jo imenujemo jedro (angl. kernel). Dejanski preslikavi v visokorazsežni
prostor se pri tem izognemo, tako da izraˇcunamo le vrednosti jedrne funkcije za vse pare
vektorjev. Najpreprostejše je linearno jedro, ki je definirano kot
p
K ( xi , xi0 ) =
∑ xij xi0 j .
j =1
V tem primeru je rešitev seveda enaka klasifikatorju s podpornimi vektorji. Pogosto je
uporabljeno polinomsko jedro, ki je definirano kot
p
K ( xi , xi0 ) =
1 + ∑ xij xi0 j
!d
,
j =1
kjer je d > 1. Uporaba takega jedra omogoˇci preslikavo vhodnega prostora spremenljivk
v visokorazsežni prostor znaˇcilk, v katerem problem obiˇcajno postane linearno loˇcljiv.
5.2.7 Metoda najbližjih skrčenih centroidov
Metoda najbližjih skrˇcenih centroidov (angl. nearest shrunken centroids) je razširitev uvršˇcanja na osnovi prototipov, kjer primer uvrstimo v tisti razred, pri katerem je razdalja med
primerom in centroidom razreda najkrajša (Hastie in sod., 2011). Glavna ideja metode je,
da posamezne komponente centroidov razredov krˇcimo proti celotnemu centroidu (Tibshirani, Hastie, Narasimhan & Chu, 2002, 2003). Na ta naˇcin izberemo tiste spremenljivke,
pri katerih je moˇc diskriminacije med razredi najveˇcja.
Z xij oznaˇcimo vrednost spremenljivke j = 1, 2, . . . , p za primer i = 1, 2, . . . , n. Primeri
so razbiti v 1, 2, . . . , K razredov, kjer s Ck oznaˇcimo indekse nk primerov v razredu k.
Komponenta j skupnega centroida je enaka x j = ∑in=1 xij/n, komponenta j centroida
za razred k pa je enaka povpreˇcni vrednosti spremenljivke j v razredu k, torej x jk =
∑i∈Ck xij/nk .
Za vsako spremenljivko izraˇcunamo t-statistiko, s katero primerjamo vrednost spremenljivke j v razredu k s skupnim centroidom. To storimo s pomoˇcjo obrazca
d jk =
x jk − x j
m k s j + s0
,
(5.28)
91
5 Uvršˇcanje podatkov
kjer je s j skupni standardni odklon spremenljivke j, ki ga izraˇcunamo kot
s2j =
1
n−K
∑∑
k i ∈Ck
xij − xik
2
,
√
in mk = 1/nk + 1/n. s0 je pozitivna konstanta, ki prepreˇcuje sluˇcajen pojav visokih
vrednosti statistike d jk pri spremenljivkah, ki so nizko izražene. s0 obiˇcajno nastavimo na
mediano vrednosti s j .
S preureditvijo (5.28) lahko j-to komponento centroida za razred k izrazimo v obliki
(5.29)
x jk = x j + mk s j + s0 d jk .
Vsak d jk v (5.29) krˇcimo proti vrednosti niˇc. Raven krˇcenja doloˇcimo s pragom krˇcenja ∆.
Skrˇceni centroid je potem
x 0jk = x j + mk s j + s0 d0jk ,
kjer je vrednost d0jk doloˇcena s predpisom
(
d0jk
=
sign d jk
0
|d jk | − ∆
cˇ e t > 0,
cˇ e t ≤ 0.
S poveˇcevanjem parametra ∆ poveˇcujemo število spremenljivk, ki jih bomo izvzeli iz
uvršˇcanja. Parameter ∆ obiˇcajno nastavimo s pomoˇcjo preˇcnega preverjanja. Nov primer
x uvrstimo tako, da najprej izraˇcunamo diskriminantni dosežek v razredu k po obrazcu
2
p
x j − x 0jk
δk ( x ) = ∑
(5.30)
2 − 2 log πk .
s j + s0
j =1
ˇ
Clen
2 log πk v (5.30) se nanaša na popravek, ki temelji na apriorni verjetnosti posameznega razreda. Klasifikacijsko pravilo je potem
Gˆ ( x ) = arg min (δk ( x )) .
k
5.2.8 Logistična regresija
Pri logistiˇcni regresiji odnos med neodvisno in odvisno spremenljivko modeliramo
posredno, tako da izraˇcunamo verjetnost, da odvisna spremenljivka zasede enega od K
razredov. Logistiˇcna regresija je razliˇcica diskriminativnega uˇcenja. Posteriorne verjetnosti
K razredov opišemo s K − 1 logit transformacijami; v primeru dveh razredov je (Hastie
in sod., 2011)
Pr( X )
log
= β 0 + β 1 X1 + · · · + β p X p ,
(5.31)
1 − Pr( X )
kjer je X = ( X1 , . . . , X p ). Posteriorno verjetnost izrazimo neposredno kot
Pr( X ) =
92
exp( β 0 + β 1 X1 + · · · + β p X p )
.
1 + exp( β 0 + β 1 X1 + · · · + β p X p )
5.2 Pregled metod uvršˇcanja
Parametre modela β moramo oceniti na osnovi uˇcnih podatkov. Za oceno obiˇcajno
uporabimo metodo najveˇcjega verjetja in Newton-Raphsonov algoritem (Hastie in sod.,
2011). Odloˇcitveno pravilo zapišemo kot
Gˆ ( x ) = arg max (Pr ( G = k | X = x )) .
k
Logistična regresija s kaznijo
Standardne logistiˇcne regresije ne moremo uporabiti, kadar število spremenljivk presega
število primerov p > n, saj v tem primeru ni mogoˇce oceniti parametrov modela (Hastie
in sod., 2011; James in sod., 2013). Podobno je uporaba logistiˇcne regresije nepriporoˇcljiva
tudi v primeru, ko je spremenljivk in primerov podobno veliko, saj so v tem primeru
ocene regresijskih koeficientov zelo razpršene in nestabilne, ocenjeni model pa se preveˇc
prilega podatkom iz uˇcne množice in je slabo posplošljiv. Kadar v logistiˇcnem modelu
nastopa veliko spremenljivk, ki so med seboj moˇcno povezane (kolinearne), postanejo
ocene regresijskih koeficientov nezanesljive in imajo veliko razpršenost. Ena od možnosti
je krˇcenje regresijskih parametrov, za kar lahko uporabimo ridge ali lasso regresijo6 .
Ridge regresija Pri ridge regresiji (Hoerl & Kennard, 1970) regresijske koeficiente dolocˇ imo tako, da minimizirajo kaznovano vsoto kvadratov ostankov:


!2
p
p
 n

βˆ ridge = arg min ∑ yi − β 0 − ∑ β j xij + λ ∑ β2j ,
(5.32)
 i =1

β
j =1
j =1
kjer je λ ≥ 0 parameter, s katerim nadzorujemo koliˇcino krˇcenja (angl. shrinkage penalty);
višja ko je njegova vrednost, veˇcje je krˇcenje. Regresijske koeficiente krˇcimo proti niˇc.
Ko je λ = 0, cˇ len kaznovanja nima vpliva, ocene regresijskih parametrov pa so enake
ocenam po metodi najmanjših kvadratov. Z veˇcanjem λ → ∞ se koliˇcina kaznovanja veˇca,
regresijski parametri pa se približujejo vrednosti niˇc (slika 5.9). Regresijska konstanta β 0
krˇcenju ni podvržena.
Lasso regresija S kazensko funkcijo λ ∑ j β2j v (5.32) bomo parametre sicer skrˇcili, vendar
bomo v model kljub temu vkljuˇcili vseh p prediktorjev. To pomanjkljivost ridge regresije
odpravlja lasso regresija (Tibshirani, 1996). Pri lasso regresiji regresijske parametre doloˇcimo
na podoben naˇcin:


!2
p
p
 n

ˆβ lasso = arg min ∑ yi − β 0 − ∑ β j xij + λ ∑ | β j | .
 i =1

β
j =1
j =1
Pri lasso regresiji se z veˇcanjem parametra λ veˇca verjetnost, da bodo nekateri regresijski
koeficienti enaki niˇc. Lasso regresijo lahko zato uporabimo tudi kot metodo izbire spremenljivk (gl. poglavje 3). Vrednost parametra λ obiˇcajno doloˇcimo s pomoˇcjo preˇcnega
preverjanja (Hastie in sod., 2011).
6 Idejo
ridge in lasso regresije zaradi preglednosti prikaza razlagamo v navezavi na linearno regresijo.
93
5 Uvršˇcanje podatkov
0.6
Koeficient
0.4
0.2
0.0
−0.2
1
2
3
4
5
6
7
8
df(λ)
Slika 5.9: Profil regresijskih koeficientov v odvisnosti od parametra krˇcenja λ pri ridge
regresiji. Prikaz je narejen nad podatkovjem prostate iz R-jevega paketa ElemStatLearn. Na x-osi so prikazane efektivne stopnje prostosti (Hastie, Tibshirani
& Friedman, 2011).
5.3 Ocenjevanje kakovosti uvrščanja
5.3.1 Napaka posplošitve
Denimo, da obravnavamo metodo uvršˇcanja, kjer smo na osnovi parov uˇcnih podatkov
(xi , yi ) ocenili parametre statistiˇcnega modela fˆ. Prediktorski spremenljivki lahko prilagodimo vrednosti odvisne spremenljivke fˆ( xi ) in opazujemo odklone napovedanih
ˇ bodo ti odkloni majhni, bomo rekli, da je priˇcakovana
vrednosti od pravih vrednosti yi . Ce
napaka napovedi nad uˇcno množico majhna. Ta napaka pa nam ne pove dosti o kvaliteti
naše napovedi, saj smo za testiranje uporabili isto množico podatkov kot za gradnjo statistiˇcnega modela. Veliko pomembnejše je namreˇc vprašanje, kako se bo naš model obnesel
pri napovedi fˆ( x0 ), kjer je ( x0 , y0 ) primer, s katerim se naš statistiˇcni model še ni sreˇcal.
Za objektivno oceno priˇcakovane napake napovedi je treba model preizkusiti nad testno
množico podatkov. Taki napaki napovedi pravimo napaka posplošitve (angl. generalization
error).
Na prvi pogled se zdi, da se napaka napovedi med uˇcno in testno množico podatkov ne
razlikuje pomembno. Izkaže pa se, da napake nad testno množico ne moremo preprosto
izpeljati iz napake nad uˇcno množico podatkov, saj slednja ne upošteva kompleksnosti
statistiˇcnega modela (Hastie in sod., 2011). Odnos med obema napakama v odvisnosti
od kompleksnosti modela je prikazan na sliki 5.10. Napaka napovedi nad uˇcno množico
podatkov se z veˇcanjem kompleksnosti modela zmanjšuje. Ob veliki kompleksnosti se
bo model uˇcnim podatkom prilegal tako dobro (angl. overfitting), da bo njegova napaka
posplošitve nad testnimi podatki velika. Podobno bo zaradi pristranosti modela napaka
posplošitve velika ob njegovi premajhni kompleksnosti (angl. underfitting).
V nadaljevanju razdelka bomo najprej osvetlili pojma pristranosti in razpršenosti statistiˇcnega modela, ki sta pomembna za teoretiˇcni vpogled v delovanje klasifikatorjev. Potem
94
5.3 Ocenjevanje kakovosti uvršˇcanja
Množica
0.3
Učna
MSE
Testna
0.2
0.1
0.0
1
2
3
4
5
6
7
8
Kompleksnost
9
10
11
12
Slika 5.10: Napaka napovedi (MSE) nad uˇcno in testno množico podatkov v odvisnosti od
kompleksnosti statistiˇcnega modela. Kompleksnost je predstavljena s številom
prediktorskih spremenljivk.
bomo obravnavali razliˇcne mere kakovosti uvršˇcanja, s katerimi lahko predstavimo dosežke klasifikatorjev in jih primerjamo med seboj. Razdelek bomo zakljuˇcili s pregledom
statistiˇcnih postopkov za ocenjevanje napake uvršˇcanja.
5.3.2 Pristranost in razpršenost uvrščanja
Denimo, da obravnavamo preprost statistiˇcni model Y = f ( X ) + e, kjer sta E(e) = 0 in
Var(e) = σe2 . Priˇcakovano napako napovedi modela fˆ( X ) v toˇcki X = x0 lahko razˇclenimo
takole (Hastie in sod., 2011):
2
ˆ
EPE = E Y − f ( x0 ) | X = x0
h
i2
h
i2
= σe2 + E fˆ ( x0 ) − f ( x0 ) + E fˆ ( x0 ) − E fˆ ( x0 )
= σe2 + Pristranost2 fˆ ( x0 ) + Var fˆ ( x0 ) .
(5.33)
Prvi cˇ len v obrazcu (5.33) se nanaša na napako merjenja; zanj bomo privzeli, da je σe2 > 0.
Posebej nas zanimata pristranost in razpršenost. Pristranost se nanaša na ustreznost
izbranega statistiˇcnega modela za predstavitev problemske naloge. Za primer si oglejmo
statistiˇcna modela na sliki 5.11a. Odnos med spremenljivkama je izrazito nelinearen, zato
klasiˇcen linearni model (rdeˇca krivulja) ni ustrezen. Pravimo, da ima tak model veliko
pristranost. Nasprotno se zelena krivulja podatkom prilega veliko bolje, zato reˇcemo, da
je njena pristranost majhna. Razpršenost se nanaša na odklone cenilke fˆ, cˇ e jo ocenjujemo
na razliˇcnih podatkovjih. V idealnem primeru seveda priˇcakujemo, da bodo ti odkloni
karseda majhni. V statistiˇcnem modelu z veliko razpršenostjo bodo majhne spremembe
v porazdelitvi uˇcnih podatkov povzroˇcile velike spremembe v cenilki fˆ. Modra krivulja
na sliki 5.11a se podatkovnim toˇckam tesno prilega. Njena razpršenost je velika, saj bo
minimalna sprememba porazdelitve podatkovnih toˇck zagotovo povzroˇcila spremembo
95
5 Uvršˇcanje podatkov
vrednosti cenilke. Nasprotno se bo obnašala rdeˇca krivulja, pri kateri bo vpliv spremembe
porazdelitve manj izrazit.
V statistiˇcnem uˇcenju si prizadevamo zgraditi model, pri katerem bosta tako pristranost
kot razpršenost karseda majhni. Iz definicije obeh koliˇcin izhaja, da se z narašˇcanjem
kompleksnosti statistiˇcnega modela fˆ pristranost manjša, razpršenost pa narašˇca. Odnos
med obema koliˇcinama je prikazan na sliki 5.11b. Kompleksnost modela smo ponazorili s
stopnjo krˇcenja. Veˇcja ko je stopnja krˇcenja, manjša je kompleksnost statistiˇcnega modela
in obratno. Optimalno razmerje med obema koliˇcinama bomo dosegli v toˇcki, kjer se
krivulji obeh koliˇcin sekata.
● ●
●
●
●
●
●●
●●
●
●
10
●
●
●
●
●
●
●
●
● ●
● ●●
●
●
●
● ● ●●●
●●
Y
●
●
5
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
●●
●●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●
●
●●●
●
0
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
●
●●
●
●
●
0.00
●
●
●●
●
0.25
0.50
X
0.75
1.00
(a)
1.2
MSE
0.8
0.4
MSE
Bias2
Var
0.0
0.0
0.1
0.2
0.3
Krčenje
0.4
0.5
(b)
Slika 5.11: Slika (a) prikazuje tri statistiˇcne modele razliˇcnih kompleksnosti, s katerimi poskušamo opisati porazdelitev podatkovnih toˇck. Na sliki (b) je prikazan odnos
med pristranostjo in razpršenostjo v odvisnosti od kompleksnosti statistiˇcnega
modela. Za dodatna pojasnila gl. besedilo.
V realni situaciji prave funkcije f seveda ne poznamo, zato pristranosti in razpršenosti ne
moremo eksplicitno izraˇcunati. Oceno ustreznosti statistiˇcnega modela obiˇcajno doloˇcimo
96
5.3 Ocenjevanje kakovosti uvršˇcanja
s postopki, ki so prikazani v razdelku 5.3.4.
5.3.3 Pregled mer kakovosti uvrščanja
Za primerjavo razliˇcnih metod uvršˇcanja moramo vpeljati standardizirano metriko, s
pomoˇcjo katere lahko ustrezno ovrednotimo kakovost metod (Japkowicz & Shah, 2011). V
primeru problemske naloge, kjer uvršˇcamo primere v dva razreda, definirajmo dejanski
pozitivni in dejanski negativni razred. Pozitivnemu razredu v domeni biomedicine
obiˇcajno pripada primer, ki ima doloˇceno prouˇcevano lastnost, negativnemu razredu pa
pripada tisti primer, ki te lastnosti nima (Blagus, 2011). Delovanje klasifikatorja lahko
potem prikažemo v kontingenˇcni tabeli (slika 5.12).
Dejanski razred
Napovedani razred
Pozitivni
Negativni
Pozitivni
TP
FP
Negativni
FN
TN
Slika 5.12: Kontingenˇcna tabela. Oznake TP, FP, FN in TN po vrsti oznaˇcujejo število
pravilno pozitivnih, napaˇcno pozitivnih, napaˇcno negativnih in pravilno negativnih dogodkov.
Najpogosteje uporabljeni meri kakovosti uvršˇcanja sta klasifikacijska toˇcnost (angl. classification accuracy) in stopnja napake (angl. misclassification rate). Na osnovi dogodkov iz
kontingenˇcne tabele (slika 5.12) klasifikacijsko toˇcnost definiramo s predpisom
Acc =
TP + TN
.
TP + FP + FN + TN
(5.34)
Po potrebi lahko dogodka TP in TN pri izraˇcunu razliˇcno utežimo; potem govorimo o
uteženi klasifikacijski toˇcnosti. Stopnjo napake definiramo s predpisom
MER = 1 − Acc.
Obe meri natanˇcnosti sta preprosti in intuitivni, vendar moramo za njuno pravilno
ˇ porazdelitev
uporabo poznati porazdelitev odvisne spremenljivke (Umek, 2011). Ce
odvisne spremenljivke precej odstopa od normalne porazdelitve, doseže konstantni
klasifikator, ki vsem novim primerom priredi pogostejšo vrednost odvisne spremenljivke,
zavajajoˇce visoko klasifikacijsko toˇcnost. Literatura s podroˇcja strojnega uˇcenja takemu
klasifikatorju pravi veˇcinski klasifikator, ki pa je za praktiˇcne namene povsem neuporaben.
Primer 19. Denimo, da obravnavamo problemsko nalogo, kjer uˇcna množica vsebuje 10 %
pozitivno in 90 % negativno oznaˇcenih primerov. Konstantni klasifikator vse primere uvrsti v
negativni razred, tj. v razred, ki mu pripada veˇcina primerov. Toˇcnost takega klasifikatorja bo
znašala 0.90 in bo nakazovala odliˇcno delovanje metode, zanemarila pa bo dejstvo, da nismo
pravilno uvrstili nobenega primera, ki pripada pozitivnemu razredu.
97
5 Uvršˇcanje podatkov
Mera obˇcutljivosti (angl. sensitivity) oz. priklic (angl. recall) klasifikatorja je definirana kot
verjetnost, da pravilno uvrstimo dejansko pozitivno enoto, formalno
Sens =
TP
.
TP + FN
(5.35)
Prec =
TP
TP + FP
(5.36)
Podobno je s predpisom
definirana preciznost (angl. precision) klasifikatorja. Preciznost v domeni statistike obiˇcajno
nadomestimo s specifiˇcnostjo, ki pomeni verjetnost, da pravilno uvrstimo negativno enoto
Spec =
TN
.
TN + FP
(5.37)
Izraˇcun predstavljenih mer kakovosti si oglejmo na primeru, ki smo ga prilagodili po
Umek (2011).
Primer 20. Naj bo vzorec
S = {(10, 0), (9, 1), (8, 1), (7, 0), (6, 1), (5, 0), (4, 1), (3, 1), (2, 0), (1, 1)}.
Kot klasifikacijski model uporabimo logistiˇcno regresijo z uvršˇcevalno funkcijo
f P ( x; β 0 , β 1 ) =
e β0 + β1 x
.
1 + e β0 + β1 x
Po metodi najveˇcjega verjetja ocenimo parametra βˆ0 = −2.29 in βˆ1 = 0.53 ter uredimo primere
glede na vrednosti funkcije
fP =
e−2.29+0.53x
.
1 + e−2.29+0.53x
Za prag klasifikacije vzemimo standardno vrednost p = 0.5. Povzetek klasifikacije je prikazan v
tabeli 5.1.
Tabela 5.1: Povzetek verjetnostnega klasifikatorja.
fP
0.95
0.92
0.87
0.80
0.71
0.59
0.46
0.33
0.23
0.15
f
Y
1
1
1
1
1
1
1
1
1
0
1
1
0
0
0
0
0
1
0
0
Mere kakovosti verjetnostnega klasifikatorja bomo izraˇcunali s pomoˇcjo tabele 5.1. Klasifikacijsko
toˇcnost izraˇcunamo tako, da preštejemo ujemanja med drugo in tretjo vrstico tabele ter jih delimo z
velikostjo vzorca. V našem primeru znaša klasifikacijska toˇcnost Acc( f ) = 7/10 = 0.7. Obˇcutljivost
klasifikatorja znaša 2/3, specifiˇcnost pa 1/2.
98
5.3 Ocenjevanje kakovosti uvršˇcanja
Krivulja ROC in mera AUC
Nekateri klasifikatorji poleg diskretnega rezultata (tj. razreda, ki mu pripada posamezen
primer) podajo tudi številsko oceno, ki odraža pripadnost primera posameznemu razredu.
Tak primer je npr. klasiˇcna logistiˇcna regresija, ki vrne oceno posteriorne verjetnosti za
ˇ je posteriorna
posamezen primer. Takemu klasifikatorju pravimo zvezni klasifikator. Ce
verjetnost višja od prej izbrane pražne vrednosti, primer uvrstimo v pozitivni, sicer pa v
negativni razred.
Pražne vrednosti doloˇcajo množico toˇck v dvorazsežnem prostoru, ki jih lahko povežemo
v ROC-krivuljo. Krivulja ROC (angl. receiver operating curve) je dvorazsežni opis delovanja klasifikatorja, s pomoˇcjo katerega predstavimo relativni kompromis med koristmi
(dejansko pozitivni primeri) in stroški (lažno pozitivni primeri). Krivulja podaja razmerje med obˇcutljivostjo in specifiˇcnostjo klasifikatorja v odvisnosti od pražne vrednosti
odloˇcitvenega pravila klasifikacije.
Toˇcka (0,0) pomeni situacijo, ko klasifikator vse primere uvrsti v negativni razred, toˇcka
(1,1) pa situacijo, ko so vsi primeri uvršˇceni v pozitivni razred. Toˇcka (0,1) pomeni popolno uvrstitev primerov. V ROC-prostoru je neka toˇcka “boljša” od druge, cˇ im bliže leži
toˇcki (0,1). Diagonala med toˇckama (0,0) in (1,1) ponazarja sluˇcajni klasifikator. Klasifikatorji, katerih dosežki ležijo pod diagonalo, delujejo slabše od sluˇcajnega klasifikatorja,
klasifikatorji nad diagonalo pa bolje od sluˇcajnega klasifikatorja.
Kvaliteto klasifikatorja poleg krivulje ROC obiˇcajno predstavimo tudi s plošˇcino pod
ROC-krivuljo (angl. area under the ROC curve). Mera AUC je omejena na interval [0, 1]. Pri
klasifikatorju, ki bo primere uvršˇcal sluˇcajno, bo znašala AUC = 0.5, sicer pa bo plošˇcina
pod krivuljo veˇcja. Formalno je mera AUC enaka verjetnosti, da bo klasifikator sluˇcajno
izbran pozitivni primer rangiral višje kot sluˇcajno izbran negativni primer. Dosežek AUC
interpretiramo s pomoˇcjo tabele 5.2, ki smo jo prilagodili po Swets (1988).
Tabela 5.2: Interpretacija mere AUC
AUC-vrednost
Opisna ocena
0.90–1.00
0.80–0.89
0.70–0.79
0.60–0.69
0.50–0.59
odliˇcno
dobro
povpreˇcno
zadovoljivo
neustrezno
Primer 21. Vrednost statistike AUC bomo za ilustracijo razbrali grafiˇcno, tako da bomo narisali
krivuljo ROC (slika 5.13). Enotski kvadrat [0, 1] × [0, 1] bomo po abscisni osi razdelili na štiri, po
ordinatni osi pa na šest delov. Postavimo se v toˇcko (0,0) in se sprehodimo preko seznama primerov,
ki smo ga uredili padajoˇce glede na vrednosti f P . Ko naletimo na primer, za katerega je yi = 1, se
na mreži prestavimo za en korak navzgor, sicer pa za enega v desno. Risanje krivulje konˇcamo v
toˇcki (1,1). Pod krivuljo je 18 pravokotnikov, vsak izmed njih ima plošˇcino 1/24, statistika AUC
zato znaša 20/24 = 0.83.
99
5 Uvršˇcanje podatkov
1
5/6
občutljivost
4/6
3/6
2/6
1/6
0
0
1/4
2/4
3/4
1 − specifičnost
1
Slika 5.13: ROC-krivulja
5.3.4 Pregled postopkov za ocenjevanje kakovosti uvrščanja
V tem razdelku bomo naredili pregled najpogosteje uporabljenih postopkov za ocenjevanje
kakovosti uvršˇcanja.7 V pregledu bomo sledili oznakam, ki so jih predlagali Boulesteix in
sod. (2008).
Z l = (l1 , . . . , l L ) bomo oznaˇcili indekse primerov, ki bodo vkljuˇceni v uˇcno množico
podatkov; to bomo oznaˇcili z Dl . L naj oznaˇcuje število primerov v uˇcni množici. Na enak
naˇcin bomo s t oznaˇcili indekse primerov v testni množici, pripadajoˇco testno množico
podatkov pa s Dt . T naj oznaˇcuje število primerov v testni množici. V nadaljevanju
razdelka bomo videli, da lahko razbitji l in t pripravimo na veˇc razliˇcnih naˇcinov. Z f Dl
bomo oznaˇcili klasifikator, ki za uˇcenje uporabi množico podatkov Dl . V nadaljevanju
se eˆ nanaša na cenilko, s katero ocenjujemo napako uvršˇcanja; po potrebi jo lahko
nadomestimo z drugo mero kakovosti, npr. specifiˇcnostjo ali obˇcutljivostjo.
Resubstitucija
Ocena napake klasifikacije na uˇcni množici podatkov (angl. resubstitution) je najpreprostejša ter s statistiˇcnega vidika najslabša strategija ocenjevanja napake uvršˇcanja.
Klasifikator uˇcimo in preizkusimo na isti podatkovni množici Dl , v katero vkljuˇcimo vse
razpoložljive primere. Cenilko zapišemo kot
eˆresub (D) =
7 Ker
1 n
I (yi 6= f D ( xi )) .
n i∑
=1
jih v nadaljevanju ne potrebujemo, bomo v pregledu izpustili nekatere postopke, kot so npr. samovzorcˇ enje (angl. bootstrap sampling), kombinacija samovzorˇcenja s preˇcnim preverjanjem z izpustitvijo primera
ter cenilki 0.632 in 0.632+. Bralec bo veˇc podrobnosti našel npr. v Hastie in sod. (2011) ali Japkowicz in
Shah (2011).
100
5.3 Ocenjevanje kakovosti uvršˇcanja
Taka cenilka je moˇcno pristrana navzdol, kar pomeni, da je lahko prava napaka klasifikatorja precej veˇcja od ocenjene. Ocenjeni rezultati uvršˇcanja bodo dobri, saj smo klasifikator
podatkom dobro prilagodili. Nasprotno bo napaka posplošitve velika (Boulesteix in sod.,
2008). V tem primeru se sreˇcamo z uˇcinkom preprileganja modela podatkov, ki smo
ga podrobneje obravnavali v razdelku 5.3.1. V splošnem tudi velja, da se tako ocenjena
napaka s poveˇcevanjem kompleksnosti modela zmanjšuje.
Neodvisna testna množica
Kakovost klasifikatorja je smiselno preizkusiti na neodvisni množici podatkov, tako da
za uˇcenje uporabimo eno, za preverjanje kakovosti pa drugo množico. Oceno napake
uvršˇcanja v tem primeru izraˇcunamo po obrazcu
1
T
eˆtest (D, (l, t)) =
T
∑ I (yt
i =1
i
6= f Dl ( xti )) ,
kjer vektorja indeksov l in t tvorita polno razbitje {1, . . . , n}, tako da velja t = {1, . . . , n} \ l.
Za razliko od resubstitucije pri tem postopku lahko vnesemo komponento sluˇcajnosti,
tako da razbitje primerov na uˇcno in testno množico pripravimo po sluˇcaju. Ker uˇcna
množica vsebuje L < n primerov, je ocena napake višja kot v primeru resubstitucije.
Pravimo, da je cenilka pozitivno pristrana. Do podobnega uˇcinka prihaja pri vseh tistih
postopkih, kjer uˇcno množico zmanjšamo na raˇcun primerov, ki jih uvrstimo v testno
množico podatkov.
Prečno preverjanje
Preˇcno preverjanje (angl. cross-validation) je najpogosteje uporabljena strategija ocenjevanja
kakovosti uvršˇcanja. Bistvo postopka je, da klasifikator zaporedoma preizkusimo na
vseh primerih. Primere {1, . . . , n} razbijemo na m približno enako velikih podmnožic
(pregibov), ki jih oznaˇcimo z indeksi t(1) , . . . , t(m) . Postopek ocenjevanja je sestavljen iz
zaporedja m iteracij. V iteraciji j primere, oznaˇcene s t( j) , uvrstimo v testno množico,
preostale primere pa v uˇcno množico, tako da je l ( j) = {1, . . . , n} \ t( j) . Razred primerov
iz Dt( j) napovemo na osnovi klasifikatorja f D ( j) , nauˇcenega nad množico podatkov Dt( j) .
t
Z opisanim postopkom dobimo napoved razreda za vsakega od n primerov. Oceno
napake izraˇcunamo kot povpreˇcje deležev napaˇcnih uvrstitev preko m iteracij po obrazcu
eˆCV D, t( j)
m
j=1,...,m
=
n t( j)
( j) ( j)
ˆ
e
D,
l
,
t
.
∑ n test
j =1
(5.38)
ˇ so pregibi t(1) , . . . , t(m) enako veliki, se (5.38) poenostavi v
Ce
eˆCV D, t
( j)
j=1,...,m
=
1
m
m
( j) ( j)
ˆ
e
D,
l
,
t
.
∑ test
j =1
101
5 Uvršˇcanje podatkov
Število pregibov doloˇcimo arbitrarno; obiˇcajni izbiri sta m = 5 oz. m = 10. S poveˇcevanjem
števila pregibov se pristranost manjša, razpršenost pa poveˇcuje.
Poseben primer preˇcnega preverjanja je preˇcno preverjanje z izpustitvijo primera (angl. leave-one-out cross-validation), pri katerem v vsaki od m = n iteracij en primer uvrstimo v
testno množico podatkov, preostale primere pa v uˇcno množico podatkov. Oceno napake
v tem primeru izraˇcunamo po obrazcu
eˆLOOCV (D) =
1
n
n
∑ eˆtest (D, ({1, . . . , n} \ i, i)) .
j =1
Cenilka je praktiˇcno nepristrana, saj je klasifikator zgrajen nad n − 1 primeri. Ker so uˇcne
množice med seboj zelo podobne, ima cenilka nasprotno visoko razpršenost (Boulesteix
in sod., 2008).
Podvzorčenje
Podobno kot preˇcno preverjanje s pregibanjem je tudi podvzorˇcenje sestavljeno iz zaporedja iteracij, v katerih klasifikator zgradimo in preizkusimo na množici uˇcnih oz. testnih
podatkov. Postopek temelji na veˇckratnem razbitju podatkovja na uˇcno in testno množico. Oceno napake potem izraˇcunamo kot povpreˇcje preko vseh razbitij. Za razliko od
preˇcnega preverjanja s pregibanjem pri podvzorˇcenju testne množice ne tvorijo razbitja
{1, . . . , n}. Uˇcno množico z indeksom primerov l(b) (b = 1, . . . , B) sestavimo po sluˇcaju,
brez ponavljanja primerov, na osnovi množice {1, . . . , n}. Pripadajoˇco testno množico sestavljajo primeri t(b) = {1, . . . , n} \ l(b) . Razmerje nl(b) : nt(b) nastavimo poljubno, obiˇcajno
na 2 : 1, 4 : 1 ali 9 : 1.
Oceno napake izraˇcunamo po obrazcu
eˆMCCV D, l
(b)
b=1,...,B
=
1 B
eˆtest D, l(b) , t(b) .
∑
B b =1
Cenilka ima manjšo razpršenost kot pri preˇcnem preverjanju z izpustitvijo primera, saj so
uˇcne množice med seboj manj podobne. Po drugi strani je cenilka pozitivno pristrana,
ker so uˇcne množice zmanjšane na raˇcun testnih primerov.
102
6 Diskretizacija zveznih spremenljivk
6.1 Uvod
Napredna analiza podatkov zahteva izˇcrpno predpripravo podatkov (Pyle, 1999). Ta je
obiˇcajno sestavljena iz sosledja veˇc korakov, med katerimi gre izpostaviti zlasti (i) cˇ išˇcenje
podatkov, (ii) integracijo razliˇcnih podatkovnih virov, (iii) krˇcenje podatkov ter (iv) razliˇcne transformacije podatkov (J. Han, Kamber & Pei, 2012). V splošnem je diskretizacija
postopek krˇcenja vrednosti spremenljivk v podatkovni matriki, pri katerem zvezne vrednosti nadomestimo z diskretnimi. Gre za enega od najpogosteje uporabljenih postopkov
predpriprave podatkov (H. Liu, Hussain, Tan & Dash, 2002).
V nadaljevanju poglavja bomo postopek diskretizacije podrobneje opredelili, navedli
prednosti diskretizacije ter podali sistematiˇcen pregled razliˇcnih pristopov k diskretizaciji.
6.2 Tipi spremenljivk
Glede na zalogo vrednosti v statistiki poznamo kategoriˇcne in številske spremenljivke
(Agresti & Franklin, 2013). Za kategoriˇcno spremenljivko velja, da lahko njene vrednosti
uredimo v razliˇcne kategorije, razrede oz. intervale. Nekatere kategoriˇcne spremenljivke
lahko celo uredimo po velikosti, v nobenem primeru pa nad njimi ne moremo izvajati
raˇcunskih operacij. Primer kategoriˇcne spremenljivke je npr. tip krvi. Nad številskimi
spremenljivkami lahko po drugi strani izvajamo raˇcunske operacije. Številska spremenljivka je lahko diskretna ali zvezna. Zaloga vrednosti diskretne spremenljivke so doloˇcene
diskretne vrednosti, zaloga vrednosti zvezne spremenljivke pa je omejeno oz. neomejeno
obmoˇcje števil.
Glede na tip merske lestvice loˇcimo med imenskimi (nominalnimi), urejenostnimi (ordinalnimi), razmiˇcnimi (intervalnimi) in razmernostnimi (racionalnimi) spremenljivkami
(Stevens, 1946). Lastnosti merskih lestvic so prikazane v tabeli 6.1. Imenske in urejenostne
spremenljivke obiˇcajno ustrezajo kategoriˇcnim, razmiˇcne in razmernostne pa številskim
103
6 Diskretizacija zveznih spremenljivk
spremenljivkam.
Tabela 6.1: Lastnosti merskih lestvic
Merska lestvica
N
Urejenost
Enakost intervalov
Zaˇcetna toˇcka
O
I
R
•
•
•
•
•
•
Legenda: N – imenska, O – urejenostna, I – intervalna, R – razmernostna
6.3 Opredelitev diskretizacije
Diskretizacija je postopek, pri katerem zvezne vrednosti spremenljivke razbijemo na
ustrezno število intervalov, tako da vsak interval pomeni svojo kategorijo. Diskretne
vrednosti ponazarjajo intervale v razponu zveznih vrednosti. Medtem ko je število
zveznih vrednosti za izbrano spremenljivko neskonˇcno, je število diskretnih vrednosti
omejeno. Toˇcka loma je vrednost, ki razpon zveznih vrednosti razcepi na dva intervala.
Toˇcke loma lahko seveda doloˇcamo poljubno, vendar pa je v ta namen smiselno uporabiti
namenske algoritme. Nekaj takih algoritmov obravnavamo v nadaljevanju poglavja.
Rezultat diskretizacije formalno predstavimo z razbitjem zvezne spremenljivke X na m
diskretnih intervalov D = {[d0 , d1 ], (d1 , d2 ], . . . , (dm−1 , dm ]}, kjer je d0 minimalna vrednost,
dm maksimalna vrednost in di < di+1 za i = 0, 1, . . . , m − 1. Razbitju D pravimo tudi
diskretizacijska shema spremenljivke X. Množico pripadajoˇcih toˇck loma oznaˇcimo s
P = { d 1 , d 2 , . . . , d m −1 } .
6.3.1 Prednosti diskretizacije
Pregled empiriˇcne evidence odkriva nekatere pomembne prednosti, ki govorijo v prid
uporabe diskretnih spremenljivk. Reprezentacija znanja s pomoˇcjo diskretnih spremenljivk je lažja in uˇcinkovitejša (H. A. Simon, 1996); z diskretizacijo podatke koliˇcinsko
zmanjšamo in poenostavimo oz. abstrahiramo (van Harmelen in sod., 2008). Diskretne
vrednosti so za razumevanje nekaterih problemskih nalog primernejše, ker z njimi lažje
miselno manipuliramo. Diskretizacija pripomore k uˇcinkovitejšemu in hitrejšemu uˇcenju
klasifikatorjev (J. Dougherty in sod., 1995). V splošnem so rezultati postopkov uvršˇcanja z
diskretnimi spremenljivkami nazornejši (npr. odloˇcitvena drevesa), krajši (npr. asociacijska
pravila) ter zanesljivejši kot pri zveznih spremenljivkah. Rezultati so zato poslediˇcno bolj
posplošljivi in primerljivi med seboj. Ne nazadnje lahko nekatere algoritme strojnega
uˇcenja uporabimo le na diskretnih podatkih. Kar tri izmed 10 najpogosteje uporabljenih
metod na podroˇcju podatkovnega rudarjenja (X. Wu in sod., 2007) na vhodu zahtevajo
diskretne podatke: C4.5, Apriori in naivni Bayesov klasifikator.
104
6.4 Lastnosti metod diskretizacije
6.4 Lastnosti metod diskretizacije
Optimalna diskretizacija spremenljivke je NP-polni problem (Chlebus & Nguyen, 1998).
Pregled literature odkriva številne pristope k diskretizaciji spremenljivk. Bakar, Othman
in Shuib (2009) navajajo 70 razliˇcnih postopkov diskretizacije. O podobnem številu algoritmov poroˇcajo tudi García, Luengo, Sáez, López in Herrera (2013). Dober sistematiˇcen
pregled podroˇcja ponujajo H. Liu in sod. (2002), Y. Yang, Webb in Wu (2010) ter García in
sod. (2013).
Pred vpeljavo sodobnih metod diskretizacije podatkov so se v ta namen uporabljale
preproste tehnike uvršˇcanja (angl. binning), kot sta npr. metoda enake širine intervalov
(angl. equal width) in metoda enake zastopanosti intervalov (angl. equal frequency). Z
rastjo potreb po cˇ im veˇcji natanˇcnosti metod podatkovne analitike so se hitro razvijale
tudi metode diskretizacije. V zadnjih desetletjih je bila razvita množica pristopov za
diskretizacijo zveznih spremenljivk, ki so pokazali, da obstaja potencial za redukcijo
koliˇcine podatkov, medtem ko hkrati obdržimo ali celo izboljšamo kakovost uvršˇcanja.
Metode diskretizacije so se vzporedno razvijale na razliˇcnih znanstvenih podroˇcjih ter za
razliˇcne potrebe podatkovne analitike. Klasiˇcna delitev metod diskretizacije deli pristope
k diskretizaciji na nadzorovane in nenadzorovane, dinamiˇcne in statiˇcne, globalne in
lokalne, na metode cepitve in združevanja ter na posredne in neposredne pristope. V
nadaljevanju bomo na kratko osvetlili vsakega od naštetih sklopov.
Nenadzorovane metode diskretizacije optimalne toˇcke loma doloˇcijo le na osnovi vrednosti
neodvisnih spremenljivk, medtem ko nadzorovane metode upoštevajo tudi informacijo
o razredu primerov. Primera nenadzorovane diskretizacije sta npr. metoda enake širine
intervalov in metoda enake zastopanosti intervalov. Med tipiˇcne predstavnike uvršˇcamo
še metodi PKID in FFD (Y. Yang & Webb, 2008) ter metodo MVD (Bay, 2001). Diskretizacija
je v splošnem namenjena problemskim nalogam s podroˇcja uvršˇcanja, zato v literaturi
najdemo veˇc pristopov, ki omogoˇcajo nadzorovano diskretizacijo. Tipiˇcna predstavnika
metod nadzorovane diskretizacije sta npr. MDLP (Fayyad & Irani, 1993) in algoritem
ChiMerge (Kerber, 1992).
Statiˇcne metode diskretizacijo opravijo pred gradnjo klasifikatorja in so od uˇcnega algoritma neodvisne (H. Liu in sod., 2002). Veˇcino algoritmov diskretizacije uvršˇcamo v to
kategorijo. Dinamiˇcne metode diskretizacijo zveznih vrednosti opravijo med gradnjo klasifikatorja. Obiˇcajno je v tem primeru diskretizacija že integrirana v klasifikator. Primera
take metode sta npr. ID3 (Quinlan, 1993) in ITFP (Au, Chan & Wong, 2006).
Lokalne metode opravijo diskretizacijo v omejenem podroˇcju prostora primerov (tj. na
podmnožici primerov), medtem ko globalne metode za diskretizacijo uporabijo celoten
prostor primerov (Chmielewski & Grzymala-Busse, 1996). Lokalne metode so obiˇcajno
povezane z dinamiˇcno diskretizacijo. Med lokalnimi metodami se najpogosteje uporabljata
MDLP (Fayyad & Irani, 1993) in ID3 (Quinlan, 1993).
Metode od zgoraj navzdol zaˇcnejo proces diskretizacije s praznim seznamom toˇck loma;
nove toˇcke loma se nato dodajajo na seznam s cepitvijo intervalov. Primer take metode je
npr. preprosta diskretizacija na osnovi enake širine intervalov. Metode od spodaj navzgor
diskretizacijo zaˇcnejo s seznamom vseh zveznih vrednosti, ki jih nato z združevanjem
sosednjih intervalov postopoma odstranjujejo. Primer takega pristopa je npr. algoritem
105
6 Diskretizacija zveznih spremenljivk
Chi2 (H. Liu & Setiono, 1997). Hibridne metode diskretizacije kombinirajo oba pristopa;
primera sta diskretizatorja CADD (Ching, Wong & Chan, 1995) in WEDA (Flores, Inza &
Larrañaga, 2007). V literaturi zasledimo tudi pristope, ki lahko v istem koraku razcepijo
(oz. združijo) veˇc intervalov hkrati (C.-H. Lee, 2007; F. Ruiz, Angulo & Agell, 2008).
Direktne metode razdelijo razpon zveznih vrednosti na k intervalov soˇcasno, pri tem pa
mora uporabnik sam podati ustrezno vrednost parametra k. Primer takega pristopa je
npr. metoda enake širine intervalov. Inkrementalne oz. hierarhiˇcne metode diskretizacijo
opravijo v veˇc korakih. Postopek iskanja optimalnih toˇck loma ponavljajo, dokler ne
zadostijo ustavitvenemu kriteriju (Cerquides & De Mántaras, 1997). Primera hierarhiˇcnih
metod sta npr. MDLP (Fayyad & Irani, 1993) in ChiMerge (Kerber, 1992).
Enorazsežne metode diskretizirajo vsako spremenljivko posebej, medtem ko veˇcrazsežne
metode opravijo diskretizacijo veˇc spremenljivk hkrati. Slednje pri doloˇcanju optimalnih
toˇck loma upoštevajo korelacijo med spremenljivkami. Veˇcrazsežne metode se uporabljajo
zlasti pri deduktivnem uˇcenju (Bay, 2001) in kompleksnih problemih uvršˇcanja (Ping
Yang, Li & Huang, 2011). Primera veˇcrazsežnih diskretizatorjev sta npr. FastICA (Kang in
sod., 2006) in ConMerge (K. Wang & Liu, 1998).
6.5 Postopek diskretizacije
V tem razdelku bomo opisali splošni okvir diskretizacije ene spremenljivke; diskretizacije
veˇcrazsežnih podatkovij v nalogi ne obravnavamo. Postopek diskretizacije lahko opišemo
v štirih korakih (H. Liu in sod., 2002): (i) ureditev vrednosti zvezne spremenljivke;
(ii) doloˇcitev in ovrednotenje toˇcke loma pri metodah cepitve oz. dveh sosednjih intervalov
pri metodah združevanja; (iii) cepitev oz. združevanje zveznih intervalov po izbranem
kriteriju ter (iv) ustavitev postopka diskretizacije. Posamezni koraki postopka so prikazani
na sliki 6.1.
Vse metode diskretizacije, ki jih v nadaljevanju obravnavamo, zahtevajo, da so zvezne
vrednosti atributa urejene po velikosti. Urejanje je raˇcunsko zahtevna naloga, zato je treba
pri implementaciji metode izbrati cˇ im bolj optimalen algoritem urejanja.
Osrednjo vlogo v postopku diskretizacije ima iskanje optimalne toˇcke loma, na osnovi
katere cepimo obseg zveznih vrednosti. Pri metodah združevanja analogno temu išˇcemo
optimalen par sosednjih intervalov, ki ju bomo združili. Optimalnost rešitve ovrednotimo z izbrano kriterijsko funkcijo (npr. pri metodi MDLP (Fayyad & Irani, 1993) v ta
namen uporabimo entropijo, pri metodi ChiMerge (Kerber, 1992) pa stopnjo povezanosti
spremenljivke z razredom).
Konec diskretizacije doloˇca ustavitveni kriterij. Ustavitveni kriterij obiˇcajno sestavimo tako,
da upošteva kompromis med preprostostjo in natanˇcnostjo rešitve. Kriterij je lahko preprost (npr. fiksno število intervalov pri metodi enake širine intervalov) ali bolj kompleksen
(npr. stopnja cˇ istosti intervala pri metodi ID3 (Quinlan, 1993)).
106
6.5 Postopek diskretizacije
Zvezna
spremenljivka
Uredi
spremenljivko
Doloˇci
toˇcko reza /
sosednja intervala
Mera evaluacije
ne
Mera
ustreza
da
Cepi / združi
spremenljivko
ne
Ustavitveni
kriterij
da
Diskretna
spremenljivka
Slika 6.1: Proces diskretizacije. Prikaz je prirejen po H. Liu, Hussain, Tan in Dash (2002).
107
6 Diskretizacija zveznih spremenljivk
6.5.1 Kriteriji za primerjanje metod diskretizacije
Posebno pozornost je treba nameniti ovrednotenju rezultatov diskretizacije. Gre za kompleksen problem, ki je v veliki meri odvisen od uporabnikovih potreb. Primerjava rezultatov med razliˇcnimi metodami diskretizacije obiˇcajno sloni na veˇc razsežnostih; za
primerjavo najpogosteje uporabimo (García in sod., 2013; H. Liu in sod., 2002): (i) število intervalov, (ii) število nekonsistentnosti, (iii) napovedno toˇcnost in (iv) cˇ asovno
kompleksnost.
V nalogi bomo za oceno kakovosti diskretizacije uporabili naslednje mere: (i) toˇcnost
uvršˇcanja, (ii) plošˇcino pod ROC-krivuljo, (iii) robustnost, (iv) stabilnost in (v) kompleksnost. Opis prvih dveh mer bo bralec našel v razdelku 5.3.3, preostale mere pa opišemo
v nadaljevanju.
Robustnost
Robustnost definiramo kot razmerje med toˇcnostjo uvršˇcanja v testni in uˇcni množici
diskretiziranih podatkov (Boullé, 2006), formalno
Robustnost =
AccT
.
AccL
Robustnost odraža stopnjo preprileganja metode diskretizacije.
Stabilnost
Stabilnost meri obˇcutljivost metode izbire spremenljivk za razlike v uˇcnih podatkovjih.
Odraža stopnjo, do katere razliˇcne uˇcne množice podatkov vplivajo na izbiro spremenljivk.
Diskretizacijo lahko obravnavamo kot metodo izbire spremenljivk, tako da spremenljivke
z netrivialno diskretizacijsko shemo izberemo, spremenljivke s trivialno diskretizacijsko
shemo pa zavržemo (Lustgarten, Visweswaran, Gopalakrishnan & Cooper, 2011). Pravimo,
da ima spremenljivka trivialno diskretizacijsko shemo, cˇ e je diskretizirana v en sam
interval.
Za oceno stabilnosti izraˇcunamo podobnost s med podatkovjema Di in D j po obrazcu
s ( Di , D j ) =
r − ki k j/n
,
min(k i , k j ) − ki k j/n
kjer je k i število spremenljivk v podatkovju D j , k j število spremenljivk v podatkovju D j , r
število spremenljivk, ki so skupne v obeh podatkovjih, n pa skupno število spremenljivk.
Stabilnost je definirana na intervalu [−1, 1]. Stabilnost zasede vrednost 0, ko število skupnih spremenljivk doloˇcimo po sluˇcaju, tako da sluˇcajno izberemo k i oz. k j spremenljivk
izmed n spremenljivk. Stabilnost zasede vrednost 1, ko obe podatkovji vsebujeta enake
ˇ sta eno ali obe podatkovji sestavljeni iz samih trivialnih spremenljivk
spremenljivke. Ce
oz. cˇ e obe podatkovji sestavljajo same netrivialne spremenljivke, je vrednost s(Di , D j )
nedefinirana in jo arbitrarno postavimo na vrednost niˇc.
108
6.6 Pregled metod za diskretizacijo zveznih spremenljivk
Kompleksnost
Kompleksnost diskretizacije je definirana s številom induciranih intervalov. Veˇcje je število
intervalov, veˇcja je kompleksnost diskretizacijske sheme.
6.6 Pregled metod za diskretizacijo zveznih spremenljivk
Metode diskretizacije lahko razvrstimo glede na razliˇcne razsežnosti, kot smo to prikazali
v razdelku 6.4. Za lažji pregled metod diskretizacije so H. Liu in sod. (2002) na osnovi
omenjenih razsežnosti predlagali razvrstitev metod v hierarhijo. Hierarhijo sestavljajo
trije nivoji. Prvi nivo loˇcuje med metodami cepljenja zveznih vrednosti na intervale in
metodami, ki združujejo sosednje intervale. Drugi nivo metode deli na nenadzorovane in
nadzorovane. Na tretjem nivoju so metode združene glede na kriterijsko funkcijo, ki jo
uporabimo za doloˇcanje toˇck loma. Hierarhija je prikazana na sliki 6.2. V nadaljevanju
bomo naredili pregled nekaterih najpogosteje uporabljenih metod diskretizacije.
6.6.1 Metode cepitve
Najprej si oglejmo splošni algoritem, ki ga uporabljajo metode diskretizacije, ki temeljijo
na cepitvi intervalov (algoritem 3). Algoritem sestavljajo štirje glavni koraki: (i) ureditev
vrednosti spremenljivke po velikosti, (ii) iskanje optimalnih toˇck loma, (iii) cepitev obsega
zveznih vrednosti na izbranih toˇckah loma ter (iv) zakljuˇcek diskretizacije ob zadostitvi
ustavitvenemu pogoju. Ob zaˇcetku diskretizacije so vse zvezne vrednosti uvršˇcene v en
interval. Postopek cepitve intervalov je prikazan na sliki 6.3.
Uvrščanje v intervale
Uvršˇcanje v intervale (angl. binning) je najpreprostejši pristop za diskretizacijo zveznih
spremenljivk. Metode tega sklopa so tipiˇcni predstavniki nenadzorovane diskretizacije.
Intervale lahko tvorimo glede na enako širino intervalov ali glede na enako frekvenco
vrednosti v intervalih.
Metoda enake širine in enake frekvence intervala Pri obeh metodah moramo vnaprej
doloˇciti ustrezno število intervalov k (angl. bins). Vsak interval ponazarja eno diskretno
vrednost. Pri metodi enake širine (Y. Yang in sod., 2010) razpon zveznih vrednosti med
najmanjšo (vmin ) in najveˇcjo (vmax ) vrednostjo razdelimo v k intervalov tako, da so vsi
intervali enako široki (slika 6.4). Širina intervala znaša w = (vmax − vmin )/k, toˇcke loma pa
sledijo zaporedju vmin + w, vmin + 2w, . . . , vmin + (k − 1)w.
Primer 22. Denimo, da želimo diskretizirati spremenljivko z vrednostmi
16, 24, 18, 16, 4, 28, 26, 0, 12.
109
6 Diskretizacija zveznih spremenljivk
Diskretizacija
Cepljenje
Združevanje
Nadzorovano
Nenadzorovano
Nadzorovano
Odvisnost
Uvrščanje
Entropija
Uvrščanje
Odvisnost
Točnost
ChiMerge
Chi2
ConMerge
EW
EF
ID3
D2
MDLP
Mantaras
1R
Zeta
AQ
Slika 6.2: Hierarhiˇcni pregled metod diskretizacije. Prikaz je prirejen po H. Liu, Hussain,
Tan in Dash (2002).
Algoritem 3: Diskretizacija zvezne spremenljivke s cepitvijo intervalov
Podatki: S = Urejene vrednosti spremenljivke f
Procedura Cepitev(S)
cˇ e UstavitveniKriterij() potem
vrni;
T = DoločiOptimalnoTočkoLoma(S);
S1 = DoločiLeviPodinterval(S, T);
S2 = DoločiDesniPodinterval(S, T);
Cepitev(S1 );
Cepitev(S2 );
d1
d m −1
d2
x (1) x (2) x (3) x (4)
x
x (5) x (6) x (7) x (8) x (9)
···
···
zm
x( j)
· · · x(n)
z
z1
z2
z3
Slika 6.3: Diskretizacija zvezne spremenljivke s cepitvijo intervalov. Zvezne vrednosti
spremenljivke so oznaˇcene z x(1) , . . . , x(n) , z1 , . . . , zm pa oznaˇcujejo diskretne
vrednosti. Rdeˇce toˇcke ponazarjajo toˇcke loma na zvezni spremenljivki.
x
Slika 6.4: Diskretizacija na osnovi enake širine intervalov
110
6.6 Pregled metod za diskretizacijo zveznih spremenljivk
Vrednosti najprej uredimo po velikosti:
0, 4, 12, 16, 16, 18, 24, 26, 28.
Spremenljivko bomo uredili v k = 3 enako široke intervale, tako da bo širina intervala znašala
w = (28 − 0)/3 ≈ 10. Diskretizirane vrednosti so predstavljene v tabeli 6.2.
Tabela 6.2: Urejanje zveznih vrednosti v enako široke intervale
0
4
12
[0, 10]
16
16
18
24
(10, 20]
26
28
(20, 30]
Metoda enakih frekvenc (Y. Yang in sod., 2010) obseg urejenih zveznih vrednosti uvrsti
v k intervalov tako, da vsak interval obsega približno enako število primerov. Primeri z
enakimi vrednostmi so uvršˇceni v isti interval. Postopek uvršˇcanja je prikazan na sliki 6.5.
x
Slika 6.5: Diskretizacija na osnovi enake frekvence intervalov
Primer 23. Za ilustracijo metode enakih frekvenc uporabimo spremenljivko iz primera 22. Denimo,
da želimo v vsak interval uvrstiti k = 3 primere. Obseg zveznih vrednosti bomo v ta namen razbili
na 9/3 = 3 intervale. Diskretizirane vrednosti spremenljivke so predstavljene v tabeli 6.3.
Tabela 6.3: Urejanje zveznih vrednosti v enako široke intervale
0
4
12
[0, 14]
16
16
(14, 21]
18
24
26
28
(21, 28]
Za razumevanje in uporabo sta metodi intuitivni in preprosti, vendar sta obˇcutljivi na
izbiro parametra k. Pri metodi enake frekvence lahko veˇckratna ponovitev iste zvezne
vrednosti povzroˇci, da je ta uvršˇcena v razliˇcne intervale. To pomanjkljivost odpravimo
tako, da po zakljuˇceni diskretizaciji meje intervalov ustrezno popravimo. Oviro pomenijo
tudi podatkovni osamelci z ekstremnimi vrednostmi. Osamelce obiˇcajno obravnavamo
tako, da jih odstranimo glede na izbrano pražno vrednost. Obe metodi delujeta slabše v
primerih, kjer porazdelitev zveznih vrednosti ni enakomerna (Catlett, 1991).
Eksplicitnega ustavitvenega kriterija ne potrebujemo, saj je število intervalov pri obeh
metodah fiksno.
1R Metodi uvršˇcanja v intervale, ki smo ju obravnavali v zgornjem razdelku, pri diskretizaciji ne upoštevata informacije o razredu primerov. To pomanjkljivost odpravlja metoda
1R (Holte, 1993). 1R je nadzorovana metoda diskretizacije. Zvezne vrednosti spremenljivke
najprej uredimo po velikosti. V naslednjem koraku razbijemo razpon urejenih zveznih
vrednosti na ustrezno število intervalov ter prilagodimo meje intervalov glede na oznake
111
6 Diskretizacija zveznih spremenljivk
razreda, ki se nanašajo na zvezne vrednosti. Vsak interval mora imeti najmanj sedem
primerov, z izjemo zadnjega intervala, v katerega uvrstimo preostale primere (Holte,
1993). Interval zakljuˇcimo, ko naletimo na primer, ki pripada manjšinskemu razredu v
intervalu.
Primer 24. Postopek uvršˇcanja je za sintetiˇcne podatke prikazan v tabeli 6.4. Prva vrstica tabele
prikazuje vrednosti po urejanju, druga pa se nanaša na oznako razreda. Primer je pripisan bodisi
razredu A bodisi razredu B. Metoda doloˇci interval za razred A tako, da bo ta vkljuˇceval vrednosti
11–21, naslednji interval bo vkljuˇceval vrednosti 22–35, ki pripadajo istemu razredu, zadnji
interval pa bo vkljuˇceval samo vrednost 36. Oba intervala, ki se nanašata na oznako razreda A,
bomo združili, saj se nanašata na isti razred. Pri diskretizaciji smo zagrešili šest napaˇcnih uvrstitev.
Tabela 6.4: Urejanje zveznih vrednosti pri metodi 1R
11
B
14
A
15
A
18
B
19
A
20
B
21
A
A
22
B
23
A
25
A
30
B
31
A
A
33
B
35
A
36
B
B
Ustavitveni kriterij je pri metodi 1R posredno doloˇcen z najmanjšim številom primerov, ki
jih mora obsegati vsak interval. Privzeta vrednost je sedem (Holte, 1993).
Entropija
Entropija ena od najpogosteje uporabljenih mer za diskretizacijo zveznih spremenljivk
(García in sod., 2013). Z entropijo izražamo negotovost izida poskusa, povezanega s
sluˇcajno spremenljivko (Bishop, 2007).
ID3 Entropijo za diskretizacijo uporabljata dva najbolj znana algoritma za indukcijo
odloˇcitvenih dreves: ID3 (Quinlan, 1986) ter njegov naslednik C4.5 (Quinlan, 1993).
Teoretiˇcno ozadje gradnje odloˇcitvenih dreves je podrobneje opisano v razdelku 5.2.5 in
ga tu ne ponavljamo.
Algoritem ID3 ob indukciji drevesa zvezne spremenljivke diskretizira. Toˇcka loma T na
spremenljivki X razbije množico primerov S na intervala S1 in S2 ; entropija je tedaj enaka
H ( X, T; S) =
| S1 |
| S2 |
H ( S1 ) +
H ( S2 ) ,
|S|
|S|
(6.1)
kjer sta H (S1 ) in H (S2 ) entropiji podmnožice primerov S, ki ju izraˇcunamo po obrazcu
k
H (Si ) = − ∑ Pr(Cj , Si ) log(Pr(Cj , Si )).
(6.2)
j =1
V obrazcu (6.1) |S| oznaˇcuje število vseh primerov, |S1 | oz. |S2 | pa število primerov v
intervalu S1 oz. S2 . V obrazcu (6.2) se k se nanaša na razrede C1 , . . . , Ck , Pr(Cj , Si ) pa
pomeni delež primerov razreda Cj v intervalu Si .
112
6.6 Pregled metod za diskretizacijo zveznih spremenljivk
ID3 izraˇcuna entropijo za vse potencialne toˇcke loma. Optimalna toˇcka loma je vrednost
spremenljivke, pri kateri je entropija H ( X, T; S) najmanjša. Ustavitveni kriterij je podan s
stopnjo cˇ istosti terminalnega vozlišˇca.
D2 Metoda D2 je izpeljanka algoritma ID3 (Catlett, 1991). Prvi korak ima skupen z ID3;
za cepitev izberemo spremenljivko, na osnovi katere lahko primere cˇ im bolj natanˇcno
uvrstimo v razrede. Algoritem ID3 v nadaljevanju indukcije drevesa te spremenljivke
ne upošteva veˇc, D2 pa nadaljuje z rekurzivnim razbijanjem spremenljivke, dokler ne
zadosti ustavitvenemu kriteriju. Ustavitveni kriterij je doloˇcen s hevristikami. Cepljenje
ustavimo, cˇ e je (i) število primerov za cepitev manjše od 14, (ii) število intervalov veˇcje od
8, (iii) informacijski prispevek na vseh toˇckah loma enak oz. (iv) cˇ e vsi primeri v intervalu
pripadajo istemu razredu.
MDLP Metoda MDLP (Fayyad & Irani, 1993) je ena od najpogosteje uporabljenih metod
diskretizacije (García in sod., 2013). Zvezne vrednosti spremenljivke najprej uredimo po
velikosti. V naslednjem koraku doloˇcimo potencialne toˇcke loma. V ta namen uporabimo
vrednosti spremenljivke, ki doloˇcajo meje med razredi.
Primer 25. Za ilustracijo postopka MDLP uporabimo primer iz tabele 6.5. Prva vrstica tabele se
nanaša na urejene vrednosti spremenljivke, druga vrstica pa na pripadajoˇce oznake razreda. Eno
od možnih toˇck kandidatk pomeni vrednost q = 22.5, saj obstajata primera e1 = 22 in e2 = 23, ki
pripadata razliˇcnima razredoma, tako da je X (e1 ) < T < X (e2 ). Optimalno toˇcko loma pomeni
kandidatka, pri kateri je entropija, izraˇcunana po obrazcu (6.1), najmanjša.1
Tabela 6.5: Urejanje zveznih vrednosti pri metodi MDLP
11
B
14
15
A
18
19
20
21
22
B
A
B
A
B
23
25
A
30
31
33
35
36
B
A
B
A
B
Algoritem nadaljuje z rekurzivnim razbijanjem spremenljivke, dokler ne zadosti ustavitvenemu kriteriju, ki je operacionaliziran z naˇcelom MDL (angl. minimum description length)
(Mitchell, 1997). MDL-naˇcelo dovoli indukcijo razbitja v toˇcki T, dokler je informacijski
prispevek
log2 (n − 1) ∆( X, T; S)
Gain( X, T; S) >
+
,
(6.3)
n
n
kjer n oznaˇcuje število primerov v intervalu S. Informacijski prispevek v (6.3) izraˇcunamo
po obrazcu
Gain( X, T; S) = H (S) − H ( A, T; S),
razliko ∆( X, T; S) pa po obrazcu
∆( X, T; S) = log2 (3k − 2) [kH (S) − k1 H (S1 ) − k2 H (S2 )] .
(6.4)
V obrazcu (6.4) k, k1 in k2 oznaˇcujejo število razredov v intervalih S, S1 oz. S2 .
1 Ce
ˇ
je kandidatk veˇc, eno izmed njih izberemo po sluˇcaju.
113
6 Diskretizacija zveznih spremenljivk
Mantarasova razdalja Cerquides in De Mántaras (1997) sta za iskanje optimalnih toˇck
loma predlagala Mantarasovo razdaljo (De Mántaras, 1991). Razpon zveznih vrednosti
najprej uredimo po velikosti. Razbitje, ki ga inducira diskretizacija D, bomo v splošnem
oznaˇcili s PD . S PD∪{T } podobno oznaˇcimo razbitje, ki ga nad spremenljivko X inducira
toˇcka loma T. Naloga je doloˇciti toˇcko loma TX tako, da bo
d PC , PD∪{T } ≥ d PC , PD∪{TX } , ∀ T.
(6.5)
V obrazcu 6.5 se PC nanaša na razbitje, ki ga inducira odvisna spremenljivka, d pa na
Mantarasovo razdaljo, ki je definirana s predpisom
d( PC , PD ) =
I ( PC | PD ) + I ( PD | PC )
,
I ( PC ∩ PD )
kjer so I ( PC | PD ), I ( PC ∩ PD ) in I ( PD ) standardne Shanonove mere informacije; veˇc
podrobnosti bo bralec našel v De Mántaras (1991).
Za optimalno toˇcko loma izberemo vrednost spremenljivke, ki v (6.5) inducira najmanjšo
razdaljo. Algoritem nadaljuje z rekurzivnim razbijanjem spremenljivke, dokler ne zadosti ustavitvenemu kriteriju. Ustavitveni kriterij je enako kot pri diskretizatorju MDLP
operacionaliziran z naˇcelom MDL (Mitchell, 1997).
Odvisnost
Zeta Zeta (Z) je mera povezanosti med spremenljivko in pripadajoˇcim razredom (Ho &
Scott, 1997). Postopek diskretizacije si oglejmo na primeru. Denimo, da imamo zvezni
atribut X; primeri pripadajo bodisi razredu g1 bodisi razredu g2 . Naloga diskretizatorja
je poiskati toˇcko loma z najvišjo Z-vrednostjo, ki razbije spremenljivko na intervala S1 in
S2 (tabela 6.6).
Tabela 6.6: Vzorˇcna tabela
Interval
Razred
S1
S2
g1
g2
n11
n21
n12
n22
Modalni razred v intervalu i doloˇcimo kot
(
g1 , cˇ e max(n1i , n2i ) = n1i ,
g2 , cˇ e max(n1i , n2i ) = n2i ,
kjer i v primeru dveh razredov zasede vrednost 1 ali 2, n1i oznaˇcuje število primerov
v intervalu S1 , ki pripadajo razredu g1 , n2i pa število primerov v istem intervalu, ki
pripadajo razredu g2 . Vrednost statistike Z za izbrano toˇcko loma izraˇcunamo po obrazcu
k
Z=
∑ n f (i),i ,
i =1
114
6.6 Pregled metod za diskretizacijo zveznih spremenljivk
kjer je k število intervalov (privzeto 2), f (i ) indeks razreda, ki ima najveˇcje število primerov
v intervalu i, n f (i),i pa število primerov v intervalu i z indeksom razreda f (i ).
Za spremenljivko s številom intervalov k lahko poišˇcemo natanko k − 1 toˇck loma. Kot
optimalno toˇcko loma izberemo vrednost spremenljivke z najvišjo Z-vrednostjo, ob
omejitvi, da nobeden od sosednjih parov intervalov ne inducira istega razreda. Cepitev
nadaljujemo do zadostitve ustavitvenemu pogoju, ki je doloˇcen s številom intervalov k.
Napovedna točnost
Adaptivna kvantizacija Primer uporabe napovedne toˇcnosti v diskretizaciji je metoda
adaptivne kvantizacije (angl. adaptive quantization) (Chan, Batur & Srinivasan, 1991). Metoda temelji na ocenjevanju natanˇcnosti napovedovanja oznake razreda. Razpon zveznih
vrednosti posamezne spremenljivke najprej razcepimo na dve razbitji (npr. z metodo
enake širine intervalov). V naslednjem koraku cepitev ovrednotimo, tako da z izbranim
klasifikatorjem preverimo, ali je cepitev pripomogla k izboljšanju napovedne toˇcnosti.
Cepitev ponavljamo toliko cˇ asa, dokler se napovedna toˇcnost pomembno izboljšuje. Ker
metoda vkljuˇcuje uˇcenje klasifikatorja, je cˇ asovno zahtevna.
6.6.2 Metode združevanja
Najprej si oglejmo splošni algoritem, ki ga uporabljajo metode diskretizacije, ki temeljijo
na združevanju intervalov (algoritem 4). Algoritem je sestavljen iz štirih glavnih korakov:
(i) ureditve vrednosti spremenljivke po velikosti, (ii) iskanja optimalnih parov sosednjih
intervalov, (iii) združevanja parov intervalov ter (iv) zakljuˇcka diskretizacije ob zadostitvi
ustavitvenemu pogoju. Ob zaˇcetku diskretizacije je vsaka zvezna vrednost uvršˇcena v
svoj interval. Združevanje intervalov je prikazano na sliki 6.6.
Algoritem 4: Algoritem združevanja
Podatki: S = Urejene vrednosti spremenljivke f
Procedura Združevanje(S)
cˇ e UstavitveniKriterij() potem
vrni;
T = DoločiOptimalnaSosednjaIntervala(S);
S = ZdružiSosednjaIntervala(S, T);
Združevanje(S);
Odvisnost
V nadaljevanju razdelka obravnavamo metodi ChiMerge in Chi2, ki temeljita na χ2 preizkusu neodvisnosti. Pri diskretizaciji zahtevamo, da so relativne frekvence razredov
znotraj posameznega intervala približno konsistentne. V nasprotnem primeru je treba
doloˇciti toˇcko loma ter interval razcepiti. Enako dva sosednja intervala ne smeta imeti
podobnih relativnih frekvenc razredov; v tem primeru ju moramo združiti (Kerber, 1992).
115
6 Diskretizacija zveznih spremenljivk
d1
d4
d3
d2
x (1) x (2) x (3) x (4)
d5
dn−m
d6
x (5) x (6) x (7) x (8) x (9)
···
x( j)
x
· · · x(n)
z
z1
z2
z3
···
zm
Slika 6.6: Diskretizacija zvezne spremenljivke z združevanjem intervalov. Zvezne vrednosti spremenljivke so oznaˇcene z x(1) , . . . , x(n) , z1 , . . . , zm pa oznaˇcujejo diskretne
vrednosti. Rdeˇce toˇcke ponazarjajo toˇcke združevanja na zvezni spremenljivki.
S pomoˇcjo χ2 -preizkusa preverjamo domnevo, da sta dva sosednja intervala med seboj neˇ niˇcelne domneve ne zavrnemo, intervala združimo. Vrednost
odvisna glede na razred. Ce
2
χ -statistike za par sosednjih intervalov izraˇcunamo po obrazcu
2
2
χ =
p
∑∑
i =1 j =1
Aij − Eij
Eij
2
,
(6.6)
kjer je p število razredov, Aij število razliˇcnih vrednosti v intervalu i za razred j, Ri število
p
primerov v intervalu i (∑ j=1 Aij ), Cj število primerov v razredu j (∑im=1 Aij ), N število
p
vseh primerov (∑ j=1 Cj ) in Eij priˇcakovana frekvenca za Aij (( Ri × Cj )/N).
ChiMerge ChiMerge je nadzorovana metoda diskretizacije, ki temelji na združevanju
sosednjih intervalov (Kerber, 1992). V prvem koraku diskretizacije vsaka zvezna vrednost
spremenljivke inducira samostojen interval. V naslednjem koraku za vsak par sosednjih
intervalov po obrazcu (6.6) izraˇcunamo vrednost χ2 statistike.2 Sosednja intervala z
najmanjšo vrednostjo χ2 statistike združimo. Postopek združevanja ponavljamo toliko
cˇ asa, dokler ni pri vseh parih sosednjih intervalov vrednost χ2 statistike višja od izbrane
vrednosti statistiˇcne znaˇcilnosti α. Pražno vrednost obiˇcajno nastavimo tako, da znaša
stopnja tveganja α = 0.05 oz. α = 0.1. Po potrebi lahko doloˇcimo tudi dovoljeno spodnjo
mejo števila intervalov.
Primer 26. Za ilustracijo prikažimo postopek diskretizacije po metodi ChiMerge. Sintetiˇcno
podatkovje je predstavljeno v tabeli 6.7. Prva vrstica se nanaša na vrednosti spremenljivke, druga
vrstica pa na pripadajoˇco oznako razreda. Vrednosti spremenljivke so že urejene po velikosti.
Tabela 6.7: Sintetiˇcno podatkovje za diskretizacijo ChiMerge
1
A
2V
3
B
7
A
8
A
9
A
11
B
23
B
37
A
39
B
45
A
46
A
59
A
primeru dveh sosednjih intervalov z enakim razredom so priˇcakovane frekvence enake niˇc, zato v tem
primeru uporabimo Yatesov popravek (Agresti & Franklin, 2013).
116
6.6 Pregled metod za diskretizacijo zveznih spremenljivk
V prvem koraku vsako zvezno vrednost uvrstimo v svoj interval. Meje intervalov so potem
[0, 2], [2, 5], [5, 7.5], . . . , [45.5, 52], [52, 60].
V naslednjem koraku za vsak par intervalov izraˇcunamo vrednosti χ2 statistike. V ta namen
najprej pripravimo tabelo opazovanih frekvenc. V tabeli 6.8 je prikazan primer izraˇcuna opazovanih
frekvenc za intervala [2, 5] in [5, 7.5].
Tabela 6.8: Opazovane frekvence za intervala [2, 5] in [5, 7.5]
Razred
Interval
A
B
[2, 5]
0
1
[5, 7.5]
1
0
Na osnovi robnih frekvenc v tabeli 6.8 izraˇcunamo še priˇcakovane frekvence (tabela 6.9).
Tabela 6.9: Priˇcakovane frekvence za intervala [2, 5] in [5, 7.5]
Razred
Interval
A
B
[2, 5]
0.5
0.5
[5, 7.5]
0.5
0.5
Vrednost χ2 -statistike izraˇcunamo po obrazcu (6.6). V našem primeru znaša vrednost statistike
χ2 (1) = 2. Ker je izraˇcunana vrednost χ2 -statistike manjša od kritiˇcne (χ20.10 (1) = 2.71), bomo
intervala združili. Na podoben naˇcin izraˇcunamo χ2 -statistiko še za preostale pare intervalov.
Postopek rekurzivno ponavljamo toliko cˇ asa, dokler lahko intervale združujemo oz. dokler ne
dosežemo spodnjega dovoljenega števila intervalov.
Chi2 Chi2 (H. Liu & Setiono, 1997) je avtomatizirana razliˇcica algoritma ChiMerge. Algoritem je sestavljen iz dveh korakov. V prvem koraku, podobno kot pri algoritmu ChiMerge,
izraˇcunamo vrednost χ2 -statistike za vsak par sosednjih intervalov. V drugem koraku
par sosednjih intervalov z najmanjšo vrednostjo χ2 -statistike združimo. Združevanje
intervalov ponavljamo toliko cˇ asa, dokler pri vseh parih intervalov vrednost χ2 -statistike
ne preseže vrednosti, doloˇcene s parametrom α. Algoritem samodejno prilagaja (niža)
stopnjo statistiˇcne znaˇcilnosti α toliko cˇ asa, dokler število nekonsistentnosti ne preseže
kritiˇcne meje. (Dva primera sta nekonsistentna, cˇ e se ujemata v vrednostih diskretiziranih
spremenljivk, razlikujeta pa v oznaki razreda.) Dovoljena stopnja nekonsistentnosti je
privzeto postavljena na niˇc, stopnja statistiˇcne znaˇcilnosti pa na α = 0.5.
Iz algoritma Chi2 je izpeljana metoda ConMerge (K. Wang & Liu, 1998), ki išˇce najmanjšo
vrednost χ2 -statistike med vsemi spremenljivkami v podatkovju.
117
7 Metoda
V tem poglavju obravnavamo eksperimentalno zasnovo treh eksperimentov, s katerimi
smo preverjali (i) vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na
uvršˇcanje; (ii) vpliv metod krˇcenja razsežnosti na uvršˇcanje ter (iii) vpliv diskretizacije
zveznih spremenljivk na uvršˇcanje. Najprej bomo predstavili realna podatkovja nad
katerimi so eksperimenti potekali, in opisali postopek po katerem smo pripravili sintetiˇcne
podatke. Sledil bo podroben opis treh glavnih eksperimentov. Pri vsakem eksperimentu
bomo predstavili eksperimentalni naˇcrt ter opisali postopek.
7.1 Podatki
7.1.1 Realni podatki
V analizi smo uporabili 37 razliˇcnih mikromrežnih DNA-podatkovij, ki merijo globalno
ekspresijo genov v genomih cˇ loveka (lat. Homo sapiens), hišne miši (lat. Mus musculus) in
sive podgane (lat. Rattus norvegicus). Uporabljena podatkovja so predstavljena v tabeli 7.1.
Za vsako podatkovje navajamo organizem, na osnovi katerega so bili podatki pridobljeni,
število primerov in spremenljivk v podatkovni tabeli ter sklic na literaturo. Veˇcino
podatkovij smo pridobili iz prosto dostopnega podatkovnega skladišˇca Gene Expression
Omnibus (Barrett in sod., 2013), dve podatkovni tabeli (E-JJRD-1 in E-TABM-940) pa
s podatkovnega skladišˇca ArrayExpress (Rustici in sod., 2013). Podatke smo pridobili
aprila 2013. Pri izbiri podatkovij smo si pomagali z iskanjem po spletnem uporabniškem
vmesniku, kjer smo s kombinacijo iskalnih zahtev izloˇcili tista podatkovja, ki se nanašajo
na merjenje genske izraženosti med dvema bolezenskima stanjema, poleg tega pa smo
zahtevali, da ima podatkovje vsaj 10 primerov.
Za samodejni zajem podatkov smo uporabili Bioconductorjeva (Gentleman in sod., 2004)
paketa GEOquery (Davis & Meltzer, 2007) oz. ArrayExpress (Kauffmann in sod., 2009). Vse
podatkovne matrike so že bile predpripravljene, zato dodatna priprava ni bila potrebna.
Vse spremenljivke smo pred nadaljnjo analizo pretvorili v standardizirane z-vrednosti.
7.1.2 Sintetični podatki
V prvem eksperimentu, kjer prouˇcujemo vpliv metode uvršˇcanja, izbire spremenljivk
ter parametrov uˇcenja na uvršˇcanje, smo poleg realnih podatkov v analizo vkljuˇcili tudi
sintetiˇcne podatke. Sintetiˇcne podatke smo pripravili tako, da smo vsakemu realnemu
podatkovju (gl. razdelek 7.1.1) priredili sluˇcajno razbitje z oznakami razredov. Na ta naˇcin
smo dobili neinformativno podatkovje, ki pa je ohranilo realno korelacijsko strukturo
119
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
a
Oznaka
Organizem
alon
chin
chowdary
christensen
E-JJRD-1
E-TABM-940
GDS963
GDS1209
GDS1465
GDS1608
GDS1650
GDS1917
GDS2190
GDS2312
GDS2520
GDS2545
GDS2656
GDS2947
GDS2960
GDS3027
GDS3057
GDS3257
GDS3356
GDS3539
GDS3627
GDS3630
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Mus musculus
Homo sapiens
Homo sapiens
Homo sapiens
Mus musculus
Rattus norvegicus
Homo sapiens
Homo sapiens
Homo sapiens
Mus musculus
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
n0
n1
n
p
22
43
62
113
35
53
18
15
24
42
19
14
30
18
22
63
14
32
41
14
26
49
20
21
40
20
40
75
42
85
36
28
18
39
13
21
20
14
31
18
22
65
14
32
60
23
38
58
34
61
18
20
62
118
104
198
71
81
36
54
37
63
39
28
61
36
44
128
28
64
101
37
64
107
54
82
58
40
2000
22215
22283
1413
45101
54675
12625
22283
22690
1322
12625
54675
22283
12488
12625
12625
22645
54675
4132
22283
22283
22283
54675
54675
54675
54675
Referenca
Alon in sod. (1999)
Chin in sod. (2006)
Chowdary in sod. (2006)
B. C. Christensen in sod. (2009)
Aerssens in sod. (2007)
–
Strunnikova in sod. (2005)
Detwiller in sod. (2005)
van Erp, Dach, Koch, Heesemann in Hoffmann (2006)
Ahmed in sod. (2005)
Stearman in sod. (2005)
–
Ryan in sod. (2006)
Sanoudou in sod. (2006)
Kuriakose in sod. (2004)
Y. P. Yu in sod. (2004)
Goh in sod. (2007)
Sabates-Bellver in sod. (2007)
Z. Yao in sod. (2007)
Pescatori in sod. (2007)
Stirewalt in sod. (2008)
Landi in sod. (2008)
Jennifer Cohen in sod. (2007)
Y. Yao in sod. (2008)
Kuner in sod. (2009)
Häsler in sod. (2009)
Legenda: i – zap. št. podatkovja, Oznaka – oznaka podatkovja, n0 – št. primerov v razredu 0, n1 – št. primerov v razredu 1, n – št. primerov, p – št.
spremenljivk
7 Metoda
120
Tabela 7.1: Uporabljena realna podatkovja
Tabela 7.1: (nadalj.) Uporabljena realna podatkovja
i
27
28
29
30
31
32
33
34
35
36
37
a
Oznaka
Organizem
GDS3690
gordon
gravier
GSE738
GSE1542
pomeroy
shipp
singh
subramanian
tian
west
Homo sapiens
Homo sapiens
Homo sapiens
Rattus norvegicus
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
Homo sapiens
n0
n1
n
p
66
150
106
26
25
21
58
50
33
137
25
87
31
62
20
24
39
19
52
17
36
24
153
181
168
46
49
60
77
102
50
173
49
20589
12533
2905
8740
22283
7128
7129
12600
10100
12625
7129
Referenca
Schirmer in sod. (2009)
Gordon in sod. (2002)
Gravier in sod. (2010)
Strøm in sod. (2004)
Ishikawa in sod. (2005)
Pomeroy in sod. (2002)
Shipp in sod. (2002)
Singh in sod. (2002)
Subramanian in sod. (2005)
Tian in sod. (2003)
West in sod. (2001)
Legenda: i – zap. št. podatkovja, Oznaka – oznaka podatkovja, n0 – št. primerov v razredu 0, n1 – št. primerov v razredu 1, n – št. primerov, p – št.
spremenljivk
7.1 Podatki
121
7 Metoda
(Boulesteix & Strobl, 2009). Vse spremenljivke smo pred nadaljnjo analizo pretvorili
v standardizirane z-vrednosti. Ponovljivost smo zagotovili z uporabo R-jeve funkcije
set.seed().
7.2 Vpliv metode uvrščanja, izbire spremenljivk in parametrov
učenja na uvrščanje
7.2.1 Eksperimentalni načrt
Eksperimentalni naˇcrt je vkljuˇceval (i) izbiro najbolj diskriminativnih spremenljivk ter
(ii) uvršˇcanje primerov z uporabo devetih razliˇcnih metod. Postopek je podrobneje
predstavljen v razdelku 7.2.2.
Metode uvrščanja
V spodnjem seznamu navajamo uporabljene metode uvršˇcanja in nastavitve morebitnih argumentov funkcij, s katerimi smo modele raˇcunali. Povzetek metod uvršˇcanja je prikazan
v tabeli 7.2.
1. Metoda najbližjega soseda (kNN). Mera razliˇcnosti je bila evklidska razdalja. Za
uˇcenje smo uporabili funkcijo knnCMA() iz paketa CMA (Slawski, Daumer & Boulesteix, 2008). Argument k, s katerim nastavljamo število najbližjih sosedov, smo
omejili na vrednosti 1, 3 in 5. Funkcijo smo prilagodili tako, da smo za posamezen
primer poleg oznake razreda izraˇcunali tudi verjetnost pripadnosti posameznemu
razredu. Metoda je podrobneje predstavljena v razdelku 5.2.2.
2. Fisherjeva diskriminantna analiza (FDA). Za uˇcenje smo uporabili funkcijo fdaCMA() iz paketa CMA (Slawski in sod., 2008). Argument comp, s katerim nastavljamo
število diskriminantnih projekcij, smo nastavili na vrednost 1. Metoda je podrobneje
predstavljena v razdelku 5.2.3.
3. Linearna diskriminantna analiza (LDA). Za uˇcenje smo uporabili funkcijo ldaCMA()
iz paketa CMA (Slawski in sod., 2008). Metoda je podrobneje predstavljena v razdelku 5.2.3.
4. Diagonalna linearna diskriminantna analiza (DLDA). Za uˇcenje smo uporabili
funkcijo dldaCMA() iz paketa CMA (Slawski in sod., 2008). Metoda je podrobneje
predstavljena v razdelku 5.2.3.
5. Nevronske mreže (NNET). Za uˇcenje smo uporabili funkcijo nnetCMA() iz paketa
CMA (Slawski in sod., 2008). Argument eigengenes, s katerim doloˇcimo zaˇcetni prostor spremenljivk, smo nastavili na privzeto vrednost FALSE. Vrednosti argumentov
size in decay smo nastavili na privzeti vrednosti 3 in 0.01. Metoda je podrobneje
predstavljena v razdelku 5.2.4.
122
7.2 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Tabela 7.2: Uporabljeni modeli uˇcenja
Metoda
KNN
LDA
FDA
DLDA
NNET
RF
SVM
PAM
PLR
Št. spremenljivk
20, 50, 100, 200, 500
10, 20
10, 20
20, 50, 100, 200, 500
20, 50, 100, 200, 500
vsi
vsi
vsi
vsi
Parameter
k
mtry
cost
delta
lambda
6. Sluˇcajni gozdovi (RF). Za uˇcenje smo uporabili funkcijo rfCMA() iz paketa CMA
(Slawski in sod., 2008). Vrednost argumenta type, s katerim nastavljamo naˇcin izracˇ una mere pomembnosti, smo nastavili na privzeto vrednost 1. Število konstruiranih
dreves (ntree) smo omejili na 1000, za število sluˇcajno izbranih spremenljivk pa smo
√ √ √ √
doloˇcili vrednosti mtry = p, 2 p, 3 p, 4 p. Metoda je podrobneje predstavljena
v razdelku 5.2.5.
7. Metoda podpornih vektorjev (SVM). Za uˇcenje smo uporabili funkcijo svmCMA()
iz paketa CMA (Slawski in sod., 2008). Uporabili smo linearno jedro; argument
kernel smo nastavili na vrednost "linear". Vrednost argumenta probability smo
nastavili na vrednost TRUE. Vrednost argumenta cost, s katerim doloˇcimo ceno pri
uˇcenju, smo doloˇcili s preˇcnim preverjanjem s pomoˇcjo funkcije tune(); argument
fold smo nastavili na vrednost 3, argument cost pa smo omejili na vrednosti 0.1, 1,
5, 10, 50, 100 in 500. Metoda je podrobneje predstavljena v razdelku 5.2.6.
8. Metoda najbližjega skrˇcenega centroida (PAM). Za uˇcenje smo uporabili funkcijo
scdaCMA() iz paketa CMA (Slawski in sod., 2008). Argument delta, s katerim nastavljamo prag krˇcenja, smo doloˇcili s preˇcnim preverjanjem s pomoˇcjo funkcije tune();
argument fold smo nastavili na vrednost 3, argument delta pa smo omejili na
vrednosti 0.1, 0.25, 0.5, 1, 2 in 5. Metoda je podrobneje predstavljana v razdelku 5.2.7.
9. Logistiˇcna regresija s kaznijo (PLR). Za uˇcenje smo uporabili funkcijo plrCMA()
iz paketa CMA (Slawski in sod., 2008). Argument lambda, s katerim nastavljamo
koliˇcino kaznovanja, smo doloˇcili s preˇcnim preverjanjem s pomoˇcjo funkcije tune();
argument fold smo nastavili na vrednost 3, argument lambda pa smo omejili na vrednosti v razponu od 2−4 do 24 . Metoda je podrobneje predstavljena v razdelku 5.2.8.
Metode izbire spremenljivk
Eksperimentalni naˇcrt je vkljuˇceval izbiro spremenljivk s pomoˇcjo treh pristopov: (i) t-testa, (ii) Welchevega t-testa in (iii) pristopa LIMMA. Za izbiro spremenljivk smo uporabili
funkcijo GeneSelection() iz paketa CMA (Slawski in sod., 2008). Vrednost argumenta
method smo nastavili na ‘t.test’, ‘welch.test’ oz. ‘limma’. Za vsako spremenljivko
123
7 Metoda
Tabela 7.3: Kombinacije metod uvršˇcanja, metod za izbiro spremenljivk, število vkljuˇcenih
spremenljivk in parametrov uˇcenja
Metoda
Izbira spremenljivk
Št. spremenljivk
Parametri
Skupaj
3
3
3
3
3
3
5
2
2
5
5
5
3
45
6
6
15
15
60
1
1
1
kNN
LDA
FDA
DLDA
NNET
RF
SVM
PAM
PLR
Skupaj
4
150
smo izraˇcunali vrednost testne statistike, rezultate uredili po velikosti ter izbrali prvih p
spremenljivk. Parameter p je lahko zasedal vrednosti 20, 50, 100, 200 in 500. Teoretiˇcno
ozadje pristopov za izbiro spremenljivk je predstavljeno v poglavju 3.
V tabeli 7.3 so povzete kombinacije med razliˇcnimi metodami uvršˇcanja, metodami izbire
spremenljivk, razliˇcnega števila spremenljivk in dodatnih parametrov uˇcenja. Skupno
število modelov uˇcenja znaša 150.
Prečno preverjanje
Za oceno natanˇcnosti uvršˇcanja smo uporabili shemo preˇcnega preverjanja s pregibanjem.
Za pripravo pregibov smo uporabili funkcijo GenerateLearningsets() iz paketa CMA
(Slawski in sod., 2008). Argument method, s katerim izbiramo naˇcin preˇcnega preverjanja,
smo nastavili na vrednost ‘CV’. Z argumentom fold nastavimo želeno število pregibov;
v našem primeru smo uporabili 10 pregibov. Ponovljivost rezultatov smo zagotovili
z uporabo R-jeve funkcije set.seed(). Teoretiˇcno ozadje postopka je predstavljeno v
razdelku 5.3.4.
Natanˇcnost uvršˇcanja smo izrazili z (i) napako uvršˇcanja (MER), (ii) obˇcutljivostjo (Sens),
(iii) specifiˇcnostjo (Spec) oz. (iv) s plošˇcino pod ROC-krivuljo (AUC). Mere natanˇcnosti
smo raˇcunali s pomoˇcjo funkcije evaluate() iz paketa CMA (Slawski in sod., 2008), kjer
smo vrednost argumenta measure nastavili na ‘misclassification’ (napaka uvršˇcanja), ‘sensitivity’ (obˇcutljivost), ‘specificity’ (specifiˇcnost) oz. ‘auc’ (plošˇcina pod
ROC-krivuljo). Teoretiˇcno ozadje uporabljenih mer natanˇcnosti uvršˇcanja je podrobneje
predstavljeno v razdelku 5.3.3.
124
7.2 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
7.2.2 Postopek
Na osnovi podatkovne množice z n primeri in p spremenljivkami smo najprej pripravili
uˇcne množice L z n L primeri in pripadajoˇce testne množice T z n T primeri. Delitev
primerov v uˇcne in testne množice smo pripravili na osnovi sheme preˇcnega preverjanja
z 10 pregibi. Matriko z uˇcnimi primeri smo oznaˇcili z X L , matriko testnih primerov pa
z X T . Z izbrano metodo izbire spremenljivk smo nato nad uˇcno množico X L doloˇcili
podmnožico spremenljivk p∗ ter konstruirali reducirani matriki X∗L in X∗T .
Nad reducirano matriko X∗L smo nato z izbrano metodo uvršˇcanja prilagodili uˇcni model.
Uˇcni model in reducirano matriko X∗T smo uporabili za uvršˇcanje primerov v testno
množico. Opisane korake smo ponovili za vsakega od pregibov in izraˇcunali povpreˇcno
napako uvršˇcanja (MER), obˇcutljivost (Sens), specifiˇcnost (Spec) in plošˇcino pod ROCkrivuljo (AUC). Zgornje korake smo ponovili za vsako metodo uvršˇcanja, metodo izbire
spremenljivk in razliˇcno število spremenljivk.
Postopek smo ponovili nad vsemi realnimi podatkovji in konstruiranimi sintetiˇcnimi podatki ter izraˇcunali povpreˇcne vrednosti mer natanˇcnosti uvršˇcanja. Postopek je zgošˇceno
povzet v algoritmu 5.
Uˇcinek metode uvršˇcanja, metode izbire spremenljivk in števila spremenljivk na kakovost
uvršˇcanja smo ovrednotili s pomoˇcjo analize kovariance. Razlike med metodami smo
prikazali s CD-diagrami (Demšar, 2006).
Algoritem 5: Postopek ocenjevanja natanˇcnosti uvršˇcanja
1. Z uporabo preˇcnega preverjanja s pregibanjem pripravi ustrezno število uˇcnih
množic L z n L primeri in testnih množic T z n T primeri, tako da velja n L + n T = n.
Za vsak pregib z X L oznaˇci pripadajoˇco matriko uˇcnih primerov razsežnosti n L × p,
z X T pa matriko testnih primerov razsežnosti n T × p.
2. Doloˇci podmnožico spremenljivk p∗ ter konstruiraj matriko X∗L razsežnosti n L × p∗
in matriko X∗T razsežnosti n T × p∗ .
3. Na reducirani uˇcni množici X∗L prilagodi uˇcni model. Zgrajeni uˇcni model uporabi
za uvršˇcanje primerov v testni množici X∗T .
4. Z izbrano mero natanˇcnosti uvršˇcanja predstavi uˇcinkovitost uporabljene metode
uvršˇcanja.
5. Zgornje korake ponovi za vsak pregib in izraˇcunaj povpreˇcne mere natanˇcnosti
uvršˇcanja.
6. Zgornje korake ponovi za vsako metodo uvršˇcanja, metodo izbire spremenljivk in
razliˇcno število spremenljivk.
125
7 Metoda
7.3 Vpliv metod za krčenje razsežnosti podatkovja na uvrščanje
7.3.1 Eksperimentalni načrt
Eksperimentalni naˇcrt je vkljuˇceval (i) izbiro najbolj diskriminativnih spremenljivk, (ii) krcˇ enje števila spremenljivk in (iii) uvršˇcanje primerov z uporabo dveh razliˇcnih metod.
Postopek je podrobneje predstavljen v razdelku 7.3.2.
Metode uvrščanja
Za uvršˇcanje smo uporabili dva pristopa:
1. Linearna diskriminantna analiza (LDA). Za uˇcenje smo uporabili funkcijo lda() iz
R-jevega paketa MASS. Metoda je podrobneje predstavljena v razdelku 5.2.3.
2. Logistiˇcna diskriminacija (LD). Za uˇcenje smo uporabili funkcijo multinom() iz
R-jevega paketa nnet. Metoda je podrobneje predstavljena v razdelku 5.2.8.
Metode krčenja razsežnosti
Za krˇcenje prostora spremenljivk smo uporabili dve metodi:
1. Analiza glavnih komponent (PCA). Za uˇcenje smo uporabili funkcijo prcomp() iz
R-jevega paketa stats. Metoda je podrobneje predstavljena v razdelku 4.5.1.
2. Delni najmanjši kvadrati (PLS). Za uˇcenje smo uporabili funkcijo pls.regression()
iz R-jevega paketa plsgenomics (Boulesteix, 2004). Argument ncomp, s katerim nastavljamo število komponent, smo nastavljali skladno z eksperimentalnim naˇcrtom.
Metoda je podrobneje predstavljena v razdelku 4.5.3.
Metode izbire spremenljivk
Eksperimentalni naˇcrt je vkljuˇceval izbiro spremenljivk s štirimi pristopi: (i) t-testom,
(ii) Welchev t-testom, (iii) pristopom LIMMA in (iv) sluˇcajnim izborom spremenljivk. Za
izbiro spremenljivk smo uporabili funkcijo GeneSelection() iz paketa CMA (Slawski
in sod., 2008). Vrednost argumenta method smo nastavili na ‘t.test’, ‘welch.test’
oz. ‘limma’. Za vsako spremenljivko smo izraˇcunali vrednost testne statistike, rezultate
uredili po velikosti ter izbrali prvih p spremenljivk. Parameter p je lahko zasedal vrednosti
20, 50, 100, 200 in 500. Teoretiˇcno ozadje pristopov za izbiro spremenljivk je predstavljeno
v poglavju 3.
V tabeli 7.4 so povzete kombinacije med razliˇcnimi metodami uvršˇcanja, metodami krˇcenja
razsežnosti, metodami izbire spremenljivk in razliˇcnega števila spremenljivk. Skupno
število modelov uˇcenja znaša 80.
126
7.3 Vpliv metod za krˇcenje razsežnosti podatkovja na uvršˇcanje
Tabela 7.4: Kombinacije metod uvršˇcanja, metod krˇcenja razsežnosti, metod za izbiro
spremenljivk in števila vkljuˇcenih spremenljivk
Metoda
LDA
LD
Skupaj
Krˇcenje
Izbira spremenljivk
Št. spremenljivk
Skupaj
2
2
4
4
5
5
40
40
80
Prečno preverjanje
Za oceno kakovosti uvršˇcanja smo uporabili shemo preˇcnega preverjanja s pregibanjem.
Za pripravo pregibov smo uporabili funkcijo GenerateLearningsets() iz paketa CMA
(Slawski in sod., 2008). Argument method, s katerim izbiramo naˇcin preˇcnega preverjanja, smo v fazi doloˇcanja optimalnega števila komponent (gl. razdelek 7.3.2) nastavili
na vrednost ‘LOOCV’ (preˇcno preverjanje z izpustitvijo ene enote). V fazi uˇcenja smo
vrednost argumenta method nastavili na ‘CV’, argument fold pa na vrednost 10. Ponovljivost rezultatov smo zagotovili z uporabo R-jeve funkcije set.seed(). Teoretiˇcno ozadje
postopka je predstavljeno v razdelku 5.3.4.
Kakovost uvršˇcanja smo izrazili z (i) napako uvršˇcanja (MER), (ii) obˇcutljivostjo (Sens),
(iii) specifiˇcnostjo (Spec) oz. (iv) s plošˇcino pod ROC-krivuljo (AUC). Mere natanˇcnosti
smo raˇcunali s pomoˇcjo funkcije evaluate() iz paketa CMA (Slawski in sod., 2008), kjer
smo vrednost argumenta measure nastavili na ‘misclassification’ (napaka uvršˇcanja), ‘sensitivity’ (obˇcutljivost), ‘specificity’ (specifiˇcnost) oz. ‘auc’ (plošˇcina pod
ROC-krivuljo). Teoretiˇcno ozadje uporabljenih mer natanˇcnosti uvršˇcanja je podrobneje
predstavljeno v razdelku 5.3.3.
7.3.2 Postopek
Na osnovi podatkovne množice z n primeri in p spremenljivkami smo najprej pripravili
uˇcno množico L z n L primeri in testno množico T z n T primeri. Delitev primerov v
uˇcno in testno množico smo pripravili po sluˇcaju, tako da smo v uˇcno množico uvrstili
50 % primerov, preostale primere pa smo uvrstili v testno množico. Matriko z uˇcnimi
primeri smo oznaˇcili z X L , matriko testnih primerov pa z X T . Z izbrano metodo izbire
spremenljivk smo nato nad uˇcno množico X L doloˇcili podmnožico spremenljivk p∗ ter
konstruirali reducirani matriki X∗L in X∗T .
V naslednjem koraku smo uˇcno množico X∗L uporabili za doloˇcitev optimalnega števila
komponent. To smo storili s pomoˇcjo preˇcnega preverjanja z izpustitvijo ene enote. Nad
izbranimi primeri smo zgradili napovedni model tako, da smo spremenljivke skrˇcili z
izbrano metodo zmanjševanja razsežnosti podatkov. Napovedni model smo nato uporabili
za napovedovanje razreda na izloˇcenem primeru. Pri tem smo si zabeležili število komponent, pri katerih je bila toˇcnost uvršˇcanja najmanjša. Postopek smo ponovili za vseh n L
primerov. Povpreˇcno minimalno število komponent smo oznaˇcili s K ∗ . Na osnovi doloˇcenega optimalnega števila komponent smo z izbrano metodo zmanjševanja razsežnosti
127
7 Metoda
nad matriko X∗L doloˇcili komponentno matriko W s projekcijskimi vektorji. Izraˇcunali
smo matriki komponentnih dosežkov za reducirani matriki uˇcnih (Z L = X∗L W) in testnih
(Z T = X∗T W) primerov.
Nad matriko komponentnih dosežkov Z L smo z izbrano metodo uvršˇcanja prilagodili
uˇcni model. Uˇcni model in komponentne dosežke Z T smo nato uporabili za uvršˇcanje
primerov v testni množici. Opisane korake smo ponovili 100-krat, tako da smo sluˇcajili
celotno podatkovno množico. Dosežek izbrane metode uvršˇcanja smo nato predstavili
tako, da smo izraˇcunali povpreˇcno število uporabljenih komponent pri zmanjševanju
razsežnosti (nkomp ), napako uvršˇcanja (MER), obˇcutljivost (Sens), specifiˇcnost (Spec) in
plošˇcino pod ROC-krivuljo (AUC).
Postopek smo ponovili nad vsemi podatkovji in izraˇcunali povpreˇcne vrednosti mer
natanˇcnosti uvršˇcanja. Postopek je zgošˇceno povzet v algoritmu 6.
Uˇcinek metode krˇcenja razsežnosti, metode uvršˇcanja, metode izbire spremenljivk in
števila spremenljivk na kakovost uvršˇcanja smo ovrednotili s pomoˇcjo analize kovariance.
Razlike med metodami smo prikazali s CD-diagrami (Demšar, 2006).
Algoritem 6: Postopek ocenjevanja natanˇcnosti krˇcenja razsežnosti
1. Pripravi uˇcno množico L z n L primeri in testno množico T z n T primeri, tako da
velja n L + n T = n. Z X L oznaˇci matriko uˇcnih primerov razsežnosti n L × p, z X T pa
matriko testnih primerov razsežnosti n T × p. Uˇcno množico uporabi za izbiro
ustreznega števila komponent K ∗ (gl. besedilo).
2. Doloˇci podmnožico spremenljivk p∗ ter konstruiraj matriko X∗L razsežnosti n L × p∗
in matriko X∗T razsežnosti n T × p∗ .
3. Zmanjšaj razsežnost podatkov v matriki X∗L . Z W oznaˇci komponentno matriko
projekcijskih vektorjev razsežnosti p∗ × K ∗ . Izraˇcunaj matriki komponentnih
dosežkov Z L = X∗L W in Z T = X∗T W.
4. Na osnovi matrike komponentnih dosežkov Z L prilagodi uˇcni model. Zgrajeni uˇcni
model in matriko komponentnih dosežkov Z T uporabi za uvršˇcanje primerov v
testni množici.
5. Z izbrano mero kakovosti uvršˇcanja predstavi uˇcinkovitost uporabljene metode
uvršˇcanja.
6. Zgornje korake ponovi R-krat, tako da sluˇcajiš celotno podatkovno množico.
Izraˇcunaj povpreˇcne mere natanˇcnosti uvršˇcanja.
7. Zgornje korake ponovi za vsako metodo uvršˇcanja, metodo krˇcenja razsežnosti,
metodo izbire spremenljivk in razliˇcno število spremenljivk.
128
7.4 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje
7.4 Vpliv diskretizacije zveznih spremenljivk na uvrščanje
7.4.1 Eksperimentalni načrt
Eksperimentalni naˇcrt je vkljuˇceval (i) izbiro najbolj diskriminativnih spremenljivk, (ii) njihovo diskretizacijo z uporabo šestih razliˇcnih metod ter (iii) uvršˇcanje diskretiziranih
spremenljivk s tremi razliˇcnimi metodami. Postopek je podrobneje predstavljen v razdelku 7.4.2.
Metode uvrščanja
Uporabili smo naslednje metode uvršˇcanja:
1. Metoda najbližjega soseda (kNN). Za uvršˇcanje smo uporabili funkcijo make_Weka_classifier() iz R-jevega paketa RWeka. Argument name, s katerim izbiramo
metodo uvršˇcanja, smo nastavili na vrednost ‘weka/classifiers/lazy/IBk’. Pri
uvršˇcanju smo uporabili konstantno število najbližjih sosedov; argument control
smo nastavili na vrednost control = Weka_control(K=3).
2. Naivni Bayesov klasifikator (NB). Za uvršˇcanje smo uporabili funkcijo make_Weka_classifier() iz R-jevega paketa RWeka. Argument name, s katerim izbiramo metodo uvršˇcanja, smo nastavili na vrednost ‘weka/classifiers/bayes/NaiveBayes’.
3. Klasifikator C4.5 (C4.5). Za uvršˇcanje smo uporabili funkcijo make_Weka_classifier() iz R-jevega paketa RWeka. Argument name, s katerim izbiramo metodo
uvršˇcanja, smo nastavili na vrednost ‘weka/classifiers/trees/J48’.
Metode diskretizacije
Eksperimentalni naˇcrt je obsegal diskretizacijo zveznih spremenljivk z uporabo naslednjih
metod:
1. Metoda enake širine intervalov (EW). Za diskretizacijo smo uporabili funkcijo discretize() iz R-jevega paketa infotheo. Argument disc, s katerim izbiramo med
metodo enake širine in enake zastopanosti, smo nastavili na vrednost ‘equalwidth’.
Argument nbins, s katerim nastavljamo število intervalov, smo nastavili na privzeto
vrednost sqrt(NROW(X)).
2. Metoda enake zastopanosti intervalov (EF). Za diskretizacijo smo uporabili funkcijo
discretize() iz R-jevega paketa infotheo. Argument disc, s katerim izbiramo med
metodo enake širine in enake zastopanosti, smo nastavili na vrednost ‘equalfreq’.
Argument nbins, s katerim nastavljamo število intervalov, smo nastavili na privzeto
vrednost sqrt(NROW(X)).
3. Metoda ChiMerge. Za diskretizacijo smo uporabili funkcijo chiM() iz R-jevega paketa discretization. Vrednost argumenta alpha, s katerim nastavljamo nivo statistiˇcne
znaˇcilnosti χ2 -statistike, smo nastavili na privzeto vrednost 0.5.
129
7 Metoda
Tabela 7.5: Kombinacije metod uvršˇcanja, metod diskretizacije, metod za izbiro spremenljivk in števila vkljuˇcenih spremenljivk
Metoda
Diskretizacija
Izbira spremenljivk
Št. spremenljivk
Skupaj
5
5
5
1
1
1
5
5
5
25
25
25
kNN
NB
C4.5
Skupaj
75
4. Metoda 1R. Za diskretizacijo smo uporabili funkcijo disc.1r() iz R-jevega paketa
dprep. Funkcijo smo prilagodili, tako da je vraˇcala tudi meje razredov diskretizacije.
5. Metoda MDLP. Za diskretizacijo smo uporabili funkcijo mdlp() iz R-jevega paketa
discretization.
Metode izbire spremenljivk
Eksperimentalni naˇcrt je vkljuˇceval izbiro spremenljivk s pomoˇcjo klasiˇcnega t-testa. Za
izbiro spremenljivk smo uporabili funkcijo GeneSelection() iz paketa CMA (Slawski in
sod., 2008). Vrednost argumenta method smo nastavili na ‘t.test’. Za vsako spremenljivko smo izraˇcunali vrednost testne statistike, rezultate uredili po velikosti ter izbrali
prvih p spremenljivk. Parameter p je lahko zasedal vrednosti 20, 50, 100, 200 in 500.
Teoretiˇcno ozadje pristopov za izbiro spremenljivk je predstavljeno v poglavju 3.
V tabeli 7.5 so povzete kombinacije med razliˇcnimi metodami uvršˇcanja, metodami
diskretizacije, metodami izbire spremenljivk in razliˇcnega števila spremenljivk. Skupno
število modelov uˇcenja znaša 75.
Prečno preverjanje
Za oceno natanˇcnosti uvršˇcanja smo uporabili shemo preˇcnega preverjanja s pregibanjem.
Za pripravo pregibov smo uporabili funkcijo GenerateLearningsets() iz paketa CMA
(Slawski in sod., 2008). Argument method, s katerim izbiramo naˇcin preˇcnega preverjanja, smo nastavili na vrednost ‘CV’. Z argumentom fold nastavimo željeno število
pregibov; v našem primeru smo uporabili 10 pregibov. Ponovljivost rezultatov smo zagotovili z uporabo funkcije set.seed(). Teoretiˇcno ozadje postopka je predstavljeno v
razdelku 5.3.4.
Natanˇcnost uvršˇcanja smo raˇcunali kot toˇcnost uvršˇcanja (Acc) oz. jo izrazili s plošˇcino
pod ROC-krivuljo (AUC). Plošˇcino pod ROC-krivuljo smo raˇcunali s pomoˇcjo funkcije
auc() iz R-jevega paketa pROC. Poleg tega smo za vsako metodo diskretizacije izraˇcunali
robustnost (Rob), stabilnost (Sta) in preprostost (Pre). Teoretiˇcno ozadje uporabljenih mer
natanˇcnosti uvršˇcanja je podrobneje predstavljeno v razdelku 5.3.3 ter v razdelku 6.5.1.
130
7.4 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje
7.4.2 Postopek
Na osnovi podatkovne množice z n primeri in p spremenljivkami smo najprej pripravili
uˇcne množice L z n L primeri in pripadajoˇce testne množice T z n T primeri. Delitev
primerov v uˇcne in testne množice smo pripravili na osnovi sheme preˇcnega preverjanja
z 10 pregibi. Matriko z uˇcnimi primeri smo oznaˇcili z X L , matriko testnih primerov pa
z X T . Z izbrano metodo izbire spremenljivk smo nato nad uˇcno množico X L doloˇcili
podmnožico spremenljivk p∗ ter konstruirali reducirani matriki X∗L in X∗T .
Vrednosti spremenljivk v reducirani matriki X∗L smo nato z izbrano metodo diskretizirali.
Meje razredov, ki smo jih pri tem doloˇcili, smo uporabili za diskretizacijo matrike X∗T .
Diskretizirane vrednosti spremenljivk smo shranili v matriki D L oz. D T . Nad diskretizirano matriko D L smo nato z izbrano metodo uvršˇcanja prilagodili uˇcni model. Uˇcni
model in diskretizirano matriko D T smo uporabili za uvršˇcanje primerov v testni množici.
Opisane korake smo ponovili za vsakega od pregibov in izraˇcunali povpreˇcno toˇcnost
uvršˇcanja (Acc), obˇcutljivost (Sens), specifiˇcnost (Spec) in plošˇcino pod ROC-krivuljo
(AUC). Zgornje korake smo ponovili za vsako od metod uvršˇcanja, metod diskretizacije,
metod izbire spremenljivk in razliˇcno število spremenljivk.
Postopek smo ponovili nad vsemi podatkovji ter izraˇcunali povpreˇcne vrednosti mer
natanˇcnosti uvršˇcanja. Postopek je zgošˇceno povzet v algoritmu 7.
Uˇcinek metode diskretizacije, metode uvršˇcanja in števila spremenljivk na kakovost
uvršˇcanja smo ovrednotili s pomoˇcjo analize kovariance. Razlike med metodami smo
prikazali s CD-diagrami (Demšar, 2006).
131
7 Metoda
Algoritem 7: Postopek ocenjevanja natanˇcnosti diskretizacije
1. Z uporabo preˇcnega preverjanja s pregibanjem pripravi ustrezno število uˇcnih
množic L z n L primeri in testnih množic T z n T primeri, tako da velja n L + n T = n.
Za vsak pregib z X L oznaˇci pripadajoˇco matriko uˇcnih primerov razsežnosti n L × p,
z X T pa matriko testnih primerov razsežnosti n T × p.
2. Doloˇci podmnožico spremenljivk p∗ ter konstruiraj matriko X∗L razsežnosti n L × p∗
in matriko X∗T razsežnosti n T × p∗ .
3. Diskretiziraj podatke v matriki X∗L ter jih shrani v matriko D L . Doloˇcene meje
razredov uporabi za diskretizacijo podatkov X∗T , ki jih shraniš v matriko D T .
4. Na diskretizirani uˇcni množici D L prilagodi uˇcni model. Zgrajeni uˇcni model
uporabi za uvršˇcanje primerov v testni množici D T .
5. Z izbrano mero natanˇcnosti uvršˇcanja predstavi uˇcinkovitost uporabljene metode
uvršˇcanja.
6. Zgornje korake ponovi za vsak pregib in izraˇcunaj povpreˇcne mere natanˇcnosti
uvršˇcanja.
7. Zgornje korake ponovi za vsako metodo uvršˇcanja, metodo diskretizacije, metodo
izbire spremenljivk in razliˇcno število spremenljivk.
132
8 Rezultati
8.1 Vpliv metode uvrščanja, izbire spremenljivk in parametrov
učenja na uvrščanje
8.1.1 Realni podatki
Pregled mer natančnosti uvrščanja
V tabelah 8.5–8.8 so zbrani rezultati uvršˇcanja za realna podatkovja. Za vsako metodo
uvršˇcanja podajamo njen dosežek za (i) izbrano kombinacijo metode izbire spremenljivk
ter (ii) morebitne parametre uˇcenja. Loˇceno prikazujemo rezultate za napako uvršˇcanja
(tabela 8.5), obˇcutljivost (tabela 8.6), specifiˇcnost (tabela 8.7) in plošˇcino pod ROC-krivuljo
(tabela 8.8).
Glede na napako uvršˇcanja dosega najboljši rezultat metoda PLR (MER = 0.12) v kombinaciji z vsemi vkljuˇcenimi spremenljivkami. Napaka uvršˇcanja je najveˇcja pri metodi
NNET (MER = 0.37) v kombinaciji s 500 izbranimi spremenljivkami, ki smo jih izbrali
po metodi LIMMA. Pri obˇcutljivosti dosega najboljši rezultat metoda PLR (Sens = 0.86)
v kombinaciji z vsemi vkljuˇcenimi spremenljivkami. Obˇcutljivost je najnižja pri metodi
NNET v kombinaciji z 200 spremenljivkami, ki smo jih izbrali s pomoˇcjo Welchevega
t-testa. Najveˇcjo specifiˇcnost dosega metoda PLS (Spec = 0.87) z vsemi vkljuˇcenimi spremenljivkami. Specifiˇcnost je najnižja pri metodi NNET (Spec = 0.49) s 500 vkljuˇcenimi
spremenljivkami, ki smo jih izbrali z Welchevim t-testom. Plošˇcina pod ROC-krivuljo je
najveˇcja pri metodi PLS (AUC = 0.91) z vsemi vkljuˇcenimi spremenljivkami, najmanjša
pa pri metodi NNET (AUC = 0.51) s 500 vkljuˇcenimi spremenljivkami, ki smo jih izloˇcili
s pristopom LIMMA.
Ovrednotenje učinka metode uvrščanja in izbire spremenljivk na uvrščanje
Vpliv metode uvršˇcanja in metode izbire spremenljivk smo preverili s pomoˇcjo analize
kovariance. V analizo smo kot kovariato vkljuˇcili število prediktorskih spremenljivk.
Predpostavke o homogenosti varianc niso bile kršene. Loˇceno prikazujemo povzetke
analize kovariance za napako uvršˇcanja (tabela 8.1), obˇcutljivost (tabela 8.2), specifiˇcnost
(tabela 8.3) in plošˇcino pod ROC-krivuljo (tabela 8.4). Metode uvršˇcanja se ob kontroliranem vplivu številu vkljuˇcenih spremenljivk med seboj statistiˇcno znaˇcilno razlikujejo
pri vseh štirih merah. Metoda izbire spremenljivk z merami natanˇcnosti ni statistiˇcno
znaˇcilno povezana. Kovariata je statistiˇcno znaˇcilno povezana z vsemi štirimi merami
natanˇcnosti uvršˇcanja.
133
8 Rezultati
Tabela 8.1: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire
spremenljivk in števila spremenljivk na napako uvršˇcanja nad realnimi podatkovji
Vir razpršenosti
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
SS
df
MS
F
Pr
0.36
<0.01
0.01
0.04
8
2
1
53
0.05
<0.01
0.01
<0.01
61.47
0.15
18.45
<0.001
0.864
<0.001
Tabela 8.2: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire
spremenljivk in števila spremenljivk na obˇcutljivost nad realnimi podatkovji
Vir razpršenosti
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
SS
df
MS
F
Pr
0.40
<0.01
0.03
0.09
8
2
1
53
0.05
<0.01
0.03
<0.01
30.00
0.10
16.49
<0.001
0.909
<0.001
Tabela 8.3: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire
spremenljivk in števila spremenljivk na specifiˇcnost nad realnimi podatkovji
Vir razpršenosti
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
SS
df
MS
F
Pr
0.87
<0.01
0.02
0.05
8
2
1
53
0.11
<0.01
0.02
<0.01
113.07
0.10
22.27
<0.001
0.907
<0.001
Tabela 8.4: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na plošˇcino pod ROC-krivuljo nad realnimi
podatkovji
Vir razpršenosti
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
134
SS
df
MS
F
Pr
0.88
<0.01
0.03
0.05
8
2
1
53
0.11
<0.01
0.03
<0.01
126.69
0.19
30.15
<0.001
0.828
<0.001
Tabela 8.5: Povpreˇcna napaka uvršˇcanja pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja,
metode izbire spremenljivk in število spremenljivk.
p
10
20
50
100
200
500
1000+
t-test
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
–
–
–
0.18 ± 0.16
0.18 ± 0.16
–
–
–
–
–
0.18 ± 0.16
0.19 ± 0.17
–
–
–
–
–
0.18 ± 0.16
0.18
0.17
0.16
0.19
0.19
0.17
0.30
0.18
0.17
0.16
0.19
0.20
0.17
0.30
0.18
0.17
0.16
0.19
± 0.17
± 0.15
± 0.16
± 0.15
± 0.15
± 0.16
± 0.13
0.17 ± 0.16
0.17 ± 0.16
0.16 ± 0.15
–
–
0.17 ± 0.16
0.31 ± 0.12
0.17 ± 0.17
0.16 ± 0.16
0.16 ± 0.16
–
–
0.17 ± 0.15
0.33 ± 0.14
0.16 ± 0.16
0.16 ± 0.16
0.16 ± 0.16
–
–
0.17 ± 0.15
0.35 ± 0.12
0.15 ± 0.16
0.14 ± 0.16
0.15 ± 0.17
–
–
0.15 ± 0.15
0.35 ± 0.11
–
–
–
–
–
–
–
± 0.17
± 0.15
± 0.16
± 0.16
± 0.16
± 0.15
± 0.14
0.17 ± 0.16
0.17 ± 0.16
0.16 ± 0.15
–
–
0.16 ± 0.15
0.32 ± 0.13
0.17 ± 0.17
0.16 ± 0.16
0.16 ± 0.16
–
–
0.16 ± 0.15
0.34 ± 0.12
0.16 ± 0.16
0.15 ± 0.16
0.16 ± 0.16
–
–
0.17 ± 0.15
0.35 ± 0.12
0.15 ± 0.16
0.14 ± 0.16
0.15 ± 0.17
–
–
0.16 ± 0.15
0.36 ± 0.12
–
–
–
–
–
–
–
± 0.17
± 0.15
± 0.16
± 0.15
0.17 ± 0.16
0.17 ± 0.16
0.16 ± 0.15
–
0.17 ± 0.17
0.16 ± 0.16
0.16 ± 0.16
–
0.16 ± 0.16
0.15 ± 0.16
0.16 ± 0.16
–
0.15 ± 0.16
0.14 ± 0.16
0.15 ± 0.17
–
–
–
–
–
Welchev t-test
LIMMA
135
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Metoda
p
Metoda
10
20
50
100
200
500
1000+
FDA
DLDA
NNET
0.18 ± 0.17
–
–
0.19 ± 0.15
0.17 ± 0.16
0.30 ± 0.13
–
0.17 ± 0.16
0.32 ± 0.13
–
0.17 ± 0.16
0.35 ± 0.11
–
0.17 ± 0.16
0.37 ± 0.11
–
0.16 ± 0.15
0.37 ± 0.11
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
RF√ p
RF2√ p
RF3√ p
RF4√ p
SVM
PAM
PLR
–
–
–
–
–
–
–
Vse spremenljivke
0.14
0.14
0.14
0.14
0.13
0.16
0.12
± 0.15
± 0.14
± 0.14
± 0.14
± 0.17
± 0.15
± 0.14
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8 Rezultati
136
Tabela 8.5: (nadalj.) Povpreˇcna napaka uvršˇcanja pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode
uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
Tabela 8.6: Povpreˇcna obˇcutljivost pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja,
metode izbire spremenljivk in število spremenljivk.
p
10
20
50
100
200
500
1000+
t-test
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
–
–
–
0.79 ± 0.21
0.80 ± 0.19
–
–
–
–
–
0.80 ± 0.20
0.80 ± 0.20
–
–
–
–
–
0.78 ± 0.23
0.79
0.78
0.78
0.79
0.80
0.80
0.65
0.79
0.78
0.78
0.80
0.80
0.82
0.65
0.79
0.78
0.78
0.78
± 0.23
± 0.23
± 0.27
± 0.18
± 0.17
± 0.21
± 0.34
0.80 ± 0.22
0.79 ± 0.25
0.79 ± 0.25
–
–
0.82 ± 0.20
0.65 ± 0.34
0.80 ± 0.22
0.79 ± 0.25
0.78 ± 0.26
–
–
0.81 ± 0.21
0.63 ± 0.38
0.81 ± 0.23
0.79 ± 0.26
0.78 ± 0.27
–
–
0.81 ± 0.21
0.62 ± 0.36
0.82 ± 0.23
0.81 ± 0.26
0.80 ± 0.27
–
–
0.82 ± 0.21
0.63 ± 0.39
–
–
–
–
–
–
–
± 0.23
± 0.23
± 0.27
± 0.20
± 0.19
± 0.19
± 0.36
0.80 ± 0.22
0.79 ± 0.25
0.79 ± 0.25
–
–
0.82 ± 0.19
0.64 ± 0.37
0.80 ± 0.22
0.79 ± 0.25
0.78 ± 0.26
–
–
0.82 ± 0.20
0.61 ± 0.38
0.81 ± 0.23
0.79 ± 0.26
0.78 ± 0.27
–
–
0.82 ± 0.20
0.60 ± 0.36
0.82 ± 0.23
0.81 ± 0.26
0.80 ± 0.27
–
–
0.83 ± 0.20
0.64 ± 0.38
–
–
–
–
–
–
–
± 0.23
± 0.23
± 0.27
± 0.21
0.80 ± 0.22
0.79 ± 0.25
0.79 ± 0.25
–
0.80 ± 0.22
0.79 ± 0.25
0.78 ± 0.26
–
0.81 ± 0.23
0.79 ± 0.26
0.78 ± 0.27
–
0.82 ± 0.23
0.81 ± 0.26
0.80 ± 0.27
–
–
–
–
–
Welchev t-test
LIMMA
137
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Metoda
p
Metoda
10
20
50
100
200
500
1000+
FDA
DLDA
NNET
0.79 ± 0.22
–
–
0.79 ± 0.20
0.81 ± 0.20
0.67 ± 0.36
–
0.82 ± 0.20
0.65 ± 0.34
–
0.81 ± 0.21
0.63 ± 0.37
–
0.81 ± 0.21
0.59 ± 0.40
–
0.82 ± 0.21
0.60 ± 0.41
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
RF1
RF2
RF3
RF4
SVM
PAM
PLR
–
–
–
–
–
–
–
Vse spremenljivke
0.81
0.82
0.81
0.81
0.83
0.80
0.86
± 0.28
± 0.27
± 0.27
± 0.27
± 0.28
± 0.25
± 0.20
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8 Rezultati
138
Tabela 8.6: (nadalj.) Povpreˇcna obˇcutljivost pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode
uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
Tabela 8.7: Povpreˇcna specifiˇcnost pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja,
metode izbire spremenljivk in število spremenljivk.
p
10
20
50
100
200
500
1000+
t-test
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
–
–
–
0.81 ± 0.19
0.81 ± 0.19
–
–
–
–
–
0.82 ± 0.19
0.81 ± 0.18
–
–
–
–
–
0.82 ± 0.18
0.82
0.83
0.85
0.79
0.79
0.82
0.63
0.82
0.83
0.85
0.78
0.77
0.82
0.62
0.82
0.83
0.85
0.80
± 0.18
± 0.17
± 0.20
± 0.18
± 0.18
± 0.19
± 0.34
0.82 ± 0.20
0.84 ± 0.19
0.84 ± 0.20
–
–
0.82 ± 0.20
0.60 ± 0.32
0.83 ± 0.21
0.84 ± 0.21
0.84 ± 0.22
–
–
0.82 ± 0.21
0.57 ± 0.37
0.84 ± 0.20
0.85 ± 0.19
0.85 ± 0.20
–
–
0.82 ± 0.21
0.53 ± 0.37
0.85 ± 0.20
0.86 ± 0.20
0.85 ± 0.22
–
–
0.83 ± 0.20
0.50 ± 0.40
–
–
–
–
–
–
–
± 0.18
± 0.17
± 0.20
± 0.19
± 0.19
± 0.19
± 0.36
0.82 ± 0.20
0.84 ± 0.19
0.84 ± 0.20
–
–
0.83 ± 0.20
0.58 ± 0.37
0.83 ± 0.21
0.84 ± 0.21
0.84 ± 0.22
–
–
0.83 ± 0.20
0.57 ± 0.35
0.84 ± 0.20
0.85 ± 0.19
0.85 ± 0.20
–
–
0.83 ± 0.20
0.56 ± 0.37
0.85 ± 0.20
0.86 ± 0.20
0.85 ± 0.22
–
–
0.83 ± 0.20
0.49 ± 0.39
–
–
–
–
–
–
–
± 0.18
± 0.17
± 0.20
± 0.17
0.82 ± 0.20
0.84 ± 0.19
0.84 ± 0.20
–
0.83 ± 0.21
0.84 ± 0.21
0.84 ± 0.22
–
0.84 ± 0.20
0.85 ± 0.19
0.85 ± 0.20
–
0.85 ± 0.20
0.86 ± 0.20
0.85 ± 0.22
–
–
–
–
–
Welchev t-test
LIMMA
139
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Metoda
p
Metoda
10
20
50
100
200
500
1000+
FDA
DLDA
NNET
0.82 ± 0.18
–
–
0.80 ± 0.17
0.82 ± 0.20
0.61 ± 0.33
–
0.82 ± 0.21
0.58 ± 0.34
–
0.82 ± 0.21
0.52 ± 0.38
–
0.82 ± 0.21
0.52 ± 0.40
–
0.83 ± 0.20
0.49 ± 0.42
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
RF1
RF2
RF3
RF4
SVM
PAM
PLR
–
–
–
–
–
–
–
Vse spremenljivke
0.85
0.85
0.84
0.85
0.86
0.83
0.87
± 0.25
± 0.24
± 0.25
± 0.24
± 0.25
± 0.23
± 0.21
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8 Rezultati
140
Tabela 8.7: (nadalj.) Povpreˇcna specifiˇcnost pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode
uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
Tabela 8.8: Povpreˇcna plošˇcina pod ROC-krivuljo pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode
uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
p
10
20
50
100
200
500
1000+
t-test
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
–
–
–
0.85 ± 0.17
0.85 ± 0.17
–
–
–
–
–
0.85 ± 0.18
0.85 ± 0.18
–
–
–
–
–
0.84 ± 0.18
0.75
0.81
0.85
0.82
0.84
0.85
0.62
0.75
0.81
0.85
0.82
0.84
0.85
0.58
0.75
0.81
0.85
0.82
± 0.23
± 0.18
± 0.18
± 0.18
± 0.17
± 0.18
± 0.17
0.75 ± 0.24
0.82 ± 0.20
0.84 ± 0.18
–
–
0.84 ± 0.17
0.60 ± 0.17
0.76 ± 0.23
0.82 ± 0.19
0.84 ± 0.19
–
–
0.84 ± 0.17
0.58 ± 0.16
0.77 ± 0.22
0.82 ± 0.20
0.85 ± 0.18
–
–
0.83 ± 0.18
0.55 ± 0.13
0.78 ± 0.23
0.84 ± 0.19
0.85 ± 0.19
–
–
0.82 ± 0.20
0.54 ± 0.11
–
–
–
–
–
–
–
± 0.23
± 0.18
± 0.18
± 0.18
± 0.16
± 0.18
± 0.18
0.75 ± 0.24
0.82 ± 0.20
0.84 ± 0.18
–
–
0.84 ± 0.17
0.58 ± 0.18
0.76 ± 0.23
0.82 ± 0.19
0.84 ± 0.19
–
–
0.83 ± 0.18
0.57 ± 0.14
0.77 ± 0.22
0.82 ± 0.20
0.85 ± 0.18
–
–
0.83 ± 0.18
0.55 ± 0.13
0.78 ± 0.23
0.85 ± 0.19
0.85 ± 0.19
–
–
0.82 ± 0.20
0.54 ± 0.12
–
–
–
–
–
–
–
± 0.23
± 0.18
± 0.18
± 0.19
0.75 ± 0.24
0.82 ± 0.20
0.84 ± 0.18
–
0.76 ± 0.23
0.82 ± 0.19
0.84 ± 0.19
–
0.77 ± 0.22
0.82 ± 0.20
0.85 ± 0.18
–
0.78 ± 0.23
0.84 ± 0.19
0.85 ± 0.19
–
–
–
–
–
Welchev t-test
LIMMA
141
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Metoda
p
Metoda
10
20
50
100
200
500
1000+
FDA
DLDA
NNET
0.84 ± 0.18
–
–
0.83 ± 0.18
0.85 ± 0.18
0.63 ± 0.17
–
0.84 ± 0.17
0.59 ± 0.15
–
0.84 ± 0.18
0.54 ± 0.12
–
0.83 ± 0.19
0.52 ± 0.13
–
0.82 ± 0.20
0.51 ± 0.12
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
RF1
RF2
RF3
RF4
SVM
PAM
PLR
–
–
–
–
–
–
–
Vse spremenljivke
0.89
0.89
0.89
0.89
0.89
0.86
0.91
± 0.16
± 0.15
± 0.15
± 0.15
± 0.18
± 0.19
± 0.14
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8 Rezultati
142
Tabela 8.8: (nadalj.) Povpreˇcna plošˇcina pod ROC-krivuljo pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne
metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Razlike med metodami uvršˇcanja smo razˇclenili s pomoˇcjo naknadnih primerjav, za kar
smo uporabili Tukeyjev test HSD. Povzetke naknadnih primerjav prikazujemo loˇceno
za napako uvršˇcanja (tabela 8.9), obˇcutljivost (tabela 8.10), specifiˇcnost (tabela 8.11)
in plošˇcino pod ROC-krivuljo (tabela 8.12). Vzorec naknadnih primerjav kaže, da gre
statistiˇcna znaˇcilnost razlik v metodah uvršˇcanja predvsem na raˇcun metode NNET, ki
se v vseh primerjavah odreže slabše od ostalih metod. Vse ostale primerjave ne kažejo
znaˇcilnega vzorca razlik.
Na slikah 8.1–8.4 so prikazani CD-diagrami za napako uvršˇcanja, obˇcutljivost, specifiˇcnost
in plošˇcino pod ROC-krivuljo. Prikazane vrednosti so povpreˇcene preko razliˇcnih metod
izbire spremenljivk in razliˇcnega števila vkljuˇcenih spremenljivk. V povpreˇcju se pri
uvršˇcanju najbolje odreže metoda PLR, najslabše pa metoda NNET.
8.1.2 Sintetični podatki
Pregled mer natančnosti uvrščanja
V tabelah 8.13–8.16 so zbrani rezultati uvršˇcanja za sintetiˇcna podatkovja. Za vsako
metodo uvršˇcanja podajamo njen dosežek za (i) izbrano kombinacijo metode izbire
spremenljivk in (ii) morebitne parametre uˇcenja. Loˇceno prikazujemo rezultate za napako
uvršˇcanja (tabela 8.13), obˇcutljivost (tabela 8.14), specifiˇcnost (tabela 8.15) in plošˇcino pod
ROC-krivuljo (tabela 8.16).
Glede na napako uvršˇcanja dosega najboljši rezultat metoda SVM (MER = 0.41) v kombinaciji z vsemi vkljuˇcenimi spremenljivkami. Napaka uvršˇcanja je najveˇcja pri metodi
DLDA (MER = 0.51) v kombinaciji s p = 100 izbranimi spremenljivkami, ki smo jih
izbrali s pomoˇcjo Welchevega t-testa. Pri obˇcutljivosti dosega najboljši rezultat metoda
NNET (Sens = 0.54) v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami. Obˇcutljivost
je najnižja pri metodi PAM v kombinaciji z vsemi vkljuˇcenimi spremenljivkami. Najvecˇ jo specifiˇcnost dosega metoda SVM (Spec = 0.55) v kombinaciji z vsemi vkljuˇcenimi
spremenljivkami. Specifiˇcnost je najnižja pri metodi NNET (Spec = 0.44) v kombinaciji s
p = 500 vkljuˇcenimi spremenljivkami, ki smo jih izbrali z Welchevim t-testom. Plošˇcina
pod ROC-krivuljo je najveˇcja pri metodi SVM (AUC = 0.51) v kombinaciji z vsemi vkljucˇ enimi spremenljivkami, najmanjša pa pri metodi kNN1 (AUC = 0.36) v kombinaciji s
p = 500 vkljuˇcenimi spremenljivkami, ki smo jih izloˇcili s pomoˇcjo t-testa, Welchevega
t-testa oz. s pristopom LIMMA. Povpreˇcni dosežki so na vseh štirih merah uˇcinkovitosti
uvršˇcanja manjši kot pri realnih podatkovjih.
Ovrednotenje učinka metode uvrščanja in izbire spremenljivk na uvrščanje
Vpliv metode uvršˇcanja in metode izbire spremenljivk smo preverili s pomoˇcjo analize
kovariance. V analizo smo kot kovariato vkljuˇcili število prediktorskih spremenljivk.
Predpostavke o homogenosti varianc niso bile kršene. Loˇceno prikazujemo povzetke
analize kovariance za napako uvršˇcanja (tabela 8.17), obˇcutljivost (tabela 8.18), specifiˇcnost (tabela 8.19) in plošˇcino pod ROC-krivuljo (tabela 8.20). Metode uvršˇcanja se
ob kontroliranem vplivu števila vkljuˇcenih spremenljivk med seboj statistiˇcno znaˇcilno
143
8 Rezultati
Tabela 8.9: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za napako uvršˇcanja nad realnimi podatkovji
Primerjava
FDA–DLDA
kNN–DLDA
LDA–DLDA
NNET–DLDA
PAM–DLDA
PLR–DLDA
RF–DLDA
SVM–DLDA
kNN–FDA
LDA–FDA
NNET–FDA
PAM–FDA
PLR–FDA
RF–FDA
SVM–FDA
LDA–kNN
NNET–kNN
PAM–kNN
PLR–kNN
RF–kNN
SVM–kNN
NNET–LDA
PAM–LDA
PLR–LDA
RF–LDA
SVM–LDA
PAM–NNET
PLR–NNET
RF–NNET
SVM–NNET
PLR–PAM
RF–PAM
SVM–PAM
RF–PLR
SVM–PLR
SVM–RF
LIMMA–Vse
t-test–Vse
Welch–Vse
t-test–LIMMA
D
LL
UL
Pr
0.03
0.00
0.02
0.17
−0.01
−0.06
−0.03
−0.05
−0.03
0.00
0.14
−0.04
−0.09
−0.06
−0.07
0.02
0.17
−0.01
−0.06
−0.03
−0.05
0.15
−0.04
−0.08
−0.06
−0.07
−0.18
−0.23
−0.20
−0.22
−0.05
−0.02
−0.03
0.03
0.01
−0.01
−0.02
−0.04
−0.03
0.13
−0.09
−0.14
−0.11
−0.12
−0.08
−0.06
0.10
−0.12
−0.17
−0.14
−0.15
−0.03
0.13
−0.09
−0.13
−0.11
−0.12
0.10
−0.12
−0.16
−0.14
−0.15
−0.26
−0.31
−0.28
−0.29
−0.15
−0.12
−0.13
−0.07
−0.09
−0.11
0.07
0.04
0.07
0.21
0.06
0.02
0.04
0.03
0.02
0.05
0.19
0.04
0.00
0.02
0.01
0.07
0.21
0.06
0.02
0.04
0.03
0.20
0.05
0.00
0.03
0.01
−0.11
−0.15
−0.13
−0.14
0.05
0.08
0.07
0.13
0.11
0.09
0.745
1.000
0.873
<0.001
1.000
0.230
0.880
0.552
0.680
1.000
<0.001
0.846
0.036
0.346
0.126
0.824
<0.001
1.000
0.260
0.906
0.597
<0.001
0.907
0.052
0.433
0.173
<0.001
<0.001
<0.001
<0.001
0.845
0.999
0.973
0.995
1.000
1.000
0.04
0.03
0.04
0.02
1.000
0.997
0.999
0.982
0.00
0.00
0.00
0.00
−0.03
−0.04
−0.03
−0.03
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
144
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Tabela 8.9: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire
spremenljivk za napako uvršˇcanja nad realnimi podatkovji
Primerjava
D
Welch–LIMMA
Welch–t-test
0.00
0.00
LL
−0.03
−0.02
UL
Pr
0.03
0.03
1.000
0.972
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
Tabela 8.10: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za obˇcutljivost nad realnimi podatkovji
Primerjava
FDA–DLDA
kNN–DLDA
LDA–DLDA
NNET–DLDA
PAM–DLDA
PLR–DLDA
RF–DLDA
SVM–DLDA
kNN–FDA
LDA–FDA
NNET–FDA
PAM–FDA
PLR–FDA
RF–FDA
SVM–FDA
LDA–kNN
NNET–kNN
PAM–kNN
PLR–kNN
RF–kNN
SVM–kNN
NNET–LDA
PAM–LDA
PLR–LDA
RF–LDA
SVM–LDA
PAM–NNET
PLR–NNET
RF–NNET
SVM–NNET
D
LL
UL
Pr
−0.02
−0.02
−0.03
−0.19
0.00
0.06
0.01
0.03
0.00
−0.01
−0.17
0.02
0.08
0.03
0.05
−0.01
−0.16
0.02
0.08
0.03
0.05
−0.16
0.03
0.09
0.04
0.06
0.19
0.25
0.20
0.21
−0.09
−0.08
−0.10
−0.24
−0.11
−0.05
−0.10
−0.08
−0.07
−0.09
−0.24
−0.10
−0.04
−0.09
−0.07
−0.08
−0.22
−0.09
−0.03
−0.08
−0.06
−0.23
−0.09
−0.03
−0.08
−0.07
0.08
0.13
0.08
0.10
0.05
0.03
0.05
−0.13
0.12
0.17
0.12
0.14
0.07
0.08
−0.09
0.14
0.20
0.15
0.17
0.07
−0.11
0.14
0.19
0.14
0.16
−0.09
0.15
0.21
0.16
0.18
0.30
0.36
0.31
0.33
0.993
0.949
0.950
<0.001
1.000
0.718
1.000
0.996
1.000
1.000
<0.001
1.000
0.466
0.996
0.938
1.000
<0.001
0.999
0.342
0.992
0.895
<0.001
0.997
0.347
0.985
0.869
<0.001
<0.001
<0.001
<0.001
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
145
8 Rezultati
Tabela 8.10: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire
spremenljivk za obˇcutljivost nad realnimi podatkovji
Primerjava
D
LL
PLR–PAM
RF–PAM
SVM–PAM
RF–PLR
SVM–PLR
SVM–RF
0.06
0.01
0.03
−0.05
−0.03
0.02
−0.09
−0.14
−0.12
−0.20
−0.18
−0.13
LIMMA–Vse
t-test–Vse
Welch–Vse
t-test–LIMMA
Welch–LIMMA
Welch–t-test
0.00
0.00
0.00
0.01
0.01
0.00
−0.06
−0.05
−0.05
−0.04
−0.03
−0.04
UL
Pr
0.21
0.16
0.17
0.10
0.12
0.17
0.939
1.000
1.000
0.974
0.999
1.000
0.05
0.05
0.05
0.04
0.05
0.04
0.998
1.000
1.000
0.990
0.985
1.000
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
Tabela 8.11: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za specifiˇcnost nad realnimi podatkovji
Primerjava
FDA–DLDA
kNN–DLDA
LDA–DLDA
NNET–DLDA
PAM–DLDA
PLR–DLDA
RF–DLDA
SVM–DLDA
kNN–FDA
LDA–FDA
NNET–FDA
PAM–FDA
PLR–FDA
RF–FDA
SVM–FDA
LDA–kNN
NNET–kNN
PAM–kNN
PLR–kNN
RF–kNN
D
LL
UL
Pr
−0.03
0.01
−0.02
−0.27
0.01
0.05
0.03
0.05
0.04
0.00
−0.24
0.04
0.08
0.06
0.07
−0.04
−0.28
0.00
0.04
0.01
−0.08
−0.03
−0.08
−0.31
−0.08
−0.04
−0.06
−0.04
−0.02
−0.07
−0.30
−0.06
−0.02
−0.04
−0.02
−0.10
−0.32
−0.09
−0.05
−0.08
0.03
0.06
0.03
−0.22
0.10
0.14
0.12
0.14
0.10
0.07
−0.18
0.13
0.18
0.15
0.17
0.02
−0.24
0.09
0.13
0.10
0.855
0.978
0.922
<0.001
1.000
0.620
0.981
0.729
0.368
1.000
<0.001
0.938
0.199
0.663
0.269
0.475
<0.001
1.000
0.899
1.000
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
146
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Tabela 8.11: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire
spremenljivk za specifiˇcnost nad realnimi podatkovji
Primerjava
SVM–kNN
NNET–LDA
PAM–LDA
PLR–LDA
RF–LDA
SVM–LDA
PAM–NNET
PLR–NNET
RF–NNET
SVM–NNET
PLR–PAM
RF–PAM
SVM–PAM
RF–PLR
SVM–PLR
SVM–RF
LIMMA–Vse
t-test–Vse
Welch–Vse
t-test–LIMMA
Welch–LIMMA
Welch–t-test
D
LL
UL
Pr
0.03
−0.24
0.04
0.08
0.05
0.07
0.28
0.32
0.30
0.31
0.04
0.02
0.04
−0.02
−0.01
0.02
−0.06
−0.30
−0.06
−0.02
−0.05
−0.03
0.19
0.23
0.21
0.23
−0.08
−0.10
−0.08
−0.14
−0.12
−0.10
0.12
−0.19
0.13
0.17
0.15
0.17
0.37
0.41
0.38
0.40
0.16
0.14
0.16
0.09
0.11
0.14
0.950
<0.001
0.961
0.243
0.728
0.321
<0.001
<0.001
<0.001
<0.001
0.969
1.000
0.985
0.999
1.000
1.000
0.04
0.04
0.04
0.04
0.04
0.03
0.998
0.999
1.000
0.984
0.993
1.000
0.00
0.00
0.00
0.00
0.00
0.00
−0.04
−0.04
−0.04
−0.03
−0.03
−0.03
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
Tabela 8.12: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za plošˇcino pod ROC-krivuljo nad realnimi podatkovji
Primerjava
FDA–DLDA
kNN–DLDA
LDA–DLDA
NNET–DLDA
PAM–DLDA
PLR–DLDA
RF–DLDA
SVM–DLDA
kNN–FDA
LDA–FDA
D
LL
UL
Pr
0.01
−0.03
0.00
−0.27
0.04
0.08
0.06
0.07
−0.03
−0.01
−0.05
−0.07
−0.06
−0.31
−0.05
−0.01
−0.03
−0.02
−0.09
−0.08
0.06
0.02
0.06
−0.22
0.13
0.17
0.15
0.16
0.03
0.06
1.000
0.643
1.000
<0.001
0.895
0.089
0.339
0.241
0.724
1.000
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
147
8 Rezultati
Tabela 8.12: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire
spremenljivk za plošˇcino pod ROC-krivuljo nad realnimi podatkovji
Primerjava
NNET–FDA
PAM–FDA
PLR–FDA
RF–FDA
SVM–FDA
LDA–kNN
NNET–kNN
PAM–kNN
PLR–kNN
RF–kNN
SVM–kNN
NNET–LDA
PAM–LDA
PLR–LDA
RF–LDA
SVM–LDA
PAM–NNET
PLR–NNET
RF–NNET
SVM–NNET
PLR–PAM
RF–PAM
SVM–PAM
RF–PLR
SVM–PLR
SVM–RF
LIMMA–Vse
t-test–Vse
Welch–Vse
t-test–LIMMA
Welch–LIMMA
Welch–t-test
D
LL
UL
Pr
−0.27
0.03
0.08
0.06
0.06
0.02
−0.24
0.06
0.11
0.09
0.10
−0.27
0.04
0.09
0.07
0.07
0.31
0.35
0.33
0.34
0.04
0.03
0.03
−0.02
−0.01
0.01
−0.33
−0.06
−0.02
−0.04
−0.03
−0.03
−0.29
−0.03
0.02
0.00
0.01
−0.32
−0.06
−0.01
−0.03
−0.03
0.22
0.26
0.24
0.25
−0.07
−0.09
−0.09
−0.14
−0.13
−0.11
−0.22
0.13
0.17
0.16
0.16
0.08
−0.20
0.15
0.20
0.18
0.18
−0.21
0.14
0.18
0.16
0.17
0.39
0.44
0.42
0.43
0.16
0.14
0.15
0.10
0.11
0.12
<0.001
0.973
0.223
0.576
0.458
0.929
<0.001
0.362
0.008
0.049
0.029
<0.001
0.911
0.130
0.408
0.305
<0.001
<0.001
<0.001
<0.001
0.951
0.998
0.994
1.000
1.000
1.000
0.04
0.04
0.04
0.04
0.03
0.03
0.999
0.997
1.000
0.963
0.999
0.986
0.00
0.00
0.00
0.01
0.00
0.00
−0.04
−0.04
−0.04
−0.03
−0.03
−0.04
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
148
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
CD
1 2 3 4
5 6
7 8 9
PLR
RF
SVM
PAM
kNN
NNET
FDA
LDA
DLDA
Slika 8.1: Razvrstitev metod uvršˇcanja nad realnimi podatkovji glede na napako uvršˇcanja.
Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila
vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo.
CD
1 2 3 4
PLR
SVM
RF
DLDA
PAM
5 6
7 8 9
NNET
LDA
FDA
kNN
Slika 8.2: Razvrstitev metod uvršˇcanja nad realnimi podatkovji glede na obˇcutljivost.
Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila
vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo.
149
8 Rezultati
CD
1 2 3 4
5 6
7 8 9
RF
SVM
PLR
kNN
PAM
NNET
FDA
LDA
DLDA
Slika 8.3: Razvrstitev metod uvršˇcanja nad realnimi podatkovji glede na specifiˇcnost.
Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila
vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo.
CD
1 2 3 4
PLR
RF
SVM
PAM
FDA
5 6
7 8 9
NNET
kNN
DLDA
LDA
Slika 8.4: Razvrstitev metod uvršˇcanja nad realnimi podatkovji glede na plošˇcino pod
ROC-krivuljo. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo.
150
Tabela 8.13: Povpreˇcna napaka uvršˇcanja pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode
uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
p
10
20
50
100
200
500
1000+
t-test
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
–
–
–
0.45 ± 0.11
0.48 ± 0.10
–
–
–
–
–
0.46 ± 0.11
0.49 ± 0.09
–
–
–
–
–
0.46 ± 0.11
0.46
0.46
0.45
0.46
0.47
0.49
0.42
0.46
0.46
0.45
0.47
0.48
0.50
0.43
0.46
0.46
0.45
0.46
± 0.10
± 0.12
± 0.13
± 0.10
± 0.09
± 0.13
± 0.10
0.46 ± 0.11
0.46 ± 0.12
0.45 ± 0.12
–
–
0.50 ± 0.12
0.42 ± 0.10
0.46 ± 0.11
0.45 ± 0.12
0.44 ± 0.13
–
–
0.51 ± 0.12
0.43 ± 0.11
0.47 ± 0.11
0.45 ± 0.13
0.45 ± 0.13
–
–
0.50 ± 0.12
0.42 ± 0.11
0.47 ± 0.10
0.46 ± 0.11
0.45 ± 0.13
–
–
0.51 ± 0.12
0.42 ± 0.10
–
–
–
–
–
–
–
± 0.10
± 0.12
± 0.13
± 0.09
± 0.07
± 0.12
± 0.11
0.46 ± 0.11
0.46 ± 0.12
0.45 ± 0.12
–
–
0.50 ± 0.12
0.42 ± 0.11
0.46 ± 0.11
0.45 ± 0.12
0.44 ± 0.13
–
–
0.51 ± 0.11
0.43 ± 0.10
0.47 ± 0.11
0.45 ± 0.13
0.45 ± 0.13
–
–
0.51 ± 0.12
0.42 ± 0.10
0.47 ± 0.10
0.46 ± 0.11
0.45 ± 0.13
–
–
0.51 ± 0.12
0.42 ± 0.10
–
–
–
–
–
–
–
± 0.10
± 0.12
± 0.13
± 0.10
0.46 ± 0.11
0.46 ± 0.12
0.45 ± 0.12
–
0.46 ± 0.11
0.45 ± 0.12
0.44 ± 0.13
–
0.47 ± 0.11
0.45 ± 0.13
0.45 ± 0.13
–
0.47 ± 0.10
0.46 ± 0.11
0.45 ± 0.13
–
–
–
–
–
Welchev t-test
LIMMA
151
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Metoda
p
Metoda
10
20
50
100
200
500
1000+
FDA
DLDA
NNET
0.49 ± 0.10
–
–
0.48 ± 0.09
0.49 ± 0.12
0.42 ± 0.09
–
0.50 ± 0.12
0.42 ± 0.10
–
0.51 ± 0.12
0.43 ± 0.11
–
0.50 ± 0.12
0.42 ± 0.11
–
0.51 ± 0.12
0.43 ± 0.11
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
RF√ p
RF2√ p
RF3√ p
RF4√ p
SVM
PAM
PLR
–
–
–
–
–
–
–
Vse spremenljivke
0.44
0.44
0.45
0.44
0.41
0.45
0.43
± 0.14
± 0.13
± 0.13
± 0.13
± 0.10
± 0.13
± 0.11
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8 Rezultati
152
Tabela 8.13: (nadalj.) Povpreˇcna napaka uvršˇcanja pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne
metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
Tabela 8.14: Povpreˇcna obˇcutljivost pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja,
metode izbire spremenljivk in število spremenljivk.
p
10
20
50
100
200
500
1000+
t-test
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
–
–
–
0.46 ± 0.23
0.46 ± 0.16
–
–
–
–
–
0.45 ± 0.22
0.45 ± 0.15
–
–
–
–
–
0.45 ± 0.23
0.47
0.46
0.44
0.46
0.46
0.44
0.49
0.47
0.46
0.44
0.45
0.46
0.43
0.50
0.47
0.46
0.44
0.47
± 0.20
± 0.23
± 0.28
± 0.21
± 0.16
± 0.20
± 0.34
0.50 ± 0.19
0.48 ± 0.22
0.48 ± 0.25
–
–
0.43 ± 0.20
0.54 ± 0.35
0.47 ± 0.22
0.47 ± 0.25
0.46 ± 0.26
–
–
0.43 ± 0.18
0.50 ± 0.35
0.47 ± 0.20
0.46 ± 0.27
0.44 ± 0.28
–
–
0.44 ± 0.18
0.52 ± 0.39
0.48 ± 0.21
0.46 ± 0.25
0.46 ± 0.29
–
–
0.43 ± 0.18
0.51 ± 0.38
–
–
–
–
–
–
–
± 0.20
± 0.23
± 0.28
± 0.18
± 0.13
± 0.17
± 0.35
0.50 ± 0.19
0.48 ± 0.22
0.48 ± 0.25
–
–
0.44 ± 0.17
0.53 ± 0.37
0.47 ± 0.22
0.47 ± 0.25
0.46 ± 0.26
–
–
0.43 ± 0.16
0.54 ± 0.37
0.47 ± 0.20
0.46 ± 0.27
0.44 ± 0.28
–
–
0.44 ± 0.17
0.54 ± 0.39
0.48 ± 0.21
0.46 ± 0.25
0.46 ± 0.29
–
–
0.44 ± 0.17
0.55 ± 0.41
–
–
–
–
–
–
–
± 0.20
± 0.23
± 0.28
± 0.20
0.50 ± 0.19
0.48 ± 0.22
0.48 ± 0.25
–
0.47 ± 0.22
0.47 ± 0.25
0.46 ± 0.26
–
0.47 ± 0.20
0.46 ± 0.27
0.44 ± 0.28
–
0.48 ± 0.21
0.46 ± 0.25
0.46 ± 0.29
–
–
–
–
–
Welchev t-test
LIMMA
153
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Metoda
p
Metoda
10
20
50
100
200
500
1000+
FDA
DLDA
NNET
0.46 ± 0.16
–
–
0.48 ± 0.16
0.43 ± 0.19
0.52 ± 0.36
–
0.43 ± 0.20
0.50 ± 0.36
–
0.43 ± 0.18
0.51 ± 0.37
–
0.44 ± 0.18
0.49 ± 0.37
–
0.43 ± 0.18
0.52 ± 0.40
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
RF√ p
RF2√ p
RF3√ p
RF4√ p
SVM
PAM
PLR
–
–
–
–
–
–
–
Vse spremenljivke
0.46
0.47
0.46
0.46
0.46
0.40
0.50
± 0.33
± 0.33
± 0.33
± 0.32
± 0.37
± 0.38
± 0.26
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8 Rezultati
154
Tabela 8.14: (nadalj.) Povpreˇcna obˇcutljivost pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode
uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
Tabela 8.15: Povpreˇcna specifiˇcnost pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja,
metode izbire spremenljivk in število spremenljivk.
p
10
20
50
100
200
500
1000+
t-test
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
–
–
–
0.54 ± 0.19
0.53 ± 0.13
–
–
–
–
–
0.54 ± 0.17
0.52 ± 0.11
–
–
–
–
–
0.52 ± 0.21
0.53
0.53
0.53
0.55
0.54
0.52
0.53
0.53
0.53
0.53
0.54
0.53
0.51
0.50
0.53
0.53
0.53
0.52
± 0.17
± 0.20
± 0.24
± 0.17
± 0.13
± 0.18
± 0.33
0.50 ± 0.19
0.51 ± 0.22
0.51 ± 0.25
–
–
0.50 ± 0.18
0.47 ± 0.34
0.52 ± 0.18
0.53 ± 0.23
0.53 ± 0.24
–
–
0.49 ± 0.17
0.49 ± 0.35
0.51 ± 0.19
0.52 ± 0.23
0.53 ± 0.24
–
–
0.49 ± 0.17
0.48 ± 0.37
0.49 ± 0.18
0.52 ± 0.22
0.52 ± 0.25
–
–
0.49 ± 0.17
0.49 ± 0.38
–
–
–
–
–
–
–
± 0.17
± 0.20
± 0.24
± 0.16
± 0.12
± 0.17
± 0.33
0.50 ± 0.19
0.51 ± 0.22
0.51 ± 0.25
–
–
0.50 ± 0.18
0.47 ± 0.35
0.52 ± 0.18
0.53 ± 0.23
0.53 ± 0.24
–
–
0.49 ± 0.16
0.45 ± 0.35
0.51 ± 0.19
0.52 ± 0.23
0.53 ± 0.24
–
–
0.50 ± 0.16
0.47 ± 0.38
0.49 ± 0.18
0.52 ± 0.22
0.52 ± 0.25
–
–
0.49 ± 0.16
0.44 ± 0.41
–
–
–
–
–
–
–
± 0.17
± 0.20
± 0.24
± 0.18
0.50 ± 0.19
0.51 ± 0.22
0.51 ± 0.25
–
0.52 ± 0.18
0.53 ± 0.23
0.53 ± 0.24
–
0.51 ± 0.19
0.52 ± 0.23
0.53 ± 0.24
–
0.49 ± 0.18
0.52 ± 0.22
0.52 ± 0.25
–
–
–
–
–
Welchev t-test
LIMMA
155
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Metoda
p
Metoda
10
20
50
100
200
500
1000+
FDA
DLDA
NNET
0.52 ± 0.15
–
–
0.51 ± 0.14
0.51 ± 0.17
0.50 ± 0.33
–
0.50 ± 0.18
0.50 ± 0.35
–
0.49 ± 0.18
0.47 ± 0.38
–
0.49 ± 0.17
0.51 ± 0.35
–
0.49 ± 0.17
0.46 ± 0.39
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
RF√ p
RF2√ p
RF3√ p
RF4√ p
SVM
PAM
PLR
–
–
–
–
–
–
–
Vse spremenljivke
0.50
0.50
0.50
0.50
0.55
0.53
0.53
± 0.31
± 0.31
± 0.30
± 0.30
± 0.35
± 0.36
± 0.22
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8 Rezultati
156
Tabela 8.15: (nadalj.) Povpreˇcna specifiˇcnost pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode
uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
Tabela 8.16: Povpreˇcna plošˇcina pod ROC-krivuljo pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne
metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
p
10
20
50
100
200
500
1000+
t-test
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
FDA
DLDA
NNET
kNN1
kNN3
kNN5
LDA
–
–
–
0.49 ± 0.11
0.49 ± 0.11
–
–
–
–
–
0.48 ± 0.11
0.48 ± 0.11
–
–
–
–
–
0.48 ± 0.12
0.38
0.46
0.46
0.50
0.50
0.47
0.47
0.38
0.46
0.46
0.48
0.48
0.46
0.44
0.38
0.46
0.46
0.48
± 0.10
± 0.12
± 0.12
± 0.10
± 0.10
± 0.14
± 0.06
0.37 ± 0.10
0.45 ± 0.11
0.47 ± 0.12
–
–
0.46 ± 0.13
0.45 ± 0.09
0.37 ± 0.10
0.46 ± 0.11
0.47 ± 0.11
–
–
0.44 ± 0.12
0.45 ± 0.07
0.37 ± 0.10
0.45 ± 0.12
0.46 ± 0.12
–
–
0.42 ± 0.11
0.46 ± 0.06
0.36 ± 0.09
0.45 ± 0.12
0.45 ± 0.12
–
–
0.40 ± 0.11
0.48 ± 0.04
–
–
–
–
–
–
–
± 0.10
± 0.12
± 0.12
± 0.09
± 0.09
± 0.13
± 0.09
0.37 ± 0.10
0.45 ± 0.11
0.47 ± 0.12
–
–
0.45 ± 0.13
0.45 ± 0.08
0.37 ± 0.10
0.46 ± 0.11
0.47 ± 0.11
–
–
0.44 ± 0.12
0.45 ± 0.06
0.37 ± 0.10
0.45 ± 0.12
0.46 ± 0.12
–
–
0.43 ± 0.12
0.47 ± 0.07
0.36 ± 0.09
0.45 ± 0.12
0.45 ± 0.12
–
–
0.40 ± 0.11
0.46 ± 0.07
–
–
–
–
–
–
–
± 0.10
± 0.12
± 0.12
± 0.10
0.37 ± 0.10
0.45 ± 0.11
0.47 ± 0.12
–
0.37 ± 0.10
0.46 ± 0.11
0.47 ± 0.11
–
0.37 ± 0.10
0.45 ± 0.12
0.46 ± 0.12
–
0.36 ± 0.09
0.45 ± 0.12
0.45 ± 0.12
–
–
–
–
–
Welchev t-test
LIMMA
157
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Metoda
p
Metoda
10
20
50
100
200
500
1000+
FDA
DLDA
NNET
0.48 ± 0.12
–
–
0.49 ± 0.10
0.47 ± 0.14
0.45 ± 0.07
–
0.45 ± 0.13
0.45 ± 0.07
–
0.44 ± 0.12
0.45 ± 0.06
–
0.42 ± 0.11
0.47 ± 0.07
–
0.40 ± 0.11
0.45 ± 0.07
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
RF√ p
RF2√ p
RF3√ p
RF4√ p
SVM
PAM
PLR
–
–
–
–
–
–
–
Vse spremenljivke
0.47
0.48
0.47
0.47
0.51
0.42
0.50
± 0.11
± 0.12
± 0.12
± 0.12
± 0.10
± 0.10
± 0.10
Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza,
DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih
vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk
8 Rezultati
158
Tabela 8.16: (nadalj.) Povpreˇcna plošˇcina pod ROC krivuljo pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za
razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk.
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Tabela 8.17: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire
spremenljivk in števila spremenljivk na napako uvršˇcanja nad sintetiˇcnimi
podatkovji
Vir razpršenosti
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
SS
df
MS
F
Pr
0.05
<0.01
<0.01
<0.01
8
2
1
49
0.01
<0.00
<0.00
<0.00
194.41
7.75
3.24
<0.001
0.001
0.078
Tabela 8.18: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire
spremenljivk in števila spremenljivk na obˇcutljivost nad sintetiˇcnimi podatkovji
Vir razpršenosti
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
SS
df
MS
F
Pr
0.06
<0.01
<0.01
0.01
8
2
1
49
0.01
<0.01
<0.01
<0.01
53.11
0.48
1.20
<0.001
0.622
0.279
razlikujejo pri vseh štirih merah. Metoda izbire spremenljivk z merami kakovosti ni
statistiˇcno znaˇcilno povezana. Glede na kovariato prihaja do statistiˇcno znaˇcilnih razlik
pri specifiˇcnosti in plošˇcini pod ROC-krivuljo.
Razlike med metodami uvršˇcanja smo razˇclenili s pomoˇcjo naknadnih primerjav, za kar
smo uporabili Tukeyjev test HSD. Povzetke naknadnih primerjav prikazujemo loˇceno
za napako uvršˇcanja (tabela 8.21), obˇcutljivost (tabela 8.22), specifiˇcnost (tabela 8.23)
in plošˇcino pod ROC-krivuljo (tabela 8.24). Vzorec naknadnih primerjav kaže, da gre
statistiˇcna znaˇcilnost razlik v metodah uvršˇcanja predvsem na raˇcun metode NNET, ki se
v vseh primerjavah odreže slabše od ostalih metod. Nobena od ostalih primerjav ne kaže
znaˇcilnega vzorca razlik.
Tabela 8.21: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za napako uvršˇcanja nad sintetiˇcnimi podatkovji
Primerjava
FDA–DLDA
kNN–DLDA
LDA–DLDA
NNET–DLDA
PAM–DLDA
PLR–DLDA
RF–DLDA
SVM–DLDA
D
LL
UL
Pr
−0.02
−0.04
−0.04
−0.08
−0.05
−0.07
−0.06
−0.09
−0.03
−0.05
−0.05
−0.09
−0.07
−0.09
−0.08
−0.11
−0.01
−0.04
−0.03
−0.07
−0.03
−0.05
−0.04
−0.07
<0.001
<0.001
<0.001
<0.001
<0.001
<0.001
<0.001
<0.001
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
159
8 Rezultati
Tabela 8.21: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire
spremenljivk za napako uvršˇcanja nad sintetiˇcnimi podatkovji
Primerjava
kNN–FDA
LDA–FDA
NNET–FDA
PAM–FDA
PLR–FDA
RF–FDA
SVM–FDA
LDA–kNN
NNET–kNN
PAM–kNN
PLR–kNN
RF–kNN
SVM–kNN
NNET–LDA
PAM–LDA
PLR–LDA
RF–LDA
SVM–LDA
PAM–NNET
PLR–NNET
RF–NNET
SVM–NNET
PLR–PAM
RF–PAM
SVM–PAM
RF–PLR
SVM–PLR
SVM–RF
LIMMA–Vse
t-test–Vse
Welch–Vse
t-test–LIMMA
Welch–LIMMA
Welch–t-test
D
LL
UL
Pr
−0.02
−0.02
−0.06
−0.03
−0.05
−0.03
−0.07
0.00
−0.04
−0.01
−0.03
−0.02
−0.05
−0.04
−0.01
−0.03
−0.02
−0.05
0.03
0.01
0.02
−0.01
−0.02
−0.01
−0.04
0.01
−0.02
−0.04
−0.03
−0.03
−0.07
−0.05
−0.07
−0.06
−0.09
−0.01
−0.05
−0.03
−0.05
−0.04
−0.07
−0.05
−0.03
−0.05
−0.04
−0.07
0.01
−0.01
0.00
−0.03
−0.05
−0.03
−0.07
−0.01
−0.05
−0.06
−0.01
−0.01
−0.05
−0.01
−0.03
−0.01
−0.05
0.01
−0.03
0.01
−0.01
0.01
−0.03
−0.03
0.01
−0.01
0.01
−0.03
0.05
0.03
0.04
0.01
0.01
0.02
−0.01
0.04
0.01
−0.01
<0.001
<0.001
<0.001
0.001
<0.001
<0.001
<0.001
1.000
<0.001
0.760
0.001
0.280
<0.001
<0.001
0.823
0.002
0.360
<0.001
0.001
0.785
0.013
0.593
0.482
1.000
0.001
0.834
0.211
0.004
0.00
0.00
0.00
0.00
0.00
0.01
−0.01
−0.01
−0.01
−0.01
0.00
0.00
0.01
0.01
0.01
0.00
0.01
0.01
0.999
0.715
0.631
0.408
0.120
0.002
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
160
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Tabela 8.19: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire
spremenljivk in števila spremenljivk na specifiˇcnost nad sintetiˇcnimi podatkovji
Vir razpršenosti
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
SS
df
MS
F
Pr
0.02
<0.01
<0.01
0.01
8
2
1
49
<0.01
<0.01
<0.01
<0.01
15.81
2.18
9.50
<0.001
0.124
0.003
Tabela 8.20: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire
spremenljivk in števila spremenljivk na plošˇcino pod ROC-krivuljo nad
sintetiˇcnimi podatkovji
Vir razpršenosti
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
SS
df
MS
F
Pr
0.03
<0.01
<0.01
0.01
8
2
1
49
<0.01
<0.01
<0.01
<0.01
24.38
1.00
13.05
<0.001
0.376
0.001
Tabela 8.22: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za obˇcutljivost nad sintetiˇcnimi podatkovji
Primerjava
FDA–DLDA
kNN–DLDA
LDA–DLDA
NNET–DLDA
PAM–DLDA
PLR–DLDA
RF–DLDA
SVM–DLDA
kNN–FDA
LDA–FDA
NNET–FDA
PAM–FDA
PLR–FDA
RF–FDA
SVM–FDA
LDA–kNN
NNET–kNN
PAM–kNN
PLR–kNN
D
LL
UL
Pr
0.03
0.03
0.02
0.08
−0.02
0.06
0.02
0.03
0.00
−0.01
0.06
−0.05
0.04
0.00
0.00
−0.01
0.05
−0.06
0.03
0.01
0.02
0.00
0.07
−0.06
0.02
−0.02
−0.01
−0.01
−0.03
0.04
−0.09
−0.01
−0.05
−0.04
−0.03
0.04
−0.10
−0.01
0.05
0.05
0.04
0.10
0.02
0.10
0.06
0.07
0.02
0.02
0.07
−0.01
0.08
0.04
0.04
0.01
0.07
−0.02
0.07
<0.001
<0.001
0.009
<0.001
0.630
<0.001
0.546
0.347
0.998
0.991
<0.001
0.006
0.160
1.000
1.000
0.675
<0.001
0.001
0.242
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
161
8 Rezultati
Tabela 8.22: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire
spremenljivk za obˇcutljivost nad sintetiˇcnimi podatkovji
Primerjava
RF–kNN
SVM–kNN
NNET–LDA
PAM–LDA
PLR–LDA
RF–LDA
SVM–LDA
PAM–NNET
PLR–NNET
RF–NNET
SVM–NNET
PLR–PAM
RF–PAM
SVM–PAM
RF–PLR
SVM–PLR
SVM–RF
LIMMA–Vse
t-test–Vse
Welch–Vse
t-test–LIMMA
Welch–LIMMA
Welch–t-test
D
LL
UL
Pr
−0.01
0.00
0.06
−0.05
0.04
0.00
0.01
−0.11
−0.02
−0.06
−0.06
0.09
0.05
0.05
−0.04
−0.04
0.00
−0.05
−0.04
0.04
−0.09
0.00
−0.04
−0.04
−0.15
−0.06
−0.10
−0.10
0.03
−0.01
0.00
−0.09
−0.09
−0.05
0.03
0.04
0.08
0.00
0.08
0.04
0.05
−0.07
0.02
−0.02
−0.02
0.14
0.10
0.11
0.02
0.02
0.06
0.999
1.000
<0.001
0.023
0.051
1.000
1.000
<0.001
0.788
<0.001
0.001
<0.001
0.130
0.076
0.348
0.491
1.000
0.02
0.02
0.02
0.01
0.01
0.01
0.998
0.998
0.987
1.000
0.832
0.832
0.00
0.00
0.00
0.00
0.00
0.00
−0.02
−0.02
−0.02
−0.01
−0.01
−0.01
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
Tabela 8.23: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za specifiˇcnost nad sintetiˇcnimi podatkovji
Primerjava
FDA–DLDA
kNN–DLDA
LDA–DLDA
NNET–DLDA
PAM–DLDA
PLR–DLDA
RF–DLDA
SVM–DLDA
kNN–FDA
D
LL
0.03
0.02
0.04
−0.01
0.03
0.03
0.00
0.05
−0.01
0.01
0.01
0.02
−0.03
−0.02
−0.02
−0.05
0.00
−0.03
UL
0.05
0.04
0.06
0.00
0.08
0.08
0.05
0.10
0.02
Pr
0.003
0.005
<0.001
0.212
0.685
0.596
1.000
0.040
0.966
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
162
8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje
Tabela 8.23: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire
spremenljivk za specifiˇcnost nad sintetiˇcnimi podatkovji
Primerjava
D
LL
UL
Pr
LDA–FDA
NNET–FDA
PAM–FDA
PLR–FDA
RF–FDA
SVM–FDA
LDA–kNN
NNET–kNN
PAM–kNN
PLR–kNN
RF–kNN
SVM–kNN
NNET–LDA
PAM–LDA
PLR–LDA
RF–LDA
SVM–LDA
PAM–NNET
PLR–NNET
RF–NNET
SVM–NNET
PLR–PAM
RF–PAM
SVM–PAM
RF–PLR
SVM–PLR
SVM–RF
0.01
−0.04
0.00
0.00
−0.03
0.02
0.02
−0.04
0.01
0.01
−0.02
0.03
−0.05
−0.01
−0.01
−0.04
0.01
0.04
0.04
0.02
0.07
0.00
−0.03
0.02
−0.03
0.02
0.05
0.04
−0.02
0.05
0.05
0.02
0.07
0.04
−0.02
0.06
0.06
0.03
0.08
−0.03
0.04
0.04
0.02
0.07
0.09
0.09
0.07
0.12
0.07
0.04
0.09
0.04
0.09
0.12
0.988
<0.001
1.000
1.000
0.710
0.928
0.379
<0.001
1.000
1.000
0.924
0.627
<0.001
0.999
1.000
0.382
0.997
0.169
0.126
0.978
0.003
1.000
0.949
0.969
0.922
0.982
0.344
LIMMA–Vse
t-test–Vse
Welch–Vse
t-test–LIMMA
Welch–LIMMA
Welch–t-test
0.00
0.01
0.00
0.01
0.00
−0.01
−0.02
−0.07
−0.06
−0.05
−0.08
−0.03
−0.01
−0.05
−0.04
−0.04
−0.07
−0.02
−0.08
−0.06
−0.06
−0.09
−0.04
−0.01
−0.01
−0.03
0.02
−0.07
−0.09
−0.05
−0.10
−0.05
−0.02
0.02
0.03
0.02
0.02
0.01
0.00
0.994
0.914
0.978
0.423
0.995
0.294
−0.02
−0.02
−0.03
−0.01
−0.01
−0.02
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
163
8 Rezultati
Tabela 8.24: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za plošˇcino pod ROC-krivuljo nad sintetiˇcnimi podatkovji
Primerjava
D
LL
UL
Pr
FDA–DLDA
kNN–DLDA
LDA–DLDA
NNET–DLDA
PAM–DLDA
PLR–DLDA
RF–DLDA
SVM–DLDA
kNN–FDA
LDA–FDA
NNET–FDA
PAM–FDA
PLR–FDA
RF–FDA
SVM–FDA
LDA–kNN
NNET–kNN
PAM–kNN
PLR–kNN
RF–kNN
SVM–kNN
NNET–LDA
PAM–LDA
PLR–LDA
RF–LDA
SVM–LDA
PAM–NNET
PLR–NNET
RF–NNET
SVM–NNET
PLR–PAM
RF–PAM
SVM–PAM
RF–PLR
SVM–PLR
SVM–RF
0.05
−0.01
0.05
0.02
−0.01
0.07
0.04
0.08
−0.06
0.00
−0.03
−0.06
0.02
−0.01
0.03
0.05
0.03
−0.01
0.07
0.04
0.08
−0.03
−0.06
0.02
−0.01
0.03
−0.03
0.05
0.02
0.06
0.08
0.05
0.09
−0.03
0.01
0.04
0.07
0.01
0.07
0.04
0.04
0.12
0.09
0.13
−0.03
0.03
−0.01
−0.01
0.07
0.04
0.08
0.08
0.04
0.04
0.12
0.09
0.13
0.00
−0.01
0.07
0.04
0.08
0.02
0.10
0.06
0.11
0.15
0.12
0.16
0.04
0.08
0.11
<0.001
0.983
<0.001
0.007
0.997
0.001
0.301
<0.001
<0.001
1.000
0.004
0.008
0.968
0.994
0.714
<0.001
<0.001
1.000
<0.001
0.151
<0.001
0.011
0.012
0.934
0.998
0.618
0.437
0.070
0.982
0.012
0.009
0.342
0.002
0.841
1.000
0.553
LIMMA–Vse
t-test–Vse
Welch–Vse
t-test–LIMMA
0.00
0.00
0.00
0.01
0.03
−0.02
0.03
0.00
−0.06
0.02
−0.01
0.03
−0.08
−0.03
−0.05
−0.11
−0.03
−0.07
−0.02
0.03
0.01
−0.06
0.02
−0.01
0.03
−0.05
−0.11
−0.03
−0.06
−0.02
−0.08
0.00
−0.03
0.01
0.01
−0.02
0.02
−0.10
−0.06
−0.03
0.02
0.03
0.02
0.02
0.994
0.973
0.998
0.658
−0.02
−0.02
−0.02
−0.01
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
164
8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje
Tabela 8.24: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire
spremenljivk za plošˇcino pod ROC-krivuljo nad sintetiˇcnimi podatkovji
Primerjava
Welch–LIMMA
Welch–t-test
D
LL
0.00
−0.01
−0.01
−0.02
UL
Pr
0.01
0.01
0.999
0.733
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
Na slikah 8.5–8.8 so prikazani CD diagrami za napako uvršˇcanja, obˇcutljivost, specifiˇcnost
in plošˇcino pod ROC-krivuljo. Prikazane vrednosti so povpreˇcene preko razliˇcnih metod
izbire spremenljivk in razliˇcnega števila vkljuˇcenih spremenljivk. V povpreˇcju se pri
uvršˇcanju najbolje odreže metoda PLR, najslabše pa metoda NNET.
8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na
uvrščanje
8.2.1 Izbira spremenljivk z uporabo statističnih testov
Pregled mer natančnosti uvrščanja
V tabelah 8.25–8.28 so zbrani rezultati uvršˇcanja za realna podatkovja. Za vsako metodo
zmanjševanja razsežnosti in uvršˇcanja podajamo dosežek za (i) izbrano kombinacijo
metod izbire spremenljivk ter (ii) razliˇcno število spremenljivk. Skupaj prikazujemo
rezultate za povpreˇcno število komponent, napako uvršˇcanja, obˇcutljivost, specifiˇcnost in
plošˇcino pod ROC-krivuljo.
V kombinaciji metod PCA in LDA (tabela 8.25) smo najmanjše povpreˇcno število komponent (nkomp = 1.78) dosegli v kombinaciji s p = 500 vkljuˇcenimi spremenljivkami, ki smo
jih izbrali z Welchevim t-testom. Najvišje povpreˇcno število komponent (nkomp = 2.27)
smo dosegli v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami, ki smo jih izbrali
s pristopom LIMMA. Napaka uvršˇcanja je najmanjša (MER = 0.14) v kombinaciji s
p = 200 spremenljivkami, ki smo jih izbrali s t-testom, najveˇcja (MER = 0.18) pa v
kombinaciji s p = 20 spremenljivkami, izbranimi z Welchevim t-testom. Najnižjo obˇcutljivost (Sens = 0.79) zasledimo v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami,
izbranimi z Welchevim t-testom. Obˇcutljivost je najvišja (Sens = 0.86) v kombinaciji s
p = 200 spremenljivkami, izbranimi s t-testom. Najnižjo specifiˇcnost (Spec = 0.81) smo
dosegli v kombinaciji s p = 20 spremenljivkami, izbranimi z Welchevim t-testom, najvišjo
(Spec = 0.85) pa v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami, izbranimi z isto
metodo. Plošˇcina pod ROC-krivuljo je najmanjša (ROC = 0.85) pri p = 20 vkljuˇcenih
spremenljivkah, ki smo jih izbrali z Welchevim t-testom, najvišja (ROC = 0.88) pa v
kombinaciji s p = 50 in p = 500 spremenljivkami, izbranimi s t-testom, Welchevim
t-testom oz. pristopom LIMMA.
165
8 Rezultati
CD
1 2 3 4
5 6
7 8 9
SVM
NNET
PLR
RF
PAM
DLDA
FDA
LDA
kNN
Slika 8.5: Razvrstitev metod uvršˇcanja nad sintetiˇcnimi podatkovji glede na napako uvršˇcanja. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in
števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo.
CD
1 2 3 4
NNET
PLR
RF
kNN
SVM
5 6
7 8 9
PAM
DLDA
LDA
FDA
Slika 8.6: Razvrstitev metod uvršˇcanja nad sintetiˇcnimi podatkovji glede na obˇcutljivost.
Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila
vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo.
Kombinacija metod PCA in LD (tabela 8.26) dosega najmanjše povpreˇcno število komponent (nkomp = 1.57) pri p = 20 vkljuˇcenih spremenljivkah, ki smo jih izbrali z Welchevim
t-testom. Najvišje povpreˇcno število komponent (nkomp = 2.24) smo dosegli v kombinaciji
s p = 500 vkljuˇcenimi spremenljivkami, ki smo jih izbrali s pristopom LIMMA. Napaka
uvršˇcanja je najmanjša (MER = 0.14) v kombinaciji s p = 500 spremenljivkami, ki smo jih
izbrali z Welchevim t-testom, najveˇcja (MER = 0.18) pa v kombinaciji s p = 100 spremenljivkami, izbranimi s t-testom. Najnižjo obˇcutljivost (Sens = 0.79) zasledimo v kombinaciji
s p = 20 vkljuˇcenimi spremenljivkami, izbranimi z Welchevim t-testom. Obˇcutljivost je
najvišja (Sens = 0.83) v kombinaciji s p = 500 spremenljivkami, izbranimi s pristopom
LIMMA. Najnižjo specifiˇcnost (Spec = 0.82) smo dosegli v kombinaciji s p = 20 spremenljivkami, izbranimi s pristopom LIMMA, najvišjo (Spec = 0.87) pa v kombinaciji
s p = 500 vkljuˇcenimi spremenljivkami, izbranimi s klasiˇcnim t-testom. Plošˇcina pod
ROC-krivuljo je najmanjša (AUC = 0.81) pri p = 200 vkljuˇcenih spremenljivkah, ki smo
166
8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje
CD
1 2 3 4
5 6
7 8 9
SVM
PAM
PLR
LDA
FDA
DLDA
RF
NNET
kNN
Slika 8.7: Razvrstitev metod uvršˇcanja nad sintetiˇcnimi podatkovji glede na specifiˇcnost.
Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila
vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo.
CD
1 2 3 4
PLR
SVM
RF
FDA
LDA
5 6
7 8 9
PAM
kNN
DLDA
NNET
Slika 8.8: Razvrstitev metod uvršˇcanja nad sintetiˇcnimi podatkovji glede na plošˇcino pod
ROC-krivuljo. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo.
167
8 Rezultati
Tabela 8.25: Povpreˇcno število komponent, napaka uvršˇcanja, obˇcutljivost, specifiˇcnost
in plošˇcina pod ROC-krivuljo. Prikazan je prerez za kombinacijo metod
PCA in LDA pri razliˇcnih metodah izbire spremenljivk in razliˇcnem številu
spremenljivk.
p
20
50
100
200
500
t-test
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
1.81
0.16
0.81
0.83
0.86
2.00
0.18
0.81
0.81
0.85
1.89
0.16
0.82
0.83
0.86
2.41
0.20
0.74
0.78
0.81
± 1.35
± 0.15
± 0.23
± 0.20
± 0.17
2.08
0.16
0.82
0.82
0.88
± 1.18
± 0.17
± 0.25
± 0.21
± 0.20
2.08
0.16
0.80
0.83
0.86
± 1.35
± 0.16
± 0.21
± 0.24
± 0.18
2.00
0.17
0.80
0.82
0.86
± 1.46
± 0.16
± 0.33
± 0.27
± 0.18
2.46
0.20
0.73
0.80
0.82
± 1.42
± 0.15
± 0.23
± 0.23
± 0.17
2.16
0.17
0.80
0.83
0.86
± 1.41
± 0.17
± 0.27
± 0.20
± 0.19
2.11
0.14
0.86
0.82
0.87
± 1.33
± 0.17
± 0.24
± 0.25
± 0.18
2.08
0.15
0.85
0.81
0.88
± 1.34
± 0.17
± 0.21
± 0.25
± 0.19
± 1.49
± 0.18
± 0.25
± 0.21
± 0.20
2.14
0.17
0.82
0.81
0.87
± 1.36
± 0.18
± 0.26
± 0.27
± 0.18
1.78
0.16
0.82
0.82
0.88
± 1.21
± 0.16
± 0.25
± 0.23
± 0.18
± 1.58
± 0.18
± 0.22
± 0.23
± 0.21
2.22
0.16
0.82
0.83
0.88
± 1.36
± 0.17
± 0.26
± 0.22
± 0.17
2.16
0.16
0.80
0.83
0.88
± 1.52
± 0.17
± 0.26
± 0.25
± 0.18
± 1.38
± 0.18
± 0.35
± 0.32
± 0.21
1.97
0.17
0.76
0.83
0.86
± 1.38
± 0.16
± 0.35
± 0.27
± 0.18
2.62
0.17
0.77
0.82
0.86
± 1.75
± 0.17
± 0.33
± 0.28
± 0.19
Welchev t-test
± 1.40
± 0.17
± 0.27
± 0.23
± 0.18
1.95
0.16
0.79
0.85
0.86
± 1.39
± 0.17
± 0.26
± 0.24
± 0.18
2.27
0.15
0.81
0.84
0.86
± 1.63
± 0.17
± 0.35
± 0.25
± 0.22
2.14
0.21
0.76
0.76
0.82
LIMMA
Izbira spremenljivk po sluˇcaju
Legenda: nkomp – št. komponent, MER – toˇcnost uvršˇcanja, Sens – obˇcutljivost, Spec – specifiˇcnost, AUC – plošˇcina pod ROC-krivuljo, p – št. spremenljivk
168
8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje
Tabela 8.26: Povpreˇcno število komponent, napaka uvršˇcanja, obˇcutljivost, specifiˇcnost
in plošˇcina pod ROC-krivuljo. Prikazan je prerez za kombinacijo metod
PCA in LD pri razliˇcnih metodah izbire spremenljivk in razliˇcnem številu
spremenljivk.
p
20
50
100
200
500
t-test
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
1.60
0.17
0.81
0.82
0.83
1.57
0.17
0.79
0.84
0.83
1.87
0.17
0.82
0.82
0.83
2.65
0.20
0.74
0.79
0.79
± 1.04
± 0.18
± 0.26
± 0.21
± 0.19
1.89
0.17
0.80
0.85
0.84
± 1.19
± 0.17
± 0.26
± 0.20
± 0.19
2.14
0.16
0.81
0.84
0.83
± 1.25
± 0.17
± 0.22
± 0.21
± 0.19
1.92
0.16
0.82
0.84
0.83
± 1.53
± 0.18
± 0.34
± 0.28
± 0.20
2.49
0.18
0.73
0.82
0.82
± 1.37
± 0.17
± 0.25
± 0.14
± 0.18
2.08
0.18
0.79
0.82
0.82
± 1.53
± 0.19
± 0.24
± 0.20
± 0.19
1.84
0.17
0.80
0.83
0.81
± 1.41
± 0.16
± 0.23
± 0.21
± 0.23
1.97
0.15
0.80
0.87
0.85
± 1.38
± 0.15
± 0.28
± 0.15
± 0.18
± 1.44
± 0.19
± 0.26
± 0.23
± 0.23
2.16
0.17
0.80
0.84
0.83
± 1.54
± 0.16
± 0.24
± 0.20
± 0.20
1.70
0.14
0.81
0.86
0.86
± 1.20
± 0.16
± 0.25
± 0.18
± 0.20
± 1.24
± 0.17
± 0.23
± 0.19
± 0.20
1.84
0.16
0.79
0.86
0.83
± 1.30
± 0.16
± 0.23
± 0.19
± 0.19
2.24
0.16
0.83
0.83
0.85
± 1.59
± 0.19
± 0.24
± 0.22
± 0.22
± 1.64
± 0.18
± 0.31
± 0.30
± 0.19
2.60
0.18
0.74
0.83
0.82
± 1.54
± 0.17
± 0.32
± 0.24
± 0.19
2.32
0.16
0.76
0.85
0.83
± 1.51
± 0.17
± 0.34
± 0.26
± 0.21
Welchev t-test
± 1.62
± 0.17
± 0.23
± 0.21
± 0.20
2.08
0.17
0.81
0.82
0.82
± 1.44
± 0.17
± 0.22
± 0.19
± 0.20
1.89
0.16
0.82
0.83
0.82
± 1.63
± 0.15
± 0.31
± 0.23
± 0.19
2.46
0.19
0.79
0.79
0.81
LIMMA
Izbira spremenljivk po sluˇcaju
Legenda: nkomp – št. komponent, MER – toˇcnost uvršˇcanja, Sens – obˇcutljivost, Spec – specifiˇcnost, AUC – plošˇcina pod ROC-krivuljo, p – št. spremenljivk
169
8 Rezultati
Tabela 8.27: Povpreˇcno število komponent, napaka uvršˇcanja, obˇcutljivost, specifiˇcnost
in plošˇcina pod ROC-krivuljo. Prikazan je prerez za kombinacijo metod
PLS in LDA pri razliˇcnih metodah izbire spremenljivk in razliˇcnem številu
spremenljivk.
p
20
50
100
200
500
t-test
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
1.73
0.18
0.78
0.83
0.86
2.22
0.18
0.80
0.80
0.86
2.32
0.16
0.81
0.83
0.86
2.24
0.19
0.78
0.79
0.83
± 1.15
± 0.17
± 0.25
± 0.20
± 0.17
1.87
0.16
0.81
0.84
0.87
± 1.23
± 0.17
± 0.24
± 0.22
± 0.19
2.08
0.17
0.82
0.81
0.86
± 1.47
± 0.15
± 0.21
± 0.21
± 0.17
2.16
0.18
0.82
0.80
0.84
± 1.34
± 0.16
± 0.24
± 0.22
± 0.19
2.14
0.18
0.76
0.82
0.84
± 1.23
± 0.15
± 0.23
± 0.19
± 0.16
2.32
0.16
0.80
0.83
0.85
± 1.47
± 0.16
± 0.24
± 0.21
± 0.20
2.16
0.17
0.81
0.80
0.85
± 1.19
± 0.18
± 0.24
± 0.25
± 0.20
2.30
0.16
0.79
0.87
0.88
± 1.22
± 0.18
± 0.28
± 0.21
± 0.19
± 1.37
± 0.18
± 0.25
± 0.22
± 0.23
2.16
0.15
0.82
0.85
0.87
± 1.28
± 0.17
± 0.23
± 0.23
± 0.18
2.22
0.14
0.84
0.86
0.88
± 1.32
± 0.16
± 0.22
± 0.20
± 0.18
± 1.37
± 0.17
± 0.27
± 0.21
± 0.19
1.78
0.14
0.85
0.85
0.86
± 1.08
± 0.16
± 0.23
± 0.22
± 0.20
2.22
0.14
0.83
0.86
0.88
± 1.29
± 0.14
± 0.23
± 0.18
± 0.18
± 1.47
± 0.16
± 0.26
± 0.22
± 0.19
2.00
0.16
0.79
0.84
0.85
± 1.18
± 0.17
± 0.25
± 0.21
± 0.21
2.60
0.16
0.81
0.83
0.88
± 1.52
± 0.16
± 0.25
± 0.22
± 0.18
Welchev t-test
± 1.42
± 0.15
± 0.24
± 0.24
± 0.17
2.00
0.15
0.82
0.85
0.86
± 1.32
± 0.18
± 0.22
± 0.25
± 0.22
2.11
0.17
0.78
0.84
0.85
± 1.46
± 0.16
± 0.28
± 0.19
± 0.19
2.32
0.17
0.80
0.81
0.85
LIMMA
Izbira spremenljivk po sluˇcaju
Legenda: nkomp – št. komponent, MER – napaka uvršˇcanja, Sens – obˇcutljivost, Spec – specifiˇcnost, AUC – plošˇcina pod ROC-krivuljo, p – št. spremenljivk
170
8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje
Tabela 8.28: Povpreˇcno število komponent, napaka uvršˇcanja, obˇcutljivost, specifiˇcnost
in plošˇcina pod ROC-krivuljo. Prikazan je prerez za kombinacijo metod
PLS in LD pri razliˇcnih metodah izbire spremenljivk in razliˇcnem številu
spremenljivk.
p
20
50
100
200
500
t-test
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
nkomp
MER
Sens
Spec
AUC
1.54
0.16
0.82
0.84
0.85
1.97
0.17
0.80
0.84
0.85
1.60
0.17
0.82
0.81
0.83
2.22
0.22
0.75
0.75
0.80
± 1.10
± 0.15
± 0.20
± 0.19
± 0.18
1.76
0.18
0.79
0.82
0.83
± 1.19
± 0.16
± 0.25
± 0.18
± 0.16
1.97
0.16
0.81
0.85
0.84
± 1.04
± 0.17
± 0.23
± 0.23
± 0.21
1.70
0.15
0.81
0.86
0.86
± 1.49
± 0.17
± 0.25
± 0.24
± 0.18
2.30
0.21
0.77
0.76
0.79
± 1.19
± 0.18
± 0.23
± 0.22
± 0.20
1.70
0.16
0.81
0.84
0.84
± 1.00
± 0.18
± 0.22
± 0.19
± 0.21
1.78
0.14
0.84
0.84
0.86
± 1.00
± 0.15
± 0.22
± 0.19
± 0.20
1.84
0.16
0.81
0.85
0.86
± 1.26
± 0.16
± 0.25
± 0.21
± 0.20
± 1.46
± 0.19
± 0.27
± 0.19
± 0.21
1.68
0.17
0.82
0.82
0.83
± 1.18
± 0.18
± 0.21
± 0.22
± 0.20
1.84
0.15
0.79
0.88
0.83
± 0.99
± 0.17
± 0.27
± 0.15
± 0.19
± 1.08
± 0.16
± 0.21
± 0.18
± 0.18
1.81
0.16
0.80
0.86
0.84
± 1.15
± 0.16
± 0.24
± 0.19
± 0.19
1.92
0.16
0.81
0.85
0.84
± 1.32
± 0.18
± 0.26
± 0.18
± 0.21
± 1.57
± 0.17
± 0.25
± 0.19
± 0.21
2.38
0.17
0.82
0.82
0.83
± 1.40
± 0.17
± 0.21
± 0.20
± 0.21
2.16
0.15
0.81
0.85
0.85
± 1.39
± 0.16
± 0.23
± 0.20
± 0.20
Welchev t-test
± 1.36
± 0.16
± 0.24
± 0.16
± 0.18
2.03
0.18
0.77
0.84
0.82
± 1.08
± 0.17
± 0.25
± 0.18
± 0.18
1.68
0.15
0.83
0.85
0.85
± 1.56
± 0.16
± 0.26
± 0.24
± 0.21
2.35
0.18
0.77
0.84
0.81
LIMMA
Izbira spremenljivk po sluˇcaju
Legenda: nkomp – št. komponent, MER – napaka uvršˇcanja, Sens – obˇcutljivost, Spec – specifiˇcnost, AUC – plošˇcina pod ROC-krivuljo, p – št. spremenljivk
171
8 Rezultati
jih izbrali s t-testom, najvišja (AUC = 0.86) pa v kombinaciji s p = 500 spremenljivkami,
izbranimi z Welchevim t-testom.
V kombinaciji metod PLS in LDA (tabela 8.27) smo najmanjše povpreˇcno število komponent (nkomp = 1.73) dosegli v kombinaciji s p = 20 vkljuˇcenimi spremenljivkami, ki
smo jih izbrali s t-testom. Najvišje povpreˇcno število komponent (nkomp = 2.32) smo
dosegli v kombinaciji s p = 100 in p = 20 vkljuˇcenimi spremenljivkami, ki smo jih izbrali
s t-testom oz. pristopom LIMMA. Napaka uvršˇcanja je najmanjša (MER = 0.14) v kombinaciji s p = 500 in p = 200 spremenljivkami, ki smo jih izbrali z Welchevim t-testom
oz. pristopom LIMMA. Najveˇcjo napako uvršˇcanja (MER = 0.18) smo dosegli v kombinaciji s p = 20 spremenljivkami, izbranimi s klasiˇcnim t-testom. Najnižjo obˇcutljivost
(Sens = 0.78) zasledimo v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami, izbranimi
s pristopom LIMMA. Obˇcutljivost je najvišja (Sens = 0.85) v kombinaciji s p = 200
spremenljivkami, izbranimi s pristopom LIMMA. Najnižjo specifiˇcnost (Spec = 0.80)
smo dosegli v kombinaciji s p = 200 spremenljivkami, izbranimi s t-testom, najvišjo
(Spec = 0.87) pa v kombinaciji s p = 500 vkljuˇcenimi spremenljivkami, izbranimi z isto
metodo. Plošˇcina pod ROC-krivuljo je najmanjša (AUC = 0.84) pri p = 50 vkljuˇcenih
spremenljivkah, ki smo jih izbrali s pristopom LIMMA, najvišja (AUC = 0.88) pa v
kombinaciji s p = 500 spremenljivkami, izbranimi z Welchevim t-testom oz. pristopom
LIMMA.
Kombinacija metod PLS in LD (tabela 8.28) dosega najmanjše povpreˇcno število komponent (nkomp = 1.54) pri p = 20 vkljuˇcenih spremenljivkah, ki smo jih izbrali s klasiˇcnim
t-testom. Najvišje povpreˇcno število komponent (nkomp = 2.03) smo dosegli v kombinaciji
s p = 100 vkljuˇcenimi spremenljivkami, ki smo jih izbrali z Welchevim t-testom. Napaka
uvršˇcanja je najmanjša (MER = 0.14) v kombinaciji s p = 200 spremenljivkami, ki smo
jih izbrali s t-testom, najveˇcja (MER = 0.18) pa v kombinaciji s p = 100 spremenljivkami,
izbranimi z Welchevim t-testom. Najnižjo obˇcutljivost (Sens = 0.77) zasledimo v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami, izbranimi z Welchevim t-testom. Obˇcutljivost
je najvišja (Sens = 0.84) v kombinaciji s p = 100 spremenljivkami, izbranimi s t-testom.
Najnižjo specifiˇcnost (Spec = 0.81) smo dosegli v kombinaciji s p = 20 spremenljivkami,
izbranimi s pristopom LIMMA, najvišjo (Spec = 0.88) pa v kombinaciji s p = 500 vkljucˇ enimi spremenljivkami, izbranimi z Welchevim t-testom. Plošˇcina pod ROC-krivuljo
je najmanjša (AUC = 0.82) pri p = 100 vkljuˇcenih spremenljivkah, ki smo jih izbrali z
Welchevim t-testom, najvišja (AUC = 0.86) pa v kombinaciji s p = 50 spremenljivkami,
izbranimi s pristopom LIMMA.
8.2.2 Slučajna izbira spremenljivk
Pregled mer natančnosti uvrščanja
V tem razdelku obravnavamo rezultate uvršˇcanja za kombinacije metod zmanjševanja
razsežnosti podatkovij in metod uvršˇcanja, kjer smo prediktorske spremenljivke izbrali
po sluˇcaju. Rezultati so povzeti v tabelah 8.25–8.28.
V kombinaciji metod PCA in LDA (tabela 8.25) smo dosegli najmanjše število komponent
(nkomp = 1.97) pri p = 200 spremenljivkah, najveˇcje število komponent (nkomp = 2.62) pa
172
8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje
pri p = 500 vkljuˇcenih spremenljivkah. Najmanjša napaka uvršˇcanja (MER = 0.17) je bila
dosežena pri p = 200 in p = 500 sluˇcajno izbranih spremenljivkah. Napaka uvršˇcanja
je bila najvišja (MER = 0.21) pri p = 100 izbranih spremenljivkah. Najnižjo obˇcutljivost
(Sens = 0.73) smo dosegli pri p = 50, najvišjo (Sens = 0.77) pa pri p = 500 vkljuˇcenih
spremenljivkah. Specifiˇcnost je bila najnižja (Spec = 0.76) pri p = 100 spremenljivkah,
najvišja (Spec = 0.83) pa pri p = 200 spremenljivkah. Plošˇcina pod ROC-krivuljo je
dosegla najnižjo vrednost (AUC = 9.81) pri p = 20 sluˇcajno izbranih spremenljivkah,
najvišjo vrednost (AUC = 0.86) pa pri p = 500 spremenljivkah.
Kombinacija metod PCA in LD (tabela 8.26) je dosegla najmanjše število komponent
(nkomp = 2.32) pri p = 500 spremenljivkah, najveˇcje število komponent (nkomp = 2.65)
pa pri p = 20 vkljuˇcenih spremenljivkah. Najmanjša napaka uvršˇcanja (MER = 0.16)
je bila dosežena pri p = 500 sluˇcajno izbranih spremenljivkah. Napaka uvršˇcanja je
bila najvišja (MER = 0.20) pri p = 20 izbranih spremenljivkah. Najnižjo obˇcutljivost
(Sens = 0.73) smo dosegli pri p = 50, najvišjo (Sens = 0.79) pa pri p = 100 vkljuˇcenih
spremenljivkah. Specifiˇcnost je bila najnižja (Spec = 0.79) pri p = 20 spremenljivkah,
najvišja (Spec = 0.85) pa pri p = 500 spremenljivkah. Plošˇcina pod ROC-krivuljo je
dosegla najnižjo vrednost (AUC = 0.79) pri p = 20 sluˇcajno izbranih spremenljivkah,
najvišjo vrednost (AUC = 0.83) pa pri p = 500 spremenljivkah.
V kombinaciji metod PLS in LDA (tabela 8.27) smo dosegli najmanjše število komponent
(nkomp = 2.00) pri p = 200 spremenljivkah, najveˇcje število komponent (nkomp = 2.60)
pa pri p = 500 vkljuˇcenih spremenljivkah. Najmanjša napaka uvršˇcanja (MER = 0.16)
je bila dosežena pri p = 500 sluˇcajno izbranih spremenljivkah. Napaka uvršˇcanja je
bila najvišja (MER = 0.19) pri p = 20 izbranih spremenljivkah. Najnižjo obˇcutljivost
(Sens = 0.76) smo dosegli pri p = 50, najvišjo (Sens = 0.81) pa pri p = 500 vkljuˇcenih
spremenljivkah. Specifiˇcnost je bila najnižja (Spec = 0.79) pri p = 20 spremenljivkah,
najvišja (Spec = 0.84) pa pri p = 200 spremenljivkah. Plošˇcina pod ROC-krivuljo je
dosegla najnižjo vrednost (AUC = 0.83) pri p = 20 sluˇcajno izbranih spremenljivkah,
najvišjo vrednost (AUC = 0.88) pa pri p = 500 spremenljivkah.
Kombinacija metod PCA in LD (tabela 8.28) je dosegla najmanjše število komponent
(nkomp = 2.22) pri p = 20 spremenljivkah, najveˇcje število komponent (nkomp = 2.38)
pa pri p = 200 vkljuˇcenih spremenljivkah. Najmanjša napaka uvršˇcanja (MER = 0.15)
je bila dosežena pri p = 500 sluˇcajno izbranih spremenljivkah. Napaka uvršˇcanja je
bila najvišja (MER = 0.22) pri p = 20 izbranih spremenljivkah. Najnižjo obˇcutljivost
(Sens = 0.75) smo dosegli pri p = 20, najvišjo (Sens = 0.82) pa pri p = 200 vkljuˇcenih
spremenljivkah. Specifiˇcnost je bila najnižja (Spec = 0.75) pri p = 20 spremenljivkah,
najvišja (Spec = 0.85) pa pri p = 500 spremenljivkah. Plošˇcina pod ROC-krivuljo je
dosegla najnižjo vrednost (AUC = 0.79) pri p = 50 sluˇcajno izbranih spremenljivkah,
najvišjo vrednost (AUC = 0.85) pa pri p = 500 spremenljivkah.
8.2.3 Ovrednotenje učinka metode krčenja razsežnosti, metode uvrščanja in
metode izbire spremenljivk na uvrščanje
Vpliv metode zmanjševanja razsežnosti, metode uvršˇcanja in metode izbire spremenljivk
na dosežek pri uvršˇcanju smo preverili s pomoˇcjo analize kovariance. Kot kovariato smo
173
8 Rezultati
Tabela 8.29: Povzetek ANCOVA za preverjanje uˇcinkov metod zmanjševanja razsežnosti,
metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na napako
uvršˇcanja
Vir razpršenosti
Redukcija
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
SS
df
MS
F
Pr
<0.01
<0.01
0.01
0.01
0.01
1
1
3
1
73
<0.01
<0.01
<0.01
0.01
<0.01
1.47
0.93
20.02
43.82
0.229
0.337
<0.001
<0.001
Tabela 8.30: Povzetek ANCOVA za preverjanje uˇcinkov metod zmanjševanja razsežnosti, metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na
obˇcutljivost
Vir razpršenosti
Redukcija
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
SS
df
MS
F
Pr
<0.01
<0.01
0.03
<0.01
0.03
1
1
3
1
73
<0.01
<0.01
0.01
<0.01
<0.01
3.27
1.12
27.74
8.15
0.075
0.294
<0.001
0.006
v analizo vkljuˇcili število spremenljivk. Loˇceno prikazujemo povzetke analize kovariance
za napako uvršˇcanja (tabela 8.29), obˇcutljivost (tabela 8.30), specifiˇcnost (tabela 8.31) in
plošˇcino pod ROC-krivuljo (tabela 8.32). Metoda zmanjševanja razsežnosti in metoda uvršˇcanja se ob kontroliranem vplivu števila vkljuˇcenih spremenljivk med seboj ne razlikujeta
statistiˇcno znaˇcilno, z izjemo plošˇcine pod ROC-krivuljo, pri kateri metoda uvršˇcanja kaže
statistiˇcno znaˇcilno razliko. Metoda izbire spremenljivk je z merami natanˇcnosti uvršˇcanja
statistiˇcno znaˇcilno povezana pri vseh obravnavanih merah. Kovariata je z natanˇcnostjo
uvršˇcanja statistiˇcno znaˇcilno povezana pri napaki uvršˇcanja, specifiˇcnosti in plošˇcini pod
ROC-krivuljo.
Statistiˇcno znaˇcilnost razlik smo razˇclenili s pomoˇcjo naknadnih primerjav, za kar smo
Tabela 8.31: Povzetek ANCOVA za preverjanje uˇcinkov metod zmanjševanja razsežnosti, metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na
specifiˇcnost
Vir razpršenosti
Redukcija
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
174
SS
df
MS
F
Pr
<0.01
<0.01
0.01
0.01
0.03
1
1
3
1
73
<0.01
<0.01
<0.01
0.01
<0.01
2.09
3.87
9.20
24.21
0.153
0.053
<0.001
<0.001
8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje
Tabela 8.32: Povzetek ANCOVA za preverjanje uˇcinkov metod zmanjševanja razsežnosti, metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na
plošˇcino pod ROC-krivuljo
Vir razpršenosti
Redukcija
Uvršˇcanje
Izbira spremenljivk
Št. spremenljivk
Ostanki
SS
df
MS
F
Pr
<0.01
<0.02
<0.01
0.01
0.01
1
1
3
1
73
<0.01
0.02
<0.01
0.01
<0.01
2.05
123.96
22.55
44.79
0.157
<0.001
<0.001
<0.001
Tabela 8.33: Naknadne primerjave med metodami zmanjševanja razsežnosti, metodami
uvršˇcanja in metodami izbire spremenljivk za napako uvršˇcanja
Primerjava
PLS–PCA
LD–LDA
Welch–t-test
LIMMA–t-test
Rnd–t-test
LIMMA–Welch
Rnd–Welch
Rnd–LIMMA
D
LL
0.00
0.00
0.00
0.00
0.02
−0.01
0.02
0.02
−0.01
0.00
−0.01
−0.01
0.01
−0.01
0.01
0.02
UL
0.00
0.01
0.01
0.01
0.03
0.00
0.03
0.03
Pr
0.229
0.337
0.999
0.597
<0.001
0.522
<0.001
<0.001
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
uporabili Tukeyjev test HSD. Povzetke naknadnih primerjav prikazujemo loˇceno za napako uvršˇcanja (tabela 8.33), obˇcutljivost (tabela 8.34), specifiˇcnost (tabela 8.35) in plošˇcino
pod ROC-krivuljo (tabela 8.36). Vzorec naknadnih primerjav kaže, da gre statistiˇcna znaˇcilnost razlik v metodah izbire spremenljivk izkljuˇcno na raˇcun sluˇcajne izbire prediktorskih
spremenljivk.
Na slikah 8.9–8.12 so prikazani CD-diagrami za napako uvršˇcanja, obˇcutljivost, specifiˇcnost in plošˇcino pod ROC-krivuljo. Prikazane vrednosti so povpreˇcene preko razliˇcnih
metod izbire spremenljivk in razliˇcnega števila vkljuˇcenih spremenljivk. Z izjemo plošˇcine
pod ROC-krivuljo med metodami ne prihaja do pomembnih razlik.
8.3 Vpliv diskretizacije zveznih spremenljivk na uvrščanje
8.3.1 Pregled mer natančnosti uvrščanja
V tabelah 8.37–8.41 so zbrani rezultati uvršˇcanja diskretiziranih podatkovij. Za vsako
metodo uvršˇcanja podajamo njen dosežek za (i) izbrano kombinacijo metode diskretizacije
ter (ii) razliˇcno število spremenljivk. Loˇceno prikazujemo rezultate za toˇcnost uvršˇcanja
175
8 Rezultati
Tabela 8.34: Naknadne primerjave med metodami zmanjševanja razsežnosti, metodami
uvršˇcanja in metodami izbire spremenljivk za obˇcutljivost
Primerjava
PLS–PCA
LD–LDA
Welch–t-test
LIMMA–t-test
Rnd–t-test
LIMMA–Welch
Rnd–Welch
Rnd–LIMMA
D
LL
UL
Pr
0.01
0.00
0.00
0.00
−0.04
0.01
−0.04
−0.05
0.00
−0.01
−0.02
−0.01
−0.06
−0.01
−0.06
−0.06
0.02
0.00
0.01
0.02
−0.03
0.02
−0.02
−0.03
0.075
0.294
0.944
0.893
<0.001
0.587
<0.001
<0.001
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
Tabela 8.35: Naknadne primerjave med metodami zmanjševanja razsežnosti, metodami
uvršˇcanja in metodami izbire spremenljivk za specifiˇcnost
Primerjava
PLS–PCA
LD–LDA
Welch–t-test
LIMMA–t-test
Rnd–t-test
LIMMA–Welch
Rnd–Welch
Rnd–LIMMA
D
LL
UL
Pr
0.01
0.01
0.00
0.00
−0.02
0.00
−0.03
−0.03
0.00
0.00
−0.01
−0.01
−0.04
−0.01
−0.04
−0.04
0.02
0.02
0.02
0.02
−0.01
0.02
−0.01
−0.01
0.153
0.053
0.991
0.904
0.001
0.981
<0.001
<0.001
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
Tabela 8.36: Naknadne primerjave med metodami zmanjševanja razsežnosti, metodami
uvršˇcanja in metodami izbire spremenljivk za plošˇcino pod ROC-krivuljo
Primerjava
PLS–PCA
LD–LDA
Welch–t-test
LIMMA–t-test
Rnd–t-test
LIMMA–Welch
Rnd–Welch
Rnd–LIMMA
D
LL
UL
Pr
0.00
−0.03
0.00
0.00
−0.03
0.00
−0.02
−0.02
0.00
−0.03
−0.01
−0.01
−0.03
−0.01
−0.03
−0.03
0.01
−0.02
0.01
0.01
−0.02
0.01
−0.01
−0.01
0.157
<0.001
0.933
0.990
<0.001
0.991
<0.001
<0.001
Legenda: D – razlika med primerjavama, LL – spodnja meja, UL
– zgornja meja. Za razlago oznak primerjav gl. besedilo.
176
8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje
CD
1
2
3
4
PLS-LDA
PLS-LD
PCA-LDA
PCA-LD
Slika 8.9: Razvrstitev kombinacij metod za zmanjševanje razsežnosti in metod uvršˇcanja
nad realnimi podatkovji glede na napako uvršˇcanja. Vrednosti so povpreˇcene
preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk.
Za razlago oznak metod gl. besedilo.
CD
1
2
3
4
PLS-LDA
PCA-LDA
PCA-LD
PLS-LD
Slika 8.10: Razvrstitev kombinacij metod za zmanjševanje razsežnosti in metod uvršˇcanja
nad realnimi podatkovji glede na obˇcutljivost. Vrednosti so povpreˇcene preko
razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za
razlago oznak metod gl. besedilo.
CD
1
PCA-LD
PCA-LDA
2
3
4
PLS-LD
PLS-LDA
Slika 8.11: Razvrstitev kombinacij metod za zmanjševanje razsežnosti in metod uvršˇcanja
nad realnimi podatkovji glede na specifiˇcnost. Vrednosti so povpreˇcene preko
razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za
razlago oznak metod gl. besedilo.
177
8 Rezultati
CD
1
PCA-LDA
PLS-LDA
2
3
4
PCA-LD
PLS-LD
Slika 8.12: Razvrstitev kombinacij metod za zmanjševanje razsežnosti in metod uvršˇcanja
nad realnimi podatkovji glede na plošˇcino pod ROC-krivuljo. Vrednosti so
povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih
spremenljivk. Za razlago oznak metod gl. besedilo.
(tabela 8.37), plošˇcino pod ROC-krivuljo (tabela 8.38), robustnost (tabela 8.39), stabilnost
(tabela 8.40) in preprostost (tabela 8.41).
Najmanjša povpreˇcna toˇcnost uvršˇcanja (Acc = 0.74) za metodo kNN je bila dosežena z
diskretizacijo po metodi EF s p = 20 vkljuˇcenimi spremenljivkami, najveˇcja (Acc = 0.81)
pa z metodo 1R s p = 100 spremenljivkami oz. z metodo ChiMerge s p = 200 vkljuˇcenimi
spremenljivkami. Pri metodi NB dosežemo najmanjšo toˇcnost (Acc = 0.40) z diskretizacijo
1R pri p = 500 spremenljivkah, najveˇcjo (Acc = 0.76) pa z diskretizacijo MDLP pri p = 100
oz. p = 500 vkljuˇcenih spremenljivkah. Pri metodi uvršˇcanja C4.5 znaša najmanjša toˇcnost
Acc = 0.68 in je bila dosežena s diskretizacijo EF pri p = 200 spremenljivkah, najveˇcja
toˇcnost pa znaša Acc = 0.74 in je bila dosežena z diskretizacijo MDLP pri p = 20
oz. p = 50 vkljuˇcenih spremenljivkah.
Najmanjša povpreˇcna plošˇcina pod ROC-krivuljo (AUC = 0.82) za metodo kNN je
dosežena z diskretizacijo po metodi EF s p = 20, 50, 100, 200 vkljuˇcenimi spremenljivkami,
najveˇcja (AUC = 0.86) pa z metodo MDLP s p = 50 spremenljivkami. Pri metodi
NB dosežemo najmanjšo toˇcnost (AUC = 0.81) z diskretizacijo MDLP pri p = 500
spremenljivkah, najveˇcjo (AUC = 0.87) pa z diskretizacijo 1R pri p = 50 vkljuˇcenih
spremenljivkah. Pri metodi uvršˇcanja C4.5 znaša najmanjša toˇcnost AUC = 0.71 in je bila
dosežena s diskretizacijo EF pri p = 50, 200, 500 spremenljivkah, najveˇcja toˇcnost pa znaša
AUC = 0.77 in je bila dosežena z diskretizacijo MDLP pri p = 20 oz. p = 50 vkljuˇcenih
spremenljivkah.
Najmanjša povpreˇcna robustnost (Rob = 0.80) za metodo kNN je dosežena z diskretizacijo
po metodi EF s p = 500 vkljuˇcenimi spremenljivkami, najveˇcja (Rob = 0.85) pa z
metodo 1R s p = 100 spremenljivkami. Pri metodi NB dosežemo najmanjšo robustnost
(Rob = 0.82) z diskretizacijo MDLP pri p = 200 spremenljivkah, najveˇcjo (Rob = 0.89) pa
z diskretizacijami EW, ChiMerge in 1R pri p = 20 oz. p = 500 vkljuˇcenih spremenljivkah.
Pri metodi uvršˇcanja C4.5 znaša najmanjša robustnost Rob = 0.70 in je bila dosežena s
diskretizacijo EF pri p = 200 spremenljivkah, najveˇcja toˇcnost pa znaša Rob = 0.79 in je
bila dosežena z diskretizacijo MDLP pri p = 20 vkljuˇcenih spremenljivkah.
Najmanjša povpreˇcna stabilnost (Sta = 0.58) je dosežena z metodo 1R pri p = 500
vkljuˇcenih spremenljivkah, najveˇcja (Sta = 0.96) pa pri metodi MDLP s p = 100 oz. p =
178
8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje
Tabela 8.37: Povpreˇcna toˇcnost uvršˇcanja pri uvršˇcanju primerov za diskretizirana podatkovja. Prikazan je prerez za razliˇcne metode diskretizacije, metode uvršˇcanja
in število spremenljivk.
p
kNN
Cont
EW
EF
CM
1R
MDLP
0.79
0.77
0.74
0.78
0.78
0.77
NB
Cont
EW
EF
CM
1R
MDLP
0.42
0.45
0.45
0.42
0.42
0.74
C4.5
20
Cont
EW
EF
CM
1R
MDLP
0.74
0.72
0.71
0.74
0.72
0.74
50
± 0.20
± 0.20
± 0.18
± 0.20
± 0.20
± 0.22
0.81
0.79
0.76
0.81
0.80
0.80
± 0.19
± 0.19
± 0.16
± 0.21
± 0.21
± 0.18
0.75
0.72
0.70
0.74
0.72
0.74
± 0.17
± 0.20
± 0.20
± 0.17
± 0.17
± 0.23
0.41
0.45
0.45
0.41
0.41
0.76
100
± 0.19
± 0.20
± 0.18
± 0.19
± 0.19
± 0.19
0.80
0.77
0.76
0.80
0.81
0.79
± 0.18
± 0.20
± 0.15
± 0.20
± 0.20
± 0.19
0.76
0.71
0.69
0.72
0.71
0.73
± 0.17
± 0.20
± 0.20
± 0.17
± 0.18
± 0.23
0.41
0.45
0.44
0.40
0.41
0.76
200
± 0.20
± 0.20
± 0.17
± 0.20
± 0.18
± 0.20
0.80
0.77
0.76
0.81
0.80
0.79
± 0.20
± 0.20
± 0.16
± 0.21
± 0.20
± 0.19
0.74
0.70
0.68
0.71
0.71
0.71
± 0.16
± 0.21
± 0.19
± 0.16
± 0.17
± 0.22
0.41
0.45
0.44
0.41
0.41
0.75
500
± 0.19
± 0.21
± 0.20
± 0.18
± 0.19
± 0.20
0.79
0.77
0.76
0.80
0.79
0.79
± 0.19
± 0.21
± 0.15
± 0.22
± 0.18
± 0.20
0.76
0.69
0.70
0.70
0.71
0.72
± 0.17
± 0.21
± 0.20
± 0.17
± 0.17
± 0.23
0.41
0.44
0.44
0.41
0.40
0.76
± 0.20
± 0.20
± 0.19
± 0.20
± 0.21
± 0.20
± 0.16
± 0.19
± 0.20
± 0.16
± 0.17
± 0.22
± 0.19
± 0.20
± 0.16
± 0.24
± 0.19
± 0.21
Legenda: Cont – zvezne spremenljivke, EW – enaka širina intervalov, EF – enaka zastopanost intervalov, CM – ChiMerge, p – št. spremenljivk. Za pojasnilo k metodam gl. besedilo.
500 spremenljivkami.
Najmanjša preprostost (Pre = 2.07) je dosežena z uporabo metode MDLP pri p = 500
vkljuˇcenih spremenljivkah, najveˇcja (Pre = 9.80) pa pri metodi 1R s p = 500 vkljuˇcenimi
spremenljivkami.
8.3.2 Ovrednotenje učinka metode diskretizacije in metode uvrščanja na
uvrščanje
Vpliv metode diskretizacije in metode uvršˇcanja na dosežek pri uvršˇcanju smo preverili s
pomoˇcjo analize kovariance. Kot kovariato smo v analizo vkljuˇcili število spremenljivk.
Loˇceno prikazujemo povzetke analize kovariance za toˇcnost uvršˇcanja (tabela 8.42),
plošˇcino pod ROC-krivuljo (tabela 8.43), robustnost (tabela 8.44), stabilnost (tabela 8.45)
in preprostost (tabela 8.46).
Glede na toˇcnost uvršˇcanja in plošˇcino pod ROC-krivuljo se metode diskretizacije med
seboj statistiˇcno znaˇcilno razlikujejo. Prav tako na obeh merah natanˇcnosti uvršˇcanja
179
8 Rezultati
Tabela 8.38: Povpreˇcna plošˇcina pod ROC-krivuljo pri uvršˇcanju primerov za diskretizirana podatkovja. Prikazan je prerez za razliˇcne metode diskretizacije, metode
uvršˇcanja in število spremenljivk.
p
kNN
Cont
EW
EF
CM
1R
MDLP
0.82
0.83
0.82
0.83
0.84
0.85
NB
Cont
EW
EF
CM
1R
MDLP
0.86
0.84
0.84
0.85
0.85
0.85
C4.5
20
Cont
EW
EF
CM
1R
MDLP
0.77
0.75
0.74
0.76
0.75
0.77
50
± 0.20
± 0.16
± 0.16
± 0.19
± 0.17
± 0.15
0.84
0.83
0.82
0.84
0.83
0.86
± 0.16
± 0.16
± 0.14
± 0.17
± 0.19
± 0.16
0.78
0.76
0.71
0.76
0.75
0.77
± 0.15
± 0.17
± 0.15
± 0.16
± 0.17
± 0.15
0.87
0.85
0.85
0.86
0.87
0.86
100
± 0.18
± 0.17
± 0.17
± 0.17
± 0.18
± 0.15
0.84
0.84
0.82
0.85
0.84
0.84
± 0.15
± 0.17
± 0.15
± 0.17
± 0.17
± 0.17
0.77
0.75
0.72
0.75
0.74
0.76
± 0.15
± 0.16
± 0.15
± 0.17
± 0.15
± 0.15
0.86
0.85
0.85
0.86
0.86
0.84
200
± 0.16
± 0.16
± 0.16
± 0.17
± 0.16
± 0.18
0.85
0.85
0.82
0.84
0.84
0.85
± 0.19
± 0.16
± 0.14
± 0.18
± 0.17
± 0.16
0.76
0.74
0.71
0.76
0.76
0.74
± 0.15
± 0.16
± 0.13
± 0.16
± 0.16
± 0.19
0.85
0.83
0.84
0.85
0.85
0.84
500
± 0.17
± 0.15
± 0.17
± 0.17
± 0.16
± 0.16
0.84
0.82
0.83
0.85
0.84
0.85
± 0.17
± 0.17
± 0.14
± 0.17
± 0.14
± 0.17
0.79
0.72
0.71
0.76
0.74
0.74
± 0.15
± 0.16
± 0.13
± 0.15
± 0.15
± 0.16
0.84
0.81
0.82
0.85
0.86
0.81
± 0.16
± 0.18
± 0.16
± 0.17
± 0.17
± 0.16
± 0.15
± 0.16
± 0.13
± 0.15
± 0.13
± 0.20
± 0.16
± 0.18
± 0.16
± 0.16
± 0.16
± 0.19
Legenda: Cont – zvezne spremenljivke, EW – enaka širina intervalov, EF – enaka zastopanost intervalov, CM – ChiMerge, p – št. spremenljivk. Za pojasnilo k metodam gl. besedilo.
180
8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje
Tabela 8.39: Povpreˇcna robustnost pri uvršˇcanju primerov za diskretizirana podatkovja.
Prikazan je prerez za razliˇcne metode diskretizacije, metode uvršˇcanja in
število spremenljivk.
p
kNN
EW
EF
CM
1R
MDLP
0.83
0.81
0.83
0.83
0.83
NB
EW
EF
CM
1R
MDLP
0.90
0.89
0.89
0.89
0.84
C4.5
20
EW
EF
CM
1R
MDLP
0.76
0.74
0.76
0.75
0.79
50
± 0.18
± 0.16
± 0.18
± 0.18
± 0.20
0.84
0.81
0.84
0.84
0.85
± 0.17
± 0.15
± 0.20
± 0.20
± 0.16
0.75
0.72
0.75
0.73
0.78
± 0.15
± 0.14
± 0.15
± 0.15
± 0.19
0.90
0.89
0.89
0.89
0.88
100
± 0.18
± 0.16
± 0.17
± 0.17
± 0.16
0.82
0.81
0.83
0.85
0.83
± 0.19
± 0.14
± 0.19
± 0.20
± 0.18
0.72
0.70
0.73
0.72
0.75
± 0.15
± 0.14
± 0.15
± 0.16
± 0.25
0.90
0.88
0.88
0.88
0.86
200
± 0.19
± 0.15
± 0.19
± 0.17
± 0.19
0.81
0.81
0.84
0.84
0.82
± 0.20
± 0.16
± 0.21
± 0.20
± 0.19
0.72
0.70
0.73
0.72
0.73
± 0.19
± 0.18
± 0.20
± 0.20
± 0.16
0.90
0.88
0.88
0.88
0.82
500
± 0.19
± 0.19
± 0.17
± 0.18
± 0.19
0.82
0.80
0.83
0.83
0.82
± 0.21
± 0.14
± 0.22
± 0.18
± 0.20
0.70
0.71
0.71
0.72
0.73
± 0.17
± 0.17
± 0.17
± 0.18
± 0.20
0.89
0.88
0.88
0.88
0.84
± 0.18
± 0.18
± 0.19
± 0.19
± 0.19
± 0.16
± 0.15
± 0.16
± 0.18
± 0.16
± 0.19
± 0.15
± 0.24
± 0.19
± 0.21
Legenda: Cont – zvezne spremenljivke, EW – enaka širina intervalov, EF – enaka zastopanost intervalov, CM – ChiMerge, p – št. spremenljivk. Za pojasnilo k metodam gl. besedilo.
Tabela 8.40: Povpreˇcna stabilnost pri uvršˇcanju primerov za diskretizirana podatkovja.
Prikazan je prerez za razliˇcne metode diskretizacije in število spremenljivk.
p
20
EW
EF
CM
1R
MDLP
0.78
0.75
0.70
0.59
0.96
± 0.03
± 0.03
± 0.04
± 0.03
± 0.02
50
0.78
0.75
0.70
0.59
0.96
± 0.03
± 0.03
± 0.05
± 0.04
± 0.02
100
0.78
0.74
0.70
0.59
0.96
± 0.03
± 0.03
± 0.05
± 0.03
± 0.02
200
0.78
0.74
0.70
0.58
0.96
± 0.03
± 0.03
± 0.05
± 0.03
± 0.02
500
0.79
0.73
0.70
0.58
0.96
± 0.03
± 0.03
± 0.05
± 0.03
± 0.02
Legenda: Cont – zvezne spremenljivke, EW – enaka širina intervalov, EF – enaka zastopanost
intervalov, CM – ChiMerge, p – št. spremenljivk. Za pojasnilo k metodam gl. besedilo.
181
8 Rezultati
Tabela 8.41: Povpreˇcna preprostost pri uvršˇcanju primerov za diskretizirana podatkovja.
Prikazan je prerez za razliˇcne metode diskretizacije in število spremenljivk.
p
20
EW
EF
CM
1R
MDLP
3.00
3.00
5.04
9.10
2.32
± 0.00
± 0.00
± 1.38
± 1.43
± 0.51
50
3.00
3.00
5.20
9.25
2.21
100
± 0.03
± 0.00
± 1.55
± 1.62
± 0.42
3.00
3.00
5.10
9.30
2.17
± 0.01
± 0.00
± 1.50
± 1.67
± 0.40
200
3.00
3.00
5.14
9.52
2.13
500
± 0.01
± 0.00
± 1.53
± 1.65
± 0.38
3.00
3.00
5.20
9.80
2.07
± 0.04
± 0.00
± 1.58
± 1.65
± 0.29
Legenda: Cont – zvezne spremenljivke, EW – enaka širina intervalov, EF – enaka zastopanost
intervalov, CM – ChiMerge, p – št. spremenljivk. Za pojasnilo k metodam gl. besedilo.
Tabela 8.42: Povzetek ANCOVA za preverjanje uˇcinkov metod diskretizacije in uvršˇcanja
na toˇcnost uvršˇcanja
Vir razpršenosti
SS
df
MS
F
Pr
Diskretizacija
Uvršˇcanje
Št. spremenljivk
Ostanki
0.17
1.56
<0.01
0.31
5
2
1
81
0.03
0.78
<0.01
<0.01
8.64
201.75
0.12
<0.001
<0.001
0.729
Tabela 8.43: Povzetek ANCOVA za preverjanje uˇcinkov metod diskretizacije in uvršˇcanja
na plošˇcino pod ROC-krivuljo
Vir razpršenosti
SS
df
MS
F
Pr
Diskretizacija
Uvršˇcanje
Št. spremenljivk
Ostanki
<0.01
0.17
<0.01
0.01
5
2
1
81
<0.01
0.09
<0.01
<0.01
11.68
598.85
10.00
<0.001
<0.001
0.002
Tabela 8.44: Povzetek ANCOVA za preverjanje uˇcinkov metod diskretizacije in uvršˇcanja
na robustnost
182
Vir razpršenosti
SS
df
MS
F
Pr
Diskretizacija
Uvršˇcanje
Št. spremenljivk
Ostanki
<0.01
0.27
0.01
0.02
4
2
1
67
<0.01
0.14
<0.01
<0.01
2.05
434.97
10.24
0.097
<0.001
0.002
8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje
Tabela 8.45: Povzetek ANCOVA za preverjanje uˇcinkov metod diskretizacije na stabilnost
Vir razpršenosti
SS
df
MS
F
Pr
Diskretizacija
Št. spremenljivk
Ostanki
0.37
<0.01
<0.01
4
1
19
0.09
<0.01
<0.01
4766.47
3.44
<0.001
0.079
Tabela 8.46: Povzetek ANCOVA za preverjanje uˇcinkov metod diskretizacije na preprostost
Vir razpršenosti
SS
df
MS
F
Pr
Diskretizacija
Št. spremenljivk
Ostanki
11.15
0.02
0.11
4
1
19
2.79
0.02
0.01
480.02
3.75
<0.001
0.068
prihaja do razlik v metodi uvršˇcanja. Število prediktorskih spremenljivk na toˇcnost
in plošˇcino pod ROC-krivuljo ne kaže statistiˇcno znaˇcilnega uˇcinka. Pri robustnosti
se metode diskretizacije med seboj ne razlikujejo statistiˇcno znaˇcilno, medtem ko je
uˇcinek metod uvršˇcanja statistiˇcno znaˇcilen. Prav tako prihaja do statistiˇcno znaˇcilnih
razlik v številu prediktorskih spremenljivk. Pri merah stabilnosti in preprostosti najdemo
statistiˇcno znaˇcilne razlike med metodami diskretizacije, v številu spremenljivk pa ne
prihaja do znaˇcilnih razlik.
Statistiˇcno znaˇcilnost razlik smo razˇclenili s pomoˇcjo naknadnih primerjav, ki smo jih izvedli s pomoˇcjo Tukeyjevega testa HSD. Povzetke naknadnih primerjav prikazujemo loˇceno
za toˇcnost uvršˇcanja (tabela 8.47), plošˇcino pod ROC-krivuljo (tabela 8.48), robustnost
(tabela 8.49), stabilnost (tabela 8.50) in preprostost (tabela 8.51).
Vzorec naknadnih primerjav kaže, da gredo pri toˇcnosti uvršˇcanja razlike med metodami
diskretizacije predvsem na raˇcun metode MDLP, ki se v vseh primerjavah odreže najbolje.
Med metodami uvršˇcanja se najbolje odreže metoda kNN. Vzorec naknadnih primerjav
za plošˇcino pod ROC-krivuljo ni enoznaˇcen; v primerjavah izstopata metodi ChiMerge
in MDLP. Pri robustnosti izstopa algoritem C4.5. Meri stabilnosti in preprostosti kažeta
znaˇcilne razlike v vseh primerjavah.
Na slikah 8.13–8.17 so prikazani CD-diagrami za toˇcnost uvršˇcanja, plošˇcino pod ROCkrivuljo, robustnost, stabilnost in preprostost. Vrednosti so povpreˇcene preko razliˇcnih
metod uvršˇcanja in števila vkljuˇcenih spremenljivk. V povpreˇcju se metoda MDLP najbolje
odreže glede na toˇcnost uvršˇcanja, stabilnost in preprostost. Metoda ChiMerge doseže
najveˇcjo plošˇcino pod ROC-krivuljo ter najvišjo robustnost. Z izjemo preprostosti se
metoda EF na vseh merah kakovosti diskretizacije odreže najslabše.
183
8 Rezultati
Tabela 8.47: Naknadne primerjave med metodami diskretizacije in metodami uvršˇcanja
za toˇcnost uvršˇcanja
Primerjava
D
LL
UL
Pr
Cont–CM
MDLP–CM
EF–CM
EW–CM
1R–CM
MDLP–Cont
EF–Cont
EW–Cont
1R–Cont
EF–MDLP
EW–MDLP
1R–MDLP
EW–EF
1R–EF
1R–EW
0.01
0.11
−0.01
0.00
0.00
0.10
−0.02
−0.01
−0.02
−0.13
−0.11
−0.12
0.01
0.01
0.00
0.08
0.18
0.06
0.07
0.06
0.17
0.04
0.06
0.05
−0.06
−0.05
−0.05
0.08
0.07
0.06
0.996
<0.001
0.997
1.000
1.000
<0.001
0.924
0.997
0.985
<0.001
<0.001
<0.001
0.996
1.000
1.000
NB–kNN
C4.5–kNN
C4.5–NB
−0.31
−0.07
0.24
−0.06
0.05
−0.08
−0.07
−0.07
0.04
−0.09
−0.08
−0.08
−0.19
−0.18
−0.18
−0.06
−0.06
−0.07
−0.27
−0.03
0.28
<0.001
<0.001
<0.001
−0.35
−0.11
0.20
Legenda: D – razlika med primerjavama, LL – spodnja meja,
UL – zgornja meja. Za razlago oznak primerjav gl. besedilo.
CD
1
MDLP
Cont
CM
2
3
4
5
6
EF
EW
1R
Slika 8.13: Razvrstitev metod diskretizacije glede na toˇcnost uvršˇcanja. Vrednosti so
povpreˇcene preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk.
Za razlago oznak metod gl. besedilo.
184
8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje
Tabela 8.48: Naknadne primerjave med metodami diskretizacije in metodami uvršˇcanja
za plošˇcino pod ROC-krivuljo
Primerjava
D
LL
UL
Pr
Cont–CM
MDLP–CM
EF–CM
EW–CM
1R–CM
MDLP–Cont
EF–Cont
EW–Cont
1R–Cont
EF–MDLP
EW–MDLP
1R–MDLP
EW–EF
1R–EF
1R–EW
0.00
0.00
−0.03
−0.01
0.00
−0.01
−0.03
−0.02
−0.01
−0.02
−0.01
0.00
0.01
0.02
0.01
−0.01
−0.02
−0.04
−0.03
−0.02
−0.02
−0.04
−0.03
−0.02
−0.03
−0.02
−0.01
0.00
0.01
0.00
0.02
0.01
−0.01
0.00
0.01
0.00
−0.02
−0.01
0.01
−0.01
0.00
0.01
0.02
0.03
0.02
0.923
0.933
<0.001
0.032
0.954
0.393
<0.001
0.002
0.442
<0.001
0.279
1.000
0.105
<0.001
0.242
NB–kNN
C4.5–kNN
C4.5–NB
0.010 0.00
−0.088 −0.10
−0.098 −0.11
0.02
−0.08
−0.09
0.005
<0.001
<0.001
Legenda: D – razlika med primerjavama, LL – spodnja meja,
UL – zgornja meja. Za razlago oznak primerjav gl. besedilo.
Tabela 8.49: Naknadne primerjave med metodami diskretizacije in metodami uvršˇcanja
za robustnost
Primerjava
D
LL
MDLP–CM
EF–CM
EW–CM
1R–CM
EF–MDLP
EW–MDLP
1R–MDLP
EW–EF
1R–EF
1R–EW
−0.01
−0.02
0.00
0.00
−0.01
0.01
0.01
0.02
0.01
0.00
NB–kNN
C4.5–kNN
C4.5–NB
0.05
−0.10
−0.15
−0.03
−0.03
−0.02
−0.02
−0.03
−0.01
−0.01
0.00
0.00
−0.02
0.04
−0.11
−0.16
UL
Pr
0.01
0.00
0.02
0.02
0.01
0.02
0.02
0.03
0.03
0.02
0.783
0.112
1.000
0.998
0.680
0.879
0.924
0.170
0.216
1.000
0.06
−0.08
−0.13
<0.001
<0.001
<0.001
Legenda: D – razlika med primerjavama, LL – spodnja meja,
UL – zgornja meja. Za razlago oznak primerjav gl. besedilo.
185
8 Rezultati
Tabela 8.50: Naknadne primerjave med metodami diskretizacije in metodami uvršˇcanja
za stabilnost
Primerjava
D
LL
UL
CM–1R
EF–1R
EW–1R
MDLP–1R
EF–CM
EW–CM
MDLP–CM
EW–EF
MDLP–EF
MDLP–EW
0.11
0.16
0.19
0.37
0.04
0.08
0.26
0.04
0.22
0.18
0.11
0.15
0.19
0.36
0.03
0.07
0.25
0.03
0.21
0.17
0.12
0.16
0.20
0.38
0.05
0.09
0.27
0.05
0.23
0.19
Pr
<0.001
<0.001
<0.001
<0.001
<0.001
<0.001
<0.001
<0.001
<0.001
<0.001
Legenda: D – razlika med primerjavama, LL – spodnja meja,
UL – zgornja meja. Za razlago oznak primerjav gl. besedilo.
Tabela 8.51: Naknadne primerjave med metodami diskretizacije in metodami uvršˇcanja
za preprostost
Primerjava
D
LL
UL
Pr
CM–1R
EF–1R
EW–1R
MDLP–1R
EF–CM
EW–CM
MDLP–CM
EW–EF
MDLP–EF
MDLP–EW
0.04
−0.69
−0.84
−1.79
−0.73
−0.88
−1.83
−0.15
−1.10
−0.95
−0.11
−0.84
−0.98
−1.93
−0.87
−1.02
−1.97
−0.29
−1.24
−1.10
0.18
−0.55
−0.69
−1.64
−0.58
−0.73
−1.68
0.00
−0.95
−0.81
0.930
<0.001
<0.001
<0.001
<0.001
<0.001
<0.001
0.043
<0.001
<0.001
Legenda: D – razlika med primerjavama, LL – spodnja meja,
UL – zgornja meja. Za razlago oznak primerjav gl. besedilo.
186
8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje
CD
1
2
3
4
5
6
Cont
CM
1R
EF
EW
MDLP
Slika 8.14: Razvrstitev metod diskretizacije glede na plošˇcino pod ROC-krivuljo. Vrednosti so povpreˇcene preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih
spremenljivk. Za razlago oznak metod gl. besedilo.
CD
1
2
3
4
5
CM
1R
EW
EF
MDLP
Slika 8.15: Razvrstitev metod diskretizacije glede na robustnost. Vrednosti so povpreˇcene
preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk. Za razlago
oznak metod gl. besedilo.
CD
1
MDLP
EW
CM
2
3
4
5
EF
1R
Slika 8.16: Razvrstitev metod diskretizacije glede na stabilnost. Vrednosti so povpreˇcene
preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk. Za razlago
oznak metod gl. besedilo.
187
8 Rezultati
CD
1
MDLP
EW
1R
2
3
4
5
CM
EF
Slika 8.17: Razvrstitev metod diskretizacije glede na preprostost. Vrednosti so povpreˇcene
preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk. Za razlago
oznak metod gl. besedilo.
188
9 Razprava
9.1 Povzetek rezultatov
V DNA-mikromrežnem poskusu so podatki predstavljeni v obliki podatkovne tabele, v
kateri število merjenih genov moˇcno presega število posameznih primerov. V klasiˇcnem
eksperimentu npr. merimo veˇc 10 000 genov na nekaj desetih primerih. Problem mnogorazsežnosti prinaša s seboj svojevrstne statistiˇcne težave, zato pri analizi mikromrežnih
eksperimentov obiˇcajnih statistiˇcnih postopkov ne moremo uporabiti. Mnogorazsežno
podatkovno strukturo poskušamo cˇ im bolj skrˇciti in pri tem ohraniti karseda veliko
informacije merskih spremenljivk. V ta namen uporabljamo razliˇcne postopke za (i) izbiro
spremenljivk in (ii) konstrukcijo novih, latentnih spremenljivk. V okvir poenostavljanja
podatkovne strukture sodi tudi diskretizacija merskih spremenljivk. Diskretizacijo je
namreˇc smiselno uporabiti predvsem zaradi lažje in uˇcinkovitejše predstavitve podatkov
ter hitrejšega strojnega uˇcenja. Sistematiˇcen pregled empiriˇcne evidence je pokazal, da so
za uvršˇcanje, krˇcenje podatkovne tabele in diskretizacijo na voljo številne metode, ki pa
niso ustrezno ovrednotene. Z doktorskim delom smo poskušali to vrzel zapolniti.
V doktorskem delu smo obravnavali tri problemske naloge. V prvem sklopu eksperimentov smo prouˇcili kakovost razliˇcnih klasifikatorjev v nalogi uvršˇcanja primerov v dva
vnaprej podana razreda. Uporabili smo nekatere najpogosteje uporabljene metode, kot so
npr. nevronske mreže, metoda najbližjih sosedov, klasifikacijska drevesa z nakljuˇcnimi
gozdovi, metoda podpornih vektorjev, logistiˇcna regresija s kaznijo ter tri izpeljanke
linearne diskriminantne analize (Fisherjeva, klasiˇcna in diagonalna). V drugi problemski
nalogi smo analizirali vpliv metod za krˇcenje števila razsežnosti na uvršˇcanje. Podrobno
smo prouˇcili vpliv analize glavnih komponent in metode delnih najmanjših kvadratov
na kakovost uvršˇcanja. Pri tem smo se omejili na dva klasifikatorja, klasiˇcno linearno
diskriminantno analizo in logistiˇcno diskriminacijo. V tretjem sklopu smo prouˇcili vpliv
diskretizacije neodvisnih spremenljivk na uvršˇcanje. V analizo smo vkljuˇcili nekatere najpogosteje uporabljene algoritme diskretizacije, kot so npr. metode enake širine intervala,
enake zastopanosti intervalov, 1R, MDLP ter ChiMerge. V nadaljevanju razdelka strnjeno
povzamemo ugotovitve za vsak eksperimentalni sklop.
9.1.1 Vpliv metode uvrščanja in izbire spremenljivk na uvrščanje
Eksperimentalni naˇcrt je vkljuˇceval ovrednotenje vpliva razliˇcnih metod uvršˇcanja na
kakovost uvršˇcanja. V ta namen smo preizkusili: (i) devet metod uvršˇcanja, (ii) tri metode
za izbiro spremenljivk in (iii) razliˇcno število neodvisnih spremenljivk.
189
9 Razprava
Nad realnimi podatkovnimi tabelami se metode uvršˇcanja ob kontroliranem vplivu števila
neodvisnih spremenljivk med seboj statistiˇcno znaˇcilno razlikujejo na vseh štirih merah
kakovosti uvršˇcanja. Glede na kakovost uvršˇcanja se je najbolje odrezala metoda PLS. Metoda NNET se je na vseh merah kakovosti uvrstila najslabše. Analiza vzorcev naknadnih
primerjav je pokazala, da je bila glavni generator statistiˇcno znaˇcilnih razlik metoda NNET.
Ostali pari med seboj niso bili statistiˇcno znaˇcilno razliˇcni. Metoda izbora neodvisnih
spremenljivk z merami kakovosti ni bila statistiˇcno znaˇcilno povezana. Število vkljuˇcenih
spremenljivk je bilo z merami kakovosti statistiˇcno znaˇcilno povezano. Ko povpreˇcimo
rezultate preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk,
se glede na napako uvršˇcanja najbolje odrežejo metode PLR, RF in SVM, najslabše pa
metode NNET, FDA in LDA. Podoben vrstni red najdemo tudi pri povpreˇcenju rezultatov
glede na obˇcutljivost, specifiˇcnost in plošˇcino pod ROC-krivuljo.
Nad sintetiˇcnimi podatkovji se metode uvršˇcanja ob kontroliranem vplivu števila neodvisnih spremenljivk med seboj statistiˇcno znaˇcilno razlikujejo na vseh štirih merah kakovosti
uvršˇcanja. Pri uvršˇcanju se je najbolje odrezala metoda SVM. Analiza vzorcev naknadnih
primerjav je pokazala, da sta bila glavna generatorja statistiˇcno znaˇcilnih razlik metodi
diskriminantne analize (FDA in DLDA) ter metoda kNN. Ostali pari med seboj niso
pokazali izstopajoˇcega vzorca razlik. Metoda izbora neodvisnih spremenljivk z merami
kakovosti ni bila statistiˇcno znaˇcilno povezana, prav tako ne število vkljuˇcenih neodvisnih
spremenljivk. Ko povpreˇcimo rezultate preko razliˇcnih metod izbire spremenljivk in
števila vkljuˇcenih spremenljivk, se glede na napako uvršˇcanja najbolje odrežejo metode
SVM, NNET, PLR in RF, najslabše pa metode DLDA, FDA, LDA in kNN. Podoben vrstni
red najdemo tudi pri povpreˇcenju rezultatov glede na obˇcutljivost, specifiˇcnost in plošˇcino
pod ROC-krivuljo.
9.1.2 Vpliv metod za krčenje razsežnosti podatkovja na uvrščanje
Eksperimentalni naˇcrt je vkljuˇceval ovrednotenje vpliva metod krˇcenja podatkovne tabele
na uvršˇcanje. V ta namen smo preizkusili (i) dve metodi uvršˇcanja (LDA in LD), (ii) dve
metodi krˇcenja podatkovne tabele (PCA in PLS), (iii) štiri naˇcine izbora neodvisnih
spremenljivk (t-test, Welchev t-test, metodo LIMMA in izbor spremenljivk po sluˇcaju) ter
(iv) razliˇcno število neodvisnih spremenljivk.
Glede na izbrane mere kakovosti ni prišlo do statistiˇcno znaˇcilnih razlik med metodama
krˇcenja podatkovne tabele. Prav tako ne najdemo znaˇcilnih razlik med obema metodama
uvršˇcanja, z izjemo plošˇcine pod ROC-krivuljo. Mere kakovosti uvršˇcanja med kombinacijami metod krˇcenja PCA in PLS in metodama uvršˇcanja LDA in LD so približno enake.
Metode izbora neodvisnih spremenljivk so se med seboj statistiˇcno znaˇcilno razlikovale.
Analiza vzorcev naknadnih primerjav je pokazala, da gredo te razlike izkljuˇcno na raˇcun
sluˇcajnega izbora neodvisnih spremenljivk, medtem ko se ostali pari med seboj niso statistiˇcno znaˇcilno razlikovali. Število neodvisnih spremenljivk je bilo, z izjemo obˇcutljivosti,
s kakovostjo uvršˇcanja statistiˇcno znaˇcilno povezano. Ko rezultate povpreˇcimo preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk, med kombinacijami
metod zmanjševanja razsežnosti in metod uvršˇcanja ne najdemo statistiˇcno znaˇcilnih
razlik.
190
9.2 Primerjava rezultatov z obstojeˇco empiriˇcno evidenco
9.1.3 Vpliv diskretizacije zveznih spremenljivk na uvrščanje
Eksperimentalni naˇcrt je vkljuˇceval ovrednotenje vpliva razliˇcnih metod diskretizacije
na kakovost uvršˇcanja. V ta namen smo preizkusili: (i) pet metod diskretizacije, (ii) tri
metode uvršˇcanja in (iii) razliˇcno število neodvisnih spremenljivk.
Metode diskretizacije so se ob kontroliranem vplivu števila neodvisnih spremenljivk
med seboj statistiˇcno znaˇcilno razlikovale na vseh merah kakovosti diskretizacije, z
izjemo robustnosti. Pri uvršˇcanju je prišlo do statistiˇcno znaˇcilnih razlik pri toˇcnosti
uvršˇcanja, plošˇcini pod ROC-krivuljo in robustnosti. Analiza vzorcev naknadnih primerjav
je pokazala, da je bila glavni generator razlik pri toˇcnosti metoda diskretizacije MDLP.
Ostali pari niso pokazali znaˇcilnega vzorca povezanosti. Metoda MDLP se ponaša z
najboljšo toˇcnostjo uvršˇcanja, stabilnostjo in preprostostjo, metoda ChiMerge pa ima
najveˇcjo plošˇcino pod ROC-krivuljo ter najvišjo robustnost. Ko rezultate povpreˇcimo
preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk, se glede na toˇcnost
uvršˇcanja, stabilnost in preprostost najbolje odreže metoda MDLP, glede na plošˇcino pod
ROC-krivuljo in robustnost pa metoda ChiMerge.
9.2 Primerjava rezultatov z obstoječo empirično evidenco
9.2.1 Vpliv metode uvrščanja in izbire spremenljivk na uvrščanje
Poleg razvršˇcanja je strojno uvršˇcanje ena od najpogostejših nalog, s katero se sreˇcamo
pri analizi DNA-mikromrež (Basford, McLachlan & Rathnayake, 2013). Raziskav, ki so
prouˇcevale kakovost uvršˇcanja razliˇcnih klasifikatorjev, je ogromno. Veˇcina med njimi se
osredotoˇca na prouˇcevanje delovanja enega ali kveˇcjemu dveh klasifikatorjev. Zato se v
tem razdelku omejujemo le na izbor tistih raziskav, ki so vkljuˇcevale veˇcje število metod
uvršˇcanja.
Dudoit, Fridlyand in Speed (2002) poroˇcajo o raziskavi, v kateri so primerjali kakovost uvršˇcanja Fisherjeve, diagonalne in kvadratiˇcne diagonalne linearne diskriminantne analize,
metode najbližjih sosedov ter odloˇcitvenih dreves na treh razliˇcnih DNA-mikromrežnih
podatkovnih tabelah. Prostor neodvisnih spremenljivk so pred uvršˇcanjem skrˇcili z uporabo statistike BSS/WSS. Razmerje med uˇcno in testno množico podatkov je sledilo shemi
2 : 1. Kot mero kakovosti so uporabili število napaˇcnih uvrstitev primerov. Najboljše
rezultate uvršˇcanja so dosegli z diagonalno linearno diskriminantno analizo ter metodo
najbližjih sosedov, najslabše pa se je odrezala Fisherjeva diskriminantna analiza. Podoben
vrstni red klasifikatorjev opazimo tudi v našem primeru, kjer se na vseh izbranih merah
kakovosti diagonalna diskriminantna analiza uvršˇca bolje kot Fisherjeva diskriminantna
analiza. Prav tako je opaziti nekoliko boljše rezultate FLDA pri manjšem številu neodvisnih spremenljivk. Avtorji zakljuˇcujejo, da je razmerje med razpršenostjo primerov med
skupinami in znotraj skupin pri FLDA pri velikem številu neodvisnih spremenljivk nestabilno in privede do slabšega dosežka pri uvršˇcanju. Poleg tega poroˇcajo, da je rezultat
FLDA podoben DLDA, ko je število neodvisnih spremenljivk majhno (npr. p = 10).
191
9 Razprava
O podobni primerjalni analizi poroˇcajo B. Wu in sod. (2003). Avtorji so analizo sicer
opravili na podatkih o masni spektrometriji, ki pa so po strukturi podobni podatkom
DNA-mikromrež. Avtorji analizirajo le eno podatkovje, vendar so rezultati za nas kljub
temu zanimivi. Primerjali so kakovost uvršˇcanja linearne diskriminantne analize, kvadratiˇcne diskriminantne analize, metode najbližjih sosedov, odloˇcitvenih dreves, metode
podpornih vektorjev in nakljuˇcnih gozdov. Predhoden izbor neodvisnih spremenljivk
so opravili s t-testom. Najboljše rezultate so dosegli z metodo nakljuˇcnih gozdov. Kot
najbolj nestabilni sta se izkazali metodi LDA in QDA. Podoben vzorec kakovosti uvršˇcanja
najdemo tudi nad našimi realnimi podatki.
T. Li, Zhang in Ogihara (2004) so izvedli raziskavo, v kateri so se ukvarjali z uvršˇcanjem
veˇcrazrednih podatkovij. Za uvršˇcanje so uporabili štiri metode, in sicer SVM, NB, kNN
ter odloˇcitvena drevesa. Eksperimentalni naˇcrt je vkljuˇceval osem razliˇcnih statistik.
Kakovost uvršˇcanja so preizkusili na devetih razliˇcnih podatkovjih. Avtorji poroˇcajo, da
se je najbolje odrezal klasifikator SVM. Le malo slabše rezultate so dosegli z metodo kNN.
Kakovost NB in odloˇcitvenih dreves je bila slaba. Slab dosežek klasifikatorja NB povezujejo
s predpostavko NB, ki ne upošteva povezanosti med neodvisnimi spremenljivkami.
Pri metodah izbire spremenljivk niso zasledili pomembnih razlik. Opozarjajo tudi, da
predhodna izbira spremenljivk poslabša kakovost uvršˇcanja odloˇcitvenih dreves. Tudi
v naših eksperimentih se SVM uvršˇca zelo dobro, nad realnimi podatkovji obiˇcajno na
drugo mesto, takoj za metodo PLR. Pri sintetiˇcnih podatkih ga na treh merah kakovosti
(z izjemo specifiˇcnosti) zasledimo na prvem mestu.
O obširni primerjalni analizi poroˇcajo J. W. Lee, Lee, Park in Song (2005). Avtorji so v
analizo vkljuˇcili 21 razliˇcnih metod uvršˇcanja, tri razliˇcne metode izbire spremenljivk,
kakovost uvršˇcanja pa so ocenili na osnovi devetih realnih podatkovij. Avtorji ugotavljajo
dobro diskriminativno moˇc preprostih metod, kot sta npr. linearna diskriminantna analiza
(FLDA in DLDA) ter metoda najbližjih sosedov, v primerjavi z bolj kompleksnimi metodami, kot je npr. DQDA. Prve se bolje obnesejo na homogenih, druge pa na heterogenih
podatkih. DLDA se obnaša bolje kot FLDA. kNN dosega dobre rezultate pri manjšem številu razredov, DLDA pa uspe obvladovati podatkovja z veˇcjim številom razredov. Veˇcina
metod se obnaša bolje, cˇ e predhodno opravimo izbor najbolj informativnih spremenljivk.
V povpreˇcju se je najbolje odrezala metoda SVM.
Díaz-Uriarte in Alvarez de Andrés (2006) sta preverjala kakovost uvršˇcanja nakljuˇcnih
gozdov, v analizo pa sta za primerjavo vkljuˇcila tudi DLDA, kNN, SVM in metodo skrˇcenega centroida. Kakovost sta preverjala na 11 razliˇcnih DNA-podatkovjih in sintetiˇcnih
podatkih. Razlike med preizkušenimi metodami so bile majhne, najbolje pa se je odrezala
metoda SVM.
Metodološko vzorno raziskavo sta opravila Boulesteix in Strobl (2009); v njej sta ovrednotila kakovost uvršˇcanja 10 razliˇcnih klasifikatorjev. Njun eksperimentalni naˇcrt je kot
kovariate vkljuˇceval razliˇcno število neodvisnih spremenljivk, razliˇcne metode izbora
neodvisnih spremenljivk ter nekatere druge parametre uˇcenja, specifiˇcne za posamezne
klasifikatorje (npr. razliˇcno število sosedov pri metodi kNN). Skupaj sta konstruirala 124
razliˇcnih kombinacij klasifikatorjev. Parametre uˇcenja sta nastavila s pomoˇcjo preˇcnega
preverjanja, na enak naˇcin sta izraˇcunala tudi napako uvršˇcanja. Glavni oˇcitek njuni
raziskavi je nezadostno število vkljuˇcenih primerov, saj sta zakljuˇcke izpeljala le na osnovi
dveh realnih podatkovnih tabel in sintetiˇcnih podatkov. Rezultati so primerljivi z našimi;
192
9.2 Primerjava rezultatov z obstojeˇco empiriˇcno evidenco
najbolje se je odrezala metoda PLS, najslabše pa metoda NNET. Avtorja zakljuˇcujeta,
da so rezultati uvršˇcanja moˇcno odvisni od izbranih metod predpriprave podatkov in
izbrane metode uvršˇcanja, zato je smiselno v rezultatih poroˇcati o kakovosti veˇc razliˇcnih
pristopov.
V zadnjem cˇ asu je zaslediti poveˇcan trend raziskav, ki se ukvarjajo z izbiro zelo majhnega
nabora neodvisnih spremenljivk in njihovim vplivom na uvršˇcanje (F. Han, Sun & Ling,
2014; Jafari Koshki, Hajizadeh & Karimi, 2013; X. Wang & Simon, 2011; X. Wang, 2012).
Cilj teh raziskav je konstrukcija cˇ im bolj preprostih klasifikatorjev; raziskave primerjajo
razliˇcne klasifikatorje, med katerimi se najbolje odreže metoda SVM.
9.2.2 Vpliv metod za krčenje razsežnosti podatkovja na uvrščanje
Podobno kot v zgornjem razdelku se bomo tudi tu omejili na tiste raziskave, ki poroˇcajo
o medsebojni primerjavi veˇc metod krˇcenja podatkovne tabele. Boulesteix (2006) pravilno
ugotavlja, da je pomembnost primerjalnih analiz prav tako pomembna kot konstrukcija
novih metod za krˇcenje podatkovnih tabel. Še zlasti je to pomembno na podroˇcju analize
DNA-mikromrež, kjer nam hitrost razvoja novih pristopov zastira celovit pregled nad
podroˇcjem.
Prvo resno primerjalno raziskavo sta izvedla D. V. Nguyen in Rocke (2002b). Avtorja
sta za krˇcenje mikromrežne podatkovne tabele predlagala metodo PLS. Do tedaj se je
metoda PLS uporabljala predvsem v kemometriji, kjer je bila (oz. so bile) neodvisna
spremenljivka razmernostna. D. V. Nguyen in Rocke (2002b) sta za krˇcenje ohranila jedro
metode PLS. Predelan algoritem sta preizkusila na petih realnih podatkovjih. Predhoden
izbor neodvisnih spremenljivk sta pripravila s t-testom. Metodo PLS sta primerjala s
klasiˇcnim postopkom PCA v kombinaciji z logistiˇcno diskriminacijo oz. metodo DLDA.
Njuni rezultati ne odkrivajo pomembnih razlik v kakovosti uvršˇcanja glede na postopek
krˇcenja podatkovne tabele. Avtorja sta metodo razširila tudi na veˇcrazredni problem
uvršˇcanja (D. V. Nguyen & Rocke, 2002a), kjer so rezultati kakovosti podobni.
Boulesteixova (2004) je primerjala kakovost uvršˇcanja metode PLS z nekaterimi najpogosteje uporabljenimi klasifikatorji, kot so npr. metoda kNN, SVM in PAM. Raziskava je
bila opravljena nad devetimi realnimi podatkovnimi tabelami. Eksperimentalni naˇcrt je
vkljuˇceval predhodno izbiro neodvisnih spremenljivk s pomoˇcjo statistike BSS/WSS. Število
komponent je avtorica doloˇcila z optimizacijo toˇcnosti uvršˇcanja. Rezultati uvršˇcanja po
metodi PLS so bili primerljivi z ostalimi vkljuˇcenimi metodami. Avtorica ne navaja mer
statistiˇcne znaˇcilnosti razlik.
Pochet, De Smet, Suykens in De Moor (2004) poroˇcajo o primerjalni analizi, v kateri so
za krˇcenje podatkovne tabele uporabili klasiˇcni PCA in PCA z jedrom, za uvršˇcanje pa
FDA in prilagojeno razliˇcico SVM. Raziskava je bila opravljena nad devetimi realnimi
podatkovji. Avtorji ne poroˇcajo o pomembnih razlikah med obema metodama krˇcenja
razsežnosti. Pomembno je njihovo opozorilo, da lahko krˇcenje razsežnosti ob predhodni
izbiri neodvisnih spremenljivk povzroˇci preprileganje statistiˇcnega modela.
Dai, Lieu in Rocke (2006) so primerjali kakovost uvršˇcanja z metodo logistiˇcne diskriminacije, kjer so podatke predhodno skrˇcili s PCA, PLS oz. SIR. Eksperiment so izvedli
193
9 Razprava
na dveh podatkovnih tabelah s predhodno izbiro spremenljivk s pomoˇcjo klasiˇcnega
t-testa. Za najbolj diskriminativno se je izkazala metoda PLS, ki ji sledita SIR in PCA.
Pri sluˇcajnem izboru atributov ostajajo razmerja kakovosti posameznih metod podobna.
Razlike med metodami se manjšajo z veˇcanjem števila vkljuˇcenih spremenljivk. Avtorji
ne navajajo podatkov o morebitni statistiˇcni znaˇcilnosti razlik med metodami.
Pomembna je tudi opazka, da je predhodna izbira spremenljivk verjetno bolj pomembna
pri klasiˇcnem postopku PCA kot pri nadzorovanem PLS (Boulesteix, 2006). Te ugotovitve
eksplicitno nismo preverjali in jo bomo vkljuˇcili v nadaljnje raziskave.
V raziskavi smo se omejili le na dve najpogosteje uporabljeni metodi. Pregled empiriˇcne
evidence odkriva tudi nekatere druge metode, ki jim v nadaljnjem delu kaže posvetiti
pozornost. Na prvem mestu gre izpostaviti nadzorovano razliˇcico metode PCA (Culhane,
Perrière, Considine, Cotter & Higgins, 2002; Bin in sod., 2013), ki temelji na razcepu
kovarianˇcne matrike primerov med posameznimi razredi. Na podroˇcju analize signalov je
moˇcno razširjena neodvisna analiza komponent (Saidi in sod., 2004; Welsh, Jelsone-Swain
& Foerster, 2013), ki v domeni statistiˇcne analize mikromrež tudi še ni bila ustrezno ovrednotena. Pregled ostalih postopkov, ki jih kaže preizkusiti, bomo navedli v razdelku 9.4.
Pomemben element raziskav, ki primerjajo kakovost razliˇcnih metod krˇcenja razsežnosti
podatkovij, je ustrezen eksperimentalni naˇcrt (Ruschhaupt, Huber, Poustka & Mansmann,
2004). Ta mora vkljuˇcevati natanˇcen protokol (i) predpriprave podatkov, (ii) naˇcina izbora
neodvisnih spremenljivk (in njihovega števila), (iii) uporabe metode krˇcenja podatkovne
matrike z izborom prostih parametrov (npr. števila komponent), (iv) uporabe metode
uvršˇcanja z izborom prostih parametrov (npr. števila najbližjih sosedov) ter (v) vrednotenja
kakovosti uvršˇcanja (npr. sluˇcajenje, preˇcno preverjanje). Z izjemo Boulesteix (2004) in
Dai in sod. (2006) je natanˇcno opisan eksperimentalni naˇcrt prej izjema kot pravilo.
V zadnjem cˇ asu je na podroˇcju analize DNA-mikromrež zaslediti poveˇcan trend raziskav,
ki se ukvarjajo s prouˇcevanjem nelinearnih metod za krˇcenje širokih podatkovnih tabel
(Goel, Kuceyeski, LoCastro & Raj, 2014; Hira, Trigeorgis & Gillies, 2014; Thomas, De
Brabanter & De Moor, 2014).
9.2.3 Vpliv diskretizacije zveznih spremenljivk na uvrščanje
Diskretizacija zveznih spremenljivk ima na podroˇcju strojnega uˇcenja dolgo tradicijo (Cochran & Hopkins, 1961; Hills, 1967; Hughes, 1968). Kljub pogosti uporabi diskretizacije
pa ob pregledu empiriˇcne evidence ne zasledimo sistematiˇcnih raziskav, ki bi prouˇcevale
uˇcinek diskretizacije na kakovost uvršˇcanja. H. Liu in sod. (2002) so sicer opravili primerjavo razliˇcnih metod diskretizacije, vendar na podatkovju, ki zaradi velike apriorne
loˇcenosti razredov za diskretizacijo ni najbolj primerno. Pomembne primerjalne raziskave
so opravili še Janssens, Brijs, Vanhoof in Wets (2006), Gupta, Mehrotra in Mohan (2010)
ter García in sod. (2013). Vse raziskave so prouˇcevale uˇcinek diskretizacije na realnih
podatkovnih tabelah z razmeroma velikim številom primerov in majhnim številom neodvisnih spremenljivk. Raziskav, ki bi prouˇcevale uˇcinek diskretizacije na mnogorazsežnih
podatkovnih tabelah, je zelo malo oz. imajo v eksperimentalni naˇcrt vkljuˇceno le eno
metodo diskretizacije (Georgii, Richter, Rückert & Kramer, 2005; Potamias in sod., 2004).
194
9.3 Splošna razprava
Redke raziskave kažejo, da zaradi visoke stopnje redundantnosti spremenljivk in šuma
v podatkih diskretizacija biomedicinskih podatkov moˇcno izboljša kakovost uvršˇcanja
(Lustgarten, Gopalakrishnan, Grover & Visweswaran, 2008). Na podroˇcju bioinformatike,
zlasti v analizi mikromrežnih podatkov, je diskretizacija zelo slabo raziskano podroˇcje
in redko uporabljena metoda predpriprave podatkov (Y. Li in sod., 2010). Doslej je bila
uporaba metod diskretizacije v veliki meri prepušˇcena arbitrarni izbiri raziskovalcev.
Diskretizacijo je najveˇckrat narekoval izbrani klasifikator in ni bila sama sebi namen.
Najpogosteje zasledimo uporabo preprostih pristopov, kot je npr. metoda enake širine
intervalov (Braga-Neto, 2009). Poleg tega diskretizacija ni bila ustrezno vkljuˇcena v eksperimentalni naˇcrt, kjer bi sistematiˇcno kontrolirali vpliv ostalih kovariat. V nadaljevanju
navajamo pregled najpomembnejših raziskav, ki so prouˇcevale vpliv diskretizacije na
kakovost uvršˇcanja.
Lustgarten in sod. (2008) so pokazali, da diskretizacija (DNA in proteinskih) mikromrežnih
podatkovij izboljša dosežek klasifikatorja (SVM, RF, NB) za 2–8 odstotnih toˇck. Najveˇcji
vpliv ima diskretizacija na klasifikator NB, kar avtorji pripisujejo dejstvu, da diskretizacija
moˇcno zgladi (angl. smoothing) neodvisne spremenljivke (Y. Yang & Webb, 2003). O
podobnem uˇcinku za odloˇcitvena drevesa poroˇcajo Utgoff (1989) ter Oates in Jensen
(1998). Uˇcinek diskretizacije je bil najmanjši pri metodi SVM.
Y. Li in sod. (2010) so preverjali uˇcinkovitost razliˇcnih metod diskretizacije pri gradnji
transkripcijskih regulatornih omrežij. Njihovi rezultati kažejo primerljivo kakovost med
metodama enake širine intervalov in enake zastopanosti intervalov ter metodo voditeljev.
Izpostaviti gre ugotovitev, da sta metodi enake širine in enake zastopanosti moˇcno
obˇcutljivi za podatkovne osamelce.
Lustgarten in sod. (2011) so na 24 mikromrežnih podatkovjih preizkusili novo metodo
diskretizacije, ki temelji na dinamiˇcnem programiranju, s katerim poišˇce optimalno
diskretizacijsko shemo v prostoru rešitev. Avtorji poroˇcajo, da je uvršˇcanje s pomoˇcjo C4.5
in NB-klasifikatorja statistiˇcno znaˇcilno boljše kot ob uporabi klasiˇcne MDLP-metode.
Prispevek je pomemben zlasti zaradi tega, ker so kakovost diskretizacije ovrednotili z
veˇc razliˇcnimi merami: toˇcnostjo uvršˇcanja, plošˇcino pod ROC-krivuljo, robustnostjo,
stabilnostjo in preprostostjo. Njihov pristop vrednotenja smo povzeli tudi sami.
Pomembno raziskavo je opravila Tillanderjeva (2012), ki je poleg primerjave razliˇcnih
metod predlagala tudi preprosto, a uˇcinkovito metodo diskretizacije, ki temelji na toˇcnosti
uvršˇcanja. Analizo je opravila nad realnimi in sintetiˇcnimi podatkovji in pokazala, da po
kakovosti uvršˇcanja najbolj izstopata diskretizacijski shemi 1R in MDLP. Uporabila je tri
razliˇcne klasifikatorje, kNN, C4.5 in NB, med katerimi se je najbolje odrezal zadnji.
9.3 Splošna razprava
V tem razdelku bomo podrobneje osvetlili tri podroˇcja, ki se nam zdijo za razumevanje
naših rezultatov zelo pomembna. Obravnavali bomo problem (i) namerne optimizacije
mikromrežnih rezultatov, (ii) smiselnosti uporabe latentnih spremenljivk za analizo in
interpretacijo mikromrežnih eksperimentov ter (iii) diskretizacije mikromrežnih podatkov.
195
9 Razprava
9.3.1 Načrtna optimizacija rezultatov
Na podroˇcju biostatistike smo priˇca neslutenemu razvoju novih algoritmov in pristopov
za analizo rezultatov. V zadnjem desetletju praktiˇcno ni bilo izdaje revije, ki ne bi poroˇcala
o novi metodi. V nadaljevanju bomo zato nekaj besed namenili pereˇcemu problemu
cˇ ezmerne optimizacije metod za uvršˇcanje in krˇcenje podatkovnih tabel.
Jelizarow, Guillemot, Tenenhaus, Strimmer in Boulesteix (2010) navajajo štiri glavne
razloge za cˇ ezmerno optimizacijo statistiˇcnih metod. Prvi od njih je naˇcrtna izbira takega
podatkovja, ki bo v kombinaciji z izbrano metodo doseglo najboljšo kakovost uvršˇcanja
(angl. dataset bias). Tak naˇcin preverjanja kakovosti metode je seveda moˇcno pristran
in se mu moramo izogniti tako, da kakovost uvršˇcanja ocenimo na cˇ im veˇc razliˇcnih
podatkovjih. Pogosto se namreˇc dogaja, da raziskovalci novo metodo preizkusijo na m
vzorcih, poroˇcilo pa pripravijo samo za optimalnih k < m vzorcev. Yousefi, Hua, Sima in
Dougherty (2010) so celo poskušali številsko doloˇciti stopnjo pristranosti, ki jo zagrešimo
pri takem pristranem poroˇcanju. Vsako podatkovje namreˇc poleg splošnih lastnosti genske
izraženosti odraža tudi specifiˇcne poteze populacije, iz katere izhaja. Avtorji predlagajo,
da bi zgradili zbirko podatkovij, ki bi jih preizkusili ob predstavitvi vsake nove metode
uvršˇcanja.
Drugi vir napake pristranosti je prilagoditev izbire optimalnih parametrov uˇcenja pri
uvršˇcanju oz. krˇcenju podatkovne tabele. Tako napako najpogosteje zagrešimo, ko izbiro
spremenljivk opravimo neodvisno od postopka uvršˇcanja. Korelacija med dejansko optimalnimi spremenljivkami in izbranimi spremenljivkami je v tem primeru zelo nizka
in zavajajoˇca. Postopek izbire spremenljivk mora biti sestavni del vrednotenja kakovosti
klasifikatorja. Boulesteix in Slawski (2009) sta opozorila na problem stabilnosti merskih
spremenljivk v luˇci stabilnosti rangirnih vrst neodvisnih spremenljivk (genov). Za merjenje stabilnosti spremenljivk predlagata tri razliˇcne raˇcunske pristope. Hkrati predlagata,
da lahko bolj stabilno oceno dosežemo z agregacijo rezultatov veˇc podatkovji.
Tretji vir pristranosti je subjektivna izbira primerjalnih metod uvršˇcanja. Gre za namerno
izbiro takih metod, ki v primerjavi z novo metodo vraˇcajo slabše rezultate. Ne nazadnje
je pomemben vir pristranosti tudi optimizacija metod na osnovi testnih podatkov. Pri tem
gre za naˇcrtno optimizacijo parametrov uˇcenja na podatkih, ki jih v proces vrednotenja
kakovosti ne bi smeli vkljuˇciti.
9.3.2 Problem interpretacije latentnih spremenljivk
Uvodoma smo povedali (gl. razdelek 1.4), da lahko podatkovno tabelo skrˇcimo bodisi z
izbiro spremenljivk, kjer izberemo najbolj informativne spremenljivke, bodisi z vpeljavo
latentnih spremenljivk, s katerimi množico merskih spremenljivk projiciramo na manjše
število razsežnosti. V tem razdelku poskušamo osvetliti nekaj pomembnih problemov v
zvezi z interpretacijo latentnih spremenljivk.
Od prej se spomnimo (gl. poglavje 4), da je posamezna latentna spremenljivka po pravilu
povezana s skupino (podobno) izraženih genov. Za razliko od merskih spremenljivk se
pri latentnih spremenljivkah sooˇcimo s problemom njihove interpretacije, saj je treba
vsebinsko povezati funkcije veˇc genov hkrati. To je pomembno zlasti v kliniˇcni praksi, ko
196
9.3 Splošna razprava
želimo fenotip preiskovanca povezati z izraženostjo latentne spremenljivke. Smiseln naˇcin
doloˇcanja vsebine skupin genov je iskanje vzorca korelacij (nasiˇcenosti) med latentnimi
in merskimi spremenljivkami. Glavna slabost tega pristopa pa je cˇ asovna potratnost,
saj je treba roˇcno primerjati posamezne koeficiente korelacije. Zato je smiselno razviti
avtomatizirane postopke, ki bodo pri interpretaciji rezultatov domenskemu strokovnjaku
v pomoˇc.
Po našem védenju in pregledu empiriˇcne evidence so se z iskanjem vsebinsko smiselnih
skupin genov prvi ukvarjali West in sod. (2001). Skupino med seboj podobnih genov
(glede na njihovo izraženost) so definirali kot metagen (E. Huang, West & Nevins, 2003;
Spang in sod., 2002; West in sod., 2001). S konceptom metagena so strukturo podatkov
neposredno povezali s fenotipom prouˇcevanega organizma. Vsebinsko interpretacijo
metagena so doloˇcili na osnovi vzorcev nadpovpreˇcno in podpovpreˇcno izraženih genov
v posamezni skupini.
Sami za doloˇcanje vsebine latentnih spremenljivk predlagamo uporabo analize cˇ ezmerne
nasiˇcenosti (angl. over-representing analysis) latentne spremenljivke z izbranimi biomedicinskimi koncepti. Kot prva možnost za iskanje konceptov se ponuja ontologija Gene
Ontology (Ashburner in sod., 2000), po kateri lahko koncepte razvrstimo v tri veje: (i) molekularno funkcijo, (ii) biološki proces in (iii) celiˇcno komponento. Postopek zaˇcnemo
z izdelavo seznama neodvisnih spremenljivk (genov), ki moˇcno korelirajo z izbrano
latentno spremenljivko. Izbranim neodvisnim spremenljivkam pripišemo koncepte iz
ontologije ter s pomoˇcjo ustreznega statistiˇcnega testa (npr. χ2 ) doloˇcimo izstopajoˇce koncepte. Ontologija GO je strojno berljiva in uporabna za razliˇcne organizme. Na ta naˇcin
lahko npr. med seboj primerjamo izraženost posameznih genov v razliˇcnih organizmih.
Prav tako deloma omogoˇca semantiˇcno rudarjenje, saj so relacije med koncepti opisane s
predikati, kot sta npr. part_of in is_a.
Na podoben naˇcin lahko uporabimo tudi zbirko presnovnih poti KEGG (Kanehisa &
Goto, 2000) ali geslovnik MeSH (Coletti & Bleich, 2001). Slednji je po naših izkušnjah
uporaben le za grobo doloˇcanje vsebine, saj je preveˇc splošen in v kliniˇcni praksi zato ni
uporaben (Kastrin, Rindflesch & Hristovski, 2014).
9.3.3 Diskretizacija mikromrežnih DNA-podatkov
Diskretizacijo gre razumeti ne le kot metodo predpriprave podatkov (npr. za uporabo
odloˇcitvenih dreves ali naivnega Bayesovega klasifikatorja), paˇc pa predvsem kot metodološko orodje za poenostavljanje strukture podatkov. Veˇcina uˇcbenikov s podroˇcja
statistike in zlasti strojnega uˇcenja (npr. J. Han in sod., 2012; Kononenko & Kukar, 2007)
diskretizacijo le bežno obravnava in jo pojmuje kot najšibkejši cˇ len v procesu podatkovne
analitike.
Danes igra diskretizacija pomembno vlogo pri rekonstrukciji regulatornih omrežij genov
(angl. gene regulatory networks) (Davidson, 2006)1 , s katerimi modeliramo kompleksne
1 Regulatorno
omrežje genov (ROG) je množica DNA-segmentov, ki v medsebojni interakciji (in v povezavi
z drugimi celiˇcnimi strukturami) nadzorujejo izraženost mRNA in proteinov. Glavno vlogo v ROG igrajo
transkripcijski faktorji. Transkripcijski faktor je protein, ki z vezavo na promotorsko podroˇcje drugih
genov skrbi za njihovo aktivacijo oz. inhibicijo. V ROG vozlišˇca ponazarjajo gene, povezave med njimi
197
9 Razprava
molekularne procese v celici. Razumevanje strukture in dinamike ROG je trenutno eno
od najbolj vroˇcih podroˇcij sistemske biologije.
Študij ROG temelji na rekonstrukciji omrežij z uporabo principov obratnega inženirstva.
Vhodne podatke sestavlja standardna matrika mikromrežnih poskusov, nad katero poskušamo izloˇciti pomembne korelacije med posameznimi geni. Za modeliranje interakcij med
geni so bili uporabljeni nekateri splošni algoritmi, kot so npr. Booleanove mreže (Somogyi
& Sniegoski, 1996), Gaussove (Wille in sod., 2004) in Bayesove mreže (N. Friedman, Linial,
Nachman & Pe’er, 2000). V primeru Booleanovega modela posamezen gen zaseda dve
vrednosti (npr. ON ali OFF), njegovo regulacijo pa popišemo z Booleanovo funkcijo.
Empiriˇcna evidenca poroˇca, da tudi z dvojiško diskretizacijo lahko izlušˇcimo vsebinske
zakljuˇcke (Shmulevich & Zhang, 2002; Tabus, Rissanen & Astola, 2003).
Za modeliranje ROG je smiselno poleg DNA-podatkov uporabiti tudi novejše visoko
prepustne tehnologije (npr. RNA- in miRNA-sekvenciranje). Velikost podatkovne matrike
je pri mikromrežah druge generacije praviloma veˇcja kot pri obiˇcajnih DNA-mikromrežah.
Poleg tega je smiselno podatke, pridobljene na osnovi razliˇcnih tehnologij, med seboj
združevati. Diskretizacija ogromnih podatkovij pomeni glavni problem. Za ta namen kaže
najprej razviti programsko knjižnico, ki bo implementirala razliˇcne metode diskretizacije.
Po našem védenju in pregledu empiriˇcne evidence takšno orodje še ni razvito.
Sami smo diskretizacijo nedavno uporabili pri preizkusu uporabnosti modela latentnih
potez za uvršˇcanje visokogostotnih podatkovij (Kastrin & Peterlin, 2010). Pokazali smo,
da je uporaba metodologije teorije odgovora na postavko (Bartholomew in sod., 2011) za
analizo DNA-mikromrežnih podatkovij smiselna in vraˇca podobno kvalitetne klasifikatorje kot uporaba zveznih modelov. Ta metodologija se je doslej najpogosteje uporabljala
nad ozkimi podatkovnimi tabelami, zato je v nadaljevanju treba natanˇcneje ovrednotiti in
teoretiˇcno opisati lastnosti tega pristopa.
9.3.4 Priporočila raziskovalcem
V tem razdelku bomo predstavili nekatera priporoˇcila raziskovalcem, ki izhajajo iz našega
poznavanja problemske domene, s katero smo se ukvarjali v nalogi.
1. Kot metodo izbire za uvršˇcanje mikromrežnih podatkovij priporoˇcamo uporabo
logistiˇcne regresije s kaznijo, metodo podpornih vektorjev in sluˇcajne gozdove.
Kakovost uvršˇcanja teh treh metod je bila v naši raziskavi najvišja. Za uvršˇcanje ne
priporoˇcamo uporabe nevronskih mrež.
2. Za krˇcenje števila razsežnosti priporoˇcamo uporabo analize glavnih komponent,
saj je v primerjavi z metodo delnih najmanjših kvadratov preprostejša, lažja za
razumevanje ter implementirana v veˇc statistiˇcnih paketih.
3. Za morebitno diskretizacijo zveznih spremenljivk priporoˇcamo uporabo metode
MDLP, ki se ponaša z visoko toˇcnostjo uvršˇcanja, stabilnostjo in preprostostjo.
pa njihove interakcije. Bralec bo veˇc informacij o modeliranju ROG našel npr. v de Jong (2002) ter v
Karlebach in Shamir (2008).
198
9.3 Splošna razprava
4. Hotena ali nehotena optimizacija rezultatov uvršˇcanja je v vsakdanji statistiˇcni
praksi moˇcno prisotna (Hand, 2006); pregled empiriˇcne evidence kaže, da enako
velja tudi na podroˇcju statistiˇcne analize DNA-mikromrež (Boulesteix & Strobl,
2009; Yousefi, And & Dougherty, 2011). Vzroke zanjo smo podrobno razˇclenili v
razdelku 9.3.1. Pomembno je, da se raziskovalci problema optimizacije rezultatov
zavedajo že v fazi priprave eksperimentalnega naˇcrta; da vanj vkljuˇcijo cˇ im veˇcje
število podatkovij in raznolike klasifikatorje, za oceno parametrov uˇcenja pa uporabijo ustrezne uˇcne sheme (npr. preˇcno preverjanje). Kot opozarjajo Mehta, Tanik
in Allison (2004), ilustracija delovanja klasifikatorja z enim samim podatkovjem ni
zgled epistemološko korektne raziskave, zato je treba v analizo vkljuˇciti vsa dostopna podatkovja. Poleg ocene kakovosti je treba izraˇcunati tudi njeno standardno
napako oz. vsaj standardni odklon (E. R. Dougherty, Zollanvari & Braga-Neto, 2011).
V proces uˇcenja je treba kot parametre vkljuˇciti vse dejavnike, ki lahko kakorkoli
vplivajo na uˇcenje (Kuhn & Johnson, 2013): npr. metodo izbora spremenljivk, število
spremenljivk, naˇcin krˇcenja razsežnosti podatkovne tabele, metodo diskretizacije
spremenljivk itd. Prav tako je treba z navzkrižnim preverjanjem doloˇciti ustrezne
parametre metod uˇcenja (npr. ceno uvršˇcanja pri metodi podpornih vektorjev ali
stopnjo krˇcenja pri logistiˇcni regresiji s kaznijo).
5. Poleg ranžirne lestvice kakovosti delovanja razliˇcnih klasifikatorjev je treba preveriti
tudi statistiˇcno znaˇcilnost razlik med njimi. V praksi se namreˇc velikokrat dogodi,
da raziskovalci majhne razlike v kakovosti klasifikatorjev nehote interpretirajo prenapihnjeno. Pregled empiriˇcne evidence kaže, da je praksa statistiˇcnega preverjanja
razlik na podroˇcju statistiˇcnega uˇcenja zelo slaba. Ustrezno metodologijo za statistiˇcno testiranje dobro predstavijo Demšar (2006) ter García in Herrera (2008). Prvi
poleg tega predlaga tudi predstavitev rezultatov s pomoˇcjo CD-diagramov.
6. V naši raziskavi smo pokazali, da med razliˇcnimi metodami izbire spremenljivk
(klasiˇcnim t-testom, Welchevim t-testom in pristopom LIMMA) ne prihaja do statistiˇcno znaˇcilnih razlik pri merah kakovosti uvršˇcanja. Kljub temu je treba posebno
pozornost nameniti stabilnosti posameznih množic izbranih genov. V praksi se namreˇc izkaže, da je skupno število genov, izbranih z dvema razliˇcnima postopkoma,
lahko zelo razliˇcno (Boulesteix & Slawski, 2009). Zaradi tega je za izbiro relevantnih
spremenljivk smiselno uporabiti novejše postopke, ki temeljijo na moˇci povezanosti
med posameznimi spremenljivkami (M. Zhang in sod., 2008).
7. Poleg spremenljivk, ki se nanašajo na izraženost posameznih genov, je v analizo
smiselno vkljuˇciti tudi ostale kliniˇcne parametre kot, so npr. koncentracije razliˇcnih
biomarkerjev, cˇ as kajenja, izpostavljenost teratogenim dejavnikom itd. O tem so prvi
poroˇcali Boulesteix in Sauerbrei (2011) ter Obulkasim, Meijer in van de Wiel (2011).
8. V statistiˇcno analizo DNA-mikromrež je smiselno vkljuˇciti tudi mere velikosti
uˇcinka, ki so v primerjavi s standardnimi merami statistiˇcne znaˇcilnosti (p-vrednostmi) bolj robustne in lažje razložljive (Jacob Cohen, 1988). Mere velikosti uˇcinka
se na podroˇcju analize DNA-mikromrež že uporabljajo pri metaanalitiˇcnih raziskovalnih naˇcrtih (Feichtinger, Thallinger, McFarlane & Larcombe, 2012).
9. Posebno pozornost je treba posvetiti ponovljivosti rezultatov raziskave (Boulesteix
& Slawski, 2009; Q. Li, Brown, Huang & Bickel, 2011). V ta namen priporoˇcamo
199
9 Razprava
uporabo R-ovega sistema knitr (Xie, 2014).
9.4 Omejitve raziskave
Kljub kompleksnosti predstavljene raziskave lahko vendarle izdvojimo nekaj pomanjkljivosti.
Realna mikromrežna podatkovja smo pripravili roˇcno, s pregledovanjem podatkovnih
zbirk Gene Expression Omnibus (Barrett in sod., 2013) in ArrayExpress (Rustici in sod.,
2013). Izbrali smo podatkovja, ki se nanašajo na merjenje genske izraženosti med dvema
ˇ
bolezenskima stanjema. Ceprav
gre po dostopni empiriˇcni evidenci za doslej najveˇcji
vzorec mikromrežnih eksperimentov, menimo, da je treba zaradi še boljše posplošljivosti
rezultatov nadaljevati v smeri veˇcanja vzorca. Konˇcni cilj je seveda vkljuˇcitev vseh podatkovij v prosto dostopnih zbirkah. Glavno omejitev pri avtomatskem zajemu podatkov
pomeni nestandardiziran zapis bolezenskega stanja, zato je treba ta podatek pripraviti
roˇcno.
Izbiro optimalnih spremenljivk za uvršˇcanje smo opravili na osnovi treh metod (klasiˇcnega
t-testa, Welchevega t-testa in pristopa LIMMA). Vse tri metode so predstavnice filtracijskih
metod. V nadaljevanju bi bilo treba preizkusiti in ovrednotiti tudi delovanje ovojnih in
vgrajenih metod (gl. razdelek 3.4). Sami smo za izbiro optimalnih spremenljivk uporabili
rangiranje, tako da smo izbrali prvih p spremenljivk z najveˇcjo vrednostjo izraˇcunane
statistike. V nadaljevanju nameravamo preizkusiti še preostale mere za ovrednotenje
podmnožice optimalnih spremenljivk, kot sta npr. razdalja med razredi in verjetnostna
razdalja (gl. razdelek 3.5).
Za krˇcenje razsežnosti smo uporabili analizo glavnih komponent in metodo delnih najmanjših kvadratov. Obe sta predstavnici linearnih metod za krˇcenje števila razsežnosti. V
zadnjem cˇ asu je zaslediti porast uporabe nelinearnih metod (J. A. Lee & Verleysen, 2007),
kot so npr. nelinearna analiza glavnih komponent (Scholz, Kaplan, Guy, Kopka & Selbig,
2005), analiza glavnih komponent z jedrom (Schölkopf, Smola & Müller, 1998), Isomap
(Tenenbaum, de Silva & Langford, 2000), lokalno veˇcrazsežnostno lestviˇcenje (Venna &
Kaski, 2006) in lokalno linearno vgrajevanje (Roweis & Saul, 2000). S krˇcenjem števila razsežnosti je neloˇcljivo povezan tudi problem doloˇcanja intrinziˇcne razsežnosti podatkovja.
Sami smo ta problem rešili tako, da smo izbrali tisto število latentnih spremenljivk, pri
katerem smo dosegli karseda visoko kakovost uvršˇcanja. V nadaljevanju nameravamo zato
v postopek vgraditi tudi metode za neposredno doloˇcanje števila latentnih spremenljivk
(gl. razdelek 4.4).
Posebno pozornost velja v nadaljevanju posvetiti problemu vsebinske smiselnosti latentnih
spremenljivk. V razdelku 9.3.2 smo predlagali, da lahko vsebino latentnih spremenljivk
doloˇcimo z analizo cˇ ezmerne nasiˇcenosti. Dodatno je treba razviti mero, ki bo numeriˇcno
odražala vsebinsko smiselnost in stabilnost vsebine.
Metode diskretizacije zveznih spremenljivk smo v naši raziskavi ovrednotili na osnovi
toˇcnosti uvršˇcanja, plošˇcine pod ROC-krivuljo, robustnosti, stabilnosti in preprostosti
(gl. razdelek 6.5.1). V nadaljevanju bomo dodali še mero razlike med zveznimi in diskretiziranimi podatki, ki bo odražala koliˇcino izgubljene informacije. V preliminarnem
200
9.5 Predlogi za nadaljnje delo
eksperimentu (rezultati niso predstavljeni) smo razliko med zveznimi in diskretnimi
podatki poskušali meriti s Frobenijevo normo razlik med Spearmanovima koeficientoma
korelacije rangov, formalno
v
u p p
u
kρz − ρd k F = t ∑ ∑ |ρzij − ρdij |2 ,
i =1 j =1
kjer sta ρzij in ρdij Spearmanova koeficienta korelacije rangov med spremenljivkama i in j
za zvezne oz. diskretne podatke. Problem je nastopil pri ovrednotenju metode MDLP, ki
samodejno izloˇci redundantne spremenljivke. V tem primeru je predlagana mera zelo
nestabilna.
9.5 Predlogi za nadaljnje delo
Po našem mnenju gre posebno pozornost posvetiti razvoju metodologije za interpretacijo
poskusov z DNA-mikromrežami. V razdelku 9.3.2 smo v ta namen že predlagali preprosto
rešitev. Izboljšavo pristopov za (pol)avtomatsko interpretacijo poskusov vidimo predvsem
v integraciji surovih rezultatov mikromrežnih poskusov z rudarjenjem po bibliografskih
zbirkah (npr. MEDLINE) (Faro in sod., 2012). Spletišˇce Entrez (Sayers in sod., 2012) sicer
ponuja integracijo vmesnika PubMed z nekaterimi ostalimi biomedicinskimi vsebinami
(npr. DNA-zaporedji in kemijskimi strukturami), vendar neposredno ne omogoˇca pregledovanja povezav tipa bolezen – gen ali zdravilo – gen. Za uspešno interpretacijo bioloških
podatkov pa so zanimive prav te povezave.
V ta namen smo pred cˇ asom razvili prototip podpornega bioinformacijskega sistema
SemBT (Hristovski in sod., 2010). SemBT v trenutni razliˇcici omogoˇca pregled eksplicitnih
in iskanje implicitnih relacij2 (hipotez) med biomedicinskimi koncepti (npr. zdravilnimi
uˇcinkovinami) in posameznimi geni, ki smo jih predhodno izbrali v mikromrežnem
eksperimentu. Semantiˇcne relacije med koncepti in geni so opisane s predikati sistema
SemRep (Rindflesch & Fiszman, 2003). Po našem védenju je SemBT prvi tovrstni sistem,
ki nomološko mrežo znanja gradi na osnovi semantiˇcnih povezav med biomedicinskimi
koncepti, in ne na osnovi njihove sopojavnosti. Za odkrivanje implicitnih relacij SemBT
uporablja inovativno metodologijo vzorcev iskanja (angl. discovery patterns). Dva primera
vzorcev iskanja sta predstavljena na sliki 9.1. Orodje smo preizkusili v kliniˇcni praksi
in prvi pokazali, da za inhibicijo gena HSPB1, ki sodeluje pri patogenezi parkinsonove
bolezni, lahko uporabimo uˇcinkovini paklitaksel in kvercetin (Hristovski in sod., 2010).
V nadaljevanju nameravamo metodologijo SemBT razširiti na veˇcje število vzorcev iskanja.
Prav tako je v fazi razvoja metodologija za samodejno iskanje vzorcev iskanja (angl. discovering discovery patterns), ki s pomoˇcjo asociacijskih pravil samodejno vrednoti izstopajoˇce
2V
procesu odkrivanja znanja nas zanimajo predvsem implicitne relacije med biomedicinskimi koncepti, ki
v literaturi še niso bile opisane. Osnovno idejo iskanja lahko ilustriramo s tremi teoretiˇcnimi koncepti: X,
Y in Z. Za primer vzemimo, da je skupina raziskovalcev ugotovila povezavo med boleznijo X in genom Y.
V nadaljevanju privzemimo, da je druga raziskovalna skupina prouˇcevala vpliv zdravila Z na gen Y ter
med njima ugotovila vzroˇcni odnos. Kot potencialno novo znanje je zanimiva eksplicitna relacija med
konceptoma X in Z, kar v našem primeru pomeni, da zdravilo Z lahko vpliva na bolezen X.
201
9 Razprava
1
Treats
Maybe_
(+)
ija
c
a
l
Regu
X
Regu
laci
Y1
Z1
ja (
-)
Y2
M
Inhibicija
Stimulacija
Z2
L
Maybe_
T
reats2
Slika 9.1: Vzorci iskanja novih terapevtikov za bolezen X v sistemu SemBT. Prvi vzorec
išˇce implicitno relacijo med terapevtikom (Z1 ), ki inhibira cˇ ezmerno reguliran
gen Y1 , drugi vzorec pa podobno išˇce implicitno relacijo med terapevtikom
(Z2 ), ki stimulira premalo reguliran gen Y2 . Modri oz. rdeˇci okvir se nanašata
na domeno znanja, iz katere cˇ rpamo informacije (M – DNA-mikromreža, L –
literatura).
202
9.6 Zakljuˇcki
vzorce v mreži znanja. Na ta naˇcin bomo moˇcno poveˇcali število pregledanih vzorcev ter
posredno poveˇcali število hipotez.
9.6 Zaključki
Iz raziskave lahko izlušˇcimo naslednje zakljuˇcke:
1. Po našem védenju in dostopni empiriˇcni evidenci gre za prvo tovrstno raziskavo,
ki je sistematiˇcno in statistiˇcno korektno prouˇcevala vpliv (i) metode uvršˇcanja in
izbire spremenljivk na uvršˇcanje, (ii) metode za zmanjševanje razsežnosti podatkovja na uvršˇcanje in (iii) metode diskretizacije zveznih spremenljivk na uvršˇcanje.
V analizo smo vkljuˇcili (i) štiri razliˇcne naˇcine izbora neodvisnih spremenljivk,
(ii) devet razliˇcnih metod uvršˇcanja, (iii) dve razliˇcni metodi krˇcenja podatkovne
tabele in (iv) pet razliˇcnih metod diskretizacije. Analiza je bila opravljena nad 37
realnimi DNA-mikromrežnimi podatkovji. Analizo vpliva metode uvršˇcanja in
izbire spremenljivk na uvršˇcanje smo opravili tudi nad sintetiˇcnimi podatkovji.
Izbor parametrov uvršˇcanja in ovrednotenje kakovosti uvršˇcanja smo opravili po
shemi preˇcnega preverjanja. Kakovost uvršˇcanja smo ovrednotili s pomoˇcjo analize
kovariance. Po našem védenju in dostopni empiriˇcni evidenci gre za prvo raziskavo
na tako velikem številu mikromrežnih podatkovij.
2. Pri uvršˇcanju realnih DNA-mikromrežnih podatkov se glede na toˇcnost, obˇcutljivost,
specifiˇcnost in plošˇcino pod ROC-krivuljo najbolje odreže metoda PLR, najslabše
pa metoda NNET. Nad sintetiˇcnimi podatki po kakovosti izstopa metoda SVM.
Tako pri realnih kot pri sintetiˇcnih podatkovjih metoda izbora neodvisnih spremenljivk z merami kakovosti uvršˇcanja ni statistiˇcno znaˇcilno povezana. Zaradi lažje
interpretabilnosti rezultatov za uvršˇcanje priporoˇcamo uporabo metode PLR.
3. Med metodama krˇcenja podatkovne matrike PCA in PLS glede na kakovost uvršˇcanja (z izjemo plošˇcine pod ROC-krivuljo) ni statistiˇcno znaˇcilnih razlik. Mere
kakovosti uvršˇcanja med kombinacijami metod krˇcenja PCA in PLS in metodami
uvršˇcanja so približno enake. Pokazali smo, da metoda izbora neodvisnih spremenljivk (z izjemo sluˇcajnega izbora) ne vpliva na rezultate uvršˇcanja. Kakovost
uvršˇcanja raste s poveˇcevanjem števila neodvisnih spremenljivk. Zaradi manjše
raˇcunske zahtevnosti za krˇcenje podatkovne matrike priporoˇcamo uporabo metode
PCA.
4. Glede na toˇcnost uvršˇcanja, stabilnost in preprostost se najbolje odreže metoda
MDLP, glede na plošˇcino pod ROC-krivuljo in robustnost pa metoda ChiMerge.
Zaradi veˇcje raˇcunske zahtevnosti algoritma ChiMerge za diskretizacijo priporoˇcamo
uporabo metode MDLP.
5. Raziskovalce opozarjamo na korektnost pri poroˇcanju o rezultatih uvršˇcanja nad
mikromrežnimi podatkovji. Predlagamo, da raziskovalci poleg nove metode uvršˇcanja pripravijo tudi povzetek rezultatov ostalih pogosto uporabljenih klasifikatorjev.
Le primerjava z veˇcjim številom metod bo zanesljiveje potrdila kakovost izbrane
metode.
203
9 Razprava
6. Kot orodje za interpretacijo latentnih spremenljivk pri metodah PCA in PLS predlagamo uporabo analize cˇ ezmerne nasiˇcenosti.
7. Predlagamo nadaljnje raziskave o smiselnosti uporabe diskretizacije zveznih spremenljivk pri analizi mikromrežnih podatkov. Menimo, da je diskretizacija pomembno orodje za poenostavljanje strukture podatkov.
8. Predlagamo, da raziskovalci poleg opisne primerjave kakovosti razliˇcnih metod
poroˇcajo tudi o statistiˇcni in praktiˇcni pomembnosti razlik med njimi.
204
Literatura
Aerssens, J., Hillsley, K., Peeters, P. J., de Hoogt, R., Stanisz, A., Lin, J.-H., . . . Coulie,
B. (2007). Alterations in the brain-gut axis underlying visceral chemosensitivity
in Nippostrongylus brasiliensis-infected mice. Gastroenterology, 132(4), 1375–1387.
doi:10.1053/j.gastro.2007.02.019
Agresti, A. (2013). Categorical data analysis. Hoboken, NJ: John Wiley & Sons.
Agresti, A. & Franklin, C. (2013). Statistics: The art and science of learning from data. Boston,
MA: Pearson Education.
Ahmed, S. H., Lutjens, R., van der Stap, L. D., Lekic, D., Romano-Spica, V., Morales, M., . . .
Sanna, P. P. (2005). Gene expression evidence for remodeling of lateral hypothalamic
circuitry in cocaine addiction. Proceedings of the National Academy of Sciences, USA,
102(32), 11533–11538. doi:10.1073/pnas.0504438102
Albrecht, A. A. (2006). Stochastic local search for the feature set problem, with applications
to microarray data. Applied Mathematics and Computation, 183(2), 1148–1164. doi:10.
1016/j.amc.2006.05.128
Alon, U., Barkai, N., Notterman, D. A., Gish, K., Ybarra, S., Mack, D. & Levine, A. J. (1999).
Broad patterns of gene expression revealed by clustering analysis of tumor and
normal colon tissues probed by oligonucleotide arrays. Proceedings of the National
Academy of Sciences, USA, 96(12), 6745–6750. doi:10.1073/pnas.96.12.6745
Anderson, T. W. (2003). An introduction to multivariate statistical analysis (3. izd.). Hoboken,
NJ: John Wiley & Sons.
Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., . . . Sherlock,
G. (2000). Gene Ontology: Tool for the unification of biology. Nature Genetics, 25(1),
25–29. doi:10.1038/75556
Au, W.-H., Chan, K. & Wong, A. (2006). A fuzzy approach to partitioning continuous
attributes for classification. IEEE Transactions on Knowledge and Data Engineering,
18(5), 715–719. doi:10.1109/TKDE.2006.70
Bakar, A. A., Othman, Z. A. & Shuib, N. L. M. (2009). Building a new taxonomy for data
discretization techniques. V A. R. Hamdan, A. A. Bakar, B. McCollum, F. Famili &
S. Abdullah (Ur.), 2009 2nd conference on data mining and optimization (str. 132–140).
Piscataway, NJ: IEEE Press. doi:10.1109/DMO.2009.5341896
Barrett, T., Wilhite, S. E., Ledoux, P., Evangelista, C., Kim, I. F., Tomashevsky, M., . . .
Soboleva, A. (2013). NCBI GEO: Archive for functional genomics data sets–update.
Nucleic Acids Research, 41(Database issue), D991–D995. doi:10.1093/nar/gks1193
Bartholomew, D. J. (2013). Unobserved variables: Models and misunderstandings. Heidelberg,
Germany: Springer.
Bartholomew, D. J., Knott, M. & Moustaki, I. (2011). Latent variable models and factor analysis:
A unified approach. Chichester, England: John Wiley & Sons.
205
Literatura
Basford, K. E., McLachlan, G. J. & Rathnayake, S. I. (2013 julij). On the classification of
microarray gene-expression data. Briefings in bioinformatics, 14(4), 402–10. doi:10.
1093/bib/bbs056
Bay, S. D. (2001). Multivariate discretization for set mining. Knowledge and Information
Systems, 3(4), 491–512. doi:10.1007/PL00011680
Bell, D. A. & Wang, H. (2000). A formalism for relevance and its application in feature
subset selection. Machine Learning, 41(2), 175–195. doi:10.1023/A:1007612503587
Bellman, R. (1966). Adaptive control processes: A guided tour. Princeton, NJ: University Press.
Benjamini, Y. & Hochberg, Y. (1995). Controlling the false discovery rate: A practical and
powerful approach to multiple testing. Journal of the Royal Statistical Society. Series B,
57(1), 289–300.
Bertalanffy, L. V. (1969). General system theory: Foundations, development, applications. New
York, NY: George Braziller.
Beyer, K. S., Goldstein, J., Ramakrishnan, R. & Shaft, U. (1999). When Is “Nearest Neighbor”
Meaningful? V C. Beeri & P. Buneman (Ur.), Database theory — icdt’99 (Zv. 1540,
str. 217–235). Lecture Notes in Computer Science. Berlin, Germany: Springer. doi:10.
1007/3-540-49257-7\_15
Bin, J., Ai, F.-F., Liu, N., Zhang, Z.-M., Liang, Y.-Z., Shu, R.-X. & Yang, K. (2013 december).
Supervised principal components: a new method for multivariate spectral analysis.
Journal of Chemometrics, 27(12), 457–465. doi:10.1002/cem.2558
Bishop, C. M. (1995). Neural networks for pattern recognition. Oxford, England: University
Press.
Bishop, C. M. (2007). Pattern recognition and machine learning. New York, NY: Springer.
Blagus, R. (2011). Razvršˇcanje visoko-razsežnih neuravnoteženih podatkov (Doktorska disertacija, Univerza v Ljubljani, Ljubljana, Slovenija).
Blagus, R. & Lusa, L. (2010). Class prediction for high-dimensional class-imbalanced data.
BMC Bioinformatics, 11, 523. doi:10.1186/1471-2105-11-523
Blejec, A. (2005). Statistiˇcno ozadje analize podatkov z mikromrež. V G. Anderluh, B.
Zupan & J. Stare (Ur.), Prvo sreˇcanje slovenskih bioinformatikov (str. 19–22). Ljubljana:
Fakulteta za raˇcunalništvo in informatiko.
Blum, A. L. & Langley, P. (1997). Selection of relevant features and examples in machine
learning. Artificial Intelligence, 97(1-2), 245–271. doi:10.1016/S0004-3702(97)000635
Bolón-Canedo, V., Sánchez-Maroño, N. & Alonso-Betanzos, A. (2013). A review of feature
selection methods on synthetic data. Knowledge and Information Systems, 34(3), 483–
519. doi:10.1007/s10115-012-0487-8
Borg, I. & Groenen, P. J. F. (2005). Modern multidimensional scaling: Theory and applications
(2. izd.). New York, NY: Springer.
Boulesteix, A.-L. (2004). PLS dimension reduction for classification with microarray data.
Statistical Applications in Genetics and Molecular Biology, 3, Article33. doi:10.2202/
1544-6115.1075
Boulesteix, A.-L. (2006). Reader’s reaction to “Dimension reduction for classification
with gene expression microarray data” by Dai et al. (2006). Statistical Applications in
Genetics and Molecular Biology, 5, Article16. doi:10.2202/1544-6115.1226
Boulesteix, A.-L. & Sauerbrei, W. (2011). Added predictive value of high-throughput
molecular data to clinical data and its validation. Briefings in bioinformatics, 12(3),
215–229. doi:10.1093/bib/bbq085
206
Literatura
Boulesteix, A.-L. & Slawski, M. (2009). Stability and aggregation of ranked gene lists.
Briefings in Bioinformatics, 10(5), 556–568. doi:10.1093/bib/bbp034
Boulesteix, A.-L., Strobl, C., Augustin, T. & Daumer, M. (2008). Evaluating microarraybased classifiers: An overview. Cancer Informatics, 6, 77–97.
Boulesteix, A.-L. & Strobl, C. (2009). Optimal classifier selection and negative bias in error
rate estimation: An empirical study on high-dimensional prediction. BMC Medical
Research Methodology, 9(1), 85.
Boullé, M. (2006). MODL: A Bayes optimal discretization method for continuous attributes.
Machine Learning, 65(1), 131–165. doi:10.1007/s10994-006-8364-x
Braga-Neto, U. M. (2009). Classification and error estimation for discrete data. Current
Genomics, 10(7), 446–462. doi:10.2174/138920209789208228
Brazma, A. (2009). Minimum Information About a Microarray Experiment (MIAME)—
Successes, failures, challenges. TheScientificWorldJournal, 9, 420–423. doi:10.1100/
tsw.2009.57
Brazma, A., Hingamp, P., Quackenbush, J., Sherlock, G., Spellman, P., Stoeckert, C.,
. . . Vingron, M. (2001). Minimum Information About a Microarray Experiment
(MIAME)—Toward standards for microarray data. Nature Genetics, 29(4), 365–371.
doi:10.1038/ng1201-365
Breiman, L., Friedman, J., Olshen, R. A. & Stone, C. J. (1984). Classification and regression
trees. Boca Raton, FL: Chapman & Hall.
Camastra, F. (2003). Data dimensionality estimation methods: A survey. Pattern Recognition,
36(12), 2945–2954. doi:10.1016/S0031-3203(03)00176-6
Camastra, F. & Vinciarelli, A. (2001). Intrinsic dimension estimation of data: An approach
based on Grassberger–Procaccia’s algorithm. Neural Processing Letters, 14(1), 27–34.
doi:10.1023/A:1011326007550
Catlett, J. (1991). On changing continuous attributes into ordered discrete attributes. V Y.
Kodratoff (Ur.), Machine learning – ewsl-91 (Zv. 482, str. 164–178). Lecture Notes in
Computer Science. Berlin, Germany: Springer. doi:10.1007/BFb0017012
Cawley, G., Talbot, N. & Girolami, M. (2007). Sparse multinomial logistic regression via
Bayesian L1 regularisation. V B. Schölkopf, J. Platt & T. Hofmann (Ur.), Advances
in neural information processing systems (Zv. 19, str. 209–216). Cambridge, MA: MIT
Press.
Cerquides, J. & De Mántaras, R. L. (1997). Proposal and empirical comparison of a
parallelizable distance-based discretization method. V D. Heckerman, H. Mannila,
D. Pregibon & R. Uthurusamy (Ur.), Proceedings of the third international conference on
knowledge discovery and data mining (str. 139–142). Menlo Park, CA: AAAI Press.
Chan, C.-C., Batur, C. & Srinivasan, A. (1991). Determination of quantization intervals in
rule based model for dynamic systems. V Proceedings of the international conference
on systems, man, and cybernetics (str. 1719–1723). Los Alamitos, CA: IEEE Press.
doi:10.1109/ICSMC.1991.169942
Chin, K., DeVries, S., Fridlyand, J., Spellman, P. T., Roydasgupta, R., Kuo, W.-L., . . .
Gray, J. W. (2006). Genomic and transcriptional aberrations linked to breast cancer
pathophysiologies. Cancer Cell, 10(6), 529–541. doi:10.1016/j.ccr.2006.10.009
Ching, J., Wong, A. & Chan, K. (1995). Class-dependent discretization for inductive
learning from continuous and mixed-mode data. IEEE Transactions on Pattern Analysis
and Machine Intelligence, 17(7), 641–651. doi:10.1109/34.391407
207
Literatura
Chlebus, B. S. & Nguyen, S. H. (1998). On finding optimal discretizations for two attributes.
V L. Polkowski & A. Skowron (Ur.), Rough sets and current trends in computing
(Zv. 1424, str. 537–544). Lecture Notes in Computer Science. Berlin, Germany:
Springer. doi:10.1007/3-540-69115-4
Chmielewski, M. R. & Grzymala-Busse, J. W. (1996). Global discretization of continuous
attributes as preprocessing for machine learning. International Journal of Approximate
Reasoning, 15(4), 319–331. doi:10.1016/S0888-613X(96)00074-6
Chowdary, D., Lathrop, J., Skelton, J., Curtin, K., Briggs, T., Zhang, Y., . . . Mazumder, A.
(2006). Prognostic gene expression signatures can be measured in tissues collected
in RNAlater preservative. The Journal of Molecular Diagnostics, 8(1), 31–39. doi:10.
2353/jmoldx.2006.050056
Christensen, B. C., Houseman, E. A., Marsit, C. J., Zheng, S., Wrensch, M. R., Wiemels,
J. L., . . . Kelsey, K. T. (2009). Aging and environmental exposures alter tissue-specific
DNA methylation dependent upon CpG island context. PLoS Genetics, 5(8), e1000602.
doi:10.1371/journal.pgen.1000602
Cochran, W. G. & Hopkins, C. E. (1961). Some classification problems with multivariate
qualitative data. Biometrics, 17(1), 10–32.
Cohen, J. [Jacob]. (1988). Statistical power analysis for the behavioral sciences (2. izd.). Hillsdate,
NJ: Lawrence Erlbaum Associates.
Cohen, J. [Jennifer], Van Marter, L. J., Sun, Y., Allred, E., Leviton, A. & Kohane, I. S.
(2007). Perturbation of gene expression of the chromatin remodeling pathway in
premature newborns at risk for bronchopulmonary dysplasia. Genome Biology, 8(10),
R210. doi:10.1186/gb-2007-8-10-r210
Coletti, M. H. & Bleich, H. L. (2001). Medical subject headings used to search the biomedical literature. Journal of the American Medical Informatics Association, 8(4), 317–
323.
Costa, J. & Hero, A. (2004). Geodesic entropic graphs for dimension and entropy estimation in manifold learning. IEEE Transactions on Signal Processing, 52(8), 2210–2221.
doi:10.1109/TSP.2004.831130
Cox, T. F. & Cox, M. A. A. (2001). Multidimensional scaling (2. izd.). Boca Raton, FL: CRC
Press.
Culhane, A. C., Perrière, G., Considine, E. C., Cotter, T. G. & Higgins, D. G. (2002).
Between-group analysis of microarray data. Bioinformatics, 18(12), 1600–1608. doi:10.
1093/bioinformatics/18.12.1600
Dai, J. J., Lieu, L. & Rocke, D. (2006). Dimension reduction for classification with gene
expression microarray data. Statistical Applications in Genetics and Molecular Biology,
5, Article6. doi:10.2202/1544-6115.1147
Dash, M. & Liu, H. (1997). Feature selection for classification. Intelligent Data Analysis,
1(1-4), 131–156. doi:10.1016/S1088-467X(97)00008-5
Dash, M. & Liu, H. (2003). Consistency-based search in feature selection. Artificial Intelligence, 151(1-2), 155–176. doi:10.1016/S0004-3702(03)00079-1
Davidson, E. H. (2006). The regulatory genome: Gene regulatory networks in development and
evolution. Burlington, MA: Elsevier.
Davis, S. & Meltzer, P. S. (2007). GEOquery: A bridge between the Gene Expression
Omnibus (GEO) and BioConductor. Bioinformatics, 23(14), 1846–1847. doi:10.1093/
bioinformatics/btm254
208
Literatura
De Mántaras, R. L. (1991). A distance-based attribute selection measure for decision tree
induction. Machine Learning, 6(1), 81–92. doi:10.1023/A:1022694001379
de Jong, H. (2002). Modeling and simulation of genetic regulatory systems: A literature review. Journal of Computational Biology, 9(1), 67–103. doi:10.1089/10665270252833208
Debeljak, N. (2007). DNK-mikromreže. Njihova uporaba v medicini - novo upanje tudi za
bolnike z rakom. Okno: glasilo Društva onkoloških bolnikov Slovenije, 21(2), 9–14.
Demartines, P. (1994). Analyse de données par réseaux de neurones auto-organisés (Doktorska
disertacija, Institut National Polytechnique de Grenoble, Grenoble, France).
Demšar, J. (2006). Statistical Comparisons of Classifiers over Multiple Data Sets. The
Journal of Machine Learning Research, 7, 1–30. doi:10.1016/j.jecp.2010.03.005
Detwiller, K. Y., Fernando, N. T., Segal, N. H., Ryeom, S. W., D’Amore, P. A. & Yoon,
S. S. (2005). Analysis of hypoxia-related gene expression in sarcomas and effect of
hypoxia on RNA interference of vascular endothelial cell growth factor A. Cancer
Research, 65(13), 5881–5889. doi:10.1158/0008-5472.CAN-04-4078
Díaz-Uriarte, R. & Alvarez de Andrés, S. (2006). Gene selection and classification of
microarray data using random forest. BMC Bioinformatics, 7(1), 3. doi:10.1186/14712105-7-3
Donoho, D. L. (2006). For most large underdetermined systems of linear equations the
minimal 1-norm solution is also the sparsest solution. Communications on Pure and
Applied Mathematics, 59(6), 797–829. doi:10.1002/cpa.20132
Dopazo, J. (2014). Genomics and transcriptomics in drug discovery. Drug discovery today,
19(2), 126–132. doi:10.1016/j.drudis.2013.06.003
Dougherty, E. R., Zollanvari, A. & Braga-Neto, U. M. (2011). The illusion of distributionfree small-sample classification in genomics. Current Genomics, 12(5), 333–341.
Dougherty, J., Kohavi, R. & Sahami, M. (1995). Supervised and unsupervised discretization
of continuous features. V A. Prieditis & S. Russell (Ur.), Proceedings of the 12th
international conference on machine learning (str. 194–202). San Francisco, CA: Morgan
Kaufmann.
Dr˘aghici, S. (2012). Statistics and data analysis for microarrays using R and Bioconductor
(2. izd.). Boca Raton, FL: CRC Press.
Dr˘aghici, S., Khatri, P., Martins, R. P., Ostermeier, G. C. & Krawetz, S. A. (2003). Global
functional profiling of gene expression. Genomics, 81(2), 98–104. doi:10.1016/S08887543(02)00021-6
Duda, R. O., Hart, P. E. & Stork, D. G. (2001). Pattern classification (2. izd.). New York, NY:
John Wiley & Sons.
Dudoit, S., Fridlyand, J. & Speed, T. P. (2002). Comparison of discrimination methods
for the classification of tumors using gene expression data. Journal of the American
Statistical Association, 97(457), 77–87. doi:10.1198/016214502753479248
Dupuy, A. & Simon, R. M. (2007). Critical review of published microarray studies for
cancer outcome and guidelines on statistical analysis and reporting. Journal of the
National Cancer Institute, 99(2), 147–157. doi:10.1093/jnci/djk018
Everitt, B. S. (1984). An introduction to latent variable models. London, England: Chapman &
Hall.
Faro, A., Giordano, D. & Spampinato, C. (2012). Combining literature text mining with
microarray data: Advances for system biology modeling. Briefings in Bioinformatics,
13(1), 61–82. doi:10.1093/bib/bbr018
209
Literatura
Fayyad, U. & Irani, K. (1993). Multi-interval discretization of continuous-valued attributes
for classification learning. V R. Bajcsy (Ur.), Proceedings of the 13th international
joint conference on artificial inteligence (str. 1022–1027). San Francisco, CA: Morgan
Kaufmann.
Feichtinger, J., Thallinger, G. G., McFarlane, R. J. & Larcombe, L. D. (2012). Microarray
meta-analysis: From data to expression to biological relationships. V Z. Trajanoski
(Ur.), Computational medicine: tools and challenges (str. 59–77). Wien, Austria: Springer.
Ferri, F. J., Pudil, P., Hatef, M. & Kittler, J. (1994). Comparative study of techniques for
large-scale feature selection. V E. S. Gelsema & L. N. Kanal (Ur.), Pattern recognition
in practice iv: multiple paradigms, comparative studies and hybrid systems (str. 403–413).
Amsterdam, Netherlands: Elsevier.
Flores, J. L., Inza, I. & Larrañaga, P. (2007). Wrapper discretization by means of estimation
of distribution algorithms. Intelligent Data Analysis, 11(5), 525–545.
Forman, G. (2003). An extensive empirical study of feature selection metrics for text
classification. The Journal of Machine Learning Research, 3, 1289–1305.
Francois, D. (2007). High-dimensional data analysis: Optimal metrics and feature selection
(Doktorska disertacija, Université catholique de Louvain, Louvain-la-Neuve, Belgija).
Frank, l. E. & Friedman, J. H. (1993). A statistical view of some chemometrics regression
tools. Technometrics, 35(2), 109–135. doi:10.1080/00401706.1993.10485033
Frery, A. C. & Perciano, T. (2013). Introduction to image processing using R: Learning by
examples. London, England: Springer.
Friedman, N., Linial, M., Nachman, I. & Pe’er, D. (2000). Using Bayesian networks to
analyze expression data. Journal of Computational Biology, 7(3-4), 601–620. doi:10.
1089/106652700750050961
Fu, S. & Desmarais, M. C. (2010). Markov blanket based feature selection: A review of past
decade. V S. I. Ao, L. Gelman, D. W. Hukins, A. Hunter & A. M. Korsunsky (Ur.),
Proceedings of the world congress on engineering (str. 321–328). Hong Kong, Ljudska
republika Kitajska: Newswood Limited.
García, S. & Herrera, F. (2008). An extension on Štatistical comparisons of classifiers
over multiple data sets"for all pairvise comparisons. The Journal of Machine Learning
Research, 9, 2677–2694.
García, S., Luengo, J., Sáez, J. A., López, V. & Herrera, F. (2013). A survey of discretization
techniques: Taxonomy and empirical analysis in supervised learning. IEEE Transactions on Knowledge and Data Engineering, 25(4), 734–750. doi:10.1109/TKDE.2012.35
Garthwaite, P. H. (1994). An interpretation of partial least squares. Journal of the American
Statistical Association, 89(425), 122–127.
Gentleman, R. C., Carey, V. J., Bates, D. M., Bolstad, B., Dettling, M., Dudoit, S., . . . Zhang,
J. (2004). Bioconductor: Open software development for computational biology and
bioinformatics. Genome Biology, 5(10), R80. doi:10.1186/gb-2004-5-10-r80
Georgii, E., Richter, L., Rückert, U. & Kramer, S. (2005). Analyzing microarray data using
quantitative association rules. Bioinformatics, 21(Suppl 2), ii123–ii129. doi:10.1093/
bioinformatics/bti1121
Gheyas, I. A. & Smith, L. S. (2010). Feature subset selection in large dimensionality
domains. Pattern Recognition, 43(1), 5–13. doi:10.1016/j.patcog.2009.06.009
Goel, P., Kuceyeski, A., LoCastro, E. & Raj, A. (2014). Spatial patterns of genome-wide
expression profiles reflect anatomic and fiber connectivity architecture of healthy
human brain. Human brain mapping, 35(8), 4204–4218. doi:10.1002/hbm.22471
210
Literatura
Goh, S.-H., Josleyn, M., Lee, Y. T., Danner, R. L., Gherman, R. B., Cam, M. C. & Miller, J. L.
(2007). The human reticulocyte transcriptome. Physiological Genomics, 30(2), 172–178.
doi:10.1152/physiolgenomics.00247.2006
Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P., . . .
Lander, E. S. (1999). Molecular classification of cancer: Class discovery and class
prediction by gene expression monitoring. Science, 286(5439), 531–537. doi:10.1126/
science.286.5439.531
Gordon, G. J., Jensen, R. V., Hsiao, L.-L., Gullans, S. R., Blumenstock, J. E., Ramaswamy, S.,
. . . Bueno, R. (2002). Translation of microarray data into clinically relevant cancer
diagnostic tests using gene expression ratios in lung cancer and mesothelioma.
Cancer Research, 62(17), 4963–4967.
Grassberger, P. & Procaccia, I. (1983). Measuring the strangeness of strange attractors.
Physica D: Nonlinear Phenomena, 9(1-2), 189–208. doi:10.1016/0167-2789(83)902981
Gravier, E., Pierron, G., Vincent-Salomon, A., Gruel, N., Raynal, V., Savignoni, A., . . .
Delattre, O. (2010). A prognostic DNA signature for T1T2 node-negative breast
cancer patients. Genes, Chromosomes & Cancer, 49(12), 1125–1134. doi:10.1002/gcc.
20820
Gupta, A., Mehrotra, K. G. & Mohan, C. (2010). A clustering-based discretization for
supervised learning. Statistics & Probability Letters, 80(9-10), 816–824. doi:10.1016/j.
spl.2010.01.015
Guyon, I. (2008). Practical feature selection: From correlation to causality. V F. FogelmanSoulié, D. Perrotta, J. Piskorski & R. Steinberger (Ur.), Mining massive data sets for
security. Amsterdam, Netherlands: IOS Press.
Guyon, I. & Elisseeff, A. (2003). An introduction to variable and feature selection. The
Journal of Machine Learning Research, 3, 1157–1182.
Guyon, I., Weston, J., Barnhill, S. & Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning, 46(1-3), 389–422. doi:10.
1023/A:1012487302797
Hall, M. A. (1999). Correlation-based feature selection for machine learning (Doktorska disertacija, University of Waikato, Hamilton, Nova Zelandija).
Han, F., Sun, W. & Ling, Q.-H. (2014). A novel strategy for gene selection of microarray
data based on gene-to-class sensitivity information. PloS one, 9(5), e97530. doi:10.
1371/journal.pone.0097530
Han, J., Kamber, M. & Pei, J. (2012). Data mining: Concepts and techniques (3. izd.). Waltham,
MA: Morgan Kaufmann.
Hand, D. J. (2006). Classifier technology and the illusion of progress. Statistical Science,
21(1), 1–14.
Häsler, R., Begun, A., Freitag-Wolf, S., Kerick, M., Mah, N., Zvirbliene, A., . . . Schreiber, S. (2009). Genetic control of global gene expression levels in the intestinal
mucosa: A human twin study. Physiological Genomics, 38(1), 73–79. doi:10.1152/
physiolgenomics.00010.2009
Hastie, T., Tibshirani, R. & Friedman, J. (2011). The elements of statistical learning: Data
mining, inference, and prediction (2. izd.). New York, NY: Springer.
Hecht-Nielsen, R. (1990). Neurocomputing. Reading, MA: Addison-Wesley.
211
Literatura
Helland, I. S. (2001). Some theoretical aspects of partial least squares regression. Chemometrics and Intelligent Laboratory Systems, 58(2), 97–107. doi:10 . 1016 / S0169 7439(01)00154-X
Henry, V. J., Bandrowski, A. E., Pepin, A.-S., Gonzalez, B. J. & Desfeux, A. (2014). OMICtools: an informative directory for multi-omic data analysis. Database : the journal of
biological databases and curation, 2014. doi:10.1093/database/bau069
Hilario, M. & Kalousis, A. (2008). Approaches to dimensionality reduction in proteomic
biomarker studies. Briefings in Bioinformatics, 9(2), 102–118. doi:10.1093/bib/bbn005
Hills, M. (1967). Discrimination and allocation with discrete data. Journal of the Royal
Statistical Society. Series C (Applied Statistics), 16(3), 237–250.
Hira, Z. M., Trigeorgis, G. & Gillies, D. F. (2014). An algorithm for finding biologically
significant features in microarray data based on a priori manifold learning. PloS one,
9(3), e90562. doi:10.1371/journal.pone.0090562
Ho, K. & Scott, P. (1997). Zeta: A global method for discretization of continuous variables.
V D. Heckerman, H. Mannila, D. Pregibon & R. Uthurusamy (Ur.), Proceedings of
the third international conference on knowledge discovery and data mining (str. 191–194).
Menlo Park, CA: AAAI Press.
Hoerl, A. E. & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, 12(1), 55–67.
Hoheisel, J. D. (2006 marec). Microarray technology: beyond transcript profiling and
genotype analysis. Nature reviews. Genetics, 7(3), 200–10. doi:10.1038/nrg1809
Holte, R. (1993). Very simple classification rules perform well on most commonly used
datasets. Machine Learning, 11(1), 63–90.
Hotelling, H. (1933). Analysis of a complex of statistical variables into principal component.
Journal of Educational Psychology, 24(6), 417–441. doi:10.1037/h0071325
Hristovski, D., Kastrin, A., Peterlin, B. & Rindflesch, T. C. (2010). Combining semantic
relations and DNA microarray data for novel hypotheses generation. V C. Blaschke
& H. Shatkay (Ur.), Linking literature, information, and knowledge for biology (Zv. 6004,
str. 53–61). Lecture Notes in Computer Science. doi:10.1007/978-3-642-13131-8
Huang, E., West, M. & Nevins, J. R. (2003). Gene expression profiling for prediction of
clinical characteristics of breast cancer. Recent Progress in Hormone Research, 58, 55–73.
Hughes, G. (1968). On the mean accuracy of statistical pattern recognizers. IEEE Transactions on Information Theory, 14(1), 55–63.
Ideker, T., Galitski, T. & Hood, L. (2001). A new approach to decoding life: Systems
biology. Annual Review of Genomics and Human Genetics, 2, 343–72. doi:10.1146/
annurev.genom.2.1.343
Inza, I., Larrañaga, P., Etxeberria, R. & Sierra, B. (2000). Feature subset selection by
Bayesian network-based optimization. Artificial Intelligence, 123(1-2), 157–184. doi:10.
1016/S0004-3702(00)00052-7
Ishikawa, M., Yoshida, K., Yamashita, Y., Ota, J., Takada, S., Kisanuki, H., . . . Mano, H.
(2005). Experimental trial for diagnosis of pancreatic ductal carcinoma based on
gene expression profiles of pancreatic ductal cells. Cancer Science, 96(7), 387–393.
doi:10.1111/j.1349-7006.2005.00064.x
Izenman, A. J. (2008). Modern multivariate statistical techniques: Regression, classification, and
manifold learning. New York, NY: Springer.
Jafari Koshki, T., Hajizadeh, E. & Karimi, M. (2013). A comparison of selective classification
methods in DNA microarray data of cancer: some recommendations for application
212
Literatura
in health promotion. Health promotion perspectives, 3(1), 129–134. doi:10.5681/hpp.
2013.015
Jain, A. K. & Dubes, R. C. (1988). Algorithms for clustering data. Upper Saddle River, NJ:
Prentice Hall.
Jain, A. K. & Duin, R. P. (2000). Statistical pattern recognition: A review. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 22(1), 4–37.
Jain, A. K. & Zongker, D. E. (1997). Feature selection: Evaluation, application, and small
sample performance. IEEE Transactions on Pattern Analysis and Machine Intelligence,
19(2), 153–158. doi:10.1109/34.574797
James, G., Witten, D., Hastie, T. & Tibshirani, R. (2013). An introduction to statistical learning:
With applications in R. New York, NY: Springer.
Janssens, D., Brijs, T., Vanhoof, K. & Wets, G. (2006). Evaluating the performance of
cost-based discretization versus entropy- and error-based discretization. Computers
& Operations Research, 33(11), 3107–3123. doi:10.1016/j.cor.2005.01.022
Japkowicz, N. & Shah, M. (2011). Evaluating learning algorithms: A classification perspective.
Cambridge, England: University Press.
Jelizarow, M., Guillemot, V., Tenenhaus, A., Strimmer, K. & Boulesteix, A.-L. (2010).
Over-optimism in bioinformatics: An illustration. Bioinformatics, 26(16), 1990–1998.
doi:10.1093/bioinformatics/btq323
John, G. H., Kohavi, R. & Pfleger, K. (1994). Irrelevant features and the subset selection
problem. V W. Cohen & H. Hirsh (Ur.), Proceedings of the 11th international conference
on machine learning (str. 121–129). San Mateo, CA: Morgan Kaufmann.
Johnson, R. A. & Wichern, D. W. (2007). Applied multivariate statistical analysis (6. izd.).
Englewood Cliffs, NJ: Prentice Hall.
Jolliffe, I. (2002). Principal component analysis. New York, NY: Springer.
Juvan, P. & Rozman, D. (2006). Tehnologija DNA mikromrež in njena uporaba v medicini.
Informatica Medica Slovenica, 11(1), 2–15.
Kanehisa, M. & Goto, S. (2000). KEGG: Kyoto Encyclopedia of Genes and Genomes.
Nucleic Acids Research, 28(1), 27–30. doi:10.1093/nar/28.1.27
Kang, Y., Wang, S., Liu, X., Lai, H., Wang, H. & Miao, B. (2006). An ICA-based multivariate
discretization algorithm. V J. Lang, F. Lin & J. Wang (Ur.), Knowledge science, engineering and management (Zv. 4092, str. 556–562). Lecture Notes in Computer Science.
Berlin, Germany: Springer. doi:10.1007/11811220
Karlebach, G. & Shamir, R. (2008). Modelling and analysis of gene regulatory networks.
Nature Reviews. Molecular Cell Biology, 9(10), 770–780. doi:10.1038/nrm2503
Kastrin, A. & Peterlin, B. (2010). Rasch-based high-dimensionality data reduction and
class prediction with applications to microarray gene expression data. Expert Systems
with Applications, 37(7), 5178–5185. doi:10.1016/j.eswa.2009.12.074
Kastrin, A., Rindflesch, T. C. & Hristovski, D. (2014). Large-scale structure of a network of
co-occurring MeSH terms: Statistical analysis of macroscopic properties. PloS ONE,
9(7), e102188. doi:10.1371/journal.pone.0102188
Kauffmann, A., Rayner, T. F., Parkinson, H., Kapushesky, M., Lukk, M., Brazma, A. & Huber, W. (2009). Importing ArrayExpress datasets into R/Bioconductor. Bioinformatics,
25(16), 2092–2094. doi:10.1093/bioinformatics/btp354
Kégl, B. (2002). Intrinsic dimension estimation using packing numbers. V S. Becker, S.
Thrun & K. Obermayer (Ur.), Advances in neural information processing systems (Zv. 15,
str. 697–704). Cambridge, MA: MIT Press.
213
Literatura
Kellert, S. H. (1994). Space perception and the fourth dimension. Man and World, 27(2),
161–180. doi:10.1007/BF01278961
Kelmansky, D. M. (2013). Where statistics and molecular microarray experiments biology
meet. V A. Y. Yakovlev, L. Klebanov & D. Gaile (Ur.), Statistical methods for microarray
data analysis (str. 15–35). New York, NY: Humana Press.
Kendall, M. G. (2004). A course in the geometry of n dimensions. Mineola, NY: Dover
Publications.
Kerber, R. (1992). Chimerge: Discretization of numeric attributes. V P. Rosenbloom & P.
Szolovits (Ur.), Proceedings of the 10th national conference of the american association for
artificial intelligence (str. 123–123). Cambridge, MA: MIT Press.
Khan, J., Wei, J. S., Ringnér, M., Saal, L. H., Ladanyi, M., Westermann, F., . . . Meltzer, P. S.
(2001). Classification and diagnostic prediction of cancers using gene expression
profiling and artificial neural networks. Nature Medicine, 7(6), 673–679. doi:10.1038/
89044
Kira, K. & Rendell, L. A. (1992). A practical approach to feature selection. V D. H. Sleeman
& P. Edwards (Ur.), Proceedings of the ninth international workshop on machine learning
(str. 249–256). San Francisco, CA: Morgan Kaufmann.
Kirby, M. (2001). Geometric data analysis: An empirical approach to dimensionality reduction
and the study of patterns. New York, NY: John Wiley & Sons.
Kirk, M. (2015). Thoughtful Machine Learning. Sebastopol, CA: O’Reilly Media.
Kitano, H. (2002). Systems biology: A brief overview. Science, 295(5560), 1662–1664. doi:10.
1126/science.1069492
Kohavi, R. & John, G. H. (1997). Wrappers for feature subset selection. Artificial Intelligence,
97(1-2), 273–324. doi:10.1016/S0004-3702(97)00043-X
Koller, D. & Sahami, M. (1996). Toward optimal feature selection. V L. Saitta (Ur.),
Proceedings of the 13th international conference on machine learning (icml-96) (str. 284–
292). San Francisco, CA: Morgan Kaufmann.
Komel, R. (2005). Funkcijska genomika in sistemska biologija. V G. Anderluh, B. Zupan &
J. Stare (Ur.), Prvo sreˇcanje slovenskih bioinformatikov (str. 1–4). Ljubljana: Fakulteta za
raˇcunalništvo in informatiko.
Kononenko, I. & Kukar, M. (2007). Machine learning and data mining: Introduction to principles
and algorithms. Chichester, England: Woodhead Publishing.
Kuhn, M. & Johnson, K. (2013). Applied predictive modeling. New York, NY: Springer.
Kuner, R., Muley, T., Meister, M., Ruschhaupt, M., Buness, A., Xu, E. C., . . . Hoffmann, H.
(2009). Global gene expression analysis reveals specific patterns of cell junctions
in non-small cell lung cancer subtypes. Lung Cancer, 63(1), 32–8. doi:10.1016/j.
lungcan.2008.03.033
Kuriakose, M. A., Chen, W. T., He, Z. M., Sikora, A. G., Zhang, P., Zhang, Z. Y., . . . Chen,
F. A. (2004). Selection and validation of differentially expressed genes in head and
neck cancer. Cellular and Molecular Life Sciences, 61(11), 1372–1383. doi:10.1007/
s00018-004-4069-0
Kyzas, P. A., Denaxa-Kyza, D. & Ioannidis, J. P. A. (2007). Almost all articles on cancer
prognostic markers report statistically significant results. European Journal of Cancer,
43(17), 2559–2579.
Laine, C., Goodman, S. N., Griswold, M. E. & Sox, H. C. (2007). Reproducible research:
Moving toward research the public can really trust. Annals of Internal Medicine,
146(6), 450–453.
214
Literatura
Landi, M. T., Dracheva, T., Rotunno, M., Figueroa, J. D., Liu, H., Dasgupta, A., . . . Jen,
J. (2008). Gene expression signature of cigarette smoking and its role in lung
adenocarcinoma development and survival. PloS ONE, 3(2), e1651. doi:10.1371/
journal.pone.0001651
Lee, C.-H. (2007). A Hellinger-based discretization method for numeric attributes in
classification learning. Knowledge-Based Systems, 20(4), 419–425. doi:10 . 1016 / j .
knosys.2006.06.005
Lee, J. W., Lee, J. B., Park, M. & Song, S. H. (2005). An extensive comparison of recent classification tools applied to microarray data. Computational Statistics & Data Analysis,
48(4), 869–885. doi:10.1016/j.csda.2004.03.017
Lee, J. A. & Verleysen, M. (2007). Nonlinear dimensionality reduction. New York, NY:
Springer.
Levina, E. & Bickel, P. J. (2005). Maximum likelihood estimation of intrinsic dimension.
V L. K. Saul, Y. Weiss & L. Bottou (Ur.), Advances in neural information processing
systems 17 (Zv. 17, str. 777–784). Cambridge, MA: MIT Press.
Li, Q., Brown, J. B., Huang, H. & Bickel, P. J. (2011). Measuring reproducibility of highthroughput experiments. The Annals of Applied Statistics, 5(3), 1752–1779.
Li, T., Zhang, C. & Ogihara, M. (2004). A comparative study of feature selection and
multiclass classification methods for tissue classification based on gene expression.
Bioinformatics, 20(15), 2429–2437. doi:10.1093/bioinformatics/bth267
Li, Y., Liu, L., Bai, X., Cai, H., Ji, W., Guo, D. & Zhu, Y. (2010). Comparative study of
discretization methods of microarray data for inferring transcriptional regulatory
networks. BMC Bioinformatics, 11, 520. doi:10.1186/1471-2105-11-520
Liu, H., Hussain, F., Tan, C. L. & Dash, M. (2002). Discretization: An enabling technique.
Data Mining and Knowledge Discovery, 6(4), 393–423.
Liu, H. & Motoda, H. (1998). Feature selection for knowledge discovery and data mining. New
York, NY: Kluwer Academic Publishers.
Liu, H. & Motoda, H. (2007). Computational methods of feature selection. Boca Raton, FL:
Chapman & Hall.
Liu, H., Motoda, H., Setiono, R. & Zhao, Z. (2010). Feature selection: An ever evolving
frontier in data mining. Journal of Machine Learning Research, 10, 4–13.
Liu, H. & Setiono, R. (1997). Feature selection via discretization. IEEE Transactions on
Knowledge and Data Engineering, 9(4), 642–645.
Liu, H. & Yu, L. (2005). Toward integrating feature selection algorithms for classification
and clustering. IEEE Transactions on Knowledge and Data Engineering, 17(4), 491–502.
doi:10.1109/TKDE.2005.66
Lu, H., Plataniotis, K. N. & Venetsanopoulos, A. (2014). Multilinear subspace learning:
Dimensionality reduction of multidimensional data. Boca Raton, FL: CRC Press.
Lustgarten, J. L., Gopalakrishnan, V., Grover, H. & Visweswaran, S. (2008). Improving classification performance with discretization on biomedical datasets. V J. Suermondt,
R. S. Evans & L. Ohno-Machado (Ur.), Proceedings of the 2008 american medical informatics association (amia) annual symposium (str. 445–449). Washington, DC: American
Medical Informatics Association.
Lustgarten, J. L., Visweswaran, S., Gopalakrishnan, V. & Cooper, G. F. (2011). Application
of an efficient Bayesian discretization method to biomedical data. BMC Bioinformatics,
12, 309. doi:10.1186/1471-2105-12-309
215
Literatura
Ma, S. & Huang, J. (2008). Penalized feature selection and classification in bioinformatics.
Briefings in Bioinformatics, 9(5), 392–403. doi:10.1093/bib/bbn027
Martens, H. (2001). Reliable and relevant modelling of real world data: A personal account
of the development of PLS Regression. Chemometrics and Intelligent Laboratory Systems,
58(2), 85–95.
Martens, H. & Næs, T. (1992). Multivariate calibration. Chichester, England: John Wiley &
Sons.
Mehta, T., Tanik, M. & Allison, D. B. (2004). Towards sound epistemological foundations
of statistical methods for high-dimensional biology. Nature Genetics, 36, 943–947.
Metzker, M. L. (2010 januar). Sequencing technologies - the next generation. Nature reviews.
Genetics, 11(1), 31–46. doi:10.1038/nrg2626
Mitchell, T. M. (1997). Machine learning. New York, NY: McGraw-Hill.
Morrison, D. F. (2004). Multivariate statistical methods (4. izd.). Boston, MA: Cengage
Learning.
Narendra, P. M. & Fukunaga, K. (1977). A Branch and Bound Algorithm for Feature
Subset Selection. IEEE Transactions on Computers, C-26(9), 917–922. doi:10.1109/TC.
1977.1674939
Ng, A. Y. (2004). Feature selection, L1 vs. L2 regularization, and rotational invariance. V
C. E. Brodley (Ur.), Proceedings of the 21st international conference on machine learning
(icml-04) (str. 78). New York, NY: ACM. doi:10.1145/1015330.1015435
Nguyen, D. V. & Rocke, D. M. (2002a). Multi-class cancer classification via partial least
squares with gene expression profiles. Bioinformatics, 18(9), 1216–1226.
Nguyen, D. V. & Rocke, D. M. (2002b). Tumor classification by partial least squares
using microarray gene expression data. Bioinformatics, 18(1), 39–50. doi:10.1093/
bioinformatics/18.1.39
Nicholson, J. K. & Lindon, J. C. (2008 oktober). Systems biology: Metabonomics. Nature,
455(7216), 1054–6. doi:10.1038/4551054a
Nilsson, T., Mann, M., Aebersold, R., Yates, J. R., Bairoch, A. & Bergeron, J. J. M. (2010
september). Mass spectrometry in high-throughput proteomics: ready for the big
time. Nature methods, 7(9), 681–5. doi:10.1038/nmeth0910-681
Oates, T. & Jensen, D. (1998). Large Datasets Lead to Overly Complex Models: An
Explanation and a Solution. V R. Agrawal & P. Stolorz (Ur.), Proceedings of the fourth
international conference on knowledge discovery and data mining (str. 294–298). Menlo
Park, CA: AAAI Press.
Obulkasim, A., Meijer, G. A. & van de Wiel, M. A. (2011 januar). Stepwise classification
of cancer samples using clinical and molecular data. BMC bioinformatics, 12(1), 422.
doi:10.1186/1471-2105-12-422
Pearl, J. (1988). Probabilistic reasoning in intelligent systems: Networks of plausible inference.
San Francisco, CA: Morgan Kaufmann.
Pearson, K. (1901). On lines and planes of closest fit to systems of points in space.
Philosophical Magazine Series 6, 2(11), 559–572. doi:10.1080/14786440109462720
Peng, R. D. (2009). Reproducible research and Biostatistics. Biostatistics, 10(3), 405–408.
doi:10.1093/biostatistics/kxp014
Peng, R. D. (2011). Reproducible research in computational science. Science, 334(6060),
1226–1227. doi:10.1126/science.1213847
Pensa, R., Leschi, C., Besson, J. & Boulicaut, J. (2004). Assessment of discretization
techniques for relevant pattern discovery from gene expression data. V M. J. Zaki,
216
Literatura
S. Morishita & I. Rigoutsos (Ur.), Proceedings of the 4th acm sigkdd workshop on data
mining in bioinformatics (str. 24–30). Seattle, WA.
Pescatori, M., Broccolini, A., Minetti, C., Bertini, E., Bruno, C., D’amico, A., . . . Ricci, E.
(2007). Gene expression profiling in the early phases of DMD: a constant molecular
signature characterizes DMD muscle from early postnatal life throughout disease
progression. FASEB Journal, 21(4), 1210–26. doi:10.1096/fj.06-7285com
Pettis, K. W., Bailey, T. A., Jain, A. K. & Dubes, R. C. (1979). An intrinsic dimensionality
estimator from near-neighbor information. IEEE Transactions on Pattern Analysis and
Machine Intelligence, PAMI-1(1), 25–37. doi:10.1109/TPAMI.1979.4766873
Pochet, N., De Smet, F., Suykens, J. A. K. & De Moor, B. L. R. (2004). Systematic benchmarking of microarray data classification: Assessing the role of non-linearity and dimensionality reduction. Bioinformatics, 20(17), 3185–95. doi:10.1093/bioinformatics/
bth383
Poincaré, H. (2009). Mathematics and science last essays. Charleston, SC: BiblioBazaar.
Pomeroy, S. L., Tamayo, P., Gaasenbeek, M., Sturla, L. M., Angelo, M., McLaughlin, M. E.,
. . . Golub, T. R. (2002). Prediction of central nervous system embryonal tumour
outcome based on gene expression. Nature, 415(6870), 436–442. doi:10.1038/415436a
Potamias, G., Koumakis, L. & Moustakis, V. (2004). Gene selection via discretized geneexpression profiles and greedy feature-elimination. V G. A. Vouros & T. Panayiotopoulos (Ur.), Methods and applications of artificial intelligence (Zv. 3025, str. 256–266).
Lecture Notes in Computer Science. Berlin, Germany: Springer. doi:10.1007/b97168
Press, W. H., Teukolsky, S. A., Vetterling, W. T. & Flannery, B. P. (1992). Numerical recipes
in C: The art of scientific computing (2. izd.). Cambridge, England: University Press.
Pyle, D. (1999). Data preparation for data mining. San Francisco, CA: Morgan Kaufmann.
Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81–106.
Quinlan, J. R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann.
Rao, C. R. (1948). The utilization of multiple measurements in problems of biological
classification. Journal of the Royal Statistical Society. Series B (Methodological), 10(2),
159–203.
Rencher, A. C. & Christensen, W. F. (2012). Methods of multivariate analysis (2. izd.).
Hoboken, NJ: John Wiley & Sons.
Rindflesch, T. C. & Fiszman, M. (2003). The interaction of domain knowledge and linguistic
structure in natural language processing: Interpreting hypernymic propositions in
biomedical text. Journal of Biomedical Informatics, 36(6), 462–477. doi:10.1016/j.jbi.
2003.11.003
Ripley, B. D. (2008). Pattern recognition and neural networks. Cambridge, England: University
Press.
Roweis, S. T. & Saul, L. K. (2000). Nonlinear dimensionality reduction by locally linear
embedding. Science, 290(5500), 2323–2326. doi:10.1126/science.290.5500.2323
Rucker, R. & Povilaitis, D. (1984). The fourth dimension: A guided tour of the higher universes.
Boston, MA: Houghton Mifflin Company.
Rueda, L. & Ali, A. (2014). Introduction to microarrays. V L. Rueda (Ur.), Microarray image
and data analysis: theory and practice (str. 1–39). Boca Raton, FL: CRC Press.
Ruiz, F., Angulo, C. & Agell, N. (2008). IDD: A supervised interval distance-based method
for discretization. IEEE Transactions on Knowledge and Data Engineering, 20(9), 1230–
1238. doi:10.1109/TKDE.2008.66
217
Literatura
Ruiz, R., Riquelme, J. C. & Aguilar-Ruiz, J. S. (2006). Incremental wrapper-based gene
selection from microarray data for cancer classification. Pattern Recognition, 39(12),
2383–2392. doi:10.1016/j.patcog.2005.11.001
Ruschhaupt, M., Huber, W., Poustka, A. & Mansmann, U. (2004). A compendium to ensure
computational reproducibility in high-dimensional classification tasks. Statistical
Applications in Genetics and Molecular Biology, 3, Article37. doi:10.2202/1544-6115.
1078
Rustici, G., Kolesnikov, N., Brandizi, M., Burdett, T., Dylag, M., Emam, I., . . . Sarkans, U.
(2013). ArrayExpress update—Trends in database growth and links to data analysis
tools. Nucleic Acids Research, 41(Database issue), D987–D990. doi:10.1093/nar/
gks1174
Ryan, M. M., Lockstone, H. E., Huffaker, S. J., Wayland, M. T., Webster, M. J. & Bahn,
S. (2006). Gene expression analysis of bipolar disorder reveals downregulation of
the ubiquitin cycle and alterations in synaptic genes. Molecular Psychiatry, 11(10),
965–978. doi:10.1038/sj.mp.4001875
Sabates-Bellver, J., Van der Flier, L. G., de Palo, M., Cattaneo, E., Maake, C., Rehrauer, H.,
. . . Marra, G. (2007). Transcriptome profile of human colorectal adenomas. Molecular
Cancer Research, 5(12), 1263–1275. doi:10.1158/1541-7786.MCR-07-0267
Saeys, Y., Abeel, T. & Peer, Y. (2008). Robust feature selection using ensemble feature
selection techniques. V W. Daelemans, B. Goethals & K. Morik (Ur.), Machine
learning and knowledge discovery in databases (Zv. 5212, str. 313–325). Lecture Notes in
Computer Science. Berlin, Germany: Springer. doi:10.1007/978-3-540-87481-2
Saeys, Y., Inza, I. & Larrañaga, P. (2007). A review of feature selection techniques in
bioinformatics. Bioinformatics, 23(19), 2507–2517. doi:10.1093/bioinformatics/
btm344
Saidi, S. A., Holland, C. M., Kreil, D. P., MacKay, D. J. C., Charnock-Jones, D. S., Print,
C. G. & Smith, S. K. (2004). Independent component analysis of microarray data in
the study of endometrial cancer. Oncogene, 23(39), 6677–6683. doi:10.1038/sj.onc.
1207562
Sanoudou, D., Corbett, M. A., Han, M., Ghoddusi, M., Nguyen, M.-A. T., Vlahovich, N., . . .
Beggs, A. H. (2006). Skeletal muscle repair in a mouse model of nemaline myopathy.
Human Molecular Genetics, 15(17), 2603–2612. doi:10.1093/hmg/ddl186
Sayers, E. W., Barrett, T., Benson, D. A., Bolton, E., Bryant, S. H., Canese, K., . . . Ye, J.
(2012). Database resources of the National Center for Biotechnology Information.
Nucleic Acids Research, 40(Database issue), D13–D25. doi:10.1093/nar/gkr1184
Schirmer, S. H., Fledderus, J. O., van der Laan, A. M., van der Pouw-Kraan, T. C. T. M.,
Moerland, P. D., Volger, O. L., . . . van Royen, N. (2009). Suppression of inflammatory signaling in monocytes from patients with coronary artery disease. Journal of
Molecular and Cellular Cardiology, 46(2), 177–185. doi:10.1016/j.yjmcc.2008.10.029
Schölkopf, B., Smola, A. & Müller, K.-R. (1998). Nonlinear component analysis as a
kernel eigenvalue problem. Neural Computation, 10(5), 1299–1319. doi:10 . 1162 /
089976698300017467
Scholz, M., Kaplan, F., Guy, C. L., Kopka, J. & Selbig, J. (2005). Non-linear PCA: A missing
data approach. Bioinformatics, 21(20), 3887–3895. doi:10.1093/bioinformatics/
bti634
Scott, D. W. (1992). Multivariate density estimation: Theory, Practice, and visualization. New
York, NY: John Wiley & Sons.
218
Literatura
Shipp, M. A., Ross, K. N., Tamayo, P., Weng, A. P., Kutok, J. L., Aguiar, R. C. T., . . .
Golub, T. R. (2002). Diffuse large B-cell lymphoma outcome prediction by geneexpression profiling and supervised machine learning. Nature Medicine, 8(1), 68–74.
doi:10.1038/nm0102-68
Shmulevich, I. & Zhang, W. (2002). Binary analysis and optimization-based normalization
of gene expression data. Bioinformatics, 18(4), 555–565. doi:10.1093/bioinformatics/
18.4.555
Siedelecky, W. & Sklansky, J. (1988). On automatic feature selection. International Journal of
Pattern Recognition and Artificial Intelligence, 2(2), 197–220.
Simon, H. A. (1996). The sciences of the artificial. Cambridge, MA: MIT Press.
Singh, D., Febbo, P. G., Ross, K., Jackson, D. G., Manola, J., Ladd, C., . . . Sellers, W. R.
(2002). Gene expression correlates of clinical prostate cancer behavior. Cancer Cell,
1(2), 203–209.
Skalak, D. B. (1994). Prototype and feature selection by sampling and random mutation
hill climbing algorithms. V W. Cohen & H. Hirsh (Ur.), Proceedings of the 11th
international conference on machine learning (str. 293–301). San Mateo, CA: Morgan
Kaufmann.
Slawski, M., Daumer, M. & Boulesteix, A.-L. (2008). CMA: A comprehensive Bioconductor package for supervised classification with high dimensional data. BMC
Bioinformatics, 9, 439. doi:10.1186/1471-2105-9-439
Smyth, G. K. (2005). Limma: linear models for microarray data. V R. Gentleman, V. Carey,
W. Huber, R. Irizarry & S. Dudoit (Ur.), Bioinformatics and computational biology
solutions using r and bioconductor (str. 397–420). New York, NY: Springer.
Somogyi, R. & Sniegoski, C. A. (1996). Modeling the complexity of genetic networks:
Understanding multigenic and pleiotropic regulation. Complexity, 1(6), 45–63. doi:10.
1002/cplx.6130010612
Spang, R., Zuzan, H., West, M., Nevins, J., Blanchette, C. & Marks, J. R. (2002). Prediction
and uncertainty in the analysis of gene expression profiles. In Silico Biology, 2(3),
369–381.
Speed, T. (2003). Statistical analysis of gene expression microarray data (1. izd.). Chapman in
Hall/CRC.
Stearman, R. S., Dwyer-Nield, L., Zerbe, L., Blaine, S. A., Chan, Z., Bunn, P. A., . . . Geraci,
M. W. (2005 december). Analysis of orthologous gene expression between human
pulmonary adenocarcinoma and a carcinogen-induced murine model. The American
journal of pathology, 167(6), 1763–75. doi:10.1016/S0002-9440(10)61257-6
Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677–680.
doi:10.1126/science.103.2684.677
Stirewalt, D. L., Meshinchi, S., Kopecky, K. J., Fan, W., Pogosova-Agadjanyan, E. L., Engel,
J. H., . . . Radich, J. P. (2008). Identification of genes with abnormal expression
changes in acute myeloid leukemia. Genes, Chromosomes & Cancer, 47(1), 8–20. doi:10.
1002/gcc.20500
Stone, M. & Brooks, R. (1990). Continuum regression: Cross-validated sequentially constructed prediction embracing ordinary least squares, partial least squares and
principal components. Journal of the Royal Statistical Society. Series B (Methodological),
52(2), 237–269.
219
Literatura
Stracuzzi, D. J. (2012). Randomized feature selection. V H. Liu & H. Motoda (Ur.),
Computational methods of feature selection (str. 41–62). Boca Raton, FL: Chapman &
Hall.
Strøm, C. C., Kruhøffer, M., Knudsen, S., Stensgaard-Hansen, F., Jonassen, T. E. N., Orntoft,
T. F., . . . Sheikh, S. P. (2004). Identification of a core set of genes that signifies
pathways underlying cardiac hypertrophy. Comparative and Functional Genomics,
5(6-7), 459–470. doi:10.1002/cfg.428
Strunnikova, N., Hilmer, S., Flippin, J., Robinson, M., Hoffman, E. & Csaky, K. G. (2005).
Differences in gene expression profiles in dermal fibroblasts from control and
patients with age-related macular degeneration elicited by oxidative injury. Free
Radical Biology & Medicine, 39(6), 781–796. doi:10.1016/j.freeradbiomed.2005.04.
029
Stumpf, M., Balding, D. J. & Girolami, M. (2011). Handbook of statistical systems biology.
Chichester, England: John Wiley & Sons.
Subramanian, A., Tamayo, P., Mootha, V. K., Mukherjee, S., Ebert, B. L., Gillette, M. A., . . .
Mesirov, J. P. (2005). Gene set enrichment analysis: a knowledge-based approach for
interpreting genome-wide expression profiles. Proceedings of the National Academy of
Sciences, USA, 102(43), 15545–15550. doi:10.1073/pnas.0506580102
Swets, J. (1988). Measuring the accuracy of diagnostic systems. Science, 240(4857), 1285–
1293. doi:10.1126/science.3287615
Tabus, I., Rissanen, J. & Astola, J. (2003). Normalized maximum likelihood models for
boolean regression with application to prediction and classification in genomics. V
W. Zhang & I. Shmulevich (Ur.), Computational and statistical approaches to genomics
(str. 173–189). New York, NY: Kluwer Academic Publishers. doi:10.1007/b101927
Takens, F. (1985). On the numerical determination of the dimension of an attractor. V
B. L. J. Braaksma, H. W. Broer & F. Takens (Ur.), Dynamical systems and bifurcations
(Zv. 1125, str. 99–106). Lecture Notes in Mathematics. Berlin, Germany: Springer.
doi:10.1007/BFb0075630
Tenenbaum, J. B., de Silva, V. & Langford, J. C. (2000). A global geometric framework
for nonlinear dimensionality reduction. Science, 290(5500), 2319–2323. doi:10.1126/
science.290.5500.2319
Thomas, M., De Brabanter, K. & De Moor, B. (2014). New bandwidth selection criterion
for Kernel PCA: approach to dimensionality reduction and classification problems.
BMC bioinformatics, 15, 137. doi:10.1186/1471-2105-15-137
Tian, E., Zhan, F., Walker, R., Rasmussen, E., Ma, Y., Barlogie, B. & Shaughnessy, J. D.
(2003). The role of the Wnt-signaling antagonist DKK1 in the development of
osteolytic lesions in multiple myeloma. The New England Journal of Medicine, 349(26),
2483–2494. doi:10.1056/NEJMoa030847
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal
Statistical Society. Series B (Methodological), 58(1), 267–288.
Tibshirani, R., Hastie, T., Narasimhan, B. & Chu, G. (2002). Diagnosis of multiple cancer
types by shrunken centroids of gene expression. Proceedings of the National Academy
of Sciences, USA, 99(10), 6567–6572. doi:10.1073/pnas.082099299
Tibshirani, R., Hastie, T., Narasimhan, B. & Chu, G. (2003). Class prediction by nearest
shrunken centroids, with applications to DNA microarrays. Statistical Science, 18(1),
104–117.
220
Literatura
Tillander, A. (2012). Effect of data discretization on the classification accuracy in a highdimensional framework. International Journal of Intelligent Systems, 27(4), 355–374.
Torgerson, W. S. (1952). Multidimensional scaling: I. Theory and method. Psychometrika,
17(4), 401–419. doi:10.1007/BF02288916
Trunk, G. V. (1976). Statistical estimation of the intrinsic dimensionality of a noisy signal
collection. IEEE Transactions on Computers, C-25(2), 165–171. doi:10.1109/TC.1976.
5009231
Tusher, V. G., Tibshirani, R. & Chu, G. (2001). Significance analysis of microarrays applied
to the ionizing radiation response. Proceedings of the National Academy of Sciences,
USA, 98(9), 5116–5121. doi:10.1073/pnas.091062498
Umek, L. (2011). Odkrivanje podskupin v podatkih z veˇc odvisnimi spremenljivkami (Doktorska
disertacija, Univerza v Ljubljani, Ljubljana, Slovenija).
Utgoff, P. E. (1989). Incremental induction of decision trees. Machine Learning, 4(2), 161–186.
doi:10.1023/A:1022699900025
van Erp, K., Dach, K., Koch, I., Heesemann, J. & Hoffmann, R. (2006). Role of strain
differences on host resistance and the transcriptional response of macrophages to
infection with Yersinia enterocolitica. Physiological Genomics, 25(1), 75–84. doi:10.
1152/physiolgenomics.00188.2005
van Harmelen, F., Lifschitz, V. & Porter, B. (2008). Handbook of knowledge representation.
Amsterdam, Netherlands: Elsevier Science.
Varmuza, K. & Filzmoser, P. (2009). Introduction to multivariate statistical analysis in chemometrics. Boca Raton, FL: CRC Press.
Venna, J. & Kaski, S. (2006). Local multidimensional scaling. Neural Networks, 19(6-7),
889–899. doi:10.1016/j.neunet.2006.05.014
Verleysen, M. (2003). Learning high-dimensional data. V S. Ablameyko, M. Gori, L. Goras
& V. Piuri (Ur.), Limitations and future trends in neural computation (str. 141–162).
Amsterdam, Netherlands: IOS Press.
Verleysen, M. & François, D. (2005). The curse of dimensionality in data mining and
time series prediction. V J. Cabestany, A. Prieto & F. Sandoval (Ur.), Computational
intelligence and bioinspired systems (str. 758–770). Berlin, Germany: Springer.
Verveer, P. & Duin, R. (1995). An evaluation of intrinsic dimensionality estimators. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 17(1), 81–86. doi:10.1109/
34.368147
Wang, K. & Liu, B. (1998). Concurrent discretization of multiple attributes. V H.-Y. Lee &
H. Motoda (Ur.), Pricai’98: topics in artificial intelligence (Zv. 1531, str. 250–259). Lecture
Notes in Computer Science. Berlin, Germany: Springer. doi:10.1007/BFb0095252
Wang, X. (2012). Robust two-gene classifiers for cancer prediction. Genomics, 99(2), 90–95.
doi:10.1016/j.ygeno.2011.11.003
Wang, X. & Simon, R. (2011). Microarray-based cancer prediction using single genes. BMC
bioinformatics, 12, 391. doi:10.1186/1471-2105-12-391
Webb, A. R. & Copsey, K. D. (2011). Statistical pattern recognition (3. izd.). Chichester,
England: John Wiley & Sons.
Welsh, R. C., Jelsone-Swain, L. M. & Foerster, B. R. (2013 januar). The utility of independent
component analysis and machine learning in the identification of the amyotrophic
lateral sclerosis diseased brain. Frontiers in human neuroscience, 7, 251. doi:10.3389/
fnhum.2013.00251
221
Literatura
West, M., Blanchette, C., Dressman, H., Huang, E., Ishida, S., Spang, R., . . . Nevins, J. R.
(2001). Predicting the clinical status of human breast cancer by using gene expression
profiles. Proceedings of the National Academy of Sciences, USA, 98(20), 11462–11467.
doi:10.1073/pnas.201162998
Wiener, N. (1965). Cybernetics: Or the control and communication in the animal and the machine.
Cambridge, England: MIT Press.
Wille, A., Zimmermann, P., Vranová, E., Fürholz, A., Laule, O., Bleuler, S., . . . Bühlmann,
P. (2004). Sparse graphical Gaussian modeling of the isoprenoid gene network in
Arabidopsis thaliana. Genome Biology, 5(11), R92. doi:10.1186/gb-2004-5-11-r92
Wold, S., Ruhe, A., Wold, H. & Dunn, III, W. J. (1984). The collinearity problem in linear
regression. The partial least squares (PLS) approach to generalized inverses. SIAM
Journal on Scientific and Statistical Computing, 5(3), 735–743. doi:10.1137/0905052
Wu, B., Abbott, T., Fishman, D., McMurray, W., Mor, G., Stone, K., . . . Zhao, H. (2003).
Comparison of statistical methods for classification of ovarian cancer using mass
spectrometry data. Bioinformatics, 19(13), 1636–1643. doi:10.1093/bioinformatics/
btg210
Wu, X., Kumar, V., Ross Quinlan, J., Ghosh, J., Yang, Q., Motoda, H., . . . Steinberg, D.
(2007). Top 10 algorithms in data mining. Knowledge and Information Systems, 14(1),
1–37. doi:10.1007/s10115-007-0114-2
Xie, Y. (2014). Dynamic documents with R and knitr. Boca Raton, FL: CRC Press.
Yang, P. [Pengyi], Zhou, B. B., Yang, J. Y.-H. & Zomaya, A. Y. (2013). Stability of feature
selection algorithms and ensemble feature selection methods in bioinformatics. V M.
Elloumi & A. Y. Zomaya (Ur.), Biological knowledge discovery handbook: preprocessing,
mining, and postprocessing of biological data (str. 333–352). Hoboken, NJ: John Wiley &
Sons. doi:10.1002/9781118617151.ch14
Yang, P. [Ping], Li, J.-S. & Huang, Y.-X. (2011). HDD: A hypercube division-based algorithm
for discretisation. International Journal of Systems Science, 42(4), 557–566. doi:10.1080/
00207720903572455
Yang, Y. & Webb, G. I. (2003). On why discretization works for naive-Bayes classifiers.
V T. D. Gedeon & L. C. C. Fung (Ur.), Ai 2003: advances in artificial intelligence
(Zv. 2903, str. 440–452). Lecture Notes in Computer Science. Berlin, Germany:
Springer. doi:10.1007/b94701
Yang, Y. & Webb, G. I. (2008). Discretization for naive-Bayes learning: Managing discretization bias and variance. Machine Learning, 74(1), 39–74. doi:10.1007/s10994-0085083-5
Yang, Y., Webb, G. I. & Wu, X. (2010). Discretization Methods. V O. Maimon & L. Rokach
(Ur.), Data mining and knowledge discovery handbook (str. 101–116). New York, NY:
Springer.
Yao, Y., Richman, L., Morehouse, C., de los Reyes, M., Higgs, B. W., Boutrin, A., . . . Jallal,
B. (2008). Type I interferon: Potential therapeutic target for psoriasis? PloS ONE,
3(7), e2737. doi:10.1371/journal.pone.0002737
Yao, Z., Jaeger, J. C., Ruzzo, W. L., Morale, C. Z., Emond, M., Francke, U., . . . Mulvihill,
E. R. (2007). A Marfan syndrome gene expression phenotype in cultured skin
fibroblasts. BMC Genomics, 8, 319. doi:10.1186/1471-2164-8-319
Yousefi, M. R., And, J. H. & Dougherty, E. R. (2011). Multiple-rule bias in the comparison
of classification rules. Bioinformatics, 27(12), 1675–1683.
222
Literatura
Yousefi, M. R., Hua, J., Sima, C. & Dougherty, E. R. (2010). Reporting bias when using
real data sets to analyze classification performance. Bioinformatics, 26(1), 68–76.
doi:10.1093/bioinformatics/btp605
Yu, L. & Liu, H. (2004). Efficient feature selection via analysis of relevance and redundancy.
The Journal of Machine Learning Research, 5, 1205–1224.
Yu, Y. P., Landsittel, D., Jing, L., Nelson, J., Ren, B., Liu, L., . . . Luo, J.-H. (2004). Gene
expression alterations in prostate cancer predicting tumor aggression and preceding
development of malignancy. Journal of Clinical Oncology, 22(14), 2790–2799. doi:10.
1200/JCO.2004.05.158
Zaki, M. J. & Meira, W. (2014). Data mining and analysis: Fundamental concepts and algorithms.
New York, NY: Cambridge University Press.
Zhang, M., Yao, C., Guo, Z., Zou, J., Zhang, L., Xiao, H., . . . Li, X. (2008). Apparently
low reproducibility of true differential expression discoveries in microarray studies.
Bioinformatics, 24(18), 2057–2063.
Zhu, J., Rosset, S., Hastie, T. & Tibshirani, R. (2004). 1-norm support vector machines. V
S. Thrun, L. K. Saul & B. Schölkopf (Ur.), Advances in neural information processing
systems 16 (Zv. 16, str. 49–56). Cambridge, MA: MIT Press.
Zhu, Z., Ong, Y.-S. & Kuo, J.-L. (2009). Feature selection using single/multi-objective
memetic frameworks. V C.-K. Goh, Y.-S. Ong & K. C. Tan (Ur.), Multi-objective
memetic algorithms (Zv. 171, str. 111–131). Studies in Computational Intelligence.
Berlin, Germany: Springer. doi:10.1007/978-3-540-88051-6
223