FAKULTETA ZA INFORMACIJSKE ŠTUDIJE V NOVEM MESTU DOKTORSKA DISERTACIJA ANDREJ KASTRIN FAKULTETA ZA INFORMACIJSKE ŠTUDIJE V NOVEM MESTU DOKTORSKA DISERTACIJA ˇ UVRŠCANJE IN DISKRETIZACIJA MNOGORAZSEŽNIH MIKROMREŽNIH DNA-PODATKOVIJ Mentor: izr. prof. dr. Janez Povh Novo mesto, junij 2015 Andrej Kastrin Izjava o avtorstvu Podpisani Andrej Kastrin, študent Fakultete za informacijske študije v Novem mestu, izjavljam: • da sem doktorsko disertacijo pripravil samostojno na podlagi virov, ki so navedeni v doktorski disertaciji, • da dovoljujem objavo doktorske disertacije v polnem tekstu, v prostem dostopu, na spletni strani Fakultete za informacijske študije v Novem mestu oz. v digitalni knjižnici, • da je doktorska disertacija, ki sem jo oddal v elektronski obliki, enaka tiskani razliˇcici, • da je doktorska disertacija lektorirana. V Novem mestu, 2. junija 2015 iv Andrej Kastrin Moji zdravnici, ge. Dragici Resman. Brez nje bi ne bilo niti mene niti te doktorske naloge. Hvala za vse. vi Povzetek Tehnologija DNA-mikromrež je danes dostopna v vsakem bolje opremljenem biomedicinskem laboratoriju. Kljub dovršenosti postopkov je statistiˇcna analiza mikromrežnih DNA-podatkovij za statistika še zmeraj velik izziv. Mikromrežno podatkovje opišemo z matriko razsežnosti n × p, kjer se vrstice matrike nanašajo na posamezne primere, stolpci pa na prouˇcevane gene. Velja, da je n << p. Na osnovi analize geometrijskih lastnosti mnogorazsežnih podatkovnih objektov lahko pokažemo, da je v tem primeru podatkovni prostor zelo redek. Fenomenu praznega prostora se poskušamo izogniti z uporabo metod za krˇcenje podatkovne strukture. Empiriˇcna evidenca razkriva, da na podroˇcju statistiˇcne analize mikromrežnih DNA-podatkovij sistematiˇcna raziskava, ki bi prouˇcevala vpliv metod za krˇcenje podatkovnih struktur, še ni bila opravljena. Prav tako ostaja odprto vprašanje smiselnosti diskretizacije mikromrežnih podatkov. V doktorski nalogi smo obravnavali tri problemske naloge. V prvem sklopu eksperimentov smo prouˇcili kakovost razliˇcnih klasifikatorjev v nalogi uvršˇcanja primerov v dva vnaprej podana razreda. Uporabili smo nekatere najpogosteje uporabljene metode, kot so nevronske mreže, metoda najbližjih sosedov, klasifikacijska drevesa s sluˇcajnimi gozdovi, metoda podpornih vektorjev, logistiˇcna regresija s kaznijo ter tri izpeljanke linearne diskriminantne analize (Fisherjeva, klasiˇcna in diagonalna). V drugi problemski nalogi smo analizirali vpliv metod za krˇcenje števila razsežnosti na uvršˇcanje. Podrobno smo prouˇcili vpliv analize glavnih komponent in metode delnih najmanjših kvadratov na kakovost uvršˇcanja. V tretjem sklopu smo se ukvarjali s prouˇcevanjem vpliva diskretizacije neodvisnih spremenljivk na uvršˇcanje. V analizo smo vkljuˇcili nekatere najpogosteje uporabljene algoritme diskretizacije, kot so metode enake širine intervalov, enake zastopanosti intervalov, 1R, MDLP in ChiMerge. Eksperimente smo izvedli nad 37 realnimi DNA-podatkovji. Vpliv metode uvršˇcanja in izbire spremenljivk smo ovrednotili tudi nad sintetiˇcnimi podatki. Izbor parametrov uvršˇcanja in ovrednotenje kakovosti uvršˇcanja smo opravili po shemi preˇcnega preverjanja. Kakovost smo izrazili s štirimi merami: toˇcnostjo uvršˇcanja, obˇcutljivostjo, specifiˇcnostjo in plošˇcino pod ROC-krivuljo. Pri uvršˇcanju realnih mikromrežnih podatkovij se najbolje odreže logistiˇcna regresija s kaznijo, najslabše pa nevronske mreže. Nad sintetiˇcnimi podatkovji po kakovosti izstopa metoda podpornih vektorjev. Med metodama krˇcenja podatkovne matrike glede na kakovost uvršˇcanja ni statistiˇcno znaˇcilnih razlik (z izjemo plošˇcine pod ROC-krivuljo). Med metodami diskretizacije se glede na uvršˇcanje najbolje odrežeta metodi MDLP in ChiMerge. Po našem védenju in dostopni empiriˇcni evidenci gre za prvo raziskavo na tako velikem številu mikromrežnih podatkovij. Kljuˇcne besede: raˇcunska statistika, biostatistika, bioinformatika, strojno uˇcenje, analiza DNA-mikromrež, uvršˇcanje podatkov, diskretizacija spremenljivk vii viii Abstract High-throughput DNA microarray technology is nowadays available in any modern biomedical laboratory. Despite the sophistication of the microarray technology, a state-ofthe-art statistical analysis of microarray data is still a great challenge. Microarray dataset could be described by a matrix with n rows and p columns, where the former refer to individual samples, and the later to the particular genes. It is assumed that n « p. Based on a topological analysis of the geometrical properties of the high-dimensional data objects we can show, that in this case the data space is very sparse. The empty-space phenomenon can be effectively managed using various dimensionality reduction techniques. The empirical evidence reveals that systematic evaluation that examined the behavior of different dimensionality reduction methods on the microarray data has not yet been performed. Moreover, the question of the usefulness of discretization of microarray data still remains unanswered. In this thesis, we discussed three different problem tasks. In the first set of experiments, we systematically studied the performance of various classifiers in a standard classification task with two pre-defined classes. We used a bundle of state-ofthe-art classifiers, including neural networks, nearest neighbors, classification trees with random forests, support vector machines, penalized logistic regression, and three variants of linear discriminant analysis (Fisher, classical and diagonal). In the second experiment, we analyzed the effect of dimensionality reduction on the classification performance; in particular we examine principal component analysis and partial least squares. In the third experiment we studied the effect of data discretization on classification performance. The analysis included some of the most commonly used discretization algorithms, including equal width and equal frequency discretization, 1R, MDLP, and ChiMerge. Experiments were carried out on a set of 37 real DNA microarray datasets. Effect of classification method and variable selection procedure was evaluated on synthetic data as well. Learning parameters and performance measures were evaluated using the cross-validation scheme. The classification results were represented by standard performance measures including classification accuracy, sensitivity, specificity, and area of the ROC curve. Results showed best classification performance with penalized logistic regression for real datasets and support vector machines for synthetic data. Neural networks perform worst in both settings. Principal component analysis and partial least squares did not show statistically significant differences according to classification performance (with the exception of the area under the ROC curve). Among discretization methods the best classification performance was achieved using the MDLP and ChiMerge algorithms. To the best of our knowledge and according to available empirical evidence this is the first study on such large number of microarray datasets. Keywords: computational statistics, biostatistics, bioinformatics, machine learning, DNA microarray analysis, data classification, data discretization ix x Predgovor Nemogoˇce si je predstavljati štirirazsežni prostor. Sam imam težave že s predstavami v treh razsežnostih. Stephen Hawking Uvedba tehnologije DNA-mikromrež je v zadnjih dveh desetletjih pomembno zaznamovala statistiˇcno znanost. Zlasti pomembno se zdi prepriˇcanje veˇcine raziskovalcev, da je statistika neloˇcljivo povezana s celotnim postopkom naˇcrtovanja, priprave, analize in interpretacije mikromrežnih podatkov. Zdi se, da je statistika ravno v navezi z znanostmi o življenju našla svojo potrditev kot prava znanstvena disciplina. S tehnologijo mikromrež je neloˇcljivo povezana problematika analize mnogorazsežnih podatkovij. Po pravilu imamo opraviti s podatkovnimi tabelami, ki po stolpcih združujejo nekaj 10 000 genov, po vrsticah pa le nekaj desetin primerov. Pomembnost tematike ilustrira ena od najvplivnejših monografij s podroˇcja statistiˇcnega uˇcenja – The Elements of Statistical Learning (Hastie, Tibshirani & Friedman, 2011) – ki v svoji drugi izdaji vkljuˇcuje tudi obširno poglavje o analizi mnogorazsežnih podatkov. Pomembno vlogo v biomedicinski praksi ima problem uvrstitve vzorca v ustrezen razred. V primeru mikromrež bi to npr. pomenilo, da znamo pravilno napovedati, ali profil meritev veˇcjega števila genov ustreza skupini pacientov s parkinsonovo boleznijo ali kontrolni skupini z zdravimi posamezniki. V nalogi, ki je pred vami, raziskujemo vedenje razliˇcnih klasifikatorjev v problemski nalogi uvršˇcanja primerov v dva vnaprej podana razreda. Posebej nas zanima kakovost uvršˇcanja ob hkratni uporabi metod za krˇcenje mnogorazsežnih podatkov. Dodatno prouˇcimo tudi vpliv diskretizacije zveznih spremenljivk na uvršˇcanje. Po našem védenju in dostopni empiriˇcni evidenci tovrstna raziskava na vzorcu, ki bi zagotavljal ustrezno posplošljivost rezultatov, še ni bila opravljena. To vrzel poskušamo zapolniti s tem delom. Hvala prof. dr. Borutu Peterlinu za koristne napotke ob mojih prvih korakih v znanosti. Hvala Janezu, ker je prevzel mentorstvo, verjel vame in me spodbujal. Hvala asist. dr. Lanu Umku za skrben strokovni pregled. Hvala Marjani Miškoviˇc za pomoˇc pri organizacijskih zadevah in Katji Paladin za lektorski pregled. Hvala Jožefu Kocipru, Dragici Resman in Nerini Battelli za pomoˇc, vztrajnost ter toplo besedo. Hvala Mitku za konstruktivne pogovore po Skypu. Hvala Mojci za ponovni zagon sistema in otrokom za dolgo cˇ akanje. Ljubljana, junij 2015 Avtor xi Kazalo 1 Uvod 1.1 Sistemska biologija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Tehnologija DNA-mikromrež . . . . . . . . . . . . . . . . . . . . . . . 1.3 Statistiˇcno ozadje analize podatkov z DNA-mikromrež . . . . . . . . 1.3.1 Eksperimentalni naˇcrt . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Analiza slike izraženosti . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Predpriprava podatkov . . . . . . . . . . . . . . . . . . . . . . 1.3.4 Analiza podatkov . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.5 Interpretacija rezultatov . . . . . . . . . . . . . . . . . . . . . . 1.4 Motivacija in opis problema . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Raziskovalna vprašanja . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1 Vpliv klasifikatorja in izbire spremenljivk na uvršˇcanje . . . . 1.5.2 Vpliv metod za krˇcenje razsežnosti podatkovja na uvršˇcanje . 1.5.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje . . . . 1.6 Notacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 3 4 5 6 8 10 10 15 16 17 17 17 2 Mnogorazsežna podatkovja 2.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Mnogorazsežni podatkovni prostor . . . . . . . . . . . . . . . . . . . . . 2.3 Fenomen praznega prostora . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Geometrijske lastnosti mnogorazsežnega prostora . . . . . . . . . . . . . 2.4.1 Hiperkocka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Hipersfera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Razmerje med prostorninama hipersfere in hiperkocke . . . . . . 2.4.4 Prostornina tanke lupine . . . . . . . . . . . . . . . . . . . . . . . 2.4.5 Diagonale hiperprostora . . . . . . . . . . . . . . . . . . . . . . . . 2.4.6 Robna gostota verjetnosti pri veˇcrazsežni normalni porazdelitvi 2.4.7 Norme in razdalje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 20 21 22 23 25 26 27 29 30 31 3 Izbira spremenljivk 3.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Relevantnost in redundantnost spremenljivk . . . . . 3.2.1 Relevantnost . . . . . . . . . . . . . . . . . . . . 3.2.2 Redundantnost . . . . . . . . . . . . . . . . . . 3.3 Optimalna podmnožica spremenljivk . . . . . . . . . 3.4 Pregled postopkov za optimalno izbiro spremenljivk 3.4.1 Filtracijske metode . . . . . . . . . . . . . . . . 3.4.2 Ovojne metode . . . . . . . . . . . . . . . . . . 3.4.3 Vgrajene metode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 35 36 36 37 39 40 41 41 42 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii Kazalo 3.5 3.6 3.7 Mere za vrednotenje podmnožice izbranih spremenljivk . . . . . . . . . . 3.5.1 Mere za vrednotenje podmnožice izbranih spremenljivk, ki temeljijo na splošnih lastnostih podatkovne tabele . . . . . . . . . . . . . . . 3.5.2 Mere za vrednotenje podmnožice izbranih spremenljivk, ki temeljijo na klasifikacijskem pravilu . . . . . . . . . . . . . . . . . . . . . . . Algoritmi za iskanje optimalne podmnožice spremenljivk . . . . . . . . . 3.6.1 Popolno iskanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.2 Zaporedno iskanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.3 Sluˇcajno iskanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stabilnost postopkov za izbiro spremenljivk . . . . . . . . . . . . . . . . . 4 Sestavljanje spremenljivk 4.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Latentne spremenljivke . . . . . . . . . . . . . . . . . . . 4.3 Intrinziˇcna razsežnost podatkovne tabele . . . . . . . . 4.4 Pregled postopkov za doloˇcanje intrinziˇcne razsežnosti 4.4.1 Lokalne cenilke . . . . . . . . . . . . . . . . . . . 4.4.2 Globalne cenilke . . . . . . . . . . . . . . . . . . 4.5 Pregled metod za sestavljanje spremenljivk . . . . . . . 4.5.1 Analiza glavnih komponent . . . . . . . . . . . . 4.5.2 Veˇcrazsežno lestviˇcenje . . . . . . . . . . . . . . 4.5.3 Delni najmanjši kvadrati . . . . . . . . . . . . . . 4.5.4 Fisherjeva diskriminantna analiza . . . . . . . . . 43 . 43 . . . . . . 45 45 45 47 48 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 51 51 54 55 56 58 60 60 62 65 67 5 Uvrščanje podatkov 5.1 Formalna predstavitev problema uvršˇcanja . . . . . . . . . . . 5.1.1 Statistiˇcna teorija odloˇcanja . . . . . . . . . . . . . . . . 5.2 Pregled metod uvršˇcanja . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Bayesov klasifikator . . . . . . . . . . . . . . . . . . . . 5.2.2 Metoda najbližjega soseda . . . . . . . . . . . . . . . . . 5.2.3 Linearna diskriminantna analiza . . . . . . . . . . . . . 5.2.4 Nevronske mreže . . . . . . . . . . . . . . . . . . . . . . 5.2.5 Odloˇcitvena drevesa . . . . . . . . . . . . . . . . . . . . 5.2.6 Metoda podpornih vektorjev . . . . . . . . . . . . . . . 5.2.7 Metoda najbližjih skrˇcenih centroidov . . . . . . . . . . 5.2.8 Logistiˇcna regresija . . . . . . . . . . . . . . . . . . . . . 5.3 Ocenjevanje kakovosti uvršˇcanja . . . . . . . . . . . . . . . . . 5.3.1 Napaka posplošitve . . . . . . . . . . . . . . . . . . . . 5.3.2 Pristranost in razpršenost uvršˇcanja . . . . . . . . . . . 5.3.3 Pregled mer kakovosti uvršˇcanja . . . . . . . . . . . . . 5.3.4 Pregled postopkov za ocenjevanje kakovosti uvršˇcanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 71 71 73 73 77 78 80 82 86 91 92 94 94 95 97 100 6 Diskretizacija zveznih spremenljivk 6.1 Uvod . . . . . . . . . . . . . . . 6.2 Tipi spremenljivk . . . . . . . . 6.3 Opredelitev diskretizacije . . . 6.3.1 Prednosti diskretizacije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 103 103 104 104 xiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kazalo 6.4 6.5 6.6 Lastnosti metod diskretizacije . . . . . . . . . . . . . . Postopek diskretizacije . . . . . . . . . . . . . . . . . . 6.5.1 Kriteriji za primerjanje metod diskretizacije . Pregled metod za diskretizacijo zveznih spremenljivk 6.6.1 Metode cepitve . . . . . . . . . . . . . . . . . . 6.6.2 Metode združevanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Metoda 7.1 Podatki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Realni podatki . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Sintetiˇcni podatki . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja uvršˇcanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Eksperimentalni naˇcrt . . . . . . . . . . . . . . . . . . . . . . . . 7.2.2 Postopek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Vpliv metod za krˇcenje razsežnosti podatkovja na uvršˇcanje . . . . . . 7.3.1 Eksperimentalni naˇcrt . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 Postopek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje . . . . . . . . . 7.4.1 Eksperimentalni naˇcrt . . . . . . . . . . . . . . . . . . . . . . . . 7.4.2 Postopek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . na . . . . . . . . . . . . . . . . . . 8 Rezultati 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.1 Realni podatki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.2 Sintetiˇcni podatki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje . . . . 8.2.1 Izbira spremenljivk z uporabo statistiˇcnih testov . . . . . . . . . . . 8.2.2 Sluˇcajna izbira spremenljivk . . . . . . . . . . . . . . . . . . . . . . 8.2.3 Ovrednotenje uˇcinka metode krˇcenja razsežnosti, metode uvršˇcanja in metode izbire spremenljivk na uvršˇcanje . . . . . . . . . . . . . . 8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje . . . . . . . . . . . 8.3.1 Pregled mer natanˇcnosti uvršˇcanja . . . . . . . . . . . . . . . . . . . 8.3.2 Ovrednotenje uˇcinka metode diskretizacije in metode uvršˇcanja na uvršˇcanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Razprava 9.1 Povzetek rezultatov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.1 Vpliv metode uvršˇcanja in izbire spremenljivk na uvršˇcanje . 9.1.2 Vpliv metod za krˇcenje razsežnosti podatkovja na uvršˇcanje . 9.1.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje . . . . 9.2 Primerjava rezultatov z obstojeˇco empiriˇcno evidenco . . . . . . . . . 9.2.1 Vpliv metode uvršˇcanja in izbire spremenljivk na uvršˇcanje . 9.2.2 Vpliv metod za krˇcenje razsežnosti podatkovja na uvršˇcanje . 9.2.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 106 108 109 109 115 119 . 119 . 119 . 119 . . . . . . . . . 122 122 125 126 126 127 129 129 131 133 . . . . . . 133 133 143 165 165 172 . 173 . 175 . 175 . 179 . . . . . . . . 189 189 189 190 191 191 191 193 194 xv Kazalo 9.3 9.4 9.5 9.6 Splošna razprava . . . . . . . . . . . . . . . . . . . . . 9.3.1 Naˇcrtna optimizacija rezultatov . . . . . . . . 9.3.2 Problem interpretacije latentnih spremenljivk 9.3.3 Diskretizacija mikromrežnih DNA-podatkov . 9.3.4 Priporoˇcila raziskovalcem . . . . . . . . . . . . Omejitve raziskave . . . . . . . . . . . . . . . . . . . . Predlogi za nadaljnje delo . . . . . . . . . . . . . . . . Zakljuˇcki . . . . . . . . . . . . . . . . . . . . . . . . . . Literatura xvi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 196 196 197 198 200 201 203 205 1 Uvod Sodobna podatkovna analitika na podroˇcju genskih mikromrež zahteva vsaj bežen vpogled v tiste faze raziskovalnega postopka, ki se ukvarjajo neposredno z biološkim materialom. V našem primeru bomo to znanje potrebovali, da bomo lažje razumeli posebnosti in omejitve, ki jih pred nas postavlja rudarjenje po bioloških podatkih. V tem razdelku zato naredimo kratek uvod v tehnologijo DNA-mikromrež in opredelimo osnovne pojme. 1.1 Sistemska biologija Sistemska biologija je znanstvena paradigma z dolgo preteklostjo, a kratko zgodovino. Prvo resno sreˇcanje s sistemsko epistemologijo je biologija doživela z Wienerjevo (1965) kibernetiko in Bertalanffyjevo (1969) splošno sistemsko teorijo. V zadnjem desetletju je sistemska biologija doživela skokovit in nesluten razvoj. Gre za interdisciplinarno znanstveno podroˇcje, pod okriljem katerega se raziskovalci ukvarjajo s prouˇcevanjem strukturnih lastnosti, dinamike procesov in kompleksnih interakcij v bioloških sistemih (Ideker, Galitski & Hood, 2001). V nasprotju z redukcionistiˇcnim pristopom, ki je v biologiji prevladoval do nedavnega, poskuša sistemska biologija lastnosti in delovanje celic, tkiv ali organizmov razumeti v jeziku sistemskega pristopa, v katerem je celota veˇc kot le vsota njenih delov. Za kompleksno razumevanje živega sistema je treba poznati vsaj štiri njegove komponente (Kitano, 2002): (i) strukturo, (ii) dinamiko (iii) kontrolne in (iv) razvojne mehanizme. Pomemben cilj sistemske biologije je premostitev razkoraka med koliˇcino zbranih informacij ter koliˇcino znanstvenega védenja, pridobljenega na osnovi teh informacij. Ta ˇ razkorak lahko ponazorimo na primeru odmevnega projekta Cloveški genom, v okviru katerega so raziskovalci že leta 2001 prebrali celotno zaporedje baznih parov cˇ lovekovega genoma in s tem pridobili ogromno koliˇcino informacij. Vsem naporom navkljub pa so od približno 40 000 cˇ loveških genov funkcijo doloˇcili le v dobri polovici primerov, kar je v primerjavi s koliˇcino informacij razmeroma majhna koliˇcina znanja. Sistemska biologija združuje številna znanstvena podroˇcja (t. i. omike), med katerimi so nekatera že zelo uveljavljena (kot so npr. fenomika, genomika, transkriptomika, metabolomika), nekatera pa šele porajajoˇca se (npr. semiomika) (Hoheisel, 2006; Metzker, 2010; Nicholson & Lindon, 2008; Nilsson in sod., 2010). V sistemski biologiji je zelo pomembna tudi vloga bioinformatike in statistike (Henry, Bandrowski, Pepin, Gonzalez & Desfeux, 2014). Slednja je v zadnjem desetletju, predvsem na raˇcun intenzivnega interdisciplinarnega sodelovanja, moˇcno oplemenitila svojo zakladnico raˇcunskih postopkov ter utrdila svojo vlogo kot samostojna znanost. 1 1 Uvod Frekvenca 6000 4000 2000 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 0 Leto Slika 1.1: Zastopanost MeSH-deskriptorja “Oligonucleotide Array Sequence Analysis” v bibliografski zbirki PubMed. Frekvenco bibliografskih zapisov za posamezno leto smo pridobili z iskalno zahtevo “Oligonucleotide Array Sequence Analysis[MH]”. 1.2 Tehnologija DNA-mikromrež Transkriptomika se je med vsemi omikami razvijala najhitreje. Ukvarja se s prouˇcevanjem izraženosti posameznih genov (Dopazo, 2014; Hoheisel, 2006). Gensko izražanje je proces, v katerem se informacija iz gena uporabi za sintezo genskega proizvoda (obiˇcajno proteina). Koliˇcina sporoˇcilne RNA (mRNA) kot genskega produkta je sorazmerna koliˇcini proteina, ki ga kodira mRNA, oz. je sorazmerna stopnji izraženosti posameznega gena (Dr˘aghici, 2012; Rueda & Ali, 2014). To je osnovna predpostavka, na kateri temelji tehnologija DNA-mikromrež. Do razkritja strukture cˇ loveškega genoma je bila veˇcina raziskav usmerjena v prouˇcevanje posameznih genov in drugih bioloških oznaˇcevalcev. Klasiˇcne metode prouˇcevanja izraženosti genov (npr. verižna reakcija s polimerazo) so omogoˇcale le spremljanje enega ali manjše množice izbranih genov v razliˇcnih eksperimentalnih pogojih (npr. med testno in kontrolno skupino, v razliˇcnih cˇ asovnih rezinah, v izbranih fizioloških pogojih). Tak pristop ni prinesel pomembnih rezultatov pri raziskavah, ki so poskušale opisati molekulske osnove kompleksnejših bioloških fenomenov, fizioloških stanj in patologij (Komel, 2005). Do paradigmatskega preskoka je prišlo s pojavom DNA-mikromrež, s katerimi lahko spremljamo izraženost nekaj tisoˇc genov hkrati (Stumpf, Balding & Girolami, 2011). Tehnologija DNA-mikromrež je na široko odprla vrata v razumevanje vloge genov in prepletenosti njihovega delovanja. DNA-mikromreže so najbližje ideji sistemske biologije o kompleksnem prouˇcevanju živih sistemov. Kot indikator pogostosti uporabe DNA-mikromrež na podroˇcju biomedicine je na sliki 1.1 prikazana zastopanost MeSH-descriptorja “Oligonucleotide Array Sequence Analysis” v bibliografski zbirki MEDLINE med letoma 1998 in 2012. DNA-mikromreža je matrika toˇck, ki so nanesene na trdo podlago (steklo, plastiko, najlonsko ali nitrocelulozno membrano) v velikosti objektnega stekla. Velikost posamezne toˇcke v premeru obiˇcajno ne presega 200 µm. Položaj toˇcke na mikromreži je natanˇcno doloˇcen. Na podlagi je lahko od nekaj 100 do 50 000 toˇck, na katere so naneseni lovilci 2 1.3 Statistiˇcno ozadje analize podatkov z DNA-mikromrež (sonde) za posamezne gene. Vsaka toˇcka ponazarja en gen oz. specifiˇcno zaporedje nukleotidov molekule DNA (Dr˘aghici, 2012; Rueda & Ali, 2014). Toˇcka lahko vsebuje do milijon enakih lovilcev za specifiˇcen gen. Lovilec je sestavljen iz veˇc 10 do nekaj 100 nukleotidov dolgega zaporedja enoverižne DNA, ki ustreza zaporedju v doloˇcenem genu. Pripravljeno mikromrežo izpostavimo fluorescentno ali radioaktivno oznaˇceni preizkusni snovi, ki jo pripravimo iz preiskovanih celic. Tarˇcno cDNA, ki jo uporabimo za hibridizacijo mikromreže, pripravimo s pomoˇcjo reverzne transkriptaze na osnovi mRNA, ki smo jo pridobili iz vzorca celic (Dr˘aghici, 2012). Med procesom hibridizacije se nukleotidno zaporedje lovilca in cDNA ustreznega gena spleteta v dvoverižno DNA. Postopek hibridizacije temelji na komplementarnem parjenju baz A-T in G-C po modelu Watsona in Cricka. Hibridizacijski signal na doloˇcenem mestu mikromreže doloˇca identiteto nukleotidnega zaporedja, velikost signala pa je merilo za koliˇcino izraženega genskega produkta. Hibridizacijski signal odˇcitamo z veˇclaserskim optiˇcnim cˇ italcem. Rezultat odˇcitavanja je raˇcunalniška slika, kjer intenziteta slikovnih pik ponazarja jakost hibridizacijskega signala (Juvan & Rozman, 2006).1 Mikromreže so razliˇcnih vrst. Razlikujejo se po naˇcinu izdelave, vrsti podlage, glede na vrsto nanesene nukleinske kisline ter število genov, ki jih lahko analiziramo. Mikromreža je lahko sestavljena iz kratkih, oligonukleotidnih lovilcev ali pa iz daljših nukleotidnih zaporedij (cDNA). Kratek lovilec je sintetiˇcen oligonukleotid, ki je dolg od 25 do 70 nukleotidov. Daljši cDNA-lovilec je dolg okoli 300 nukleotidov in ga pripravimo z metodo verižne reakcije s polimerazo v realnem cˇ asu iz tkivne RNA oz. ga pripravimo iz zbirke cDNA. Po naˇcinu nanosa lovilcev loˇcimo med dvema vrstama mikromrež. Prviˇc, lovilci so lahko naneseni s pomoˇcjo robota s tehnologijo inkjet. Ta tehnologija omogoˇca nanos toˇck v velikosti okoli desetinke milimetra. Na ta naˇcin nanašamo cDNA- oz. oligonukleotidne lovilce, najpogosteje na objektna stekelca. Drugi naˇcin nanosa lovilcev je s postopkom fotolitografije, ki omogoˇca sintezo oligonukleotidnih lovilcev neposredno na podlagi (sinteza in situ). V tem primeru so toˇcke veliko manjše (okoli stotinke milimetra). Glede na število toˇck loˇcimo med nizko- in visokogostotnimi mikromrežami. Nizkogostotne mikromreže imajo nekaj 100 toˇck, visokogostotne pa veˇc 10 000 oz. lahko vsebujejo lovilce za celotni genom. Po vrsti nukleinske kisline v preiskovanem vzorcu loˇcimo med genomskimi in ekspresijskimi mikromrežami. Prve vsebujejo lovilce za kodirajoˇce in nekodirajoˇce odseke DNA, namenjene pa so predvsem analizi kromosomske slike. Ekspresijske mikromreže pa nosijo lovilce le za kodirajoˇce odseke DNA (Debeljak, 2007; Dr˘aghici, 2012). 1.3 Statistično ozadje analize podatkov z DNA-mikromrež V klasiˇcnem poskusu z DNA-mikromrežami posredno merimo izraženost genov na osnovi koliˇcine mRNA v doloˇcenem tkivu. Tipiˇcna raziskovalna vprašanja, na katera poskušamo dobiti odgovore z analizo DNA-mikromrež, so npr. (Kelmansky, 2013): (i) kako se izražanje genov razlikuje v razliˇcnih tipih celic, (ii) kakšne so razlike v izraženosti 1 Zaradi nazornosti je opisan le splošni postopek priprave in uporabe DNA-mikromrež. Tehnologije se med proizvajalci mikromrež (npr. Affymetrix, Illumina, Agilent) zelo razlikujejo. Podroben opis postopkov bo bralec našel v Dr˘aghici (2012). 3 1 Uvod med zdravo in bolezensko spremenjeno celico, (iii) kako se izraženost genov spreminja v odvisnosti od naˇcina terapije, (iv) kako se izraženost spreminja z razvojem organizma in diferenciacijo celic, (v) kateri geni so pomembni za regulacijo patoloških procesov v celici itd. Potek poskusa z DNA-mikromrežami razdelimo v naslednje korake (Dr˘aghici, 2012): (i) postavitev ciljev raziskave, (ii) statistiˇcni naˇcrt poskusa, (iii) naˇcrt in priprava mikromrež, (iv) hibridizacija in zajem slik izraženosti, (v) analiza slik izraženosti, (vi) priprava matrike podatkov, (vii) predpriprava podatkov, (viii) analiza podatkov ter (ix) interpretacija rezultatov. Znanje statistike ima pomembno vlogo v vseh korakih, z izjemo toˇck (iii) in (iv), ki se nanašata na delo z biološkim materialom. V nadaljevanju podajamo zgošˇcen pregled tistih korakov poskusa, ki so za statistika najbolj pomembni. 1.3.1 Eksperimentalni načrt Ustrezno naˇcrtovanje poskusa je nujni pogoj za uˇcinkovito izvedbo poskusa in uspešno interpretacijo rezultatov. Gre za enega najbolj kljuˇcnih korakov, ki pa je v praksi pogosto zanemarjen. Prvi korak naˇcrtovanja poskusa je enoznaˇcna opredelitev raziskovalnih vprašanj ter postavitev raziskovalnih domnev. Izbrati je treba ustrezno tehnologijo postopka, saj se analiza mikromrež glede na razliˇcne proizvajalce pomembno razlikuje. Pri naˇcrtovanju poskusa moramo enoznaˇcno opredeliti posamezne tipe spremenljivk. Medtem ko z doloˇcitvijo odvisnih spremenljivk nimamo težav (obiˇcajno je to nivo izraženosti posameznih genov), je ustrezna identifikacija neodvisnih spremenljivk (faktorjev) veliko bolj zahtevna. Obiˇcajno je pogojena z naravo raziskovalnega vprašanja, kljub temu pa je smiselno, da v analizo vkljuˇcimo tudi faktorje, ki s prouˇcevanim problemom niso neposredno povezani (angl. nuisance factors). Pri zasnovi eksperimentalnega naˇcrta obiˇcajno upoštevamo tri naˇcela (Dr˘aghici, 2012): (i) ponovitve (angl. replication), (ii) sluˇcajenje (angl. randomization) ter (iii) bloˇcenje (angl. blocking). Naˇcelo ponovitev raziskovalcu omogoˇca oceno razpršenosti (eksperimentalne napake), ki je nujna za oceno morebitne statistiˇcne znaˇcilnosti v prouˇcevani spremenljivki. Ponovitve merjenj v analizi DNA-mikromrež lahko nastopajo v razliˇcnih fazah poskusa. ˇ nas npr. zanima, ali položaj toˇcke na mikromreži vpliva na meritve, bomo posamezno Ce toˇcko na mreži predstavili veˇckrat, nato pa z ustreznimi statistiˇcnimi testi preverili, ali ˇ nas zanimajo razlike med dvema je uˇcinek položaja dejansko statistiˇcno pomemben. Ce razliˇcnima vrstama vzorcev (kar je pravzaprav najveˇckrat zastavljeno raziskovalno vprašanje), bomo merjenje ponovili na veˇcjem številu vzorcev v obeh skupinah. Naˇcelo sluˇcajenja zahteva, da pri faktorjih, ki jih eksperimentalni naˇcrt eksplicitno ne kontrolira (moteˇci dejavniki), posamezne enote nastopajo sluˇcajno. Za ilustracijo si lahko izberemo naslednji primer. Denimo, da želimo izmeriti razlike v izraženosti genov med dvema razliˇcnima skupinama pacientov ter pri tem uporabimo DNA-mikromreže dveh razliˇcnih tipov. Sluˇcajenje zahteva, da bomo tip mikromreže za posamezno skupino pacientov izbrali po sluˇcaju, saj v nasprotnem primeru ne moremo loˇciti med razpršenostjo, ki jo povzroˇca skupina, in razpršenostjo, ki je posledica uporabe dveh razliˇcnih tipov mikromreže. Blocˇ enje predvideva združevanje opazovanih enot v homogene bloke, znotraj katerih so opazovane enote po moteˇcih faktorjih med seboj podobne. 4 1.3 Statistiˇcno ozadje analize podatkov z DNA-mikromrež Velika veˇcina mikromrežnih poskusov je zasnovana na preprostem enofaktorskem modelu, v katerem med seboj primerjamo dve skupini (npr. zdrave in bolne posameznike) oz. veˇc skupin (npr. razliˇcne vrste bolezenskih stanj). V statistiˇcni terminologiji takemu modelu pravimo naˇcrt s fiksnimi uˇcinki (angl. fixed effect design). Ostali modeli, ki pa so v analizi DNA-mikromrež manj pogosto uporabljeni, so še sluˇcajnostni bloˇcni naˇcrt (angl. randomized block design), uravnoteženi nepopolni bloˇcni naˇcrt (angl. balanced incomplete block design), naˇcrt latinskega kvadrata (angl. latin square design) ter faktorski naˇcrt (angl. factorial design) (Dr˘aghici, 2012). 1.3.2 Analiza slike izraženosti Digitalna slika je pravokotna mreža, v kateri so vrednosti predstavljene z razliˇcnimi intenzitetami. Slika ima dva pomembna parametra: loˇcljivost in barvno globino. Vsaka intenziteta ustreza eni toˇcki na sliki, ki ji pravimo piksel. Loˇcljivost slike je število pikslov na sliki in jo izrazimo kot zmnožek med številom vrstic in številom stolpcev matrike (npr. 1024 × 768). Barvna globina je število bitov, ki jih potrebujemo za zapis vrednosti intenzitete posameznega piksla (Frery & Perciano, 2013). Loˇcljivost cDNA-mikromrež je obiˇcajno taka, da je premer toˇcke najmanj 10 pikslov, barvna globina pa znaša 16 bitov, kar omogoˇca, da s pikslom predstavimo 65 536 razliˇcnih intenzitet signala. Zgoraj smo povedali (gl. razdelek 1.2), da poskušamo v mikromrežnem poskusu doloˇciti izraženost posameznih genov na osnovi koliˇcine mRNA iz vzorca, ki se hibridizira z naneseno cDNA na mikromreži. Vsak gen ima na mikromreži toˇcno doloˇceno mesto, zato lahko na osnovi koliˇcine svetlobe v posameznih toˇckah ocenimo koliˇcino hibridizirane DNA (Dr˘aghici, 2012). Na sliki 1.2 je prikazana slika izraženosti genov za vzorˇcno cDNAmikromrežo. Analiza slike za cDNA-mreže obiˇcajno2 sledi štirim korakom: (i) lokalizaciji mreže, (ii) segmentaciji slike, (iii) kvantifikaciji in (iv) nadzoru kakovosti. Lokalizacija mreže je proces, pri katerem na sliki doloˇcimo posamezne toˇcke mikromreže (Dr˘aghici, 2012). Toˇcke so pred desetletjem doloˇcali roˇcno, danes pa se to poˇcne s polavtomatskimi oz. avtomatskimi postopki. Pri segmentaciji slike je treba doloˇciti obliko in lego aktivnega mesta toˇcke ter jo loˇciti od njenega ozadja. Segmentacija se opravi na osnovi prostorske razporeditve pikslov, na osnovi intenzitet signalov, kombinacije obeh pristopov ali s pomoˇcjo posebne Mann-Whitneyjeve analize porazdelitve piksov. V procesu kvantifikacije združimo vrednosti posameznih pikslov, ki se nanašajo na posamezno toˇcko, tako da dobimo enotno numeriˇcno vrednost, s katero predstavimo nivo izraženosti posameznega gena. Kvantifikacijo je treba opraviti selektivno, saj vanjo ne smemo zajeti popaˇcenih delov slike; doloˇcena mesta so namreˇc lahko zaradi sluˇcajnih napak v postopku neuporabna. Reprezentativno vrednost toˇcke lahko raˇcunamo na osnovi preprostih statistik, kot so npr. aritmetiˇcna sredina, mediana ali modus intenzitet signalov, ali bolj specifiˇcnih mer, kot je npr. prostornina intenzitet signalov. Oceno kvalitete ocenimo z razmerjem med površino signala in skupno površino toˇcke, pravilnostjo oblike toˇcke, razmerjem med površino toˇcke in njenim obsegom ali odmaknjenostjo toˇcke od njene predvidene pozicije na mreži. 2 Proizvajalci komercialnih DNA-mikromrež (npr. Affymetrix, Ilumina, Agilent) predpisujejo standardizirane postopke analize slike, ki se od tukaj opisanega v nekaterih podrobnostih razlikujejo. Zaradi nazornosti podajamo zgolj splošen opis postopka. 5 1 Uvod Slika 1.2: Slika izraženosti za cDNA-mikromrežo. Toˇcke svetijo v kombinaciji rdeˇce in zelene barve. Geni, moˇcno izraženi v tkivu “A”, svetijo zeleno, geni v tkivu “B” pa rdeˇce. Geni, ki so v obeh tkivih izraženi enako, svetijo rumeno. 1.3.3 Predpriprava podatkov Priprava in analiza DNA-mikromrež je kompleksen postopek, zato se vanj lahko prikradejo razliˇcne sistematiˇcne in sluˇcajne napake, ki prispevajo k popaˇceni oceni prave vrednosti meritve. Najbrž ni odveˇc opozoriti, da je ocena kvalitete zbranih podatkov izrednega pomena za nadaljnjo analizo. Že ena sama mikromreža, pri kateri je prišlo do napak v hibridizaciji, lahko moˇcno prikroji rezultate in popaˇci njihovo interpretacijo. V laboratoriju obstaja vrsta standardiziranih postopkov, s katerimi preverjamo ustreznost genskega materiala pred nanosom na mikromrežo. mRNA je zelo neobstojna, zato je treba hibridizacijo opraviti hitro. Bioconductorjevi (Gentleman in sod., 2004) paketi ponujajo paleto funkcij, s katerimi hitro preverimo ustreznost surovih podatkov (npr. paket affy). Obiˇcajno najprej pripravimo pregled porazdelitev intenzitet signalov (npr. s frekvenˇcnimi poligoni ali okvirji z roˇcaji), s katerim hitro ugotovimo odstopanja od priˇcakovane porazdelitve. Testirane vzorce obiˇcajno vizualno pregledamo s slikami intenzitet signalov (angl. probe intensity images), na katerih lahko zaznamo morebitne prostorske nepravilnosti. Mikromreže komercialnih proizvajalcev (npr. Affymetrix) imajo posebne kontrolne toˇcke, ki so namenjene prav kontroli kvalitete in morajo biti med testiranimi vzorci enako izražene. Intenzitete signalov so asimetriˇcno porazdeljene, zato obiˇcajno podatke najprej pretvorimo s pomoˇcjo logaritemske transformacije. Logaritemska transformacija je v primeru ekspresijskih mikromrež tudi z biološkega stališˇca najbolj primerna, saj z njo izravnamo nesorazmerja v relativnih spremembah v izraženosti genov med posameznimi vzorci (Dr˘aghici, 2012). Zaradi tehniˇcnih razlik v protokolih, razliˇcne koliˇcine nanesene mRNA, razliˇcnih nastavitev optiˇcnega cˇ italca in ostalih razlik posameznih mikromrežnih poskusov med seboj ne moremo neposredno primerjati. Pred nadaljnjo analizo je zato treba podatke 6 1.3 Statistiˇcno ozadje analize podatkov z DNA-mikromrež ● ● ● ● ● ● s7cy3t2 s7cy5t1 s8cy3t2 s8cy5t1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● s7cy5t1 s8cy3t2 s8cy5t1 ● ● ● ● ● ● ● ● ● ● ● s7cy3t2 ● ● ● ● ● ● ● ● ● ● ● ● s6cy5t1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● s6cy5t1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● s6cy3t2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● s6cy3t2 ● ● ● ● ● ● ● ● ● ● s5cy5t1 s5cy3t2 ● ● ● ● ● ● ● ● ● ● ● ● s5cy5t1 ● ● ● ● ● ● ● ● ● ● s5cy3t2 ● ● ● ● ● ● ● ● ● ● ● s4cy5t2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● s4cy5t2 ● ● ● ● ● ● ● ● ● ● s4cy3t1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● s3cy5t2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● s3cy3t1 ● ● ● ● ● ● ● ● ● ● ● ● ● s2cy5t2 s1cy3t1 3 ● ● ● ● ● ● ● ● ● s2cy3t1 6 s1cy5t2 Vrednost 9 Poskus (a) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● s2cy3t1 s2cy5t2 s3cy3t1 s3cy5t2 s4cy3t1 2.5 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● s1cy5t2 5.0 s1cy3t1 Vrednost 7.5 Poskus (b) Slika 1.3: Normalizacija mikromrežnih podatkov. Razpršenost srednjih vrednosti intenzitet signalov (a) smo zmanjšali z normalizacijo (b). Za prikaz smo uporabili simulirano podatkovje. normalizirati. Z normalizacijo odpravimo vpliv sistematiˇcnih napak v postopku. Metode normalizacije mikromrežnih podatkov lahko razvrstimo v dve skupini (Dr˘aghici, 2012): (i) metode, ki za normalizacijo uporabljajo referenˇcno mikromrežo, in (ii) metode, ki za namen normalizacije združijo podatke vseh poskusov. Normalizacija se obiˇcajno nanaša na celo mikromrežo, lahko pa normaliziramo le del podatkov na mikromreži. Izbira ustrezne normalizacije je pogojena z izbiro tehnologije DNA-mikromrež, s katero izvajamo poskuse. Posameznih postopkov normalizacije zato tukaj ne navajamo; bralec bo dober pregled našel v Dr˘aghici (2012). Uˇcinek normalizacije podatkov nad cDNA-mikromrežami je predstavljen na sliki 1.3. Podatke z DNA-mikromrež shranimo v podatkovno matriko. Vrstice matrike se nanašajo na posamezne gene, stolpci pa na prouˇcevane vzorce. Zaradi razliˇcnih sistematiˇcnih ali nesistematiˇcnih napak lahko nekatere vrednosti v podatkovni matriki manjkajo. Take vrednosti obiˇcajno nadomestimo s katerim od postopkov za imputacijo podatkov (npr. z metodo k-najbližjih sosedov). 7 1 Uvod 1.3.4 Analiza podatkov Analiza podatkov sledi zastavljenemu naˇcrtu raziskave. Statistiˇcno analizo na podroˇcju DNA-mikromrež lahko razdelimo na tri glavne problemske naloge: (i) identifikacija bioloških oznaˇcevalcev, kjer gre za iskanje genov, ki so glede na izbrane eksperimentalne pogoje med seboj razliˇcno izraženi (angl. class comparison); (ii) neusmerjeno odkrivanje znanja (angl. class discovery), kjer na osnovi podobnosti profilov sestavljamo skupine podobno izraženih genov in/ali primerov, ter (iii) usmerjeno odkrivanje znanja (angl. class prediction), kjer posamezne primere uvršˇcamo v vnaprej znane razrede (npr. tipe tumorjev, razvojne stopnje bolezni). Najosnovnejše raziskovalno vprašanje, ki ga sreˇcamo dejansko pri vsaki mikromrežni analizi, se sprašuje po genih, ki so razliˇcno izraženi. Raziskovalec poskuša identificirati tiste gene, ki se med razliˇcnimi eksperimentalnimi pogoji (npr. med razliˇcnimi bolezenskimi stanji) v nivojih izraženosti kar najbolj razlikujejo. Preprosta in intuitivna mera razliˇcne izraženosti genov je relativna sprememba (angl. fold change), s katero izrazimo razmerje v izraženosti genov med dvema eksperimentalnima pogojema. Pomanjkljivost tega pristopa je arbitrarna doloˇcitev pražne vrednosti. Za doloˇcitev podmnožic genov pogosto uporabimo tudi parametriˇcne in neparametriˇcne teste za preverjanje statistiˇcnih domnev, kot jih poznamo v klasiˇcni statistiki (npr. razliˇcne izpeljanke t-testa, modeli ANOVA, pristop LIMMA (Smyth, 2005) itd.). Pri tem moramo biti pozorni na fenomen veˇckratnega testiranja in rezultate ustrezno popraviti (npr. z metodo FDR (Benjamini & Hochberg, 1995) ali SAM (Tusher, Tibshirani & Chu, 2001)). Poleg klasiˇcnega testiranja statistiˇcnih domnev pri analizi DNA-mikromrež pogosto uporabimo tudi orodja sodobne podatkovne analitike, ki so namenjena odkrivanju skritih zakonitosti v podatkih (angl. knowledge discovery). Med metodami neusmerjenega odkrivanja zakonitosti je najpogosteje uporabljeno razvršˇcanje v skupine s številnimi izpeljankami (npr. nehierarhiˇcno in hierarhiˇcno razvršˇcanje, Kohonenove mape (angl. Kohonen maps), razbijanje okrog medoidov (angl. partitioning around medoids)), kjer na osnovi podobnosti v izraženosti profilov išˇcemo skupine podobnih genov oz. vzorcev. Na sliki 1.4 je prikazan primer toplotnega diagrama, v katerem smo posamezne biološke vzorce in gene razvrstili po podobnosti s pomoˇcjo hierarhiˇcnega razvršˇcanja v skupine. Za namene vizualizacije se pogosto uporablja tudi analiza glavnih komponent, s katero skrˇcimo prostor vhodnih spremenljivk; glavne komponente prikažemo v nižjerazsežnem prostoru, ki je miselno lažje obvladljiv. Pri usmerjenem odkrivanju znanja poleg vrednosti posameznih spremenljivk poznamo tudi oznako razreda primerov. Tak tip problemskih nalog je uporaben zlasti za konstrukcijo razliˇcnih diagnostiˇcnih postopkov, kjer poskušamo na osnovi izraženosti množice ˇ je odvigenov sklepati na odziv odvisne spremenljivke (npr. razvojno stopnjo bolezni). Ce sna spremenljivka kategorialna, govorimo o nalogi uvršˇcanja oz. klasifikacije (angl. classification), v primeru zvezne odvisne spremenljivke pa o regresijski nalogi. Za konstrukcijo uˇcnih modelov obiˇcajno uporabimo katerega od standardnih pristopov strojnega uˇcenja (npr. metoda delnih najmanjših kvadratov, metoda podpornih vektorjev, diskriminantna analiza, ridge in lasso regresija). Posebno pozornost je treba nameniti shemam uˇcenja, saj pogosto nimamo na voljo dovolj podatkov za neodvisno preverjanje veljavnosti uˇcnih 8 1.3 Statistiˇcno ozadje analize podatkov z DNA-mikromrež 297392 1469292 236282 193913 868304 68977 236034 435953 725454 283315 897177 1493527 163174 207274 296448 Geni 280507 343867 756556 491692 365515 377468 769959 769716 767495 25725 796613 461425 298062 284001 BL.C6 BL.C2 BL.C3 BL.C1 BL.C8 BL.C7 BL.C5 EWS.C8 EWS.C7 EWS.T9 EWS.C11 EWS.T2 EWS.C6 EWS.C9 EWS.C1 EWS.C4 EWS.C2 EWS.C3 EWS.T19 EWS.T1 EWS.T15 EWS.T6 EWS.T7 EWS.T14 EWS.T12 EWS.T3 EWS.T11 EWS.T4 EWS.T13 EWS.C10 755750 Vzorci Slika 1.4: Toplotni diagram in hierarhiˇcno razvršˇcanje v skupine na primeru realnih DNAmikromrežnih podatkov (Khan in sod., 2001). Vrstice matrike pomenijo gene, stolpci pa biološke vzorce. 9 1 Uvod modelov (Boulesteix, Strobl, Augustin & Daumer, 2008). V zadnjem cˇ asu so zaˇceli raziskovalci intenzivno prouˇcevati uˇcenje nad neuravnoteženimi podatki, saj se pri analizi DNA-mikromrež mnogokrat znajdemo v situaciji, ko so množice primerov v posameznih razredih razliˇcno velike (Blagus & Lusa, 2010; Blagus, 2011). V znanosti se vse bolj uveljavlja paradigma ponovljivega raziskovanja (Laine, Goodman, Griswold & Sox, 2007; Peng, 2009, 2011). Objavo rezultatov mikromrežnega eksperimenta naj bi zato spremljala objava surovih rezultatov ter programske kode, s katero so raziskovalci analizirali rezultate. Objavi surovih podatkov so namenjena spletna skladišˇca, med katerimi sta najuglednejši Gene Expression Omnibus (Barrett in sod., 2013) in ArrayExpress (Rustici in sod., 2013). Združenje za funkcionalno genomiko (FGED) je pripravilo standard za dokumentiranje mikromrežnega poskusa MIAME ter standarda za izmenjavo mikromrežnih podatkov MAGE-OM in MAGE-TAB (Brazma in sod., 2001; Brazma, 2009). 1.3.5 Interpretacija rezultatov Interpretacija rezultatov DNA-mikromrež je najustvarjalnejši del celotnega mikromrežnega eksperimenta. Rezultate analize moramo ustrezno ovrednotiti ter umestiti v ustrezen biološki oz. biomedicinski kontekst. Zelo priljubljena je integracija rezultatov z razliˇcnimi biomedicinskimi ontologijami (npr. Gene Ontology) ali zbirko roˇcno narisanih presnovnih poti (npr. KEGG). Gene Ontology (Ashburner in sod., 2000) je kontroliran slovar, strukturiran v obliki usmerjenega acikliˇcnega grafa, ki vsebuje biološke pojme, s katerimi opisujemo funkcije genov, njihovo celiˇcno lokalizacijo ter interakcije z ostalimi celiˇcnimi komponentami. Ontologija se v smislu interpretacije mikromrežnih poskusov uporablja za analizo nasicˇ enosti (angl. over-representation analysis) posameznih ontoloških pojmov z geni, ki smo jih identificirali v poskusu (Dr˘aghici, Khatri, Martins, Ostermeier & Krawetz, 2003). Na osnovi razlike med dejanskim in priˇcakovanim številom genov po posameznih pojmih lahko izloˇcimo tiste ontološke pojme, ki so v naši množici genov statistiˇcno znaˇcilno zastopani. Za analizo nasiˇcenosti lahko uporabimo preproste statistiˇcne postopke, kot je npr. analiza kontingenˇcnih tabel, ali pa bolj napredne metode, kot je npr. analiza GSEA (Subramanian in sod., 2005). V zadnjih letih so raziskovalci razvili tudi avtomatizirane podporne sisteme, s katerimi lahko surove rezultate mikromrežnih poskusov integriramo z že objavljenim znanjem iz bibliografske zbirke MEDLINE (Faro, Giordano & Spampinato, 2012). Primer takega sistema smo predstavili pred nedavnim (Hristovski, Kastrin, Peterlin & Rindflesch, 2010). 1.4 Motivacija in opis problema V ciklu klasiˇcnega znanstvenega postopka domneva–napoved–poskus–opazovanje–sklep lahko eksperiment z DNA-mikromrežo prepoznamo kot poskus, ki vrne ogromno koliˇcino podatkov, urejenih v podatkovno tabelo X s p stolpci in n vrsticami (slika 1.6) (Blejec, 2005). 10 1.4 Motivacija in opis problema ● ● ● ● ● ●● ●● ● ●● ● ●●● ● ● ● ● ● ●●●● ●●● ● ● ● ● ●●● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ●● ●● ●●● ● ● ● ● ● ● ● ● ●● ●●●●● ●●● ●● ●● ●●●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ●● ● ● ●●● ● ●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● Slika 1.5: Analiza nasiˇcenosti pojmov iz slovarja Gene Ontology za domeno celiˇcnih komponent (CC). Za prikaz smo uporabili podatke ALL iz istoimenskega Bioconductorjevega paketa. Usmerjen acikliˇcen graf je sestavljen na osnovi 35 najbolj razliˇcno izraženih genov. Obarvana vozlišˇca se nanašajo na pojme, ki so z izbranimi geni najbolj nasiˇceni. Imena vozlišˇc zaradi preglednosti niso prikazana. 11 1 Uvod X= x1 x2 .. . x1 x11 x21 .. . x2 x12 x22 .. . xn xn1 xn2 · · · xp · · · x1p · · · x2p .. .. . . · · · xnp Slika 1.6: Podatkovna tabela X1 , . . . , X p naj bodo zvezne spremenljivke, s katerimi oznaˇcimo izraženost posameznega gena, Y pa kategorialna spremenljivka z oznako razreda. xi = ( xi1 , . . . , xip )T naj oznaˇcuje sluˇcajni vektor, ki se nanaša na primer oz. opazovano enoto i. Primer lahko pripada enemu od 1, . . . , K razliˇcnih razredov, kjer je K ≥ 2. Pripadnost primera i razredu bomo shranili v yi . Množico vseh primerov predstavimo s pari ( x1 , y1 ), . . . , ( xi , yi ). V nalogi posebej obravnavamo usmerjeno odkrivanje znanja, zato na tem mestu formalno definirajmo problem uvršˇcanja v razrede. Pri nalogah uvršˇcanja išˇcemo klasifikator (odloˇcitveno funkcijo) f , ki ima obliko f : R p → {1, . . . , K } x 7→ Yˆ = f ( x ). Klasifikator d bomo v nadaljevanju opisali z eno od metod uvršˇcanja (npr. logistiˇcna regresija, metoda najbližjega soseda). Dober klasifikator kar najbolje napoveduje vrednost odvisne spremenljivke Y. Kriterij ustreznosti lahko definiramo na razliˇcne naˇcine, obiˇcajno pa zahtevamo, da je napaka uvršˇcanja e = Pr(d( x ) 6= Y ) karseda majhna (Bishop, 2007; Ripley, 2008). Praviloma velja, da število merjenih genov moˇcno presega število posameznih primerov (n << p); v klasiˇcnem eksperimentu obiˇcajno merimo nekaj 10 000 genov na nekaj desetih primerih. Metod za analizo eno- in dvorazsežnih podatkovij ne moremo preprosto uporabiti na mnogorazsežnih podatkovnih tabelah. Problem mnogorazsežnosti prinaša s seboj svojevrstne statistiˇcne težave (J. A. Lee & Verleysen, 2007; D. W. Scott, 1992; Verleysen, 2003; Verleysen & François, 2005). Dobro znan je primer linearne regresije, kjer je v primeru n < p vzorˇcna kovarianˇcna matrika singularna, kar ima za posledico, da ne moremo izraˇcunati njenega inverza (Kirk, 2015). Podobno je z množico toˇck najbližjih sosedov, ki je v dvorazsežnem prostoru lahko zelo kompaktna, v mnogorazsežnem prostoru pa postane difuzna. Tudi algoritmi za preiskovanje prostora rešitev lahko v nižjih razsežnostih delujejo zadovoljivo, v mnogorazsežnem prostoru pa postanejo neobvladljivi. Skupni imenovalec problemov mnogorazsežnega podatkovnega prostora je t. i. fenomen praznega prostora (angl. curse of dimensionality). Fenomen je prvi opisal Bellman (1966), ki pravi, da s poveˇcevanjem števila razsežnosti prostora število toˇck, potrebnih, da napolnimo podatkovni prostor, eksponentno raste (slika 1.7). 12 1.4 Motivacija in opis problema 1.00 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.75 ● ● ● ● ● ● ● ● Y 0.50 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 0.25 ● ● ● ●● ●●●●●●● ● ●● ● ● 0.25 0.50 X 0.75 1.00 ● ● ● ● ● ● 0.00 0.00 ● ● ●● ● ●● ● ● ● ● ●● ● ●● ● ●●●● ● ●● ● ●● ● ●● ● ●● ● ● ●● ●● ● ●●●● ●●● ● ● ● 0.00 0.25 0.50 X (a) 0.75 1.00 (b) ● ● ● ●● ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ● ● 0.6 ● ● ● ● ● ● ● ● Z ●● ● 0.4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.2 ●● ● ●● ● ●● ● ● ● ● ● ● ● ● 0.8 ● 0.6 0.4 Y 0.8 ● ● 0.6 0.4 0.2 0.2 X (c) Slika 1.7: Fenomen praznega prostora. 64 podatkovnih toˇck v eno- (a), dvo- (b) in trirazsežnem (c) prostoru. Z veˇcanjem razsežnosti postaja podatkovni prostor vse bolj prazen. 13 1 Uvod Z narašˇcanjem števila spremenljivk (oz. parametrov ocenjevanja) v statistiˇcnem modelu moramo zato zagotoviti tudi ustrezno število primerov. V nasprotnem primeru bo naš podatkovni prostor prazen oz. vsaj redek (Jain & Duin, 2000). Upoštevanje fenomena praznega prostora je pomembno zlasti v uporabni statistiki, saj le redko lahko zagotovimo ustrezno eksponentno rast števila primerov; v veˇcini situacij imamo tako ob velikem številu spremenljivk na voljo le nekaj deset uˇcnih primerov. Podatkovne toˇcke so tako raztresene po prostoru, ki je videti praktiˇcno prazen, poleg tega pa so razdalje med pari toˇck skoraj enake. Zgrešeno je torej intuitivno prepriˇcanje, da bomo s širšim naborom spremenljivk dosegli kvalitetnejši statistiˇcni model. Ravno nasprotno, kvaliteta modela pada, ko število razsežnosti prostora spremenljivk poveˇcujemo. Najbolj neposredna posledica fenomena praznega prostora je Hughesov fenomen. Hughes (1968) je namreˇc pokazal, da pri nadzorovanem uˇcenju toˇcnost klasifikacije s poveˇcevanjem števila spremenljivk raste le do doloˇcene meje, nato pa zaˇcne padati (slika 1.8). 0.75 Št. primerov 2 0.70 4 Točnost 10 20 0.65 60 120 0.60 200 500 0.55 1000 Bayes 0.50 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Št. razsežnosti Slika 1.8: Hughesov fenomen. Klasifikacijska toˇcnost s poveˇcevanjem števila spremenljivk na zaˇcetku raste, nato pa zaˇcne padati. Logiˇcna rešitev, ki se ponuja, je da poskušamo mnogorazsežno podatkovno strukturo predstaviti v nižjerazsežnem prostoru in ob tem ohraniti karseda veliko zaˇcetne informacije. Navkljub dejstvu, da so podatki predstavljeni z velikim številom spremenljivk, lahko domnevamo, da je njihova intrinziˇcna razsežnost manjša (J. A. Lee & Verleysen, 2007). Ta domneva je osnovana na dveh empiriˇcnih predpostavkah (Bartholomew, Knott & Moustaki, 2011; Bartholomew, 2013): (i) veliko spremenljivk je takih, pri katerih je njihova razpršenost manjša od napake merjenja, in (ii) veliko spremenljivk je med seboj koreliranih. Redundantne spremenljivke lahko zato brez škode za izgubo informativnosti odstranimo oz. jih nadomestimo z novimi, med seboj nekoreliranimi spremenljivkami. Na osnovi zgornjih predpostavk sta osnovana dva pristopa k obvladovanju mnogorazsežnih podatkovij (Jain & Duin, 2000): (i) pristop izbire informativnih spremenljivk (angl. feature selection) ter (ii) pristop konstrukcije novih spremenljivk (angl. feature extraction). Prvi pristop z uporabo ustreznih statistiˇcnih postopkov nad množico vseh spremenljivk izloˇci tiste spremenljivke, ki se glede na obravnavani kriterij (oz. odvisno spremenljivko) med seboj statistiˇcno znaˇcilno razlikujejo. V tem okviru je bilo razvitih mnogo postopkov; med njimi so najbolj uveljavljeni npr. klasiˇcni t-test, Welchev t-test ali pristop LIMMA. Rezultat teh postopkov je množica genov, ki dobro diskriminira med primeri glede na izbrani kriterij. Pri konstrukciji novih spremenljivk pa izhajamo iz dejstva, da so merjene 14 1.5 Raziskovalna vprašanja spremenljivke med seboj korelirane, so redundantne in jih lahko nadomestimo z novimi spremenljivkami. Konstrukcijo novih spremenljivk formalno popišemo s preslikavo R p 7→ Rk , kjer množico medsebojno koreliranih spremenljivk X1 , X2 , . . . , X p nadomestimo z manjšim številom obiˇcajno med seboj nekoreliranih spremenljivk oz. komponent Z1 , Z2 , . . . , Zk , tako da velja k << p (Hastie in sod., 2011). Dobljene komponente lahko zapišemo kot obtežene vsote merskih spremenljivk Zi = wi1 X1 + wi2 X2 + . . . + wip X p za i = 1, . . . , k. Število izbranih komponent je praviloma manjše od števila merjenih spremenljivk (ter v praksi hkrati tudi mnogo manjše od števila primerov), zato lahko izloˇcene komponente uporabimo kot prediktorje v klasifikacijskem modelu. V zadnjih dveh desetletjih so raziskovalci na podroˇcju statistiˇcne analize DNA-mikromrež predlagali razliˇcne pristope za uvršˇcanje ter poenostavljanje strukture mnogorazsežnega prostora, ki pa niso bili sistematiˇcno ovrednoteni. V okviru poenostavljanja strukture mnogorazsežnih podatkovij ostaja odprto tudi vprašanje smiselnosti diskretizacije zveznih spremenljivk, s katero lahko moˇcno poenostavimo kompleksnost podatkovnega prostora. Diskretizacija je proces, v katerem zvezne vrednosti razbijemo na ustrezno število intervalov z izbranimi toˇckami loma, tako da vsak interval pomeni svojo kategorijo. Diskretne vrednosti so intervali v razponu zveznih vrednosti. Medtem ko je število zveznih vrednosti za izbrano spremenljivko neskonˇcno, je število diskretnih vrednosti omejeno. Toˇcka loma je vrednost, ki razpon zveznih vrednosti razcepi na dva intervala. Toˇcke loma lahko seveda doloˇcamo poljubno, vendar pa je v ta namen smiselno uporabiti namenske algoritme. Pregled dostopne empiriˇcne evidence na podroˇcju diskretizacije podatkov odkriva nekatere pomembne prednosti, ki govorijo v prid uporabe diskretnih spremenljivk. Reprezentacija znanja s pomoˇcjo diskretnih spremenljivk je lažja in uˇcinkovitejša (H. A. Simon, 1996); z diskretizacijo podatke koliˇcinsko zmanjšamo in poenostavimo oz. abstrahiramo (van Harmelen, Lifschitz & Porter, 2008). Diskretne vrednosti so za razumevanje problemskih nalog lažje razumljive, z njimi lažje miselno manipuliramo. Diskretizacija pripomore k uˇcinkovitejšemu in hitrejšemu strojnemu uˇcenju (J. Dougherty, Kohavi & Sahami, 1995). V splošnem so dobljeni rezultati po diskretizaciji bolj nazorni (npr. odloˇcitvena drevesa), krajši (npr. pri asociacijskih pravilih) ter bolj zanesljivi kot pri zveznih spremenljivkah. Rezultati so zato poslediˇcno bolj posplošljivi in primerljivi med seboj. Ne nazadnje lahko nekatere algoritme uˇcenja uporabimo le nad diskretnimi podatki (npr. ID3-algoritem za uˇcenje klasifikacijskih dreves). 1.5 Raziskovalna vprašanja V disertaciji bomo obravnavali tri problemske naloge (eksperimente). V sklopu prve naloge želimo prouˇciti kakovost delovanja razliˇcnih klasifikatorjev v nalogi uvršˇcanja primerov v vnaprej podane razrede. V tem okviru želimo prouˇciti morebitno pristranost pri izbiri klasifikatorja, izbiri spremenljivk in parametrov uˇcenja. V drugi problemski nalogi bomo analizirali vpliv metod za zmanjševanje razsežnosti na uvršˇcanje. Podrobno si bomo ogledali delovanje metod, ki jih v analizi DNA-mikromrež uporabljamo za krˇcenje 15 1 Uvod prostora merskih spremenljivk (analizo glavnih komponent in metodo delnih najmanjših kvadratov). V okviru tretje problemske naloge bomo prouˇcili vpliv diskretizacije zveznih spremenljivk na uvršˇcanje. 1.5.1 Vpliv klasifikatorja in izbire spremenljivk na uvrščanje Uvršˇcanje DNA-mikromrežnih rezultatov je problemska naloga, s katero so se raziskovalci ukvarjali od pojava mikromrežne tehnologije dalje (gl. npr. Golub in sod., 1999). Danes praktiˇcno ni znanstvene revije s podroˇcja biostatistike ali bioinformatike, ki ne bi vkljuˇcevala vsaj enega cˇ lanka s tematiko uvršˇcanja mikromrežnih podatkov. Kljub dozdevni raziskanosti podroˇcja pregled empiriˇcne evidence ne odkriva raziskave, ki bi sistematiˇcno prouˇcila delovanje veˇcjega števila klasifikatorjev na veˇcjem številu mikromrežnih podatkovij in s tem dosegla ustrezno posplošljivost zakljuˇckov. Veˇcina raziskav namreˇc poroˇca o novih metodah uvršˇcanja oz. o izpeljankah obstojeˇcih metod. Za ilustracijo nove metode avtorji bralcu ponudijo rezultate primerjave s katerim od pogosteje uporabljenih klasifikatorjev (npr. logistiˇcno diskriminacijo ali linearno diskriminantno analizo). V nalogi želimo to vrzel zapolniti. Nenapisano pravilo v znanosti je, da v objavi poroˇcamo o znaˇcilni pomembnosti izsledkov raziskovanja. Objavljeni revijalni cˇ lanki poroˇcajo izkljuˇcno o pozitivnih rezultatih in o potrjenih raziskovalnih domnevah (Kyzas, Denaxa-Kyza & Ioannidis, 2007). Na podroˇcju statistiˇcne analize DNA-mikromrež v razdelku z rezultati zato pogosto naletimo na množice identificiranih bioloških oznaˇcevalcev, za katere raziskovalci trdijo, da so med prouˇcevanimi skupinami znaˇcilno razliˇcno izraženi, ali pa na klasifikacijska pravila z zavidljivo majhno napako napovedi. Eksperimentalni naˇcrt mora pri delu z mikromrežnimi podatkovji (predvsem zaradi razlogov, ki smo jih navedli v razdelku 1.4) zagotavljati nepristranost zakljuˇckov. Boulesteix in Strobl (2009) ugotavljata, da raziskovalci pri problemih uvršˇcanja pogosto preizkusijo razliˇcne metode uvršˇcanja, razliˇcne metode za izbiro spremenljivk ter razliˇcne parametre uˇcenja v statistiˇcnih modelih, nato pa izberejo tisto kombinacijo, ki vraˇca najboljše rezultate. Dupuy in Simon (2007) zato celo priporoˇcata, da je pri nalogah uvršˇcanja smiselno poroˇcati o vseh preizkušenih metodah in uporabljenih klasifikatorjih. Le na ta naˇcin se namreˇc izognemo preveliki napaki (pristranosti) posploševanja. To je še zlasti pomembno pri analizi DNA-mikromrež, saj so analize praviloma narejene na majhnem številu primerov. V disertaciji želimo eksperimentalno ovrednotiti uˇcinke namerne optimizacije rezultatov. V tem okviru bomo prouˇcili vpliv (i) metode izbora merjenih spremenljivk, (ii) metode uvršˇcanja in (iii) izbire parametrov uˇcenja na rezultate uvršˇcanja. Za uvršˇcanje bomo uporabili najpogosteje uporabljene klasifikatorje, kot so npr. metoda najbližjih sosedov, klasifikacijska drevesa s sluˇcajnimi gozdovi, metoda podpornih vektorjev in logistiˇcna regresija s kaznijo. Spremljali bomo vpliv števila spremenljivk in parametrov uˇcenja na kakovost uvršˇcanja. Zakljuˇcke bomo podali na osnovi analize veˇcjega števila realnih in simuliranih podatkovij. 16 1.6 Notacija 1.5.2 Vpliv metod za krčenje razsežnosti podatkovja na uvrščanje Empiriˇcna evidenca odkriva, da je bila v zadnjih dveh desetletjih na podroˇcju statistiˇcne analize DNA-mikromrež opravljena vrsta raziskav, ki so bodisi predlagale nove metode bodisi preverjale obstojeˇce metode za krˇcenje razsežnosti podatkovij. Rezultati raziskav so zaradi razliˇcnih eksperimentalnih naˇcrtov med seboj neprimerljivi. Veˇcina raziskav je bila izvedena nad manjšim številom podatkovij, kar postavlja pod vprašaj posplošljivost njihovih zakljuˇckov. Sistematiˇcne analize, ki bi hkrati preverjala veˇcje število metod krˇcenja z uporabo razliˇcnih metod uvršˇcanja na veˇcjem številu podatkovij, v literaturi nismo zasledili. V disertaciji želimo eksperimentalno ovrednotiti vpliv razliˇcnih metod krˇcenja razsežnosti mikromrežnih DNA-podatkovij na problem uvršˇcanja. Omejili se bomo na metode linearnega zmanjševanja razsežnosti, med katerimi nas bosta posebej zanimali analiza glavnih komponent in metoda delnih najmanjših kvadratov. Kot metodi uvršˇcanja bomo v eksperimentalni naˇcrt vkljuˇcili logistiˇcno diskriminacijo in klasiˇcno linearno diskriminantno analizo. Kot kovariati bomo v analizo vkljuˇcili metodo izbora merjenih spremenljivk in število merjenih spremenljivk. 1.5.3 Vpliv diskretizacije zveznih spremenljivk na uvrščanje Diskretizacija zveznih spremenljivk je problem, ki v domeni podatkovne analitike mikromrežnih DNA-podatkovij pomeni odprto vprašanje. Raziskovalna evidenca na tem podroˇcju je zelo skopa in se omejuje na tri prispevke (Y. Li in sod., 2010; Pensa, Leschi, Besson & Boulicaut, 2004; Tillander, 2012). V disertaciji želimo eksperimentalno ovrednotiti vpliv razliˇcnih metod diskretizacije zveznih spremenljivk na problem uvršˇcanja. Omejili se bomo na najpogosteje uporabljene pristope k diskretizaciji, kot so npr. metoda enake širine intervala, metoda ChiMerge in 1R. Rezultate uvršˇcanja za diskretne spremenljivke bomo primerjali z rezultati uvršˇcanja nad zveznimi spremenljivkami. Eksperimentalni naˇcrt zato zahteva, da za uvršˇcanje uporabimo metode, ki omogoˇcajo razvršˇcanje tako zveznih kot tudi diskretnih spremenljivk; omejili se bomo na tri metode: naivni Bayesov klasifikator, metodo najbližjega soseda in klasifikacijska drevesa. Kot kovariati bomo v analizo vkljuˇcili metodo izbora merjenih spremenljivk in število merjenih spremenljivk. 1.6 Notacija ˇ je X vektor, bomo njegove (Neodvisno) spremenljivko bomo v splošnem oznaˇcili z X. Ce komponente naslovili z X j . Številsko odvisno spremenljivko bomo v splošnem oznaˇcili z Y, kategoriˇcno pa z G. Opazovane vrednosti bomo zapisovali z malimi cˇ rkami; i-to opazovano vrednost spremenljivke X bomo oznaˇcili z xi , kjer je xi bodisi skalar bodisi vektor. 17 1 Uvod Število razliˇcnih podatkovnih toˇck bomo oznaˇcili z n, število spremenljivk pa s p. Vrednost j-te spremenljivke za i-ti primer bomo oznaˇcili z xij , z indeksoma i = 1, 2, . . . , n in j = 1, 2, . . . , p. Z X bomo oznaˇcili matriko razsežnosti n × p x11 x12 · · · x1p x21 x22 · · · x2p X= . .. .. , .. .. . . . xn1 xn2 · · · xnp v kateri je xij element (i, j). Pogosto se bomo sreˇcali z vrsticami matrike X, ki jih bomo oznaˇcili z x1 , x2 , . . . , xn . V tem primeru je xi vektor dolžine p, formalno xi1 xi2 xi = . . .. xip Nasprotno bomo stolpce matrike X oznaˇcevali s poudarjenimi cˇ rkami x1 , x2 , . . . , x p , kjer je vsak vektor x j dolžine n x1j x2j xj = . . .. xnj Z vpeljano notacijo lahko matriko X predstavimo kot X = x1 , x2 , . . . , x p oz. kot x1T xT 2 X = . . .. xnT Vektorje dolžine n bomo vedno izpisovali poudarjeno, npr. a1 a2 a = . , .. an vektorje dolžine l pa nepoudarjeno. 18 2 Mnogorazsežna podatkovja 2.1 Uvod Na prvi pogled se zdi, da je cˇ lovekov kognitivni aparat oblikovan do potankosti. Procesiranje prostorskih informacij združuje vrsto razliˇcnih kognitivnih funkcij. Elementarni kognitivni procesi, kot so npr. lokalizacija toˇck v prostoru, zaznavanje globine, doloˇcanje orientacije cˇ rt in miselna rotacija objektov, so osnova kompleksnejšim miselnim procesom, kot sta npr. znajdenje v prometu ali branje zemljevida. Težave nastopijo pri procesiranju informacij v mnogorazsežnem prostoru. Raziskave kažejo, da je cˇ lovekov kognitivni aparat pri znajdevanju v takem prostoru zelo omejen (Kellert, 1994). Izkaže se, da ima veˇcina ljudi velike težave že z miselno reprezentacijo in manipulacijo preprostih tri- in štirirazsežnih objektov. Nazoren primer je štirirazsežna kocka na sliki 2.1. Ko tak model kocke predstavimo poskusnim osebam ter jih prosimo, naj svojo podobo kocke prenesejo na papir, bomo hitro ugotovili, da so njihove miselne predstave zelo razliˇcne. Obstajajo sicer priˇcevanja redkih posameznikov (npr. igralcev raˇcunalniških igric), da lahko uˇcinkovito miselno manipulirajo tudi v štirirazsežnem prostoru, vendar je tovrstna empiriˇcna evidenca zelo skopa (Poincaré, 2009; Rucker & Povilaitis, 1984). S preprostim besednjakom bi lahko rekli, da mislimo v prostoru treh evklidskih razseˇ žnosti (tj. dolžina, širina in globina). Clovek je pri procesiranju informacij v veˇc kot treh razsežnostih nemoˇcen. Pri spoznavanju podatkovnih svetov v mnogorazsežnem prostoru si zato pomagamo z raˇcunalnikom. Slika 2.1: Štirirazsežna kocka. Prikaz je prirejen po J. A. Lee in Verleysen (2007). 19 2 Mnogorazsežna podatkovja 2.2 Mnogorazsežni podatkovni prostor Z razvojem znanosti postaja narava podatkov vse bolj kompleksna in veˇcrazsežna. S problemom mnogorazsežnih podatkov se dandanes sreˇcujemo na vsakem koraku. Brez posebnih zadržkov lahko reˇcemo, da je sodobna podatkovna analitika v veliki meri pogojena prav z obvladovanjem mnogorazsežnih podatkovij. Še pred dobrega pol stoletja se je pojem mnogorazsežnega podatkovja navezoval na podatkovno tabelo z najveˇc štirimi ali petimi spremenljivkami (Rao, 1948), medtem ko je danes podatkovje z nekaj tisoˇc spremenljivkami že del statistiˇcnega vsakdana (Guyon & Elisseeff, 2003; Verleysen, 2003). Primere mnogorazsežnih podatkovij najdemo npr. pri analizi biomedicinskih podatkov, strojnem uvršˇcanju besedil, analizi finanˇcnih transakcij ali iskanju kompleksnih vzorcev v astrofizikalnih podatkih. Kot bomo videli v nadaljevanju tega poglavja, metod za analizo eno- in dvorazsežnih podatkovij ne moremo preprosto uporabiti na mnogorazsežnih podatkovnih tabelah, saj problem mnogorazsežnosti prinaša s seboj svojevrstne statistiˇcne težave. Kot primer si oglejmo množico toˇck najbližjih sosedov. V dvorazsežnem prostoru je taka množica obiˇcajno zelo homogena, v mnogorazsežnem prostoru pa hitro postane razpršena (Beyer, Goldstein, Ramakrishnan & Shaft, 1999). Podobno je z npr. z algoritmi za preiskovanje prostora rešitev, ki v dvo- in trirazsežnem prostoru delujejo zadovoljivo, v mnogorazsežnem prostoru pa postanejo neobvladljivi. Tudi uˇcinkovit grafiˇcni prikaz mnogorazsežnega prostora in podatkov v njem je postal mogoˇc šele z razvojem sodobnih statistiˇcnih postopkov. Problem analize mnogorazsežnih podatkovij je povezan s prepletom dveh dejavnikov. Prviˇc, mnogorazsežni prostor se ponaša z geometrijskimi lastnostmi, ki so v primerjavi z eno- ali dvorazsežnim prostorom bistveno drugaˇcne. Nekatere pomembne geometrijske lastnosti obravnavamo v razdelku 2.4. Drugiˇc, veˇcina statistiˇcnih orodij za analizo podatkov je prilagojena delu z nizkorazsežnimi podatkovji. Pouˇcen primer je že preprosta analiza glavnih komponent. Veˇcina uˇcbenikov multivariatne statistike analizo glavnih komponent predstavi na primeru dvorazsežnega podatkovja z nekaj 100 primeri (gl. npr. Anderson, 2003; R. A. Johnson & Wichern, 2007; Rencher & Christensen, 2012). Bistveno drugaˇce pa je, cˇ e enako analizo poženemo na podatkovju, ki ima le nekaj deset primerov ter 100 ali veˇc spremenljivk. V takem primeru se bomo hitro sreˇcali s problemom kolinearnosti spremenljivk in numeriˇcno nestabilnostjo rešitve. Problem je še bolj pereˇc pri uporabi nelinearnih statistiˇcnih postopkov, pri katerih je v splošnem število parametrov modela mnogo veˇcje od števila razsežnosti v prostoru podatkov. To prinaša s seboj probleme, povezane z identifikabilnostjo modela, nestabilnostjo rešitve, preveliko prilagojenostjo modela podatkom itd. Za posamezen podatkovni objekt oz. primer bomo v nadaljevanju privzeli, da je opisan z veˇc spremenljivkami. Formalno bomo primer v veˇcrazsežnem prostoru predstavili s podatkovno toˇcko v vektorskem prostoru, katerega število razsežnosti ustreza številu spremenljivk. Mnogorazsežne podatke bomo zložili v podatkovno matriko X razsežnosti 20 2.3 Fenomen praznega prostora n × d1 X= x1 x2 .. . x1 x11 x21 .. . x2 x12 x22 .. . xn xn1 xn2 · · · xd · · · x1d · · · x2d .. .. . . · · · xnd , v kateri bomo posamezno podatkovno toˇcko oznaˇcili z xi ∈ Rd . 2.3 Fenomen praznega prostora Problem analize mnogorazsežnih podatkovij je neloˇcljivo povezan s fenomenom praznega prostora. Termin je prvi uporabil Bellman (1966) pri opisovanju problema optimizacije z metodo izˇcrpnega preiskovanja v produktnih prostorih. Strategija izˇcrpnega preiskovanja pregleda in ovrednoti vse možne rešitve v optimizacijskem prostoru, nato pa izbere zadovoljive. Pokazal je, da z linearnim poveˇcevanjem prostora spremenljivk velikost optimizacijskega prostora raste eksponentno. To ima za posledico veˇcjo raˇcunsko zahtevnost ter veˇcjo verjetnost, da se optimizacija zakljuˇci v lokalnem minimumu. Reševanje optimizacijske naloge po metodi izˇcrpnega preiskovanja zato že pri relativno majhnem številu razsežnosti preraste v neobvladljiv problem.2 Primer 1. Bellmanovo zakonitost ilustrirajmo s preprostim primerom. Denimo, da obravnavamo ˇ želimo mrežo napolniti s toˇckami, bomo d-razsežno karteziˇcno mrežo s korakom e = 1/10. Ce 10 pri d = 10 razsežnostih potrebovali 10 toˇck, pri d = 20 razsežnostih pa se število potrebnih toˇck poveˇca že na 1020 ; v splošnem torej potrebujemo O((1/e)d ) toˇck. Izkaže se, da z linearnim poveˇcevanjem prostora spremenljivk velikost prostora rešitev eksponentno raste. Primer 2. Primer 1 lahko prevedemo tudi v nam bolj zanimivo statistiˇcno domeno. Denimo, da imamo d-razsežno hiperkocko, znotraj katere smo enakomerno porazdelili podatkovne toˇcke. Iz podatkovnega hiperprostora želimo povzeti vzorec toˇck, ki bo pomenil r-ti delež celotne prostornine hiperkocke. Zanima nas dolžina stranice l vzorˇcne hiperkocke. Upoštevajmo, da za zvezo med dolžino stranice, številom razsežnosti in deležem zajete prostornine velja l = r1/d . S preprostim izraˇcunom hitro ugotovimo, da bo ob vzorˇcnem deležu r = 0.01 stranica hiperkocke pri razsežnosti d = 1 zavzemala 1 % celotne dolžine, pri razsežnosti d = 10 pa kar 63 % dolžine stranice hiperkocke. Ob vzorˇcnem deležu r = 0.1 se bo pri d = 10 razsežnostih dolžina stranice hiperkocke poveˇcala na 80 %. Odnos med deležem prostornine hiperkocke in dolžino stranice je za štiri razliˇcne razsežnosti prikazan na sliki 2.2. Ugotovitev, povzeta iz primerov 1 in 2, nam nalaga, da z narašˇcanjem števila spremenljivk v statistiˇcnem modelu zagotovimo tudi ustrezno število primerov. V nasprotnem primeru bo naš podatkovni prostor prazen oz. vsaj redek. Poznavanje fenomena praznega prostora je pomembno zlasti v vsakdanji statistiˇcni praksi, saj lahko le redko zagotovimo ustrezno 1 Zaradi skladnosti z literaturo, na katero se sklicujemo, bomo v tem poglavju število razsežnosti oznaˇcevali z d. 2 Kot rešitev je Bellman predlagal metodo dinamiˇ cnega programiranja, s katero lahko problem rešimo v polinomskem cˇ asu, cˇ eprav bi naivna rešitev zahtevala eksponentni cˇ as. 21 2 Mnogorazsežna podatkovja 1.00 Dolžina stranice 0.75 Razsežnost 0.50 d=1 d=2 0.25 d=3 d = 10 0.00 0.00 0.25 0.50 0.75 Prostornina 1.00 Slika 2.2: Odnos med deležem prostornine in dolžino stranice d-razsežne hiperkocke eksponentno rast števila primerov; v veˇcini situacij imamo tako ob velikem številu spremenljivk na voljo le nekaj deset primerov. Intuitivne predstave, ki veljajo v eno- in dvorazsežnem prostoru, postanejo v mnogorazsežnem prostoru nepravilne. Mnogorazsežni prostor ima namreˇc neintuitivne geometriˇcne lastnosti. Predstava podatkovnih toˇck v veˇcrazsežnem prostoru je lahko zato zavajajoˇca. Nobenih težav ne bomo imeli, cˇ e bomo želeli predstaviti podatkovje 100 enot, merjenih na dveh spremenljivkah. Iz razsevnega diagrama bomo po vsej verjetnosti lahko celo izloˇcili strukturo podatkov (npr. skupine podatkov, odnose med spremenljivkami). Zdaj pa si predstavljajmo, da želimo predstaviti podatkovje, ki ima enako število primerov, le da število spremenljivk poveˇcamo na 500. V razsevnem diagramu bodo podatkovne toˇcke ˇ takega podatkovja bolj ali manj sluˇcajno razpršene (D. W. Scott, 1992). Ceprav obstaja v podatkih neka notranja struktura, bo po vsej verjetnosti iz razsevnega diagrama težko razvidna. Z veˇcanjem števila spremenljivk namreˇc postajajo razdalje med posameznimi primeri v prostoru cˇ edalje veˇcje, kar pomeni, da se tudi najbližji primeri medsebojno zelo razlikujejo. To je glavni razlog, da se metode, ki temeljijo na lokalnosti primerov (k-NN, parzenova okna, Relief), slabo obnesejo pri velikem številu spremenljivk. 2.4 Geometrijske lastnosti mnogorazsežnega prostora V tem razdelku bomo opisali nekatere osnovne geometrijske lastnosti mnogorazsežnega evklidskega prostora. Izkaže se, da je topološka analiza za študij takega prostora zelo primerna. Pregled je pripravljen po Zaki in Meira (2014), veˇc podrobnosti pa bo bralec našel tudi v Kendall (2004) in D. W. Scott (1992). 22 2.4 Geometrijske lastnosti mnogorazsežnega prostora 2.4.1 Hiperkocka Minimalno in maksimalno vrednost spremenljivke X j iz podatkovne matrike D zapišemo kot min X j = min xij in max X j = max xij . i i Podatkovni hiperprostor D si lahko predstavljamo v prispodobi d-razsežnega hiperpravokotnika, ki je definiran s predpisom d Rd = ∏ min X j , max X j j =1 o = x = ( x1 , x2 , . . . , xd )T x j ∈ min X j , max X j , za j = 1, . . . , d . n Predpostavimo še, da smo surove vrednosti spremenljivk predhodno pretvorili v odklonske vrednosti, tako da je vektor njihovih aritmetiˇcnih sredin enak µ = 0. Najveˇcjo absolutno vrednost v podatkovni matriki D definirajmo s predpisom d n m = max max | xij | . j =1 i =1 Podatkovni hiperprostor lahko zdaj obravnavamo kot hiperkocko s središˇcem v toˇcki 0 in dolžino stranice l = 2m. Formalno bomo to zapisali kot Hd (l ) = l l . x = ( x1 , x2 , . . . , xd ) ∀i, xi ∈ − , 2 2 T Primer 3. Narišimo podatkovni prostor v razliˇcnih razsežnostih (slika 2.3). Pri razsežnosti d = 1 podatkovni prostor predstavimo z intervalom H1 (l ) (a), pri d = 2 s kvadratom H2 (l ) (b), pri d = 3 s kocko H3 (l ) (c) ter pri d = 4 s hiperkocko H4 (l ) (d). Prostornino hiperkocke s stranico dolžine l izraˇcunamo po obrazcu V ( Hd (l )) = l d . ˇ je l = 1, je prostornina hiperkocke od števila razsežnosti neodvisna. Prostornina bo Ce ˇ je l > 1, bo prostornina z narašˇcanjem v tem primeru vedno enaka V ( H p (1)) = 1. Ce števila razsežnosti divergirala k neskonˇcnosti, pri l < 1 pa konvergirala k vrednosti niˇc. Primer 4. Odnos med številom razsežnosti podatkovnega prostora in prostornino hiperkocke je za tri razliˇcne dolžine stranice prikazan na sliki 2.4. 23 2 Mnogorazsežna podatkovja (a) (b) (c) (d) Slika 2.3: Podatkovni prostor v eni (a), dveh (b), treh (c) in štirih (d) razsežnostih ● Dolžina 15 ● ● ● 0.9 Prostornina ● ● ● 1 ● 10 ● ● 1.1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 5 0 0 10 20 30 Razsežnost Slika 2.4: Odnos med številom razsežnosti in prostornino hiperkocke za razliˇcne dolžine stranice 24 2.4 Geometrijske lastnosti mnogorazsežnega prostora 2.4.2 Hipersfera Podobno kot v razdelku 2.4.1 predpostavimo, da spremenljivke nastopajo v odklonski obliki, tako da je µ = 0. Razdaljo med središˇcem podatkovnega hiperprostora D in najbolj oddaljeno podatkovno toˇcko definirajmo s predpisom r = max {k xi k} . i Podatkovni hiperprostor lahko zdaj predstavimo kot d-razsežno hiperkroglo s središˇcem v toˇcki 0 ter polmerom r, tako da je Bd (r ) = { x | k x k ≤ r } oz. ( Bd (r ) = ) d 2 2 x = ( x1 , x2 , . . . , x d ) ∑ x j ≤ r . j =1 Površino hiperkrogle Bd ponazarja hipersfera Sd . Hipersfero sestavljajo vse podatkovne toˇcke, ki so od izhodišˇca 0 oddaljene natanko za r: Sd (r ) = { x | k x k = r } oz. ( Sd (r ) = ) p x = ( x1 , x2 , . . . , xd ) ∑ x2j = r2 . j =1 Prostornino hipersfere v nižjih razsežnostih znamo enostavno izraˇcunati s pomoˇcjo znanih obrazcev, npr. V (S1 (r )) = 2r, V (S2 (r )) = πr2 , 4 V (S3 (r )) = πr3 . 3 Splošen obrazec za izraˇcun prostornine d-razsežne hipersfere se glasi π d/2 V (Sd (r )) = rd , Γ (d/2 + 1) kjer je Γ d +1 2 (d/2)! = √ d!! π (d + 1)/2 2 cˇ e d sodo št. cˇ e d liho št. (2.1) V obrazcu (2.1) je d!! dvojna fakulteta, definirana s predpisom ( 1 cˇ e d = 0 ali d = 1 d!! = d(d − 2)!! cˇ e d ≥ 2 25 2 Mnogorazsežna podatkovja S poveˇcevanjem števila razsežnosti prostornina hipersfere najprej narašˇca, nato pa zaˇcne padati in se približuje vrednosti niˇc. Za enotsko hipersfero zato velja π d/2 lim V (Sd (1)) = lim = 0. d→∞ d→∞ Γ (d/2 + 1) Primer 5. Na sliki 2.5 je predstavljen odnos med številom razsežnosti in prostornino enotske hipersfere. Prostornina sfere najprej narašˇca, doseže najveˇcjo prostornino pri d = 5, kjer znaša V (S5 (1)) = 5.26. Prostornina se nato zaˇcne zmanjševati in pri d = 30 doseže zanemarljivo vrednost. ● ● Prostornina 4 ● ● ● ● ● ● ● 2 ● ● ● ● ● 0 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 10 20 30 Razsežnost Slika 2.5: Odnos med številom razsežnosti in prostornino hipersfere 2.4.3 Razmerje med prostorninama hipersfere in hiperkocke Denimo, da podatkovni prostor omejimo s hiperkocko H, na enak naˇcin, kot smo to storili v razdelku 2.4.1. Vanjo postavimo karseda veliko hipersfero S. Polmer hipersfere oznaˇcimo z r, stranico hiperkocke pa z 2r. Obravnavajmo razmerje med prostorninama obeh teles. Za zaˇcetek primerjajmo obe prostornini v dveh in treh razsežnostih. V prvem primeru znaša razmerje V (S2 (r )) πr2 π = 2 = = 78.5 %, V ( H2 (2r )) 4r 4 kar pomeni, da krožnica omejuje π/4 površine kvadrata, v katerega je vrisana. V treh razsežnostih znaša razmerje 4/3πr 3 V (S3 (r )) π = = = 52.4 %, 3 V ( H3 (2r )) 8r 6 kar je le še π/6 prostornine kocke. V splošnem s poveˇcanjem števila razsežnosti d velja V (Sd (r )) π d/2 = lim d = 0, d→∞ V ( Hd (2r )) d→∞ 2 Γ (d/2 + 1) lim kar pomeni, da je asimptotiˇcna prostornina hiperkocke zgošˇcena ob robovih prostora, medtem ko je središˇce prazno. 26 2.4 Geometrijske lastnosti mnogorazsežnega prostora Primer 6. Na sliki 2.6 je prikazano razmerje med prostorninama enotske hipersfere in hiperkocke za razliˇcne razsežnosti prostora. Pri razsežnosti d = 2 znaša razmerje π/4, kar pomeni, da hipersfera obsega skoraj celotno prostornino kvadrata. Z narašˇcanjem števila razsežnosti se razmerje hitro približuje vrednosti niˇc ter pri d = 10 doseže zanemarljivo vrednost. 1.00 ● ● Prostornina 0.75 ● 0.50 ● 0.25 ● ● 0.00 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 10 20 30 Razsežnost Slika 2.6: Razmerje med prostorninama hipersfere in hiperkocke za razliˇcno število razsežnosti Predstavljajmo si d-razsežno enotsko hiperkocko, v katero vˇcrtamo hipersfero. Razdalja med √ izhodišˇcem hiperkocke in katerokoli stranico znaša 1/2, razdalja do oglišˇca pa d/2. S poveˇcevanjem števila razsežnosti se razdalja med središˇcem in oglišˇci veˇca, prostornina hipersfere pa manjša. Prostornina hiperkocke se zato zgošˇca na robovih, središˇce pa postaja prazno (slika 2.7). HechtNielsen (1990) pravi, da je v mnogorazsežnem prostoru hiperkocka tako koniˇcasta, da ima skoraj fraktalno obliko. (a) (b) (c) (d) Slika 2.7: Odnos med hiperkocko in hipersfero v dveh (a), treh (b), štirih (c) in šestih (d) razsežnostih. V d razsežnostih ima hiperkocka 2d oglišˇc. Polmer hipersfere sledi razmerju med prostorninama hipersfere in hiperkocke. Prikaz je prirejen po Zaki in Meira (2014). 2.4.4 Prostornina tanke lupine Obravnavajmo prostornino tanke lupine debeline e, ki jo omejujeta notranja hipersfera s polmerom r ter zunanja hipersfera s polmerom r + e (slika 2.8). Prostornino tanke lupine Sd (r, e) izraˇcunamo kot razliko prostornin obeh hipersfer po 27 2 Mnogorazsežna podatkovja r r+ Slika 2.8: Tanka lupina obrazcu V (Sd (r, e)) = V (Sd (r )) − V (Sd (r − e)), razmerje med prostorninama tanke lupine in zunanje sfere pa po obrazcu V (Sd (r, e)) e d . = 1− 1− V (Sd (r )) r Primer 7. Na sliki 2.9 je prikazano razmerje med dvema sferama s parametroma r = 1 in e = 0.01 (gl. sliko 2.8). Razmerje njunih prostornin pada eksponentno z veˇcanjem razsežnosti. V dveh razsežnostih je prostornina tanke lupine enaka 1 − (0.99)2 ≈ 2 %. V treh razsežnostih se delež prostornine poveˇca na 1 − (0.99)3 ≈ 3 %. Pri d = 30 pa prostornina lupine naraste kar na 1 − (0.99)30 ≈ 26 %. 0.8 Prostornina 0.6 0.4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.2 ● ● ● ● 0 10 20 30 Razsežnost Slika 2.9: Odnos med številom razsežnosti in prostornino tanke lupine za razliˇcno število razsežnosti Ko število razsežnosti d narašˇca prek vseh mej, velja V (Sd (r, e)) e d = lim 1 − 1 − = 1. r d→∞ V ( Sd (r )) d→∞ lim Izkaže se, da se s poveˇcevanjem razsežnosti prostornina hipersfere zgošˇca v tanki lupini. Veˇcji del prostornine zato najdemo v okolici površine hipersfere (znotraj e), medtem ko je 28 2.4 Geometrijske lastnosti mnogorazsežnega prostora središˇce hipersfere prazno. Z drugimi besedami, cˇ e so podatkovne toˇcke v d-razsežnem prostoru porazdeljene enakomerno, se bo veˇcina toˇck zgostila ob robovih tega prostora. 2.4.5 Diagonale hiperprostora Obravnavajmo d-razsežno hiperkocko z izhodišˇcem v toˇcki 0d = (01 , 02 , . . . , 0d ) (D. W. Scott, 1992; Zaki & Meira, 2014). Razsežnosti naj bodo omejene v razponu [−1, 1]. Vsako oglišˇce hiperprostora lahko predstavimo z d-razsežnim vektorjem, ki ima obliko (±11 , ±12 , . . . , ±1d ). Z ei = (01 , . . . , 1i , . . . , 0d )T oznaˇcimo d-razsežni enotski vektor v razsežnosti i, z 1 pa d-razsežni diagonalni vektor (11 , 12 , . . . , 1d )T (slika 2.10). 1 θ e1 (a) (b) Slika 2.10: Diagonale hiperkocke v dveh (a) in treh (b) razsežnostih Kot θd med diagonalnim vektorjem 1 in prvo osjo e1 v d razsežnostih bomo izraˇcunali po obrazcu e1T 1 eT 1 1 1 cos(θd ) = = q 1√ =√ √ =√ . ke1 kk1k 1 d d e T e1 1 T 1 1 Primer 8. Na sliki 2.10 je oznaˇcen kot med diagonalnim vektorjem 1 in vektorjem e1 v dvo- in √ √ trirazsežnem prostoru. V prvem primeru znaša cos (θ2 ) = 1/ 2, v drugem pa cos (θ3 ) = 1/ 3. S poveˇcevanjem števila razsežnosti d se kot med d-razsežnim diagonalnim vektorjem 1 in vektorjem e1 asimptotiˇcno približuje 1 lim cos(θd ) = lim √ = 0, d→∞ d d→∞ kar pomeni lim θd = d→∞ π = 90°. 2 Poslediˇcno sklepamo, da so v visokih razsežnostih prostora diagonalni vektorji pravokotni na osi tega prostora. V d-razsežnem prostoru najdemo 2d oglišˇc ter enako število diagonalnih vektorjev. Pari diagonalnih vektorjev v nasprotnih smereh zato sestavljajo 29 2 Mnogorazsežna podatkovja 2d−1 novih osi prostora. Nove koordinatne osi so pravokotne3 na vsako od d glavnih osi prostora. Primer 9. V mnogorazsežnem prostoru so diagonale hiperkocke približno pravokotne na osi prostora. Za primer vzemimo grafiˇcno predstavitev podatkovnih toˇck s pomoˇcjo matrike razsevnih diagramov. Ugotovimo lahko, da se skupina toˇck, ki leži v okolici diagonale prostora, prezrcali v izhodišˇca razsevnih diagramov. Izbira ustreznega koordinatnega sistema je zato v analitiki mnogorazsežnih podatkovij kljuˇcnega pomena (D. W. Scott, 1992; X. Wang, 2012). 2.4.6 Robna gostota verjetnosti pri večrazsežni normalni porazdelitvi Obravnavajmo standardizirano veˇcrazsežno normalno porazdelitev. V zgornjih razdelkih smo ugotovili, da se ob enakomerni porazdelitvi podatkovnih toˇck te zgošˇcajo ob robovih hipersfere oz. hiperkocke. V tem razdelku bomo pokazali, da podoben fenomen opazimo tudi pri veˇcrazsežni normalni porazdelitvi. Funkcija gostote za veˇcrazsežno normalno porazdelitev z aritmetiˇcno sredino µ = 0d in kovarianˇcno matriko Σ = Id je definirana s predpisom f ( x ) = √ 1 2π xT x d exp − 2 . Zanimalo nas bo, kako se gostota podatkovnih toˇck okoli aritmetiˇcne sredine spreminja s poveˇcevanjem števila razsežnosti. √ Gostota verjetnosti v toˇcki µ = 0d znaša f (0d ) = 1/( 2π )d . Toˇcke x, katerih gostota znaša vsaj α gostote f (0), kjer je 0 < α < 1, definiramo z neenaˇcbo f (x) ≥ α. f (0) To pomeni xT x exp − ≥α 2 oz. ali x T x ≤ −2 ln(α) d ∑ (xi )2 ≤ −2 ln(α). (2.2) i =1 ˇ predpostavimo, da so spremenljivke X1 , X2 , . . . , Xk med seboj neodvisne in enako Ce porazdeljene ter da se hkrati vsaka od njih porazdeljuje po standardizirani normalni porazdelitvi, potem velja, da se vsota njihovih kvadratov X12 + X22 + · · · + Xk2 porazdeljuje po χ2 -porazdelitvi s k stopnjami prostosti. Ker je projekcija standardizirane veˇcrazsežne 3 Pravokotnost 30 velja približno. Popolna pravokotnost velja le v limiti, pa še to ne za vse pare. 2.4 Geometrijske lastnosti mnogorazsežnega prostora normalne porazdelitve na poljubno komponento X j standardna normalna porazdelitev, velja da produkt xT x = d ∑ ( x i )2 i =1 iz (2.2) sledi χ2 -porazdelitvi z d stopnjami prostosti. Verjetnost, da podatkovna toˇcka x leži znotraj nivojnice s polmerom α izraˇcunamo kot (Zaki & Meira, 2014) Pr f (x) ≥α f (0) = Pr( x T x ≤ −2 ln(α)). (2.3) S poveˇcevanjem števila razsežnosti se verjetnost iz (2.3) manjša ter asimptotiˇcno približuje lim Pr( x T x ≤ −2 ln(α)) = 0. d→∞ Ugotovimo lahko, da se v visokih razsežnostih gostota verjetnosti z oddaljevanjem od aritmetiˇcne sredine hitro zmanjšuje; v asimptoti je celotna gostota verjetnosti porazdeljena v repih porazdelitve. Primer 10. Gostota verjetnosti normalne porazdelitve se z veˇcanjem razsežnosti prostora, ob konstantni oddaljenosti od izhodišˇca porazdelitve, hitro zmanjšuje. Uˇcinek je najlepše opazen, cˇ e primerjamo normalno porazdelitev v dvo- in trirazsežnem prostoru (slika 2.11). Plošˇcina pod krivuljo se ob konstantni oddaljenosti od izhodišˇca zato veˇca. Verjetnost, da je podatkovna toˇcka za vsaj dva standardna odklona oddaljena od izhodišˇca, pri enorazsežni porazdelitvi znaša Pr( x ) ≥ 2 = 0.05, pri dvorazsežni porazdelitvi pa že Pr( x ) ≥ 2 = 0.14. Verjetnosti za veˇcje število razsežnosti so prikazane na sliki 2.12. 2.4.7 Norme in razdalje Z analizo podatkov v mnogorazsežnem prostoru je povezan tudi problem zgošˇcanja norm. Norme so v statistiki izrednega pomena, saj z njimi merimo razdalje med podatkovnimi toˇckami (npr. pri razvršˇcanju v skupine ali metodi najbližjih sosedov). Najpogosteje uporabljamo normo Minkovskega, ki je za podatkovni vektor x = ( x1 , x2 , . . . , xd ) ∈ Rd definirana s predpisom !1/p d kxk p = ∑ | xi | p i =1 ˇ je p = 1, dobimo normo z uporabo geometrije taksijev, ki se imenuje s p ∈ N \ {0}. Ce razdalja Manhattan. Normo s p = 2 poznamo pod imenom evklidska norma. V nadaljevanju bomo videli, da je v analizi mnogorazsežnih podatkov ustrezna izbira parametra p izrednega pomena. Denimo, da z x ( j) : 1 ≤ j ≤ n oznaˇcimo n d-razsežnih sluˇcajnih vektorjev, ki se porazdeljujejo po poljubni veˇcrazsežni porazdelitvi F. Komponente vektorjev naj bodo neodvisne in 31 2 Mnogorazsežna podatkovja f (x) −3 −2 −1 0 x 1 2 3 (a) (b) Slika 2.11: Eno- (a) in dvorazsežna (b) normalna porazdelitev 1.00 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.75 Pr(x) ≥ 2 ● ● 0.50 ● ● 0.25 ● ● 0.00 0 10 20 30 Razsežnost Slika 2.12: Prostornina pod normalno krivuljo za podatkovno toˇcko x, ki je za vsaj dva standardna odklona oddaljena od središˇca porazdelitve. Prikazane so verjetnosti za razliˇcno število razsežnosti. 32 2.4 Geometrijske lastnosti mnogorazsežnega prostora enako porazdeljene. Demartines (1994) je pokazal, da v tem primeru velja h i √ 1 E k x ( j) k2 = ad − b + O d 1 ( j) Var k x k2 = b + O √ , d kjer sta a in b konstanti, neodvisni od števila razsežnosti. To pomeni, da pri sluˇcajnih vektorjih z neodvisnimi in √ enako porazdeljenimi komponentami priˇcakovana vrednost evklidske norme narašˇca s d, razpršenost pa ostaja enaka. Beyer in sod. (1999) so pokazali, da ob izpolnjenem pogoju ! k x ( j) k =0 lim Var d→∞ E k x ( j) k za vsak e > 0 velja " lim Pr d→∞ max j k x ( j) k − min j k x ( j) k min j k x ( j) k # ≤ e = 1, (2.4) kjer min j k x ( j) k in max j k x ( j) k oznaˇcujeta najkrajšo oz. najdaljšo normo v vzorcu sluˇcajnih podatkovnih toˇck. Izrek (2.4) pravi, da relativne razlike med najdaljšimi in najkrajšimi normami z veˇcanjem razsežnosti podatkovnega prostora postajajo vse manjše. Primer 11. Obravnavajmo porazdelitev norm k X k2 , kjer je X = ( X1 , X2 , . . . , Xd ) ∈ Rd sluˇcajni vektor, enakomerno porazdeljen na intervalu [0, 1]d . Na sliki 2.13 so prikazani aritmetiˇcna sredina, standardni odklon, najmanjša in najvišja vrednost ter najvišja možna vrednost evklidske norme. √ Za dano razsežnost d je domena norme takega vektorja kar interval [0, d] (Francois, 2007). Povpreˇcna vrednost norme z veˇcanjem števila razsežnosti prostora narašˇca, medtem ko razpršenost ostaja enaka. Minimalna √ in maksimalna vrednost norme sta v nižjih razsežnostih (slika 2.13a) blizu mejam intervala [0, d], s poveˇcevanjem števila razsežnosti (slika 2.13b) pa se odmikata. V mnogorazsežnem prostoru se norme zgostijo na omejenem obmoˇcju domene (v okolici priˇcakovane vrednosti), ki z narašˇcanjem števila razsežnosti postaja vse manjše. V tem primeru so vse norme približno enako dolge. Obe sliki sta konstruirani na sluˇcajnem vzorcu podatkovnih toˇck. 33 2 Mnogorazsežna podatkovja M 3 Norma M ± 1 SD Min / Max 2 d 1 0 2.5 5.0 Razsežnost 7.5 10.0 (a) 10.0 M M ± 1 SD 7.5 Norma Min / Max d 5.0 2.5 0.0 0 25 50 Razsežnost 75 100 (b) Slika 2.13: Fenomen zgošˇcanja norm. Za pojasnilo gl. besedilo. 34 3 Izbira spremenljivk 3.1 Uvod Postopek izbire spremenljivk se nanaša na doloˇcitev optimalne podmnožice spremenljivk, kjer iz podatkovne tabele odstranimo nerelevantne in redundantne spremenljivke, ki za indukcijo klasifikatorja niso nujno potrebne (Guyon & Elisseeff, 2003; H. Liu & Motoda, 1998, 2007). Povedano bolj formalno, izbira spremenljivk je veˇcrazsežni optimizacijski problem, v katerem prostor p spremenljivk optimalno skrˇcimo na m spremenljivk (m ≤ p) ter hkrati poveˇcamo oz. pomembno ne zmanjšamo kakovosti uvršˇcanja (Dash & Liu, 1997, 2003; H. Liu & Motoda, 1998; H. Liu & Yu, 2005). Z izbiro spremenljivk ne samo zmanjšamo število parametrov v statistiˇcnem modelu, paˇc pa vplivamo tudi na hitrost izvajanja uˇcnih algoritmov, izboljšamo kakovost uvršˇcanja in poveˇcamo interpretativnost modela. Raziskave kažejo, da se s premišljeno odstranitvijo manj pomembnih spremenljivk podatkovna struktura pomembno ne spremeni (Donoho, 2006; Ng, 2004). Izbira optimalne podmnožice spremenljivk temelji na naˇcelu Ockhamove britve (Bell & Wang, 2000). Ta pravi, da je boljši tisti (statistiˇcni) model, ki ima najmanjše število parametrov ter hkrati zagotavlja cˇ im boljše prileganje podatkom. Z ustrezno izbiro manjše podmnožice spremenljivk poveˇcamo kakovost uvršˇcanja, zmanjšamo raˇcunsko zahtevnost uvršˇcanja ter omogoˇcimo boljše razumevanje strukture podatkov (Ma & Huang, 2008). Splošni algoritem izbire spremenljivk je prikazan na sliki 3.1 (Dash & Liu, 1997; H. Liu, Motoda, Setiono & Zhao, 2010; Z. Zhu, Ong & Kuo, 2009). Algoritem sestavljajo štiri osnovne komponente: (i) izbira podmnožice spremenljivk, (ii) funkcija za ovrednotenje podmnožice spremenljivk, (iii) ustavitveni kriterij in (iv) preizkus z neodvisno množico podatkov. Podmnožico spremenljivk izberemo sluˇcajno oz. z ustrezno hevristiko. Izbrano podmnožico v naslednjem koraku ovrednotimo, kar storimo bodisi neodvisno glede na postopek uvršˇcanja (neodvisni kriterij) bodisi tako, da upoštevamo kakovost uvršˇcanja (odvisni kriterij).1 Postopek sestavljanja in vrednotenja podmnožice spremenljivk ponavljamo toliko cˇ asa, dokler ne zadostimo ustavitvenemu kriteriju. Ustavitveni kriterij je obiˇcajno podan vnaprej. V zadnjem koraku podmnožico spremenljivk preizkusimo na neodvisni, testni množici podatkov. Izbira optimalne podmnožice atributov je NP-polni problem (Albrecht, 2006; Gheyas & Smith, 2010). Število možnih podmnožic raste eksponentno s številom spremenljivk in v primeru m spremenljivk znaša O(2m ). Izˇcrpno preiskovanje vseh možnih podmnožic 1 H. Liu in sod. (2010) loˇcijo med nadzorovano, polnadzorovano in nenadzorovano izbiro spremenljivk. Pri nadzorovani izbiri v procesu vrednotenja upoštevamo odvisno spremenljivko (razred), pri nenadzorovani izbiri spremenljivk pa ovrednotenje opravimo samo nad neodvisnimi spremenljivkami. Polnadzorovani algoritmi pri indukciji klasifikatorja uporabijo le del informacije odvisne spremenljivke. 35 3 Izbira spremenljivk Izberi podmnožico Uˇcni podatki Ovrednoti podmnožico ne Ustavitev da Testni podatki Validacija Konec Slika 3.1: Splošni algoritem izbire spremenljivk spremenljivk seveda ni smiselno. Za izbiro optimalne podmnožice zato uporabljamo razliˇcne hevristiˇcne pristope, ki so opisani v nadaljevanju. Zgošˇcen pregled in povzetek osnovnih metod za izbiro spremenljivk ponujata H. Liu in Yu (2005). Dash in Liu (1997) obravnavata algoritme izbire spremenljivk z vidika uvršˇcanja, Guyon in Elisseeff (2003) pa njun pogled razširita na celotno domeno statistiˇcnega uˇcenja. Obnašanje metod izbire spremenljivk nad sintetiˇcnimi podatki bomo našli v BolónCanedo, Sánchez-Maroño in Alonso-Betanzos (2013). Pregled uporabe splošnih postopkov izbire spremenljivk v bioinformatiki podajajo Saeys, Inza in Larrañaga (2007) ter Hilario in Kalousis (2008). Poleg tega bo za bioinformatika primeren tudi pregled metod izbire spremenljivk s pomoˇcjo kaznovanja (Ma & Huang, 2008), ki kljub specifiˇcnosti ponuja dovolj splošen pregled nad podroˇcjem. Bralcu, ki ga problematika izbire spremenljivk podrobneje zanima, priporoˇcamo v branje monografijo Feature Selection for Knowledge Discovery and Data Mining (H. Liu & Motoda, 1998) oz. nekoliko novejše delo istih avtorjev Computational Methods of Feature Selection (H. Liu & Motoda, 2007). Pri pregledu osnovnih konceptov in algoritmov izbire spremenljivk smo v nalogi, poleg sproti omenjenih sklicev na literaturo, sledili A. R. Webb in Copsey (2011). 3.2 Relevantnost in redundantnost spremenljivk 3.2.1 Relevantnost Pri izbiri spremenljivk nas zanimajo take spremenljivke, ki so hkrati relevantne (pomembne) in niso redundantne (L. Yu & Liu, 2004). Nerelevantne so spremenljivke, ki za klasifikacijsko pravilo niso pomembne, redundantne pa spremenljivke, ki so med seboj moˇcno korelirane. Glede na relevantnost oz. redundantnost spremenljivke združujemo v štiri tipe (Blum & Langley, 1997; Kohavi & John, 1997; L. Yu & Liu, 2004): (i) nerelevantne, (ii) redundantne, (iii) šibko relevantne in neredundantne ter (iv) moˇcno relevantne. Optimalna množica spremenljivk vkljuˇcuje zadnja dva tipa spremenljivk. V nadaljevanju razdelka obravnavajmo posamezne tipe spremenljivk bolj podrobno. Z X oznaˇcimo množico sluˇcajnih spremenljivk, v kateri se Xi nanaša na sluˇcajno spremenljivko 36 3.2 Relevantnost in redundantnost spremenljivk i. S naj oznaˇcuje množico spremenljivk brez spremenljivke Xi , tako da je S = X − { Xi }. C je pripadajoˇca odvisna spremenljivka, ki se nanaša na oznako razreda posameznega sluˇcajnega primera. Spremenljivka Xi je moˇcno relevantna, cˇ e zanjo velja Pr(C | Xi , S) 6= Pr(C | S). V tem primeru je porazdelitev odvisne spremenljivke odvisna od izbrane spremenljivke Xi . Slednje ne moremo odstraniti, ne da bi s tem popaˇcili porazdelitev odvisne spremenljivke ter tako zmanjšali diskriminantno moˇc podatkovja. Spremenljivka Xi je šibko relevantna, cˇ e velja Pr(C | Xi , S) = Pr(C | S) in ∃S ⊂ S0 , tako da je Pr(C | Xi , S0 ) 6= Pr(C | S0 ). To pomeni, da odstranitev spremenljivke Xi iz podatkovne tabele ne popaˇci napovedi odvisne spremenljivke, vendar pa njena odstranitev vpliva na napoved razreda na osnovi podmnožice S. Spremenljivka zato ni nujno potrebna, vendar mora biti prisotna v nekaterih podmnožicah (v optimalni podmnožici ni nujno potrebna), ko postane pomembna v kombinaciji z ostalimi spremenljivkami (slika 3.2). Spremenljivka Xi je nerelevantna, cˇ e ∀S0 ⊆ S, Pr(C | Xi , S0 ) = Pr(C | S0 ). Spremenljivka Xi v tem primeru ne vpliva na napoved odvisne spremenljivke, ne glede na izbrano podmnožico. 3.2.2 Redundantnost V razdelku 3.2.1 smo povedali, da optimalna podmnožica spremenljivk vkljuˇcuje vse moˇcno relevantne spremenljivke in podmnožico šibko relevantnih spremenljivk ter izkljucˇ uje vse nerelevantne spremenljivke. S konceptom redundantnosti pa si pomagamo pri presoji, katere šibko relevantne spremenljivke je smiselno obdržati. Pri razlagi koncepta redundantnosti si bomo pomagali z markovsko odejo (angl. Markov blanket) (Koller & Sahami, 1996; Pearl, 1988). Naj bo M podmnožica spremenljivk iz množice spremenljivk X, ki ne vsebuje spremenljivke Xi ; torej je M ⊆ X in Xi 6∈ M. Potem reˇcemo, da je M markovska odeja za spremenljivko Xi , cˇ e je ta pogojno neodvisna od ( X ∪ C ) − M − { Xi } pri M, torej Pr( X − M − { Xi }, C | Xi , M) = Pr( X − M − { Xi }, C | M ). Markovsko odejo si lahko predstavljamo s pomoˇcjo Bayesove mreže2 . Markovsko odejo za izbrani podatkovni objekt sestavljajo starševska vozlišˇca, vozlišˇca potomcev ter starševska vozlišˇca skupnih otrok (slika 3.3). 2 Bayesova domeni. mreža je statistiˇcni model, ki grafiˇcno predstavi soodvisnosti med podatkovnimi objekti v izbrani 37 3 Izbira spremenljivk ● ● 3 ● ● ● X2 ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● 2 ● ● ● ● ● 1 0 ● ● ● ●● −1 ● −2 ● ● 0 ● 2 X1 (a) 2 ● ● ● 1 ● X2 ● ● ● 0 ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● −1 ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ●● ● 2 X1 ● ● ●● ●● 1 ● ●● ● ● −2 0 ● ● ● 3 4 (b) Slika 3.2: Relevantnost spremenljivk. Na slikah (a) in (b) sta prikazana primera, kjer individualna obravnava spremenljivk X1 in X2 narekuje njuno nerelevantnost. ˇ spremenljivki obravnavamo skupaj, postaneta obe relevantni. Ce 38 3.3 Optimalna podmnožica spremenljivk a c b e d g f X i h j Slika 3.3: Ilustracija markovske odeje s pomoˇcjo Bayesove mreže. Markovsko odejo M za spremenljivko X sestavlja množica vozlišˇc {d, e, f , g, h, i }. Denimo, da z G oznaˇcimo množico spremenljivk, tako da je G ⊂ X. Reˇcemo, da je spremenljivka v G redundantna, cˇ e je šibko relevantna ter jo lahko pokrijemo z markovsko odejo. Tako spremenljivko iz podatkovja odstranimo.3 Optimalno množico potem sestavljajo le moˇcno relevantne ter šibko relevantne in neredundantne spremenljivke.4 3.3 Optimalna podmnožica spremenljivk V tem razdelku obravnavamo problem izbire spremenljivk, kot je predstavljen v literaturi s podroˇcja strojnega uˇcenja (gl. npr. A. R. Webb & Copsey, 2011). Formalno bomo problem iskanja optimalne podmnožice spremenljivk definirali takole. Podobno kot zgoraj z G oznaˇcimo podmnožico spremenljivk iz množice vseh spremenljivk 3 Bralec bo podroben pregled postopkov za izbiro spremenljivk s pomoˇcjo markovske odeje našel v Fu in Desmarais (2010). 4 Raˇ cunanje markovske odeje v realnem podatkovju z velikim številom spremenljivk je zaradi kombinatoriˇcne kompleksnosti seveda nesmiselno. Kot aproksimacijo markovske odeje lahko uporabimo npr. simetriˇcno negotovost (Press, Teukolsky, Vetterling & Flannery, 1992), ki je definirana s predpisom " # IG( Xi | X j ) SU = ( Xi , X j ) = 2 , H ( Xi ) + H ( X j ) kjer je IG( Xi | X j ) informacijski prispevek za spremenljivki Xi in X j , H ( Xi ) in H ( X j ) pa sta entropiji spremenljivk. Reˇcemo, da je X j element markovske odeje za Xi , cˇ e velja SU j,C ≥ SUi,C in SUi,j ≥ SUi,C . Z SUi,C je oznaˇcena korelacija med spremenljivko Xi in odvisno spremenljivko C. 39 3 Izbira spremenljivk X. Pr(C | x ) naj oznaˇcuje posteriorno verjetnost odvisne spremenljivke C pri vektorju meritev x nad množico spremenljivk X. Podobno bomo s Pr(C | g) oznaˇcili posteriorno verjetnost odvisne spremenljivke pri vektorju meritev g nad spremenljivkami G. Cilj postopka je izbira take podmnožice G, da se bosta pogojni verjetnosti Pr(C | x ) in Pr(C | g) kar najmanj razlikovali. Od tu dalje si pomagamo s Kullback–Leiblerjevo (KL) divergenco. Za porazdelitvi µ(z) in σ(z) je KL-divergenca definirana s predpisom KL(µ | σ) = ∑ µ(z) log z µ(z) σ(z) . (3.1) KL-divergenca meri stopnjo napake, ki jo zagrešimo, ko za aproksimacijo porazdelitve µ uporabimo σ. V našem primeru bomo (3.1) preuredili in poiskali tako podmnožico spremenljivk, da bo δG ( x ) = KL (Pr (C | x ) | Pr (C | g)) Pr (C | x ) = ∑ Pr (C | x ) log Pr (C | g) C (3.2) karseda majhna. Obrazec (3.2) ovrednoti samo en primer, zato je treba izraˇcunati še skupno divergenco za celotno podatkovje po obrazcu ∆G = ∑ Pr (x)δG (x) . x V praksi pa se pri raˇcunanju KL-divergence sreˇcamo z dvema problemoma: (i) prave porazdelitve Pr(C | x ) oz. Pr(C | g) ne poznamo in (ii) raˇcunanje ∆G za vse možne podmnožice je pri veˇcjem številu spremenljivk raˇcunsko preveˇc zahtevno. Pri uvršˇcanju nam bo zato prav prišla operacionalna definicija iskanja relevantnih spremenljivk (Jain & Zongker, 1997; Kohavi & John, 1997). Denimo, da imamo podatkovje D s spremenljivkami X1 , X2 , . . . , X p ter algoritem uvršˇcanja I . Optimalno podatkovje Dopt potem združuje tiste spremenljivke, pri katerih je kakovost induciranega klasifikatorja I(D) karseda visoka. 3.4 Pregled postopkov za optimalno izbiro spremenljivk Literatura s podroˇcja strojnega uˇcenja deli postopke izbire spremenljivk glede na odnos med procesoma izbire optimalne podmnožice in indukcije klasifikatorja na tri skupine (Guyon & Elisseeff, 2003): (i) filtracijski, (ii) ovojni in (iii) vgrajeni postopki. V nadaljevanju naredimo kratek pregled vseh treh sklopov postopkov. 40 3.4 Pregled postopkov za optimalno izbiro spremenljivk 3.4.1 Filtracijske metode Filtracijske metode (John, Kohavi & Pfleger, 1994) sestavijo podmnožico spremenljivk samo na osnovi statistiˇcnih lastnosti spremenljivk v podatkovni tabeli (npr. razdalje med podatkovnimi toˇckami, velikosti razlike med spremenljivkami glede na odvisno spremenljivko). Filtracijske metode so od klasifikatorja neodvisne, kar pomeni, da izbor optimalne podmnožice spremenljivk opravimo pred indukcijo klasifikatorja (slika 3.4). Izbor optimalnih spremenljivk obiˇcajno pripravimo tako, da za vsako spremenljivko izraˇcunamo vrednost izbrane statistike in nato iz urejenega seznama izberemo prvih m spremenljivk oz. tiste spremenljivke, ki presegajo vnaprej doloˇceno pražno vrednost (gl. razdelek 3.6.2). Izbiro podmnožice spremenljivk obiˇcajno opravimo le enkrat. Izbira spremenljivk Uˇcenje Ovrednotenje modela Slika 3.4: Postopek filtracijske metode Prednosti filtracijskih metod so predvsem (i) raˇcunska preprostost, (ii) hitrost izbora optimalnih spremenljivk, (iii) moˇc uporabe na podatkovnih tabelah z ogromnim številom spremenljivk ter (iv) dobra odpornost proti preprileganju (Guyon & Elisseeff, 2003; Kohavi & John, 1997). Med glavnimi pomanjkljivostmi velja omeniti, da (i) je veˇcina filtracijskih metod enorazsežnih in zato ne upoštevajo morebitne povezanosti med spremenljivkami, (ii) je preiskovanje v prostoru spremenljivk loˇceno od preiskovanja v prostoru hipotez in (iii) je ozko grlo arbitrarna izbira pražne vrednosti. Primeri enorazsežnih filtracijskih metod so npr. t-test, χ2 -test, evklidska razdalja in informacijski prispevek. Med veˇcrazsežne metode pa uvršˇcamo pristope CFS (Hall, 1999), MBF (Koller & Sahami, 1996) in FCBF (L. Yu & Liu, 2004). Tipiˇcen predstavnik filtracijskih metod je tudi Relief (Kira & Rendell, 1992). 3.4.2 Ovojne metode Ovojne metode (John in sod., 1994; Kohavi & John, 1997) temeljijo na rekurzivnem sestavljanju optimalne podmnožice spremenljivk. Postopek sestavljata dva koraka (slika 3.5): (i) izbor podmnožice spremenljivk in (ii) preizkus kakovosti klasifikatorja, s cˇ imer ovrednotimo ustreznost izbrane podmnožice. Zato pravimo, da je postopek izbire spremenljivk ovit (angl. wraparound) okoli klasifikatorja. Algoritmiˇcno najpreprostejše je požrešno preiskovanje in vrednotenje vseh možnih podmnožic spremenljivk, tako da v vsakem koraku sledimo lokalno najvišji vrednosti kriterijske funkcije. V mnogih primerih požrešno preiskovanje ne prinese optimalne rešitve, vendar pa najde lokalno optimalno rešitev, ki se približa globalni optimalni rešitvi. Pri zelo širokih podatkovnih tabelah je požrešno preiskovanje raˇcunsko preveˇc zahtevno, zato za doloˇcitev optimalne podmnožice uporabimo razliˇcne hevristiˇcne pristope. Te delimo na deterministiˇcne in sluˇcajne. 41 3 Izbira spremenljivk Izbira atributov in ovrednotenje Priprava podmnožice spremenljivk Uˇcenje Ovrednotenje modela Slika 3.5: Postopek ovojne metode Veˇcina ovojnih metod je multivariatnih, kar pomeni, da pri izboru optimalne podmnožice spremenljivk upoštevamo korelacije med njimi. Med glavnimi slabostmi pa sta predvsem (i) raˇcunska zahtevnost, ki narašˇca s številom spremenljivk, ter (ii) poveˇcana obˇcutljivost za preprileganje (zlasti na podatkovnih tabelah z majhnim številom primerov), saj algoritem uvršˇcanja in vrednotenje napajamo le na uˇcnih podatkih. Kakovost obiˇcajno preizkušamo s preˇcnim preverjanjem, vendar Kohavi in John (1997) zaradi poˇcasnosti te strategije priporoˇcata uporabo neodvisne testne množice (gl. razdelek 5.3.4). Pri ovojnih metodah loˇcujemo med deterministiˇcnimi in stohastiˇcnimi postopki izbire spremenljivk (Stracuzzi, 2012). Med deterministiˇcnimi metodami bomo našli algoritme, kot so npr. zaporedna izbira naprej (angl. incremental forward selection) (R. Ruiz, Riquelme & Aguilar-Ruiz, 2006), zaporedna izbira nazaj (angl. incremental backward elimination) (Potamias, Koumakis & Moustakis, 2004), izbira plus l – odstrani r (angl. plus q take-away r) (Ferri, Pudil, Hatef & Kittler, 1994) ter iskanje v snopu (angl. beam search) (Siedelecky & Sklansky, 1988). Predstavniki sluˇcajnih metod pa so npr. RHC (Skalak, 1994), EDA (Inza, Larrañaga, Etxeberria & Sierra, 2000) in simultano ohlajevanje (Stracuzzi, 2012). 3.4.3 Vgrajene metode Pri vgrajenih metodah je proces iskanja optimalne podmnožice spremenljivk sestavni del klasifikatorja. Izbiro spremenljivk opravimo med procesom uvršˇcanja. Pravimo, da optimalno rešitev išˇcemo v združenem prostoru spremenljivk in (uˇcnih) hipotez. Najbolj ilustrativen primer vgrajene metode so klasifikacijska drevesa (npr. CART (Breiman, Friedman, Olshen & Stone, 1984), C4.5 (Quinlan, 1993)), pri katerih za uvršˇcanje optimalno spremenljivko izberemo v vsakem vozlišˇcu drevesa posebej. Rešitev vgrajenih metod je odvisna od uporabljenega klasifikatorja. Raˇcunsko so manj zahtevne kot ovojne metode ter bolj odporne proti preprileganju. Poleg že omenjenih klasifikacijskih dreves k vgrajenim metodam uvršˇcamo še uteženi naivni Bayesov klasifikator (Duda, Hart & Stork, 2001), izbiro spremenljivk s pomoˇcjo metode podpornih vektorjev (Guyon, Weston, Barnhill & Vapnik, 2002; J. Zhu, Rosset, Hastie & Tibshirani, 2004) in logistiˇcne regresije (Cawley, Talbot & Girolami, 2007). 42 3.5 Mere za vrednotenje podmnožice izbranih spremenljivk Uˇcenje Izbira spremenljivk in ovrednotenje Ovrednotenje modela Slika 3.6: Postopek vgrajene metode 3.5 Mere za vrednotenje podmnožice izbranih spremenljivk Izbrana podmnožica spremenljivk mora zagotavljati optimalno diskriminativnost glede na odvisno spremenljivko. V nadaljevanju razdelka naredimo pregled razliˇcnih mer, s katerimi vrednotimo relevantnost in redundantnost podmnožice spremenljivk. Te pristope v grobem razdelimo na dve skupini: (i) mere, ki temeljijo na splošnih lastnostih podatkovja, in (ii) mere, ki za vrednotenje uporabijo klasifikacijsko pravilo. 3.5.1 Mere za vrednotenje podmnožice izbranih spremenljivk, ki temeljijo na splošnih lastnostih podatkovne tabele V to skupino postopkov uvršˇcamo mere za ocenjevanje relevantnosti posameznih spremenljivk in mere, ki so osnovane na primerjavi porazdelitev celotne in izbrane množice spremenljivk. Predstavljene mere so neodvisne od klasifikacijskega pravila in so sestavna komponenta filtracijskih metod (gl. razdelek 3.4.1). Rangiranje spremenljivk Rangiranje posameznih spremenljivk je najpreprostejši pristop k odstranjevanju nerelevantnih oz. redundantnih spremenljivk. Mere so raˇcunsko preproste, ne zahtevajo ocenjevanja gostote verjetnosti porazdelitev ter jih lahko brez posebnih omejitev uporabljamo tudi nad diskretnimi podatki. V to skupino postopkov uvršˇcamo raˇcunanje (i) linearne povezanosti med pari spremenljivk, (ii) vzajemno informacijo, s katero merimo nelinearno povezanost, ter (iii) simetriˇcno negotovost. Višja ko je vrednost mere, bolj redundantna je spremenljivka v paru. Nekatere spremenljivke postanejo relevantne šele ob prisotnosti drugih spremenljivk (gl. sliko 3.2a), zato je pri konˇcnem rangiranju to smiselno upoštevati; uporabimo lahko npr. metodologijo Relief (Kira & Rendell, 1992). 43 3 Izbira spremenljivk Razdalja med razredi Redundantnost spremenljivk merimo s pomoˇcjo razdalje med razredi posameznih primerov. Povpreˇcno razdaljo Jas med razredoma ω1 in ω2 bomo izraˇcunali po obrazcu Jas = 1 n1 n2 n1 n2 ∑ ∑ d ( xi , y j ) (3.3) i =1 j =1 za xi ∈ ω1 in yi ∈ ω2 . d( x, y) v (3.3) je razdalja med primeroma x in y, merjena s poljubno ˇ je razredov C > 2, se obrazec glasi metriko. Ce J= C 1 C Pr(ωi ) ∑ Pr(ω j ) Jas (ωi , ω j ), ∑ 2 i =1 j =1 (3.4) ˇ v (3.3) razdaljo med x in y merimo z kjer je Pr(wi ) apriorna verjetnost za razred ωi . Ce evklidsko metriko ter d( x, y) kvadriramo, dobimo (A. R. Webb & Copsey, 2011) ˆ ), J = J1 = sl(SW + S B ) = sl(Σ kjer je SW razpršenost znotraj razredov, S B pa razpršenost med razredi. Poiskati moramo tako podmnožico spremenljivk, za katero bo razpršenost znotraj razredov karseda majhna, med razredi pa karseda velika. V ta namen lahko uporabimo razliˇcne kriterije (A. R. Webb & Copsey, 2011), npr. −1 J2 = sl(SW S B ). Verjetnostna razdalja Verjetnostna razdalja meri razdaljo med porazdelitvama Pr( x | ω1 ) in Pr( x | ω2 ). Pri izbiri optimalne podmnožice spremenljivk išˇcemo tako verjetnostno razdaljo, da bodo razredi med seboj karseda oddaljeni. Za mero podobnosti lahko uporabimo npr. Chernoffovo, Bhattacharyyevo, Patrick-Fisherjevo mero razliˇcnosti ali pa Kullback-Leiblerjevo divergenco. Slednjo bomo izraˇcunali po obrazcu (A. R. Webb & Copsey, 2011) Z Pr( x | ω1 ) JD (ω1 , ω2 ) = [Pr( x | ω1 ) − Pr( x | ω2 )] log dx. (3.5) Pr( x | ω2 ) V primeru normalne porazdelitve lahko veˇcino mer izraˇcunamo analitiˇcno. Obrazec (3.5) se v tem primeru poenostavi v 1 JD = (µ2 − µ1 )T Σ1−1 + Σ2−1 (µ2 − µ1 ) + sl Σ1−1 Σ2 + Σ1−1 Σ2 − 2I . 2 V primeru veˇc razredov kriterijsko funkcijo izraˇcunamo za vse pare razredov in izberemo najdaljšo razdaljo (A. R. Webb & Copsey, 2011), J = max J (ωi , ω j ), i,j kjer je i 6= j. 44 3.6 Algoritmi za iskanje optimalne podmnožice spremenljivk Verjetnostna odvisnost Mere verjetnostne odvisnosti merijo razdaljo med pogojnimi gostotami razredov in skupno, mešano gostoto verjetnosti. ˇ sta gostoti Pr( x | ωi ) in Pr( x ) enaki, sta x in ωi med seboj neodvisna. Veˇcja ko je razdalja Ce med porazdelitvama, bolj je x odvisen od razreda ωi . Za mero razdalje lahko vzamemo npr. Chernoffovo, Bhattacharyyevo, Joshijevo ali Patrick-Fisherjevo mero razliˇcnosti (A. R. Webb & Copsey, 2011). Uporaba verjetnostne odvisnosti je v praksi omejena, saj razdalj ne moremo izraˇcunati analitiˇcno (A. R. Webb & Copsey, 2011).5 3.5.2 Mere za vrednotenje podmnožice izbranih spremenljivk, ki temeljijo na klasifikacijskem pravilu Stopnja napake V to skupino mer uvršˇcamo klasiˇcne mere kakovosti uvršˇcanja, kot so npr. toˇcnost uvršˇcanja, χ2 -preizkus, informacijski prispevek in razmerje obetov (Forman, 2003; Japkowicz & Shah, 2011). Oceno kakovosti uvršˇcanja merimo na neodvisni množici podatkov; cˇ e ta ni na voljo, pa lahko uporabimo preˇcno preverjanje, metodo pipca ali zankanje. 3.6 Algoritmi za iskanje optimalne podmnožice spremenljivk V splošnem loˇcimo tri skupine algoritmov za iskanje optimalne podmnožice spremenljivk: (i) popolno iskanje, (ii) zaporedno iskanje ter (iii) sluˇcajno iskanje. V nadaljevanju naredimo kratek pregled vseh treh skupin. 3.6.1 Popolno iskanje Kot primer popolnega iskanja bomo obravnavali algoritem razvejevanja in omejevanja. Razvejevanje in omejevanje Algoritem razmejevanja in omejevanja (angl. branch and bound) je naˇcin iskanja optimalne podmnožice spremenljivk, pri katerem ni treba preiskati celotnega prostora vseh možnih podmnožic. Algoritem zaˇcne s preiskovanjem prostora p spremenljivk ter gradi drevo z zaporednim izloˇcanjem spremenljivk. Za množici spremenljivk X in Y naj velja lastnost monotonosti6 X ⊂ Y ⇒ J ( X ) < J (Y ) , (3.6) 5 Tudi cˇ e so pogojne gostote verjetnosti po razredih normalne, se mešana gostota ne porazdeljuje normalno. ni nujno restriktivna (Narendra & Fukunaga, 1977). 6 Monotonost 45 3 Izbira spremenljivk kar pomeni, da mora biti vrednost kriterijske funkcije J, izraˇcunana nad podmnožico spremenljivk X, manjša kot vrednost kriterijske funkcije izraˇcunana nad množico Y. Algoritem bomo ilustrirali na primeru. Primer 12. V podatkovni tabeli imamo pet spremenljivk, izmed katerih bi radi izbrali tri najboljše. Postopek izbiranja spremenljivk bomo predstavili z drevesom, v katerem bodo vozlišˇca oznaˇcevala vse možne podmnožice s tremi, štirimi oz. petimi spremenljivkami (slika 3.7). (1, 2, 3, 4, 5) (2, 3, 4, 5) (1, 3, 4, 5) 0 (1, 2, 4, 5) (3, 4, 5) (2, 4, 5) (2, 3, 5) (2, 3, 4) (1, 4, 5) (1, 3, 5) (1, 3, 4) (1, 2, 5) (1, 2, 4) (1, 2, 3, 5) 1 (1, 2, 3) 2 Slika 3.7: Postopek izbiranja spremenljivk z algoritmom razvejevanja in omejevanja predstavimo z drevesom. Vozlišˇca ponazarjajo možne podmnožice s petimi, štirimi oz. tremi spremenljivkami. Drevo preiskujemo od najmanj gostega proti najbolj gostemu delu; v našem primeru torej od desne proti levi. Zaˇcnemo v vozlišˇcu {1, 2, 3} z vrednostjo kriterijske funkcije J = 77.2 (slika 3.8). Trenutno maksimalno vrednost kriterijske funkcije bomo shranili v J ∗ . Preko korenskega vozlišˇca se pomaknemo v vozlišˇce {1, 2, 4, 5}. V tem vozlišˇcu je vrednost kriterijske funkcije J (1, 2, 4, 5) veˇcja od J ∗ , zato nadaljujemo po drevesu navzdol, v vozlišˇce {1, 2, 4}. Vrednost kriterijske funkcije je manjša (J ({1, 2, 4}) = 76.2) od trenutnega maksimuma J ∗ . Premaknemo se v sosednje vozlišˇce {1, 2, 5}, v katerem kriterijska funkcija spet doseže maksimalno vrednost (J ∗ = 80.1). Vrnemo se v korensko vozlišˇce ter preiskovanje nadaljujemo v vozlišˇcu {1, 3, 4, 5}. Ker je vrednost kriterijske funkcije manjša od J ∗ , to vejo preskoˇcimo. Podobno se zgodi v vozlišˇcu {2, 3, 4, 5}, zato preiskovanje zakljuˇcimo. Optimalno podmnožico torej sestavljajo spremenljivke {1, 2, 5}. 92.1 76.7 60.9 0 80.4 80.1 76.2 81.6 1 77.2 2 Slika 3.8: Postopek izbiranja spremenljivk z algoritmom razvejevanja in omejevanja. V vozlišˇcih drevesa so predstavljene vrednosti kriterijske funkcije. Z opisanim postopkom zaradi lastnosti (3.6) ni bilo treba preiskati celotnega drevesa, vendar smo kljub temu dobili optimalno podmnožico treh spremenljivk. 46 3.6 Algoritmi za iskanje optimalne podmnožice spremenljivk 3.6.2 Zaporedno iskanje Popolnega iskanja (gl. razdelek 3.6.1) ni moˇc uporabiti v vsaki situaciji. Pri algoritmu razvejevanja in omejevanja namreˇc število pregledanih podmnožic raste eksponentno s številom spremenljivk, kar že ob širši podatkovni tabeli pomeni neobvladljiv problem. Poleg tega ni nujno, da v vseh vozlišˇcih drevesa velja predpostavka monotonosti. Zato popolno preiskovanje pogostokrat nadomestimo z zaporednim preiskovanjem. Pravimo, da so algoritmi zaporednega iskanja suboptimalni, saj preišˇcejo le tiste podmnožice spremenljivk, za katere upajo, da bo med njimi najbolj optimalna. Primeri zaporednega preiskovanja so npr. (A. R. Webb & Copsey, 2011) (i) najboljših N, (ii) (posplošena) zaporedna izbira naprej, (iii) (posplošena) zaporedna izbira nazaj, (iv) (posplošena) izbira plus l – odstrani r ter (v) postopki plavajoˇcega iskanja. V nadaljevanju si oglejmo prve tri pristope. Najboljših N Najboljših N (angl. best individual N) je eden od najpreprostejših in najpogosteje uporabljenih pristopov za iskanje optimalne podmnožice spremenljivk. Za vsako spremenljivko izraˇcunamo vrednost kriterijske funkcije (npr. t-test, kjer odvisno spremenljivko pomeni razred), nato pa glede na vrednost kriterija spremenljivke uredimo po velikosti, tako da je npr. J ( X1 ) ≥ J ( X2 ) ≥ · · · ≥ J X p . V podmnožico optimalnih spremenljivk uvrstimo prvih N spremenljivk z najboljšim dosežkom. Velikost podmnožice podamo s parametrom N. Kot alternativo opisanemu postopku lahko uporabimo metodo ugnezdenih podmnožic (Guyon, 2008), kjer so S1 = { X1 } , S2 = { X1 , X2 } , . . . , S p = { X1 , . . . , X p } . Za vsako podmnožico spremenljivk izraˇcunamo vrednost kriterijske funkcije in kot optimalno izberemo tisto podmnožico, ki ima karseda visoko vrednost kriterijske funkcije ter hkrati cˇ im manjše število spremenljivk. Zaporedna izbira naprej Zaporedna izbira naprej je algoritem iskanja od spodaj navzgor, ki v vsaki iteraciji v podmnožico doda po eno spremenljivko. Denimo, da imamo podmnožico d1 spremenljivk, ki jo oznaˇcimo z Xd1 ; Xd1 je na zaˇcetku prazna množica. Za vsako od spremenljivk ξ j ∈ X − Dd1 izraˇcunamo vrednost kriterijske funkcije Jj = J ( Xd1 + ξ j ). Spremenljivko z najvišjo vrednostjo kriterija nato uvrstimo v podmnožico Xd1 . Postopek nadaljujemo toliko cˇ asa, dokler se vrednost kriterija poveˇcuje, oz. ga ustavimo, ko dosežemo vnaprej izbrano število spremenljivk. Pomanjkljivost algoritma je mehanizem za odstranjevanje že izbranih spremenljivk. 47 3 Izbira spremenljivk Zaporedna izbira nazaj Jedro algoritma zaporedne izbire nazaj je podobno kot pri zaporedni izbiri naprej (gl. razdelek 3.6.2), le da postopek izbire spremenljivk poteka od zgoraj navzdol. Algoritem za vsako od ξ j spremenljivk iz polne množice X izraˇcuna vrednost kriterijske funkcije J ( X − ξ j ) ter izbere tisto spremenljivko, za katero je vrednost kriterija najveˇcja. Izbrano spremenljivko uvrsti v podmnožico { X − ξ j }. Postopek ponavljamo toliko cˇ asa, dokler ne dosežemo vnaprej doloˇcenega števila spremenljivk. Algoritem je raˇcunsko zahtevnejši od zaporedne izbire naprej, saj zaˇcnemo kriterijsko funkcijo raˇcunati nad polno množico spremenljivk. 3.6.3 Slučajno iskanje Sluˇcajno iskanje optimalne podmnožice spremenljivk uporabimo v dveh primerih: (i) ko obstaja nevarnost, da se algoritem popolnega oz. zaporednega preiskovanja ustavi v lokalnem ekstremu, in (ii) ko je prostor spremenljivk prevelik, da bi ga preiskovali s popolnimi oz. zaporednimi algoritmi. Podatkovno tabelo obiˇcajno sluˇcajimo tako, da po sluˇcaju izberemo manjše število spremenljivk. Prva možnost je, da po sluˇcajnem izboru spremenljivk nadaljujemo s katerim od algoritmov zaporednega preiskovanja. Primer je npr. algoritem simuliranega ohlajanja (angl. simulated annealing) (Stracuzzi, 2012). Algoritem izboljšuje zaˇcetno stanje tako, da v podmnožici del spremenljivk mutira; cˇ e je vrednost kriterijske funkcije po mutaciji višja kot pred mutacijo, novo stanje obdržimo, sicer pa ne. Druga možnost je ponavljanje sluˇcajenja, tako da v vsaki iteraciji sestavimo novo podmnožico spremenljivk. Po izbranem številu iteracij izberemo tisto podmnožico, pri kateri je vrednost kriterijske funkcije najvišja. 3.7 Stabilnost postopkov za izbiro spremenljivk Razliˇcni postopki izbire spremenljivk lahko vrnejo moˇcno razliˇcne podmnožice spremenljivk. Še veˇc, isti postopek, ponovljen nad isto podatkovno tabelo, a s spremenjenim sluˇcajnim semenom, praviloma vraˇca razliˇcne podmnožice. Ta uˇcinek je izrazit zlasti v obrnjenih podatkovnih tabelah, kjer je p >> n. Stabilnost oz. robustnost metode za izbor spremenljivk definiramo kot razpršenost v podmnožicah izbranih spremenljivk ob ponovljenih poskusih (Pengyi Yang, Zhou, Yang & Zomaya, 2013). Stabilnost je za dobro interpretativnost rešitve prav tako pomembna kot visoka kakovost uvršˇcanja. 48 3.7 Stabilnost postopkov za izbiro spremenljivk Merjenje stabilnosti rešitev Stabilnost st obiˇcajno merimo s podobnostjo med pari razliˇcnih podmnožic spremenljivk po obrazcu (Saeys, Abeel & Peer, 2008; Pengyi Yang in sod., 2013) st = 2 ∑ik=−11 ∑kj=i+1 S( f i , f j ) k ( k − 1) , kjer je k število razliˇcnih podatkovnih množic, f i rešitev, ki jo ponuja i-ta metoda (oz. i-ta sluˇcajna podmnožica spremenljivk), ter S( f i , f j ) podobnost med rešitvama f i in f j . Kot mero podobnosti med pari rešitev lahko npr. uporabimo Jaccardov koeficient (Pengyi Yang in sod., 2013) | fi ∩ f j | S( f i , f j ) = | fi ∪ f j | ali pa Spearmanov koeficient korelacije rangov (Pengyi Yang in sod., 2013), ki ga izraˇcunamo po obrazcu 2 N f il − f jl S( f i , f j ) = 1 − 6 ∑ , n ( n2 − 1) l =1 kjer sta f il in f jl izraˇcunana ranga za spremenljivko l za metodo i oz. metodo j, n pa oznaˇcuje število spremenljivk. 49 4 Sestavljanje spremenljivk 4.1 Uvod Sestavljanje spremenljivk je postopek transformacije merskih spremenljivk, v katerem z (ne)linearnimi kombinacijami doloˇcimo manjše število novih, latentnih spremenljivk (H. Liu & Motoda, 1998). Latentne spremenljivke konstruiramo tako, da karseda optimalno povzamemo informacijo, ki jo ponujajo merske spremenljivke. V domenskem jeziku bi natanˇcneje rekli, da želimo poiskati tako projekcijo podatkovne tabele, da bo vrednost kriterijske funkcije karseda visoka. Kot kriterijsko funkcijo lahko npr. izberemo koliˇcino informacije, ki jo z zmanjšanjem podatkovnega prostora ohranimo. Glavna ideja linearnega krˇcenja razsežnosti z doloˇcanjem latentnih spremenljivk temelji na projekciji merskih spremenljivk X1 , X2 , . . . , X j v nižjerazsežni prostor sestavljenih spremenljivk Z1 , Z2 , . . . , Zj s pomoˇcjo linearne transformacije Φ. Z Z1 , Z2 , . . . , ZM oznaˇcimo M < p linearnih kombinacij p merskih spremenljivk, tako da je p Zm = ∑ φjm Xj j =1 za izbrane konstante φ1m , φ2m , . . . , φ pm , m = 1, . . . , M (James, Witten, Hastie & Tibshirani, 2013). Nadzorovane metode krˇcenja transformacijsko matriko Φ optimizirajo tako, da upoštevajo porazdelitev odvisne spremenljivke, nenadzorovane metode pa ne. Primer 13. Na sliki 4.1 je prikazan rezultat krˇcenja razsežnosti podatkovne tabele z doloˇcanjem pomembnih latentnih spremenljivk. 11 merskih spremenljivk smo nadomestili z dvema obteženima vsotama. S postopkom krˇcenja smo ohranili 55 % celotne razpršenosti merskih spremenljivk ter lepo razkrili strukturo podatkovja. 4.2 Latentne spremenljivke Uveljavljeni uˇcbeniki s podroˇcja sodobnih statistiˇcnih metod (npr. Hastie in sod., 2011, James in sod., 2013, R. A. Johnson & Wichern, 2007, A. R. Webb & Copsey, 2011) ter specializirane monografije (npr. Bartholomew in sod., 2011) doloˇcanje latentnih spremenljivk obravnavajo izkljuˇcno v navezavi na nenadzorovano uˇcenje. Glede na tip vhodnih in izhodnih spremenljivk so Bartholomew in sod. (2011) metode za analizo latentnih spremenljivk razdelili v štiri kategorije (tabela 4.1). Nas bo zanimala le kombinacija 51 4 Sestavljanje spremenljivk 4 ● Razred ● Z2 2 0 −2 ● ● 1 ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● 2 ●●●● ● ● ●● ● ● ●● ●●●●● ● ● ● ● ● ● ● 3 ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ●●● ● ●● ●● ● ● ●● ●● ● ●● ● ● ● ●●● ● ●● ●● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● −2.5 0.0 Z1 2.5 Slika 4.1: Krˇcenje razsežnosti podatkovne tabele z doloˇcitvijo sestavljenih spremenljivk. Podatkovje obsega 11 merskih spremenljivk, ki smo jih z eno od metod dolocˇ anja znaˇcilk projicirali v nov koordinatni sistem. Kljub moˇcno zmanjšanemu obsegu podatkovja lepo prepoznamo njegovo notranjo strukturo. Barva primerov oznaˇcuje pripadnost razredu. Prikaz je narejen za podatkovje wine.data s spletnega podatkovnega skladišˇca UCI Machine Learning Repository. številskih merskih spremenljivk in številskih latentnih spremenljivk, med katerimi je najbolj znana družina postopkov faktorske analize.1 Tabela 4.1: Razvrstitev metod za analizo latentnih spremenljivk Merska Latentna Številska Diskretna Številska Faktorska analiza Analiza latentnih potez Diskretna Analiza latentnih profilov Analiza latentnih razredov V podatkovni analitiki pogosto naletimo na situacijo, ko v ozadju (kompleksnega) modeliranega fenomena (ki ga obiˇcajno opisujemo v mnogorazsežnem prostoru) leži manjše število latentnih spremenljivk, ki so za opis tega fenomena zadostne (Bartholomew in sod., 2011; Everitt, 1984). Primer 14. Obravnavajmo problem interpretacije preproste 2 × 2 kontingenˇcne tabele. Primer je prirejen po Bartholomew in sod. (2011). Denimo, da sestavimo vzorec 1000 pacientov. V spremenljivko A bomo shranili paciente, ki kadijo, v spremenljivko B pa paciente, ki so oboleli za rakom pljuˇc. Urejeni podatki so prikazani v tabeli 4.2. Pokažemo lahko, da sta obe spremenljivki med seboj razmeroma moˇcno povezani; Yulov koeficient korelacije (Agresti, 2013) med njima znaša 1 Kot najbolj preprosto metodo faktorske analize v nadaljevanju obravnavamo analizo glavnih komponent. Dober pregled nad vsemi štirimi sklopi metod ponujajo npr. Bartholomew in sod., 2011, ali Bartholomew, 2013. 52 4.2 Latentne spremenljivke Q = 0.3. Pri kadilcih znaša verjetnost obolenja za rakom pljuˇc Pr( B | A) = 0.7, pri nekadilcih pa Pr( B | A{ ) = 0.4. Tabela 4.2: Kontingenˇcna tabela z dvema spremenljivkama B B{ Total A A{ Total 350 150 500 200 300 500 550 450 1000 Zdaj uvedemo še tretjo spremenljivko, nivo izobrazbe; s C oznaˇcimo paciente z nizko stopnjo izobrazbe, s C{ pa tiste z visoko stopnjo. Razdelitev je prikazana v tabeli 4.3. Tabela 4.3: Kontingenˇcna tabela s tremi spremenljivkami C{ C B B{ Total A A{ Total A A{ Total 320 80 400 80 20 100 400 100 500 30 70 100 120 280 400 150 350 500 Ob pregledu tabele opazimo, da znaša povezanost med spremenljivkama A in B glede na spremenljivko C natanko Q = 0. Zato reˇcemo, da sta spremenljivki A in B glede na spremenljivko C med seboj neodvisni. Kljub temu je vzorec povezanosti med skupinama razliˇcen. V skupini C znašata verjetnosti dogodkov Pr( B | A) = 0.8 oz. Pr( B | A{ ) = 0.8, medtem ko sta verjetnosti istih dogodkov pri višje izobraženih Pr( B | A) = 0.30 in Pr( B | A{ ) = 0.3. Tabelo 4.2 smo razcepili na dve manjši podtabeli (tabela 4.3), tako da sta spremenljivki A in B postali med seboj neodvisni. Pravimo, da smo poiskali latentno spremenljivko (oz. skupni faktor), s katero lahko pojasnimo izvorno korelacijo med spremenljivkama A in B. Problem doloˇcanja latentnih spremenljivk bomo opisali takole. Denimo, da imamo vzorec { xi }in=1 d-razsežnih realnih vektorjev. Predpostavka, ki jo bomo privzeli, je, da vzorec podatkovnih toˇck leži v podprostoru (mnogoterosti), v katerem je število razsežnosti mnogo manjše od d. Cilj zmanjševanja razsežnosti podatkovja je zato poiskati nov koordinatni sistem, ki bo omogoˇcal karseda dobro projekcijo podatkovnih vektorjev na manjše število razsežnosti. Problem krˇcenja razsežnosti ilustrirajmo na primeru. Primer 15. Na sliki 4.2 smo enorazsežno nelinearno mnogoterost M v trirazsežnem prostoru (tj. spiralo s polmerom R in korakom s) parametrizirali s parametrom t, formalno M = x ∈ R3 : x = f ( t ) , t ∈ [ t A , t B ] , kjer je f(t) = ( R sin 2πt, R cos 2πt, st)T . V nadaljevanju se bomo ukvarjali samo z linearnimi mnogoterostmi. 53 4 Sestavljanje spremenljivk B M 1 A 0.5 1 0 −1 −0.5 0 0 0.5 1 −1 (a) tA tB (b) Slika 4.2: Predstavitev enorazsežne nelinearne mnogoterosti M v trirazsežnem prostoru (a) s segmentom spirale t ∈ [t A , t B ] (b) 4.3 Intrinzična razsežnost podatkovne tabele Število merskih spremenljivk je obiˇcajno precej veˇcje od števila razsežnosti, ki so (nujno) potrebne za opis modeliranega fenomena. V problemih, kjer je število podatkovnih toˇck manjše od števila razsežnosti, število prvih narekuje maksimalno število razsežnosti podprostora. Pogosto podatki vsebujejo take spremenljivke, ki so za dani problem nerelevantne. Še pogosteje pa najdemo pare spremenljivk, ki so v moˇcni medsebojni korelaciji. Reˇcemo, da je intrinziˇcna razsežnost podatkovne tabele število stopenj prostosti, ki je zadostno za opis prouˇcevanega problema (J. A. Lee & Verleysen, 2007). Pravilna ocena intrinziˇcne razsežnosti je zlasti pomembna v tistih statistiˇcnih aplikacijah, ki imajo za cilj cˇ im bolj natanˇcen opis podatkovja s cˇ im manjšo izgubo informacije. V aplikacijah, ki so namenjene prikazovanju podatkov, je število dopustnih razsežnosti obiˇcajno vnaprej omejeno, zato lahko ta problem izpustimo. Primer 16. Za poljubno izbrano podatkovno toˇcko A lahko preštejemo vse sosednje toˇcke C A (e), ki ˇ so toˇcke v prostoru posejane dovolj gosto, lahko priˇcakujemo, so od toˇcke A oddaljene za najveˇc e. Ce ˇ je da se bo koliˇcina Ci (e) poveˇcevala z ed , pri cˇ emer je d intrinziˇcna razsežnost podatkovja. Ce n število podatkovnih toˇck omejeno, je C (e) = ∑i=1 Ci (e). Grassberger in Procaccia (1983) sta definirala 1 × število parov xi , x j za katere je xi − x j < e , n → ∞ n ( n − 1) C (e) = lim 54 (4.1) 4.4 Pregled postopkov za doloˇcanje intrinziˇcne razsežnosti kjer je n število fiksnih, vnaprej podanih podatkovnih toˇck. Intrinziˇcno razsežnost ν sta ocenila z naklonom log(C (e)) kot funkcijo log(e). Na sliki 4.3 je prikazana sfera, na kateri smo sluˇcajne podatkovne toˇcke porazdelili tako, da je gostota porazdelitve veˇcja na obeh temenih. Slika 4.3: Toˇcke na sferi smo porazdelili tako, da je gostota porazdelitve veˇcja na obeh temenih sfere Po (4.1) izraˇcunajmo vrednost statistike C (e) za e na intervalu [0, 1). Odnos med obema koliˇcinama je prikazan na sliki 4.4. Regresijski nagib znaša β = 1.78. Na sliki je v okolici vrednosti e = 0.01 opazno popaˇcenje med dejanskimi in napovedanimi vrednostmi, kar gre na raˇcun zgostitve porazdelitve toˇck v obeh temenih sfere. Za prvih 100 podatkovnih toˇck je zato regresijski nagib β 100 = 1.84 nekoliko višji. Zakljuˇcimo, da znaša intrinziˇcna razsežnost sluˇcajnega podatkovja ν = 2. log(C(ε)) −1 −3 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●●● ●●● ●●● ●●● ● ● ● ●● ●● ●● ●● ●● ●● ●● ● ● −2 −1 log(ε) 0 Slika 4.4: Odnos med log(e) in log(C (e)) za podatkovje na sliki 4.3. Modra cˇ rta oznaˇcuje premico najboljšega prileganja. 4.4 Pregled postopkov za določanje intrinzične razsežnosti V tem razdelku naredimo kratek pregled postopkov za doloˇcanje intrinziˇcne razsežnosti podatkovne tabele. Pregled seveda ni popoln, je pa za naše potrebe dovolj izˇcrpen.2 V 2 Bralec, ki ga podroˇcje podrobneje zanima, bo veˇc sklicev na literaturo našel v Camastra (2003). 55 4 Sestavljanje spremenljivk pregledu loˇcujemo med globalnimi in lokalnimi (topološkimi) pristopi k ocenjevanju intrinziˇcne razsežnosti (Jain & Dubes, 1988). 4.4.1 Lokalne cenilke Denimo, da v podatkovnem prostoru izberemo poljubno toˇcko in jo oznaˇcimo z A. A naj bo središˇce hipersfere s polmerom r. V hipersfero vložimo najbližje sosede toˇcke A. Lokalne cenilke intrinziˇcne razsežnosti temeljijo na predpostavki, da število sosedov raste sorazmerno z r d , pri cˇ emer je d intrinziˇcna razsežnost mnogoterosti okoli toˇcke A. Poslediˇcno lahko intrinziˇcno razsežnost ocenimo s preštevanjem števila podatkovnih toˇck v hipersferi. Postopek obiˇcajno ponovimo še na ostalih podatkovnih toˇckah. V nadaljevanju predstavimo tri lokalne pristope: (i) korelacijsko razsežnost, (ii) najbližje sosede in (iii) najveˇcje verjetje. Korelacijska razsežnost Ocenjevanje korelacijske razsežnosti je ena od najpreprostejših metod za doloˇcitev optimalne intrinziˇcne razsežnosti (Grassberger & Procaccia, 1983). Relativno število fiksnih podatkovnih toˇck, ki so vložene v hiperkroglo s polmerom r, definiramo s korelacijskim integralom (gl. primer 16) n n 2 I k xi − x j k ≤ r , ∑ ∑ n → ∞ n ( n − 1) i =1 j = i +1 C (r ) = lim kjer je I indikatorska funkcija. Ker je vrednost korelacijskega integrala C (r ) sorazmerna z r d , lahko intrinziˇcno razsežnost d izraˇcunamo kot limito log C (r ) d = lim . (4.2) r →0 log r Limite v (4.2) eksplicitno ne moremo izraˇcunati. Grassberger in Procaccia (1983) sta zato predlagala direktno oceno (4.2), po kateri je d smerni koeficient razmerja med log C (r ) in log r. V praksi se je uveljavil tudi pristop, ki sta ga predlagala Camastra in Vinciarelli (2001); oceno intrinziˇcne razsežnosti v tem primeru izraˇcunamo s pomoˇcjo dveh poljubno izbranih polmerov r1 in r2 po obrazcu log(C (r2 ) − C (r1 )) dˆ = . log(r2 − r1 ) V literaturi najdemo nekaj razširitev metode, ki omogoˇcajo oceno korelacijske razsežnosti. Takensov (1985) pristop npr. na osnovi Fisherjeve metode najveˇcjega verjetja omogoˇci oceno korelacijske razsežnosti skupaj s pripadajoˇco standardno napako. 56 4.4 Pregled postopkov za doloˇcanje intrinziˇcne razsežnosti Metoda najbližjih sosedov Cenilka po metodi najbližjih sosedov izraˇcuna najmanjši polmer r hipersfere, ki je zadosten za vložitev k najbližjih sosedov. Izraˇcunamo C (k) = 1 n ∑ Tk (xi ), i kjer je Tk ( xi ) polmer najmanjše hipersfere s središˇcem v podatkovni toˇcki xi , ki vkljuˇcuje k najbližjih sosedov. Podobno kot pri korelacijski razsežnosti intrinziˇcno razsežnost izraˇcunamo po obrazcu log(C (k2 ) − C (k1 )) dˆ = . log(k2 − k1 ) V nadaljevanju na kratko opišimo tri algoritme, ki temeljijo na metodi najbližjih sosedov. Najpreprostejši pristop je predlagal Trunk (1976). Vsakemu primeru v podatkovni tabeli poišˇcemo k najbližjih sosedov. Nato konstruiramo podprostor, ki ga razpenjajo vektorji vseh primerov do njegovih k najbližjih sosedov. V naslednjem koraku izraˇcunamo kot med podprostorom za i-ti primer in njegovimi (k + 1) najbližjimi sosedi. Intrinziˇcna razsežnost je enaka k, cˇ e je povpreˇcje kotov manjše od vnaprej izbrane pražne vrednosti. V nasprotnem primeru parameter k poveˇcamo za 1 in postopek raˇcunanja kotov ponovimo. Arbitrarna izbira pražne vrednosti je glavna pomanjkljivost te metode. Pettis, Bailey, Jain in Dubes (1979) so predlagali izboljšavo Trunkovega algoritma. Avtorji so predpostavili enakomerno porazdelitev spremenljivk v podatkovju ter ocenili intrinziˇcno razsežnost na osnovi obrazca dˆ = µk , ( µ k +1 − µ k ) k kjer je µk aritmetiˇcna sredina razdalj med primeri in njegovimi k najbližjimi sosedi. Izkaže pa se, da je cenilka, tudi pri majhnih razsežnostih, pristrana (Camastra, 2003). Verveer in Duin (1995) sta kot izboljšavo predlagala neiterativni algoritem, ki za oceno intrinziˇcne razsežnosti uporabi linearno regresijo. Oba zadnja algoritma sta moˇcno obˇcutljiva za podatkovne osamelce (Camastra, 2003). Metoda največjega verjetja Podobno kot korelacijska razsežnost in metoda najbližjih sosedov tudi cenilka po metodi najveˇcjega verjetja modelira število podatkovnih toˇck, vloženih v hipersfero (Levina & Bickel, 2005). Primere znotraj hipersfere obravnavamo kot homogen Poissonov proces, cenilko za intrinziˇcno razsežnost pa dobimo z maksimizacijo funkcije logaritma verjetja. Podrobno izpeljavo cenilke bo bralec našel v Levina in Bickel (2005). Intrinziˇcno razsežnost d okoli podatkovne toˇcke xi za k najbližjih sosedov izraˇcunamo po obrazcu " # −1 k −1 1 T ( x ) i k dˆk ( xi ) = log , k − 1 j∑ Tj ( xi ) =1 57 4 Sestavljanje spremenljivk kjer sta Tk (xi ) in Tj (xi ) evklidski razdalji med xi in k-tim oz. j-tim najbližjim sosedom. Izraˇcun ponovimo za vse podatkovne toˇcke znotraj hipersfere ter izraˇcunamo povpreˇcno razsežnost za k najbližjih sosedov po obrazcu 1 n dˆk = ∑ dk ( xi ). n i =1 Postopek ponovimo za m vnaprej izbranih vrednosti k. Intrinziˇcna razsežnost podatkovne tabele je potem 1 m ˆ dk . (4.3) dˆ = m i∑ =1 Cenilka (4.3) je pristrana; ustrezno obliko nepristrane cenilke z modifikacijo parametra m bo bralec našel v Levina in Bickel (2005). 4.4.2 Globalne cenilke Za razliko od lokalnih pristopov globalne metode intrinziˇcno razsežnost ocenijo v enem koraku nad celotno podatkovno tabelo. V nadaljevanju bomo predstavili tri globalne pristope: (i) lastne vrednosti, (ii) paketno število in (iii) GMST-cenilko. Lastne vrednosti Metoda temelji na raˇcunanju lastnih vrednosti kovarianˇcne matrike s pomoˇcjo spektralnega razcepa. Lastne vrednosti ponujajo informacijo o razpršenosti, ki jo pojasnijo pripadajoˇci lastni vektorji (Jolliffe, 2002; Kirby, 2001). Prvih d lastnih vrednosti obiˇcajno moˇcno odstopa od ostalih. Oceno intrinziˇcne razsežnosti pomeni število lastnih vrednosti, katerih vrednost je višja od izbrane pražne vrednosti e. Cenilka po metodi lastnih vrednosti je pristrana (slika 4.5), saj je ocenjeno število intrinziˇcne razsežnosti višje od dejanskega (Bishop, 1995). Paketno število Metoda števila paketov je zgrajena na predpostavki, da je r-prekrivno število N (r ) sorazmerno z r −d (Kégl, 2002). Število N (r ) oznaˇcuje število hipersfer s polmerom r, ki jih potrebujemo za prekritje vseh podatkovnih toˇck v podatkovni tabeli. V splošnem je intrinziˇcna razsežnost podatkovne tabele definirana kot log N (r ) . r →0 log r d = − lim Ker je iskanje r-prekrivnega števila N (r ) v danem podatkovju raˇcunsko nemogoˇce opravilo, pri izraˇcunu vpeljemo število M (r ). Število M (r ) oznaˇcuje najveˇcje število toˇck 58 4.4 Pregled postopkov za doloˇcanje intrinziˇcne razsežnosti y v u x Slika 4.5: Podatkovje Ω sestavljajo podatkovne toˇcke, ki ležijo na zgornjem obsegu krožnice z enaˇcbo x2 + y2 = 1. Metoda lastnih vrednosti predlaga dve intrinziˇcni razsežnosti (u in v), cˇ eprav je dejansko število razsežnosti enako 1. v podatkovni tabeli, ki jih lahko vložimo v hipersfero s polmerom r. Za ne preširoke podatkovne tabele lahko intrinziˇcno razsežnost izraˇcunamo kot d = − lim r →0 log M (r ) . log r Ker limite eksplicitno ne moremo izraˇcunati, intrinziˇcno razsežnost ocenimo s pomoˇcjo dveh poljubno izbranih polmerov r1 in r2 po obrazcu log( M (r2 ) − M (r1 )) . dˆ = log(r2 − r1 ) GMST-cenilka Cenilka GMST (angl. geodesic minimal spanning tree) temelji na predpostavki, da je funkcija dolžine minimalno vpetega drevesa odvisna od intrinziˇcne razsežnosti d (Costa & Hero, 2004). Funkcija dolžine v drevesu je vsota evklidskih razdalj, ki ustrezajo povezavam v geodeziˇcnem minimalno vpetem drevesu. Algoritem GMST konstruira graf sosedov G nad podatkovno tabelo, v katerem je vsaka podatkovna toˇcka xi povezana s k najbližjimi sosedi xi j . Geodeziˇcno minimalno vpeto drevo T je definirano kot minimalni graf nad podatkovno tabelo X, katere dolžina je enaka L( X ) = min ∑ ge , T ∈T e∈ T kjer je T množica vseh dreves, ki jih lahko konstruiramo nad G, e povezava v drevesu T, ge pa evklidska razdalja, ki ustreza povezavi e. Cenilka GMST konstruira razliˇcne podmnožice A ⊂ X z m elementi ter za vsako izraˇcuna dolžino L( A). Razmerje log( L( A))/log(m) 59 4 Sestavljanje spremenljivk je linearno, zato ga lahko ocenimo z linearno regresijo. Cenilka za intrinziˇcno razsežnost je potem 1 dˆ = , 1 − β0 kjer je β 0 prvi regresijski parameter. 4.5 Pregled metod za sestavljanje spremenljivk 4.5.1 Analiza glavnih komponent Analiza glavnih komponent (angl. principal component analysis, PCA) je najpogosteje uporabljena linearna metoda krˇcenja podatkovne tabele. Osnovo zanjo je razvil Pearson (1901), dodelal pa Hotelling (1933). Metoda je intuitivna in preprosta za uporabo, za njeno raˇcunanje pa imamo na voljo hitre algoritme. Dober pregled teoretiˇcnega ozadja in napotkov za uporabo ponuja Jolliffe (2002). PCA p medsebojno koreliranih merskih spremenljivk nadomesti s k nekoreliranimi obteženimi vsotami oz. glavnimi komponentami, tako da je 1 ≤ k ≤ p. Doloˇcimo lahko toliko glavnih komponent, kot je merskih spremenljivk, vendar se v standardni aplikaciji obiˇcajno omejimo le na prvih k komponent, ki pojasnijo karseda velik delež razpršenosti merskih spremenljivk. Primer 17. Razsevni diagram na sliki 4.6 prikazuje porazdelitev vrednosti dveh sluˇcajnih spremenljivk, na osnovi katerih smo izdelali dve glavni komponenti. Prva komponenta je oznaˇcena s polno, druga komponenta pa s cˇ rtkano cˇ rto. Prva komponenta se prilega korelacijskemu oblaku v smeri najveˇcje razpršenosti. Vsota kvadriranih razdalj med glavno komponento in posameznimi toˇckami je najmanjša možna. Obenem to pomeni, da je razpršenost projekcij podatkovnih toˇck na glavno komponento najveˇcja možna. Reˇcemo tudi, da prva glavna komponenta ustreza linearni kombinaciji z najveˇcjo razpršenostjo. Preostanek razpršenosti pojasni druga glavna komponenta. V nadaljevanju razdelka bomo prikazali postopek izraˇcuna glavnih komponent. Merske spremenljivke oznaˇcimo z x1 , . . . , x p , z ξ i , i = 1, . . . , p pa njihove linearne kombinacije p ξi = ∑ aij x j oz. ξ = A0 X, j =1 kjer je A matrika uteži. Najprej obravnavajmo prvo linearno kombinacijo ξ 1 p ξ 1 = a11 x1 + a12 x2 + . . . + a1q xq = ∑ a1j x j . j =1 Prvi glavni komponenti ξ 1 je treba poiskati take uteži a1 = ( a11 , a12 , . . . , a1p )0 , da bo njena razpršenost karseda velika. Razpršenost komponente seveda raste s poveˇcevanjem vrednosti uteži; da je problem enoliˇcno rešljiv, zato dodamo še pogoj a1T a1 = 1. 60 4.5 Pregled metod za sestavljanje spremenljivk ● 2 ● ● ● ● 1 ● ● ● ● ●● X2 ● ● 0 ● ● ● ● ● ● −1 ● −2 −2 −1 0 X1 1 2 Slika 4.6: Glavni komponenti dveh sluˇcajnih spremenljivk. Polna cˇ rta oznaˇcuje prvo, cˇ rtkana pa drugo glavno komponento. Iz osnov statistike se spomnimo (gl. npr. R. A. Johnson & Wichern, 2007), da je razpršenost komponente ξ 1 enaka Var(ξ 1 ) = E ξ 12 − E [ξ 1 ]2 h i h i h i = E a1T xx T a1 − E a1T x E x T a1 h i h i = a1T E xx T − E [ x ] E x T a1 = a1T Σa1 kjer je Σ kovarianˇcna matrika merskih spremenljivk. Za maksimizacijo funkcije veˇc spremenljivk ob dodatnih omejitvah obiˇcajno uporabimo metodo Lagrangeevih multiplikatorjev (Jolliffe, 2002; Morrison, 2004). Iskanje stacionarne vrednosti a1T Σa ob pogoju a1T a1 = 1 zato prevedemo na iskanje stacionarne vrednosti brez pogoja f ( a1 ) = a10 Σa1 − ν( a10 a1 − 1), (4.4) kjer je ν Lagrangeev multiplikator. ν in a1 , za katera bo imela funkcija (4.4) najveˇcjo vrednost, sta rešitvi postavljenega problema. S parcialnimi odvodi nato dobimo Σa1 − νa1 = 0. (4.5) Za vektor uteži a1 so smiselne le netrivialne rešitve. Ker je razpršenost prve glavne komponente enaka a10 Σa1 = νa1T a1 = ν, bomo za ν vzeli najvišjo lastno vrednost λ1 , vektor uteži a1 pa bo njen lastni vektor. Druga glavna komponenta je linearna kombinacija ξ 2 = a21 x1 + a22 x2 + . . . + a2q xq . (4.6) 61 4 Sestavljanje spremenljivk Uteži a2 v (4.6) izberemo tako, da je razpršenost linearne kombinacije karseda velika, ob pogojih a20 a2 = 1 a20 a1 = 0. (4.7) Zadnja omejitev v (4.7) implicira, da sta spremenljivki ξ 1 in ξ 2 med seboj nekorelirani: E [ξ 2 ξ 1 ] − E [ξ 2 ] E [ξ 1 ] = 0 oz. a20 Σa1 = 0. (4.8) Ker je a1 v (4.8) lastni vektor matrike Σ, je (4.8) enak a2T a1 = 0, kar pomeni, da sta a2 in a1 med seboj ortogonalna. Optimalne uteži a2 podobno kot zgoraj doloˇcimo s pomoˇcjo Lagrangeevih multiplikatorjev in parcialnega odvajanja. Glavna komponenta j je linearna kombinacija ξ j = a Tj X z omejitvama a Tj a j = 1 a Tj ai = 0 ( i < j ). V splošnem je vektor uteži a j za j-to glavno komponento lastni vektor matrike Σ, ki ˇ q lastnih vrednosti oznaˇcimo z λ1 , . . . , λq , lahko ustreza j-ti najveˇcji lastni vrednosti. Ce T ob omejitvi ai ai = 1 pokažemo, da je razpršenost i-te glavne komponente natanko λi . Razpršenost vseh glavnih komponent je enaka razpršenosti merskih spremenljivk, tako da je p ∑ λi = σ12 + σ22 + · · · σp2 , i =1 s2i kjer je razpršenost spremenljivke xi . Glavna komponenta j pojasni Pj -ti del celotne razpršenosti podatkovne tabele, kjer je Pj = λj . sl(Σ) Prvih m glavnih komponent (m < q) pojasni P(m) -ti del celotne razpršenosti, kjer je P(m) = ∑m j =1 λ j . sl(Σ) 4.5.2 Večrazsežno lestvičenje Veˇcrazsežno lestviˇcenje (angl. multidimensional scaling) je družina algoritmov za krˇcenje podatkovnih tabel in vizualizacijo podatkov (Borg & Groenen, 2005; T. F. Cox & Cox, 2001). Cilj veˇcrazsežnega lestviˇcenja je izdelati predstavitev podatkovne tabele v nižjerazsežnem prostoru, pri tem pa cˇ im bolj ohraniti razdalje med pari podatkovnih toˇck. 62 4.5 Pregled metod za sestavljanje spremenljivk V nadaljevanju si najprej oglejmo klasiˇcno lestviˇcenje (Torgerson, 1952), ki temelji na spektralnem razcepu matrike razdalj in je zelo podobno postopku PCA (gl. razdelek 4.5.1). Nato naredimo kratek vpogled v lestviˇcenje razdalj. Slednji pristop združuje metriˇcno in nemetriˇcno lestviˇcenje. Pri prvem so razdalje med podatkovnimi objekti definirane na razmiˇcnem oz. razmernostnem merskem nivoju, pri drugem pa na urejenostnem nivoju. Klasično lestvičenje Denimo, da imamo n podatkovnih toˇck x1 , . . . , xn ∈ R p , na osnovi katerih izraˇcunamo matriko razdalj ∆ = (δij ). Oddaljenost med toˇckama i in j je (obiˇcajno) definirana z evklidsko razdaljo ( δij = k xi − x j k = Iz obrazca (4.9) sledi p ∑ (xik − x jk )2 )1/2 . (4.9) k =1 δij2 = k xi k2 + k x j k2 − 2xiT x j . (4.10) 2 − δ2 ), kjer je δ2 = k x k2 kvadrirana oddaljenost toˇ Naj bo bij = xiT x j = − 21 (δij2 − δi0 cke i j0 i0 xi od izhodišˇca. Ko (4.10) seštejemo preko vseh i in j, dobimo med drugim naslednje identitete (Izenman, 2008) 2 2 n−1 ∑ δij2 = n−1 ∑ δi0 + δj0 , i n −1 ∑ i δij2 = 2 δi0 j 2 + n−1 ∑ δj0 , (4.11) j 2 n−2 ∑ ∑ δij2 = 2n−1 ∑ δi0 , i j i ki jih vstavimo v (4.10) in dobimo bij = aij − ai. − a.j + a.. , kjer so 1 1 aij = − δij2 , ai. = 2 n n ∑ aij , j =1 a.j = 1 n 1 ∑ aij in a.. = n2 ∑ ∑ a2ij . i i j Elemente aij in bij shranimo v matriki A = ( aij ) in B = (bij ). Velja, da je B = HAH, kjer je H = In − n−1 Jn odklonska matrika, Jn pa matrika enic razsežnosti n × n. Matriki B pravimo tudi dvojna odklonska matrika. V praksi se zgodi, da matrika B ni pozitivno semidefinitna; ta problem obiˇcajno rešimo tako, da zavržemo vse negativne lastne vrednosti (T. F. Cox & Cox, 2001). Klasiˇcni algoritem lestviˇcenja temelji na spektralnem razcepu matrike B, na osnovi katerega izdelamo q glavnih koordinat y1 , . . . , yn ∈ Rq , q < p. Glavne koordinate izberemo tako, da so razdalje d2ij = kyi − y j k2 = (yi − y j )T (yi − y j ) 63 4 Sestavljanje spremenljivk cˇ im bolj podobne razdaljam v matriki ∆. Zanima nas torej tista q-razsežna predstavitev p-razsežnega podatkovja, pri kateri bodo reproducirane razdalje v kar najveˇcji meri ohranjene (gl. primer 18). Jedro postopka je podrobneje predstavljeno v algoritmu 1. Primer 18. Na sliki 4.7 smo v cˇ rni barvi prikazali dejanske zemljepisne dolžine in širine devetih izbranih mest v ZDA. Na osnovi koordinat mest smo izraˇcunali matriko razliˇcnosti ter nad njo pognali klasiˇcno veˇcrazsežno lestviˇcenje. Cilj naloge je bil karseda dobro reproducirati koordinate mest. Reproducirane koordinate so prikazane v modri barvi. 50 Spokane ● ● 45 Zemljepisna širina Boston ● ● 40 Indianapolis St. Louis ● ● ● 35 ● ● Memphis Los Angeles ● ●Tempa ● ● ● Dallas Atlanta ● ● ● ● 30 25 −120 −100 Zemljepisna dolžina −80 ˇ Slika 4.7: Veˇcrazsežnostno lestviˇcenje. Crne toˇcke prikazujejo dejanske koordinate mest, modre toˇcke pa reproducirane koordinate. Lestvičenje razdalj Pri klasiˇcnem lestviˇcenju smo zahtevali, da je dij ≈ δij , da sta torej dejanska in reproducirana matrika med seboj cˇ im bolj enaki. Pri lestviˇcenju razdalj predpostavko omilimo in zahtevamo, da je dij ≈ f (δij ), kjer je f monotono padajoˇca funkcija. Glede na obliko kriterijske funkcije3 , s katero ocenjujemo ustreznost reprodukcije matrike razdalj, loˇcimo veˇc razliˇcnih pristopov k metriˇcnemu lestviˇcenju. V nadaljevanju si oglejmo (i) metodo najmanjših kvadratov in (ii) Sammonovo projekcijo. Metoda kvadratov Ker je f parametriˇcna funkcija, lahko odnos med razda najmanjših ljami dij in f (δij ) modeliramo s pomoˇcjo metode najmanjših kvadratov.4 3 Literatura s podroˇcja veˇcrazsežnostnega lestviˇcenja stroškovno funkcijo pozna pod imenom stres funkcija (angl. stress function). 4 Ce ˇ so razliˇcnosti med podatkovnimi objekti predstavljene z evklidskimi razdaljami in je f identiˇcna funkcija, potem je ta pristop enak klasiˇcnemu lestviˇcenju. 64 4.5 Pregled metod za sestavljanje spremenljivk Algoritem 1: Klasiˇcni postopek veˇcrazsežnostnega lestviˇcenja 1. Na osnovi matrike razdalj ∆ = (δij ) med pari primerov, razsežnosti n × n, sestavi matriko A = ( aij ), kjer je aij = −1/2δij2 . 2. Konstruiraj dvojno odklonsko matriko B = HAH razsežnosti n × n, kjer je H = In − n−1 Jn in Jn = 1n 10n . 3. Izraˇcunaj lastne vrednosti in lastne vektorje matrike B. Lastne vrednosti shrani v diagonalno matriko Λ = diag{λ1 , . . . , λn }, lastne vektorje pa kot stolpce v matriko V = (v1 , . . . , vn ). Negativne lastne vrednosti in pripadajoˇce lastne vektorje matrike B zavrzi ali jim prištej konstantno vrednost (δij ← δij + c za i 6= j). V diagonalno matriko Λ1 = diag{λ1 , . . . , λq } shrani pozitivne lastne vrednosti, pripadajoˇce lastne vektorje pa v matriko V1 = (v1 , . . . , vq ). Potem je B = V1 Λ1 V10 = (V1 Λ1/2 )(Λ1/2 V1 ) = YY0 , 1 1 √ √ 1 kjer je Y = V1 Λ1/2 = ( λ1 v1 , . . . , λt vt ) = (y1 , . . . , yn )0 . 4. Glavne koordinate y1 , . . . , yn so stolpci matrike Y0 , razsežnosti q × n. Razdalje med pari podatkovnih toˇck v q-razsežnem prostoru dij = kyi − y j k so enake razdaljam δij v matriki ∆. Glavne koordinate doloˇcimo tako, da minimiziramo funkcijo " #1/2 2 . S M (y1 , . . . , yn ) = ∑ dij − f δij (4.12) i< j Minimizacijo funkcije obiˇcajno opravimo z metodo gradientnega spusta (Hastie in sod., 2011). Sammonova projekcija Sammonova projekcija (angl. Sammon mapping) je nelinearna metoda lestviˇcenja in je poseben primer metode najmanjših kvadratov iz prejšnjega razdelka. Kriterijska funkcija je definirana s predpisom (Hastie in sod., 2011) 2 dij − f δij SS ( y1 , . . . , y n ) = ∑ . dij i< j Sammonova projekcija ohranja majhne razdalje δij tako, da jih v postopku ocenjevanja prileganja modela moˇcneje uteži. 4.5.3 Delni najmanjši kvadrati Pri analizi glavnih komponent, ki smo jo obravnavali v razdelku 4.5.1, smo se ukvarjali z iskanjem linearnih kombinacij, s katerimi karseda dobro povzamemo merske spremenljivke x1 , . . . , x p . Spomnimo se, da smo smeri glavnih komponent doloˇcili le na osnovi 65 4 Sestavljanje spremenljivk neodvisnih spremenljivk, brez védenja o porazdelitvi odvisne spremenljivke. Zato ni nujno, da so smeri, ki dobro predstavljajo neodvisne spremenljivke v skrˇcenem prostoru, hkrati tudi optimalne za napovedovanje vrednosti odvisne spremenljivke. To pomanjkljivost lahko odpravimo z metodo delnih najmanjših kvadratov (angl. partial least squares, PLS). Metoda PLS združuje družino postopkov, ki so bili prvotno razviti kot orodje za veˇcrazsežno (multivariatno) regresijo v ekonometriji (Wold, Ruhe, Wold & Dunn, III, 1984) in kasneje tudi v kemometriji (Martens & Næs, 1992). Šele kasneje so metodo podrobneje obdelali tudi statistiki (Frank & Friedman, 1993; Garthwaite, 1994; Stone & Brooks, 1990). V statistiki velja nenapisano pravilo, da je PLS zbir algoritmov in ni metoda v klasiˇcnem pomenu te besede (Helland, 2001). Zgodovinski pregled razvoja metode podaja Martens (2001). PLS je namenjena napovedovanju vrednosti ene ali veˇc odvisnih zveznih spremenljivk na osnovi velike množice neodvisnih zveznih spremenljivk. Glavna ideja PLS je poiskati med seboj nekorelirane linearne transformacije neodvisnih spremenljivk, za katere velja, da karseda moˇcno kovariirajo z odvisno spremenljivko. Tako dobljene linearne kombinacije potem uporabimo kot prediktorje v klasiˇcnem linearnem regresijskem modelu5 za napovedovanje vrednosti odvisne spremenljivke. Posebej velja poudariti, da je PLS uporabna tudi v primeru, ko je število merskih spremenljivk p mnogo veˇcje od števila primerov n, saj smo p merskih spremenljivk nadomestili z manjšim številom komponent. Razliˇcice algoritma PLS se razlikujejo v naˇcinu doloˇcanja latentnih spremenljivk. V nadaljevanju bomo obravnavali algoritem PLS1, ki vkljuˇcuje eno odvisno spremenljivko. Najprej konstruiramo latentne spremenljivke, ki jih nato uporabimo za napovedovanje odvisne spremenljivke. Komponente konstruiramo tako, da karseda dobro (i) pojasnjujejo razpršenost merjenih spremenljivk in (ii) kovariirajo6 z odvisno spremenljivko. Postopek PLS je iterativen. Podobno kot doslej bomo neodvisne spremenljivke zložili v matriko X razsežnosti n × p. Odvisno spremenljivko shranimo v vektor y dolžine n. PLS temelji na razcepu X = TP T + E (4.13) in y = Tb + f, (4.14) kjer je T matrika komponentnih dosežkov razsežnosti n × c, P matrika koeficientov komponentnih dosežkov razsežnosti p × c, E in f pa matrika ostankov razsežnosti n × p oz. vektor ostankov dolžine n. Vrednostim v matriki P pravimo tudi nasiˇcenosti matrike X. Komponento j poišˇcemo tako, da je pripadajoˇci vektor uteži w j = arg max Cov(X, w, y). w T w =1 Podobno kot pri postopku PCA zahtevamo, da so komponente med seboj pravokotne, torej t0k t j = 0 za 1 ≤ j ≤ k. Postopek doloˇcanja komponent je prikazan v algoritmu 2 (Lu, Plataniotis & Venetsanopoulos, 2014). 5 Ce ˇ je odvisna spremenljivka imenska, lahko linearno regresijo nadomestimo z izbrano metodo uvršˇcanja. kovarianco v tem primeru dobro povzamemo razpršenost merskih spremenljivk ter hkrati njihovo korelacijo z odvisno spremenljivko (Varmuza & Filzmoser, 2009). 6S 66 4.5 Pregled metod za sestavljanje spremenljivk Algoritem 2: PLS1-algoritem 1. Indeks, s katerim štejemo število komponent, nastavi na j = 1. V matriko X1 prepiši matriko X, v vektor y1 pa vektor y. 2. Izraˇcunaj vektor uteži za matriko X po obrazcu w j = X0j y j/kX0j y j k. 3. Izraˇcunaj vektor komponentnih dosežkov za matriko X po obrazcu t j = X j w j . 4. Izraˇcunaj regresijski koeficient po obrazcu bˆ = t0j y j/t0j t j . 5. Izraˇcunaj vektor nasiˇcenosti po obrazcu p j = X0j t j/t0j t j . 6. Konstruiraj deflacijsko matriko X j+1 = X j − t j p0j in deflacijski vektor y j+1 = y j − t j cˆ 0j . ˇ je števec enak j = g, postopek ustavi, sicer nastavi j = j + 1 in nadaljuj s 7. Ce korakom 2. 8. Po stolpcih zloži uteži v matriko W, komponentne dosežke v matriko T in nasiˇcenosti v matriko P. Regresijske koeficiente shrani v vektor b. 4.5.4 Fisherjeva diskriminantna analiza V razdelku 5.2.3 smo obravnavali linearno diskriminantno analizo kot metodo za uvršˇcanje podatkov. V tem razdelku bomo pokazali, da je metoda uporabna tudi za krˇcenje podatkovne tabele. Fisherjeva diskriminantna analiza (FLDA) pomeni razširitev metode PCA, kjer pri zmanjševanju razsežnosti upoštevamo odvisno spremenljivko. Medtem ko pri PCA išˇcemo karseda dobre projekcije podatkovne tabele, se pri FLDA ukvarjamo z iskanjem projekcije w, ki bo glede na odvisno spremenljivko razreda med seboj cˇ im bolje loˇcevala (slika 4.8). Denimo, da obravnavamo p-razsežni vektor podatkov x. Vektor bomo projicirali v eno razsežnost s transformacijo y = w T x. Z m1 in m2 bomo v nadaljevanju oznaˇcili vektorja aritmetiˇcnih sredin neodvisnih spremenljivk v razredih C1 oz. C2 . Vektorja izraˇcunamo po obrazcih m1 = 1 n1 ∑ n∈C1 xn in m2 = 1 n2 ∑ xn . n∈C2 Najpreprostejša mera loˇcevanja med dvema razredoma je projekcija aritmetiˇcnih sredin razredov. Za ta namen je smiselno izbrati tak w, da bo razlika med projiciranima aritmetiˇcnima sredinama µ2 − µ1 = w T ( m2 − m1 ) karseda velika. Pri tem w omejimo tako, da je ∑i wi2 = 1. S pomoˇcjo metode Lagrangeevega multiplikatorja lahko pokažemo, da je w ∝ (m2 − m1 ) (Bishop, 2007). Ker so kovariance 67 4 Sestavljanje spremenljivk ● 10 ● ● ● ● ●●● ● ● ● ● ● ● ●●● ● ● ● ● ● ●●●●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ●●● ●● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●●● ● ● ● ●● ● ●●● ●● ●● ●● ● ●● ● ● ● ● ●● ● ● ●● ● ● X2 5 0 −5 ●● ● ● −10 −2.5 0.0 X1 2.5 5.0 Slika 4.8: Fisherjeva linearna diskriminantna analiza. Pri krˇcenju razsežnosti upoštevamo odvisno spremenljivko, tako da poišˇcemo projekcijo, ki bo razreda med seboj cˇ im bolje loˇcevala. po razredih obiˇcajno moˇcno nediagonalne, je poleg dobre loˇcenosti med projiciranimi aritmetiˇcnimi sredinami razredov smiselno zahtevati tudi karseda majhno razpršenost znotraj razreda Ck . Slednjo izraˇcunamo po obrazcu s2k = ∑ n∈Ck ( y n − m k )2 , kjer je yn = w T xn . Skupna razpršenost znotraj razredov je potem preprosto vsota s21 + s22 . Fisherjev kriterij lahko zdaj zapišemo kot J (w) = ( m2 − m1 )2 . s21 + s22 (4.15) Obrazec (4.15) v matriˇcni obliki predstavimo kot J (w) = wS B w , w T SW w (4.16) kjer matriko razpršenosti med razredoma S B sestavimo po obrazcu S B = (m2 − m1 )(m2 − m1 )T , (4.17) matriko razpršenosti znotraj razredov SW pa po obrazcu SW = ∑ (xn − m1 )(xn − m1 )T + ∑ (xn − m2 )(xn − m2 )T . n∈C1 68 n∈C2 (4.18) 4.5 Pregled metod za sestavljanje spremenljivk Z odvodom (4.16) po w lahko pokažemo, da J (w) doseže maksimalno vrednost, ko je (wT S B w)SW w = (wT SW w)S B w. (4.19) Iz (4.17) vidimo, da produkt S B w leži v smeri (m2 − m1 ). Ker nas zanima le smer w, −1 lahko v (4.19) izpustimo faktorja (w T S B w) in (w T SW w). (4.19) nato pomnožimo z SW in dobimo −1 w ∝ SW ( m2 − m1 ). (4.20) Rezultat (4.20) imenujemo Fisherjeva linearna diskriminanta in pomeni optimalno smer projekcije merskih spremenljivk. Velja poudariti, da je v primeru dveh razredov taka projekcija samo ena. 69 5 Uvrščanje podatkov 5.1 Formalna predstavitev problema uvrščanja Na podroˇcju strojnega uˇcenja se obiˇcajno sreˇcujemo z dvema tipoma problemskih nalog (Hastie in sod., 2011; Izenman, 2008): (i) z nadzorovanim (angl. supervised) in (ii) z nenadzorovanim (angl. unsupervised) uˇcenjem. Pri nenadzorovanem uˇcenju gre za problemsko nalogo, v kateri moramo na osnovi analize podatkovja doloˇciti optimalno število razredov, nato pa posamezne primere razvrstiti v ustrezen razred. Pri nadzorovanem uˇcenju je situacija obrnjena; naša naloga je uvrstiti primere v enega od vnaprej podanih razredov tako, da bo napaka uvršˇcanja karseda majhna. V nadaljevanju obravnavamo problem uvršˇcanja kot tipiˇcno nalogo nadzorovanega uˇcenja. Z X1 , . . . , X p bomo oznaˇcili merske spremenljivke. Posamezne primere bomo oznaˇcili z xi = ( xi1 , . . . , xip )T za i = 1, . . . , n ter jih po vrsticah zložili v podatkovno matriko X ∈ Rn × p . V statistiˇcnem uˇcenju obiˇcajno razlikujemo med uˇcno in testno množico podatkov. Uˇcno množico podatkov bomo oznaˇcili z L, testno množico pa z T . Vsak primer ima pripisano oznako razreda, ki jo v uˇcni množici uporabimo za gradnjo klasifikatorja, v testni množici pa v postopku preverjanja kakovosti uvršˇcanja. Pripadajoˇci podatkovni matriki bomo oznaˇcili z X L oz. X T . Oznake razredov za primere iz množice L bomo zložili v vektor y L , iz množice T pa v vektor y T . Klasifikator f je definiran s preslikavo f (·, X L , y L ) : R p → {1, . . . , K } xi 7 → f ( xi , X L , y L ) , kjer kot argumenti funkcije f nastopajo vektorja xi in y L ter matrika X L . 5.1.1 Statistična teorija odločanja Z X ∈ R p bomo oznaˇcili sluˇcajni vektor, z Y ∈ R pa sluˇcajno spremenljivko s skupno porazdelitvijo Pr( X, Y ). Množico možnih razredov oznaˇcimo z G . Na osnovi vektorja merskih spremenljivk X se moramo odloˇciti za razred G, v katerega bomo uvrstili dani primer. Napovedano vrednost razreda bomo oznaˇcili z Gˆ (Hastie in sod., 2011). Z L bomo oznaˇcili funkcijo izgube (angl. loss function) uvršˇcanja. Možne izide funkcije izgube predstavimo v matriki L razsežnosti K × K, kjer je K = |G|. Elementi na glavni diagonali matrike L so enaki niˇc, ostali elementi pa so nenegativni. Z L(k, l ) bomo oznaˇcili ceno, ki jo moramo plaˇcati, cˇ e primer, ki dejansko pripada razredu Gk , uvrstimo v razred 71 5 Uvršˇcanje podatkov Gl . Obstaja vrsta razliˇcnih funkcij izgube; v nadaljevanju bomo obravnavali funkcijo izgube 0-1, pri kateri je treba napaˇcno uvrstitev plaˇcati z eno enoto. Priˇcakovana napaka napovedi (angl. expected prediction error) za vektor podatkov X je našem primeru enaka (Hastie in sod., 2011) EPE = E L( G, Gˆ ( X )) oz. K EPE = EX ∑L k =1 Gk , Gˆ ( X ) Pr(Gk | X ). Primer x bomo zato uvrstili v razred, za katerega je priˇcakovana napaka napovedi najmanjša: K Gˆ ( x ) = arg min ∑ L(Gk , g) Pr(Gk | X = x ). g∈G (5.1) k =1 V primeru funkcije izgube 0-1 se obrazec (5.1) poenostavi v Gˆ ( x ) = arg min [1 − Pr( g | X = x )] g∈G oz. Gˆ ( X ) = Gk cˇ e Pr(Gk | X = x ) = max Pr( g | X = x ). g∈G (5.2) Obrazec (5.2) poznamo pod imenom optimalni oz. Bayesov klasifikator. Bayesov klasifikator uvrsti primer v razred, pri katerem je posteriorna verjetnost Pr( G | x ) najveˇcja. Primer Bayesovega klasifikatorja je prikazan na sliki 5.1. Bayesov klasifikator podrobneje obravnavamo v razdelku 5.2.1. 3 ●● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ●● ● ● ● ● ●● ●●● ● ●● ● ● ●● ● ● ●● ● ● ●● ●●●● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●●●● ● ● ● ● ●● ●● ●● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ●●● ● ● ●● ● ● ● ● 2 X2 1 0 −1 −2 ● ● ●● ● ● ● −2 0 2 4 X1 Slika 5.1: Optimalni Bayesov klasifikator. Primer je prikazan nad sintetiˇcnim podatkovjem mixture.example iz R-jevega paketa ElemStatLearn. Apriorne verjetnosti razredov in njihove gostote poznamo, zato lahko klasifikacijsko ravnino natanˇcno narišemo. 72 5.2 Pregled metod uvršˇcanja Pristopi k statističnemu učenju Bishop (2007) na podroˇcju statistiˇcnega uˇcenja identificira tri razliˇcne pristope k reševanju odloˇcitvenih problemov: 1. Generativni pristop, pri katerem najprej poišˇcemo gostote verjetnosti Pr( x | Gk ) v vsakem od razredov ter apriorne verjetnosti Pr(Gk ). S pomoˇcjo Bayesovega izreka nato izraˇcunamo posteriorne verjetnosti razredov Pr(Gk | x ). Primer uvrstimo v razred, za katerega je posteriorna verjetnost najveˇcja. 2. Diskriminativni pristop, kjer posteriorno verjetnost razredov Pr(Gk | x ) ocenimo neposredno, nov primer pa uvrstimo v tisti razred, pri katerem je posteriorna verjetnost najveˇcja. 3. Pristop diskriminantne funkcije, kjer konstruiramo funkcijo f ( x ), ki preslika vektor atributov x neposredno v oznako razreda. V primeru odloˇcitvene naloge z dvema razredoma bo npr. vrednost funkcije f = 0 doloˇcala pripadnost primera razredu G1 , vrednost funkcije f = 1 pa razredu G2 . Primera takega uˇcenja sta npr. perceptron in metoda podpornih vektorjev. 5.2 Pregled metod uvrščanja 5.2.1 Bayesov klasifikator Uˇcno matriko predstavimo z n podatkovnimi pari {( x1 , y1 ), . . . , ( xn , yn )} v p-razsežnem prostoru, kjer z yi oznaˇcimo razred, ki lahko zaseda vrednosti yi = { g1 , g2 , . . . , gk }. Z ni bomo oznaˇcili število primerov v razredu i. Bayesov klasifikator na osnovi Bayesovega izreka doloˇci najverjetnejši razred novega primera, ki ga bomo oznaˇcili z x. Klasifikator oceni posteriorno verjetnost Pr( gi | x ) za vsak razred gi , nato pa na osnovi Bayesovega pravila izbere tisti razred, pri katerem je posteriorna verjetnost najveˇcja: Gˆ ( x ) = arg max {Pr( gi | x )} . (5.3) gi Tipiˇcna naloga uvršˇcanja, za katero smo uporabili Bayesov klasifikator, je prikazana na sliki 5.2a. V nadaljevanju obravnavamo nekatere tehniˇcne podrobnosti klasifikatorja. Z Bayesovim izrekom lahko izrazimo posteriorno verjetnost kot Pr( gi | x ) = Pr( x | gi ) · Pr( gi ) , Pr( x ) (5.4) kjer je Pr( x | gi ) verjetje, Pr( gi ) apriorna verjetnost razreda gi , Pr( x ) pa verjetnost za primer x, ki jo izraˇcunamo po obrazcu Pr( x ) = k ∑ Pr(x | gj ) · Pr( gj ). j =1 73 5 Uvršˇcanje podatkov Slednja verjetnost je v obrazcu (5.4) med razredi enaka, zato lahko obrazec (5.3) prepišemo v Pr ( x | g ) Pr ( g ) i i Gˆ ( x ) = arg max = arg max {Pr( x | gi ) Pr( gi )} . (5.5) Pr( x ) i i Za uvrstitev nove enote moramo torej na osnovi danih podatkov oceniti verjetje in apriorno verjetnost. Z oceno zadnje ne bomo imeli težav; najlaže jo ocenimo kot relativno frekvenco ˆ ( gi ) = n i . Pr n Za oceno verjetja je treba oceniti pogojno verjetnost dogodka Pr( x | gi ).1 Skupno verjetnost bomo ocenili2 tako, da bomo predpostavili, da so spremenljivke v razredu gi normalno porazdeljene okoli aritmetiˇcne sredine µi s kovarianˇcno matriko Σi . Oba parametra bomo ocenili na osnovi uˇcnih podatkov. Za razred gi je gostota verjetnosti f i ( x ) enaka ) ( ( x − µi )T Σi−1 ( x − µi ) 1 p . (5.6) f i ( x ) = f ( x | µi , Σi ) = √ exp − 2 ( 2π ) p |Σi | Ker je f i ( x ) zvezno porazdeljena, je verjetnost v katerikoli toˇcki enaka niˇc, torej Pr( x | gi ) = 0. V tem primeru lahko verjetje izraˇcunamo tako, da upoštevamo hiperkroglo polmera e, usredinjeno okoli x (Zaki & Meira, 2014): Posteriorna verjetnost je potem Pr( gi | x ) = Pr( x | gi ) = 2e · f i ( x ). 2e · f i ( x ) Pr( gi ) ∑ik=1 2e · f i ( x ) Pr( gi ) = f i ( x ) Pr( gi ) . k ∑i=1 f i ( x ) Pr( gi ) (5.7) Vsota v imenovalcu (5.7) je med razredi enaka, zato napovedani razred doloˇcimo kot (prim. 5.5) Gˆ ( x ) = arg max { f i ( x ) Pr( gi )} . i Parametra, ki ju potrebujemo za oceno gostote verjetnosti v obrazcu (5.6), ocenimo na osnovi vzorˇcne aritmetiˇcne sredine in vzorˇcne kovarianˇcne matrike. Vzorˇcno aritmetiˇcno sredino za razred gi izraˇcunamo po obrazcu µˆ i = 1 ni ∑ xj, x j ∈ Di vzorˇcno kovarianˇcno matriko pa po obrazcu 1 Σˆ i = Zi0 Zi , ni kjer je Zi odklonska matrika vrednosti spremenljivk za razred gi . 1V nadaljevanju pokažemo, kako to naredimo nad številskimi spremenljivkami. Bralec, ki ga zanima obravnava diskretnih spremenljivk, bo veˇc informacij našel v Mitchell (1997). 2 Prikazani postopek se nanaša na parametriˇ cno ocenjevanje. Pri neparametriˇcnem pristopu izraˇcunamo empiriˇcno skupno gostoto verjetnosti neposredno na osnovi uˇcnih podatkov, npr. s pomoˇcjo metod za ocenjevanje gostote jedra. 74 5.2 Pregled metod uvršˇcanja 4.5 ● ● ● ● Širina čašnega lista 4.0 ● ● ● ● ● ●● ● ●● ●●● ● ● ●●● ●● ●● ● ● ●● ●●● 3.5 ● 3.0 ●● ● ● ● ● ● ● 2.5 ● ● ● ● 2.0 ● ● ● ● ● ● ●● ● ● ●● ●● ●●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● 5 6 Dolžina čašnega lista 7 (a) 4.5 ● ● ● ● Širina čašnega lista 4.0 ● ● ● ● ● ●● ● ●● ●●● ● ● ●●● ●● ●● ● ● ●● ●●● 3.5 ● 3.0 ●● ● ● 2.5 ● ● ● 2.0 ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● 5 6 Dolžina čašnega lista 7 (b) Slika 5.2: Bayesov (a) in naivni Bayesov (b) klasifikator. Prikaz je narejen na osnovi podatkovja iris iz R-jevega paketa datasets. Naloga je zahtevala uvrstitev zelene podatkovne toˇcke x = (6.75, 4.25)T bodisi v razred setosa (c1 ) bodisi v razred versicolor (c2 ). Elipsa prikazuje nivojnico gostote verjetnosti za dvorazsežno normalno porazdelitev (α = 0.1). Križec oznaˇcuje aritmetiˇcno sredino spremenljivk za posamezni razred. V obeh primerih bomo primer x uvrstili v razred versicolor, saj velja Pr( g2 | x ) > Pr( g1 | x ). 75 5 Uvršˇcanje podatkov Naivni Bayesov klasifikator Naivni Bayesov klasifikator predpostavi, da so spremenljivke med seboj pogojno neodvisne glede na odvisno spremenljivko. Verjetje zato zapišemo kot produkt verjetnosti posameznih spremenljivk: p Pr (x | gi ) = Pr x1 , x2 , . . . , x p | gi = ∏ Pr j =1 x j | gi . Predpostavimo še, da se spremenljivke v posameznih razredih porazdeljujejo normalno. Z µij in σij2 oznaˇcimo aritmetiˇcno sredino oz. razpršenost spremenljivke X j v razredu gi . Verjetje Pr( x j | gi ) za spremenljivko X j v razredu ci je tedaj ( ) ( x j − µij )2 1 2 Pr( x j |ci ) ∝ f ( x j | µij , σij ) = √ exp − . 2σij2 2πσij Posledica predpostavke o neodvisnosti spremenljivk je, da so vse kovariance v kovarianˇcni matriki Σi enake niˇc: 2 σi1 0 · · · 0 0 σ2 · · · 0 i2 Σi = . .. .. , .. .. . . . 0 0 · · · σid2 kar pomeni, da je determinanta iz (5.6) v tem primeru enaka d |Σi | = det(Σi ) = σi12 σi22 · · · σid2 = ∏ σij2 . j =1 V (5.6) poenostavimo še matriˇcni zapis, ki je zdaj (x − µi )0 Σi−1 (x − µi ) = ( x j − µij )2 . σij2 j =1 d ∑ Obrazec (5.6) lahko prepišemo v obliko ( x j − µij )2 exp − ∑ Pr(x| gi ) = √ p 2σij2 ( 2π ) p ∏ j=1 σij2 j =1 )! ( p ( x j − µij )2 1 =∏ √ exp − 2σij2 2πσij j =1 1 q ( p ) (5.8) p = ∏ Pr( x j | gi ). j =1 Za oceno verjetja Pr( x j | ci ) uporabimo vzorˇcne aritmetiˇcne sredine µˆ i = (µˆ i1 , . . . , µˆ id )0 ter 2,...,σ 2 )0 . V primerjavi s klasiˇ ˆ id razpršenosti σˆ i2 = (σˆ i1 cnim Bayesovim klasifikatorjem, kjer 2 je treba oceniti d + d parametrov, moramo pri naivni razliˇcici oceniti le 2d parametrov. 76 5.2 Pregled metod uvršˇcanja 5.2.2 Metoda najbližjega soseda Pri Bayesovem klasifikatorju (gl. razdelek 5.2.1) smo verjetje Pr( x | gi ) ocenili s parametriˇcnim pristopom. V tem razdelku bomo obravnavali neparametriˇcno metodo najbližjega soseda, pri kateri posteriorno verjetnost izraˇcunamo neposredno na osnovi podatkov. Podatkovje D naj obsega n podatkovnih toˇck xi ∈ Rd . Z Di oznaˇcimo podmnožico toˇck z oznako razreda gi , tako da je ni = |Di |. Razdaljo med podatkovno toˇcko x in njenim K-tim najbližjim sosedom v D bomo oznaˇcili z r. Zdaj obravnavajmo d-razsežno hiperkroglo s središˇcem v toˇcki x in polmerom r, formalno Bd ( x, r ) = { xi ∈ D | δ( x, xi ) ≤ r } , kjer smo z δ( x, xi ) oznaˇcili razdaljo med toˇckama x in xi . Predpostavimo še, da je | Bd ( x, r )| = K. S Ki oznaˇcimo število podatkovnih toˇck med K najbližjimi sosedi toˇcke x, ki so oznaˇceni z oznako razreda gi , formalno Ki = x j ∈ Bd ( x, r ) | y j = gi . Pogojno gostoto za toˇcko x lahko ocenimo kot fˆ( x | gi ) = Ki/ni V , kjer je V prostornina d-razsežne hiperkrogle Bd ( x, r ). Posteriorno verjetnost Pr( gi | x ) bomo ocenili po obrazcu Pr( gi | x ) = ˆ ( gi ) fˆ( x | gi ) Pr . k ˆ (gj ) ∑ j=1 fˆ( x | g j ) Pr ˆ ( gi ) = ni/n, je potem Ker je Pr ˆ ( gi ) = K i · n i = K i . fˆ( x | gi ) Pr ni V n nV Od tu dalje lahko posteriorno verjetnost raˇcunamo po obrazcu Pr( gi | x ) = Ki/nV ∑kj=1 K j/nV = Ki . K Napovedani razred za podatkovno toˇcko x je Gˆ ( x ) = arg max {Pr( gi | x )} = arg max gi gi Ki K = arg max {Ki } . gi ˇ primer hkrati pripada veˇc Situacija uvršˇcanja za K = 3 je prikazana na sliki 5.3a. Ce razredom, oznako razreda doloˇcimo po sluˇcaju. Pred uvršˇcanjem spremenljivke obiˇcajno 77 5 Uvršˇcanje podatkov standardiziramo. Razdaljo med primeri in prototipi lahko merimo na razliˇcne naˇcine; najpogosteje uporabimo evklidsko razdaljo. Kljub preprostemu algoritmu so rezultati metode najbližjega soseda pogosto zelo blizu optimalnemu Bayesovemu klasifikatorju (Hastie in sod., 2011) (slika 5.3b). Na uspešnost uvršˇcanja moˇcno vpliva izbira ustreznega števila prototipov. Pri majhnem K je odloˇcitvena ravnina fleksibilna, kar ima za posledico nizko pristranost, a visoko razpršenost uvršˇcanja (gl. razdelek 5.3.2). Z narašˇcanjem števila prototipov se odloˇcitvena ravnina približuje linearni, kar se kaže v veˇcji pristranosti in manjši razpršenosti uvršˇcanja. Pomembne prednosti metode so preprostost, razumljivost in hitrost uvršˇcanja. Metoda je obˇcutljiva za fenomen praznega prostora, zato pravilo pravi, da na posamezen razred uporabimo vsaj desetkrat toliko primerov, kot je spremenljivk. 5.2.3 Linearna diskriminantna analiza Denimo, da želimo primer uvrstiti v enega od K razredov, kjer je K ≥ 2. S πk oznaˇcimo apriorno verjetnost, da sluˇcajno izbran primer pripada razredu k, s f k ( x ) = Pr( X = x | Y = k ) pa gostoto verjetnosti za primer iz razreda k. Z drugimi besedami, gostota f k ( x ) bo relativno visoka, cˇ e je verjetnost, da za primer v razredu k velja X ≈ x in narobe. Po Bayesovem pravilu je (Hastie in sod., 2011) Pr(Y = k | X = x ) = f k ( x )πk . K ∑ l =1 π l f l ( x ) (5.9) V obrazec (5.9) vstavimo ocene za πk in f k ( X ). πk bomo ocenili kot delež uˇcnih primerov, ki pripadajo razredu k, gostoto f k ( X ) pa izpeljemo v nadaljevanju. Najprej privzemimo, da se X porazdeljuje normalno z gostoto f k . Potem je ! 1 1 f k (x) = √ exp − , 2πσk 2σk2 ( x − µk )2 (5.10) kjer sta µk in σk2 aritmetiˇcna sredina oz. varianca za razred k. Privzemimo, da je razpršenost med razredi enaka, torej da je σ12 = · · · = σK2 , in jo oznaˇcimo s σ2 . Obrazec (5.10) vstavimo v obrazec (5.9) in dobimo (James in sod., 2013) 1 πk √2πσ exp − 2σ1 2 ( x − µk )2 . (5.11) pk ( x ) = 2 K 1 1 √ exp − x − µ π ( ) ∑l =1 l 2πσ l 2σ2 Bayesov klasifikator uvrsti primer X = x v razred, za katerega je posteriorna verjetnost v (5.11) najvišja. ˇ obrazec (5.11) logaritmiramo in preuredimo, dobimo (James in sod., 2013) Ce δk ( x ) = x · 78 µ2k µk − + log(πk ). σ2 2σ2 (5.12) 5.2 Pregled metod uvršˇcanja 5 ● ● ● 4 ● X2 ● 3 2 ● ● ● 1 ● ● 1 2 3 4 X1 (a) 3 ●● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ●● ● ● ● ● ●● ●●● ● ●● ● ● ●● ● ● ●● ● ● ●● ●●●● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●●●● ● ● ● ● ●● ●● ●● ●●● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ●●● ● ● ●● ● ● ● ● 2 X2 1 0 −1 −2 ● ● ●● ● ● ● −2 0 2 4 X1 (b) Slika 5.3: Metoda najbližjega soseda. Slika (a) prikazuje preprosto situacijo s šestimi modrimi in šestimi rdeˇcimi primeri. Enoto, ki jo želimo uvrstiti, ponazarja zelena toˇcka. Za K = 3 smo zanjo identificirali tri najbližje sosede, ki so oznaˇceni s trikotniki. Novo enoto uvrstimo v veˇcinski rdeˇci razred. Slika (b) prikazuje Bayesovo odloˇcitveno ravnino (ˇcrtkana cˇ rta) ter odloˇcitveno ravnino za 15-NN. Obe ravnini sta si zelo podobni. 79 5 Uvršˇcanje podatkov V obrazcu (5.12) bomo funkcijo δk imenovali linearna diskriminantna funkcija. Podobno kot zgoraj primer uvrstimo v tisti razred, za katerega je vrednost linearne diskriminantne funkcije najveˇcja. Odloˇcitveno pravilo formalno zapišemo kot Gˆ ( x ) = arg max (δk ( x )) . k Poseben primer linearne diskriminantne analize je diagonalna kvadratna diskriminantna analiza, kjer predpostavimo, da so kovarianˇcne matrike po posameznih razredih ˇ so diagonalne kovarianˇcne matrike med seboj tudi enake, govorimo o diagonalne. Ce diagonalni linearni diskriminantni analizi (Hastie in sod., 2011; Speed, 2003). 5.2.4 Nevronske mreže Teorija nevronskih mrež obravnava široko paleto modelov in uˇcnih algoritmov. V tem razdelku si bomo ogledali nevronsko mrežo z eno skrito plastjo oz. enoplastni perceptron. Nevronska mreža je dvostopenjski regresijski model oz. model uvršˇcanja, ki ga obiˇcajno predstavimo z diagramom, podobnim tistemu na sliki 5.4. Vhodna vozlišˇca oznaˇcujejo neodvisne spremenljivke, izhodna vozlišˇca pa odvisno spremenljivko. Pri regresijskem problemu je izhodno vozlišˇce eno samo, pri nalogi uvršˇcanja pa število izhodnih vozlišˇc ustreza številu razredov spremenljivke K. Nevronska mreža ima v splošnem lahko seveda veˇc kot eno skrito plast. Vse povezave so utežene in usmerjene proti izhodni plasti. Vhodna vozlišˇca nimajo posebne vloge pri procesiranju informacij; pomenijo le podatkovni vektor spremenljivk, ki vstopajo v nevronsko mrežo. Uˇcenje se izvaja na skritem in izhodnem sloju vozlišˇc. Sestavljene spremenljivke Zm na srednjem nivoju izraˇcunamo kot linearne kombinacije vhodnih spremenljivk, vrednosti izhodnih vozlišˇc Yk pa doloˇcimo kot funkcije linearnih kombinacij spremenljivk na srednjem nivoju. Formalno bomo model nevronske mreže predstavili takole: Zm = σ(α0m + α0m X ), m = 1, . . . , M, Tk = β 0k + β0k Z, k = 1, . . . , K, Yk = gk ( T ), k = 1, . . . , K, (5.13) kjer sta Z = ( Z1 , Z2 , . . . , ZM ) in T = ( T1 , T2 , . . . , TK ). S T smo oznaˇcili agregacijo rezultatov na izhodnem nivoju. V raˇcunskem modelu nevronske mreže obiˇcajno dodamo tudi cˇ len pristranosti (angl. bias); v obrazcu (5.13) ga oznaˇcujeta α0m in β 0k . Aktivacijska funkcija σ(v) je obiˇcajno sigmoidna funkcija σ(v) = 1/(1 + e−v ), s katero lahko dobro ponazorimo zvezno delovanje pravega nevrona. Funkcija gk ( T ) omogoˇca izhodno transformacijo. Pri regresijskih nalogah je to obiˇcajno kar identiˇcna funkcija gk ( T ) = Tk , pri nalogah uvršˇcanja pa najpogosteje uporabimo softmax funkcijo gk ( T ) = 80 e Tk ∑lK=1 e Tl . (5.14) 5.2 Pregled metod uvršˇcanja 1 .07 X1 .17 −1 Dolžina čašnega lista 1 − 1.4 3 .48 3 −1.08 Z1 Y1 setosa Y2 versicolor Y3 virginica −.08 .64 .61 − .59 −. 07 X2 0 1.0 Širina čašnega lista −1.8 − 2.5 .66 0 5 X3 3.90 Z2 1.9 Širina venčnega lista 48 −. −.8 Dolžina venčnega lista 9 .08 X4 Slika 5.4: Nevronska mreža s štirimi vhodnimi in tremi izhodnimi vozlišˇci. Nevronska mreža ima eno skrito plast z dvema vozlišˇcema. Prikaz je narejen za podatkovje iris iz R-jevega paketa datasets. Naloga je zahtevala uvrstitev perunike v ustrezen razred. 81 5 Uvršˇcanje podatkov Neznane parametre v modelu nevronske mreže imenujemo uteži. Cilj uˇcenja je prilagoditi uteži tako, da bo napaka uvršˇcanja karseda majhna. Množico uteži oznaˇcimo s θ in je sestavljena iz množice {α0m , αm ; m = 1, 2, . . . , M} , v kateri je M ( p + 1) uteži, ter množice { β 0k , β k ; k = 1, 2, . . . , K }, v kateri je K ( M + 1) uteži. V primeru naloge uvršˇcanja uteži doloˇcimo tako, da je navzkrižna entropija (Hastie in sod., 2011) N R(θ ) = − ∑ K ∑ yik log f k (xi ) (5.15) i =1 k =1 karseda majhna. Kriterijsko funkcijo (5.15) obiˇcajno minimiziramo z gradientnim spustom z uporabo delta pravila; v teoriji nevronskih mrež to optimizacijo poznamo pod imenom vzvratno popravljanje (angl. back-propagation). Ker ima kriterijska funkcija veliko lokalnih minimumov, je optimizacijo smiselno ponoviti z razliˇcnimi zaˇcetnimi vrednostmi. Pri raˇcunanju uteži lahko uporabimo regularizacijo, tako da uteži krˇcimo proti niˇc (gl. razdelek 5.2.8). V ta namen kriterijski funkciji (5.15) dodamo cˇ len kaznovanja R(θ ) + λJ (θ ), kjer je J (·) kazenska funkcija, λ ≥ 0 pa parameter, s katerim nadzorujemo koliˇcino kaznovanja. Razliˇcne oblike kazenskih funkcij obravnavajo Hastie in sod. (2011) in jih tukaj ne navajamo. Odloˇcitveno pravilo formalno zapišemo kot Gˆ ( x ) = arg max( f k ( x )). k Pomanjkljivost nevronskih mrež je v tem, da nimajo mehanizma, s pomoˇcjo katerega bi lahko dobljene rešitve razložili. Zaradi tega so manj primerne za uporabo pri odloˇcanju, uspešne pa so pri razpoznavanju vzorcev. Nevronske mreže so moˇcno odporne proti podatkom z veliko šuma in manjkajoˇcim podatkom. Bralec, ki ga tematika nevronskih mrež podrobneje zanima, bo širši pregled podroˇcja našel v Bishop (1995) ali Ripley (2008). 5.2.5 Odločitvena drevesa Odloˇcitvena drevesa3 lahko uporabimo tako pri regresijskih nalogah (regresijska drevesa) kot pri problemih uvršˇcanja (klasifikacijska drevesa). Pristop je preprost za uporabo, rezultati pa so obiˇcajno lahko razložljivi. Metoda temelji na razbitju (segmentaciji) prostora spremenljivk na ustrezno število regij. Nov primer uvrstimo na osnovi veˇcinskega razreda tistih primerov v regiji, ki so po izbranih spremenljivkah novi enoti najbolj podobni. Množico cepitvenih pravil, ki jih uporabimo za konstrukcijo regij, predstavimo z drevesno strukturo (slika 5.5). Zaradi popolnosti prikaza najprej obravnavamo regresijska, nato pa še klasifikacijska drevesa. 3 Pri predstavitvi odloˇcitvenih dreves se omejimo na metodologijo CART, ki je uporabljena v nadaljevanju naloge. Bralec, ki ga zanimajo ostali pristopi, bo veˇc informacij našel v Hastie in sod. (2011) in Mitchell (1997). 82 5.2 Pregled metod uvršˇcanja 2.5 ● ●● ● ● ●●●● ● ● ● ● ●● ● ●●●● ● ● ●●●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ●●● ●●● ● ● ●●● ● ● ●●●●●●● ●● ● ● ● ● ●● ● ● ● ●● Razred Širina venčnega lista 2.0 1.5 1.0 0.5 ● ● ● ●●● ● ●●● ● ● ●● ●● ●● ● ●●● ● ● ●● ● setosa ● versicolor ● virginica 0.0 2 4 6 Dolžina venčnega lista (a) da setosa Dolžina venčnega lista < 2.5 ne Širina venčnega lista < 1.8 da versicolor ne virginica (b) Slika 5.5: Klasifikacijsko drevo. Slika (a) prikazuje razbitje prostora dveh spremenljivk na tri regije. Za prikaz smo uporabili podatkovje iris iz R-jevega paketa datasets. Na sliki (b) je prikazano pripadajoˇce klasifikacijsko drevo. 83 5 Uvršˇcanje podatkov Regresijska drevesa S pari ( xi , yi ), i = 1, . . . , n predstavimo uˇcne podatke, kjer je xi ∈ R p vektor s p neodvisnimi spremenljivkami, yi pa vrednost odvisne spremenljivke. Denimo, da imamo razbitje z M regijami R1 , . . . , R M , tako da vsaka regija ustreza enemu listu drevesa. Vrednost odvisne spremenljivke bomo doloˇcili s pomoˇcjo obrazca M f (x) = ∑ m =1 cm · I { x ∈ Rm } , kjer je cm konstanta za vsako od regij. Regije doloˇcimo tako, da prostor neodvisnih spremenljivk razbijemo na (veˇcrazsežne) pravokotnike, tako da bo vrednost statistike M ∑ ∑ m =1 i ∈ R j yi − yˆ R j 2 karseda majhna. Izkaže se, da je optimalen cˆm kar povpreˇcje vrednosti yi v regiji Rm : cˆm = ave (yi | xi ∈ Rm ) . Zaradi raˇcunskih omejitev je nemogoˇce upoštevati vsa možna razbitja prostora neodvisnih spremenljivk v M regij. Drevo zato gradimo na osnovi rekurzivnega dvojiškega razbijanja (angl. recursive binary splitting) prostora spremenljivk. CART-algoritem zaˇcne gradnjo drevesa s cepitvijo spremenljivke j v toˇcki s na regiji R1 ( j, s) = X | X j ≤ s in R2 = X | X j > s nato pa stopenjsko izbere j in s na osnovi minimizacije min min j,s c1 ∑ xi ∈ R1 ( j,s) (yi − c1 )2 + min c2 ∑ xi ∈ R2 ( j,s) ( y i − c2 )2 , kjer sta cˆ1 = ave (yi | xi ∈ R1 ( j, s)) in cˆ2 = ave (yi | xi ∈ R2 ( j, s)) . Algoritem rekurzivno ovrednoti cepitev znotraj vsakega para novih regij, dokler ne zadosti ustavitvenemu kriteriju (npr. doloˇcenemu številu primerov v regiji). Polno drevo T0 z listi, ki definirajo regije R1 , . . . , Rm , se bo dobro obnašalo na uˇcni množici podatkov, njegova posplošljivost pa bo zaradi prevelike kompleksnosti slaba. Drevo zato obiˇcajno odrežemo (angl. prunning), kar pomeni, da veje drevesa zapremo v starševska vozlišˇca. Najboljše bo tisto odrezano drevo, ki bo imelo karseda majhno napako pri uvršˇcanju na testnih podatkih. Za vsako poddrevo T ⊆ T0 s | T | oznaˇcimo število njegovih listov, s cˇ imer izrazimo kompleksnost drevesa. Števec za terminalna vozlišˇca oznaˇcimo z m; vozlišˇce m tako ponazarja regijo Rm . Definirajmo cˆm = 84 1 nm ∑ xi ∈ R m yi 5.2 Pregled metod uvršˇcanja in Qm ( T ) = 1 nm Kriterij cene kompleksnosti je potem |T | ∑ Cα ( T ) = m =1 (yi − cˆm )2 . (5.16) n m Q m ( T ) + α | T |. (5.17) ∑ xi ∈ R m Ideja je, da za vsak α poišˇcemo tako poddrevo Tα ⊆ T0 , pri katerem bo Cα ( T ) minimalen. S parametrom kompleksnosti α ≥ 0 uravnavamo odnos med velikostjo drevesa in njegovim prileganjem podatkom. Višja ko bo vrednost α, manjše bo drevo in obratno. Pri α = 0 je rešitev enaka celemu drevesu T0 . Breiman in sod. (1984) so pokazali, da za vsak α obstaja najmanjše poddrevo Tα , pri katerem je vrednost Cα ( T ) najmanjša. Drevo Tα poišˇcemo s postopkom rezanja na osnovi cene kompleksnosti (angl. cost complexity pruning), kjer zaporedno zapiramo vozlišˇca drevesa, pri katerih je cˇ len ∑m nm Qm ( T ) v obrazcu (5.17) najmanjši. Zapiranje ponavljamo toliko cˇ asa, dokler ne zapremo vseh vozlišˇc. Na ta naˇcin pridemo do zaporedja poddreves, med katerimi nato izberemo Tα . Postopek je podrobneje predstavljen v Breiman in sod. (1984) in Ripley (2008), dober skrajšan prikaz pa ponuja Izenman (2008). Optimalno vrednost α doloˇcimo s preˇcnim preverjanjem. Klasifikacijska drevesa Pri klasifikacijskih drevesih lahko odvisna spremenljivka zasede eno od 1, 2, . . . , K vrednosti. V algoritmu za gradnjo drevesa je treba spremeniti kriterij za cepljenje in rezanje drevesa. V primeru regresije smo kot mero cˇ istosti vozlišˇca uporabili vrednost statistike Qm ( T ) v obrazcu (5.16). Za vozlišˇce m, ki ponazarja regijo Rm z nm primeri, naj bo pˆ mk = 1 nm ∑ I ( yi = k ) xi ∈ R m delež primerov, ki pripadajo razredu k. Primer v vozlišˇcu m bomo uvrstili v veˇcinski razred k (m) = arg maxk pˆ mk . Kot mero cˇ istosti vozlišˇca obiˇcajno vzamemo napako uvršˇcanja 1 nm Ginijev indeks ∑ i ∈ Rm I (yi 6= k (m)) = 1 − pˆ mk(m) , K ∑0 pˆ mk pˆ mk0 = ∑ pˆ mk (1 − pˆ mk ) ali križno entropijo k =1 k6=k K − ∑ pˆ mk log pˆ mk . k =1 Odnos med tremi razliˇcnimi merami neˇcistoˇce vozlišˇca je prikazan na sliki 5.6. Poleg metodologije CART se v praksi za gradnjo odloˇcitvenih dreves pogosto uporablja tudi podoben algoritem C4.5 (in C5.0). Natanˇcnejši opis razlik med njima bo bralec našel v X. Wu in sod. (2007). 85 5 Uvršˇcanje podatkov 0.5 Ent Gini Nečistoča 0.4 MSE 0.3 0.2 0.1 0.0 0.00 0.25 0.50 p 0.75 1.00 Slika 5.6: Entropija, Ginijev indeks oz. napaka uvršˇcanja kot funkcija deleža primerov v razredu 1. Navzkrižno entropijo smo standardizirali, tako da seka toˇcko (0.5, 0.5). Naključni gozdovi ˇ npr. uˇcno Za odloˇcitvena drevesa je znano, da imajo visoko razpršenost napovedi. Ce množico podatkov po sluˇcaju razpolovimo ter nad vsako polovico zgradimo odloˇcitveno drevo, bodo rezultati po vsej verjetnosti zelo razliˇcni. Temu problemu se lahko izognemo z uporabo nakljuˇcnih gozdov (angl. random forest). Nakljuˇcni gozdovi so sestavljeni iz skupka odloˇcitvenih dreves. Iz uˇcne množice s pomoˇcjo zankanja (angl. bootstraping) sestavimo B sluˇcajnih vzorcev, nad katerimi v nadaljevanju zgradimo odloˇcitvena drevesa. Obiˇcajno jih gradimo brez rezanja. Vsako drevo zgradimo na osnovi m prediktorjev, ki jih po sluˇcaju vzorˇcimo iz množice p prediktorjev. Obiˇcajno √ izberemo m ≈ p. Z nakljuˇcnim izborom spremenljivk se izognemo cˇ ezmernemu vplivu moˇcnih prediktorjev na rezultate uvršˇcanja. V povpreˇcju bomo namreˇc v ( p − m)/p uˇcnih podmnožicah tako spremenljivko izpustili iz uˇcenja. V primeru uvršˇcanja bomo nov primer uvrstili v tisti razred, ki je med B napovedmi najpogostejši. 5.2.6 Metoda podpornih vektorjev Obravnavajmo podatkovje z n podatkovnimi toˇckami ( x1 , y1 ), ( x2 , y2 ), . . . , ( xn , yn ), kjer sta xi = R p in yi = {−1, 1}. S predpisom n o x : f (x) = xT β + β0 = 0 (5.18) definirajmo hiperravnino z razsežnostjo p − 1, kjer je k βk = 1. S hiperravnino smo prostor možnih vrednosti spremenljivk razdelili na dva polprostora. Klasifikacijsko pravilo, ki ga v (5.18) inducira f ( x ), zapišemo kot h i G ( x ) = sign x T β + β 0 . Primer hiperravnine v dvorazsežnem prostoru je prikazan na sliki 5.7a. 86 5.2 Pregled metod uvršˇcanja Klasifikator z maksimalnim robom V nadaljevanju privzemimo, da lahko razrede popolnoma loˇcimo s hiperravnino. V tem primeru lahko konstruiramo neskonˇcno takih hiperravnin. Denimo, da izraˇcunamo razdalje med primeri in ravnino. Najkrajši taki razdalji pravimo rob (angl. margin) ravnine. Smiselno je izbrati tako hiperravnino, ki je kar najbolj oddaljena od uˇcnih primerov. Taki ravnini reˇcemo hiperravnina z najširšim robom (angl. maximal margin hyperplane). Poiskati moramo tako razmejitveno ravnino, ki bo karseda dobro loˇcevala oba razreda, pri kateri bo rob med uˇcnimi primeri za oba razreda karseda velik. Pokažemo lahko, da je hiperravnina z maksimalnim robom rešitev optimizacijskega problema (Hastie in sod., 2011): max (5.19) C β,β 0 p pri pogojih ∑ β2j = 1 (5.20) yi ( xiT β + β 0 ) ≥ C, ∀i = 1, . . . , n. (5.21) j =1 Omejitvi (5.19) in (5.20) zagotavljata, da bo vsak primer uvršˇcen na pravo stran hiperravnine ter za vsaj C oddaljen od nje. C oznaˇcuje rob hiperravnine, uteži pa izberemo tako, da bo ta karseda širok. Na sliki 5.7b najdemo tri podatkovne toˇcke, ki so od hiperravnine ˇ enako oddaljene. Takim toˇckam pravimo podporni vektorji (angl. support vectors). Ce iz uˇcne množice odstranimo vektorje, ki niso podporni, ostane rešitev optimizacijskega problema enaka. Klasifikator s podpornimi vektorji Pogostokrat pa podatki niso linearno loˇcljivi, zato optimizacijski problem (5.19)–(5.21) nima rešitve. V tem primeru razredov ne moremo popolnoma loˇciti. Ta problem rešimo z vpeljavo mehkega roba. Posplošitev klasifikatorja z maksimalnim robom na neloˇcljive podatke se imenuje klasifikator s podpornimi vektorji. Pri tem klasifikatorju dovolimo, da so nekateri primeri na napaˇcni strani hiperravnine oz. roba. Hiperravnino izberemo tako, da pravilno uvrstimo veˇcino primerov (Hastie in sod., 2011): max β,β 0 ,e (5.22) C p pri pogojih ∑ β2j = 1, (5.23) yi ( xiT β + β 0 ) ≥ C (1 − ei ), (5.24) ∑ ei ≤ M, (5.25) j =1 ei ≥ 0, n i =1 ∀i = 1, . . . , n, kjer je M nenegativni regularizacijski nastavitveni parameter. C oznaˇcuje širino roba, za katero želimo, da je karseda velika. Z e1 , . . . , en bomo oznaˇcili kazenske spremenljivke, s 87 5 Uvršˇcanje podatkov ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● X2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1 0 X1 1 (a) Širina venčnega lista 1.5 1.0 ● 0.5 ● ● ● ● ●●● ●● ●●●●●●●●●● ●● 2.0 2.5 ● ● ● 3.0 3.5 Širina čašnega lista ● ● ● 4.0 4.5 (b) Slika 5.7: Slika (a) prikazuje hiperravnino z enaˇcbo 1 + 2X1 + 3X2 = 0. Rdeˇce podroˇcje oznaˇcuje množico toˇck, za katere velja 1 + 2X1 + 3X2 > 0, modro podroˇcje pa toˇcke, kjer je 1 + 2X1 + 3X2 < 0. Slika (b) prikazuje klasifikator z maksimalnim robom. Polna cˇ rta oznaˇcuje hiperravnino, cˇ rtkane cˇ rte pa rob. Podporni vektorji so oznaˇceni z rdeˇco barvo. 88 5.2 Pregled metod uvršˇcanja y xT β + β 0 = 0 b ro C x (a) y e1 e2 e3 x (b) Slika 5.8: Klasifikator s podpornimi vektorji. Slika (a) prikazuje linearno loˇcljiv primer. Polna cˇ rta oznaˇcuje hiperravnino, cˇ rtkani cˇ rti pa omejujeta rob klasifikatorja s širino 2C. Slika (b) prikazuje linearno neloˇcljiv primer. Tri podatkovne toˇcke ležijo na napaˇcni strani roba; od roba so oddaljene za ei . 89 5 Uvršˇcanje podatkov katerimi dovolimo posameznim primerom, da so uvršˇceni na napaˇcno stran roba oz. hiperravnine. Kazenska spremenljivka ei nam pove, kje je primer i glede na hiperravnino in rob. ei = 0, cˇ e je primer uvršˇcen na provo stran roba, ei > 0, cˇ e je na napaˇcni strani roba in e1 > 1, cˇ e je na napaˇcni strani hiperravnine. S parametrom M omejimo vsoto ˇ je M = 0, so e1 = · · · = en = 0, model (5.22)–(5.24) pa se kazenskih spremenljivk. Ce reducira na klasifikator z najširšim robom. Za M > 0 je lahko na napaˇcni strani najveˇc M primerov, kajti cˇ e je primer na napaˇcni strani, je ei > 1. Z narašˇcanjem M narašˇca toleranca za kršitev in rob se širi. Ko M zmanjšujemo, se oži tudi rob. Vrednost parametra M obiˇcajno doloˇcimo na osnovi preˇcnega preverjanja. Z M nastavljamo razmerje med pristranostjo in razpršenostjo (gl. razdelek 5.3.2). Ko je M majhen, bo pristranost majhna, razpršenost pa visoka. Na hiperravnino vplivajo samo podporni vektorji in podatkovne toˇcke, ki kršijo rob. Ta klasifikator je odporen proti podatkovnim toˇckam, ki so moˇcno oddaljene od hiperravnine. Metoda podpornih vektorjev Klasifikator s podpornimi vektorji se dobro obnese na linearno loˇcljivih podatkih, odpove pa pri nelinearnih odnosih med spremenljivkami. Metoda podpornih vektorjev je nadgradnja klasifikatorja s podpornimi vektorji. Glavna ideja metode je, da vhodni prostor spremenljivk razširimo do te mere, da bo problem postal linearno loˇcljiv. Problem rešimo s preslikavo prostora spremenljivk v prostor znaˇcilk, v katerem poišˇcemo hiperravnino, ki podatke karseda dobro loˇci. V nadaljevanju obravnavamo zgolj glavno idejo metode.4 Pokažemo lahko (Hastie in sod., 2011), i) da pri doloˇcanju ravnine z najveˇcjim robom klasifikator s podpornimi vektorji zapišemo v obliki n f ( x ) = β 0 + ∑ αi h x, xi i , (5.26) i =1 kjer vsakemu od n primerov pripada neniˇcelni koeficient αi 5 , ter ii) da za oceno parametrov α1 , . . . , αn in β 0 potrebujemo le (n2 ) skalarnih produktov h xi , xi0 i med vsemi pari uˇcnih primerov. Klasifikator zapišemo v obliki Gˆ ( x ) = sign [ f ( x )] h i = sign β 0 + x T β . Pri raˇcunanju funkcije (5.26) za nov primer x je treba izraˇcunati skalarne produkte med novo podatkovno toˇcko x in vsakim od uˇcnih primerov xi . Izkaže se, da je αi neniˇceln 4 Bralec bo veˇc informacij našel npr. v Hastie in sod. (2011). αi so rešitve dualnega optimizacijskega programa. 5 Koeficienti 90 5.2 Pregled metod uvršˇcanja ˇ z S oznaˇcimo množico indeksov podpornih samo v primeru podpornih vektorjev. Ce vektorjev, lahko obrazec (5.26) prepišemo v obliko f (x) = β0 + ∑ αi hx, xi i . (5.27) i ∈S Metoda podpornih vektorjev pri raˇcunanju (5.26) oz. (5.27) skalarne produkte nadomesti s posplošitvijo K ( x i , x i 0 ), kjer je K funkcija, ki jo imenujemo jedro (angl. kernel). Dejanski preslikavi v visokorazsežni prostor se pri tem izognemo, tako da izraˇcunamo le vrednosti jedrne funkcije za vse pare vektorjev. Najpreprostejše je linearno jedro, ki je definirano kot p K ( xi , xi0 ) = ∑ xij xi0 j . j =1 V tem primeru je rešitev seveda enaka klasifikatorju s podpornimi vektorji. Pogosto je uporabljeno polinomsko jedro, ki je definirano kot p K ( xi , xi0 ) = 1 + ∑ xij xi0 j !d , j =1 kjer je d > 1. Uporaba takega jedra omogoˇci preslikavo vhodnega prostora spremenljivk v visokorazsežni prostor znaˇcilk, v katerem problem obiˇcajno postane linearno loˇcljiv. 5.2.7 Metoda najbližjih skrčenih centroidov Metoda najbližjih skrˇcenih centroidov (angl. nearest shrunken centroids) je razširitev uvršˇcanja na osnovi prototipov, kjer primer uvrstimo v tisti razred, pri katerem je razdalja med primerom in centroidom razreda najkrajša (Hastie in sod., 2011). Glavna ideja metode je, da posamezne komponente centroidov razredov krˇcimo proti celotnemu centroidu (Tibshirani, Hastie, Narasimhan & Chu, 2002, 2003). Na ta naˇcin izberemo tiste spremenljivke, pri katerih je moˇc diskriminacije med razredi najveˇcja. Z xij oznaˇcimo vrednost spremenljivke j = 1, 2, . . . , p za primer i = 1, 2, . . . , n. Primeri so razbiti v 1, 2, . . . , K razredov, kjer s Ck oznaˇcimo indekse nk primerov v razredu k. Komponenta j skupnega centroida je enaka x j = ∑in=1 xij/n, komponenta j centroida za razred k pa je enaka povpreˇcni vrednosti spremenljivke j v razredu k, torej x jk = ∑i∈Ck xij/nk . Za vsako spremenljivko izraˇcunamo t-statistiko, s katero primerjamo vrednost spremenljivke j v razredu k s skupnim centroidom. To storimo s pomoˇcjo obrazca d jk = x jk − x j m k s j + s0 , (5.28) 91 5 Uvršˇcanje podatkov kjer je s j skupni standardni odklon spremenljivke j, ki ga izraˇcunamo kot s2j = 1 n−K ∑∑ k i ∈Ck xij − xik 2 , √ in mk = 1/nk + 1/n. s0 je pozitivna konstanta, ki prepreˇcuje sluˇcajen pojav visokih vrednosti statistike d jk pri spremenljivkah, ki so nizko izražene. s0 obiˇcajno nastavimo na mediano vrednosti s j . S preureditvijo (5.28) lahko j-to komponento centroida za razred k izrazimo v obliki (5.29) x jk = x j + mk s j + s0 d jk . Vsak d jk v (5.29) krˇcimo proti vrednosti niˇc. Raven krˇcenja doloˇcimo s pragom krˇcenja ∆. Skrˇceni centroid je potem x 0jk = x j + mk s j + s0 d0jk , kjer je vrednost d0jk doloˇcena s predpisom ( d0jk = sign d jk 0 |d jk | − ∆ cˇ e t > 0, cˇ e t ≤ 0. S poveˇcevanjem parametra ∆ poveˇcujemo število spremenljivk, ki jih bomo izvzeli iz uvršˇcanja. Parameter ∆ obiˇcajno nastavimo s pomoˇcjo preˇcnega preverjanja. Nov primer x uvrstimo tako, da najprej izraˇcunamo diskriminantni dosežek v razredu k po obrazcu 2 p x j − x 0jk δk ( x ) = ∑ (5.30) 2 − 2 log πk . s j + s0 j =1 ˇ Clen 2 log πk v (5.30) se nanaša na popravek, ki temelji na apriorni verjetnosti posameznega razreda. Klasifikacijsko pravilo je potem Gˆ ( x ) = arg min (δk ( x )) . k 5.2.8 Logistična regresija Pri logistiˇcni regresiji odnos med neodvisno in odvisno spremenljivko modeliramo posredno, tako da izraˇcunamo verjetnost, da odvisna spremenljivka zasede enega od K razredov. Logistiˇcna regresija je razliˇcica diskriminativnega uˇcenja. Posteriorne verjetnosti K razredov opišemo s K − 1 logit transformacijami; v primeru dveh razredov je (Hastie in sod., 2011) Pr( X ) log = β 0 + β 1 X1 + · · · + β p X p , (5.31) 1 − Pr( X ) kjer je X = ( X1 , . . . , X p ). Posteriorno verjetnost izrazimo neposredno kot Pr( X ) = 92 exp( β 0 + β 1 X1 + · · · + β p X p ) . 1 + exp( β 0 + β 1 X1 + · · · + β p X p ) 5.2 Pregled metod uvršˇcanja Parametre modela β moramo oceniti na osnovi uˇcnih podatkov. Za oceno obiˇcajno uporabimo metodo najveˇcjega verjetja in Newton-Raphsonov algoritem (Hastie in sod., 2011). Odloˇcitveno pravilo zapišemo kot Gˆ ( x ) = arg max (Pr ( G = k | X = x )) . k Logistična regresija s kaznijo Standardne logistiˇcne regresije ne moremo uporabiti, kadar število spremenljivk presega število primerov p > n, saj v tem primeru ni mogoˇce oceniti parametrov modela (Hastie in sod., 2011; James in sod., 2013). Podobno je uporaba logistiˇcne regresije nepriporoˇcljiva tudi v primeru, ko je spremenljivk in primerov podobno veliko, saj so v tem primeru ocene regresijskih koeficientov zelo razpršene in nestabilne, ocenjeni model pa se preveˇc prilega podatkom iz uˇcne množice in je slabo posplošljiv. Kadar v logistiˇcnem modelu nastopa veliko spremenljivk, ki so med seboj moˇcno povezane (kolinearne), postanejo ocene regresijskih koeficientov nezanesljive in imajo veliko razpršenost. Ena od možnosti je krˇcenje regresijskih parametrov, za kar lahko uporabimo ridge ali lasso regresijo6 . Ridge regresija Pri ridge regresiji (Hoerl & Kennard, 1970) regresijske koeficiente dolocˇ imo tako, da minimizirajo kaznovano vsoto kvadratov ostankov: !2 p p n βˆ ridge = arg min ∑ yi − β 0 − ∑ β j xij + λ ∑ β2j , (5.32) i =1 β j =1 j =1 kjer je λ ≥ 0 parameter, s katerim nadzorujemo koliˇcino krˇcenja (angl. shrinkage penalty); višja ko je njegova vrednost, veˇcje je krˇcenje. Regresijske koeficiente krˇcimo proti niˇc. Ko je λ = 0, cˇ len kaznovanja nima vpliva, ocene regresijskih parametrov pa so enake ocenam po metodi najmanjših kvadratov. Z veˇcanjem λ → ∞ se koliˇcina kaznovanja veˇca, regresijski parametri pa se približujejo vrednosti niˇc (slika 5.9). Regresijska konstanta β 0 krˇcenju ni podvržena. Lasso regresija S kazensko funkcijo λ ∑ j β2j v (5.32) bomo parametre sicer skrˇcili, vendar bomo v model kljub temu vkljuˇcili vseh p prediktorjev. To pomanjkljivost ridge regresije odpravlja lasso regresija (Tibshirani, 1996). Pri lasso regresiji regresijske parametre doloˇcimo na podoben naˇcin: !2 p p n ˆβ lasso = arg min ∑ yi − β 0 − ∑ β j xij + λ ∑ | β j | . i =1 β j =1 j =1 Pri lasso regresiji se z veˇcanjem parametra λ veˇca verjetnost, da bodo nekateri regresijski koeficienti enaki niˇc. Lasso regresijo lahko zato uporabimo tudi kot metodo izbire spremenljivk (gl. poglavje 3). Vrednost parametra λ obiˇcajno doloˇcimo s pomoˇcjo preˇcnega preverjanja (Hastie in sod., 2011). 6 Idejo ridge in lasso regresije zaradi preglednosti prikaza razlagamo v navezavi na linearno regresijo. 93 5 Uvršˇcanje podatkov 0.6 Koeficient 0.4 0.2 0.0 −0.2 1 2 3 4 5 6 7 8 df(λ) Slika 5.9: Profil regresijskih koeficientov v odvisnosti od parametra krˇcenja λ pri ridge regresiji. Prikaz je narejen nad podatkovjem prostate iz R-jevega paketa ElemStatLearn. Na x-osi so prikazane efektivne stopnje prostosti (Hastie, Tibshirani & Friedman, 2011). 5.3 Ocenjevanje kakovosti uvrščanja 5.3.1 Napaka posplošitve Denimo, da obravnavamo metodo uvršˇcanja, kjer smo na osnovi parov uˇcnih podatkov (xi , yi ) ocenili parametre statistiˇcnega modela fˆ. Prediktorski spremenljivki lahko prilagodimo vrednosti odvisne spremenljivke fˆ( xi ) in opazujemo odklone napovedanih ˇ bodo ti odkloni majhni, bomo rekli, da je priˇcakovana vrednosti od pravih vrednosti yi . Ce napaka napovedi nad uˇcno množico majhna. Ta napaka pa nam ne pove dosti o kvaliteti naše napovedi, saj smo za testiranje uporabili isto množico podatkov kot za gradnjo statistiˇcnega modela. Veliko pomembnejše je namreˇc vprašanje, kako se bo naš model obnesel pri napovedi fˆ( x0 ), kjer je ( x0 , y0 ) primer, s katerim se naš statistiˇcni model še ni sreˇcal. Za objektivno oceno priˇcakovane napake napovedi je treba model preizkusiti nad testno množico podatkov. Taki napaki napovedi pravimo napaka posplošitve (angl. generalization error). Na prvi pogled se zdi, da se napaka napovedi med uˇcno in testno množico podatkov ne razlikuje pomembno. Izkaže pa se, da napake nad testno množico ne moremo preprosto izpeljati iz napake nad uˇcno množico podatkov, saj slednja ne upošteva kompleksnosti statistiˇcnega modela (Hastie in sod., 2011). Odnos med obema napakama v odvisnosti od kompleksnosti modela je prikazan na sliki 5.10. Napaka napovedi nad uˇcno množico podatkov se z veˇcanjem kompleksnosti modela zmanjšuje. Ob veliki kompleksnosti se bo model uˇcnim podatkom prilegal tako dobro (angl. overfitting), da bo njegova napaka posplošitve nad testnimi podatki velika. Podobno bo zaradi pristranosti modela napaka posplošitve velika ob njegovi premajhni kompleksnosti (angl. underfitting). V nadaljevanju razdelka bomo najprej osvetlili pojma pristranosti in razpršenosti statistiˇcnega modela, ki sta pomembna za teoretiˇcni vpogled v delovanje klasifikatorjev. Potem 94 5.3 Ocenjevanje kakovosti uvršˇcanja Množica 0.3 Učna MSE Testna 0.2 0.1 0.0 1 2 3 4 5 6 7 8 Kompleksnost 9 10 11 12 Slika 5.10: Napaka napovedi (MSE) nad uˇcno in testno množico podatkov v odvisnosti od kompleksnosti statistiˇcnega modela. Kompleksnost je predstavljena s številom prediktorskih spremenljivk. bomo obravnavali razliˇcne mere kakovosti uvršˇcanja, s katerimi lahko predstavimo dosežke klasifikatorjev in jih primerjamo med seboj. Razdelek bomo zakljuˇcili s pregledom statistiˇcnih postopkov za ocenjevanje napake uvršˇcanja. 5.3.2 Pristranost in razpršenost uvrščanja Denimo, da obravnavamo preprost statistiˇcni model Y = f ( X ) + e, kjer sta E(e) = 0 in Var(e) = σe2 . Priˇcakovano napako napovedi modela fˆ( X ) v toˇcki X = x0 lahko razˇclenimo takole (Hastie in sod., 2011): 2 ˆ EPE = E Y − f ( x0 ) | X = x0 h i2 h i2 = σe2 + E fˆ ( x0 ) − f ( x0 ) + E fˆ ( x0 ) − E fˆ ( x0 ) = σe2 + Pristranost2 fˆ ( x0 ) + Var fˆ ( x0 ) . (5.33) Prvi cˇ len v obrazcu (5.33) se nanaša na napako merjenja; zanj bomo privzeli, da je σe2 > 0. Posebej nas zanimata pristranost in razpršenost. Pristranost se nanaša na ustreznost izbranega statistiˇcnega modela za predstavitev problemske naloge. Za primer si oglejmo statistiˇcna modela na sliki 5.11a. Odnos med spremenljivkama je izrazito nelinearen, zato klasiˇcen linearni model (rdeˇca krivulja) ni ustrezen. Pravimo, da ima tak model veliko pristranost. Nasprotno se zelena krivulja podatkom prilega veliko bolje, zato reˇcemo, da je njena pristranost majhna. Razpršenost se nanaša na odklone cenilke fˆ, cˇ e jo ocenjujemo na razliˇcnih podatkovjih. V idealnem primeru seveda priˇcakujemo, da bodo ti odkloni karseda majhni. V statistiˇcnem modelu z veliko razpršenostjo bodo majhne spremembe v porazdelitvi uˇcnih podatkov povzroˇcile velike spremembe v cenilki fˆ. Modra krivulja na sliki 5.11a se podatkovnim toˇckam tesno prilega. Njena razpršenost je velika, saj bo minimalna sprememba porazdelitve podatkovnih toˇck zagotovo povzroˇcila spremembo 95 5 Uvršˇcanje podatkov vrednosti cenilke. Nasprotno se bo obnašala rdeˇca krivulja, pri kateri bo vpliv spremembe porazdelitve manj izrazit. V statistiˇcnem uˇcenju si prizadevamo zgraditi model, pri katerem bosta tako pristranost kot razpršenost karseda majhni. Iz definicije obeh koliˇcin izhaja, da se z narašˇcanjem kompleksnosti statistiˇcnega modela fˆ pristranost manjša, razpršenost pa narašˇca. Odnos med obema koliˇcinama je prikazan na sliki 5.11b. Kompleksnost modela smo ponazorili s stopnjo krˇcenja. Veˇcja ko je stopnja krˇcenja, manjša je kompleksnost statistiˇcnega modela in obratno. Optimalno razmerje med obema koliˇcinama bomo dosegli v toˇcki, kjer se krivulji obeh koliˇcin sekata. ● ● ● ● ● ● ●● ●● ● ● 10 ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ●● Y ● ● 5 ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● 0 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● 0.00 ● ● ●● ● 0.25 0.50 X 0.75 1.00 (a) 1.2 MSE 0.8 0.4 MSE Bias2 Var 0.0 0.0 0.1 0.2 0.3 Krčenje 0.4 0.5 (b) Slika 5.11: Slika (a) prikazuje tri statistiˇcne modele razliˇcnih kompleksnosti, s katerimi poskušamo opisati porazdelitev podatkovnih toˇck. Na sliki (b) je prikazan odnos med pristranostjo in razpršenostjo v odvisnosti od kompleksnosti statistiˇcnega modela. Za dodatna pojasnila gl. besedilo. V realni situaciji prave funkcije f seveda ne poznamo, zato pristranosti in razpršenosti ne moremo eksplicitno izraˇcunati. Oceno ustreznosti statistiˇcnega modela obiˇcajno doloˇcimo 96 5.3 Ocenjevanje kakovosti uvršˇcanja s postopki, ki so prikazani v razdelku 5.3.4. 5.3.3 Pregled mer kakovosti uvrščanja Za primerjavo razliˇcnih metod uvršˇcanja moramo vpeljati standardizirano metriko, s pomoˇcjo katere lahko ustrezno ovrednotimo kakovost metod (Japkowicz & Shah, 2011). V primeru problemske naloge, kjer uvršˇcamo primere v dva razreda, definirajmo dejanski pozitivni in dejanski negativni razred. Pozitivnemu razredu v domeni biomedicine obiˇcajno pripada primer, ki ima doloˇceno prouˇcevano lastnost, negativnemu razredu pa pripada tisti primer, ki te lastnosti nima (Blagus, 2011). Delovanje klasifikatorja lahko potem prikažemo v kontingenˇcni tabeli (slika 5.12). Dejanski razred Napovedani razred Pozitivni Negativni Pozitivni TP FP Negativni FN TN Slika 5.12: Kontingenˇcna tabela. Oznake TP, FP, FN in TN po vrsti oznaˇcujejo število pravilno pozitivnih, napaˇcno pozitivnih, napaˇcno negativnih in pravilno negativnih dogodkov. Najpogosteje uporabljeni meri kakovosti uvršˇcanja sta klasifikacijska toˇcnost (angl. classification accuracy) in stopnja napake (angl. misclassification rate). Na osnovi dogodkov iz kontingenˇcne tabele (slika 5.12) klasifikacijsko toˇcnost definiramo s predpisom Acc = TP + TN . TP + FP + FN + TN (5.34) Po potrebi lahko dogodka TP in TN pri izraˇcunu razliˇcno utežimo; potem govorimo o uteženi klasifikacijski toˇcnosti. Stopnjo napake definiramo s predpisom MER = 1 − Acc. Obe meri natanˇcnosti sta preprosti in intuitivni, vendar moramo za njuno pravilno ˇ porazdelitev uporabo poznati porazdelitev odvisne spremenljivke (Umek, 2011). Ce odvisne spremenljivke precej odstopa od normalne porazdelitve, doseže konstantni klasifikator, ki vsem novim primerom priredi pogostejšo vrednost odvisne spremenljivke, zavajajoˇce visoko klasifikacijsko toˇcnost. Literatura s podroˇcja strojnega uˇcenja takemu klasifikatorju pravi veˇcinski klasifikator, ki pa je za praktiˇcne namene povsem neuporaben. Primer 19. Denimo, da obravnavamo problemsko nalogo, kjer uˇcna množica vsebuje 10 % pozitivno in 90 % negativno oznaˇcenih primerov. Konstantni klasifikator vse primere uvrsti v negativni razred, tj. v razred, ki mu pripada veˇcina primerov. Toˇcnost takega klasifikatorja bo znašala 0.90 in bo nakazovala odliˇcno delovanje metode, zanemarila pa bo dejstvo, da nismo pravilno uvrstili nobenega primera, ki pripada pozitivnemu razredu. 97 5 Uvršˇcanje podatkov Mera obˇcutljivosti (angl. sensitivity) oz. priklic (angl. recall) klasifikatorja je definirana kot verjetnost, da pravilno uvrstimo dejansko pozitivno enoto, formalno Sens = TP . TP + FN (5.35) Prec = TP TP + FP (5.36) Podobno je s predpisom definirana preciznost (angl. precision) klasifikatorja. Preciznost v domeni statistike obiˇcajno nadomestimo s specifiˇcnostjo, ki pomeni verjetnost, da pravilno uvrstimo negativno enoto Spec = TN . TN + FP (5.37) Izraˇcun predstavljenih mer kakovosti si oglejmo na primeru, ki smo ga prilagodili po Umek (2011). Primer 20. Naj bo vzorec S = {(10, 0), (9, 1), (8, 1), (7, 0), (6, 1), (5, 0), (4, 1), (3, 1), (2, 0), (1, 1)}. Kot klasifikacijski model uporabimo logistiˇcno regresijo z uvršˇcevalno funkcijo f P ( x; β 0 , β 1 ) = e β0 + β1 x . 1 + e β0 + β1 x Po metodi najveˇcjega verjetja ocenimo parametra βˆ0 = −2.29 in βˆ1 = 0.53 ter uredimo primere glede na vrednosti funkcije fP = e−2.29+0.53x . 1 + e−2.29+0.53x Za prag klasifikacije vzemimo standardno vrednost p = 0.5. Povzetek klasifikacije je prikazan v tabeli 5.1. Tabela 5.1: Povzetek verjetnostnega klasifikatorja. fP 0.95 0.92 0.87 0.80 0.71 0.59 0.46 0.33 0.23 0.15 f Y 1 1 1 1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 0 0 Mere kakovosti verjetnostnega klasifikatorja bomo izraˇcunali s pomoˇcjo tabele 5.1. Klasifikacijsko toˇcnost izraˇcunamo tako, da preštejemo ujemanja med drugo in tretjo vrstico tabele ter jih delimo z velikostjo vzorca. V našem primeru znaša klasifikacijska toˇcnost Acc( f ) = 7/10 = 0.7. Obˇcutljivost klasifikatorja znaša 2/3, specifiˇcnost pa 1/2. 98 5.3 Ocenjevanje kakovosti uvršˇcanja Krivulja ROC in mera AUC Nekateri klasifikatorji poleg diskretnega rezultata (tj. razreda, ki mu pripada posamezen primer) podajo tudi številsko oceno, ki odraža pripadnost primera posameznemu razredu. Tak primer je npr. klasiˇcna logistiˇcna regresija, ki vrne oceno posteriorne verjetnosti za ˇ je posteriorna posamezen primer. Takemu klasifikatorju pravimo zvezni klasifikator. Ce verjetnost višja od prej izbrane pražne vrednosti, primer uvrstimo v pozitivni, sicer pa v negativni razred. Pražne vrednosti doloˇcajo množico toˇck v dvorazsežnem prostoru, ki jih lahko povežemo v ROC-krivuljo. Krivulja ROC (angl. receiver operating curve) je dvorazsežni opis delovanja klasifikatorja, s pomoˇcjo katerega predstavimo relativni kompromis med koristmi (dejansko pozitivni primeri) in stroški (lažno pozitivni primeri). Krivulja podaja razmerje med obˇcutljivostjo in specifiˇcnostjo klasifikatorja v odvisnosti od pražne vrednosti odloˇcitvenega pravila klasifikacije. Toˇcka (0,0) pomeni situacijo, ko klasifikator vse primere uvrsti v negativni razred, toˇcka (1,1) pa situacijo, ko so vsi primeri uvršˇceni v pozitivni razred. Toˇcka (0,1) pomeni popolno uvrstitev primerov. V ROC-prostoru je neka toˇcka “boljša” od druge, cˇ im bliže leži toˇcki (0,1). Diagonala med toˇckama (0,0) in (1,1) ponazarja sluˇcajni klasifikator. Klasifikatorji, katerih dosežki ležijo pod diagonalo, delujejo slabše od sluˇcajnega klasifikatorja, klasifikatorji nad diagonalo pa bolje od sluˇcajnega klasifikatorja. Kvaliteto klasifikatorja poleg krivulje ROC obiˇcajno predstavimo tudi s plošˇcino pod ROC-krivuljo (angl. area under the ROC curve). Mera AUC je omejena na interval [0, 1]. Pri klasifikatorju, ki bo primere uvršˇcal sluˇcajno, bo znašala AUC = 0.5, sicer pa bo plošˇcina pod krivuljo veˇcja. Formalno je mera AUC enaka verjetnosti, da bo klasifikator sluˇcajno izbran pozitivni primer rangiral višje kot sluˇcajno izbran negativni primer. Dosežek AUC interpretiramo s pomoˇcjo tabele 5.2, ki smo jo prilagodili po Swets (1988). Tabela 5.2: Interpretacija mere AUC AUC-vrednost Opisna ocena 0.90–1.00 0.80–0.89 0.70–0.79 0.60–0.69 0.50–0.59 odliˇcno dobro povpreˇcno zadovoljivo neustrezno Primer 21. Vrednost statistike AUC bomo za ilustracijo razbrali grafiˇcno, tako da bomo narisali krivuljo ROC (slika 5.13). Enotski kvadrat [0, 1] × [0, 1] bomo po abscisni osi razdelili na štiri, po ordinatni osi pa na šest delov. Postavimo se v toˇcko (0,0) in se sprehodimo preko seznama primerov, ki smo ga uredili padajoˇce glede na vrednosti f P . Ko naletimo na primer, za katerega je yi = 1, se na mreži prestavimo za en korak navzgor, sicer pa za enega v desno. Risanje krivulje konˇcamo v toˇcki (1,1). Pod krivuljo je 18 pravokotnikov, vsak izmed njih ima plošˇcino 1/24, statistika AUC zato znaša 20/24 = 0.83. 99 5 Uvršˇcanje podatkov 1 5/6 občutljivost 4/6 3/6 2/6 1/6 0 0 1/4 2/4 3/4 1 − specifičnost 1 Slika 5.13: ROC-krivulja 5.3.4 Pregled postopkov za ocenjevanje kakovosti uvrščanja V tem razdelku bomo naredili pregled najpogosteje uporabljenih postopkov za ocenjevanje kakovosti uvršˇcanja.7 V pregledu bomo sledili oznakam, ki so jih predlagali Boulesteix in sod. (2008). Z l = (l1 , . . . , l L ) bomo oznaˇcili indekse primerov, ki bodo vkljuˇceni v uˇcno množico podatkov; to bomo oznaˇcili z Dl . L naj oznaˇcuje število primerov v uˇcni množici. Na enak naˇcin bomo s t oznaˇcili indekse primerov v testni množici, pripadajoˇco testno množico podatkov pa s Dt . T naj oznaˇcuje število primerov v testni množici. V nadaljevanju razdelka bomo videli, da lahko razbitji l in t pripravimo na veˇc razliˇcnih naˇcinov. Z f Dl bomo oznaˇcili klasifikator, ki za uˇcenje uporabi množico podatkov Dl . V nadaljevanju se eˆ nanaša na cenilko, s katero ocenjujemo napako uvršˇcanja; po potrebi jo lahko nadomestimo z drugo mero kakovosti, npr. specifiˇcnostjo ali obˇcutljivostjo. Resubstitucija Ocena napake klasifikacije na uˇcni množici podatkov (angl. resubstitution) je najpreprostejša ter s statistiˇcnega vidika najslabša strategija ocenjevanja napake uvršˇcanja. Klasifikator uˇcimo in preizkusimo na isti podatkovni množici Dl , v katero vkljuˇcimo vse razpoložljive primere. Cenilko zapišemo kot eˆresub (D) = 7 Ker 1 n I (yi 6= f D ( xi )) . n i∑ =1 jih v nadaljevanju ne potrebujemo, bomo v pregledu izpustili nekatere postopke, kot so npr. samovzorcˇ enje (angl. bootstrap sampling), kombinacija samovzorˇcenja s preˇcnim preverjanjem z izpustitvijo primera ter cenilki 0.632 in 0.632+. Bralec bo veˇc podrobnosti našel npr. v Hastie in sod. (2011) ali Japkowicz in Shah (2011). 100 5.3 Ocenjevanje kakovosti uvršˇcanja Taka cenilka je moˇcno pristrana navzdol, kar pomeni, da je lahko prava napaka klasifikatorja precej veˇcja od ocenjene. Ocenjeni rezultati uvršˇcanja bodo dobri, saj smo klasifikator podatkom dobro prilagodili. Nasprotno bo napaka posplošitve velika (Boulesteix in sod., 2008). V tem primeru se sreˇcamo z uˇcinkom preprileganja modela podatkov, ki smo ga podrobneje obravnavali v razdelku 5.3.1. V splošnem tudi velja, da se tako ocenjena napaka s poveˇcevanjem kompleksnosti modela zmanjšuje. Neodvisna testna množica Kakovost klasifikatorja je smiselno preizkusiti na neodvisni množici podatkov, tako da za uˇcenje uporabimo eno, za preverjanje kakovosti pa drugo množico. Oceno napake uvršˇcanja v tem primeru izraˇcunamo po obrazcu 1 T eˆtest (D, (l, t)) = T ∑ I (yt i =1 i 6= f Dl ( xti )) , kjer vektorja indeksov l in t tvorita polno razbitje {1, . . . , n}, tako da velja t = {1, . . . , n} \ l. Za razliko od resubstitucije pri tem postopku lahko vnesemo komponento sluˇcajnosti, tako da razbitje primerov na uˇcno in testno množico pripravimo po sluˇcaju. Ker uˇcna množica vsebuje L < n primerov, je ocena napake višja kot v primeru resubstitucije. Pravimo, da je cenilka pozitivno pristrana. Do podobnega uˇcinka prihaja pri vseh tistih postopkih, kjer uˇcno množico zmanjšamo na raˇcun primerov, ki jih uvrstimo v testno množico podatkov. Prečno preverjanje Preˇcno preverjanje (angl. cross-validation) je najpogosteje uporabljena strategija ocenjevanja kakovosti uvršˇcanja. Bistvo postopka je, da klasifikator zaporedoma preizkusimo na vseh primerih. Primere {1, . . . , n} razbijemo na m približno enako velikih podmnožic (pregibov), ki jih oznaˇcimo z indeksi t(1) , . . . , t(m) . Postopek ocenjevanja je sestavljen iz zaporedja m iteracij. V iteraciji j primere, oznaˇcene s t( j) , uvrstimo v testno množico, preostale primere pa v uˇcno množico, tako da je l ( j) = {1, . . . , n} \ t( j) . Razred primerov iz Dt( j) napovemo na osnovi klasifikatorja f D ( j) , nauˇcenega nad množico podatkov Dt( j) . t Z opisanim postopkom dobimo napoved razreda za vsakega od n primerov. Oceno napake izraˇcunamo kot povpreˇcje deležev napaˇcnih uvrstitev preko m iteracij po obrazcu eˆCV D, t( j) m j=1,...,m = n t( j) ( j) ( j) ˆ e D, l , t . ∑ n test j =1 (5.38) ˇ so pregibi t(1) , . . . , t(m) enako veliki, se (5.38) poenostavi v Ce eˆCV D, t ( j) j=1,...,m = 1 m m ( j) ( j) ˆ e D, l , t . ∑ test j =1 101 5 Uvršˇcanje podatkov Število pregibov doloˇcimo arbitrarno; obiˇcajni izbiri sta m = 5 oz. m = 10. S poveˇcevanjem števila pregibov se pristranost manjša, razpršenost pa poveˇcuje. Poseben primer preˇcnega preverjanja je preˇcno preverjanje z izpustitvijo primera (angl. leave-one-out cross-validation), pri katerem v vsaki od m = n iteracij en primer uvrstimo v testno množico podatkov, preostale primere pa v uˇcno množico podatkov. Oceno napake v tem primeru izraˇcunamo po obrazcu eˆLOOCV (D) = 1 n n ∑ eˆtest (D, ({1, . . . , n} \ i, i)) . j =1 Cenilka je praktiˇcno nepristrana, saj je klasifikator zgrajen nad n − 1 primeri. Ker so uˇcne množice med seboj zelo podobne, ima cenilka nasprotno visoko razpršenost (Boulesteix in sod., 2008). Podvzorčenje Podobno kot preˇcno preverjanje s pregibanjem je tudi podvzorˇcenje sestavljeno iz zaporedja iteracij, v katerih klasifikator zgradimo in preizkusimo na množici uˇcnih oz. testnih podatkov. Postopek temelji na veˇckratnem razbitju podatkovja na uˇcno in testno množico. Oceno napake potem izraˇcunamo kot povpreˇcje preko vseh razbitij. Za razliko od preˇcnega preverjanja s pregibanjem pri podvzorˇcenju testne množice ne tvorijo razbitja {1, . . . , n}. Uˇcno množico z indeksom primerov l(b) (b = 1, . . . , B) sestavimo po sluˇcaju, brez ponavljanja primerov, na osnovi množice {1, . . . , n}. Pripadajoˇco testno množico sestavljajo primeri t(b) = {1, . . . , n} \ l(b) . Razmerje nl(b) : nt(b) nastavimo poljubno, obiˇcajno na 2 : 1, 4 : 1 ali 9 : 1. Oceno napake izraˇcunamo po obrazcu eˆMCCV D, l (b) b=1,...,B = 1 B eˆtest D, l(b) , t(b) . ∑ B b =1 Cenilka ima manjšo razpršenost kot pri preˇcnem preverjanju z izpustitvijo primera, saj so uˇcne množice med seboj manj podobne. Po drugi strani je cenilka pozitivno pristrana, ker so uˇcne množice zmanjšane na raˇcun testnih primerov. 102 6 Diskretizacija zveznih spremenljivk 6.1 Uvod Napredna analiza podatkov zahteva izˇcrpno predpripravo podatkov (Pyle, 1999). Ta je obiˇcajno sestavljena iz sosledja veˇc korakov, med katerimi gre izpostaviti zlasti (i) cˇ išˇcenje podatkov, (ii) integracijo razliˇcnih podatkovnih virov, (iii) krˇcenje podatkov ter (iv) razliˇcne transformacije podatkov (J. Han, Kamber & Pei, 2012). V splošnem je diskretizacija postopek krˇcenja vrednosti spremenljivk v podatkovni matriki, pri katerem zvezne vrednosti nadomestimo z diskretnimi. Gre za enega od najpogosteje uporabljenih postopkov predpriprave podatkov (H. Liu, Hussain, Tan & Dash, 2002). V nadaljevanju poglavja bomo postopek diskretizacije podrobneje opredelili, navedli prednosti diskretizacije ter podali sistematiˇcen pregled razliˇcnih pristopov k diskretizaciji. 6.2 Tipi spremenljivk Glede na zalogo vrednosti v statistiki poznamo kategoriˇcne in številske spremenljivke (Agresti & Franklin, 2013). Za kategoriˇcno spremenljivko velja, da lahko njene vrednosti uredimo v razliˇcne kategorije, razrede oz. intervale. Nekatere kategoriˇcne spremenljivke lahko celo uredimo po velikosti, v nobenem primeru pa nad njimi ne moremo izvajati raˇcunskih operacij. Primer kategoriˇcne spremenljivke je npr. tip krvi. Nad številskimi spremenljivkami lahko po drugi strani izvajamo raˇcunske operacije. Številska spremenljivka je lahko diskretna ali zvezna. Zaloga vrednosti diskretne spremenljivke so doloˇcene diskretne vrednosti, zaloga vrednosti zvezne spremenljivke pa je omejeno oz. neomejeno obmoˇcje števil. Glede na tip merske lestvice loˇcimo med imenskimi (nominalnimi), urejenostnimi (ordinalnimi), razmiˇcnimi (intervalnimi) in razmernostnimi (racionalnimi) spremenljivkami (Stevens, 1946). Lastnosti merskih lestvic so prikazane v tabeli 6.1. Imenske in urejenostne spremenljivke obiˇcajno ustrezajo kategoriˇcnim, razmiˇcne in razmernostne pa številskim 103 6 Diskretizacija zveznih spremenljivk spremenljivkam. Tabela 6.1: Lastnosti merskih lestvic Merska lestvica N Urejenost Enakost intervalov Zaˇcetna toˇcka O I R • • • • • • Legenda: N – imenska, O – urejenostna, I – intervalna, R – razmernostna 6.3 Opredelitev diskretizacije Diskretizacija je postopek, pri katerem zvezne vrednosti spremenljivke razbijemo na ustrezno število intervalov, tako da vsak interval pomeni svojo kategorijo. Diskretne vrednosti ponazarjajo intervale v razponu zveznih vrednosti. Medtem ko je število zveznih vrednosti za izbrano spremenljivko neskonˇcno, je število diskretnih vrednosti omejeno. Toˇcka loma je vrednost, ki razpon zveznih vrednosti razcepi na dva intervala. Toˇcke loma lahko seveda doloˇcamo poljubno, vendar pa je v ta namen smiselno uporabiti namenske algoritme. Nekaj takih algoritmov obravnavamo v nadaljevanju poglavja. Rezultat diskretizacije formalno predstavimo z razbitjem zvezne spremenljivke X na m diskretnih intervalov D = {[d0 , d1 ], (d1 , d2 ], . . . , (dm−1 , dm ]}, kjer je d0 minimalna vrednost, dm maksimalna vrednost in di < di+1 za i = 0, 1, . . . , m − 1. Razbitju D pravimo tudi diskretizacijska shema spremenljivke X. Množico pripadajoˇcih toˇck loma oznaˇcimo s P = { d 1 , d 2 , . . . , d m −1 } . 6.3.1 Prednosti diskretizacije Pregled empiriˇcne evidence odkriva nekatere pomembne prednosti, ki govorijo v prid uporabe diskretnih spremenljivk. Reprezentacija znanja s pomoˇcjo diskretnih spremenljivk je lažja in uˇcinkovitejša (H. A. Simon, 1996); z diskretizacijo podatke koliˇcinsko zmanjšamo in poenostavimo oz. abstrahiramo (van Harmelen in sod., 2008). Diskretne vrednosti so za razumevanje nekaterih problemskih nalog primernejše, ker z njimi lažje miselno manipuliramo. Diskretizacija pripomore k uˇcinkovitejšemu in hitrejšemu uˇcenju klasifikatorjev (J. Dougherty in sod., 1995). V splošnem so rezultati postopkov uvršˇcanja z diskretnimi spremenljivkami nazornejši (npr. odloˇcitvena drevesa), krajši (npr. asociacijska pravila) ter zanesljivejši kot pri zveznih spremenljivkah. Rezultati so zato poslediˇcno bolj posplošljivi in primerljivi med seboj. Ne nazadnje lahko nekatere algoritme strojnega uˇcenja uporabimo le na diskretnih podatkih. Kar tri izmed 10 najpogosteje uporabljenih metod na podroˇcju podatkovnega rudarjenja (X. Wu in sod., 2007) na vhodu zahtevajo diskretne podatke: C4.5, Apriori in naivni Bayesov klasifikator. 104 6.4 Lastnosti metod diskretizacije 6.4 Lastnosti metod diskretizacije Optimalna diskretizacija spremenljivke je NP-polni problem (Chlebus & Nguyen, 1998). Pregled literature odkriva številne pristope k diskretizaciji spremenljivk. Bakar, Othman in Shuib (2009) navajajo 70 razliˇcnih postopkov diskretizacije. O podobnem številu algoritmov poroˇcajo tudi García, Luengo, Sáez, López in Herrera (2013). Dober sistematiˇcen pregled podroˇcja ponujajo H. Liu in sod. (2002), Y. Yang, Webb in Wu (2010) ter García in sod. (2013). Pred vpeljavo sodobnih metod diskretizacije podatkov so se v ta namen uporabljale preproste tehnike uvršˇcanja (angl. binning), kot sta npr. metoda enake širine intervalov (angl. equal width) in metoda enake zastopanosti intervalov (angl. equal frequency). Z rastjo potreb po cˇ im veˇcji natanˇcnosti metod podatkovne analitike so se hitro razvijale tudi metode diskretizacije. V zadnjih desetletjih je bila razvita množica pristopov za diskretizacijo zveznih spremenljivk, ki so pokazali, da obstaja potencial za redukcijo koliˇcine podatkov, medtem ko hkrati obdržimo ali celo izboljšamo kakovost uvršˇcanja. Metode diskretizacije so se vzporedno razvijale na razliˇcnih znanstvenih podroˇcjih ter za razliˇcne potrebe podatkovne analitike. Klasiˇcna delitev metod diskretizacije deli pristope k diskretizaciji na nadzorovane in nenadzorovane, dinamiˇcne in statiˇcne, globalne in lokalne, na metode cepitve in združevanja ter na posredne in neposredne pristope. V nadaljevanju bomo na kratko osvetlili vsakega od naštetih sklopov. Nenadzorovane metode diskretizacije optimalne toˇcke loma doloˇcijo le na osnovi vrednosti neodvisnih spremenljivk, medtem ko nadzorovane metode upoštevajo tudi informacijo o razredu primerov. Primera nenadzorovane diskretizacije sta npr. metoda enake širine intervalov in metoda enake zastopanosti intervalov. Med tipiˇcne predstavnike uvršˇcamo še metodi PKID in FFD (Y. Yang & Webb, 2008) ter metodo MVD (Bay, 2001). Diskretizacija je v splošnem namenjena problemskim nalogam s podroˇcja uvršˇcanja, zato v literaturi najdemo veˇc pristopov, ki omogoˇcajo nadzorovano diskretizacijo. Tipiˇcna predstavnika metod nadzorovane diskretizacije sta npr. MDLP (Fayyad & Irani, 1993) in algoritem ChiMerge (Kerber, 1992). Statiˇcne metode diskretizacijo opravijo pred gradnjo klasifikatorja in so od uˇcnega algoritma neodvisne (H. Liu in sod., 2002). Veˇcino algoritmov diskretizacije uvršˇcamo v to kategorijo. Dinamiˇcne metode diskretizacijo zveznih vrednosti opravijo med gradnjo klasifikatorja. Obiˇcajno je v tem primeru diskretizacija že integrirana v klasifikator. Primera take metode sta npr. ID3 (Quinlan, 1993) in ITFP (Au, Chan & Wong, 2006). Lokalne metode opravijo diskretizacijo v omejenem podroˇcju prostora primerov (tj. na podmnožici primerov), medtem ko globalne metode za diskretizacijo uporabijo celoten prostor primerov (Chmielewski & Grzymala-Busse, 1996). Lokalne metode so obiˇcajno povezane z dinamiˇcno diskretizacijo. Med lokalnimi metodami se najpogosteje uporabljata MDLP (Fayyad & Irani, 1993) in ID3 (Quinlan, 1993). Metode od zgoraj navzdol zaˇcnejo proces diskretizacije s praznim seznamom toˇck loma; nove toˇcke loma se nato dodajajo na seznam s cepitvijo intervalov. Primer take metode je npr. preprosta diskretizacija na osnovi enake širine intervalov. Metode od spodaj navzgor diskretizacijo zaˇcnejo s seznamom vseh zveznih vrednosti, ki jih nato z združevanjem sosednjih intervalov postopoma odstranjujejo. Primer takega pristopa je npr. algoritem 105 6 Diskretizacija zveznih spremenljivk Chi2 (H. Liu & Setiono, 1997). Hibridne metode diskretizacije kombinirajo oba pristopa; primera sta diskretizatorja CADD (Ching, Wong & Chan, 1995) in WEDA (Flores, Inza & Larrañaga, 2007). V literaturi zasledimo tudi pristope, ki lahko v istem koraku razcepijo (oz. združijo) veˇc intervalov hkrati (C.-H. Lee, 2007; F. Ruiz, Angulo & Agell, 2008). Direktne metode razdelijo razpon zveznih vrednosti na k intervalov soˇcasno, pri tem pa mora uporabnik sam podati ustrezno vrednost parametra k. Primer takega pristopa je npr. metoda enake širine intervalov. Inkrementalne oz. hierarhiˇcne metode diskretizacijo opravijo v veˇc korakih. Postopek iskanja optimalnih toˇck loma ponavljajo, dokler ne zadostijo ustavitvenemu kriteriju (Cerquides & De Mántaras, 1997). Primera hierarhiˇcnih metod sta npr. MDLP (Fayyad & Irani, 1993) in ChiMerge (Kerber, 1992). Enorazsežne metode diskretizirajo vsako spremenljivko posebej, medtem ko veˇcrazsežne metode opravijo diskretizacijo veˇc spremenljivk hkrati. Slednje pri doloˇcanju optimalnih toˇck loma upoštevajo korelacijo med spremenljivkami. Veˇcrazsežne metode se uporabljajo zlasti pri deduktivnem uˇcenju (Bay, 2001) in kompleksnih problemih uvršˇcanja (Ping Yang, Li & Huang, 2011). Primera veˇcrazsežnih diskretizatorjev sta npr. FastICA (Kang in sod., 2006) in ConMerge (K. Wang & Liu, 1998). 6.5 Postopek diskretizacije V tem razdelku bomo opisali splošni okvir diskretizacije ene spremenljivke; diskretizacije veˇcrazsežnih podatkovij v nalogi ne obravnavamo. Postopek diskretizacije lahko opišemo v štirih korakih (H. Liu in sod., 2002): (i) ureditev vrednosti zvezne spremenljivke; (ii) doloˇcitev in ovrednotenje toˇcke loma pri metodah cepitve oz. dveh sosednjih intervalov pri metodah združevanja; (iii) cepitev oz. združevanje zveznih intervalov po izbranem kriteriju ter (iv) ustavitev postopka diskretizacije. Posamezni koraki postopka so prikazani na sliki 6.1. Vse metode diskretizacije, ki jih v nadaljevanju obravnavamo, zahtevajo, da so zvezne vrednosti atributa urejene po velikosti. Urejanje je raˇcunsko zahtevna naloga, zato je treba pri implementaciji metode izbrati cˇ im bolj optimalen algoritem urejanja. Osrednjo vlogo v postopku diskretizacije ima iskanje optimalne toˇcke loma, na osnovi katere cepimo obseg zveznih vrednosti. Pri metodah združevanja analogno temu išˇcemo optimalen par sosednjih intervalov, ki ju bomo združili. Optimalnost rešitve ovrednotimo z izbrano kriterijsko funkcijo (npr. pri metodi MDLP (Fayyad & Irani, 1993) v ta namen uporabimo entropijo, pri metodi ChiMerge (Kerber, 1992) pa stopnjo povezanosti spremenljivke z razredom). Konec diskretizacije doloˇca ustavitveni kriterij. Ustavitveni kriterij obiˇcajno sestavimo tako, da upošteva kompromis med preprostostjo in natanˇcnostjo rešitve. Kriterij je lahko preprost (npr. fiksno število intervalov pri metodi enake širine intervalov) ali bolj kompleksen (npr. stopnja cˇ istosti intervala pri metodi ID3 (Quinlan, 1993)). 106 6.5 Postopek diskretizacije Zvezna spremenljivka Uredi spremenljivko Doloˇci toˇcko reza / sosednja intervala Mera evaluacije ne Mera ustreza da Cepi / združi spremenljivko ne Ustavitveni kriterij da Diskretna spremenljivka Slika 6.1: Proces diskretizacije. Prikaz je prirejen po H. Liu, Hussain, Tan in Dash (2002). 107 6 Diskretizacija zveznih spremenljivk 6.5.1 Kriteriji za primerjanje metod diskretizacije Posebno pozornost je treba nameniti ovrednotenju rezultatov diskretizacije. Gre za kompleksen problem, ki je v veliki meri odvisen od uporabnikovih potreb. Primerjava rezultatov med razliˇcnimi metodami diskretizacije obiˇcajno sloni na veˇc razsežnostih; za primerjavo najpogosteje uporabimo (García in sod., 2013; H. Liu in sod., 2002): (i) število intervalov, (ii) število nekonsistentnosti, (iii) napovedno toˇcnost in (iv) cˇ asovno kompleksnost. V nalogi bomo za oceno kakovosti diskretizacije uporabili naslednje mere: (i) toˇcnost uvršˇcanja, (ii) plošˇcino pod ROC-krivuljo, (iii) robustnost, (iv) stabilnost in (v) kompleksnost. Opis prvih dveh mer bo bralec našel v razdelku 5.3.3, preostale mere pa opišemo v nadaljevanju. Robustnost Robustnost definiramo kot razmerje med toˇcnostjo uvršˇcanja v testni in uˇcni množici diskretiziranih podatkov (Boullé, 2006), formalno Robustnost = AccT . AccL Robustnost odraža stopnjo preprileganja metode diskretizacije. Stabilnost Stabilnost meri obˇcutljivost metode izbire spremenljivk za razlike v uˇcnih podatkovjih. Odraža stopnjo, do katere razliˇcne uˇcne množice podatkov vplivajo na izbiro spremenljivk. Diskretizacijo lahko obravnavamo kot metodo izbire spremenljivk, tako da spremenljivke z netrivialno diskretizacijsko shemo izberemo, spremenljivke s trivialno diskretizacijsko shemo pa zavržemo (Lustgarten, Visweswaran, Gopalakrishnan & Cooper, 2011). Pravimo, da ima spremenljivka trivialno diskretizacijsko shemo, cˇ e je diskretizirana v en sam interval. Za oceno stabilnosti izraˇcunamo podobnost s med podatkovjema Di in D j po obrazcu s ( Di , D j ) = r − ki k j/n , min(k i , k j ) − ki k j/n kjer je k i število spremenljivk v podatkovju D j , k j število spremenljivk v podatkovju D j , r število spremenljivk, ki so skupne v obeh podatkovjih, n pa skupno število spremenljivk. Stabilnost je definirana na intervalu [−1, 1]. Stabilnost zasede vrednost 0, ko število skupnih spremenljivk doloˇcimo po sluˇcaju, tako da sluˇcajno izberemo k i oz. k j spremenljivk izmed n spremenljivk. Stabilnost zasede vrednost 1, ko obe podatkovji vsebujeta enake ˇ sta eno ali obe podatkovji sestavljeni iz samih trivialnih spremenljivk spremenljivke. Ce oz. cˇ e obe podatkovji sestavljajo same netrivialne spremenljivke, je vrednost s(Di , D j ) nedefinirana in jo arbitrarno postavimo na vrednost niˇc. 108 6.6 Pregled metod za diskretizacijo zveznih spremenljivk Kompleksnost Kompleksnost diskretizacije je definirana s številom induciranih intervalov. Veˇcje je število intervalov, veˇcja je kompleksnost diskretizacijske sheme. 6.6 Pregled metod za diskretizacijo zveznih spremenljivk Metode diskretizacije lahko razvrstimo glede na razliˇcne razsežnosti, kot smo to prikazali v razdelku 6.4. Za lažji pregled metod diskretizacije so H. Liu in sod. (2002) na osnovi omenjenih razsežnosti predlagali razvrstitev metod v hierarhijo. Hierarhijo sestavljajo trije nivoji. Prvi nivo loˇcuje med metodami cepljenja zveznih vrednosti na intervale in metodami, ki združujejo sosednje intervale. Drugi nivo metode deli na nenadzorovane in nadzorovane. Na tretjem nivoju so metode združene glede na kriterijsko funkcijo, ki jo uporabimo za doloˇcanje toˇck loma. Hierarhija je prikazana na sliki 6.2. V nadaljevanju bomo naredili pregled nekaterih najpogosteje uporabljenih metod diskretizacije. 6.6.1 Metode cepitve Najprej si oglejmo splošni algoritem, ki ga uporabljajo metode diskretizacije, ki temeljijo na cepitvi intervalov (algoritem 3). Algoritem sestavljajo štirje glavni koraki: (i) ureditev vrednosti spremenljivke po velikosti, (ii) iskanje optimalnih toˇck loma, (iii) cepitev obsega zveznih vrednosti na izbranih toˇckah loma ter (iv) zakljuˇcek diskretizacije ob zadostitvi ustavitvenemu pogoju. Ob zaˇcetku diskretizacije so vse zvezne vrednosti uvršˇcene v en interval. Postopek cepitve intervalov je prikazan na sliki 6.3. Uvrščanje v intervale Uvršˇcanje v intervale (angl. binning) je najpreprostejši pristop za diskretizacijo zveznih spremenljivk. Metode tega sklopa so tipiˇcni predstavniki nenadzorovane diskretizacije. Intervale lahko tvorimo glede na enako širino intervalov ali glede na enako frekvenco vrednosti v intervalih. Metoda enake širine in enake frekvence intervala Pri obeh metodah moramo vnaprej doloˇciti ustrezno število intervalov k (angl. bins). Vsak interval ponazarja eno diskretno vrednost. Pri metodi enake širine (Y. Yang in sod., 2010) razpon zveznih vrednosti med najmanjšo (vmin ) in najveˇcjo (vmax ) vrednostjo razdelimo v k intervalov tako, da so vsi intervali enako široki (slika 6.4). Širina intervala znaša w = (vmax − vmin )/k, toˇcke loma pa sledijo zaporedju vmin + w, vmin + 2w, . . . , vmin + (k − 1)w. Primer 22. Denimo, da želimo diskretizirati spremenljivko z vrednostmi 16, 24, 18, 16, 4, 28, 26, 0, 12. 109 6 Diskretizacija zveznih spremenljivk Diskretizacija Cepljenje Združevanje Nadzorovano Nenadzorovano Nadzorovano Odvisnost Uvrščanje Entropija Uvrščanje Odvisnost Točnost ChiMerge Chi2 ConMerge EW EF ID3 D2 MDLP Mantaras 1R Zeta AQ Slika 6.2: Hierarhiˇcni pregled metod diskretizacije. Prikaz je prirejen po H. Liu, Hussain, Tan in Dash (2002). Algoritem 3: Diskretizacija zvezne spremenljivke s cepitvijo intervalov Podatki: S = Urejene vrednosti spremenljivke f Procedura Cepitev(S) cˇ e UstavitveniKriterij() potem vrni; T = DoločiOptimalnoTočkoLoma(S); S1 = DoločiLeviPodinterval(S, T); S2 = DoločiDesniPodinterval(S, T); Cepitev(S1 ); Cepitev(S2 ); d1 d m −1 d2 x (1) x (2) x (3) x (4) x x (5) x (6) x (7) x (8) x (9) ··· ··· zm x( j) · · · x(n) z z1 z2 z3 Slika 6.3: Diskretizacija zvezne spremenljivke s cepitvijo intervalov. Zvezne vrednosti spremenljivke so oznaˇcene z x(1) , . . . , x(n) , z1 , . . . , zm pa oznaˇcujejo diskretne vrednosti. Rdeˇce toˇcke ponazarjajo toˇcke loma na zvezni spremenljivki. x Slika 6.4: Diskretizacija na osnovi enake širine intervalov 110 6.6 Pregled metod za diskretizacijo zveznih spremenljivk Vrednosti najprej uredimo po velikosti: 0, 4, 12, 16, 16, 18, 24, 26, 28. Spremenljivko bomo uredili v k = 3 enako široke intervale, tako da bo širina intervala znašala w = (28 − 0)/3 ≈ 10. Diskretizirane vrednosti so predstavljene v tabeli 6.2. Tabela 6.2: Urejanje zveznih vrednosti v enako široke intervale 0 4 12 [0, 10] 16 16 18 24 (10, 20] 26 28 (20, 30] Metoda enakih frekvenc (Y. Yang in sod., 2010) obseg urejenih zveznih vrednosti uvrsti v k intervalov tako, da vsak interval obsega približno enako število primerov. Primeri z enakimi vrednostmi so uvršˇceni v isti interval. Postopek uvršˇcanja je prikazan na sliki 6.5. x Slika 6.5: Diskretizacija na osnovi enake frekvence intervalov Primer 23. Za ilustracijo metode enakih frekvenc uporabimo spremenljivko iz primera 22. Denimo, da želimo v vsak interval uvrstiti k = 3 primere. Obseg zveznih vrednosti bomo v ta namen razbili na 9/3 = 3 intervale. Diskretizirane vrednosti spremenljivke so predstavljene v tabeli 6.3. Tabela 6.3: Urejanje zveznih vrednosti v enako široke intervale 0 4 12 [0, 14] 16 16 (14, 21] 18 24 26 28 (21, 28] Za razumevanje in uporabo sta metodi intuitivni in preprosti, vendar sta obˇcutljivi na izbiro parametra k. Pri metodi enake frekvence lahko veˇckratna ponovitev iste zvezne vrednosti povzroˇci, da je ta uvršˇcena v razliˇcne intervale. To pomanjkljivost odpravimo tako, da po zakljuˇceni diskretizaciji meje intervalov ustrezno popravimo. Oviro pomenijo tudi podatkovni osamelci z ekstremnimi vrednostmi. Osamelce obiˇcajno obravnavamo tako, da jih odstranimo glede na izbrano pražno vrednost. Obe metodi delujeta slabše v primerih, kjer porazdelitev zveznih vrednosti ni enakomerna (Catlett, 1991). Eksplicitnega ustavitvenega kriterija ne potrebujemo, saj je število intervalov pri obeh metodah fiksno. 1R Metodi uvršˇcanja v intervale, ki smo ju obravnavali v zgornjem razdelku, pri diskretizaciji ne upoštevata informacije o razredu primerov. To pomanjkljivost odpravlja metoda 1R (Holte, 1993). 1R je nadzorovana metoda diskretizacije. Zvezne vrednosti spremenljivke najprej uredimo po velikosti. V naslednjem koraku razbijemo razpon urejenih zveznih vrednosti na ustrezno število intervalov ter prilagodimo meje intervalov glede na oznake 111 6 Diskretizacija zveznih spremenljivk razreda, ki se nanašajo na zvezne vrednosti. Vsak interval mora imeti najmanj sedem primerov, z izjemo zadnjega intervala, v katerega uvrstimo preostale primere (Holte, 1993). Interval zakljuˇcimo, ko naletimo na primer, ki pripada manjšinskemu razredu v intervalu. Primer 24. Postopek uvršˇcanja je za sintetiˇcne podatke prikazan v tabeli 6.4. Prva vrstica tabele prikazuje vrednosti po urejanju, druga pa se nanaša na oznako razreda. Primer je pripisan bodisi razredu A bodisi razredu B. Metoda doloˇci interval za razred A tako, da bo ta vkljuˇceval vrednosti 11–21, naslednji interval bo vkljuˇceval vrednosti 22–35, ki pripadajo istemu razredu, zadnji interval pa bo vkljuˇceval samo vrednost 36. Oba intervala, ki se nanašata na oznako razreda A, bomo združili, saj se nanašata na isti razred. Pri diskretizaciji smo zagrešili šest napaˇcnih uvrstitev. Tabela 6.4: Urejanje zveznih vrednosti pri metodi 1R 11 B 14 A 15 A 18 B 19 A 20 B 21 A A 22 B 23 A 25 A 30 B 31 A A 33 B 35 A 36 B B Ustavitveni kriterij je pri metodi 1R posredno doloˇcen z najmanjšim številom primerov, ki jih mora obsegati vsak interval. Privzeta vrednost je sedem (Holte, 1993). Entropija Entropija ena od najpogosteje uporabljenih mer za diskretizacijo zveznih spremenljivk (García in sod., 2013). Z entropijo izražamo negotovost izida poskusa, povezanega s sluˇcajno spremenljivko (Bishop, 2007). ID3 Entropijo za diskretizacijo uporabljata dva najbolj znana algoritma za indukcijo odloˇcitvenih dreves: ID3 (Quinlan, 1986) ter njegov naslednik C4.5 (Quinlan, 1993). Teoretiˇcno ozadje gradnje odloˇcitvenih dreves je podrobneje opisano v razdelku 5.2.5 in ga tu ne ponavljamo. Algoritem ID3 ob indukciji drevesa zvezne spremenljivke diskretizira. Toˇcka loma T na spremenljivki X razbije množico primerov S na intervala S1 in S2 ; entropija je tedaj enaka H ( X, T; S) = | S1 | | S2 | H ( S1 ) + H ( S2 ) , |S| |S| (6.1) kjer sta H (S1 ) in H (S2 ) entropiji podmnožice primerov S, ki ju izraˇcunamo po obrazcu k H (Si ) = − ∑ Pr(Cj , Si ) log(Pr(Cj , Si )). (6.2) j =1 V obrazcu (6.1) |S| oznaˇcuje število vseh primerov, |S1 | oz. |S2 | pa število primerov v intervalu S1 oz. S2 . V obrazcu (6.2) se k se nanaša na razrede C1 , . . . , Ck , Pr(Cj , Si ) pa pomeni delež primerov razreda Cj v intervalu Si . 112 6.6 Pregled metod za diskretizacijo zveznih spremenljivk ID3 izraˇcuna entropijo za vse potencialne toˇcke loma. Optimalna toˇcka loma je vrednost spremenljivke, pri kateri je entropija H ( X, T; S) najmanjša. Ustavitveni kriterij je podan s stopnjo cˇ istosti terminalnega vozlišˇca. D2 Metoda D2 je izpeljanka algoritma ID3 (Catlett, 1991). Prvi korak ima skupen z ID3; za cepitev izberemo spremenljivko, na osnovi katere lahko primere cˇ im bolj natanˇcno uvrstimo v razrede. Algoritem ID3 v nadaljevanju indukcije drevesa te spremenljivke ne upošteva veˇc, D2 pa nadaljuje z rekurzivnim razbijanjem spremenljivke, dokler ne zadosti ustavitvenemu kriteriju. Ustavitveni kriterij je doloˇcen s hevristikami. Cepljenje ustavimo, cˇ e je (i) število primerov za cepitev manjše od 14, (ii) število intervalov veˇcje od 8, (iii) informacijski prispevek na vseh toˇckah loma enak oz. (iv) cˇ e vsi primeri v intervalu pripadajo istemu razredu. MDLP Metoda MDLP (Fayyad & Irani, 1993) je ena od najpogosteje uporabljenih metod diskretizacije (García in sod., 2013). Zvezne vrednosti spremenljivke najprej uredimo po velikosti. V naslednjem koraku doloˇcimo potencialne toˇcke loma. V ta namen uporabimo vrednosti spremenljivke, ki doloˇcajo meje med razredi. Primer 25. Za ilustracijo postopka MDLP uporabimo primer iz tabele 6.5. Prva vrstica tabele se nanaša na urejene vrednosti spremenljivke, druga vrstica pa na pripadajoˇce oznake razreda. Eno od možnih toˇck kandidatk pomeni vrednost q = 22.5, saj obstajata primera e1 = 22 in e2 = 23, ki pripadata razliˇcnima razredoma, tako da je X (e1 ) < T < X (e2 ). Optimalno toˇcko loma pomeni kandidatka, pri kateri je entropija, izraˇcunana po obrazcu (6.1), najmanjša.1 Tabela 6.5: Urejanje zveznih vrednosti pri metodi MDLP 11 B 14 15 A 18 19 20 21 22 B A B A B 23 25 A 30 31 33 35 36 B A B A B Algoritem nadaljuje z rekurzivnim razbijanjem spremenljivke, dokler ne zadosti ustavitvenemu kriteriju, ki je operacionaliziran z naˇcelom MDL (angl. minimum description length) (Mitchell, 1997). MDL-naˇcelo dovoli indukcijo razbitja v toˇcki T, dokler je informacijski prispevek log2 (n − 1) ∆( X, T; S) Gain( X, T; S) > + , (6.3) n n kjer n oznaˇcuje število primerov v intervalu S. Informacijski prispevek v (6.3) izraˇcunamo po obrazcu Gain( X, T; S) = H (S) − H ( A, T; S), razliko ∆( X, T; S) pa po obrazcu ∆( X, T; S) = log2 (3k − 2) [kH (S) − k1 H (S1 ) − k2 H (S2 )] . (6.4) V obrazcu (6.4) k, k1 in k2 oznaˇcujejo število razredov v intervalih S, S1 oz. S2 . 1 Ce ˇ je kandidatk veˇc, eno izmed njih izberemo po sluˇcaju. 113 6 Diskretizacija zveznih spremenljivk Mantarasova razdalja Cerquides in De Mántaras (1997) sta za iskanje optimalnih toˇck loma predlagala Mantarasovo razdaljo (De Mántaras, 1991). Razpon zveznih vrednosti najprej uredimo po velikosti. Razbitje, ki ga inducira diskretizacija D, bomo v splošnem oznaˇcili s PD . S PD∪{T } podobno oznaˇcimo razbitje, ki ga nad spremenljivko X inducira toˇcka loma T. Naloga je doloˇciti toˇcko loma TX tako, da bo d PC , PD∪{T } ≥ d PC , PD∪{TX } , ∀ T. (6.5) V obrazcu 6.5 se PC nanaša na razbitje, ki ga inducira odvisna spremenljivka, d pa na Mantarasovo razdaljo, ki je definirana s predpisom d( PC , PD ) = I ( PC | PD ) + I ( PD | PC ) , I ( PC ∩ PD ) kjer so I ( PC | PD ), I ( PC ∩ PD ) in I ( PD ) standardne Shanonove mere informacije; veˇc podrobnosti bo bralec našel v De Mántaras (1991). Za optimalno toˇcko loma izberemo vrednost spremenljivke, ki v (6.5) inducira najmanjšo razdaljo. Algoritem nadaljuje z rekurzivnim razbijanjem spremenljivke, dokler ne zadosti ustavitvenemu kriteriju. Ustavitveni kriterij je enako kot pri diskretizatorju MDLP operacionaliziran z naˇcelom MDL (Mitchell, 1997). Odvisnost Zeta Zeta (Z) je mera povezanosti med spremenljivko in pripadajoˇcim razredom (Ho & Scott, 1997). Postopek diskretizacije si oglejmo na primeru. Denimo, da imamo zvezni atribut X; primeri pripadajo bodisi razredu g1 bodisi razredu g2 . Naloga diskretizatorja je poiskati toˇcko loma z najvišjo Z-vrednostjo, ki razbije spremenljivko na intervala S1 in S2 (tabela 6.6). Tabela 6.6: Vzorˇcna tabela Interval Razred S1 S2 g1 g2 n11 n21 n12 n22 Modalni razred v intervalu i doloˇcimo kot ( g1 , cˇ e max(n1i , n2i ) = n1i , g2 , cˇ e max(n1i , n2i ) = n2i , kjer i v primeru dveh razredov zasede vrednost 1 ali 2, n1i oznaˇcuje število primerov v intervalu S1 , ki pripadajo razredu g1 , n2i pa število primerov v istem intervalu, ki pripadajo razredu g2 . Vrednost statistike Z za izbrano toˇcko loma izraˇcunamo po obrazcu k Z= ∑ n f (i),i , i =1 114 6.6 Pregled metod za diskretizacijo zveznih spremenljivk kjer je k število intervalov (privzeto 2), f (i ) indeks razreda, ki ima najveˇcje število primerov v intervalu i, n f (i),i pa število primerov v intervalu i z indeksom razreda f (i ). Za spremenljivko s številom intervalov k lahko poišˇcemo natanko k − 1 toˇck loma. Kot optimalno toˇcko loma izberemo vrednost spremenljivke z najvišjo Z-vrednostjo, ob omejitvi, da nobeden od sosednjih parov intervalov ne inducira istega razreda. Cepitev nadaljujemo do zadostitve ustavitvenemu pogoju, ki je doloˇcen s številom intervalov k. Napovedna točnost Adaptivna kvantizacija Primer uporabe napovedne toˇcnosti v diskretizaciji je metoda adaptivne kvantizacije (angl. adaptive quantization) (Chan, Batur & Srinivasan, 1991). Metoda temelji na ocenjevanju natanˇcnosti napovedovanja oznake razreda. Razpon zveznih vrednosti posamezne spremenljivke najprej razcepimo na dve razbitji (npr. z metodo enake širine intervalov). V naslednjem koraku cepitev ovrednotimo, tako da z izbranim klasifikatorjem preverimo, ali je cepitev pripomogla k izboljšanju napovedne toˇcnosti. Cepitev ponavljamo toliko cˇ asa, dokler se napovedna toˇcnost pomembno izboljšuje. Ker metoda vkljuˇcuje uˇcenje klasifikatorja, je cˇ asovno zahtevna. 6.6.2 Metode združevanja Najprej si oglejmo splošni algoritem, ki ga uporabljajo metode diskretizacije, ki temeljijo na združevanju intervalov (algoritem 4). Algoritem je sestavljen iz štirih glavnih korakov: (i) ureditve vrednosti spremenljivke po velikosti, (ii) iskanja optimalnih parov sosednjih intervalov, (iii) združevanja parov intervalov ter (iv) zakljuˇcka diskretizacije ob zadostitvi ustavitvenemu pogoju. Ob zaˇcetku diskretizacije je vsaka zvezna vrednost uvršˇcena v svoj interval. Združevanje intervalov je prikazano na sliki 6.6. Algoritem 4: Algoritem združevanja Podatki: S = Urejene vrednosti spremenljivke f Procedura Združevanje(S) cˇ e UstavitveniKriterij() potem vrni; T = DoločiOptimalnaSosednjaIntervala(S); S = ZdružiSosednjaIntervala(S, T); Združevanje(S); Odvisnost V nadaljevanju razdelka obravnavamo metodi ChiMerge in Chi2, ki temeljita na χ2 preizkusu neodvisnosti. Pri diskretizaciji zahtevamo, da so relativne frekvence razredov znotraj posameznega intervala približno konsistentne. V nasprotnem primeru je treba doloˇciti toˇcko loma ter interval razcepiti. Enako dva sosednja intervala ne smeta imeti podobnih relativnih frekvenc razredov; v tem primeru ju moramo združiti (Kerber, 1992). 115 6 Diskretizacija zveznih spremenljivk d1 d4 d3 d2 x (1) x (2) x (3) x (4) d5 dn−m d6 x (5) x (6) x (7) x (8) x (9) ··· x( j) x · · · x(n) z z1 z2 z3 ··· zm Slika 6.6: Diskretizacija zvezne spremenljivke z združevanjem intervalov. Zvezne vrednosti spremenljivke so oznaˇcene z x(1) , . . . , x(n) , z1 , . . . , zm pa oznaˇcujejo diskretne vrednosti. Rdeˇce toˇcke ponazarjajo toˇcke združevanja na zvezni spremenljivki. S pomoˇcjo χ2 -preizkusa preverjamo domnevo, da sta dva sosednja intervala med seboj neˇ niˇcelne domneve ne zavrnemo, intervala združimo. Vrednost odvisna glede na razred. Ce 2 χ -statistike za par sosednjih intervalov izraˇcunamo po obrazcu 2 2 χ = p ∑∑ i =1 j =1 Aij − Eij Eij 2 , (6.6) kjer je p število razredov, Aij število razliˇcnih vrednosti v intervalu i za razred j, Ri število p primerov v intervalu i (∑ j=1 Aij ), Cj število primerov v razredu j (∑im=1 Aij ), N število p vseh primerov (∑ j=1 Cj ) in Eij priˇcakovana frekvenca za Aij (( Ri × Cj )/N). ChiMerge ChiMerge je nadzorovana metoda diskretizacije, ki temelji na združevanju sosednjih intervalov (Kerber, 1992). V prvem koraku diskretizacije vsaka zvezna vrednost spremenljivke inducira samostojen interval. V naslednjem koraku za vsak par sosednjih intervalov po obrazcu (6.6) izraˇcunamo vrednost χ2 statistike.2 Sosednja intervala z najmanjšo vrednostjo χ2 statistike združimo. Postopek združevanja ponavljamo toliko cˇ asa, dokler ni pri vseh parih sosednjih intervalov vrednost χ2 statistike višja od izbrane vrednosti statistiˇcne znaˇcilnosti α. Pražno vrednost obiˇcajno nastavimo tako, da znaša stopnja tveganja α = 0.05 oz. α = 0.1. Po potrebi lahko doloˇcimo tudi dovoljeno spodnjo mejo števila intervalov. Primer 26. Za ilustracijo prikažimo postopek diskretizacije po metodi ChiMerge. Sintetiˇcno podatkovje je predstavljeno v tabeli 6.7. Prva vrstica se nanaša na vrednosti spremenljivke, druga vrstica pa na pripadajoˇco oznako razreda. Vrednosti spremenljivke so že urejene po velikosti. Tabela 6.7: Sintetiˇcno podatkovje za diskretizacijo ChiMerge 1 A 2V 3 B 7 A 8 A 9 A 11 B 23 B 37 A 39 B 45 A 46 A 59 A primeru dveh sosednjih intervalov z enakim razredom so priˇcakovane frekvence enake niˇc, zato v tem primeru uporabimo Yatesov popravek (Agresti & Franklin, 2013). 116 6.6 Pregled metod za diskretizacijo zveznih spremenljivk V prvem koraku vsako zvezno vrednost uvrstimo v svoj interval. Meje intervalov so potem [0, 2], [2, 5], [5, 7.5], . . . , [45.5, 52], [52, 60]. V naslednjem koraku za vsak par intervalov izraˇcunamo vrednosti χ2 statistike. V ta namen najprej pripravimo tabelo opazovanih frekvenc. V tabeli 6.8 je prikazan primer izraˇcuna opazovanih frekvenc za intervala [2, 5] in [5, 7.5]. Tabela 6.8: Opazovane frekvence za intervala [2, 5] in [5, 7.5] Razred Interval A B [2, 5] 0 1 [5, 7.5] 1 0 Na osnovi robnih frekvenc v tabeli 6.8 izraˇcunamo še priˇcakovane frekvence (tabela 6.9). Tabela 6.9: Priˇcakovane frekvence za intervala [2, 5] in [5, 7.5] Razred Interval A B [2, 5] 0.5 0.5 [5, 7.5] 0.5 0.5 Vrednost χ2 -statistike izraˇcunamo po obrazcu (6.6). V našem primeru znaša vrednost statistike χ2 (1) = 2. Ker je izraˇcunana vrednost χ2 -statistike manjša od kritiˇcne (χ20.10 (1) = 2.71), bomo intervala združili. Na podoben naˇcin izraˇcunamo χ2 -statistiko še za preostale pare intervalov. Postopek rekurzivno ponavljamo toliko cˇ asa, dokler lahko intervale združujemo oz. dokler ne dosežemo spodnjega dovoljenega števila intervalov. Chi2 Chi2 (H. Liu & Setiono, 1997) je avtomatizirana razliˇcica algoritma ChiMerge. Algoritem je sestavljen iz dveh korakov. V prvem koraku, podobno kot pri algoritmu ChiMerge, izraˇcunamo vrednost χ2 -statistike za vsak par sosednjih intervalov. V drugem koraku par sosednjih intervalov z najmanjšo vrednostjo χ2 -statistike združimo. Združevanje intervalov ponavljamo toliko cˇ asa, dokler pri vseh parih intervalov vrednost χ2 -statistike ne preseže vrednosti, doloˇcene s parametrom α. Algoritem samodejno prilagaja (niža) stopnjo statistiˇcne znaˇcilnosti α toliko cˇ asa, dokler število nekonsistentnosti ne preseže kritiˇcne meje. (Dva primera sta nekonsistentna, cˇ e se ujemata v vrednostih diskretiziranih spremenljivk, razlikujeta pa v oznaki razreda.) Dovoljena stopnja nekonsistentnosti je privzeto postavljena na niˇc, stopnja statistiˇcne znaˇcilnosti pa na α = 0.5. Iz algoritma Chi2 je izpeljana metoda ConMerge (K. Wang & Liu, 1998), ki išˇce najmanjšo vrednost χ2 -statistike med vsemi spremenljivkami v podatkovju. 117 7 Metoda V tem poglavju obravnavamo eksperimentalno zasnovo treh eksperimentov, s katerimi smo preverjali (i) vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje; (ii) vpliv metod krˇcenja razsežnosti na uvršˇcanje ter (iii) vpliv diskretizacije zveznih spremenljivk na uvršˇcanje. Najprej bomo predstavili realna podatkovja nad katerimi so eksperimenti potekali, in opisali postopek po katerem smo pripravili sintetiˇcne podatke. Sledil bo podroben opis treh glavnih eksperimentov. Pri vsakem eksperimentu bomo predstavili eksperimentalni naˇcrt ter opisali postopek. 7.1 Podatki 7.1.1 Realni podatki V analizi smo uporabili 37 razliˇcnih mikromrežnih DNA-podatkovij, ki merijo globalno ekspresijo genov v genomih cˇ loveka (lat. Homo sapiens), hišne miši (lat. Mus musculus) in sive podgane (lat. Rattus norvegicus). Uporabljena podatkovja so predstavljena v tabeli 7.1. Za vsako podatkovje navajamo organizem, na osnovi katerega so bili podatki pridobljeni, število primerov in spremenljivk v podatkovni tabeli ter sklic na literaturo. Veˇcino podatkovij smo pridobili iz prosto dostopnega podatkovnega skladišˇca Gene Expression Omnibus (Barrett in sod., 2013), dve podatkovni tabeli (E-JJRD-1 in E-TABM-940) pa s podatkovnega skladišˇca ArrayExpress (Rustici in sod., 2013). Podatke smo pridobili aprila 2013. Pri izbiri podatkovij smo si pomagali z iskanjem po spletnem uporabniškem vmesniku, kjer smo s kombinacijo iskalnih zahtev izloˇcili tista podatkovja, ki se nanašajo na merjenje genske izraženosti med dvema bolezenskima stanjema, poleg tega pa smo zahtevali, da ima podatkovje vsaj 10 primerov. Za samodejni zajem podatkov smo uporabili Bioconductorjeva (Gentleman in sod., 2004) paketa GEOquery (Davis & Meltzer, 2007) oz. ArrayExpress (Kauffmann in sod., 2009). Vse podatkovne matrike so že bile predpripravljene, zato dodatna priprava ni bila potrebna. Vse spremenljivke smo pred nadaljnjo analizo pretvorili v standardizirane z-vrednosti. 7.1.2 Sintetični podatki V prvem eksperimentu, kjer prouˇcujemo vpliv metode uvršˇcanja, izbire spremenljivk ter parametrov uˇcenja na uvršˇcanje, smo poleg realnih podatkov v analizo vkljuˇcili tudi sintetiˇcne podatke. Sintetiˇcne podatke smo pripravili tako, da smo vsakemu realnemu podatkovju (gl. razdelek 7.1.1) priredili sluˇcajno razbitje z oznakami razredov. Na ta naˇcin smo dobili neinformativno podatkovje, ki pa je ohranilo realno korelacijsko strukturo 119 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 a Oznaka Organizem alon chin chowdary christensen E-JJRD-1 E-TABM-940 GDS963 GDS1209 GDS1465 GDS1608 GDS1650 GDS1917 GDS2190 GDS2312 GDS2520 GDS2545 GDS2656 GDS2947 GDS2960 GDS3027 GDS3057 GDS3257 GDS3356 GDS3539 GDS3627 GDS3630 Homo sapiens Homo sapiens Homo sapiens Homo sapiens Mus musculus Homo sapiens Homo sapiens Homo sapiens Mus musculus Rattus norvegicus Homo sapiens Homo sapiens Homo sapiens Mus musculus Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens n0 n1 n p 22 43 62 113 35 53 18 15 24 42 19 14 30 18 22 63 14 32 41 14 26 49 20 21 40 20 40 75 42 85 36 28 18 39 13 21 20 14 31 18 22 65 14 32 60 23 38 58 34 61 18 20 62 118 104 198 71 81 36 54 37 63 39 28 61 36 44 128 28 64 101 37 64 107 54 82 58 40 2000 22215 22283 1413 45101 54675 12625 22283 22690 1322 12625 54675 22283 12488 12625 12625 22645 54675 4132 22283 22283 22283 54675 54675 54675 54675 Referenca Alon in sod. (1999) Chin in sod. (2006) Chowdary in sod. (2006) B. C. Christensen in sod. (2009) Aerssens in sod. (2007) – Strunnikova in sod. (2005) Detwiller in sod. (2005) van Erp, Dach, Koch, Heesemann in Hoffmann (2006) Ahmed in sod. (2005) Stearman in sod. (2005) – Ryan in sod. (2006) Sanoudou in sod. (2006) Kuriakose in sod. (2004) Y. P. Yu in sod. (2004) Goh in sod. (2007) Sabates-Bellver in sod. (2007) Z. Yao in sod. (2007) Pescatori in sod. (2007) Stirewalt in sod. (2008) Landi in sod. (2008) Jennifer Cohen in sod. (2007) Y. Yao in sod. (2008) Kuner in sod. (2009) Häsler in sod. (2009) Legenda: i – zap. št. podatkovja, Oznaka – oznaka podatkovja, n0 – št. primerov v razredu 0, n1 – št. primerov v razredu 1, n – št. primerov, p – št. spremenljivk 7 Metoda 120 Tabela 7.1: Uporabljena realna podatkovja Tabela 7.1: (nadalj.) Uporabljena realna podatkovja i 27 28 29 30 31 32 33 34 35 36 37 a Oznaka Organizem GDS3690 gordon gravier GSE738 GSE1542 pomeroy shipp singh subramanian tian west Homo sapiens Homo sapiens Homo sapiens Rattus norvegicus Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens Homo sapiens n0 n1 n p 66 150 106 26 25 21 58 50 33 137 25 87 31 62 20 24 39 19 52 17 36 24 153 181 168 46 49 60 77 102 50 173 49 20589 12533 2905 8740 22283 7128 7129 12600 10100 12625 7129 Referenca Schirmer in sod. (2009) Gordon in sod. (2002) Gravier in sod. (2010) Strøm in sod. (2004) Ishikawa in sod. (2005) Pomeroy in sod. (2002) Shipp in sod. (2002) Singh in sod. (2002) Subramanian in sod. (2005) Tian in sod. (2003) West in sod. (2001) Legenda: i – zap. št. podatkovja, Oznaka – oznaka podatkovja, n0 – št. primerov v razredu 0, n1 – št. primerov v razredu 1, n – št. primerov, p – št. spremenljivk 7.1 Podatki 121 7 Metoda (Boulesteix & Strobl, 2009). Vse spremenljivke smo pred nadaljnjo analizo pretvorili v standardizirane z-vrednosti. Ponovljivost smo zagotovili z uporabo R-jeve funkcije set.seed(). 7.2 Vpliv metode uvrščanja, izbire spremenljivk in parametrov učenja na uvrščanje 7.2.1 Eksperimentalni načrt Eksperimentalni naˇcrt je vkljuˇceval (i) izbiro najbolj diskriminativnih spremenljivk ter (ii) uvršˇcanje primerov z uporabo devetih razliˇcnih metod. Postopek je podrobneje predstavljen v razdelku 7.2.2. Metode uvrščanja V spodnjem seznamu navajamo uporabljene metode uvršˇcanja in nastavitve morebitnih argumentov funkcij, s katerimi smo modele raˇcunali. Povzetek metod uvršˇcanja je prikazan v tabeli 7.2. 1. Metoda najbližjega soseda (kNN). Mera razliˇcnosti je bila evklidska razdalja. Za uˇcenje smo uporabili funkcijo knnCMA() iz paketa CMA (Slawski, Daumer & Boulesteix, 2008). Argument k, s katerim nastavljamo število najbližjih sosedov, smo omejili na vrednosti 1, 3 in 5. Funkcijo smo prilagodili tako, da smo za posamezen primer poleg oznake razreda izraˇcunali tudi verjetnost pripadnosti posameznemu razredu. Metoda je podrobneje predstavljena v razdelku 5.2.2. 2. Fisherjeva diskriminantna analiza (FDA). Za uˇcenje smo uporabili funkcijo fdaCMA() iz paketa CMA (Slawski in sod., 2008). Argument comp, s katerim nastavljamo število diskriminantnih projekcij, smo nastavili na vrednost 1. Metoda je podrobneje predstavljena v razdelku 5.2.3. 3. Linearna diskriminantna analiza (LDA). Za uˇcenje smo uporabili funkcijo ldaCMA() iz paketa CMA (Slawski in sod., 2008). Metoda je podrobneje predstavljena v razdelku 5.2.3. 4. Diagonalna linearna diskriminantna analiza (DLDA). Za uˇcenje smo uporabili funkcijo dldaCMA() iz paketa CMA (Slawski in sod., 2008). Metoda je podrobneje predstavljena v razdelku 5.2.3. 5. Nevronske mreže (NNET). Za uˇcenje smo uporabili funkcijo nnetCMA() iz paketa CMA (Slawski in sod., 2008). Argument eigengenes, s katerim doloˇcimo zaˇcetni prostor spremenljivk, smo nastavili na privzeto vrednost FALSE. Vrednosti argumentov size in decay smo nastavili na privzeti vrednosti 3 in 0.01. Metoda je podrobneje predstavljena v razdelku 5.2.4. 122 7.2 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Tabela 7.2: Uporabljeni modeli uˇcenja Metoda KNN LDA FDA DLDA NNET RF SVM PAM PLR Št. spremenljivk 20, 50, 100, 200, 500 10, 20 10, 20 20, 50, 100, 200, 500 20, 50, 100, 200, 500 vsi vsi vsi vsi Parameter k mtry cost delta lambda 6. Sluˇcajni gozdovi (RF). Za uˇcenje smo uporabili funkcijo rfCMA() iz paketa CMA (Slawski in sod., 2008). Vrednost argumenta type, s katerim nastavljamo naˇcin izracˇ una mere pomembnosti, smo nastavili na privzeto vrednost 1. Število konstruiranih dreves (ntree) smo omejili na 1000, za število sluˇcajno izbranih spremenljivk pa smo √ √ √ √ doloˇcili vrednosti mtry = p, 2 p, 3 p, 4 p. Metoda je podrobneje predstavljena v razdelku 5.2.5. 7. Metoda podpornih vektorjev (SVM). Za uˇcenje smo uporabili funkcijo svmCMA() iz paketa CMA (Slawski in sod., 2008). Uporabili smo linearno jedro; argument kernel smo nastavili na vrednost "linear". Vrednost argumenta probability smo nastavili na vrednost TRUE. Vrednost argumenta cost, s katerim doloˇcimo ceno pri uˇcenju, smo doloˇcili s preˇcnim preverjanjem s pomoˇcjo funkcije tune(); argument fold smo nastavili na vrednost 3, argument cost pa smo omejili na vrednosti 0.1, 1, 5, 10, 50, 100 in 500. Metoda je podrobneje predstavljena v razdelku 5.2.6. 8. Metoda najbližjega skrˇcenega centroida (PAM). Za uˇcenje smo uporabili funkcijo scdaCMA() iz paketa CMA (Slawski in sod., 2008). Argument delta, s katerim nastavljamo prag krˇcenja, smo doloˇcili s preˇcnim preverjanjem s pomoˇcjo funkcije tune(); argument fold smo nastavili na vrednost 3, argument delta pa smo omejili na vrednosti 0.1, 0.25, 0.5, 1, 2 in 5. Metoda je podrobneje predstavljana v razdelku 5.2.7. 9. Logistiˇcna regresija s kaznijo (PLR). Za uˇcenje smo uporabili funkcijo plrCMA() iz paketa CMA (Slawski in sod., 2008). Argument lambda, s katerim nastavljamo koliˇcino kaznovanja, smo doloˇcili s preˇcnim preverjanjem s pomoˇcjo funkcije tune(); argument fold smo nastavili na vrednost 3, argument lambda pa smo omejili na vrednosti v razponu od 2−4 do 24 . Metoda je podrobneje predstavljena v razdelku 5.2.8. Metode izbire spremenljivk Eksperimentalni naˇcrt je vkljuˇceval izbiro spremenljivk s pomoˇcjo treh pristopov: (i) t-testa, (ii) Welchevega t-testa in (iii) pristopa LIMMA. Za izbiro spremenljivk smo uporabili funkcijo GeneSelection() iz paketa CMA (Slawski in sod., 2008). Vrednost argumenta method smo nastavili na ‘t.test’, ‘welch.test’ oz. ‘limma’. Za vsako spremenljivko 123 7 Metoda Tabela 7.3: Kombinacije metod uvršˇcanja, metod za izbiro spremenljivk, število vkljuˇcenih spremenljivk in parametrov uˇcenja Metoda Izbira spremenljivk Št. spremenljivk Parametri Skupaj 3 3 3 3 3 3 5 2 2 5 5 5 3 45 6 6 15 15 60 1 1 1 kNN LDA FDA DLDA NNET RF SVM PAM PLR Skupaj 4 150 smo izraˇcunali vrednost testne statistike, rezultate uredili po velikosti ter izbrali prvih p spremenljivk. Parameter p je lahko zasedal vrednosti 20, 50, 100, 200 in 500. Teoretiˇcno ozadje pristopov za izbiro spremenljivk je predstavljeno v poglavju 3. V tabeli 7.3 so povzete kombinacije med razliˇcnimi metodami uvršˇcanja, metodami izbire spremenljivk, razliˇcnega števila spremenljivk in dodatnih parametrov uˇcenja. Skupno število modelov uˇcenja znaša 150. Prečno preverjanje Za oceno natanˇcnosti uvršˇcanja smo uporabili shemo preˇcnega preverjanja s pregibanjem. Za pripravo pregibov smo uporabili funkcijo GenerateLearningsets() iz paketa CMA (Slawski in sod., 2008). Argument method, s katerim izbiramo naˇcin preˇcnega preverjanja, smo nastavili na vrednost ‘CV’. Z argumentom fold nastavimo želeno število pregibov; v našem primeru smo uporabili 10 pregibov. Ponovljivost rezultatov smo zagotovili z uporabo R-jeve funkcije set.seed(). Teoretiˇcno ozadje postopka je predstavljeno v razdelku 5.3.4. Natanˇcnost uvršˇcanja smo izrazili z (i) napako uvršˇcanja (MER), (ii) obˇcutljivostjo (Sens), (iii) specifiˇcnostjo (Spec) oz. (iv) s plošˇcino pod ROC-krivuljo (AUC). Mere natanˇcnosti smo raˇcunali s pomoˇcjo funkcije evaluate() iz paketa CMA (Slawski in sod., 2008), kjer smo vrednost argumenta measure nastavili na ‘misclassification’ (napaka uvršˇcanja), ‘sensitivity’ (obˇcutljivost), ‘specificity’ (specifiˇcnost) oz. ‘auc’ (plošˇcina pod ROC-krivuljo). Teoretiˇcno ozadje uporabljenih mer natanˇcnosti uvršˇcanja je podrobneje predstavljeno v razdelku 5.3.3. 124 7.2 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje 7.2.2 Postopek Na osnovi podatkovne množice z n primeri in p spremenljivkami smo najprej pripravili uˇcne množice L z n L primeri in pripadajoˇce testne množice T z n T primeri. Delitev primerov v uˇcne in testne množice smo pripravili na osnovi sheme preˇcnega preverjanja z 10 pregibi. Matriko z uˇcnimi primeri smo oznaˇcili z X L , matriko testnih primerov pa z X T . Z izbrano metodo izbire spremenljivk smo nato nad uˇcno množico X L doloˇcili podmnožico spremenljivk p∗ ter konstruirali reducirani matriki X∗L in X∗T . Nad reducirano matriko X∗L smo nato z izbrano metodo uvršˇcanja prilagodili uˇcni model. Uˇcni model in reducirano matriko X∗T smo uporabili za uvršˇcanje primerov v testno množico. Opisane korake smo ponovili za vsakega od pregibov in izraˇcunali povpreˇcno napako uvršˇcanja (MER), obˇcutljivost (Sens), specifiˇcnost (Spec) in plošˇcino pod ROCkrivuljo (AUC). Zgornje korake smo ponovili za vsako metodo uvršˇcanja, metodo izbire spremenljivk in razliˇcno število spremenljivk. Postopek smo ponovili nad vsemi realnimi podatkovji in konstruiranimi sintetiˇcnimi podatki ter izraˇcunali povpreˇcne vrednosti mer natanˇcnosti uvršˇcanja. Postopek je zgošˇceno povzet v algoritmu 5. Uˇcinek metode uvršˇcanja, metode izbire spremenljivk in števila spremenljivk na kakovost uvršˇcanja smo ovrednotili s pomoˇcjo analize kovariance. Razlike med metodami smo prikazali s CD-diagrami (Demšar, 2006). Algoritem 5: Postopek ocenjevanja natanˇcnosti uvršˇcanja 1. Z uporabo preˇcnega preverjanja s pregibanjem pripravi ustrezno število uˇcnih množic L z n L primeri in testnih množic T z n T primeri, tako da velja n L + n T = n. Za vsak pregib z X L oznaˇci pripadajoˇco matriko uˇcnih primerov razsežnosti n L × p, z X T pa matriko testnih primerov razsežnosti n T × p. 2. Doloˇci podmnožico spremenljivk p∗ ter konstruiraj matriko X∗L razsežnosti n L × p∗ in matriko X∗T razsežnosti n T × p∗ . 3. Na reducirani uˇcni množici X∗L prilagodi uˇcni model. Zgrajeni uˇcni model uporabi za uvršˇcanje primerov v testni množici X∗T . 4. Z izbrano mero natanˇcnosti uvršˇcanja predstavi uˇcinkovitost uporabljene metode uvršˇcanja. 5. Zgornje korake ponovi za vsak pregib in izraˇcunaj povpreˇcne mere natanˇcnosti uvršˇcanja. 6. Zgornje korake ponovi za vsako metodo uvršˇcanja, metodo izbire spremenljivk in razliˇcno število spremenljivk. 125 7 Metoda 7.3 Vpliv metod za krčenje razsežnosti podatkovja na uvrščanje 7.3.1 Eksperimentalni načrt Eksperimentalni naˇcrt je vkljuˇceval (i) izbiro najbolj diskriminativnih spremenljivk, (ii) krcˇ enje števila spremenljivk in (iii) uvršˇcanje primerov z uporabo dveh razliˇcnih metod. Postopek je podrobneje predstavljen v razdelku 7.3.2. Metode uvrščanja Za uvršˇcanje smo uporabili dva pristopa: 1. Linearna diskriminantna analiza (LDA). Za uˇcenje smo uporabili funkcijo lda() iz R-jevega paketa MASS. Metoda je podrobneje predstavljena v razdelku 5.2.3. 2. Logistiˇcna diskriminacija (LD). Za uˇcenje smo uporabili funkcijo multinom() iz R-jevega paketa nnet. Metoda je podrobneje predstavljena v razdelku 5.2.8. Metode krčenja razsežnosti Za krˇcenje prostora spremenljivk smo uporabili dve metodi: 1. Analiza glavnih komponent (PCA). Za uˇcenje smo uporabili funkcijo prcomp() iz R-jevega paketa stats. Metoda je podrobneje predstavljena v razdelku 4.5.1. 2. Delni najmanjši kvadrati (PLS). Za uˇcenje smo uporabili funkcijo pls.regression() iz R-jevega paketa plsgenomics (Boulesteix, 2004). Argument ncomp, s katerim nastavljamo število komponent, smo nastavljali skladno z eksperimentalnim naˇcrtom. Metoda je podrobneje predstavljena v razdelku 4.5.3. Metode izbire spremenljivk Eksperimentalni naˇcrt je vkljuˇceval izbiro spremenljivk s štirimi pristopi: (i) t-testom, (ii) Welchev t-testom, (iii) pristopom LIMMA in (iv) sluˇcajnim izborom spremenljivk. Za izbiro spremenljivk smo uporabili funkcijo GeneSelection() iz paketa CMA (Slawski in sod., 2008). Vrednost argumenta method smo nastavili na ‘t.test’, ‘welch.test’ oz. ‘limma’. Za vsako spremenljivko smo izraˇcunali vrednost testne statistike, rezultate uredili po velikosti ter izbrali prvih p spremenljivk. Parameter p je lahko zasedal vrednosti 20, 50, 100, 200 in 500. Teoretiˇcno ozadje pristopov za izbiro spremenljivk je predstavljeno v poglavju 3. V tabeli 7.4 so povzete kombinacije med razliˇcnimi metodami uvršˇcanja, metodami krˇcenja razsežnosti, metodami izbire spremenljivk in razliˇcnega števila spremenljivk. Skupno število modelov uˇcenja znaša 80. 126 7.3 Vpliv metod za krˇcenje razsežnosti podatkovja na uvršˇcanje Tabela 7.4: Kombinacije metod uvršˇcanja, metod krˇcenja razsežnosti, metod za izbiro spremenljivk in števila vkljuˇcenih spremenljivk Metoda LDA LD Skupaj Krˇcenje Izbira spremenljivk Št. spremenljivk Skupaj 2 2 4 4 5 5 40 40 80 Prečno preverjanje Za oceno kakovosti uvršˇcanja smo uporabili shemo preˇcnega preverjanja s pregibanjem. Za pripravo pregibov smo uporabili funkcijo GenerateLearningsets() iz paketa CMA (Slawski in sod., 2008). Argument method, s katerim izbiramo naˇcin preˇcnega preverjanja, smo v fazi doloˇcanja optimalnega števila komponent (gl. razdelek 7.3.2) nastavili na vrednost ‘LOOCV’ (preˇcno preverjanje z izpustitvijo ene enote). V fazi uˇcenja smo vrednost argumenta method nastavili na ‘CV’, argument fold pa na vrednost 10. Ponovljivost rezultatov smo zagotovili z uporabo R-jeve funkcije set.seed(). Teoretiˇcno ozadje postopka je predstavljeno v razdelku 5.3.4. Kakovost uvršˇcanja smo izrazili z (i) napako uvršˇcanja (MER), (ii) obˇcutljivostjo (Sens), (iii) specifiˇcnostjo (Spec) oz. (iv) s plošˇcino pod ROC-krivuljo (AUC). Mere natanˇcnosti smo raˇcunali s pomoˇcjo funkcije evaluate() iz paketa CMA (Slawski in sod., 2008), kjer smo vrednost argumenta measure nastavili na ‘misclassification’ (napaka uvršˇcanja), ‘sensitivity’ (obˇcutljivost), ‘specificity’ (specifiˇcnost) oz. ‘auc’ (plošˇcina pod ROC-krivuljo). Teoretiˇcno ozadje uporabljenih mer natanˇcnosti uvršˇcanja je podrobneje predstavljeno v razdelku 5.3.3. 7.3.2 Postopek Na osnovi podatkovne množice z n primeri in p spremenljivkami smo najprej pripravili uˇcno množico L z n L primeri in testno množico T z n T primeri. Delitev primerov v uˇcno in testno množico smo pripravili po sluˇcaju, tako da smo v uˇcno množico uvrstili 50 % primerov, preostale primere pa smo uvrstili v testno množico. Matriko z uˇcnimi primeri smo oznaˇcili z X L , matriko testnih primerov pa z X T . Z izbrano metodo izbire spremenljivk smo nato nad uˇcno množico X L doloˇcili podmnožico spremenljivk p∗ ter konstruirali reducirani matriki X∗L in X∗T . V naslednjem koraku smo uˇcno množico X∗L uporabili za doloˇcitev optimalnega števila komponent. To smo storili s pomoˇcjo preˇcnega preverjanja z izpustitvijo ene enote. Nad izbranimi primeri smo zgradili napovedni model tako, da smo spremenljivke skrˇcili z izbrano metodo zmanjševanja razsežnosti podatkov. Napovedni model smo nato uporabili za napovedovanje razreda na izloˇcenem primeru. Pri tem smo si zabeležili število komponent, pri katerih je bila toˇcnost uvršˇcanja najmanjša. Postopek smo ponovili za vseh n L primerov. Povpreˇcno minimalno število komponent smo oznaˇcili s K ∗ . Na osnovi doloˇcenega optimalnega števila komponent smo z izbrano metodo zmanjševanja razsežnosti 127 7 Metoda nad matriko X∗L doloˇcili komponentno matriko W s projekcijskimi vektorji. Izraˇcunali smo matriki komponentnih dosežkov za reducirani matriki uˇcnih (Z L = X∗L W) in testnih (Z T = X∗T W) primerov. Nad matriko komponentnih dosežkov Z L smo z izbrano metodo uvršˇcanja prilagodili uˇcni model. Uˇcni model in komponentne dosežke Z T smo nato uporabili za uvršˇcanje primerov v testni množici. Opisane korake smo ponovili 100-krat, tako da smo sluˇcajili celotno podatkovno množico. Dosežek izbrane metode uvršˇcanja smo nato predstavili tako, da smo izraˇcunali povpreˇcno število uporabljenih komponent pri zmanjševanju razsežnosti (nkomp ), napako uvršˇcanja (MER), obˇcutljivost (Sens), specifiˇcnost (Spec) in plošˇcino pod ROC-krivuljo (AUC). Postopek smo ponovili nad vsemi podatkovji in izraˇcunali povpreˇcne vrednosti mer natanˇcnosti uvršˇcanja. Postopek je zgošˇceno povzet v algoritmu 6. Uˇcinek metode krˇcenja razsežnosti, metode uvršˇcanja, metode izbire spremenljivk in števila spremenljivk na kakovost uvršˇcanja smo ovrednotili s pomoˇcjo analize kovariance. Razlike med metodami smo prikazali s CD-diagrami (Demšar, 2006). Algoritem 6: Postopek ocenjevanja natanˇcnosti krˇcenja razsežnosti 1. Pripravi uˇcno množico L z n L primeri in testno množico T z n T primeri, tako da velja n L + n T = n. Z X L oznaˇci matriko uˇcnih primerov razsežnosti n L × p, z X T pa matriko testnih primerov razsežnosti n T × p. Uˇcno množico uporabi za izbiro ustreznega števila komponent K ∗ (gl. besedilo). 2. Doloˇci podmnožico spremenljivk p∗ ter konstruiraj matriko X∗L razsežnosti n L × p∗ in matriko X∗T razsežnosti n T × p∗ . 3. Zmanjšaj razsežnost podatkov v matriki X∗L . Z W oznaˇci komponentno matriko projekcijskih vektorjev razsežnosti p∗ × K ∗ . Izraˇcunaj matriki komponentnih dosežkov Z L = X∗L W in Z T = X∗T W. 4. Na osnovi matrike komponentnih dosežkov Z L prilagodi uˇcni model. Zgrajeni uˇcni model in matriko komponentnih dosežkov Z T uporabi za uvršˇcanje primerov v testni množici. 5. Z izbrano mero kakovosti uvršˇcanja predstavi uˇcinkovitost uporabljene metode uvršˇcanja. 6. Zgornje korake ponovi R-krat, tako da sluˇcajiš celotno podatkovno množico. Izraˇcunaj povpreˇcne mere natanˇcnosti uvršˇcanja. 7. Zgornje korake ponovi za vsako metodo uvršˇcanja, metodo krˇcenja razsežnosti, metodo izbire spremenljivk in razliˇcno število spremenljivk. 128 7.4 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje 7.4 Vpliv diskretizacije zveznih spremenljivk na uvrščanje 7.4.1 Eksperimentalni načrt Eksperimentalni naˇcrt je vkljuˇceval (i) izbiro najbolj diskriminativnih spremenljivk, (ii) njihovo diskretizacijo z uporabo šestih razliˇcnih metod ter (iii) uvršˇcanje diskretiziranih spremenljivk s tremi razliˇcnimi metodami. Postopek je podrobneje predstavljen v razdelku 7.4.2. Metode uvrščanja Uporabili smo naslednje metode uvršˇcanja: 1. Metoda najbližjega soseda (kNN). Za uvršˇcanje smo uporabili funkcijo make_Weka_classifier() iz R-jevega paketa RWeka. Argument name, s katerim izbiramo metodo uvršˇcanja, smo nastavili na vrednost ‘weka/classifiers/lazy/IBk’. Pri uvršˇcanju smo uporabili konstantno število najbližjih sosedov; argument control smo nastavili na vrednost control = Weka_control(K=3). 2. Naivni Bayesov klasifikator (NB). Za uvršˇcanje smo uporabili funkcijo make_Weka_classifier() iz R-jevega paketa RWeka. Argument name, s katerim izbiramo metodo uvršˇcanja, smo nastavili na vrednost ‘weka/classifiers/bayes/NaiveBayes’. 3. Klasifikator C4.5 (C4.5). Za uvršˇcanje smo uporabili funkcijo make_Weka_classifier() iz R-jevega paketa RWeka. Argument name, s katerim izbiramo metodo uvršˇcanja, smo nastavili na vrednost ‘weka/classifiers/trees/J48’. Metode diskretizacije Eksperimentalni naˇcrt je obsegal diskretizacijo zveznih spremenljivk z uporabo naslednjih metod: 1. Metoda enake širine intervalov (EW). Za diskretizacijo smo uporabili funkcijo discretize() iz R-jevega paketa infotheo. Argument disc, s katerim izbiramo med metodo enake širine in enake zastopanosti, smo nastavili na vrednost ‘equalwidth’. Argument nbins, s katerim nastavljamo število intervalov, smo nastavili na privzeto vrednost sqrt(NROW(X)). 2. Metoda enake zastopanosti intervalov (EF). Za diskretizacijo smo uporabili funkcijo discretize() iz R-jevega paketa infotheo. Argument disc, s katerim izbiramo med metodo enake širine in enake zastopanosti, smo nastavili na vrednost ‘equalfreq’. Argument nbins, s katerim nastavljamo število intervalov, smo nastavili na privzeto vrednost sqrt(NROW(X)). 3. Metoda ChiMerge. Za diskretizacijo smo uporabili funkcijo chiM() iz R-jevega paketa discretization. Vrednost argumenta alpha, s katerim nastavljamo nivo statistiˇcne znaˇcilnosti χ2 -statistike, smo nastavili na privzeto vrednost 0.5. 129 7 Metoda Tabela 7.5: Kombinacije metod uvršˇcanja, metod diskretizacije, metod za izbiro spremenljivk in števila vkljuˇcenih spremenljivk Metoda Diskretizacija Izbira spremenljivk Št. spremenljivk Skupaj 5 5 5 1 1 1 5 5 5 25 25 25 kNN NB C4.5 Skupaj 75 4. Metoda 1R. Za diskretizacijo smo uporabili funkcijo disc.1r() iz R-jevega paketa dprep. Funkcijo smo prilagodili, tako da je vraˇcala tudi meje razredov diskretizacije. 5. Metoda MDLP. Za diskretizacijo smo uporabili funkcijo mdlp() iz R-jevega paketa discretization. Metode izbire spremenljivk Eksperimentalni naˇcrt je vkljuˇceval izbiro spremenljivk s pomoˇcjo klasiˇcnega t-testa. Za izbiro spremenljivk smo uporabili funkcijo GeneSelection() iz paketa CMA (Slawski in sod., 2008). Vrednost argumenta method smo nastavili na ‘t.test’. Za vsako spremenljivko smo izraˇcunali vrednost testne statistike, rezultate uredili po velikosti ter izbrali prvih p spremenljivk. Parameter p je lahko zasedal vrednosti 20, 50, 100, 200 in 500. Teoretiˇcno ozadje pristopov za izbiro spremenljivk je predstavljeno v poglavju 3. V tabeli 7.5 so povzete kombinacije med razliˇcnimi metodami uvršˇcanja, metodami diskretizacije, metodami izbire spremenljivk in razliˇcnega števila spremenljivk. Skupno število modelov uˇcenja znaša 75. Prečno preverjanje Za oceno natanˇcnosti uvršˇcanja smo uporabili shemo preˇcnega preverjanja s pregibanjem. Za pripravo pregibov smo uporabili funkcijo GenerateLearningsets() iz paketa CMA (Slawski in sod., 2008). Argument method, s katerim izbiramo naˇcin preˇcnega preverjanja, smo nastavili na vrednost ‘CV’. Z argumentom fold nastavimo željeno število pregibov; v našem primeru smo uporabili 10 pregibov. Ponovljivost rezultatov smo zagotovili z uporabo funkcije set.seed(). Teoretiˇcno ozadje postopka je predstavljeno v razdelku 5.3.4. Natanˇcnost uvršˇcanja smo raˇcunali kot toˇcnost uvršˇcanja (Acc) oz. jo izrazili s plošˇcino pod ROC-krivuljo (AUC). Plošˇcino pod ROC-krivuljo smo raˇcunali s pomoˇcjo funkcije auc() iz R-jevega paketa pROC. Poleg tega smo za vsako metodo diskretizacije izraˇcunali robustnost (Rob), stabilnost (Sta) in preprostost (Pre). Teoretiˇcno ozadje uporabljenih mer natanˇcnosti uvršˇcanja je podrobneje predstavljeno v razdelku 5.3.3 ter v razdelku 6.5.1. 130 7.4 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje 7.4.2 Postopek Na osnovi podatkovne množice z n primeri in p spremenljivkami smo najprej pripravili uˇcne množice L z n L primeri in pripadajoˇce testne množice T z n T primeri. Delitev primerov v uˇcne in testne množice smo pripravili na osnovi sheme preˇcnega preverjanja z 10 pregibi. Matriko z uˇcnimi primeri smo oznaˇcili z X L , matriko testnih primerov pa z X T . Z izbrano metodo izbire spremenljivk smo nato nad uˇcno množico X L doloˇcili podmnožico spremenljivk p∗ ter konstruirali reducirani matriki X∗L in X∗T . Vrednosti spremenljivk v reducirani matriki X∗L smo nato z izbrano metodo diskretizirali. Meje razredov, ki smo jih pri tem doloˇcili, smo uporabili za diskretizacijo matrike X∗T . Diskretizirane vrednosti spremenljivk smo shranili v matriki D L oz. D T . Nad diskretizirano matriko D L smo nato z izbrano metodo uvršˇcanja prilagodili uˇcni model. Uˇcni model in diskretizirano matriko D T smo uporabili za uvršˇcanje primerov v testni množici. Opisane korake smo ponovili za vsakega od pregibov in izraˇcunali povpreˇcno toˇcnost uvršˇcanja (Acc), obˇcutljivost (Sens), specifiˇcnost (Spec) in plošˇcino pod ROC-krivuljo (AUC). Zgornje korake smo ponovili za vsako od metod uvršˇcanja, metod diskretizacije, metod izbire spremenljivk in razliˇcno število spremenljivk. Postopek smo ponovili nad vsemi podatkovji ter izraˇcunali povpreˇcne vrednosti mer natanˇcnosti uvršˇcanja. Postopek je zgošˇceno povzet v algoritmu 7. Uˇcinek metode diskretizacije, metode uvršˇcanja in števila spremenljivk na kakovost uvršˇcanja smo ovrednotili s pomoˇcjo analize kovariance. Razlike med metodami smo prikazali s CD-diagrami (Demšar, 2006). 131 7 Metoda Algoritem 7: Postopek ocenjevanja natanˇcnosti diskretizacije 1. Z uporabo preˇcnega preverjanja s pregibanjem pripravi ustrezno število uˇcnih množic L z n L primeri in testnih množic T z n T primeri, tako da velja n L + n T = n. Za vsak pregib z X L oznaˇci pripadajoˇco matriko uˇcnih primerov razsežnosti n L × p, z X T pa matriko testnih primerov razsežnosti n T × p. 2. Doloˇci podmnožico spremenljivk p∗ ter konstruiraj matriko X∗L razsežnosti n L × p∗ in matriko X∗T razsežnosti n T × p∗ . 3. Diskretiziraj podatke v matriki X∗L ter jih shrani v matriko D L . Doloˇcene meje razredov uporabi za diskretizacijo podatkov X∗T , ki jih shraniš v matriko D T . 4. Na diskretizirani uˇcni množici D L prilagodi uˇcni model. Zgrajeni uˇcni model uporabi za uvršˇcanje primerov v testni množici D T . 5. Z izbrano mero natanˇcnosti uvršˇcanja predstavi uˇcinkovitost uporabljene metode uvršˇcanja. 6. Zgornje korake ponovi za vsak pregib in izraˇcunaj povpreˇcne mere natanˇcnosti uvršˇcanja. 7. Zgornje korake ponovi za vsako metodo uvršˇcanja, metodo diskretizacije, metodo izbire spremenljivk in razliˇcno število spremenljivk. 132 8 Rezultati 8.1 Vpliv metode uvrščanja, izbire spremenljivk in parametrov učenja na uvrščanje 8.1.1 Realni podatki Pregled mer natančnosti uvrščanja V tabelah 8.5–8.8 so zbrani rezultati uvršˇcanja za realna podatkovja. Za vsako metodo uvršˇcanja podajamo njen dosežek za (i) izbrano kombinacijo metode izbire spremenljivk ter (ii) morebitne parametre uˇcenja. Loˇceno prikazujemo rezultate za napako uvršˇcanja (tabela 8.5), obˇcutljivost (tabela 8.6), specifiˇcnost (tabela 8.7) in plošˇcino pod ROC-krivuljo (tabela 8.8). Glede na napako uvršˇcanja dosega najboljši rezultat metoda PLR (MER = 0.12) v kombinaciji z vsemi vkljuˇcenimi spremenljivkami. Napaka uvršˇcanja je najveˇcja pri metodi NNET (MER = 0.37) v kombinaciji s 500 izbranimi spremenljivkami, ki smo jih izbrali po metodi LIMMA. Pri obˇcutljivosti dosega najboljši rezultat metoda PLR (Sens = 0.86) v kombinaciji z vsemi vkljuˇcenimi spremenljivkami. Obˇcutljivost je najnižja pri metodi NNET v kombinaciji z 200 spremenljivkami, ki smo jih izbrali s pomoˇcjo Welchevega t-testa. Najveˇcjo specifiˇcnost dosega metoda PLS (Spec = 0.87) z vsemi vkljuˇcenimi spremenljivkami. Specifiˇcnost je najnižja pri metodi NNET (Spec = 0.49) s 500 vkljuˇcenimi spremenljivkami, ki smo jih izbrali z Welchevim t-testom. Plošˇcina pod ROC-krivuljo je najveˇcja pri metodi PLS (AUC = 0.91) z vsemi vkljuˇcenimi spremenljivkami, najmanjša pa pri metodi NNET (AUC = 0.51) s 500 vkljuˇcenimi spremenljivkami, ki smo jih izloˇcili s pristopom LIMMA. Ovrednotenje učinka metode uvrščanja in izbire spremenljivk na uvrščanje Vpliv metode uvršˇcanja in metode izbire spremenljivk smo preverili s pomoˇcjo analize kovariance. V analizo smo kot kovariato vkljuˇcili število prediktorskih spremenljivk. Predpostavke o homogenosti varianc niso bile kršene. Loˇceno prikazujemo povzetke analize kovariance za napako uvršˇcanja (tabela 8.1), obˇcutljivost (tabela 8.2), specifiˇcnost (tabela 8.3) in plošˇcino pod ROC-krivuljo (tabela 8.4). Metode uvršˇcanja se ob kontroliranem vplivu številu vkljuˇcenih spremenljivk med seboj statistiˇcno znaˇcilno razlikujejo pri vseh štirih merah. Metoda izbire spremenljivk z merami natanˇcnosti ni statistiˇcno znaˇcilno povezana. Kovariata je statistiˇcno znaˇcilno povezana z vsemi štirimi merami natanˇcnosti uvršˇcanja. 133 8 Rezultati Tabela 8.1: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na napako uvršˇcanja nad realnimi podatkovji Vir razpršenosti Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki SS df MS F Pr 0.36 <0.01 0.01 0.04 8 2 1 53 0.05 <0.01 0.01 <0.01 61.47 0.15 18.45 <0.001 0.864 <0.001 Tabela 8.2: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na obˇcutljivost nad realnimi podatkovji Vir razpršenosti Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki SS df MS F Pr 0.40 <0.01 0.03 0.09 8 2 1 53 0.05 <0.01 0.03 <0.01 30.00 0.10 16.49 <0.001 0.909 <0.001 Tabela 8.3: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na specifiˇcnost nad realnimi podatkovji Vir razpršenosti Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki SS df MS F Pr 0.87 <0.01 0.02 0.05 8 2 1 53 0.11 <0.01 0.02 <0.01 113.07 0.10 22.27 <0.001 0.907 <0.001 Tabela 8.4: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na plošˇcino pod ROC-krivuljo nad realnimi podatkovji Vir razpršenosti Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki 134 SS df MS F Pr 0.88 <0.01 0.03 0.05 8 2 1 53 0.11 <0.01 0.03 <0.01 126.69 0.19 30.15 <0.001 0.828 <0.001 Tabela 8.5: Povpreˇcna napaka uvršˇcanja pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. p 10 20 50 100 200 500 1000+ t-test kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA – – – 0.18 ± 0.16 0.18 ± 0.16 – – – – – 0.18 ± 0.16 0.19 ± 0.17 – – – – – 0.18 ± 0.16 0.18 0.17 0.16 0.19 0.19 0.17 0.30 0.18 0.17 0.16 0.19 0.20 0.17 0.30 0.18 0.17 0.16 0.19 ± 0.17 ± 0.15 ± 0.16 ± 0.15 ± 0.15 ± 0.16 ± 0.13 0.17 ± 0.16 0.17 ± 0.16 0.16 ± 0.15 – – 0.17 ± 0.16 0.31 ± 0.12 0.17 ± 0.17 0.16 ± 0.16 0.16 ± 0.16 – – 0.17 ± 0.15 0.33 ± 0.14 0.16 ± 0.16 0.16 ± 0.16 0.16 ± 0.16 – – 0.17 ± 0.15 0.35 ± 0.12 0.15 ± 0.16 0.14 ± 0.16 0.15 ± 0.17 – – 0.15 ± 0.15 0.35 ± 0.11 – – – – – – – ± 0.17 ± 0.15 ± 0.16 ± 0.16 ± 0.16 ± 0.15 ± 0.14 0.17 ± 0.16 0.17 ± 0.16 0.16 ± 0.15 – – 0.16 ± 0.15 0.32 ± 0.13 0.17 ± 0.17 0.16 ± 0.16 0.16 ± 0.16 – – 0.16 ± 0.15 0.34 ± 0.12 0.16 ± 0.16 0.15 ± 0.16 0.16 ± 0.16 – – 0.17 ± 0.15 0.35 ± 0.12 0.15 ± 0.16 0.14 ± 0.16 0.15 ± 0.17 – – 0.16 ± 0.15 0.36 ± 0.12 – – – – – – – ± 0.17 ± 0.15 ± 0.16 ± 0.15 0.17 ± 0.16 0.17 ± 0.16 0.16 ± 0.15 – 0.17 ± 0.17 0.16 ± 0.16 0.16 ± 0.16 – 0.16 ± 0.16 0.15 ± 0.16 0.16 ± 0.16 – 0.15 ± 0.16 0.14 ± 0.16 0.15 ± 0.17 – – – – – Welchev t-test LIMMA 135 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Metoda p Metoda 10 20 50 100 200 500 1000+ FDA DLDA NNET 0.18 ± 0.17 – – 0.19 ± 0.15 0.17 ± 0.16 0.30 ± 0.13 – 0.17 ± 0.16 0.32 ± 0.13 – 0.17 ± 0.16 0.35 ± 0.11 – 0.17 ± 0.16 0.37 ± 0.11 – 0.16 ± 0.15 0.37 ± 0.11 – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – RF√ p RF2√ p RF3√ p RF4√ p SVM PAM PLR – – – – – – – Vse spremenljivke 0.14 0.14 0.14 0.14 0.13 0.16 0.12 ± 0.15 ± 0.14 ± 0.14 ± 0.14 ± 0.17 ± 0.15 ± 0.14 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8 Rezultati 136 Tabela 8.5: (nadalj.) Povpreˇcna napaka uvršˇcanja pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. Tabela 8.6: Povpreˇcna obˇcutljivost pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. p 10 20 50 100 200 500 1000+ t-test kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA – – – 0.79 ± 0.21 0.80 ± 0.19 – – – – – 0.80 ± 0.20 0.80 ± 0.20 – – – – – 0.78 ± 0.23 0.79 0.78 0.78 0.79 0.80 0.80 0.65 0.79 0.78 0.78 0.80 0.80 0.82 0.65 0.79 0.78 0.78 0.78 ± 0.23 ± 0.23 ± 0.27 ± 0.18 ± 0.17 ± 0.21 ± 0.34 0.80 ± 0.22 0.79 ± 0.25 0.79 ± 0.25 – – 0.82 ± 0.20 0.65 ± 0.34 0.80 ± 0.22 0.79 ± 0.25 0.78 ± 0.26 – – 0.81 ± 0.21 0.63 ± 0.38 0.81 ± 0.23 0.79 ± 0.26 0.78 ± 0.27 – – 0.81 ± 0.21 0.62 ± 0.36 0.82 ± 0.23 0.81 ± 0.26 0.80 ± 0.27 – – 0.82 ± 0.21 0.63 ± 0.39 – – – – – – – ± 0.23 ± 0.23 ± 0.27 ± 0.20 ± 0.19 ± 0.19 ± 0.36 0.80 ± 0.22 0.79 ± 0.25 0.79 ± 0.25 – – 0.82 ± 0.19 0.64 ± 0.37 0.80 ± 0.22 0.79 ± 0.25 0.78 ± 0.26 – – 0.82 ± 0.20 0.61 ± 0.38 0.81 ± 0.23 0.79 ± 0.26 0.78 ± 0.27 – – 0.82 ± 0.20 0.60 ± 0.36 0.82 ± 0.23 0.81 ± 0.26 0.80 ± 0.27 – – 0.83 ± 0.20 0.64 ± 0.38 – – – – – – – ± 0.23 ± 0.23 ± 0.27 ± 0.21 0.80 ± 0.22 0.79 ± 0.25 0.79 ± 0.25 – 0.80 ± 0.22 0.79 ± 0.25 0.78 ± 0.26 – 0.81 ± 0.23 0.79 ± 0.26 0.78 ± 0.27 – 0.82 ± 0.23 0.81 ± 0.26 0.80 ± 0.27 – – – – – Welchev t-test LIMMA 137 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Metoda p Metoda 10 20 50 100 200 500 1000+ FDA DLDA NNET 0.79 ± 0.22 – – 0.79 ± 0.20 0.81 ± 0.20 0.67 ± 0.36 – 0.82 ± 0.20 0.65 ± 0.34 – 0.81 ± 0.21 0.63 ± 0.37 – 0.81 ± 0.21 0.59 ± 0.40 – 0.82 ± 0.21 0.60 ± 0.41 – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – RF1 RF2 RF3 RF4 SVM PAM PLR – – – – – – – Vse spremenljivke 0.81 0.82 0.81 0.81 0.83 0.80 0.86 ± 0.28 ± 0.27 ± 0.27 ± 0.27 ± 0.28 ± 0.25 ± 0.20 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8 Rezultati 138 Tabela 8.6: (nadalj.) Povpreˇcna obˇcutljivost pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. Tabela 8.7: Povpreˇcna specifiˇcnost pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. p 10 20 50 100 200 500 1000+ t-test kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA – – – 0.81 ± 0.19 0.81 ± 0.19 – – – – – 0.82 ± 0.19 0.81 ± 0.18 – – – – – 0.82 ± 0.18 0.82 0.83 0.85 0.79 0.79 0.82 0.63 0.82 0.83 0.85 0.78 0.77 0.82 0.62 0.82 0.83 0.85 0.80 ± 0.18 ± 0.17 ± 0.20 ± 0.18 ± 0.18 ± 0.19 ± 0.34 0.82 ± 0.20 0.84 ± 0.19 0.84 ± 0.20 – – 0.82 ± 0.20 0.60 ± 0.32 0.83 ± 0.21 0.84 ± 0.21 0.84 ± 0.22 – – 0.82 ± 0.21 0.57 ± 0.37 0.84 ± 0.20 0.85 ± 0.19 0.85 ± 0.20 – – 0.82 ± 0.21 0.53 ± 0.37 0.85 ± 0.20 0.86 ± 0.20 0.85 ± 0.22 – – 0.83 ± 0.20 0.50 ± 0.40 – – – – – – – ± 0.18 ± 0.17 ± 0.20 ± 0.19 ± 0.19 ± 0.19 ± 0.36 0.82 ± 0.20 0.84 ± 0.19 0.84 ± 0.20 – – 0.83 ± 0.20 0.58 ± 0.37 0.83 ± 0.21 0.84 ± 0.21 0.84 ± 0.22 – – 0.83 ± 0.20 0.57 ± 0.35 0.84 ± 0.20 0.85 ± 0.19 0.85 ± 0.20 – – 0.83 ± 0.20 0.56 ± 0.37 0.85 ± 0.20 0.86 ± 0.20 0.85 ± 0.22 – – 0.83 ± 0.20 0.49 ± 0.39 – – – – – – – ± 0.18 ± 0.17 ± 0.20 ± 0.17 0.82 ± 0.20 0.84 ± 0.19 0.84 ± 0.20 – 0.83 ± 0.21 0.84 ± 0.21 0.84 ± 0.22 – 0.84 ± 0.20 0.85 ± 0.19 0.85 ± 0.20 – 0.85 ± 0.20 0.86 ± 0.20 0.85 ± 0.22 – – – – – Welchev t-test LIMMA 139 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Metoda p Metoda 10 20 50 100 200 500 1000+ FDA DLDA NNET 0.82 ± 0.18 – – 0.80 ± 0.17 0.82 ± 0.20 0.61 ± 0.33 – 0.82 ± 0.21 0.58 ± 0.34 – 0.82 ± 0.21 0.52 ± 0.38 – 0.82 ± 0.21 0.52 ± 0.40 – 0.83 ± 0.20 0.49 ± 0.42 – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – RF1 RF2 RF3 RF4 SVM PAM PLR – – – – – – – Vse spremenljivke 0.85 0.85 0.84 0.85 0.86 0.83 0.87 ± 0.25 ± 0.24 ± 0.25 ± 0.24 ± 0.25 ± 0.23 ± 0.21 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8 Rezultati 140 Tabela 8.7: (nadalj.) Povpreˇcna specifiˇcnost pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. Tabela 8.8: Povpreˇcna plošˇcina pod ROC-krivuljo pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. p 10 20 50 100 200 500 1000+ t-test kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA – – – 0.85 ± 0.17 0.85 ± 0.17 – – – – – 0.85 ± 0.18 0.85 ± 0.18 – – – – – 0.84 ± 0.18 0.75 0.81 0.85 0.82 0.84 0.85 0.62 0.75 0.81 0.85 0.82 0.84 0.85 0.58 0.75 0.81 0.85 0.82 ± 0.23 ± 0.18 ± 0.18 ± 0.18 ± 0.17 ± 0.18 ± 0.17 0.75 ± 0.24 0.82 ± 0.20 0.84 ± 0.18 – – 0.84 ± 0.17 0.60 ± 0.17 0.76 ± 0.23 0.82 ± 0.19 0.84 ± 0.19 – – 0.84 ± 0.17 0.58 ± 0.16 0.77 ± 0.22 0.82 ± 0.20 0.85 ± 0.18 – – 0.83 ± 0.18 0.55 ± 0.13 0.78 ± 0.23 0.84 ± 0.19 0.85 ± 0.19 – – 0.82 ± 0.20 0.54 ± 0.11 – – – – – – – ± 0.23 ± 0.18 ± 0.18 ± 0.18 ± 0.16 ± 0.18 ± 0.18 0.75 ± 0.24 0.82 ± 0.20 0.84 ± 0.18 – – 0.84 ± 0.17 0.58 ± 0.18 0.76 ± 0.23 0.82 ± 0.19 0.84 ± 0.19 – – 0.83 ± 0.18 0.57 ± 0.14 0.77 ± 0.22 0.82 ± 0.20 0.85 ± 0.18 – – 0.83 ± 0.18 0.55 ± 0.13 0.78 ± 0.23 0.85 ± 0.19 0.85 ± 0.19 – – 0.82 ± 0.20 0.54 ± 0.12 – – – – – – – ± 0.23 ± 0.18 ± 0.18 ± 0.19 0.75 ± 0.24 0.82 ± 0.20 0.84 ± 0.18 – 0.76 ± 0.23 0.82 ± 0.19 0.84 ± 0.19 – 0.77 ± 0.22 0.82 ± 0.20 0.85 ± 0.18 – 0.78 ± 0.23 0.84 ± 0.19 0.85 ± 0.19 – – – – – Welchev t-test LIMMA 141 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Metoda p Metoda 10 20 50 100 200 500 1000+ FDA DLDA NNET 0.84 ± 0.18 – – 0.83 ± 0.18 0.85 ± 0.18 0.63 ± 0.17 – 0.84 ± 0.17 0.59 ± 0.15 – 0.84 ± 0.18 0.54 ± 0.12 – 0.83 ± 0.19 0.52 ± 0.13 – 0.82 ± 0.20 0.51 ± 0.12 – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – RF1 RF2 RF3 RF4 SVM PAM PLR – – – – – – – Vse spremenljivke 0.89 0.89 0.89 0.89 0.89 0.86 0.91 ± 0.16 ± 0.15 ± 0.15 ± 0.15 ± 0.18 ± 0.19 ± 0.14 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8 Rezultati 142 Tabela 8.8: (nadalj.) Povpreˇcna plošˇcina pod ROC-krivuljo pri uvršˇcanju primerov za realna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Razlike med metodami uvršˇcanja smo razˇclenili s pomoˇcjo naknadnih primerjav, za kar smo uporabili Tukeyjev test HSD. Povzetke naknadnih primerjav prikazujemo loˇceno za napako uvršˇcanja (tabela 8.9), obˇcutljivost (tabela 8.10), specifiˇcnost (tabela 8.11) in plošˇcino pod ROC-krivuljo (tabela 8.12). Vzorec naknadnih primerjav kaže, da gre statistiˇcna znaˇcilnost razlik v metodah uvršˇcanja predvsem na raˇcun metode NNET, ki se v vseh primerjavah odreže slabše od ostalih metod. Vse ostale primerjave ne kažejo znaˇcilnega vzorca razlik. Na slikah 8.1–8.4 so prikazani CD-diagrami za napako uvršˇcanja, obˇcutljivost, specifiˇcnost in plošˇcino pod ROC-krivuljo. Prikazane vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in razliˇcnega števila vkljuˇcenih spremenljivk. V povpreˇcju se pri uvršˇcanju najbolje odreže metoda PLR, najslabše pa metoda NNET. 8.1.2 Sintetični podatki Pregled mer natančnosti uvrščanja V tabelah 8.13–8.16 so zbrani rezultati uvršˇcanja za sintetiˇcna podatkovja. Za vsako metodo uvršˇcanja podajamo njen dosežek za (i) izbrano kombinacijo metode izbire spremenljivk in (ii) morebitne parametre uˇcenja. Loˇceno prikazujemo rezultate za napako uvršˇcanja (tabela 8.13), obˇcutljivost (tabela 8.14), specifiˇcnost (tabela 8.15) in plošˇcino pod ROC-krivuljo (tabela 8.16). Glede na napako uvršˇcanja dosega najboljši rezultat metoda SVM (MER = 0.41) v kombinaciji z vsemi vkljuˇcenimi spremenljivkami. Napaka uvršˇcanja je najveˇcja pri metodi DLDA (MER = 0.51) v kombinaciji s p = 100 izbranimi spremenljivkami, ki smo jih izbrali s pomoˇcjo Welchevega t-testa. Pri obˇcutljivosti dosega najboljši rezultat metoda NNET (Sens = 0.54) v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami. Obˇcutljivost je najnižja pri metodi PAM v kombinaciji z vsemi vkljuˇcenimi spremenljivkami. Najvecˇ jo specifiˇcnost dosega metoda SVM (Spec = 0.55) v kombinaciji z vsemi vkljuˇcenimi spremenljivkami. Specifiˇcnost je najnižja pri metodi NNET (Spec = 0.44) v kombinaciji s p = 500 vkljuˇcenimi spremenljivkami, ki smo jih izbrali z Welchevim t-testom. Plošˇcina pod ROC-krivuljo je najveˇcja pri metodi SVM (AUC = 0.51) v kombinaciji z vsemi vkljucˇ enimi spremenljivkami, najmanjša pa pri metodi kNN1 (AUC = 0.36) v kombinaciji s p = 500 vkljuˇcenimi spremenljivkami, ki smo jih izloˇcili s pomoˇcjo t-testa, Welchevega t-testa oz. s pristopom LIMMA. Povpreˇcni dosežki so na vseh štirih merah uˇcinkovitosti uvršˇcanja manjši kot pri realnih podatkovjih. Ovrednotenje učinka metode uvrščanja in izbire spremenljivk na uvrščanje Vpliv metode uvršˇcanja in metode izbire spremenljivk smo preverili s pomoˇcjo analize kovariance. V analizo smo kot kovariato vkljuˇcili število prediktorskih spremenljivk. Predpostavke o homogenosti varianc niso bile kršene. Loˇceno prikazujemo povzetke analize kovariance za napako uvršˇcanja (tabela 8.17), obˇcutljivost (tabela 8.18), specifiˇcnost (tabela 8.19) in plošˇcino pod ROC-krivuljo (tabela 8.20). Metode uvršˇcanja se ob kontroliranem vplivu števila vkljuˇcenih spremenljivk med seboj statistiˇcno znaˇcilno 143 8 Rezultati Tabela 8.9: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za napako uvršˇcanja nad realnimi podatkovji Primerjava FDA–DLDA kNN–DLDA LDA–DLDA NNET–DLDA PAM–DLDA PLR–DLDA RF–DLDA SVM–DLDA kNN–FDA LDA–FDA NNET–FDA PAM–FDA PLR–FDA RF–FDA SVM–FDA LDA–kNN NNET–kNN PAM–kNN PLR–kNN RF–kNN SVM–kNN NNET–LDA PAM–LDA PLR–LDA RF–LDA SVM–LDA PAM–NNET PLR–NNET RF–NNET SVM–NNET PLR–PAM RF–PAM SVM–PAM RF–PLR SVM–PLR SVM–RF LIMMA–Vse t-test–Vse Welch–Vse t-test–LIMMA D LL UL Pr 0.03 0.00 0.02 0.17 −0.01 −0.06 −0.03 −0.05 −0.03 0.00 0.14 −0.04 −0.09 −0.06 −0.07 0.02 0.17 −0.01 −0.06 −0.03 −0.05 0.15 −0.04 −0.08 −0.06 −0.07 −0.18 −0.23 −0.20 −0.22 −0.05 −0.02 −0.03 0.03 0.01 −0.01 −0.02 −0.04 −0.03 0.13 −0.09 −0.14 −0.11 −0.12 −0.08 −0.06 0.10 −0.12 −0.17 −0.14 −0.15 −0.03 0.13 −0.09 −0.13 −0.11 −0.12 0.10 −0.12 −0.16 −0.14 −0.15 −0.26 −0.31 −0.28 −0.29 −0.15 −0.12 −0.13 −0.07 −0.09 −0.11 0.07 0.04 0.07 0.21 0.06 0.02 0.04 0.03 0.02 0.05 0.19 0.04 0.00 0.02 0.01 0.07 0.21 0.06 0.02 0.04 0.03 0.20 0.05 0.00 0.03 0.01 −0.11 −0.15 −0.13 −0.14 0.05 0.08 0.07 0.13 0.11 0.09 0.745 1.000 0.873 <0.001 1.000 0.230 0.880 0.552 0.680 1.000 <0.001 0.846 0.036 0.346 0.126 0.824 <0.001 1.000 0.260 0.906 0.597 <0.001 0.907 0.052 0.433 0.173 <0.001 <0.001 <0.001 <0.001 0.845 0.999 0.973 0.995 1.000 1.000 0.04 0.03 0.04 0.02 1.000 0.997 0.999 0.982 0.00 0.00 0.00 0.00 −0.03 −0.04 −0.03 −0.03 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 144 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Tabela 8.9: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za napako uvršˇcanja nad realnimi podatkovji Primerjava D Welch–LIMMA Welch–t-test 0.00 0.00 LL −0.03 −0.02 UL Pr 0.03 0.03 1.000 0.972 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. Tabela 8.10: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za obˇcutljivost nad realnimi podatkovji Primerjava FDA–DLDA kNN–DLDA LDA–DLDA NNET–DLDA PAM–DLDA PLR–DLDA RF–DLDA SVM–DLDA kNN–FDA LDA–FDA NNET–FDA PAM–FDA PLR–FDA RF–FDA SVM–FDA LDA–kNN NNET–kNN PAM–kNN PLR–kNN RF–kNN SVM–kNN NNET–LDA PAM–LDA PLR–LDA RF–LDA SVM–LDA PAM–NNET PLR–NNET RF–NNET SVM–NNET D LL UL Pr −0.02 −0.02 −0.03 −0.19 0.00 0.06 0.01 0.03 0.00 −0.01 −0.17 0.02 0.08 0.03 0.05 −0.01 −0.16 0.02 0.08 0.03 0.05 −0.16 0.03 0.09 0.04 0.06 0.19 0.25 0.20 0.21 −0.09 −0.08 −0.10 −0.24 −0.11 −0.05 −0.10 −0.08 −0.07 −0.09 −0.24 −0.10 −0.04 −0.09 −0.07 −0.08 −0.22 −0.09 −0.03 −0.08 −0.06 −0.23 −0.09 −0.03 −0.08 −0.07 0.08 0.13 0.08 0.10 0.05 0.03 0.05 −0.13 0.12 0.17 0.12 0.14 0.07 0.08 −0.09 0.14 0.20 0.15 0.17 0.07 −0.11 0.14 0.19 0.14 0.16 −0.09 0.15 0.21 0.16 0.18 0.30 0.36 0.31 0.33 0.993 0.949 0.950 <0.001 1.000 0.718 1.000 0.996 1.000 1.000 <0.001 1.000 0.466 0.996 0.938 1.000 <0.001 0.999 0.342 0.992 0.895 <0.001 0.997 0.347 0.985 0.869 <0.001 <0.001 <0.001 <0.001 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 145 8 Rezultati Tabela 8.10: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za obˇcutljivost nad realnimi podatkovji Primerjava D LL PLR–PAM RF–PAM SVM–PAM RF–PLR SVM–PLR SVM–RF 0.06 0.01 0.03 −0.05 −0.03 0.02 −0.09 −0.14 −0.12 −0.20 −0.18 −0.13 LIMMA–Vse t-test–Vse Welch–Vse t-test–LIMMA Welch–LIMMA Welch–t-test 0.00 0.00 0.00 0.01 0.01 0.00 −0.06 −0.05 −0.05 −0.04 −0.03 −0.04 UL Pr 0.21 0.16 0.17 0.10 0.12 0.17 0.939 1.000 1.000 0.974 0.999 1.000 0.05 0.05 0.05 0.04 0.05 0.04 0.998 1.000 1.000 0.990 0.985 1.000 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. Tabela 8.11: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za specifiˇcnost nad realnimi podatkovji Primerjava FDA–DLDA kNN–DLDA LDA–DLDA NNET–DLDA PAM–DLDA PLR–DLDA RF–DLDA SVM–DLDA kNN–FDA LDA–FDA NNET–FDA PAM–FDA PLR–FDA RF–FDA SVM–FDA LDA–kNN NNET–kNN PAM–kNN PLR–kNN RF–kNN D LL UL Pr −0.03 0.01 −0.02 −0.27 0.01 0.05 0.03 0.05 0.04 0.00 −0.24 0.04 0.08 0.06 0.07 −0.04 −0.28 0.00 0.04 0.01 −0.08 −0.03 −0.08 −0.31 −0.08 −0.04 −0.06 −0.04 −0.02 −0.07 −0.30 −0.06 −0.02 −0.04 −0.02 −0.10 −0.32 −0.09 −0.05 −0.08 0.03 0.06 0.03 −0.22 0.10 0.14 0.12 0.14 0.10 0.07 −0.18 0.13 0.18 0.15 0.17 0.02 −0.24 0.09 0.13 0.10 0.855 0.978 0.922 <0.001 1.000 0.620 0.981 0.729 0.368 1.000 <0.001 0.938 0.199 0.663 0.269 0.475 <0.001 1.000 0.899 1.000 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 146 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Tabela 8.11: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za specifiˇcnost nad realnimi podatkovji Primerjava SVM–kNN NNET–LDA PAM–LDA PLR–LDA RF–LDA SVM–LDA PAM–NNET PLR–NNET RF–NNET SVM–NNET PLR–PAM RF–PAM SVM–PAM RF–PLR SVM–PLR SVM–RF LIMMA–Vse t-test–Vse Welch–Vse t-test–LIMMA Welch–LIMMA Welch–t-test D LL UL Pr 0.03 −0.24 0.04 0.08 0.05 0.07 0.28 0.32 0.30 0.31 0.04 0.02 0.04 −0.02 −0.01 0.02 −0.06 −0.30 −0.06 −0.02 −0.05 −0.03 0.19 0.23 0.21 0.23 −0.08 −0.10 −0.08 −0.14 −0.12 −0.10 0.12 −0.19 0.13 0.17 0.15 0.17 0.37 0.41 0.38 0.40 0.16 0.14 0.16 0.09 0.11 0.14 0.950 <0.001 0.961 0.243 0.728 0.321 <0.001 <0.001 <0.001 <0.001 0.969 1.000 0.985 0.999 1.000 1.000 0.04 0.04 0.04 0.04 0.04 0.03 0.998 0.999 1.000 0.984 0.993 1.000 0.00 0.00 0.00 0.00 0.00 0.00 −0.04 −0.04 −0.04 −0.03 −0.03 −0.03 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. Tabela 8.12: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za plošˇcino pod ROC-krivuljo nad realnimi podatkovji Primerjava FDA–DLDA kNN–DLDA LDA–DLDA NNET–DLDA PAM–DLDA PLR–DLDA RF–DLDA SVM–DLDA kNN–FDA LDA–FDA D LL UL Pr 0.01 −0.03 0.00 −0.27 0.04 0.08 0.06 0.07 −0.03 −0.01 −0.05 −0.07 −0.06 −0.31 −0.05 −0.01 −0.03 −0.02 −0.09 −0.08 0.06 0.02 0.06 −0.22 0.13 0.17 0.15 0.16 0.03 0.06 1.000 0.643 1.000 <0.001 0.895 0.089 0.339 0.241 0.724 1.000 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 147 8 Rezultati Tabela 8.12: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za plošˇcino pod ROC-krivuljo nad realnimi podatkovji Primerjava NNET–FDA PAM–FDA PLR–FDA RF–FDA SVM–FDA LDA–kNN NNET–kNN PAM–kNN PLR–kNN RF–kNN SVM–kNN NNET–LDA PAM–LDA PLR–LDA RF–LDA SVM–LDA PAM–NNET PLR–NNET RF–NNET SVM–NNET PLR–PAM RF–PAM SVM–PAM RF–PLR SVM–PLR SVM–RF LIMMA–Vse t-test–Vse Welch–Vse t-test–LIMMA Welch–LIMMA Welch–t-test D LL UL Pr −0.27 0.03 0.08 0.06 0.06 0.02 −0.24 0.06 0.11 0.09 0.10 −0.27 0.04 0.09 0.07 0.07 0.31 0.35 0.33 0.34 0.04 0.03 0.03 −0.02 −0.01 0.01 −0.33 −0.06 −0.02 −0.04 −0.03 −0.03 −0.29 −0.03 0.02 0.00 0.01 −0.32 −0.06 −0.01 −0.03 −0.03 0.22 0.26 0.24 0.25 −0.07 −0.09 −0.09 −0.14 −0.13 −0.11 −0.22 0.13 0.17 0.16 0.16 0.08 −0.20 0.15 0.20 0.18 0.18 −0.21 0.14 0.18 0.16 0.17 0.39 0.44 0.42 0.43 0.16 0.14 0.15 0.10 0.11 0.12 <0.001 0.973 0.223 0.576 0.458 0.929 <0.001 0.362 0.008 0.049 0.029 <0.001 0.911 0.130 0.408 0.305 <0.001 <0.001 <0.001 <0.001 0.951 0.998 0.994 1.000 1.000 1.000 0.04 0.04 0.04 0.04 0.03 0.03 0.999 0.997 1.000 0.963 0.999 0.986 0.00 0.00 0.00 0.01 0.00 0.00 −0.04 −0.04 −0.04 −0.03 −0.03 −0.04 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 148 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje CD 1 2 3 4 5 6 7 8 9 PLR RF SVM PAM kNN NNET FDA LDA DLDA Slika 8.1: Razvrstitev metod uvršˇcanja nad realnimi podatkovji glede na napako uvršˇcanja. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. CD 1 2 3 4 PLR SVM RF DLDA PAM 5 6 7 8 9 NNET LDA FDA kNN Slika 8.2: Razvrstitev metod uvršˇcanja nad realnimi podatkovji glede na obˇcutljivost. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. 149 8 Rezultati CD 1 2 3 4 5 6 7 8 9 RF SVM PLR kNN PAM NNET FDA LDA DLDA Slika 8.3: Razvrstitev metod uvršˇcanja nad realnimi podatkovji glede na specifiˇcnost. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. CD 1 2 3 4 PLR RF SVM PAM FDA 5 6 7 8 9 NNET kNN DLDA LDA Slika 8.4: Razvrstitev metod uvršˇcanja nad realnimi podatkovji glede na plošˇcino pod ROC-krivuljo. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. 150 Tabela 8.13: Povpreˇcna napaka uvršˇcanja pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. p 10 20 50 100 200 500 1000+ t-test kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA – – – 0.45 ± 0.11 0.48 ± 0.10 – – – – – 0.46 ± 0.11 0.49 ± 0.09 – – – – – 0.46 ± 0.11 0.46 0.46 0.45 0.46 0.47 0.49 0.42 0.46 0.46 0.45 0.47 0.48 0.50 0.43 0.46 0.46 0.45 0.46 ± 0.10 ± 0.12 ± 0.13 ± 0.10 ± 0.09 ± 0.13 ± 0.10 0.46 ± 0.11 0.46 ± 0.12 0.45 ± 0.12 – – 0.50 ± 0.12 0.42 ± 0.10 0.46 ± 0.11 0.45 ± 0.12 0.44 ± 0.13 – – 0.51 ± 0.12 0.43 ± 0.11 0.47 ± 0.11 0.45 ± 0.13 0.45 ± 0.13 – – 0.50 ± 0.12 0.42 ± 0.11 0.47 ± 0.10 0.46 ± 0.11 0.45 ± 0.13 – – 0.51 ± 0.12 0.42 ± 0.10 – – – – – – – ± 0.10 ± 0.12 ± 0.13 ± 0.09 ± 0.07 ± 0.12 ± 0.11 0.46 ± 0.11 0.46 ± 0.12 0.45 ± 0.12 – – 0.50 ± 0.12 0.42 ± 0.11 0.46 ± 0.11 0.45 ± 0.12 0.44 ± 0.13 – – 0.51 ± 0.11 0.43 ± 0.10 0.47 ± 0.11 0.45 ± 0.13 0.45 ± 0.13 – – 0.51 ± 0.12 0.42 ± 0.10 0.47 ± 0.10 0.46 ± 0.11 0.45 ± 0.13 – – 0.51 ± 0.12 0.42 ± 0.10 – – – – – – – ± 0.10 ± 0.12 ± 0.13 ± 0.10 0.46 ± 0.11 0.46 ± 0.12 0.45 ± 0.12 – 0.46 ± 0.11 0.45 ± 0.12 0.44 ± 0.13 – 0.47 ± 0.11 0.45 ± 0.13 0.45 ± 0.13 – 0.47 ± 0.10 0.46 ± 0.11 0.45 ± 0.13 – – – – – Welchev t-test LIMMA 151 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Metoda p Metoda 10 20 50 100 200 500 1000+ FDA DLDA NNET 0.49 ± 0.10 – – 0.48 ± 0.09 0.49 ± 0.12 0.42 ± 0.09 – 0.50 ± 0.12 0.42 ± 0.10 – 0.51 ± 0.12 0.43 ± 0.11 – 0.50 ± 0.12 0.42 ± 0.11 – 0.51 ± 0.12 0.43 ± 0.11 – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – RF√ p RF2√ p RF3√ p RF4√ p SVM PAM PLR – – – – – – – Vse spremenljivke 0.44 0.44 0.45 0.44 0.41 0.45 0.43 ± 0.14 ± 0.13 ± 0.13 ± 0.13 ± 0.10 ± 0.13 ± 0.11 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8 Rezultati 152 Tabela 8.13: (nadalj.) Povpreˇcna napaka uvršˇcanja pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. Tabela 8.14: Povpreˇcna obˇcutljivost pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. p 10 20 50 100 200 500 1000+ t-test kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA – – – 0.46 ± 0.23 0.46 ± 0.16 – – – – – 0.45 ± 0.22 0.45 ± 0.15 – – – – – 0.45 ± 0.23 0.47 0.46 0.44 0.46 0.46 0.44 0.49 0.47 0.46 0.44 0.45 0.46 0.43 0.50 0.47 0.46 0.44 0.47 ± 0.20 ± 0.23 ± 0.28 ± 0.21 ± 0.16 ± 0.20 ± 0.34 0.50 ± 0.19 0.48 ± 0.22 0.48 ± 0.25 – – 0.43 ± 0.20 0.54 ± 0.35 0.47 ± 0.22 0.47 ± 0.25 0.46 ± 0.26 – – 0.43 ± 0.18 0.50 ± 0.35 0.47 ± 0.20 0.46 ± 0.27 0.44 ± 0.28 – – 0.44 ± 0.18 0.52 ± 0.39 0.48 ± 0.21 0.46 ± 0.25 0.46 ± 0.29 – – 0.43 ± 0.18 0.51 ± 0.38 – – – – – – – ± 0.20 ± 0.23 ± 0.28 ± 0.18 ± 0.13 ± 0.17 ± 0.35 0.50 ± 0.19 0.48 ± 0.22 0.48 ± 0.25 – – 0.44 ± 0.17 0.53 ± 0.37 0.47 ± 0.22 0.47 ± 0.25 0.46 ± 0.26 – – 0.43 ± 0.16 0.54 ± 0.37 0.47 ± 0.20 0.46 ± 0.27 0.44 ± 0.28 – – 0.44 ± 0.17 0.54 ± 0.39 0.48 ± 0.21 0.46 ± 0.25 0.46 ± 0.29 – – 0.44 ± 0.17 0.55 ± 0.41 – – – – – – – ± 0.20 ± 0.23 ± 0.28 ± 0.20 0.50 ± 0.19 0.48 ± 0.22 0.48 ± 0.25 – 0.47 ± 0.22 0.47 ± 0.25 0.46 ± 0.26 – 0.47 ± 0.20 0.46 ± 0.27 0.44 ± 0.28 – 0.48 ± 0.21 0.46 ± 0.25 0.46 ± 0.29 – – – – – Welchev t-test LIMMA 153 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Metoda p Metoda 10 20 50 100 200 500 1000+ FDA DLDA NNET 0.46 ± 0.16 – – 0.48 ± 0.16 0.43 ± 0.19 0.52 ± 0.36 – 0.43 ± 0.20 0.50 ± 0.36 – 0.43 ± 0.18 0.51 ± 0.37 – 0.44 ± 0.18 0.49 ± 0.37 – 0.43 ± 0.18 0.52 ± 0.40 – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – RF√ p RF2√ p RF3√ p RF4√ p SVM PAM PLR – – – – – – – Vse spremenljivke 0.46 0.47 0.46 0.46 0.46 0.40 0.50 ± 0.33 ± 0.33 ± 0.33 ± 0.32 ± 0.37 ± 0.38 ± 0.26 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8 Rezultati 154 Tabela 8.14: (nadalj.) Povpreˇcna obˇcutljivost pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. Tabela 8.15: Povpreˇcna specifiˇcnost pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. p 10 20 50 100 200 500 1000+ t-test kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA – – – 0.54 ± 0.19 0.53 ± 0.13 – – – – – 0.54 ± 0.17 0.52 ± 0.11 – – – – – 0.52 ± 0.21 0.53 0.53 0.53 0.55 0.54 0.52 0.53 0.53 0.53 0.53 0.54 0.53 0.51 0.50 0.53 0.53 0.53 0.52 ± 0.17 ± 0.20 ± 0.24 ± 0.17 ± 0.13 ± 0.18 ± 0.33 0.50 ± 0.19 0.51 ± 0.22 0.51 ± 0.25 – – 0.50 ± 0.18 0.47 ± 0.34 0.52 ± 0.18 0.53 ± 0.23 0.53 ± 0.24 – – 0.49 ± 0.17 0.49 ± 0.35 0.51 ± 0.19 0.52 ± 0.23 0.53 ± 0.24 – – 0.49 ± 0.17 0.48 ± 0.37 0.49 ± 0.18 0.52 ± 0.22 0.52 ± 0.25 – – 0.49 ± 0.17 0.49 ± 0.38 – – – – – – – ± 0.17 ± 0.20 ± 0.24 ± 0.16 ± 0.12 ± 0.17 ± 0.33 0.50 ± 0.19 0.51 ± 0.22 0.51 ± 0.25 – – 0.50 ± 0.18 0.47 ± 0.35 0.52 ± 0.18 0.53 ± 0.23 0.53 ± 0.24 – – 0.49 ± 0.16 0.45 ± 0.35 0.51 ± 0.19 0.52 ± 0.23 0.53 ± 0.24 – – 0.50 ± 0.16 0.47 ± 0.38 0.49 ± 0.18 0.52 ± 0.22 0.52 ± 0.25 – – 0.49 ± 0.16 0.44 ± 0.41 – – – – – – – ± 0.17 ± 0.20 ± 0.24 ± 0.18 0.50 ± 0.19 0.51 ± 0.22 0.51 ± 0.25 – 0.52 ± 0.18 0.53 ± 0.23 0.53 ± 0.24 – 0.51 ± 0.19 0.52 ± 0.23 0.53 ± 0.24 – 0.49 ± 0.18 0.52 ± 0.22 0.52 ± 0.25 – – – – – Welchev t-test LIMMA 155 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Metoda p Metoda 10 20 50 100 200 500 1000+ FDA DLDA NNET 0.52 ± 0.15 – – 0.51 ± 0.14 0.51 ± 0.17 0.50 ± 0.33 – 0.50 ± 0.18 0.50 ± 0.35 – 0.49 ± 0.18 0.47 ± 0.38 – 0.49 ± 0.17 0.51 ± 0.35 – 0.49 ± 0.17 0.46 ± 0.39 – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – RF√ p RF2√ p RF3√ p RF4√ p SVM PAM PLR – – – – – – – Vse spremenljivke 0.50 0.50 0.50 0.50 0.55 0.53 0.53 ± 0.31 ± 0.31 ± 0.30 ± 0.30 ± 0.35 ± 0.36 ± 0.22 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8 Rezultati 156 Tabela 8.15: (nadalj.) Povpreˇcna specifiˇcnost pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. Tabela 8.16: Povpreˇcna plošˇcina pod ROC-krivuljo pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. p 10 20 50 100 200 500 1000+ t-test kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA FDA DLDA NNET kNN1 kNN3 kNN5 LDA – – – 0.49 ± 0.11 0.49 ± 0.11 – – – – – 0.48 ± 0.11 0.48 ± 0.11 – – – – – 0.48 ± 0.12 0.38 0.46 0.46 0.50 0.50 0.47 0.47 0.38 0.46 0.46 0.48 0.48 0.46 0.44 0.38 0.46 0.46 0.48 ± 0.10 ± 0.12 ± 0.12 ± 0.10 ± 0.10 ± 0.14 ± 0.06 0.37 ± 0.10 0.45 ± 0.11 0.47 ± 0.12 – – 0.46 ± 0.13 0.45 ± 0.09 0.37 ± 0.10 0.46 ± 0.11 0.47 ± 0.11 – – 0.44 ± 0.12 0.45 ± 0.07 0.37 ± 0.10 0.45 ± 0.12 0.46 ± 0.12 – – 0.42 ± 0.11 0.46 ± 0.06 0.36 ± 0.09 0.45 ± 0.12 0.45 ± 0.12 – – 0.40 ± 0.11 0.48 ± 0.04 – – – – – – – ± 0.10 ± 0.12 ± 0.12 ± 0.09 ± 0.09 ± 0.13 ± 0.09 0.37 ± 0.10 0.45 ± 0.11 0.47 ± 0.12 – – 0.45 ± 0.13 0.45 ± 0.08 0.37 ± 0.10 0.46 ± 0.11 0.47 ± 0.11 – – 0.44 ± 0.12 0.45 ± 0.06 0.37 ± 0.10 0.45 ± 0.12 0.46 ± 0.12 – – 0.43 ± 0.12 0.47 ± 0.07 0.36 ± 0.09 0.45 ± 0.12 0.45 ± 0.12 – – 0.40 ± 0.11 0.46 ± 0.07 – – – – – – – ± 0.10 ± 0.12 ± 0.12 ± 0.10 0.37 ± 0.10 0.45 ± 0.11 0.47 ± 0.12 – 0.37 ± 0.10 0.46 ± 0.11 0.47 ± 0.11 – 0.37 ± 0.10 0.45 ± 0.12 0.46 ± 0.12 – 0.36 ± 0.09 0.45 ± 0.12 0.45 ± 0.12 – – – – – Welchev t-test LIMMA 157 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Metoda p Metoda 10 20 50 100 200 500 1000+ FDA DLDA NNET 0.48 ± 0.12 – – 0.49 ± 0.10 0.47 ± 0.14 0.45 ± 0.07 – 0.45 ± 0.13 0.45 ± 0.07 – 0.44 ± 0.12 0.45 ± 0.06 – 0.42 ± 0.11 0.47 ± 0.07 – 0.40 ± 0.11 0.45 ± 0.07 – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – RF√ p RF2√ p RF3√ p RF4√ p SVM PAM PLR – – – – – – – Vse spremenljivke 0.47 0.48 0.47 0.47 0.51 0.42 0.50 ± 0.11 ± 0.12 ± 0.12 ± 0.12 ± 0.10 ± 0.10 ± 0.10 Legenda: kNN – metoda najbližjega soseda, LDA – linearna diskriminantna analiza, FDA – Fisherjeva diskriminantna analiza, DLDA – diagonalna linearna diskriminantna analiza, NNET – nevronske mreže, RF – sluˇcajni gozdovi, SVM – metoda podpornih vektorjev, PAM – metoda najbližjega skrˇcenega centroida, PLR – logistiˇcna regresija s kaznijo, p – št. spremenljivk 8 Rezultati 158 Tabela 8.16: (nadalj.) Povpreˇcna plošˇcina pod ROC krivuljo pri uvršˇcanju primerov za sintetiˇcna podatkovja. Prikazan je prerez za razliˇcne metode uvršˇcanja, metode izbire spremenljivk in število spremenljivk. 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Tabela 8.17: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na napako uvršˇcanja nad sintetiˇcnimi podatkovji Vir razpršenosti Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki SS df MS F Pr 0.05 <0.01 <0.01 <0.01 8 2 1 49 0.01 <0.00 <0.00 <0.00 194.41 7.75 3.24 <0.001 0.001 0.078 Tabela 8.18: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na obˇcutljivost nad sintetiˇcnimi podatkovji Vir razpršenosti Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki SS df MS F Pr 0.06 <0.01 <0.01 0.01 8 2 1 49 0.01 <0.01 <0.01 <0.01 53.11 0.48 1.20 <0.001 0.622 0.279 razlikujejo pri vseh štirih merah. Metoda izbire spremenljivk z merami kakovosti ni statistiˇcno znaˇcilno povezana. Glede na kovariato prihaja do statistiˇcno znaˇcilnih razlik pri specifiˇcnosti in plošˇcini pod ROC-krivuljo. Razlike med metodami uvršˇcanja smo razˇclenili s pomoˇcjo naknadnih primerjav, za kar smo uporabili Tukeyjev test HSD. Povzetke naknadnih primerjav prikazujemo loˇceno za napako uvršˇcanja (tabela 8.21), obˇcutljivost (tabela 8.22), specifiˇcnost (tabela 8.23) in plošˇcino pod ROC-krivuljo (tabela 8.24). Vzorec naknadnih primerjav kaže, da gre statistiˇcna znaˇcilnost razlik v metodah uvršˇcanja predvsem na raˇcun metode NNET, ki se v vseh primerjavah odreže slabše od ostalih metod. Nobena od ostalih primerjav ne kaže znaˇcilnega vzorca razlik. Tabela 8.21: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za napako uvršˇcanja nad sintetiˇcnimi podatkovji Primerjava FDA–DLDA kNN–DLDA LDA–DLDA NNET–DLDA PAM–DLDA PLR–DLDA RF–DLDA SVM–DLDA D LL UL Pr −0.02 −0.04 −0.04 −0.08 −0.05 −0.07 −0.06 −0.09 −0.03 −0.05 −0.05 −0.09 −0.07 −0.09 −0.08 −0.11 −0.01 −0.04 −0.03 −0.07 −0.03 −0.05 −0.04 −0.07 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 159 8 Rezultati Tabela 8.21: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za napako uvršˇcanja nad sintetiˇcnimi podatkovji Primerjava kNN–FDA LDA–FDA NNET–FDA PAM–FDA PLR–FDA RF–FDA SVM–FDA LDA–kNN NNET–kNN PAM–kNN PLR–kNN RF–kNN SVM–kNN NNET–LDA PAM–LDA PLR–LDA RF–LDA SVM–LDA PAM–NNET PLR–NNET RF–NNET SVM–NNET PLR–PAM RF–PAM SVM–PAM RF–PLR SVM–PLR SVM–RF LIMMA–Vse t-test–Vse Welch–Vse t-test–LIMMA Welch–LIMMA Welch–t-test D LL UL Pr −0.02 −0.02 −0.06 −0.03 −0.05 −0.03 −0.07 0.00 −0.04 −0.01 −0.03 −0.02 −0.05 −0.04 −0.01 −0.03 −0.02 −0.05 0.03 0.01 0.02 −0.01 −0.02 −0.01 −0.04 0.01 −0.02 −0.04 −0.03 −0.03 −0.07 −0.05 −0.07 −0.06 −0.09 −0.01 −0.05 −0.03 −0.05 −0.04 −0.07 −0.05 −0.03 −0.05 −0.04 −0.07 0.01 −0.01 0.00 −0.03 −0.05 −0.03 −0.07 −0.01 −0.05 −0.06 −0.01 −0.01 −0.05 −0.01 −0.03 −0.01 −0.05 0.01 −0.03 0.01 −0.01 0.01 −0.03 −0.03 0.01 −0.01 0.01 −0.03 0.05 0.03 0.04 0.01 0.01 0.02 −0.01 0.04 0.01 −0.01 <0.001 <0.001 <0.001 0.001 <0.001 <0.001 <0.001 1.000 <0.001 0.760 0.001 0.280 <0.001 <0.001 0.823 0.002 0.360 <0.001 0.001 0.785 0.013 0.593 0.482 1.000 0.001 0.834 0.211 0.004 0.00 0.00 0.00 0.00 0.00 0.01 −0.01 −0.01 −0.01 −0.01 0.00 0.00 0.01 0.01 0.01 0.00 0.01 0.01 0.999 0.715 0.631 0.408 0.120 0.002 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 160 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Tabela 8.19: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na specifiˇcnost nad sintetiˇcnimi podatkovji Vir razpršenosti Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki SS df MS F Pr 0.02 <0.01 <0.01 0.01 8 2 1 49 <0.01 <0.01 <0.01 <0.01 15.81 2.18 9.50 <0.001 0.124 0.003 Tabela 8.20: Povzetek ANCOVA za preverjanje uˇcinkov metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na plošˇcino pod ROC-krivuljo nad sintetiˇcnimi podatkovji Vir razpršenosti Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki SS df MS F Pr 0.03 <0.01 <0.01 0.01 8 2 1 49 <0.01 <0.01 <0.01 <0.01 24.38 1.00 13.05 <0.001 0.376 0.001 Tabela 8.22: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za obˇcutljivost nad sintetiˇcnimi podatkovji Primerjava FDA–DLDA kNN–DLDA LDA–DLDA NNET–DLDA PAM–DLDA PLR–DLDA RF–DLDA SVM–DLDA kNN–FDA LDA–FDA NNET–FDA PAM–FDA PLR–FDA RF–FDA SVM–FDA LDA–kNN NNET–kNN PAM–kNN PLR–kNN D LL UL Pr 0.03 0.03 0.02 0.08 −0.02 0.06 0.02 0.03 0.00 −0.01 0.06 −0.05 0.04 0.00 0.00 −0.01 0.05 −0.06 0.03 0.01 0.02 0.00 0.07 −0.06 0.02 −0.02 −0.01 −0.01 −0.03 0.04 −0.09 −0.01 −0.05 −0.04 −0.03 0.04 −0.10 −0.01 0.05 0.05 0.04 0.10 0.02 0.10 0.06 0.07 0.02 0.02 0.07 −0.01 0.08 0.04 0.04 0.01 0.07 −0.02 0.07 <0.001 <0.001 0.009 <0.001 0.630 <0.001 0.546 0.347 0.998 0.991 <0.001 0.006 0.160 1.000 1.000 0.675 <0.001 0.001 0.242 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 161 8 Rezultati Tabela 8.22: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za obˇcutljivost nad sintetiˇcnimi podatkovji Primerjava RF–kNN SVM–kNN NNET–LDA PAM–LDA PLR–LDA RF–LDA SVM–LDA PAM–NNET PLR–NNET RF–NNET SVM–NNET PLR–PAM RF–PAM SVM–PAM RF–PLR SVM–PLR SVM–RF LIMMA–Vse t-test–Vse Welch–Vse t-test–LIMMA Welch–LIMMA Welch–t-test D LL UL Pr −0.01 0.00 0.06 −0.05 0.04 0.00 0.01 −0.11 −0.02 −0.06 −0.06 0.09 0.05 0.05 −0.04 −0.04 0.00 −0.05 −0.04 0.04 −0.09 0.00 −0.04 −0.04 −0.15 −0.06 −0.10 −0.10 0.03 −0.01 0.00 −0.09 −0.09 −0.05 0.03 0.04 0.08 0.00 0.08 0.04 0.05 −0.07 0.02 −0.02 −0.02 0.14 0.10 0.11 0.02 0.02 0.06 0.999 1.000 <0.001 0.023 0.051 1.000 1.000 <0.001 0.788 <0.001 0.001 <0.001 0.130 0.076 0.348 0.491 1.000 0.02 0.02 0.02 0.01 0.01 0.01 0.998 0.998 0.987 1.000 0.832 0.832 0.00 0.00 0.00 0.00 0.00 0.00 −0.02 −0.02 −0.02 −0.01 −0.01 −0.01 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. Tabela 8.23: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za specifiˇcnost nad sintetiˇcnimi podatkovji Primerjava FDA–DLDA kNN–DLDA LDA–DLDA NNET–DLDA PAM–DLDA PLR–DLDA RF–DLDA SVM–DLDA kNN–FDA D LL 0.03 0.02 0.04 −0.01 0.03 0.03 0.00 0.05 −0.01 0.01 0.01 0.02 −0.03 −0.02 −0.02 −0.05 0.00 −0.03 UL 0.05 0.04 0.06 0.00 0.08 0.08 0.05 0.10 0.02 Pr 0.003 0.005 <0.001 0.212 0.685 0.596 1.000 0.040 0.966 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 162 8.1 Vpliv metode uvršˇcanja, izbire spremenljivk in parametrov uˇcenja na uvršˇcanje Tabela 8.23: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za specifiˇcnost nad sintetiˇcnimi podatkovji Primerjava D LL UL Pr LDA–FDA NNET–FDA PAM–FDA PLR–FDA RF–FDA SVM–FDA LDA–kNN NNET–kNN PAM–kNN PLR–kNN RF–kNN SVM–kNN NNET–LDA PAM–LDA PLR–LDA RF–LDA SVM–LDA PAM–NNET PLR–NNET RF–NNET SVM–NNET PLR–PAM RF–PAM SVM–PAM RF–PLR SVM–PLR SVM–RF 0.01 −0.04 0.00 0.00 −0.03 0.02 0.02 −0.04 0.01 0.01 −0.02 0.03 −0.05 −0.01 −0.01 −0.04 0.01 0.04 0.04 0.02 0.07 0.00 −0.03 0.02 −0.03 0.02 0.05 0.04 −0.02 0.05 0.05 0.02 0.07 0.04 −0.02 0.06 0.06 0.03 0.08 −0.03 0.04 0.04 0.02 0.07 0.09 0.09 0.07 0.12 0.07 0.04 0.09 0.04 0.09 0.12 0.988 <0.001 1.000 1.000 0.710 0.928 0.379 <0.001 1.000 1.000 0.924 0.627 <0.001 0.999 1.000 0.382 0.997 0.169 0.126 0.978 0.003 1.000 0.949 0.969 0.922 0.982 0.344 LIMMA–Vse t-test–Vse Welch–Vse t-test–LIMMA Welch–LIMMA Welch–t-test 0.00 0.01 0.00 0.01 0.00 −0.01 −0.02 −0.07 −0.06 −0.05 −0.08 −0.03 −0.01 −0.05 −0.04 −0.04 −0.07 −0.02 −0.08 −0.06 −0.06 −0.09 −0.04 −0.01 −0.01 −0.03 0.02 −0.07 −0.09 −0.05 −0.10 −0.05 −0.02 0.02 0.03 0.02 0.02 0.01 0.00 0.994 0.914 0.978 0.423 0.995 0.294 −0.02 −0.02 −0.03 −0.01 −0.01 −0.02 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 163 8 Rezultati Tabela 8.24: Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za plošˇcino pod ROC-krivuljo nad sintetiˇcnimi podatkovji Primerjava D LL UL Pr FDA–DLDA kNN–DLDA LDA–DLDA NNET–DLDA PAM–DLDA PLR–DLDA RF–DLDA SVM–DLDA kNN–FDA LDA–FDA NNET–FDA PAM–FDA PLR–FDA RF–FDA SVM–FDA LDA–kNN NNET–kNN PAM–kNN PLR–kNN RF–kNN SVM–kNN NNET–LDA PAM–LDA PLR–LDA RF–LDA SVM–LDA PAM–NNET PLR–NNET RF–NNET SVM–NNET PLR–PAM RF–PAM SVM–PAM RF–PLR SVM–PLR SVM–RF 0.05 −0.01 0.05 0.02 −0.01 0.07 0.04 0.08 −0.06 0.00 −0.03 −0.06 0.02 −0.01 0.03 0.05 0.03 −0.01 0.07 0.04 0.08 −0.03 −0.06 0.02 −0.01 0.03 −0.03 0.05 0.02 0.06 0.08 0.05 0.09 −0.03 0.01 0.04 0.07 0.01 0.07 0.04 0.04 0.12 0.09 0.13 −0.03 0.03 −0.01 −0.01 0.07 0.04 0.08 0.08 0.04 0.04 0.12 0.09 0.13 0.00 −0.01 0.07 0.04 0.08 0.02 0.10 0.06 0.11 0.15 0.12 0.16 0.04 0.08 0.11 <0.001 0.983 <0.001 0.007 0.997 0.001 0.301 <0.001 <0.001 1.000 0.004 0.008 0.968 0.994 0.714 <0.001 <0.001 1.000 <0.001 0.151 <0.001 0.011 0.012 0.934 0.998 0.618 0.437 0.070 0.982 0.012 0.009 0.342 0.002 0.841 1.000 0.553 LIMMA–Vse t-test–Vse Welch–Vse t-test–LIMMA 0.00 0.00 0.00 0.01 0.03 −0.02 0.03 0.00 −0.06 0.02 −0.01 0.03 −0.08 −0.03 −0.05 −0.11 −0.03 −0.07 −0.02 0.03 0.01 −0.06 0.02 −0.01 0.03 −0.05 −0.11 −0.03 −0.06 −0.02 −0.08 0.00 −0.03 0.01 0.01 −0.02 0.02 −0.10 −0.06 −0.03 0.02 0.03 0.02 0.02 0.994 0.973 0.998 0.658 −0.02 −0.02 −0.02 −0.01 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 164 8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje Tabela 8.24: (nadalj.) Naknadne primerjave med metodami uvršˇcanja in metodami izbire spremenljivk za plošˇcino pod ROC-krivuljo nad sintetiˇcnimi podatkovji Primerjava Welch–LIMMA Welch–t-test D LL 0.00 −0.01 −0.01 −0.02 UL Pr 0.01 0.01 0.999 0.733 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. Na slikah 8.5–8.8 so prikazani CD diagrami za napako uvršˇcanja, obˇcutljivost, specifiˇcnost in plošˇcino pod ROC-krivuljo. Prikazane vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in razliˇcnega števila vkljuˇcenih spremenljivk. V povpreˇcju se pri uvršˇcanju najbolje odreže metoda PLR, najslabše pa metoda NNET. 8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvrščanje 8.2.1 Izbira spremenljivk z uporabo statističnih testov Pregled mer natančnosti uvrščanja V tabelah 8.25–8.28 so zbrani rezultati uvršˇcanja za realna podatkovja. Za vsako metodo zmanjševanja razsežnosti in uvršˇcanja podajamo dosežek za (i) izbrano kombinacijo metod izbire spremenljivk ter (ii) razliˇcno število spremenljivk. Skupaj prikazujemo rezultate za povpreˇcno število komponent, napako uvršˇcanja, obˇcutljivost, specifiˇcnost in plošˇcino pod ROC-krivuljo. V kombinaciji metod PCA in LDA (tabela 8.25) smo najmanjše povpreˇcno število komponent (nkomp = 1.78) dosegli v kombinaciji s p = 500 vkljuˇcenimi spremenljivkami, ki smo jih izbrali z Welchevim t-testom. Najvišje povpreˇcno število komponent (nkomp = 2.27) smo dosegli v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami, ki smo jih izbrali s pristopom LIMMA. Napaka uvršˇcanja je najmanjša (MER = 0.14) v kombinaciji s p = 200 spremenljivkami, ki smo jih izbrali s t-testom, najveˇcja (MER = 0.18) pa v kombinaciji s p = 20 spremenljivkami, izbranimi z Welchevim t-testom. Najnižjo obˇcutljivost (Sens = 0.79) zasledimo v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami, izbranimi z Welchevim t-testom. Obˇcutljivost je najvišja (Sens = 0.86) v kombinaciji s p = 200 spremenljivkami, izbranimi s t-testom. Najnižjo specifiˇcnost (Spec = 0.81) smo dosegli v kombinaciji s p = 20 spremenljivkami, izbranimi z Welchevim t-testom, najvišjo (Spec = 0.85) pa v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami, izbranimi z isto metodo. Plošˇcina pod ROC-krivuljo je najmanjša (ROC = 0.85) pri p = 20 vkljuˇcenih spremenljivkah, ki smo jih izbrali z Welchevim t-testom, najvišja (ROC = 0.88) pa v kombinaciji s p = 50 in p = 500 spremenljivkami, izbranimi s t-testom, Welchevim t-testom oz. pristopom LIMMA. 165 8 Rezultati CD 1 2 3 4 5 6 7 8 9 SVM NNET PLR RF PAM DLDA FDA LDA kNN Slika 8.5: Razvrstitev metod uvršˇcanja nad sintetiˇcnimi podatkovji glede na napako uvršˇcanja. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. CD 1 2 3 4 NNET PLR RF kNN SVM 5 6 7 8 9 PAM DLDA LDA FDA Slika 8.6: Razvrstitev metod uvršˇcanja nad sintetiˇcnimi podatkovji glede na obˇcutljivost. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. Kombinacija metod PCA in LD (tabela 8.26) dosega najmanjše povpreˇcno število komponent (nkomp = 1.57) pri p = 20 vkljuˇcenih spremenljivkah, ki smo jih izbrali z Welchevim t-testom. Najvišje povpreˇcno število komponent (nkomp = 2.24) smo dosegli v kombinaciji s p = 500 vkljuˇcenimi spremenljivkami, ki smo jih izbrali s pristopom LIMMA. Napaka uvršˇcanja je najmanjša (MER = 0.14) v kombinaciji s p = 500 spremenljivkami, ki smo jih izbrali z Welchevim t-testom, najveˇcja (MER = 0.18) pa v kombinaciji s p = 100 spremenljivkami, izbranimi s t-testom. Najnižjo obˇcutljivost (Sens = 0.79) zasledimo v kombinaciji s p = 20 vkljuˇcenimi spremenljivkami, izbranimi z Welchevim t-testom. Obˇcutljivost je najvišja (Sens = 0.83) v kombinaciji s p = 500 spremenljivkami, izbranimi s pristopom LIMMA. Najnižjo specifiˇcnost (Spec = 0.82) smo dosegli v kombinaciji s p = 20 spremenljivkami, izbranimi s pristopom LIMMA, najvišjo (Spec = 0.87) pa v kombinaciji s p = 500 vkljuˇcenimi spremenljivkami, izbranimi s klasiˇcnim t-testom. Plošˇcina pod ROC-krivuljo je najmanjša (AUC = 0.81) pri p = 200 vkljuˇcenih spremenljivkah, ki smo 166 8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje CD 1 2 3 4 5 6 7 8 9 SVM PAM PLR LDA FDA DLDA RF NNET kNN Slika 8.7: Razvrstitev metod uvršˇcanja nad sintetiˇcnimi podatkovji glede na specifiˇcnost. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. CD 1 2 3 4 PLR SVM RF FDA LDA 5 6 7 8 9 PAM kNN DLDA NNET Slika 8.8: Razvrstitev metod uvršˇcanja nad sintetiˇcnimi podatkovji glede na plošˇcino pod ROC-krivuljo. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. 167 8 Rezultati Tabela 8.25: Povpreˇcno število komponent, napaka uvršˇcanja, obˇcutljivost, specifiˇcnost in plošˇcina pod ROC-krivuljo. Prikazan je prerez za kombinacijo metod PCA in LDA pri razliˇcnih metodah izbire spremenljivk in razliˇcnem številu spremenljivk. p 20 50 100 200 500 t-test nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC 1.81 0.16 0.81 0.83 0.86 2.00 0.18 0.81 0.81 0.85 1.89 0.16 0.82 0.83 0.86 2.41 0.20 0.74 0.78 0.81 ± 1.35 ± 0.15 ± 0.23 ± 0.20 ± 0.17 2.08 0.16 0.82 0.82 0.88 ± 1.18 ± 0.17 ± 0.25 ± 0.21 ± 0.20 2.08 0.16 0.80 0.83 0.86 ± 1.35 ± 0.16 ± 0.21 ± 0.24 ± 0.18 2.00 0.17 0.80 0.82 0.86 ± 1.46 ± 0.16 ± 0.33 ± 0.27 ± 0.18 2.46 0.20 0.73 0.80 0.82 ± 1.42 ± 0.15 ± 0.23 ± 0.23 ± 0.17 2.16 0.17 0.80 0.83 0.86 ± 1.41 ± 0.17 ± 0.27 ± 0.20 ± 0.19 2.11 0.14 0.86 0.82 0.87 ± 1.33 ± 0.17 ± 0.24 ± 0.25 ± 0.18 2.08 0.15 0.85 0.81 0.88 ± 1.34 ± 0.17 ± 0.21 ± 0.25 ± 0.19 ± 1.49 ± 0.18 ± 0.25 ± 0.21 ± 0.20 2.14 0.17 0.82 0.81 0.87 ± 1.36 ± 0.18 ± 0.26 ± 0.27 ± 0.18 1.78 0.16 0.82 0.82 0.88 ± 1.21 ± 0.16 ± 0.25 ± 0.23 ± 0.18 ± 1.58 ± 0.18 ± 0.22 ± 0.23 ± 0.21 2.22 0.16 0.82 0.83 0.88 ± 1.36 ± 0.17 ± 0.26 ± 0.22 ± 0.17 2.16 0.16 0.80 0.83 0.88 ± 1.52 ± 0.17 ± 0.26 ± 0.25 ± 0.18 ± 1.38 ± 0.18 ± 0.35 ± 0.32 ± 0.21 1.97 0.17 0.76 0.83 0.86 ± 1.38 ± 0.16 ± 0.35 ± 0.27 ± 0.18 2.62 0.17 0.77 0.82 0.86 ± 1.75 ± 0.17 ± 0.33 ± 0.28 ± 0.19 Welchev t-test ± 1.40 ± 0.17 ± 0.27 ± 0.23 ± 0.18 1.95 0.16 0.79 0.85 0.86 ± 1.39 ± 0.17 ± 0.26 ± 0.24 ± 0.18 2.27 0.15 0.81 0.84 0.86 ± 1.63 ± 0.17 ± 0.35 ± 0.25 ± 0.22 2.14 0.21 0.76 0.76 0.82 LIMMA Izbira spremenljivk po sluˇcaju Legenda: nkomp – št. komponent, MER – toˇcnost uvršˇcanja, Sens – obˇcutljivost, Spec – specifiˇcnost, AUC – plošˇcina pod ROC-krivuljo, p – št. spremenljivk 168 8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje Tabela 8.26: Povpreˇcno število komponent, napaka uvršˇcanja, obˇcutljivost, specifiˇcnost in plošˇcina pod ROC-krivuljo. Prikazan je prerez za kombinacijo metod PCA in LD pri razliˇcnih metodah izbire spremenljivk in razliˇcnem številu spremenljivk. p 20 50 100 200 500 t-test nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC 1.60 0.17 0.81 0.82 0.83 1.57 0.17 0.79 0.84 0.83 1.87 0.17 0.82 0.82 0.83 2.65 0.20 0.74 0.79 0.79 ± 1.04 ± 0.18 ± 0.26 ± 0.21 ± 0.19 1.89 0.17 0.80 0.85 0.84 ± 1.19 ± 0.17 ± 0.26 ± 0.20 ± 0.19 2.14 0.16 0.81 0.84 0.83 ± 1.25 ± 0.17 ± 0.22 ± 0.21 ± 0.19 1.92 0.16 0.82 0.84 0.83 ± 1.53 ± 0.18 ± 0.34 ± 0.28 ± 0.20 2.49 0.18 0.73 0.82 0.82 ± 1.37 ± 0.17 ± 0.25 ± 0.14 ± 0.18 2.08 0.18 0.79 0.82 0.82 ± 1.53 ± 0.19 ± 0.24 ± 0.20 ± 0.19 1.84 0.17 0.80 0.83 0.81 ± 1.41 ± 0.16 ± 0.23 ± 0.21 ± 0.23 1.97 0.15 0.80 0.87 0.85 ± 1.38 ± 0.15 ± 0.28 ± 0.15 ± 0.18 ± 1.44 ± 0.19 ± 0.26 ± 0.23 ± 0.23 2.16 0.17 0.80 0.84 0.83 ± 1.54 ± 0.16 ± 0.24 ± 0.20 ± 0.20 1.70 0.14 0.81 0.86 0.86 ± 1.20 ± 0.16 ± 0.25 ± 0.18 ± 0.20 ± 1.24 ± 0.17 ± 0.23 ± 0.19 ± 0.20 1.84 0.16 0.79 0.86 0.83 ± 1.30 ± 0.16 ± 0.23 ± 0.19 ± 0.19 2.24 0.16 0.83 0.83 0.85 ± 1.59 ± 0.19 ± 0.24 ± 0.22 ± 0.22 ± 1.64 ± 0.18 ± 0.31 ± 0.30 ± 0.19 2.60 0.18 0.74 0.83 0.82 ± 1.54 ± 0.17 ± 0.32 ± 0.24 ± 0.19 2.32 0.16 0.76 0.85 0.83 ± 1.51 ± 0.17 ± 0.34 ± 0.26 ± 0.21 Welchev t-test ± 1.62 ± 0.17 ± 0.23 ± 0.21 ± 0.20 2.08 0.17 0.81 0.82 0.82 ± 1.44 ± 0.17 ± 0.22 ± 0.19 ± 0.20 1.89 0.16 0.82 0.83 0.82 ± 1.63 ± 0.15 ± 0.31 ± 0.23 ± 0.19 2.46 0.19 0.79 0.79 0.81 LIMMA Izbira spremenljivk po sluˇcaju Legenda: nkomp – št. komponent, MER – toˇcnost uvršˇcanja, Sens – obˇcutljivost, Spec – specifiˇcnost, AUC – plošˇcina pod ROC-krivuljo, p – št. spremenljivk 169 8 Rezultati Tabela 8.27: Povpreˇcno število komponent, napaka uvršˇcanja, obˇcutljivost, specifiˇcnost in plošˇcina pod ROC-krivuljo. Prikazan je prerez za kombinacijo metod PLS in LDA pri razliˇcnih metodah izbire spremenljivk in razliˇcnem številu spremenljivk. p 20 50 100 200 500 t-test nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC 1.73 0.18 0.78 0.83 0.86 2.22 0.18 0.80 0.80 0.86 2.32 0.16 0.81 0.83 0.86 2.24 0.19 0.78 0.79 0.83 ± 1.15 ± 0.17 ± 0.25 ± 0.20 ± 0.17 1.87 0.16 0.81 0.84 0.87 ± 1.23 ± 0.17 ± 0.24 ± 0.22 ± 0.19 2.08 0.17 0.82 0.81 0.86 ± 1.47 ± 0.15 ± 0.21 ± 0.21 ± 0.17 2.16 0.18 0.82 0.80 0.84 ± 1.34 ± 0.16 ± 0.24 ± 0.22 ± 0.19 2.14 0.18 0.76 0.82 0.84 ± 1.23 ± 0.15 ± 0.23 ± 0.19 ± 0.16 2.32 0.16 0.80 0.83 0.85 ± 1.47 ± 0.16 ± 0.24 ± 0.21 ± 0.20 2.16 0.17 0.81 0.80 0.85 ± 1.19 ± 0.18 ± 0.24 ± 0.25 ± 0.20 2.30 0.16 0.79 0.87 0.88 ± 1.22 ± 0.18 ± 0.28 ± 0.21 ± 0.19 ± 1.37 ± 0.18 ± 0.25 ± 0.22 ± 0.23 2.16 0.15 0.82 0.85 0.87 ± 1.28 ± 0.17 ± 0.23 ± 0.23 ± 0.18 2.22 0.14 0.84 0.86 0.88 ± 1.32 ± 0.16 ± 0.22 ± 0.20 ± 0.18 ± 1.37 ± 0.17 ± 0.27 ± 0.21 ± 0.19 1.78 0.14 0.85 0.85 0.86 ± 1.08 ± 0.16 ± 0.23 ± 0.22 ± 0.20 2.22 0.14 0.83 0.86 0.88 ± 1.29 ± 0.14 ± 0.23 ± 0.18 ± 0.18 ± 1.47 ± 0.16 ± 0.26 ± 0.22 ± 0.19 2.00 0.16 0.79 0.84 0.85 ± 1.18 ± 0.17 ± 0.25 ± 0.21 ± 0.21 2.60 0.16 0.81 0.83 0.88 ± 1.52 ± 0.16 ± 0.25 ± 0.22 ± 0.18 Welchev t-test ± 1.42 ± 0.15 ± 0.24 ± 0.24 ± 0.17 2.00 0.15 0.82 0.85 0.86 ± 1.32 ± 0.18 ± 0.22 ± 0.25 ± 0.22 2.11 0.17 0.78 0.84 0.85 ± 1.46 ± 0.16 ± 0.28 ± 0.19 ± 0.19 2.32 0.17 0.80 0.81 0.85 LIMMA Izbira spremenljivk po sluˇcaju Legenda: nkomp – št. komponent, MER – napaka uvršˇcanja, Sens – obˇcutljivost, Spec – specifiˇcnost, AUC – plošˇcina pod ROC-krivuljo, p – št. spremenljivk 170 8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje Tabela 8.28: Povpreˇcno število komponent, napaka uvršˇcanja, obˇcutljivost, specifiˇcnost in plošˇcina pod ROC-krivuljo. Prikazan je prerez za kombinacijo metod PLS in LD pri razliˇcnih metodah izbire spremenljivk in razliˇcnem številu spremenljivk. p 20 50 100 200 500 t-test nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC nkomp MER Sens Spec AUC 1.54 0.16 0.82 0.84 0.85 1.97 0.17 0.80 0.84 0.85 1.60 0.17 0.82 0.81 0.83 2.22 0.22 0.75 0.75 0.80 ± 1.10 ± 0.15 ± 0.20 ± 0.19 ± 0.18 1.76 0.18 0.79 0.82 0.83 ± 1.19 ± 0.16 ± 0.25 ± 0.18 ± 0.16 1.97 0.16 0.81 0.85 0.84 ± 1.04 ± 0.17 ± 0.23 ± 0.23 ± 0.21 1.70 0.15 0.81 0.86 0.86 ± 1.49 ± 0.17 ± 0.25 ± 0.24 ± 0.18 2.30 0.21 0.77 0.76 0.79 ± 1.19 ± 0.18 ± 0.23 ± 0.22 ± 0.20 1.70 0.16 0.81 0.84 0.84 ± 1.00 ± 0.18 ± 0.22 ± 0.19 ± 0.21 1.78 0.14 0.84 0.84 0.86 ± 1.00 ± 0.15 ± 0.22 ± 0.19 ± 0.20 1.84 0.16 0.81 0.85 0.86 ± 1.26 ± 0.16 ± 0.25 ± 0.21 ± 0.20 ± 1.46 ± 0.19 ± 0.27 ± 0.19 ± 0.21 1.68 0.17 0.82 0.82 0.83 ± 1.18 ± 0.18 ± 0.21 ± 0.22 ± 0.20 1.84 0.15 0.79 0.88 0.83 ± 0.99 ± 0.17 ± 0.27 ± 0.15 ± 0.19 ± 1.08 ± 0.16 ± 0.21 ± 0.18 ± 0.18 1.81 0.16 0.80 0.86 0.84 ± 1.15 ± 0.16 ± 0.24 ± 0.19 ± 0.19 1.92 0.16 0.81 0.85 0.84 ± 1.32 ± 0.18 ± 0.26 ± 0.18 ± 0.21 ± 1.57 ± 0.17 ± 0.25 ± 0.19 ± 0.21 2.38 0.17 0.82 0.82 0.83 ± 1.40 ± 0.17 ± 0.21 ± 0.20 ± 0.21 2.16 0.15 0.81 0.85 0.85 ± 1.39 ± 0.16 ± 0.23 ± 0.20 ± 0.20 Welchev t-test ± 1.36 ± 0.16 ± 0.24 ± 0.16 ± 0.18 2.03 0.18 0.77 0.84 0.82 ± 1.08 ± 0.17 ± 0.25 ± 0.18 ± 0.18 1.68 0.15 0.83 0.85 0.85 ± 1.56 ± 0.16 ± 0.26 ± 0.24 ± 0.21 2.35 0.18 0.77 0.84 0.81 LIMMA Izbira spremenljivk po sluˇcaju Legenda: nkomp – št. komponent, MER – napaka uvršˇcanja, Sens – obˇcutljivost, Spec – specifiˇcnost, AUC – plošˇcina pod ROC-krivuljo, p – št. spremenljivk 171 8 Rezultati jih izbrali s t-testom, najvišja (AUC = 0.86) pa v kombinaciji s p = 500 spremenljivkami, izbranimi z Welchevim t-testom. V kombinaciji metod PLS in LDA (tabela 8.27) smo najmanjše povpreˇcno število komponent (nkomp = 1.73) dosegli v kombinaciji s p = 20 vkljuˇcenimi spremenljivkami, ki smo jih izbrali s t-testom. Najvišje povpreˇcno število komponent (nkomp = 2.32) smo dosegli v kombinaciji s p = 100 in p = 20 vkljuˇcenimi spremenljivkami, ki smo jih izbrali s t-testom oz. pristopom LIMMA. Napaka uvršˇcanja je najmanjša (MER = 0.14) v kombinaciji s p = 500 in p = 200 spremenljivkami, ki smo jih izbrali z Welchevim t-testom oz. pristopom LIMMA. Najveˇcjo napako uvršˇcanja (MER = 0.18) smo dosegli v kombinaciji s p = 20 spremenljivkami, izbranimi s klasiˇcnim t-testom. Najnižjo obˇcutljivost (Sens = 0.78) zasledimo v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami, izbranimi s pristopom LIMMA. Obˇcutljivost je najvišja (Sens = 0.85) v kombinaciji s p = 200 spremenljivkami, izbranimi s pristopom LIMMA. Najnižjo specifiˇcnost (Spec = 0.80) smo dosegli v kombinaciji s p = 200 spremenljivkami, izbranimi s t-testom, najvišjo (Spec = 0.87) pa v kombinaciji s p = 500 vkljuˇcenimi spremenljivkami, izbranimi z isto metodo. Plošˇcina pod ROC-krivuljo je najmanjša (AUC = 0.84) pri p = 50 vkljuˇcenih spremenljivkah, ki smo jih izbrali s pristopom LIMMA, najvišja (AUC = 0.88) pa v kombinaciji s p = 500 spremenljivkami, izbranimi z Welchevim t-testom oz. pristopom LIMMA. Kombinacija metod PLS in LD (tabela 8.28) dosega najmanjše povpreˇcno število komponent (nkomp = 1.54) pri p = 20 vkljuˇcenih spremenljivkah, ki smo jih izbrali s klasiˇcnim t-testom. Najvišje povpreˇcno število komponent (nkomp = 2.03) smo dosegli v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami, ki smo jih izbrali z Welchevim t-testom. Napaka uvršˇcanja je najmanjša (MER = 0.14) v kombinaciji s p = 200 spremenljivkami, ki smo jih izbrali s t-testom, najveˇcja (MER = 0.18) pa v kombinaciji s p = 100 spremenljivkami, izbranimi z Welchevim t-testom. Najnižjo obˇcutljivost (Sens = 0.77) zasledimo v kombinaciji s p = 100 vkljuˇcenimi spremenljivkami, izbranimi z Welchevim t-testom. Obˇcutljivost je najvišja (Sens = 0.84) v kombinaciji s p = 100 spremenljivkami, izbranimi s t-testom. Najnižjo specifiˇcnost (Spec = 0.81) smo dosegli v kombinaciji s p = 20 spremenljivkami, izbranimi s pristopom LIMMA, najvišjo (Spec = 0.88) pa v kombinaciji s p = 500 vkljucˇ enimi spremenljivkami, izbranimi z Welchevim t-testom. Plošˇcina pod ROC-krivuljo je najmanjša (AUC = 0.82) pri p = 100 vkljuˇcenih spremenljivkah, ki smo jih izbrali z Welchevim t-testom, najvišja (AUC = 0.86) pa v kombinaciji s p = 50 spremenljivkami, izbranimi s pristopom LIMMA. 8.2.2 Slučajna izbira spremenljivk Pregled mer natančnosti uvrščanja V tem razdelku obravnavamo rezultate uvršˇcanja za kombinacije metod zmanjševanja razsežnosti podatkovij in metod uvršˇcanja, kjer smo prediktorske spremenljivke izbrali po sluˇcaju. Rezultati so povzeti v tabelah 8.25–8.28. V kombinaciji metod PCA in LDA (tabela 8.25) smo dosegli najmanjše število komponent (nkomp = 1.97) pri p = 200 spremenljivkah, najveˇcje število komponent (nkomp = 2.62) pa 172 8.2 Vpliv metod za zmanjševanje razsežnosti podatkovja na uvršˇcanje pri p = 500 vkljuˇcenih spremenljivkah. Najmanjša napaka uvršˇcanja (MER = 0.17) je bila dosežena pri p = 200 in p = 500 sluˇcajno izbranih spremenljivkah. Napaka uvršˇcanja je bila najvišja (MER = 0.21) pri p = 100 izbranih spremenljivkah. Najnižjo obˇcutljivost (Sens = 0.73) smo dosegli pri p = 50, najvišjo (Sens = 0.77) pa pri p = 500 vkljuˇcenih spremenljivkah. Specifiˇcnost je bila najnižja (Spec = 0.76) pri p = 100 spremenljivkah, najvišja (Spec = 0.83) pa pri p = 200 spremenljivkah. Plošˇcina pod ROC-krivuljo je dosegla najnižjo vrednost (AUC = 9.81) pri p = 20 sluˇcajno izbranih spremenljivkah, najvišjo vrednost (AUC = 0.86) pa pri p = 500 spremenljivkah. Kombinacija metod PCA in LD (tabela 8.26) je dosegla najmanjše število komponent (nkomp = 2.32) pri p = 500 spremenljivkah, najveˇcje število komponent (nkomp = 2.65) pa pri p = 20 vkljuˇcenih spremenljivkah. Najmanjša napaka uvršˇcanja (MER = 0.16) je bila dosežena pri p = 500 sluˇcajno izbranih spremenljivkah. Napaka uvršˇcanja je bila najvišja (MER = 0.20) pri p = 20 izbranih spremenljivkah. Najnižjo obˇcutljivost (Sens = 0.73) smo dosegli pri p = 50, najvišjo (Sens = 0.79) pa pri p = 100 vkljuˇcenih spremenljivkah. Specifiˇcnost je bila najnižja (Spec = 0.79) pri p = 20 spremenljivkah, najvišja (Spec = 0.85) pa pri p = 500 spremenljivkah. Plošˇcina pod ROC-krivuljo je dosegla najnižjo vrednost (AUC = 0.79) pri p = 20 sluˇcajno izbranih spremenljivkah, najvišjo vrednost (AUC = 0.83) pa pri p = 500 spremenljivkah. V kombinaciji metod PLS in LDA (tabela 8.27) smo dosegli najmanjše število komponent (nkomp = 2.00) pri p = 200 spremenljivkah, najveˇcje število komponent (nkomp = 2.60) pa pri p = 500 vkljuˇcenih spremenljivkah. Najmanjša napaka uvršˇcanja (MER = 0.16) je bila dosežena pri p = 500 sluˇcajno izbranih spremenljivkah. Napaka uvršˇcanja je bila najvišja (MER = 0.19) pri p = 20 izbranih spremenljivkah. Najnižjo obˇcutljivost (Sens = 0.76) smo dosegli pri p = 50, najvišjo (Sens = 0.81) pa pri p = 500 vkljuˇcenih spremenljivkah. Specifiˇcnost je bila najnižja (Spec = 0.79) pri p = 20 spremenljivkah, najvišja (Spec = 0.84) pa pri p = 200 spremenljivkah. Plošˇcina pod ROC-krivuljo je dosegla najnižjo vrednost (AUC = 0.83) pri p = 20 sluˇcajno izbranih spremenljivkah, najvišjo vrednost (AUC = 0.88) pa pri p = 500 spremenljivkah. Kombinacija metod PCA in LD (tabela 8.28) je dosegla najmanjše število komponent (nkomp = 2.22) pri p = 20 spremenljivkah, najveˇcje število komponent (nkomp = 2.38) pa pri p = 200 vkljuˇcenih spremenljivkah. Najmanjša napaka uvršˇcanja (MER = 0.15) je bila dosežena pri p = 500 sluˇcajno izbranih spremenljivkah. Napaka uvršˇcanja je bila najvišja (MER = 0.22) pri p = 20 izbranih spremenljivkah. Najnižjo obˇcutljivost (Sens = 0.75) smo dosegli pri p = 20, najvišjo (Sens = 0.82) pa pri p = 200 vkljuˇcenih spremenljivkah. Specifiˇcnost je bila najnižja (Spec = 0.75) pri p = 20 spremenljivkah, najvišja (Spec = 0.85) pa pri p = 500 spremenljivkah. Plošˇcina pod ROC-krivuljo je dosegla najnižjo vrednost (AUC = 0.79) pri p = 50 sluˇcajno izbranih spremenljivkah, najvišjo vrednost (AUC = 0.85) pa pri p = 500 spremenljivkah. 8.2.3 Ovrednotenje učinka metode krčenja razsežnosti, metode uvrščanja in metode izbire spremenljivk na uvrščanje Vpliv metode zmanjševanja razsežnosti, metode uvršˇcanja in metode izbire spremenljivk na dosežek pri uvršˇcanju smo preverili s pomoˇcjo analize kovariance. Kot kovariato smo 173 8 Rezultati Tabela 8.29: Povzetek ANCOVA za preverjanje uˇcinkov metod zmanjševanja razsežnosti, metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na napako uvršˇcanja Vir razpršenosti Redukcija Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki SS df MS F Pr <0.01 <0.01 0.01 0.01 0.01 1 1 3 1 73 <0.01 <0.01 <0.01 0.01 <0.01 1.47 0.93 20.02 43.82 0.229 0.337 <0.001 <0.001 Tabela 8.30: Povzetek ANCOVA za preverjanje uˇcinkov metod zmanjševanja razsežnosti, metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na obˇcutljivost Vir razpršenosti Redukcija Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki SS df MS F Pr <0.01 <0.01 0.03 <0.01 0.03 1 1 3 1 73 <0.01 <0.01 0.01 <0.01 <0.01 3.27 1.12 27.74 8.15 0.075 0.294 <0.001 0.006 v analizo vkljuˇcili število spremenljivk. Loˇceno prikazujemo povzetke analize kovariance za napako uvršˇcanja (tabela 8.29), obˇcutljivost (tabela 8.30), specifiˇcnost (tabela 8.31) in plošˇcino pod ROC-krivuljo (tabela 8.32). Metoda zmanjševanja razsežnosti in metoda uvršˇcanja se ob kontroliranem vplivu števila vkljuˇcenih spremenljivk med seboj ne razlikujeta statistiˇcno znaˇcilno, z izjemo plošˇcine pod ROC-krivuljo, pri kateri metoda uvršˇcanja kaže statistiˇcno znaˇcilno razliko. Metoda izbire spremenljivk je z merami natanˇcnosti uvršˇcanja statistiˇcno znaˇcilno povezana pri vseh obravnavanih merah. Kovariata je z natanˇcnostjo uvršˇcanja statistiˇcno znaˇcilno povezana pri napaki uvršˇcanja, specifiˇcnosti in plošˇcini pod ROC-krivuljo. Statistiˇcno znaˇcilnost razlik smo razˇclenili s pomoˇcjo naknadnih primerjav, za kar smo Tabela 8.31: Povzetek ANCOVA za preverjanje uˇcinkov metod zmanjševanja razsežnosti, metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na specifiˇcnost Vir razpršenosti Redukcija Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki 174 SS df MS F Pr <0.01 <0.01 0.01 0.01 0.03 1 1 3 1 73 <0.01 <0.01 <0.01 0.01 <0.01 2.09 3.87 9.20 24.21 0.153 0.053 <0.001 <0.001 8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje Tabela 8.32: Povzetek ANCOVA za preverjanje uˇcinkov metod zmanjševanja razsežnosti, metod uvršˇcanja, metod izbire spremenljivk in števila spremenljivk na plošˇcino pod ROC-krivuljo Vir razpršenosti Redukcija Uvršˇcanje Izbira spremenljivk Št. spremenljivk Ostanki SS df MS F Pr <0.01 <0.02 <0.01 0.01 0.01 1 1 3 1 73 <0.01 0.02 <0.01 0.01 <0.01 2.05 123.96 22.55 44.79 0.157 <0.001 <0.001 <0.001 Tabela 8.33: Naknadne primerjave med metodami zmanjševanja razsežnosti, metodami uvršˇcanja in metodami izbire spremenljivk za napako uvršˇcanja Primerjava PLS–PCA LD–LDA Welch–t-test LIMMA–t-test Rnd–t-test LIMMA–Welch Rnd–Welch Rnd–LIMMA D LL 0.00 0.00 0.00 0.00 0.02 −0.01 0.02 0.02 −0.01 0.00 −0.01 −0.01 0.01 −0.01 0.01 0.02 UL 0.00 0.01 0.01 0.01 0.03 0.00 0.03 0.03 Pr 0.229 0.337 0.999 0.597 <0.001 0.522 <0.001 <0.001 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. uporabili Tukeyjev test HSD. Povzetke naknadnih primerjav prikazujemo loˇceno za napako uvršˇcanja (tabela 8.33), obˇcutljivost (tabela 8.34), specifiˇcnost (tabela 8.35) in plošˇcino pod ROC-krivuljo (tabela 8.36). Vzorec naknadnih primerjav kaže, da gre statistiˇcna znaˇcilnost razlik v metodah izbire spremenljivk izkljuˇcno na raˇcun sluˇcajne izbire prediktorskih spremenljivk. Na slikah 8.9–8.12 so prikazani CD-diagrami za napako uvršˇcanja, obˇcutljivost, specifiˇcnost in plošˇcino pod ROC-krivuljo. Prikazane vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in razliˇcnega števila vkljuˇcenih spremenljivk. Z izjemo plošˇcine pod ROC-krivuljo med metodami ne prihaja do pomembnih razlik. 8.3 Vpliv diskretizacije zveznih spremenljivk na uvrščanje 8.3.1 Pregled mer natančnosti uvrščanja V tabelah 8.37–8.41 so zbrani rezultati uvršˇcanja diskretiziranih podatkovij. Za vsako metodo uvršˇcanja podajamo njen dosežek za (i) izbrano kombinacijo metode diskretizacije ter (ii) razliˇcno število spremenljivk. Loˇceno prikazujemo rezultate za toˇcnost uvršˇcanja 175 8 Rezultati Tabela 8.34: Naknadne primerjave med metodami zmanjševanja razsežnosti, metodami uvršˇcanja in metodami izbire spremenljivk za obˇcutljivost Primerjava PLS–PCA LD–LDA Welch–t-test LIMMA–t-test Rnd–t-test LIMMA–Welch Rnd–Welch Rnd–LIMMA D LL UL Pr 0.01 0.00 0.00 0.00 −0.04 0.01 −0.04 −0.05 0.00 −0.01 −0.02 −0.01 −0.06 −0.01 −0.06 −0.06 0.02 0.00 0.01 0.02 −0.03 0.02 −0.02 −0.03 0.075 0.294 0.944 0.893 <0.001 0.587 <0.001 <0.001 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. Tabela 8.35: Naknadne primerjave med metodami zmanjševanja razsežnosti, metodami uvršˇcanja in metodami izbire spremenljivk za specifiˇcnost Primerjava PLS–PCA LD–LDA Welch–t-test LIMMA–t-test Rnd–t-test LIMMA–Welch Rnd–Welch Rnd–LIMMA D LL UL Pr 0.01 0.01 0.00 0.00 −0.02 0.00 −0.03 −0.03 0.00 0.00 −0.01 −0.01 −0.04 −0.01 −0.04 −0.04 0.02 0.02 0.02 0.02 −0.01 0.02 −0.01 −0.01 0.153 0.053 0.991 0.904 0.001 0.981 <0.001 <0.001 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. Tabela 8.36: Naknadne primerjave med metodami zmanjševanja razsežnosti, metodami uvršˇcanja in metodami izbire spremenljivk za plošˇcino pod ROC-krivuljo Primerjava PLS–PCA LD–LDA Welch–t-test LIMMA–t-test Rnd–t-test LIMMA–Welch Rnd–Welch Rnd–LIMMA D LL UL Pr 0.00 −0.03 0.00 0.00 −0.03 0.00 −0.02 −0.02 0.00 −0.03 −0.01 −0.01 −0.03 −0.01 −0.03 −0.03 0.01 −0.02 0.01 0.01 −0.02 0.01 −0.01 −0.01 0.157 <0.001 0.933 0.990 <0.001 0.991 <0.001 <0.001 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 176 8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje CD 1 2 3 4 PLS-LDA PLS-LD PCA-LDA PCA-LD Slika 8.9: Razvrstitev kombinacij metod za zmanjševanje razsežnosti in metod uvršˇcanja nad realnimi podatkovji glede na napako uvršˇcanja. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. CD 1 2 3 4 PLS-LDA PCA-LDA PCA-LD PLS-LD Slika 8.10: Razvrstitev kombinacij metod za zmanjševanje razsežnosti in metod uvršˇcanja nad realnimi podatkovji glede na obˇcutljivost. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. CD 1 PCA-LD PCA-LDA 2 3 4 PLS-LD PLS-LDA Slika 8.11: Razvrstitev kombinacij metod za zmanjševanje razsežnosti in metod uvršˇcanja nad realnimi podatkovji glede na specifiˇcnost. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. 177 8 Rezultati CD 1 PCA-LDA PLS-LDA 2 3 4 PCA-LD PLS-LD Slika 8.12: Razvrstitev kombinacij metod za zmanjševanje razsežnosti in metod uvršˇcanja nad realnimi podatkovji glede na plošˇcino pod ROC-krivuljo. Vrednosti so povpreˇcene preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. (tabela 8.37), plošˇcino pod ROC-krivuljo (tabela 8.38), robustnost (tabela 8.39), stabilnost (tabela 8.40) in preprostost (tabela 8.41). Najmanjša povpreˇcna toˇcnost uvršˇcanja (Acc = 0.74) za metodo kNN je bila dosežena z diskretizacijo po metodi EF s p = 20 vkljuˇcenimi spremenljivkami, najveˇcja (Acc = 0.81) pa z metodo 1R s p = 100 spremenljivkami oz. z metodo ChiMerge s p = 200 vkljuˇcenimi spremenljivkami. Pri metodi NB dosežemo najmanjšo toˇcnost (Acc = 0.40) z diskretizacijo 1R pri p = 500 spremenljivkah, najveˇcjo (Acc = 0.76) pa z diskretizacijo MDLP pri p = 100 oz. p = 500 vkljuˇcenih spremenljivkah. Pri metodi uvršˇcanja C4.5 znaša najmanjša toˇcnost Acc = 0.68 in je bila dosežena s diskretizacijo EF pri p = 200 spremenljivkah, najveˇcja toˇcnost pa znaša Acc = 0.74 in je bila dosežena z diskretizacijo MDLP pri p = 20 oz. p = 50 vkljuˇcenih spremenljivkah. Najmanjša povpreˇcna plošˇcina pod ROC-krivuljo (AUC = 0.82) za metodo kNN je dosežena z diskretizacijo po metodi EF s p = 20, 50, 100, 200 vkljuˇcenimi spremenljivkami, najveˇcja (AUC = 0.86) pa z metodo MDLP s p = 50 spremenljivkami. Pri metodi NB dosežemo najmanjšo toˇcnost (AUC = 0.81) z diskretizacijo MDLP pri p = 500 spremenljivkah, najveˇcjo (AUC = 0.87) pa z diskretizacijo 1R pri p = 50 vkljuˇcenih spremenljivkah. Pri metodi uvršˇcanja C4.5 znaša najmanjša toˇcnost AUC = 0.71 in je bila dosežena s diskretizacijo EF pri p = 50, 200, 500 spremenljivkah, najveˇcja toˇcnost pa znaša AUC = 0.77 in je bila dosežena z diskretizacijo MDLP pri p = 20 oz. p = 50 vkljuˇcenih spremenljivkah. Najmanjša povpreˇcna robustnost (Rob = 0.80) za metodo kNN je dosežena z diskretizacijo po metodi EF s p = 500 vkljuˇcenimi spremenljivkami, najveˇcja (Rob = 0.85) pa z metodo 1R s p = 100 spremenljivkami. Pri metodi NB dosežemo najmanjšo robustnost (Rob = 0.82) z diskretizacijo MDLP pri p = 200 spremenljivkah, najveˇcjo (Rob = 0.89) pa z diskretizacijami EW, ChiMerge in 1R pri p = 20 oz. p = 500 vkljuˇcenih spremenljivkah. Pri metodi uvršˇcanja C4.5 znaša najmanjša robustnost Rob = 0.70 in je bila dosežena s diskretizacijo EF pri p = 200 spremenljivkah, najveˇcja toˇcnost pa znaša Rob = 0.79 in je bila dosežena z diskretizacijo MDLP pri p = 20 vkljuˇcenih spremenljivkah. Najmanjša povpreˇcna stabilnost (Sta = 0.58) je dosežena z metodo 1R pri p = 500 vkljuˇcenih spremenljivkah, najveˇcja (Sta = 0.96) pa pri metodi MDLP s p = 100 oz. p = 178 8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje Tabela 8.37: Povpreˇcna toˇcnost uvršˇcanja pri uvršˇcanju primerov za diskretizirana podatkovja. Prikazan je prerez za razliˇcne metode diskretizacije, metode uvršˇcanja in število spremenljivk. p kNN Cont EW EF CM 1R MDLP 0.79 0.77 0.74 0.78 0.78 0.77 NB Cont EW EF CM 1R MDLP 0.42 0.45 0.45 0.42 0.42 0.74 C4.5 20 Cont EW EF CM 1R MDLP 0.74 0.72 0.71 0.74 0.72 0.74 50 ± 0.20 ± 0.20 ± 0.18 ± 0.20 ± 0.20 ± 0.22 0.81 0.79 0.76 0.81 0.80 0.80 ± 0.19 ± 0.19 ± 0.16 ± 0.21 ± 0.21 ± 0.18 0.75 0.72 0.70 0.74 0.72 0.74 ± 0.17 ± 0.20 ± 0.20 ± 0.17 ± 0.17 ± 0.23 0.41 0.45 0.45 0.41 0.41 0.76 100 ± 0.19 ± 0.20 ± 0.18 ± 0.19 ± 0.19 ± 0.19 0.80 0.77 0.76 0.80 0.81 0.79 ± 0.18 ± 0.20 ± 0.15 ± 0.20 ± 0.20 ± 0.19 0.76 0.71 0.69 0.72 0.71 0.73 ± 0.17 ± 0.20 ± 0.20 ± 0.17 ± 0.18 ± 0.23 0.41 0.45 0.44 0.40 0.41 0.76 200 ± 0.20 ± 0.20 ± 0.17 ± 0.20 ± 0.18 ± 0.20 0.80 0.77 0.76 0.81 0.80 0.79 ± 0.20 ± 0.20 ± 0.16 ± 0.21 ± 0.20 ± 0.19 0.74 0.70 0.68 0.71 0.71 0.71 ± 0.16 ± 0.21 ± 0.19 ± 0.16 ± 0.17 ± 0.22 0.41 0.45 0.44 0.41 0.41 0.75 500 ± 0.19 ± 0.21 ± 0.20 ± 0.18 ± 0.19 ± 0.20 0.79 0.77 0.76 0.80 0.79 0.79 ± 0.19 ± 0.21 ± 0.15 ± 0.22 ± 0.18 ± 0.20 0.76 0.69 0.70 0.70 0.71 0.72 ± 0.17 ± 0.21 ± 0.20 ± 0.17 ± 0.17 ± 0.23 0.41 0.44 0.44 0.41 0.40 0.76 ± 0.20 ± 0.20 ± 0.19 ± 0.20 ± 0.21 ± 0.20 ± 0.16 ± 0.19 ± 0.20 ± 0.16 ± 0.17 ± 0.22 ± 0.19 ± 0.20 ± 0.16 ± 0.24 ± 0.19 ± 0.21 Legenda: Cont – zvezne spremenljivke, EW – enaka širina intervalov, EF – enaka zastopanost intervalov, CM – ChiMerge, p – št. spremenljivk. Za pojasnilo k metodam gl. besedilo. 500 spremenljivkami. Najmanjša preprostost (Pre = 2.07) je dosežena z uporabo metode MDLP pri p = 500 vkljuˇcenih spremenljivkah, najveˇcja (Pre = 9.80) pa pri metodi 1R s p = 500 vkljuˇcenimi spremenljivkami. 8.3.2 Ovrednotenje učinka metode diskretizacije in metode uvrščanja na uvrščanje Vpliv metode diskretizacije in metode uvršˇcanja na dosežek pri uvršˇcanju smo preverili s pomoˇcjo analize kovariance. Kot kovariato smo v analizo vkljuˇcili število spremenljivk. Loˇceno prikazujemo povzetke analize kovariance za toˇcnost uvršˇcanja (tabela 8.42), plošˇcino pod ROC-krivuljo (tabela 8.43), robustnost (tabela 8.44), stabilnost (tabela 8.45) in preprostost (tabela 8.46). Glede na toˇcnost uvršˇcanja in plošˇcino pod ROC-krivuljo se metode diskretizacije med seboj statistiˇcno znaˇcilno razlikujejo. Prav tako na obeh merah natanˇcnosti uvršˇcanja 179 8 Rezultati Tabela 8.38: Povpreˇcna plošˇcina pod ROC-krivuljo pri uvršˇcanju primerov za diskretizirana podatkovja. Prikazan je prerez za razliˇcne metode diskretizacije, metode uvršˇcanja in število spremenljivk. p kNN Cont EW EF CM 1R MDLP 0.82 0.83 0.82 0.83 0.84 0.85 NB Cont EW EF CM 1R MDLP 0.86 0.84 0.84 0.85 0.85 0.85 C4.5 20 Cont EW EF CM 1R MDLP 0.77 0.75 0.74 0.76 0.75 0.77 50 ± 0.20 ± 0.16 ± 0.16 ± 0.19 ± 0.17 ± 0.15 0.84 0.83 0.82 0.84 0.83 0.86 ± 0.16 ± 0.16 ± 0.14 ± 0.17 ± 0.19 ± 0.16 0.78 0.76 0.71 0.76 0.75 0.77 ± 0.15 ± 0.17 ± 0.15 ± 0.16 ± 0.17 ± 0.15 0.87 0.85 0.85 0.86 0.87 0.86 100 ± 0.18 ± 0.17 ± 0.17 ± 0.17 ± 0.18 ± 0.15 0.84 0.84 0.82 0.85 0.84 0.84 ± 0.15 ± 0.17 ± 0.15 ± 0.17 ± 0.17 ± 0.17 0.77 0.75 0.72 0.75 0.74 0.76 ± 0.15 ± 0.16 ± 0.15 ± 0.17 ± 0.15 ± 0.15 0.86 0.85 0.85 0.86 0.86 0.84 200 ± 0.16 ± 0.16 ± 0.16 ± 0.17 ± 0.16 ± 0.18 0.85 0.85 0.82 0.84 0.84 0.85 ± 0.19 ± 0.16 ± 0.14 ± 0.18 ± 0.17 ± 0.16 0.76 0.74 0.71 0.76 0.76 0.74 ± 0.15 ± 0.16 ± 0.13 ± 0.16 ± 0.16 ± 0.19 0.85 0.83 0.84 0.85 0.85 0.84 500 ± 0.17 ± 0.15 ± 0.17 ± 0.17 ± 0.16 ± 0.16 0.84 0.82 0.83 0.85 0.84 0.85 ± 0.17 ± 0.17 ± 0.14 ± 0.17 ± 0.14 ± 0.17 0.79 0.72 0.71 0.76 0.74 0.74 ± 0.15 ± 0.16 ± 0.13 ± 0.15 ± 0.15 ± 0.16 0.84 0.81 0.82 0.85 0.86 0.81 ± 0.16 ± 0.18 ± 0.16 ± 0.17 ± 0.17 ± 0.16 ± 0.15 ± 0.16 ± 0.13 ± 0.15 ± 0.13 ± 0.20 ± 0.16 ± 0.18 ± 0.16 ± 0.16 ± 0.16 ± 0.19 Legenda: Cont – zvezne spremenljivke, EW – enaka širina intervalov, EF – enaka zastopanost intervalov, CM – ChiMerge, p – št. spremenljivk. Za pojasnilo k metodam gl. besedilo. 180 8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje Tabela 8.39: Povpreˇcna robustnost pri uvršˇcanju primerov za diskretizirana podatkovja. Prikazan je prerez za razliˇcne metode diskretizacije, metode uvršˇcanja in število spremenljivk. p kNN EW EF CM 1R MDLP 0.83 0.81 0.83 0.83 0.83 NB EW EF CM 1R MDLP 0.90 0.89 0.89 0.89 0.84 C4.5 20 EW EF CM 1R MDLP 0.76 0.74 0.76 0.75 0.79 50 ± 0.18 ± 0.16 ± 0.18 ± 0.18 ± 0.20 0.84 0.81 0.84 0.84 0.85 ± 0.17 ± 0.15 ± 0.20 ± 0.20 ± 0.16 0.75 0.72 0.75 0.73 0.78 ± 0.15 ± 0.14 ± 0.15 ± 0.15 ± 0.19 0.90 0.89 0.89 0.89 0.88 100 ± 0.18 ± 0.16 ± 0.17 ± 0.17 ± 0.16 0.82 0.81 0.83 0.85 0.83 ± 0.19 ± 0.14 ± 0.19 ± 0.20 ± 0.18 0.72 0.70 0.73 0.72 0.75 ± 0.15 ± 0.14 ± 0.15 ± 0.16 ± 0.25 0.90 0.88 0.88 0.88 0.86 200 ± 0.19 ± 0.15 ± 0.19 ± 0.17 ± 0.19 0.81 0.81 0.84 0.84 0.82 ± 0.20 ± 0.16 ± 0.21 ± 0.20 ± 0.19 0.72 0.70 0.73 0.72 0.73 ± 0.19 ± 0.18 ± 0.20 ± 0.20 ± 0.16 0.90 0.88 0.88 0.88 0.82 500 ± 0.19 ± 0.19 ± 0.17 ± 0.18 ± 0.19 0.82 0.80 0.83 0.83 0.82 ± 0.21 ± 0.14 ± 0.22 ± 0.18 ± 0.20 0.70 0.71 0.71 0.72 0.73 ± 0.17 ± 0.17 ± 0.17 ± 0.18 ± 0.20 0.89 0.88 0.88 0.88 0.84 ± 0.18 ± 0.18 ± 0.19 ± 0.19 ± 0.19 ± 0.16 ± 0.15 ± 0.16 ± 0.18 ± 0.16 ± 0.19 ± 0.15 ± 0.24 ± 0.19 ± 0.21 Legenda: Cont – zvezne spremenljivke, EW – enaka širina intervalov, EF – enaka zastopanost intervalov, CM – ChiMerge, p – št. spremenljivk. Za pojasnilo k metodam gl. besedilo. Tabela 8.40: Povpreˇcna stabilnost pri uvršˇcanju primerov za diskretizirana podatkovja. Prikazan je prerez za razliˇcne metode diskretizacije in število spremenljivk. p 20 EW EF CM 1R MDLP 0.78 0.75 0.70 0.59 0.96 ± 0.03 ± 0.03 ± 0.04 ± 0.03 ± 0.02 50 0.78 0.75 0.70 0.59 0.96 ± 0.03 ± 0.03 ± 0.05 ± 0.04 ± 0.02 100 0.78 0.74 0.70 0.59 0.96 ± 0.03 ± 0.03 ± 0.05 ± 0.03 ± 0.02 200 0.78 0.74 0.70 0.58 0.96 ± 0.03 ± 0.03 ± 0.05 ± 0.03 ± 0.02 500 0.79 0.73 0.70 0.58 0.96 ± 0.03 ± 0.03 ± 0.05 ± 0.03 ± 0.02 Legenda: Cont – zvezne spremenljivke, EW – enaka širina intervalov, EF – enaka zastopanost intervalov, CM – ChiMerge, p – št. spremenljivk. Za pojasnilo k metodam gl. besedilo. 181 8 Rezultati Tabela 8.41: Povpreˇcna preprostost pri uvršˇcanju primerov za diskretizirana podatkovja. Prikazan je prerez za razliˇcne metode diskretizacije in število spremenljivk. p 20 EW EF CM 1R MDLP 3.00 3.00 5.04 9.10 2.32 ± 0.00 ± 0.00 ± 1.38 ± 1.43 ± 0.51 50 3.00 3.00 5.20 9.25 2.21 100 ± 0.03 ± 0.00 ± 1.55 ± 1.62 ± 0.42 3.00 3.00 5.10 9.30 2.17 ± 0.01 ± 0.00 ± 1.50 ± 1.67 ± 0.40 200 3.00 3.00 5.14 9.52 2.13 500 ± 0.01 ± 0.00 ± 1.53 ± 1.65 ± 0.38 3.00 3.00 5.20 9.80 2.07 ± 0.04 ± 0.00 ± 1.58 ± 1.65 ± 0.29 Legenda: Cont – zvezne spremenljivke, EW – enaka širina intervalov, EF – enaka zastopanost intervalov, CM – ChiMerge, p – št. spremenljivk. Za pojasnilo k metodam gl. besedilo. Tabela 8.42: Povzetek ANCOVA za preverjanje uˇcinkov metod diskretizacije in uvršˇcanja na toˇcnost uvršˇcanja Vir razpršenosti SS df MS F Pr Diskretizacija Uvršˇcanje Št. spremenljivk Ostanki 0.17 1.56 <0.01 0.31 5 2 1 81 0.03 0.78 <0.01 <0.01 8.64 201.75 0.12 <0.001 <0.001 0.729 Tabela 8.43: Povzetek ANCOVA za preverjanje uˇcinkov metod diskretizacije in uvršˇcanja na plošˇcino pod ROC-krivuljo Vir razpršenosti SS df MS F Pr Diskretizacija Uvršˇcanje Št. spremenljivk Ostanki <0.01 0.17 <0.01 0.01 5 2 1 81 <0.01 0.09 <0.01 <0.01 11.68 598.85 10.00 <0.001 <0.001 0.002 Tabela 8.44: Povzetek ANCOVA za preverjanje uˇcinkov metod diskretizacije in uvršˇcanja na robustnost 182 Vir razpršenosti SS df MS F Pr Diskretizacija Uvršˇcanje Št. spremenljivk Ostanki <0.01 0.27 0.01 0.02 4 2 1 67 <0.01 0.14 <0.01 <0.01 2.05 434.97 10.24 0.097 <0.001 0.002 8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje Tabela 8.45: Povzetek ANCOVA za preverjanje uˇcinkov metod diskretizacije na stabilnost Vir razpršenosti SS df MS F Pr Diskretizacija Št. spremenljivk Ostanki 0.37 <0.01 <0.01 4 1 19 0.09 <0.01 <0.01 4766.47 3.44 <0.001 0.079 Tabela 8.46: Povzetek ANCOVA za preverjanje uˇcinkov metod diskretizacije na preprostost Vir razpršenosti SS df MS F Pr Diskretizacija Št. spremenljivk Ostanki 11.15 0.02 0.11 4 1 19 2.79 0.02 0.01 480.02 3.75 <0.001 0.068 prihaja do razlik v metodi uvršˇcanja. Število prediktorskih spremenljivk na toˇcnost in plošˇcino pod ROC-krivuljo ne kaže statistiˇcno znaˇcilnega uˇcinka. Pri robustnosti se metode diskretizacije med seboj ne razlikujejo statistiˇcno znaˇcilno, medtem ko je uˇcinek metod uvršˇcanja statistiˇcno znaˇcilen. Prav tako prihaja do statistiˇcno znaˇcilnih razlik v številu prediktorskih spremenljivk. Pri merah stabilnosti in preprostosti najdemo statistiˇcno znaˇcilne razlike med metodami diskretizacije, v številu spremenljivk pa ne prihaja do znaˇcilnih razlik. Statistiˇcno znaˇcilnost razlik smo razˇclenili s pomoˇcjo naknadnih primerjav, ki smo jih izvedli s pomoˇcjo Tukeyjevega testa HSD. Povzetke naknadnih primerjav prikazujemo loˇceno za toˇcnost uvršˇcanja (tabela 8.47), plošˇcino pod ROC-krivuljo (tabela 8.48), robustnost (tabela 8.49), stabilnost (tabela 8.50) in preprostost (tabela 8.51). Vzorec naknadnih primerjav kaže, da gredo pri toˇcnosti uvršˇcanja razlike med metodami diskretizacije predvsem na raˇcun metode MDLP, ki se v vseh primerjavah odreže najbolje. Med metodami uvršˇcanja se najbolje odreže metoda kNN. Vzorec naknadnih primerjav za plošˇcino pod ROC-krivuljo ni enoznaˇcen; v primerjavah izstopata metodi ChiMerge in MDLP. Pri robustnosti izstopa algoritem C4.5. Meri stabilnosti in preprostosti kažeta znaˇcilne razlike v vseh primerjavah. Na slikah 8.13–8.17 so prikazani CD-diagrami za toˇcnost uvršˇcanja, plošˇcino pod ROCkrivuljo, robustnost, stabilnost in preprostost. Vrednosti so povpreˇcene preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk. V povpreˇcju se metoda MDLP najbolje odreže glede na toˇcnost uvršˇcanja, stabilnost in preprostost. Metoda ChiMerge doseže najveˇcjo plošˇcino pod ROC-krivuljo ter najvišjo robustnost. Z izjemo preprostosti se metoda EF na vseh merah kakovosti diskretizacije odreže najslabše. 183 8 Rezultati Tabela 8.47: Naknadne primerjave med metodami diskretizacije in metodami uvršˇcanja za toˇcnost uvršˇcanja Primerjava D LL UL Pr Cont–CM MDLP–CM EF–CM EW–CM 1R–CM MDLP–Cont EF–Cont EW–Cont 1R–Cont EF–MDLP EW–MDLP 1R–MDLP EW–EF 1R–EF 1R–EW 0.01 0.11 −0.01 0.00 0.00 0.10 −0.02 −0.01 −0.02 −0.13 −0.11 −0.12 0.01 0.01 0.00 0.08 0.18 0.06 0.07 0.06 0.17 0.04 0.06 0.05 −0.06 −0.05 −0.05 0.08 0.07 0.06 0.996 <0.001 0.997 1.000 1.000 <0.001 0.924 0.997 0.985 <0.001 <0.001 <0.001 0.996 1.000 1.000 NB–kNN C4.5–kNN C4.5–NB −0.31 −0.07 0.24 −0.06 0.05 −0.08 −0.07 −0.07 0.04 −0.09 −0.08 −0.08 −0.19 −0.18 −0.18 −0.06 −0.06 −0.07 −0.27 −0.03 0.28 <0.001 <0.001 <0.001 −0.35 −0.11 0.20 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. CD 1 MDLP Cont CM 2 3 4 5 6 EF EW 1R Slika 8.13: Razvrstitev metod diskretizacije glede na toˇcnost uvršˇcanja. Vrednosti so povpreˇcene preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. 184 8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje Tabela 8.48: Naknadne primerjave med metodami diskretizacije in metodami uvršˇcanja za plošˇcino pod ROC-krivuljo Primerjava D LL UL Pr Cont–CM MDLP–CM EF–CM EW–CM 1R–CM MDLP–Cont EF–Cont EW–Cont 1R–Cont EF–MDLP EW–MDLP 1R–MDLP EW–EF 1R–EF 1R–EW 0.00 0.00 −0.03 −0.01 0.00 −0.01 −0.03 −0.02 −0.01 −0.02 −0.01 0.00 0.01 0.02 0.01 −0.01 −0.02 −0.04 −0.03 −0.02 −0.02 −0.04 −0.03 −0.02 −0.03 −0.02 −0.01 0.00 0.01 0.00 0.02 0.01 −0.01 0.00 0.01 0.00 −0.02 −0.01 0.01 −0.01 0.00 0.01 0.02 0.03 0.02 0.923 0.933 <0.001 0.032 0.954 0.393 <0.001 0.002 0.442 <0.001 0.279 1.000 0.105 <0.001 0.242 NB–kNN C4.5–kNN C4.5–NB 0.010 0.00 −0.088 −0.10 −0.098 −0.11 0.02 −0.08 −0.09 0.005 <0.001 <0.001 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. Tabela 8.49: Naknadne primerjave med metodami diskretizacije in metodami uvršˇcanja za robustnost Primerjava D LL MDLP–CM EF–CM EW–CM 1R–CM EF–MDLP EW–MDLP 1R–MDLP EW–EF 1R–EF 1R–EW −0.01 −0.02 0.00 0.00 −0.01 0.01 0.01 0.02 0.01 0.00 NB–kNN C4.5–kNN C4.5–NB 0.05 −0.10 −0.15 −0.03 −0.03 −0.02 −0.02 −0.03 −0.01 −0.01 0.00 0.00 −0.02 0.04 −0.11 −0.16 UL Pr 0.01 0.00 0.02 0.02 0.01 0.02 0.02 0.03 0.03 0.02 0.783 0.112 1.000 0.998 0.680 0.879 0.924 0.170 0.216 1.000 0.06 −0.08 −0.13 <0.001 <0.001 <0.001 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 185 8 Rezultati Tabela 8.50: Naknadne primerjave med metodami diskretizacije in metodami uvršˇcanja za stabilnost Primerjava D LL UL CM–1R EF–1R EW–1R MDLP–1R EF–CM EW–CM MDLP–CM EW–EF MDLP–EF MDLP–EW 0.11 0.16 0.19 0.37 0.04 0.08 0.26 0.04 0.22 0.18 0.11 0.15 0.19 0.36 0.03 0.07 0.25 0.03 0.21 0.17 0.12 0.16 0.20 0.38 0.05 0.09 0.27 0.05 0.23 0.19 Pr <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. Tabela 8.51: Naknadne primerjave med metodami diskretizacije in metodami uvršˇcanja za preprostost Primerjava D LL UL Pr CM–1R EF–1R EW–1R MDLP–1R EF–CM EW–CM MDLP–CM EW–EF MDLP–EF MDLP–EW 0.04 −0.69 −0.84 −1.79 −0.73 −0.88 −1.83 −0.15 −1.10 −0.95 −0.11 −0.84 −0.98 −1.93 −0.87 −1.02 −1.97 −0.29 −1.24 −1.10 0.18 −0.55 −0.69 −1.64 −0.58 −0.73 −1.68 0.00 −0.95 −0.81 0.930 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 0.043 <0.001 <0.001 Legenda: D – razlika med primerjavama, LL – spodnja meja, UL – zgornja meja. Za razlago oznak primerjav gl. besedilo. 186 8.3 Vpliv diskretizacije zveznih spremenljivk na uvršˇcanje CD 1 2 3 4 5 6 Cont CM 1R EF EW MDLP Slika 8.14: Razvrstitev metod diskretizacije glede na plošˇcino pod ROC-krivuljo. Vrednosti so povpreˇcene preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. CD 1 2 3 4 5 CM 1R EW EF MDLP Slika 8.15: Razvrstitev metod diskretizacije glede na robustnost. Vrednosti so povpreˇcene preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. CD 1 MDLP EW CM 2 3 4 5 EF 1R Slika 8.16: Razvrstitev metod diskretizacije glede na stabilnost. Vrednosti so povpreˇcene preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. 187 8 Rezultati CD 1 MDLP EW 1R 2 3 4 5 CM EF Slika 8.17: Razvrstitev metod diskretizacije glede na preprostost. Vrednosti so povpreˇcene preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk. Za razlago oznak metod gl. besedilo. 188 9 Razprava 9.1 Povzetek rezultatov V DNA-mikromrežnem poskusu so podatki predstavljeni v obliki podatkovne tabele, v kateri število merjenih genov moˇcno presega število posameznih primerov. V klasiˇcnem eksperimentu npr. merimo veˇc 10 000 genov na nekaj desetih primerih. Problem mnogorazsežnosti prinaša s seboj svojevrstne statistiˇcne težave, zato pri analizi mikromrežnih eksperimentov obiˇcajnih statistiˇcnih postopkov ne moremo uporabiti. Mnogorazsežno podatkovno strukturo poskušamo cˇ im bolj skrˇciti in pri tem ohraniti karseda veliko informacije merskih spremenljivk. V ta namen uporabljamo razliˇcne postopke za (i) izbiro spremenljivk in (ii) konstrukcijo novih, latentnih spremenljivk. V okvir poenostavljanja podatkovne strukture sodi tudi diskretizacija merskih spremenljivk. Diskretizacijo je namreˇc smiselno uporabiti predvsem zaradi lažje in uˇcinkovitejše predstavitve podatkov ter hitrejšega strojnega uˇcenja. Sistematiˇcen pregled empiriˇcne evidence je pokazal, da so za uvršˇcanje, krˇcenje podatkovne tabele in diskretizacijo na voljo številne metode, ki pa niso ustrezno ovrednotene. Z doktorskim delom smo poskušali to vrzel zapolniti. V doktorskem delu smo obravnavali tri problemske naloge. V prvem sklopu eksperimentov smo prouˇcili kakovost razliˇcnih klasifikatorjev v nalogi uvršˇcanja primerov v dva vnaprej podana razreda. Uporabili smo nekatere najpogosteje uporabljene metode, kot so npr. nevronske mreže, metoda najbližjih sosedov, klasifikacijska drevesa z nakljuˇcnimi gozdovi, metoda podpornih vektorjev, logistiˇcna regresija s kaznijo ter tri izpeljanke linearne diskriminantne analize (Fisherjeva, klasiˇcna in diagonalna). V drugi problemski nalogi smo analizirali vpliv metod za krˇcenje števila razsežnosti na uvršˇcanje. Podrobno smo prouˇcili vpliv analize glavnih komponent in metode delnih najmanjših kvadratov na kakovost uvršˇcanja. Pri tem smo se omejili na dva klasifikatorja, klasiˇcno linearno diskriminantno analizo in logistiˇcno diskriminacijo. V tretjem sklopu smo prouˇcili vpliv diskretizacije neodvisnih spremenljivk na uvršˇcanje. V analizo smo vkljuˇcili nekatere najpogosteje uporabljene algoritme diskretizacije, kot so npr. metode enake širine intervala, enake zastopanosti intervalov, 1R, MDLP ter ChiMerge. V nadaljevanju razdelka strnjeno povzamemo ugotovitve za vsak eksperimentalni sklop. 9.1.1 Vpliv metode uvrščanja in izbire spremenljivk na uvrščanje Eksperimentalni naˇcrt je vkljuˇceval ovrednotenje vpliva razliˇcnih metod uvršˇcanja na kakovost uvršˇcanja. V ta namen smo preizkusili: (i) devet metod uvršˇcanja, (ii) tri metode za izbiro spremenljivk in (iii) razliˇcno število neodvisnih spremenljivk. 189 9 Razprava Nad realnimi podatkovnimi tabelami se metode uvršˇcanja ob kontroliranem vplivu števila neodvisnih spremenljivk med seboj statistiˇcno znaˇcilno razlikujejo na vseh štirih merah kakovosti uvršˇcanja. Glede na kakovost uvršˇcanja se je najbolje odrezala metoda PLS. Metoda NNET se je na vseh merah kakovosti uvrstila najslabše. Analiza vzorcev naknadnih primerjav je pokazala, da je bila glavni generator statistiˇcno znaˇcilnih razlik metoda NNET. Ostali pari med seboj niso bili statistiˇcno znaˇcilno razliˇcni. Metoda izbora neodvisnih spremenljivk z merami kakovosti ni bila statistiˇcno znaˇcilno povezana. Število vkljuˇcenih spremenljivk je bilo z merami kakovosti statistiˇcno znaˇcilno povezano. Ko povpreˇcimo rezultate preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk, se glede na napako uvršˇcanja najbolje odrežejo metode PLR, RF in SVM, najslabše pa metode NNET, FDA in LDA. Podoben vrstni red najdemo tudi pri povpreˇcenju rezultatov glede na obˇcutljivost, specifiˇcnost in plošˇcino pod ROC-krivuljo. Nad sintetiˇcnimi podatkovji se metode uvršˇcanja ob kontroliranem vplivu števila neodvisnih spremenljivk med seboj statistiˇcno znaˇcilno razlikujejo na vseh štirih merah kakovosti uvršˇcanja. Pri uvršˇcanju se je najbolje odrezala metoda SVM. Analiza vzorcev naknadnih primerjav je pokazala, da sta bila glavna generatorja statistiˇcno znaˇcilnih razlik metodi diskriminantne analize (FDA in DLDA) ter metoda kNN. Ostali pari med seboj niso pokazali izstopajoˇcega vzorca razlik. Metoda izbora neodvisnih spremenljivk z merami kakovosti ni bila statistiˇcno znaˇcilno povezana, prav tako ne število vkljuˇcenih neodvisnih spremenljivk. Ko povpreˇcimo rezultate preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk, se glede na napako uvršˇcanja najbolje odrežejo metode SVM, NNET, PLR in RF, najslabše pa metode DLDA, FDA, LDA in kNN. Podoben vrstni red najdemo tudi pri povpreˇcenju rezultatov glede na obˇcutljivost, specifiˇcnost in plošˇcino pod ROC-krivuljo. 9.1.2 Vpliv metod za krčenje razsežnosti podatkovja na uvrščanje Eksperimentalni naˇcrt je vkljuˇceval ovrednotenje vpliva metod krˇcenja podatkovne tabele na uvršˇcanje. V ta namen smo preizkusili (i) dve metodi uvršˇcanja (LDA in LD), (ii) dve metodi krˇcenja podatkovne tabele (PCA in PLS), (iii) štiri naˇcine izbora neodvisnih spremenljivk (t-test, Welchev t-test, metodo LIMMA in izbor spremenljivk po sluˇcaju) ter (iv) razliˇcno število neodvisnih spremenljivk. Glede na izbrane mere kakovosti ni prišlo do statistiˇcno znaˇcilnih razlik med metodama krˇcenja podatkovne tabele. Prav tako ne najdemo znaˇcilnih razlik med obema metodama uvršˇcanja, z izjemo plošˇcine pod ROC-krivuljo. Mere kakovosti uvršˇcanja med kombinacijami metod krˇcenja PCA in PLS in metodama uvršˇcanja LDA in LD so približno enake. Metode izbora neodvisnih spremenljivk so se med seboj statistiˇcno znaˇcilno razlikovale. Analiza vzorcev naknadnih primerjav je pokazala, da gredo te razlike izkljuˇcno na raˇcun sluˇcajnega izbora neodvisnih spremenljivk, medtem ko se ostali pari med seboj niso statistiˇcno znaˇcilno razlikovali. Število neodvisnih spremenljivk je bilo, z izjemo obˇcutljivosti, s kakovostjo uvršˇcanja statistiˇcno znaˇcilno povezano. Ko rezultate povpreˇcimo preko razliˇcnih metod izbire spremenljivk in števila vkljuˇcenih spremenljivk, med kombinacijami metod zmanjševanja razsežnosti in metod uvršˇcanja ne najdemo statistiˇcno znaˇcilnih razlik. 190 9.2 Primerjava rezultatov z obstojeˇco empiriˇcno evidenco 9.1.3 Vpliv diskretizacije zveznih spremenljivk na uvrščanje Eksperimentalni naˇcrt je vkljuˇceval ovrednotenje vpliva razliˇcnih metod diskretizacije na kakovost uvršˇcanja. V ta namen smo preizkusili: (i) pet metod diskretizacije, (ii) tri metode uvršˇcanja in (iii) razliˇcno število neodvisnih spremenljivk. Metode diskretizacije so se ob kontroliranem vplivu števila neodvisnih spremenljivk med seboj statistiˇcno znaˇcilno razlikovale na vseh merah kakovosti diskretizacije, z izjemo robustnosti. Pri uvršˇcanju je prišlo do statistiˇcno znaˇcilnih razlik pri toˇcnosti uvršˇcanja, plošˇcini pod ROC-krivuljo in robustnosti. Analiza vzorcev naknadnih primerjav je pokazala, da je bila glavni generator razlik pri toˇcnosti metoda diskretizacije MDLP. Ostali pari niso pokazali znaˇcilnega vzorca povezanosti. Metoda MDLP se ponaša z najboljšo toˇcnostjo uvršˇcanja, stabilnostjo in preprostostjo, metoda ChiMerge pa ima najveˇcjo plošˇcino pod ROC-krivuljo ter najvišjo robustnost. Ko rezultate povpreˇcimo preko razliˇcnih metod uvršˇcanja in števila vkljuˇcenih spremenljivk, se glede na toˇcnost uvršˇcanja, stabilnost in preprostost najbolje odreže metoda MDLP, glede na plošˇcino pod ROC-krivuljo in robustnost pa metoda ChiMerge. 9.2 Primerjava rezultatov z obstoječo empirično evidenco 9.2.1 Vpliv metode uvrščanja in izbire spremenljivk na uvrščanje Poleg razvršˇcanja je strojno uvršˇcanje ena od najpogostejših nalog, s katero se sreˇcamo pri analizi DNA-mikromrež (Basford, McLachlan & Rathnayake, 2013). Raziskav, ki so prouˇcevale kakovost uvršˇcanja razliˇcnih klasifikatorjev, je ogromno. Veˇcina med njimi se osredotoˇca na prouˇcevanje delovanja enega ali kveˇcjemu dveh klasifikatorjev. Zato se v tem razdelku omejujemo le na izbor tistih raziskav, ki so vkljuˇcevale veˇcje število metod uvršˇcanja. Dudoit, Fridlyand in Speed (2002) poroˇcajo o raziskavi, v kateri so primerjali kakovost uvršˇcanja Fisherjeve, diagonalne in kvadratiˇcne diagonalne linearne diskriminantne analize, metode najbližjih sosedov ter odloˇcitvenih dreves na treh razliˇcnih DNA-mikromrežnih podatkovnih tabelah. Prostor neodvisnih spremenljivk so pred uvršˇcanjem skrˇcili z uporabo statistike BSS/WSS. Razmerje med uˇcno in testno množico podatkov je sledilo shemi 2 : 1. Kot mero kakovosti so uporabili število napaˇcnih uvrstitev primerov. Najboljše rezultate uvršˇcanja so dosegli z diagonalno linearno diskriminantno analizo ter metodo najbližjih sosedov, najslabše pa se je odrezala Fisherjeva diskriminantna analiza. Podoben vrstni red klasifikatorjev opazimo tudi v našem primeru, kjer se na vseh izbranih merah kakovosti diagonalna diskriminantna analiza uvršˇca bolje kot Fisherjeva diskriminantna analiza. Prav tako je opaziti nekoliko boljše rezultate FLDA pri manjšem številu neodvisnih spremenljivk. Avtorji zakljuˇcujejo, da je razmerje med razpršenostjo primerov med skupinami in znotraj skupin pri FLDA pri velikem številu neodvisnih spremenljivk nestabilno in privede do slabšega dosežka pri uvršˇcanju. Poleg tega poroˇcajo, da je rezultat FLDA podoben DLDA, ko je število neodvisnih spremenljivk majhno (npr. p = 10). 191 9 Razprava O podobni primerjalni analizi poroˇcajo B. Wu in sod. (2003). Avtorji so analizo sicer opravili na podatkih o masni spektrometriji, ki pa so po strukturi podobni podatkom DNA-mikromrež. Avtorji analizirajo le eno podatkovje, vendar so rezultati za nas kljub temu zanimivi. Primerjali so kakovost uvršˇcanja linearne diskriminantne analize, kvadratiˇcne diskriminantne analize, metode najbližjih sosedov, odloˇcitvenih dreves, metode podpornih vektorjev in nakljuˇcnih gozdov. Predhoden izbor neodvisnih spremenljivk so opravili s t-testom. Najboljše rezultate so dosegli z metodo nakljuˇcnih gozdov. Kot najbolj nestabilni sta se izkazali metodi LDA in QDA. Podoben vzorec kakovosti uvršˇcanja najdemo tudi nad našimi realnimi podatki. T. Li, Zhang in Ogihara (2004) so izvedli raziskavo, v kateri so se ukvarjali z uvršˇcanjem veˇcrazrednih podatkovij. Za uvršˇcanje so uporabili štiri metode, in sicer SVM, NB, kNN ter odloˇcitvena drevesa. Eksperimentalni naˇcrt je vkljuˇceval osem razliˇcnih statistik. Kakovost uvršˇcanja so preizkusili na devetih razliˇcnih podatkovjih. Avtorji poroˇcajo, da se je najbolje odrezal klasifikator SVM. Le malo slabše rezultate so dosegli z metodo kNN. Kakovost NB in odloˇcitvenih dreves je bila slaba. Slab dosežek klasifikatorja NB povezujejo s predpostavko NB, ki ne upošteva povezanosti med neodvisnimi spremenljivkami. Pri metodah izbire spremenljivk niso zasledili pomembnih razlik. Opozarjajo tudi, da predhodna izbira spremenljivk poslabša kakovost uvršˇcanja odloˇcitvenih dreves. Tudi v naših eksperimentih se SVM uvršˇca zelo dobro, nad realnimi podatkovji obiˇcajno na drugo mesto, takoj za metodo PLR. Pri sintetiˇcnih podatkih ga na treh merah kakovosti (z izjemo specifiˇcnosti) zasledimo na prvem mestu. O obširni primerjalni analizi poroˇcajo J. W. Lee, Lee, Park in Song (2005). Avtorji so v analizo vkljuˇcili 21 razliˇcnih metod uvršˇcanja, tri razliˇcne metode izbire spremenljivk, kakovost uvršˇcanja pa so ocenili na osnovi devetih realnih podatkovij. Avtorji ugotavljajo dobro diskriminativno moˇc preprostih metod, kot sta npr. linearna diskriminantna analiza (FLDA in DLDA) ter metoda najbližjih sosedov, v primerjavi z bolj kompleksnimi metodami, kot je npr. DQDA. Prve se bolje obnesejo na homogenih, druge pa na heterogenih podatkih. DLDA se obnaša bolje kot FLDA. kNN dosega dobre rezultate pri manjšem številu razredov, DLDA pa uspe obvladovati podatkovja z veˇcjim številom razredov. Veˇcina metod se obnaša bolje, cˇ e predhodno opravimo izbor najbolj informativnih spremenljivk. V povpreˇcju se je najbolje odrezala metoda SVM. Díaz-Uriarte in Alvarez de Andrés (2006) sta preverjala kakovost uvršˇcanja nakljuˇcnih gozdov, v analizo pa sta za primerjavo vkljuˇcila tudi DLDA, kNN, SVM in metodo skrˇcenega centroida. Kakovost sta preverjala na 11 razliˇcnih DNA-podatkovjih in sintetiˇcnih podatkih. Razlike med preizkušenimi metodami so bile majhne, najbolje pa se je odrezala metoda SVM. Metodološko vzorno raziskavo sta opravila Boulesteix in Strobl (2009); v njej sta ovrednotila kakovost uvršˇcanja 10 razliˇcnih klasifikatorjev. Njun eksperimentalni naˇcrt je kot kovariate vkljuˇceval razliˇcno število neodvisnih spremenljivk, razliˇcne metode izbora neodvisnih spremenljivk ter nekatere druge parametre uˇcenja, specifiˇcne za posamezne klasifikatorje (npr. razliˇcno število sosedov pri metodi kNN). Skupaj sta konstruirala 124 razliˇcnih kombinacij klasifikatorjev. Parametre uˇcenja sta nastavila s pomoˇcjo preˇcnega preverjanja, na enak naˇcin sta izraˇcunala tudi napako uvršˇcanja. Glavni oˇcitek njuni raziskavi je nezadostno število vkljuˇcenih primerov, saj sta zakljuˇcke izpeljala le na osnovi dveh realnih podatkovnih tabel in sintetiˇcnih podatkov. Rezultati so primerljivi z našimi; 192 9.2 Primerjava rezultatov z obstojeˇco empiriˇcno evidenco najbolje se je odrezala metoda PLS, najslabše pa metoda NNET. Avtorja zakljuˇcujeta, da so rezultati uvršˇcanja moˇcno odvisni od izbranih metod predpriprave podatkov in izbrane metode uvršˇcanja, zato je smiselno v rezultatih poroˇcati o kakovosti veˇc razliˇcnih pristopov. V zadnjem cˇ asu je zaslediti poveˇcan trend raziskav, ki se ukvarjajo z izbiro zelo majhnega nabora neodvisnih spremenljivk in njihovim vplivom na uvršˇcanje (F. Han, Sun & Ling, 2014; Jafari Koshki, Hajizadeh & Karimi, 2013; X. Wang & Simon, 2011; X. Wang, 2012). Cilj teh raziskav je konstrukcija cˇ im bolj preprostih klasifikatorjev; raziskave primerjajo razliˇcne klasifikatorje, med katerimi se najbolje odreže metoda SVM. 9.2.2 Vpliv metod za krčenje razsežnosti podatkovja na uvrščanje Podobno kot v zgornjem razdelku se bomo tudi tu omejili na tiste raziskave, ki poroˇcajo o medsebojni primerjavi veˇc metod krˇcenja podatkovne tabele. Boulesteix (2006) pravilno ugotavlja, da je pomembnost primerjalnih analiz prav tako pomembna kot konstrukcija novih metod za krˇcenje podatkovnih tabel. Še zlasti je to pomembno na podroˇcju analize DNA-mikromrež, kjer nam hitrost razvoja novih pristopov zastira celovit pregled nad podroˇcjem. Prvo resno primerjalno raziskavo sta izvedla D. V. Nguyen in Rocke (2002b). Avtorja sta za krˇcenje mikromrežne podatkovne tabele predlagala metodo PLS. Do tedaj se je metoda PLS uporabljala predvsem v kemometriji, kjer je bila (oz. so bile) neodvisna spremenljivka razmernostna. D. V. Nguyen in Rocke (2002b) sta za krˇcenje ohranila jedro metode PLS. Predelan algoritem sta preizkusila na petih realnih podatkovjih. Predhoden izbor neodvisnih spremenljivk sta pripravila s t-testom. Metodo PLS sta primerjala s klasiˇcnim postopkom PCA v kombinaciji z logistiˇcno diskriminacijo oz. metodo DLDA. Njuni rezultati ne odkrivajo pomembnih razlik v kakovosti uvršˇcanja glede na postopek krˇcenja podatkovne tabele. Avtorja sta metodo razširila tudi na veˇcrazredni problem uvršˇcanja (D. V. Nguyen & Rocke, 2002a), kjer so rezultati kakovosti podobni. Boulesteixova (2004) je primerjala kakovost uvršˇcanja metode PLS z nekaterimi najpogosteje uporabljenimi klasifikatorji, kot so npr. metoda kNN, SVM in PAM. Raziskava je bila opravljena nad devetimi realnimi podatkovnimi tabelami. Eksperimentalni naˇcrt je vkljuˇceval predhodno izbiro neodvisnih spremenljivk s pomoˇcjo statistike BSS/WSS. Število komponent je avtorica doloˇcila z optimizacijo toˇcnosti uvršˇcanja. Rezultati uvršˇcanja po metodi PLS so bili primerljivi z ostalimi vkljuˇcenimi metodami. Avtorica ne navaja mer statistiˇcne znaˇcilnosti razlik. Pochet, De Smet, Suykens in De Moor (2004) poroˇcajo o primerjalni analizi, v kateri so za krˇcenje podatkovne tabele uporabili klasiˇcni PCA in PCA z jedrom, za uvršˇcanje pa FDA in prilagojeno razliˇcico SVM. Raziskava je bila opravljena nad devetimi realnimi podatkovji. Avtorji ne poroˇcajo o pomembnih razlikah med obema metodama krˇcenja razsežnosti. Pomembno je njihovo opozorilo, da lahko krˇcenje razsežnosti ob predhodni izbiri neodvisnih spremenljivk povzroˇci preprileganje statistiˇcnega modela. Dai, Lieu in Rocke (2006) so primerjali kakovost uvršˇcanja z metodo logistiˇcne diskriminacije, kjer so podatke predhodno skrˇcili s PCA, PLS oz. SIR. Eksperiment so izvedli 193 9 Razprava na dveh podatkovnih tabelah s predhodno izbiro spremenljivk s pomoˇcjo klasiˇcnega t-testa. Za najbolj diskriminativno se je izkazala metoda PLS, ki ji sledita SIR in PCA. Pri sluˇcajnem izboru atributov ostajajo razmerja kakovosti posameznih metod podobna. Razlike med metodami se manjšajo z veˇcanjem števila vkljuˇcenih spremenljivk. Avtorji ne navajajo podatkov o morebitni statistiˇcni znaˇcilnosti razlik med metodami. Pomembna je tudi opazka, da je predhodna izbira spremenljivk verjetno bolj pomembna pri klasiˇcnem postopku PCA kot pri nadzorovanem PLS (Boulesteix, 2006). Te ugotovitve eksplicitno nismo preverjali in jo bomo vkljuˇcili v nadaljnje raziskave. V raziskavi smo se omejili le na dve najpogosteje uporabljeni metodi. Pregled empiriˇcne evidence odkriva tudi nekatere druge metode, ki jim v nadaljnjem delu kaže posvetiti pozornost. Na prvem mestu gre izpostaviti nadzorovano razliˇcico metode PCA (Culhane, Perrière, Considine, Cotter & Higgins, 2002; Bin in sod., 2013), ki temelji na razcepu kovarianˇcne matrike primerov med posameznimi razredi. Na podroˇcju analize signalov je moˇcno razširjena neodvisna analiza komponent (Saidi in sod., 2004; Welsh, Jelsone-Swain & Foerster, 2013), ki v domeni statistiˇcne analize mikromrež tudi še ni bila ustrezno ovrednotena. Pregled ostalih postopkov, ki jih kaže preizkusiti, bomo navedli v razdelku 9.4. Pomemben element raziskav, ki primerjajo kakovost razliˇcnih metod krˇcenja razsežnosti podatkovij, je ustrezen eksperimentalni naˇcrt (Ruschhaupt, Huber, Poustka & Mansmann, 2004). Ta mora vkljuˇcevati natanˇcen protokol (i) predpriprave podatkov, (ii) naˇcina izbora neodvisnih spremenljivk (in njihovega števila), (iii) uporabe metode krˇcenja podatkovne matrike z izborom prostih parametrov (npr. števila komponent), (iv) uporabe metode uvršˇcanja z izborom prostih parametrov (npr. števila najbližjih sosedov) ter (v) vrednotenja kakovosti uvršˇcanja (npr. sluˇcajenje, preˇcno preverjanje). Z izjemo Boulesteix (2004) in Dai in sod. (2006) je natanˇcno opisan eksperimentalni naˇcrt prej izjema kot pravilo. V zadnjem cˇ asu je na podroˇcju analize DNA-mikromrež zaslediti poveˇcan trend raziskav, ki se ukvarjajo s prouˇcevanjem nelinearnih metod za krˇcenje širokih podatkovnih tabel (Goel, Kuceyeski, LoCastro & Raj, 2014; Hira, Trigeorgis & Gillies, 2014; Thomas, De Brabanter & De Moor, 2014). 9.2.3 Vpliv diskretizacije zveznih spremenljivk na uvrščanje Diskretizacija zveznih spremenljivk ima na podroˇcju strojnega uˇcenja dolgo tradicijo (Cochran & Hopkins, 1961; Hills, 1967; Hughes, 1968). Kljub pogosti uporabi diskretizacije pa ob pregledu empiriˇcne evidence ne zasledimo sistematiˇcnih raziskav, ki bi prouˇcevale uˇcinek diskretizacije na kakovost uvršˇcanja. H. Liu in sod. (2002) so sicer opravili primerjavo razliˇcnih metod diskretizacije, vendar na podatkovju, ki zaradi velike apriorne loˇcenosti razredov za diskretizacijo ni najbolj primerno. Pomembne primerjalne raziskave so opravili še Janssens, Brijs, Vanhoof in Wets (2006), Gupta, Mehrotra in Mohan (2010) ter García in sod. (2013). Vse raziskave so prouˇcevale uˇcinek diskretizacije na realnih podatkovnih tabelah z razmeroma velikim številom primerov in majhnim številom neodvisnih spremenljivk. Raziskav, ki bi prouˇcevale uˇcinek diskretizacije na mnogorazsežnih podatkovnih tabelah, je zelo malo oz. imajo v eksperimentalni naˇcrt vkljuˇceno le eno metodo diskretizacije (Georgii, Richter, Rückert & Kramer, 2005; Potamias in sod., 2004). 194 9.3 Splošna razprava Redke raziskave kažejo, da zaradi visoke stopnje redundantnosti spremenljivk in šuma v podatkih diskretizacija biomedicinskih podatkov moˇcno izboljša kakovost uvršˇcanja (Lustgarten, Gopalakrishnan, Grover & Visweswaran, 2008). Na podroˇcju bioinformatike, zlasti v analizi mikromrežnih podatkov, je diskretizacija zelo slabo raziskano podroˇcje in redko uporabljena metoda predpriprave podatkov (Y. Li in sod., 2010). Doslej je bila uporaba metod diskretizacije v veliki meri prepušˇcena arbitrarni izbiri raziskovalcev. Diskretizacijo je najveˇckrat narekoval izbrani klasifikator in ni bila sama sebi namen. Najpogosteje zasledimo uporabo preprostih pristopov, kot je npr. metoda enake širine intervalov (Braga-Neto, 2009). Poleg tega diskretizacija ni bila ustrezno vkljuˇcena v eksperimentalni naˇcrt, kjer bi sistematiˇcno kontrolirali vpliv ostalih kovariat. V nadaljevanju navajamo pregled najpomembnejših raziskav, ki so prouˇcevale vpliv diskretizacije na kakovost uvršˇcanja. Lustgarten in sod. (2008) so pokazali, da diskretizacija (DNA in proteinskih) mikromrežnih podatkovij izboljša dosežek klasifikatorja (SVM, RF, NB) za 2–8 odstotnih toˇck. Najveˇcji vpliv ima diskretizacija na klasifikator NB, kar avtorji pripisujejo dejstvu, da diskretizacija moˇcno zgladi (angl. smoothing) neodvisne spremenljivke (Y. Yang & Webb, 2003). O podobnem uˇcinku za odloˇcitvena drevesa poroˇcajo Utgoff (1989) ter Oates in Jensen (1998). Uˇcinek diskretizacije je bil najmanjši pri metodi SVM. Y. Li in sod. (2010) so preverjali uˇcinkovitost razliˇcnih metod diskretizacije pri gradnji transkripcijskih regulatornih omrežij. Njihovi rezultati kažejo primerljivo kakovost med metodama enake širine intervalov in enake zastopanosti intervalov ter metodo voditeljev. Izpostaviti gre ugotovitev, da sta metodi enake širine in enake zastopanosti moˇcno obˇcutljivi za podatkovne osamelce. Lustgarten in sod. (2011) so na 24 mikromrežnih podatkovjih preizkusili novo metodo diskretizacije, ki temelji na dinamiˇcnem programiranju, s katerim poišˇce optimalno diskretizacijsko shemo v prostoru rešitev. Avtorji poroˇcajo, da je uvršˇcanje s pomoˇcjo C4.5 in NB-klasifikatorja statistiˇcno znaˇcilno boljše kot ob uporabi klasiˇcne MDLP-metode. Prispevek je pomemben zlasti zaradi tega, ker so kakovost diskretizacije ovrednotili z veˇc razliˇcnimi merami: toˇcnostjo uvršˇcanja, plošˇcino pod ROC-krivuljo, robustnostjo, stabilnostjo in preprostostjo. Njihov pristop vrednotenja smo povzeli tudi sami. Pomembno raziskavo je opravila Tillanderjeva (2012), ki je poleg primerjave razliˇcnih metod predlagala tudi preprosto, a uˇcinkovito metodo diskretizacije, ki temelji na toˇcnosti uvršˇcanja. Analizo je opravila nad realnimi in sintetiˇcnimi podatkovji in pokazala, da po kakovosti uvršˇcanja najbolj izstopata diskretizacijski shemi 1R in MDLP. Uporabila je tri razliˇcne klasifikatorje, kNN, C4.5 in NB, med katerimi se je najbolje odrezal zadnji. 9.3 Splošna razprava V tem razdelku bomo podrobneje osvetlili tri podroˇcja, ki se nam zdijo za razumevanje naših rezultatov zelo pomembna. Obravnavali bomo problem (i) namerne optimizacije mikromrežnih rezultatov, (ii) smiselnosti uporabe latentnih spremenljivk za analizo in interpretacijo mikromrežnih eksperimentov ter (iii) diskretizacije mikromrežnih podatkov. 195 9 Razprava 9.3.1 Načrtna optimizacija rezultatov Na podroˇcju biostatistike smo priˇca neslutenemu razvoju novih algoritmov in pristopov za analizo rezultatov. V zadnjem desetletju praktiˇcno ni bilo izdaje revije, ki ne bi poroˇcala o novi metodi. V nadaljevanju bomo zato nekaj besed namenili pereˇcemu problemu cˇ ezmerne optimizacije metod za uvršˇcanje in krˇcenje podatkovnih tabel. Jelizarow, Guillemot, Tenenhaus, Strimmer in Boulesteix (2010) navajajo štiri glavne razloge za cˇ ezmerno optimizacijo statistiˇcnih metod. Prvi od njih je naˇcrtna izbira takega podatkovja, ki bo v kombinaciji z izbrano metodo doseglo najboljšo kakovost uvršˇcanja (angl. dataset bias). Tak naˇcin preverjanja kakovosti metode je seveda moˇcno pristran in se mu moramo izogniti tako, da kakovost uvršˇcanja ocenimo na cˇ im veˇc razliˇcnih podatkovjih. Pogosto se namreˇc dogaja, da raziskovalci novo metodo preizkusijo na m vzorcih, poroˇcilo pa pripravijo samo za optimalnih k < m vzorcev. Yousefi, Hua, Sima in Dougherty (2010) so celo poskušali številsko doloˇciti stopnjo pristranosti, ki jo zagrešimo pri takem pristranem poroˇcanju. Vsako podatkovje namreˇc poleg splošnih lastnosti genske izraženosti odraža tudi specifiˇcne poteze populacije, iz katere izhaja. Avtorji predlagajo, da bi zgradili zbirko podatkovij, ki bi jih preizkusili ob predstavitvi vsake nove metode uvršˇcanja. Drugi vir napake pristranosti je prilagoditev izbire optimalnih parametrov uˇcenja pri uvršˇcanju oz. krˇcenju podatkovne tabele. Tako napako najpogosteje zagrešimo, ko izbiro spremenljivk opravimo neodvisno od postopka uvršˇcanja. Korelacija med dejansko optimalnimi spremenljivkami in izbranimi spremenljivkami je v tem primeru zelo nizka in zavajajoˇca. Postopek izbire spremenljivk mora biti sestavni del vrednotenja kakovosti klasifikatorja. Boulesteix in Slawski (2009) sta opozorila na problem stabilnosti merskih spremenljivk v luˇci stabilnosti rangirnih vrst neodvisnih spremenljivk (genov). Za merjenje stabilnosti spremenljivk predlagata tri razliˇcne raˇcunske pristope. Hkrati predlagata, da lahko bolj stabilno oceno dosežemo z agregacijo rezultatov veˇc podatkovji. Tretji vir pristranosti je subjektivna izbira primerjalnih metod uvršˇcanja. Gre za namerno izbiro takih metod, ki v primerjavi z novo metodo vraˇcajo slabše rezultate. Ne nazadnje je pomemben vir pristranosti tudi optimizacija metod na osnovi testnih podatkov. Pri tem gre za naˇcrtno optimizacijo parametrov uˇcenja na podatkih, ki jih v proces vrednotenja kakovosti ne bi smeli vkljuˇciti. 9.3.2 Problem interpretacije latentnih spremenljivk Uvodoma smo povedali (gl. razdelek 1.4), da lahko podatkovno tabelo skrˇcimo bodisi z izbiro spremenljivk, kjer izberemo najbolj informativne spremenljivke, bodisi z vpeljavo latentnih spremenljivk, s katerimi množico merskih spremenljivk projiciramo na manjše število razsežnosti. V tem razdelku poskušamo osvetliti nekaj pomembnih problemov v zvezi z interpretacijo latentnih spremenljivk. Od prej se spomnimo (gl. poglavje 4), da je posamezna latentna spremenljivka po pravilu povezana s skupino (podobno) izraženih genov. Za razliko od merskih spremenljivk se pri latentnih spremenljivkah sooˇcimo s problemom njihove interpretacije, saj je treba vsebinsko povezati funkcije veˇc genov hkrati. To je pomembno zlasti v kliniˇcni praksi, ko 196 9.3 Splošna razprava želimo fenotip preiskovanca povezati z izraženostjo latentne spremenljivke. Smiseln naˇcin doloˇcanja vsebine skupin genov je iskanje vzorca korelacij (nasiˇcenosti) med latentnimi in merskimi spremenljivkami. Glavna slabost tega pristopa pa je cˇ asovna potratnost, saj je treba roˇcno primerjati posamezne koeficiente korelacije. Zato je smiselno razviti avtomatizirane postopke, ki bodo pri interpretaciji rezultatov domenskemu strokovnjaku v pomoˇc. Po našem védenju in pregledu empiriˇcne evidence so se z iskanjem vsebinsko smiselnih skupin genov prvi ukvarjali West in sod. (2001). Skupino med seboj podobnih genov (glede na njihovo izraženost) so definirali kot metagen (E. Huang, West & Nevins, 2003; Spang in sod., 2002; West in sod., 2001). S konceptom metagena so strukturo podatkov neposredno povezali s fenotipom prouˇcevanega organizma. Vsebinsko interpretacijo metagena so doloˇcili na osnovi vzorcev nadpovpreˇcno in podpovpreˇcno izraženih genov v posamezni skupini. Sami za doloˇcanje vsebine latentnih spremenljivk predlagamo uporabo analize cˇ ezmerne nasiˇcenosti (angl. over-representing analysis) latentne spremenljivke z izbranimi biomedicinskimi koncepti. Kot prva možnost za iskanje konceptov se ponuja ontologija Gene Ontology (Ashburner in sod., 2000), po kateri lahko koncepte razvrstimo v tri veje: (i) molekularno funkcijo, (ii) biološki proces in (iii) celiˇcno komponento. Postopek zaˇcnemo z izdelavo seznama neodvisnih spremenljivk (genov), ki moˇcno korelirajo z izbrano latentno spremenljivko. Izbranim neodvisnim spremenljivkam pripišemo koncepte iz ontologije ter s pomoˇcjo ustreznega statistiˇcnega testa (npr. χ2 ) doloˇcimo izstopajoˇce koncepte. Ontologija GO je strojno berljiva in uporabna za razliˇcne organizme. Na ta naˇcin lahko npr. med seboj primerjamo izraženost posameznih genov v razliˇcnih organizmih. Prav tako deloma omogoˇca semantiˇcno rudarjenje, saj so relacije med koncepti opisane s predikati, kot sta npr. part_of in is_a. Na podoben naˇcin lahko uporabimo tudi zbirko presnovnih poti KEGG (Kanehisa & Goto, 2000) ali geslovnik MeSH (Coletti & Bleich, 2001). Slednji je po naših izkušnjah uporaben le za grobo doloˇcanje vsebine, saj je preveˇc splošen in v kliniˇcni praksi zato ni uporaben (Kastrin, Rindflesch & Hristovski, 2014). 9.3.3 Diskretizacija mikromrežnih DNA-podatkov Diskretizacijo gre razumeti ne le kot metodo predpriprave podatkov (npr. za uporabo odloˇcitvenih dreves ali naivnega Bayesovega klasifikatorja), paˇc pa predvsem kot metodološko orodje za poenostavljanje strukture podatkov. Veˇcina uˇcbenikov s podroˇcja statistike in zlasti strojnega uˇcenja (npr. J. Han in sod., 2012; Kononenko & Kukar, 2007) diskretizacijo le bežno obravnava in jo pojmuje kot najšibkejši cˇ len v procesu podatkovne analitike. Danes igra diskretizacija pomembno vlogo pri rekonstrukciji regulatornih omrežij genov (angl. gene regulatory networks) (Davidson, 2006)1 , s katerimi modeliramo kompleksne 1 Regulatorno omrežje genov (ROG) je množica DNA-segmentov, ki v medsebojni interakciji (in v povezavi z drugimi celiˇcnimi strukturami) nadzorujejo izraženost mRNA in proteinov. Glavno vlogo v ROG igrajo transkripcijski faktorji. Transkripcijski faktor je protein, ki z vezavo na promotorsko podroˇcje drugih genov skrbi za njihovo aktivacijo oz. inhibicijo. V ROG vozlišˇca ponazarjajo gene, povezave med njimi 197 9 Razprava molekularne procese v celici. Razumevanje strukture in dinamike ROG je trenutno eno od najbolj vroˇcih podroˇcij sistemske biologije. Študij ROG temelji na rekonstrukciji omrežij z uporabo principov obratnega inženirstva. Vhodne podatke sestavlja standardna matrika mikromrežnih poskusov, nad katero poskušamo izloˇciti pomembne korelacije med posameznimi geni. Za modeliranje interakcij med geni so bili uporabljeni nekateri splošni algoritmi, kot so npr. Booleanove mreže (Somogyi & Sniegoski, 1996), Gaussove (Wille in sod., 2004) in Bayesove mreže (N. Friedman, Linial, Nachman & Pe’er, 2000). V primeru Booleanovega modela posamezen gen zaseda dve vrednosti (npr. ON ali OFF), njegovo regulacijo pa popišemo z Booleanovo funkcijo. Empiriˇcna evidenca poroˇca, da tudi z dvojiško diskretizacijo lahko izlušˇcimo vsebinske zakljuˇcke (Shmulevich & Zhang, 2002; Tabus, Rissanen & Astola, 2003). Za modeliranje ROG je smiselno poleg DNA-podatkov uporabiti tudi novejše visoko prepustne tehnologije (npr. RNA- in miRNA-sekvenciranje). Velikost podatkovne matrike je pri mikromrežah druge generacije praviloma veˇcja kot pri obiˇcajnih DNA-mikromrežah. Poleg tega je smiselno podatke, pridobljene na osnovi razliˇcnih tehnologij, med seboj združevati. Diskretizacija ogromnih podatkovij pomeni glavni problem. Za ta namen kaže najprej razviti programsko knjižnico, ki bo implementirala razliˇcne metode diskretizacije. Po našem védenju in pregledu empiriˇcne evidence takšno orodje še ni razvito. Sami smo diskretizacijo nedavno uporabili pri preizkusu uporabnosti modela latentnih potez za uvršˇcanje visokogostotnih podatkovij (Kastrin & Peterlin, 2010). Pokazali smo, da je uporaba metodologije teorije odgovora na postavko (Bartholomew in sod., 2011) za analizo DNA-mikromrežnih podatkovij smiselna in vraˇca podobno kvalitetne klasifikatorje kot uporaba zveznih modelov. Ta metodologija se je doslej najpogosteje uporabljala nad ozkimi podatkovnimi tabelami, zato je v nadaljevanju treba natanˇcneje ovrednotiti in teoretiˇcno opisati lastnosti tega pristopa. 9.3.4 Priporočila raziskovalcem V tem razdelku bomo predstavili nekatera priporoˇcila raziskovalcem, ki izhajajo iz našega poznavanja problemske domene, s katero smo se ukvarjali v nalogi. 1. Kot metodo izbire za uvršˇcanje mikromrežnih podatkovij priporoˇcamo uporabo logistiˇcne regresije s kaznijo, metodo podpornih vektorjev in sluˇcajne gozdove. Kakovost uvršˇcanja teh treh metod je bila v naši raziskavi najvišja. Za uvršˇcanje ne priporoˇcamo uporabe nevronskih mrež. 2. Za krˇcenje števila razsežnosti priporoˇcamo uporabo analize glavnih komponent, saj je v primerjavi z metodo delnih najmanjših kvadratov preprostejša, lažja za razumevanje ter implementirana v veˇc statistiˇcnih paketih. 3. Za morebitno diskretizacijo zveznih spremenljivk priporoˇcamo uporabo metode MDLP, ki se ponaša z visoko toˇcnostjo uvršˇcanja, stabilnostjo in preprostostjo. pa njihove interakcije. Bralec bo veˇc informacij o modeliranju ROG našel npr. v de Jong (2002) ter v Karlebach in Shamir (2008). 198 9.3 Splošna razprava 4. Hotena ali nehotena optimizacija rezultatov uvršˇcanja je v vsakdanji statistiˇcni praksi moˇcno prisotna (Hand, 2006); pregled empiriˇcne evidence kaže, da enako velja tudi na podroˇcju statistiˇcne analize DNA-mikromrež (Boulesteix & Strobl, 2009; Yousefi, And & Dougherty, 2011). Vzroke zanjo smo podrobno razˇclenili v razdelku 9.3.1. Pomembno je, da se raziskovalci problema optimizacije rezultatov zavedajo že v fazi priprave eksperimentalnega naˇcrta; da vanj vkljuˇcijo cˇ im veˇcje število podatkovij in raznolike klasifikatorje, za oceno parametrov uˇcenja pa uporabijo ustrezne uˇcne sheme (npr. preˇcno preverjanje). Kot opozarjajo Mehta, Tanik in Allison (2004), ilustracija delovanja klasifikatorja z enim samim podatkovjem ni zgled epistemološko korektne raziskave, zato je treba v analizo vkljuˇciti vsa dostopna podatkovja. Poleg ocene kakovosti je treba izraˇcunati tudi njeno standardno napako oz. vsaj standardni odklon (E. R. Dougherty, Zollanvari & Braga-Neto, 2011). V proces uˇcenja je treba kot parametre vkljuˇciti vse dejavnike, ki lahko kakorkoli vplivajo na uˇcenje (Kuhn & Johnson, 2013): npr. metodo izbora spremenljivk, število spremenljivk, naˇcin krˇcenja razsežnosti podatkovne tabele, metodo diskretizacije spremenljivk itd. Prav tako je treba z navzkrižnim preverjanjem doloˇciti ustrezne parametre metod uˇcenja (npr. ceno uvršˇcanja pri metodi podpornih vektorjev ali stopnjo krˇcenja pri logistiˇcni regresiji s kaznijo). 5. Poleg ranžirne lestvice kakovosti delovanja razliˇcnih klasifikatorjev je treba preveriti tudi statistiˇcno znaˇcilnost razlik med njimi. V praksi se namreˇc velikokrat dogodi, da raziskovalci majhne razlike v kakovosti klasifikatorjev nehote interpretirajo prenapihnjeno. Pregled empiriˇcne evidence kaže, da je praksa statistiˇcnega preverjanja razlik na podroˇcju statistiˇcnega uˇcenja zelo slaba. Ustrezno metodologijo za statistiˇcno testiranje dobro predstavijo Demšar (2006) ter García in Herrera (2008). Prvi poleg tega predlaga tudi predstavitev rezultatov s pomoˇcjo CD-diagramov. 6. V naši raziskavi smo pokazali, da med razliˇcnimi metodami izbire spremenljivk (klasiˇcnim t-testom, Welchevim t-testom in pristopom LIMMA) ne prihaja do statistiˇcno znaˇcilnih razlik pri merah kakovosti uvršˇcanja. Kljub temu je treba posebno pozornost nameniti stabilnosti posameznih množic izbranih genov. V praksi se namreˇc izkaže, da je skupno število genov, izbranih z dvema razliˇcnima postopkoma, lahko zelo razliˇcno (Boulesteix & Slawski, 2009). Zaradi tega je za izbiro relevantnih spremenljivk smiselno uporabiti novejše postopke, ki temeljijo na moˇci povezanosti med posameznimi spremenljivkami (M. Zhang in sod., 2008). 7. Poleg spremenljivk, ki se nanašajo na izraženost posameznih genov, je v analizo smiselno vkljuˇciti tudi ostale kliniˇcne parametre kot, so npr. koncentracije razliˇcnih biomarkerjev, cˇ as kajenja, izpostavljenost teratogenim dejavnikom itd. O tem so prvi poroˇcali Boulesteix in Sauerbrei (2011) ter Obulkasim, Meijer in van de Wiel (2011). 8. V statistiˇcno analizo DNA-mikromrež je smiselno vkljuˇciti tudi mere velikosti uˇcinka, ki so v primerjavi s standardnimi merami statistiˇcne znaˇcilnosti (p-vrednostmi) bolj robustne in lažje razložljive (Jacob Cohen, 1988). Mere velikosti uˇcinka se na podroˇcju analize DNA-mikromrež že uporabljajo pri metaanalitiˇcnih raziskovalnih naˇcrtih (Feichtinger, Thallinger, McFarlane & Larcombe, 2012). 9. Posebno pozornost je treba posvetiti ponovljivosti rezultatov raziskave (Boulesteix & Slawski, 2009; Q. Li, Brown, Huang & Bickel, 2011). V ta namen priporoˇcamo 199 9 Razprava uporabo R-ovega sistema knitr (Xie, 2014). 9.4 Omejitve raziskave Kljub kompleksnosti predstavljene raziskave lahko vendarle izdvojimo nekaj pomanjkljivosti. Realna mikromrežna podatkovja smo pripravili roˇcno, s pregledovanjem podatkovnih zbirk Gene Expression Omnibus (Barrett in sod., 2013) in ArrayExpress (Rustici in sod., 2013). Izbrali smo podatkovja, ki se nanašajo na merjenje genske izraženosti med dvema ˇ bolezenskima stanjema. Ceprav gre po dostopni empiriˇcni evidenci za doslej najveˇcji vzorec mikromrežnih eksperimentov, menimo, da je treba zaradi še boljše posplošljivosti rezultatov nadaljevati v smeri veˇcanja vzorca. Konˇcni cilj je seveda vkljuˇcitev vseh podatkovij v prosto dostopnih zbirkah. Glavno omejitev pri avtomatskem zajemu podatkov pomeni nestandardiziran zapis bolezenskega stanja, zato je treba ta podatek pripraviti roˇcno. Izbiro optimalnih spremenljivk za uvršˇcanje smo opravili na osnovi treh metod (klasiˇcnega t-testa, Welchevega t-testa in pristopa LIMMA). Vse tri metode so predstavnice filtracijskih metod. V nadaljevanju bi bilo treba preizkusiti in ovrednotiti tudi delovanje ovojnih in vgrajenih metod (gl. razdelek 3.4). Sami smo za izbiro optimalnih spremenljivk uporabili rangiranje, tako da smo izbrali prvih p spremenljivk z najveˇcjo vrednostjo izraˇcunane statistike. V nadaljevanju nameravamo preizkusiti še preostale mere za ovrednotenje podmnožice optimalnih spremenljivk, kot sta npr. razdalja med razredi in verjetnostna razdalja (gl. razdelek 3.5). Za krˇcenje razsežnosti smo uporabili analizo glavnih komponent in metodo delnih najmanjših kvadratov. Obe sta predstavnici linearnih metod za krˇcenje števila razsežnosti. V zadnjem cˇ asu je zaslediti porast uporabe nelinearnih metod (J. A. Lee & Verleysen, 2007), kot so npr. nelinearna analiza glavnih komponent (Scholz, Kaplan, Guy, Kopka & Selbig, 2005), analiza glavnih komponent z jedrom (Schölkopf, Smola & Müller, 1998), Isomap (Tenenbaum, de Silva & Langford, 2000), lokalno veˇcrazsežnostno lestviˇcenje (Venna & Kaski, 2006) in lokalno linearno vgrajevanje (Roweis & Saul, 2000). S krˇcenjem števila razsežnosti je neloˇcljivo povezan tudi problem doloˇcanja intrinziˇcne razsežnosti podatkovja. Sami smo ta problem rešili tako, da smo izbrali tisto število latentnih spremenljivk, pri katerem smo dosegli karseda visoko kakovost uvršˇcanja. V nadaljevanju nameravamo zato v postopek vgraditi tudi metode za neposredno doloˇcanje števila latentnih spremenljivk (gl. razdelek 4.4). Posebno pozornost velja v nadaljevanju posvetiti problemu vsebinske smiselnosti latentnih spremenljivk. V razdelku 9.3.2 smo predlagali, da lahko vsebino latentnih spremenljivk doloˇcimo z analizo cˇ ezmerne nasiˇcenosti. Dodatno je treba razviti mero, ki bo numeriˇcno odražala vsebinsko smiselnost in stabilnost vsebine. Metode diskretizacije zveznih spremenljivk smo v naši raziskavi ovrednotili na osnovi toˇcnosti uvršˇcanja, plošˇcine pod ROC-krivuljo, robustnosti, stabilnosti in preprostosti (gl. razdelek 6.5.1). V nadaljevanju bomo dodali še mero razlike med zveznimi in diskretiziranimi podatki, ki bo odražala koliˇcino izgubljene informacije. V preliminarnem 200 9.5 Predlogi za nadaljnje delo eksperimentu (rezultati niso predstavljeni) smo razliko med zveznimi in diskretnimi podatki poskušali meriti s Frobenijevo normo razlik med Spearmanovima koeficientoma korelacije rangov, formalno v u p p u kρz − ρd k F = t ∑ ∑ |ρzij − ρdij |2 , i =1 j =1 kjer sta ρzij in ρdij Spearmanova koeficienta korelacije rangov med spremenljivkama i in j za zvezne oz. diskretne podatke. Problem je nastopil pri ovrednotenju metode MDLP, ki samodejno izloˇci redundantne spremenljivke. V tem primeru je predlagana mera zelo nestabilna. 9.5 Predlogi za nadaljnje delo Po našem mnenju gre posebno pozornost posvetiti razvoju metodologije za interpretacijo poskusov z DNA-mikromrežami. V razdelku 9.3.2 smo v ta namen že predlagali preprosto rešitev. Izboljšavo pristopov za (pol)avtomatsko interpretacijo poskusov vidimo predvsem v integraciji surovih rezultatov mikromrežnih poskusov z rudarjenjem po bibliografskih zbirkah (npr. MEDLINE) (Faro in sod., 2012). Spletišˇce Entrez (Sayers in sod., 2012) sicer ponuja integracijo vmesnika PubMed z nekaterimi ostalimi biomedicinskimi vsebinami (npr. DNA-zaporedji in kemijskimi strukturami), vendar neposredno ne omogoˇca pregledovanja povezav tipa bolezen – gen ali zdravilo – gen. Za uspešno interpretacijo bioloških podatkov pa so zanimive prav te povezave. V ta namen smo pred cˇ asom razvili prototip podpornega bioinformacijskega sistema SemBT (Hristovski in sod., 2010). SemBT v trenutni razliˇcici omogoˇca pregled eksplicitnih in iskanje implicitnih relacij2 (hipotez) med biomedicinskimi koncepti (npr. zdravilnimi uˇcinkovinami) in posameznimi geni, ki smo jih predhodno izbrali v mikromrežnem eksperimentu. Semantiˇcne relacije med koncepti in geni so opisane s predikati sistema SemRep (Rindflesch & Fiszman, 2003). Po našem védenju je SemBT prvi tovrstni sistem, ki nomološko mrežo znanja gradi na osnovi semantiˇcnih povezav med biomedicinskimi koncepti, in ne na osnovi njihove sopojavnosti. Za odkrivanje implicitnih relacij SemBT uporablja inovativno metodologijo vzorcev iskanja (angl. discovery patterns). Dva primera vzorcev iskanja sta predstavljena na sliki 9.1. Orodje smo preizkusili v kliniˇcni praksi in prvi pokazali, da za inhibicijo gena HSPB1, ki sodeluje pri patogenezi parkinsonove bolezni, lahko uporabimo uˇcinkovini paklitaksel in kvercetin (Hristovski in sod., 2010). V nadaljevanju nameravamo metodologijo SemBT razširiti na veˇcje število vzorcev iskanja. Prav tako je v fazi razvoja metodologija za samodejno iskanje vzorcev iskanja (angl. discovering discovery patterns), ki s pomoˇcjo asociacijskih pravil samodejno vrednoti izstopajoˇce 2V procesu odkrivanja znanja nas zanimajo predvsem implicitne relacije med biomedicinskimi koncepti, ki v literaturi še niso bile opisane. Osnovno idejo iskanja lahko ilustriramo s tremi teoretiˇcnimi koncepti: X, Y in Z. Za primer vzemimo, da je skupina raziskovalcev ugotovila povezavo med boleznijo X in genom Y. V nadaljevanju privzemimo, da je druga raziskovalna skupina prouˇcevala vpliv zdravila Z na gen Y ter med njima ugotovila vzroˇcni odnos. Kot potencialno novo znanje je zanimiva eksplicitna relacija med konceptoma X in Z, kar v našem primeru pomeni, da zdravilo Z lahko vpliva na bolezen X. 201 9 Razprava 1 Treats Maybe_ (+) ija c a l Regu X Regu laci Y1 Z1 ja ( -) Y2 M Inhibicija Stimulacija Z2 L Maybe_ T reats2 Slika 9.1: Vzorci iskanja novih terapevtikov za bolezen X v sistemu SemBT. Prvi vzorec išˇce implicitno relacijo med terapevtikom (Z1 ), ki inhibira cˇ ezmerno reguliran gen Y1 , drugi vzorec pa podobno išˇce implicitno relacijo med terapevtikom (Z2 ), ki stimulira premalo reguliran gen Y2 . Modri oz. rdeˇci okvir se nanašata na domeno znanja, iz katere cˇ rpamo informacije (M – DNA-mikromreža, L – literatura). 202 9.6 Zakljuˇcki vzorce v mreži znanja. Na ta naˇcin bomo moˇcno poveˇcali število pregledanih vzorcev ter posredno poveˇcali število hipotez. 9.6 Zaključki Iz raziskave lahko izlušˇcimo naslednje zakljuˇcke: 1. Po našem védenju in dostopni empiriˇcni evidenci gre za prvo tovrstno raziskavo, ki je sistematiˇcno in statistiˇcno korektno prouˇcevala vpliv (i) metode uvršˇcanja in izbire spremenljivk na uvršˇcanje, (ii) metode za zmanjševanje razsežnosti podatkovja na uvršˇcanje in (iii) metode diskretizacije zveznih spremenljivk na uvršˇcanje. V analizo smo vkljuˇcili (i) štiri razliˇcne naˇcine izbora neodvisnih spremenljivk, (ii) devet razliˇcnih metod uvršˇcanja, (iii) dve razliˇcni metodi krˇcenja podatkovne tabele in (iv) pet razliˇcnih metod diskretizacije. Analiza je bila opravljena nad 37 realnimi DNA-mikromrežnimi podatkovji. Analizo vpliva metode uvršˇcanja in izbire spremenljivk na uvršˇcanje smo opravili tudi nad sintetiˇcnimi podatkovji. Izbor parametrov uvršˇcanja in ovrednotenje kakovosti uvršˇcanja smo opravili po shemi preˇcnega preverjanja. Kakovost uvršˇcanja smo ovrednotili s pomoˇcjo analize kovariance. Po našem védenju in dostopni empiriˇcni evidenci gre za prvo raziskavo na tako velikem številu mikromrežnih podatkovij. 2. Pri uvršˇcanju realnih DNA-mikromrežnih podatkov se glede na toˇcnost, obˇcutljivost, specifiˇcnost in plošˇcino pod ROC-krivuljo najbolje odreže metoda PLR, najslabše pa metoda NNET. Nad sintetiˇcnimi podatki po kakovosti izstopa metoda SVM. Tako pri realnih kot pri sintetiˇcnih podatkovjih metoda izbora neodvisnih spremenljivk z merami kakovosti uvršˇcanja ni statistiˇcno znaˇcilno povezana. Zaradi lažje interpretabilnosti rezultatov za uvršˇcanje priporoˇcamo uporabo metode PLR. 3. Med metodama krˇcenja podatkovne matrike PCA in PLS glede na kakovost uvršˇcanja (z izjemo plošˇcine pod ROC-krivuljo) ni statistiˇcno znaˇcilnih razlik. Mere kakovosti uvršˇcanja med kombinacijami metod krˇcenja PCA in PLS in metodami uvršˇcanja so približno enake. Pokazali smo, da metoda izbora neodvisnih spremenljivk (z izjemo sluˇcajnega izbora) ne vpliva na rezultate uvršˇcanja. Kakovost uvršˇcanja raste s poveˇcevanjem števila neodvisnih spremenljivk. Zaradi manjše raˇcunske zahtevnosti za krˇcenje podatkovne matrike priporoˇcamo uporabo metode PCA. 4. Glede na toˇcnost uvršˇcanja, stabilnost in preprostost se najbolje odreže metoda MDLP, glede na plošˇcino pod ROC-krivuljo in robustnost pa metoda ChiMerge. Zaradi veˇcje raˇcunske zahtevnosti algoritma ChiMerge za diskretizacijo priporoˇcamo uporabo metode MDLP. 5. Raziskovalce opozarjamo na korektnost pri poroˇcanju o rezultatih uvršˇcanja nad mikromrežnimi podatkovji. Predlagamo, da raziskovalci poleg nove metode uvršˇcanja pripravijo tudi povzetek rezultatov ostalih pogosto uporabljenih klasifikatorjev. Le primerjava z veˇcjim številom metod bo zanesljiveje potrdila kakovost izbrane metode. 203 9 Razprava 6. Kot orodje za interpretacijo latentnih spremenljivk pri metodah PCA in PLS predlagamo uporabo analize cˇ ezmerne nasiˇcenosti. 7. Predlagamo nadaljnje raziskave o smiselnosti uporabe diskretizacije zveznih spremenljivk pri analizi mikromrežnih podatkov. Menimo, da je diskretizacija pomembno orodje za poenostavljanje strukture podatkov. 8. Predlagamo, da raziskovalci poleg opisne primerjave kakovosti razliˇcnih metod poroˇcajo tudi o statistiˇcni in praktiˇcni pomembnosti razlik med njimi. 204 Literatura Aerssens, J., Hillsley, K., Peeters, P. J., de Hoogt, R., Stanisz, A., Lin, J.-H., . . . Coulie, B. (2007). Alterations in the brain-gut axis underlying visceral chemosensitivity in Nippostrongylus brasiliensis-infected mice. Gastroenterology, 132(4), 1375–1387. doi:10.1053/j.gastro.2007.02.019 Agresti, A. (2013). Categorical data analysis. Hoboken, NJ: John Wiley & Sons. Agresti, A. & Franklin, C. (2013). Statistics: The art and science of learning from data. Boston, MA: Pearson Education. Ahmed, S. H., Lutjens, R., van der Stap, L. D., Lekic, D., Romano-Spica, V., Morales, M., . . . Sanna, P. P. (2005). Gene expression evidence for remodeling of lateral hypothalamic circuitry in cocaine addiction. Proceedings of the National Academy of Sciences, USA, 102(32), 11533–11538. doi:10.1073/pnas.0504438102 Albrecht, A. A. (2006). Stochastic local search for the feature set problem, with applications to microarray data. Applied Mathematics and Computation, 183(2), 1148–1164. doi:10. 1016/j.amc.2006.05.128 Alon, U., Barkai, N., Notterman, D. A., Gish, K., Ybarra, S., Mack, D. & Levine, A. J. (1999). Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proceedings of the National Academy of Sciences, USA, 96(12), 6745–6750. doi:10.1073/pnas.96.12.6745 Anderson, T. W. (2003). An introduction to multivariate statistical analysis (3. izd.). Hoboken, NJ: John Wiley & Sons. Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., . . . Sherlock, G. (2000). Gene Ontology: Tool for the unification of biology. Nature Genetics, 25(1), 25–29. doi:10.1038/75556 Au, W.-H., Chan, K. & Wong, A. (2006). A fuzzy approach to partitioning continuous attributes for classification. IEEE Transactions on Knowledge and Data Engineering, 18(5), 715–719. doi:10.1109/TKDE.2006.70 Bakar, A. A., Othman, Z. A. & Shuib, N. L. M. (2009). Building a new taxonomy for data discretization techniques. V A. R. Hamdan, A. A. Bakar, B. McCollum, F. Famili & S. Abdullah (Ur.), 2009 2nd conference on data mining and optimization (str. 132–140). Piscataway, NJ: IEEE Press. doi:10.1109/DMO.2009.5341896 Barrett, T., Wilhite, S. E., Ledoux, P., Evangelista, C., Kim, I. F., Tomashevsky, M., . . . Soboleva, A. (2013). NCBI GEO: Archive for functional genomics data sets–update. Nucleic Acids Research, 41(Database issue), D991–D995. doi:10.1093/nar/gks1193 Bartholomew, D. J. (2013). Unobserved variables: Models and misunderstandings. Heidelberg, Germany: Springer. Bartholomew, D. J., Knott, M. & Moustaki, I. (2011). Latent variable models and factor analysis: A unified approach. Chichester, England: John Wiley & Sons. 205 Literatura Basford, K. E., McLachlan, G. J. & Rathnayake, S. I. (2013 julij). On the classification of microarray gene-expression data. Briefings in bioinformatics, 14(4), 402–10. doi:10. 1093/bib/bbs056 Bay, S. D. (2001). Multivariate discretization for set mining. Knowledge and Information Systems, 3(4), 491–512. doi:10.1007/PL00011680 Bell, D. A. & Wang, H. (2000). A formalism for relevance and its application in feature subset selection. Machine Learning, 41(2), 175–195. doi:10.1023/A:1007612503587 Bellman, R. (1966). Adaptive control processes: A guided tour. Princeton, NJ: University Press. Benjamini, Y. & Hochberg, Y. (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society. Series B, 57(1), 289–300. Bertalanffy, L. V. (1969). General system theory: Foundations, development, applications. New York, NY: George Braziller. Beyer, K. S., Goldstein, J., Ramakrishnan, R. & Shaft, U. (1999). When Is “Nearest Neighbor” Meaningful? V C. Beeri & P. Buneman (Ur.), Database theory — icdt’99 (Zv. 1540, str. 217–235). Lecture Notes in Computer Science. Berlin, Germany: Springer. doi:10. 1007/3-540-49257-7\_15 Bin, J., Ai, F.-F., Liu, N., Zhang, Z.-M., Liang, Y.-Z., Shu, R.-X. & Yang, K. (2013 december). Supervised principal components: a new method for multivariate spectral analysis. Journal of Chemometrics, 27(12), 457–465. doi:10.1002/cem.2558 Bishop, C. M. (1995). Neural networks for pattern recognition. Oxford, England: University Press. Bishop, C. M. (2007). Pattern recognition and machine learning. New York, NY: Springer. Blagus, R. (2011). Razvršˇcanje visoko-razsežnih neuravnoteženih podatkov (Doktorska disertacija, Univerza v Ljubljani, Ljubljana, Slovenija). Blagus, R. & Lusa, L. (2010). Class prediction for high-dimensional class-imbalanced data. BMC Bioinformatics, 11, 523. doi:10.1186/1471-2105-11-523 Blejec, A. (2005). Statistiˇcno ozadje analize podatkov z mikromrež. V G. Anderluh, B. Zupan & J. Stare (Ur.), Prvo sreˇcanje slovenskih bioinformatikov (str. 19–22). Ljubljana: Fakulteta za raˇcunalništvo in informatiko. Blum, A. L. & Langley, P. (1997). Selection of relevant features and examples in machine learning. Artificial Intelligence, 97(1-2), 245–271. doi:10.1016/S0004-3702(97)000635 Bolón-Canedo, V., Sánchez-Maroño, N. & Alonso-Betanzos, A. (2013). A review of feature selection methods on synthetic data. Knowledge and Information Systems, 34(3), 483– 519. doi:10.1007/s10115-012-0487-8 Borg, I. & Groenen, P. J. F. (2005). Modern multidimensional scaling: Theory and applications (2. izd.). New York, NY: Springer. Boulesteix, A.-L. (2004). PLS dimension reduction for classification with microarray data. Statistical Applications in Genetics and Molecular Biology, 3, Article33. doi:10.2202/ 1544-6115.1075 Boulesteix, A.-L. (2006). Reader’s reaction to “Dimension reduction for classification with gene expression microarray data” by Dai et al. (2006). Statistical Applications in Genetics and Molecular Biology, 5, Article16. doi:10.2202/1544-6115.1226 Boulesteix, A.-L. & Sauerbrei, W. (2011). Added predictive value of high-throughput molecular data to clinical data and its validation. Briefings in bioinformatics, 12(3), 215–229. doi:10.1093/bib/bbq085 206 Literatura Boulesteix, A.-L. & Slawski, M. (2009). Stability and aggregation of ranked gene lists. Briefings in Bioinformatics, 10(5), 556–568. doi:10.1093/bib/bbp034 Boulesteix, A.-L., Strobl, C., Augustin, T. & Daumer, M. (2008). Evaluating microarraybased classifiers: An overview. Cancer Informatics, 6, 77–97. Boulesteix, A.-L. & Strobl, C. (2009). Optimal classifier selection and negative bias in error rate estimation: An empirical study on high-dimensional prediction. BMC Medical Research Methodology, 9(1), 85. Boullé, M. (2006). MODL: A Bayes optimal discretization method for continuous attributes. Machine Learning, 65(1), 131–165. doi:10.1007/s10994-006-8364-x Braga-Neto, U. M. (2009). Classification and error estimation for discrete data. Current Genomics, 10(7), 446–462. doi:10.2174/138920209789208228 Brazma, A. (2009). Minimum Information About a Microarray Experiment (MIAME)— Successes, failures, challenges. TheScientificWorldJournal, 9, 420–423. doi:10.1100/ tsw.2009.57 Brazma, A., Hingamp, P., Quackenbush, J., Sherlock, G., Spellman, P., Stoeckert, C., . . . Vingron, M. (2001). Minimum Information About a Microarray Experiment (MIAME)—Toward standards for microarray data. Nature Genetics, 29(4), 365–371. doi:10.1038/ng1201-365 Breiman, L., Friedman, J., Olshen, R. A. & Stone, C. J. (1984). Classification and regression trees. Boca Raton, FL: Chapman & Hall. Camastra, F. (2003). Data dimensionality estimation methods: A survey. Pattern Recognition, 36(12), 2945–2954. doi:10.1016/S0031-3203(03)00176-6 Camastra, F. & Vinciarelli, A. (2001). Intrinsic dimension estimation of data: An approach based on Grassberger–Procaccia’s algorithm. Neural Processing Letters, 14(1), 27–34. doi:10.1023/A:1011326007550 Catlett, J. (1991). On changing continuous attributes into ordered discrete attributes. V Y. Kodratoff (Ur.), Machine learning – ewsl-91 (Zv. 482, str. 164–178). Lecture Notes in Computer Science. Berlin, Germany: Springer. doi:10.1007/BFb0017012 Cawley, G., Talbot, N. & Girolami, M. (2007). Sparse multinomial logistic regression via Bayesian L1 regularisation. V B. Schölkopf, J. Platt & T. Hofmann (Ur.), Advances in neural information processing systems (Zv. 19, str. 209–216). Cambridge, MA: MIT Press. Cerquides, J. & De Mántaras, R. L. (1997). Proposal and empirical comparison of a parallelizable distance-based discretization method. V D. Heckerman, H. Mannila, D. Pregibon & R. Uthurusamy (Ur.), Proceedings of the third international conference on knowledge discovery and data mining (str. 139–142). Menlo Park, CA: AAAI Press. Chan, C.-C., Batur, C. & Srinivasan, A. (1991). Determination of quantization intervals in rule based model for dynamic systems. V Proceedings of the international conference on systems, man, and cybernetics (str. 1719–1723). Los Alamitos, CA: IEEE Press. doi:10.1109/ICSMC.1991.169942 Chin, K., DeVries, S., Fridlyand, J., Spellman, P. T., Roydasgupta, R., Kuo, W.-L., . . . Gray, J. W. (2006). Genomic and transcriptional aberrations linked to breast cancer pathophysiologies. Cancer Cell, 10(6), 529–541. doi:10.1016/j.ccr.2006.10.009 Ching, J., Wong, A. & Chan, K. (1995). Class-dependent discretization for inductive learning from continuous and mixed-mode data. IEEE Transactions on Pattern Analysis and Machine Intelligence, 17(7), 641–651. doi:10.1109/34.391407 207 Literatura Chlebus, B. S. & Nguyen, S. H. (1998). On finding optimal discretizations for two attributes. V L. Polkowski & A. Skowron (Ur.), Rough sets and current trends in computing (Zv. 1424, str. 537–544). Lecture Notes in Computer Science. Berlin, Germany: Springer. doi:10.1007/3-540-69115-4 Chmielewski, M. R. & Grzymala-Busse, J. W. (1996). Global discretization of continuous attributes as preprocessing for machine learning. International Journal of Approximate Reasoning, 15(4), 319–331. doi:10.1016/S0888-613X(96)00074-6 Chowdary, D., Lathrop, J., Skelton, J., Curtin, K., Briggs, T., Zhang, Y., . . . Mazumder, A. (2006). Prognostic gene expression signatures can be measured in tissues collected in RNAlater preservative. The Journal of Molecular Diagnostics, 8(1), 31–39. doi:10. 2353/jmoldx.2006.050056 Christensen, B. C., Houseman, E. A., Marsit, C. J., Zheng, S., Wrensch, M. R., Wiemels, J. L., . . . Kelsey, K. T. (2009). Aging and environmental exposures alter tissue-specific DNA methylation dependent upon CpG island context. PLoS Genetics, 5(8), e1000602. doi:10.1371/journal.pgen.1000602 Cochran, W. G. & Hopkins, C. E. (1961). Some classification problems with multivariate qualitative data. Biometrics, 17(1), 10–32. Cohen, J. [Jacob]. (1988). Statistical power analysis for the behavioral sciences (2. izd.). Hillsdate, NJ: Lawrence Erlbaum Associates. Cohen, J. [Jennifer], Van Marter, L. J., Sun, Y., Allred, E., Leviton, A. & Kohane, I. S. (2007). Perturbation of gene expression of the chromatin remodeling pathway in premature newborns at risk for bronchopulmonary dysplasia. Genome Biology, 8(10), R210. doi:10.1186/gb-2007-8-10-r210 Coletti, M. H. & Bleich, H. L. (2001). Medical subject headings used to search the biomedical literature. Journal of the American Medical Informatics Association, 8(4), 317– 323. Costa, J. & Hero, A. (2004). Geodesic entropic graphs for dimension and entropy estimation in manifold learning. IEEE Transactions on Signal Processing, 52(8), 2210–2221. doi:10.1109/TSP.2004.831130 Cox, T. F. & Cox, M. A. A. (2001). Multidimensional scaling (2. izd.). Boca Raton, FL: CRC Press. Culhane, A. C., Perrière, G., Considine, E. C., Cotter, T. G. & Higgins, D. G. (2002). Between-group analysis of microarray data. Bioinformatics, 18(12), 1600–1608. doi:10. 1093/bioinformatics/18.12.1600 Dai, J. J., Lieu, L. & Rocke, D. (2006). Dimension reduction for classification with gene expression microarray data. Statistical Applications in Genetics and Molecular Biology, 5, Article6. doi:10.2202/1544-6115.1147 Dash, M. & Liu, H. (1997). Feature selection for classification. Intelligent Data Analysis, 1(1-4), 131–156. doi:10.1016/S1088-467X(97)00008-5 Dash, M. & Liu, H. (2003). Consistency-based search in feature selection. Artificial Intelligence, 151(1-2), 155–176. doi:10.1016/S0004-3702(03)00079-1 Davidson, E. H. (2006). The regulatory genome: Gene regulatory networks in development and evolution. Burlington, MA: Elsevier. Davis, S. & Meltzer, P. S. (2007). GEOquery: A bridge between the Gene Expression Omnibus (GEO) and BioConductor. Bioinformatics, 23(14), 1846–1847. doi:10.1093/ bioinformatics/btm254 208 Literatura De Mántaras, R. L. (1991). A distance-based attribute selection measure for decision tree induction. Machine Learning, 6(1), 81–92. doi:10.1023/A:1022694001379 de Jong, H. (2002). Modeling and simulation of genetic regulatory systems: A literature review. Journal of Computational Biology, 9(1), 67–103. doi:10.1089/10665270252833208 Debeljak, N. (2007). DNK-mikromreže. Njihova uporaba v medicini - novo upanje tudi za bolnike z rakom. Okno: glasilo Društva onkoloških bolnikov Slovenije, 21(2), 9–14. Demartines, P. (1994). Analyse de données par réseaux de neurones auto-organisés (Doktorska disertacija, Institut National Polytechnique de Grenoble, Grenoble, France). Demšar, J. (2006). Statistical Comparisons of Classifiers over Multiple Data Sets. The Journal of Machine Learning Research, 7, 1–30. doi:10.1016/j.jecp.2010.03.005 Detwiller, K. Y., Fernando, N. T., Segal, N. H., Ryeom, S. W., D’Amore, P. A. & Yoon, S. S. (2005). Analysis of hypoxia-related gene expression in sarcomas and effect of hypoxia on RNA interference of vascular endothelial cell growth factor A. Cancer Research, 65(13), 5881–5889. doi:10.1158/0008-5472.CAN-04-4078 Díaz-Uriarte, R. & Alvarez de Andrés, S. (2006). Gene selection and classification of microarray data using random forest. BMC Bioinformatics, 7(1), 3. doi:10.1186/14712105-7-3 Donoho, D. L. (2006). For most large underdetermined systems of linear equations the minimal 1-norm solution is also the sparsest solution. Communications on Pure and Applied Mathematics, 59(6), 797–829. doi:10.1002/cpa.20132 Dopazo, J. (2014). Genomics and transcriptomics in drug discovery. Drug discovery today, 19(2), 126–132. doi:10.1016/j.drudis.2013.06.003 Dougherty, E. R., Zollanvari, A. & Braga-Neto, U. M. (2011). The illusion of distributionfree small-sample classification in genomics. Current Genomics, 12(5), 333–341. Dougherty, J., Kohavi, R. & Sahami, M. (1995). Supervised and unsupervised discretization of continuous features. V A. Prieditis & S. Russell (Ur.), Proceedings of the 12th international conference on machine learning (str. 194–202). San Francisco, CA: Morgan Kaufmann. Dr˘aghici, S. (2012). Statistics and data analysis for microarrays using R and Bioconductor (2. izd.). Boca Raton, FL: CRC Press. Dr˘aghici, S., Khatri, P., Martins, R. P., Ostermeier, G. C. & Krawetz, S. A. (2003). Global functional profiling of gene expression. Genomics, 81(2), 98–104. doi:10.1016/S08887543(02)00021-6 Duda, R. O., Hart, P. E. & Stork, D. G. (2001). Pattern classification (2. izd.). New York, NY: John Wiley & Sons. Dudoit, S., Fridlyand, J. & Speed, T. P. (2002). Comparison of discrimination methods for the classification of tumors using gene expression data. Journal of the American Statistical Association, 97(457), 77–87. doi:10.1198/016214502753479248 Dupuy, A. & Simon, R. M. (2007). Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting. Journal of the National Cancer Institute, 99(2), 147–157. doi:10.1093/jnci/djk018 Everitt, B. S. (1984). An introduction to latent variable models. London, England: Chapman & Hall. Faro, A., Giordano, D. & Spampinato, C. (2012). Combining literature text mining with microarray data: Advances for system biology modeling. Briefings in Bioinformatics, 13(1), 61–82. doi:10.1093/bib/bbr018 209 Literatura Fayyad, U. & Irani, K. (1993). Multi-interval discretization of continuous-valued attributes for classification learning. V R. Bajcsy (Ur.), Proceedings of the 13th international joint conference on artificial inteligence (str. 1022–1027). San Francisco, CA: Morgan Kaufmann. Feichtinger, J., Thallinger, G. G., McFarlane, R. J. & Larcombe, L. D. (2012). Microarray meta-analysis: From data to expression to biological relationships. V Z. Trajanoski (Ur.), Computational medicine: tools and challenges (str. 59–77). Wien, Austria: Springer. Ferri, F. J., Pudil, P., Hatef, M. & Kittler, J. (1994). Comparative study of techniques for large-scale feature selection. V E. S. Gelsema & L. N. Kanal (Ur.), Pattern recognition in practice iv: multiple paradigms, comparative studies and hybrid systems (str. 403–413). Amsterdam, Netherlands: Elsevier. Flores, J. L., Inza, I. & Larrañaga, P. (2007). Wrapper discretization by means of estimation of distribution algorithms. Intelligent Data Analysis, 11(5), 525–545. Forman, G. (2003). An extensive empirical study of feature selection metrics for text classification. The Journal of Machine Learning Research, 3, 1289–1305. Francois, D. (2007). High-dimensional data analysis: Optimal metrics and feature selection (Doktorska disertacija, Université catholique de Louvain, Louvain-la-Neuve, Belgija). Frank, l. E. & Friedman, J. H. (1993). A statistical view of some chemometrics regression tools. Technometrics, 35(2), 109–135. doi:10.1080/00401706.1993.10485033 Frery, A. C. & Perciano, T. (2013). Introduction to image processing using R: Learning by examples. London, England: Springer. Friedman, N., Linial, M., Nachman, I. & Pe’er, D. (2000). Using Bayesian networks to analyze expression data. Journal of Computational Biology, 7(3-4), 601–620. doi:10. 1089/106652700750050961 Fu, S. & Desmarais, M. C. (2010). Markov blanket based feature selection: A review of past decade. V S. I. Ao, L. Gelman, D. W. Hukins, A. Hunter & A. M. Korsunsky (Ur.), Proceedings of the world congress on engineering (str. 321–328). Hong Kong, Ljudska republika Kitajska: Newswood Limited. García, S. & Herrera, F. (2008). An extension on Štatistical comparisons of classifiers over multiple data sets"for all pairvise comparisons. The Journal of Machine Learning Research, 9, 2677–2694. García, S., Luengo, J., Sáez, J. A., López, V. & Herrera, F. (2013). A survey of discretization techniques: Taxonomy and empirical analysis in supervised learning. IEEE Transactions on Knowledge and Data Engineering, 25(4), 734–750. doi:10.1109/TKDE.2012.35 Garthwaite, P. H. (1994). An interpretation of partial least squares. Journal of the American Statistical Association, 89(425), 122–127. Gentleman, R. C., Carey, V. J., Bates, D. M., Bolstad, B., Dettling, M., Dudoit, S., . . . Zhang, J. (2004). Bioconductor: Open software development for computational biology and bioinformatics. Genome Biology, 5(10), R80. doi:10.1186/gb-2004-5-10-r80 Georgii, E., Richter, L., Rückert, U. & Kramer, S. (2005). Analyzing microarray data using quantitative association rules. Bioinformatics, 21(Suppl 2), ii123–ii129. doi:10.1093/ bioinformatics/bti1121 Gheyas, I. A. & Smith, L. S. (2010). Feature subset selection in large dimensionality domains. Pattern Recognition, 43(1), 5–13. doi:10.1016/j.patcog.2009.06.009 Goel, P., Kuceyeski, A., LoCastro, E. & Raj, A. (2014). Spatial patterns of genome-wide expression profiles reflect anatomic and fiber connectivity architecture of healthy human brain. Human brain mapping, 35(8), 4204–4218. doi:10.1002/hbm.22471 210 Literatura Goh, S.-H., Josleyn, M., Lee, Y. T., Danner, R. L., Gherman, R. B., Cam, M. C. & Miller, J. L. (2007). The human reticulocyte transcriptome. Physiological Genomics, 30(2), 172–178. doi:10.1152/physiolgenomics.00247.2006 Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P., . . . Lander, E. S. (1999). Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring. Science, 286(5439), 531–537. doi:10.1126/ science.286.5439.531 Gordon, G. J., Jensen, R. V., Hsiao, L.-L., Gullans, S. R., Blumenstock, J. E., Ramaswamy, S., . . . Bueno, R. (2002). Translation of microarray data into clinically relevant cancer diagnostic tests using gene expression ratios in lung cancer and mesothelioma. Cancer Research, 62(17), 4963–4967. Grassberger, P. & Procaccia, I. (1983). Measuring the strangeness of strange attractors. Physica D: Nonlinear Phenomena, 9(1-2), 189–208. doi:10.1016/0167-2789(83)902981 Gravier, E., Pierron, G., Vincent-Salomon, A., Gruel, N., Raynal, V., Savignoni, A., . . . Delattre, O. (2010). A prognostic DNA signature for T1T2 node-negative breast cancer patients. Genes, Chromosomes & Cancer, 49(12), 1125–1134. doi:10.1002/gcc. 20820 Gupta, A., Mehrotra, K. G. & Mohan, C. (2010). A clustering-based discretization for supervised learning. Statistics & Probability Letters, 80(9-10), 816–824. doi:10.1016/j. spl.2010.01.015 Guyon, I. (2008). Practical feature selection: From correlation to causality. V F. FogelmanSoulié, D. Perrotta, J. Piskorski & R. Steinberger (Ur.), Mining massive data sets for security. Amsterdam, Netherlands: IOS Press. Guyon, I. & Elisseeff, A. (2003). An introduction to variable and feature selection. The Journal of Machine Learning Research, 3, 1157–1182. Guyon, I., Weston, J., Barnhill, S. & Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning, 46(1-3), 389–422. doi:10. 1023/A:1012487302797 Hall, M. A. (1999). Correlation-based feature selection for machine learning (Doktorska disertacija, University of Waikato, Hamilton, Nova Zelandija). Han, F., Sun, W. & Ling, Q.-H. (2014). A novel strategy for gene selection of microarray data based on gene-to-class sensitivity information. PloS one, 9(5), e97530. doi:10. 1371/journal.pone.0097530 Han, J., Kamber, M. & Pei, J. (2012). Data mining: Concepts and techniques (3. izd.). Waltham, MA: Morgan Kaufmann. Hand, D. J. (2006). Classifier technology and the illusion of progress. Statistical Science, 21(1), 1–14. Häsler, R., Begun, A., Freitag-Wolf, S., Kerick, M., Mah, N., Zvirbliene, A., . . . Schreiber, S. (2009). Genetic control of global gene expression levels in the intestinal mucosa: A human twin study. Physiological Genomics, 38(1), 73–79. doi:10.1152/ physiolgenomics.00010.2009 Hastie, T., Tibshirani, R. & Friedman, J. (2011). The elements of statistical learning: Data mining, inference, and prediction (2. izd.). New York, NY: Springer. Hecht-Nielsen, R. (1990). Neurocomputing. Reading, MA: Addison-Wesley. 211 Literatura Helland, I. S. (2001). Some theoretical aspects of partial least squares regression. Chemometrics and Intelligent Laboratory Systems, 58(2), 97–107. doi:10 . 1016 / S0169 7439(01)00154-X Henry, V. J., Bandrowski, A. E., Pepin, A.-S., Gonzalez, B. J. & Desfeux, A. (2014). OMICtools: an informative directory for multi-omic data analysis. Database : the journal of biological databases and curation, 2014. doi:10.1093/database/bau069 Hilario, M. & Kalousis, A. (2008). Approaches to dimensionality reduction in proteomic biomarker studies. Briefings in Bioinformatics, 9(2), 102–118. doi:10.1093/bib/bbn005 Hills, M. (1967). Discrimination and allocation with discrete data. Journal of the Royal Statistical Society. Series C (Applied Statistics), 16(3), 237–250. Hira, Z. M., Trigeorgis, G. & Gillies, D. F. (2014). An algorithm for finding biologically significant features in microarray data based on a priori manifold learning. PloS one, 9(3), e90562. doi:10.1371/journal.pone.0090562 Ho, K. & Scott, P. (1997). Zeta: A global method for discretization of continuous variables. V D. Heckerman, H. Mannila, D. Pregibon & R. Uthurusamy (Ur.), Proceedings of the third international conference on knowledge discovery and data mining (str. 191–194). Menlo Park, CA: AAAI Press. Hoerl, A. E. & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, 12(1), 55–67. Hoheisel, J. D. (2006 marec). Microarray technology: beyond transcript profiling and genotype analysis. Nature reviews. Genetics, 7(3), 200–10. doi:10.1038/nrg1809 Holte, R. (1993). Very simple classification rules perform well on most commonly used datasets. Machine Learning, 11(1), 63–90. Hotelling, H. (1933). Analysis of a complex of statistical variables into principal component. Journal of Educational Psychology, 24(6), 417–441. doi:10.1037/h0071325 Hristovski, D., Kastrin, A., Peterlin, B. & Rindflesch, T. C. (2010). Combining semantic relations and DNA microarray data for novel hypotheses generation. V C. Blaschke & H. Shatkay (Ur.), Linking literature, information, and knowledge for biology (Zv. 6004, str. 53–61). Lecture Notes in Computer Science. doi:10.1007/978-3-642-13131-8 Huang, E., West, M. & Nevins, J. R. (2003). Gene expression profiling for prediction of clinical characteristics of breast cancer. Recent Progress in Hormone Research, 58, 55–73. Hughes, G. (1968). On the mean accuracy of statistical pattern recognizers. IEEE Transactions on Information Theory, 14(1), 55–63. Ideker, T., Galitski, T. & Hood, L. (2001). A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics, 2, 343–72. doi:10.1146/ annurev.genom.2.1.343 Inza, I., Larrañaga, P., Etxeberria, R. & Sierra, B. (2000). Feature subset selection by Bayesian network-based optimization. Artificial Intelligence, 123(1-2), 157–184. doi:10. 1016/S0004-3702(00)00052-7 Ishikawa, M., Yoshida, K., Yamashita, Y., Ota, J., Takada, S., Kisanuki, H., . . . Mano, H. (2005). Experimental trial for diagnosis of pancreatic ductal carcinoma based on gene expression profiles of pancreatic ductal cells. Cancer Science, 96(7), 387–393. doi:10.1111/j.1349-7006.2005.00064.x Izenman, A. J. (2008). Modern multivariate statistical techniques: Regression, classification, and manifold learning. New York, NY: Springer. Jafari Koshki, T., Hajizadeh, E. & Karimi, M. (2013). A comparison of selective classification methods in DNA microarray data of cancer: some recommendations for application 212 Literatura in health promotion. Health promotion perspectives, 3(1), 129–134. doi:10.5681/hpp. 2013.015 Jain, A. K. & Dubes, R. C. (1988). Algorithms for clustering data. Upper Saddle River, NJ: Prentice Hall. Jain, A. K. & Duin, R. P. (2000). Statistical pattern recognition: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(1), 4–37. Jain, A. K. & Zongker, D. E. (1997). Feature selection: Evaluation, application, and small sample performance. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(2), 153–158. doi:10.1109/34.574797 James, G., Witten, D., Hastie, T. & Tibshirani, R. (2013). An introduction to statistical learning: With applications in R. New York, NY: Springer. Janssens, D., Brijs, T., Vanhoof, K. & Wets, G. (2006). Evaluating the performance of cost-based discretization versus entropy- and error-based discretization. Computers & Operations Research, 33(11), 3107–3123. doi:10.1016/j.cor.2005.01.022 Japkowicz, N. & Shah, M. (2011). Evaluating learning algorithms: A classification perspective. Cambridge, England: University Press. Jelizarow, M., Guillemot, V., Tenenhaus, A., Strimmer, K. & Boulesteix, A.-L. (2010). Over-optimism in bioinformatics: An illustration. Bioinformatics, 26(16), 1990–1998. doi:10.1093/bioinformatics/btq323 John, G. H., Kohavi, R. & Pfleger, K. (1994). Irrelevant features and the subset selection problem. V W. Cohen & H. Hirsh (Ur.), Proceedings of the 11th international conference on machine learning (str. 121–129). San Mateo, CA: Morgan Kaufmann. Johnson, R. A. & Wichern, D. W. (2007). Applied multivariate statistical analysis (6. izd.). Englewood Cliffs, NJ: Prentice Hall. Jolliffe, I. (2002). Principal component analysis. New York, NY: Springer. Juvan, P. & Rozman, D. (2006). Tehnologija DNA mikromrež in njena uporaba v medicini. Informatica Medica Slovenica, 11(1), 2–15. Kanehisa, M. & Goto, S. (2000). KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Research, 28(1), 27–30. doi:10.1093/nar/28.1.27 Kang, Y., Wang, S., Liu, X., Lai, H., Wang, H. & Miao, B. (2006). An ICA-based multivariate discretization algorithm. V J. Lang, F. Lin & J. Wang (Ur.), Knowledge science, engineering and management (Zv. 4092, str. 556–562). Lecture Notes in Computer Science. Berlin, Germany: Springer. doi:10.1007/11811220 Karlebach, G. & Shamir, R. (2008). Modelling and analysis of gene regulatory networks. Nature Reviews. Molecular Cell Biology, 9(10), 770–780. doi:10.1038/nrm2503 Kastrin, A. & Peterlin, B. (2010). Rasch-based high-dimensionality data reduction and class prediction with applications to microarray gene expression data. Expert Systems with Applications, 37(7), 5178–5185. doi:10.1016/j.eswa.2009.12.074 Kastrin, A., Rindflesch, T. C. & Hristovski, D. (2014). Large-scale structure of a network of co-occurring MeSH terms: Statistical analysis of macroscopic properties. PloS ONE, 9(7), e102188. doi:10.1371/journal.pone.0102188 Kauffmann, A., Rayner, T. F., Parkinson, H., Kapushesky, M., Lukk, M., Brazma, A. & Huber, W. (2009). Importing ArrayExpress datasets into R/Bioconductor. Bioinformatics, 25(16), 2092–2094. doi:10.1093/bioinformatics/btp354 Kégl, B. (2002). Intrinsic dimension estimation using packing numbers. V S. Becker, S. Thrun & K. Obermayer (Ur.), Advances in neural information processing systems (Zv. 15, str. 697–704). Cambridge, MA: MIT Press. 213 Literatura Kellert, S. H. (1994). Space perception and the fourth dimension. Man and World, 27(2), 161–180. doi:10.1007/BF01278961 Kelmansky, D. M. (2013). Where statistics and molecular microarray experiments biology meet. V A. Y. Yakovlev, L. Klebanov & D. Gaile (Ur.), Statistical methods for microarray data analysis (str. 15–35). New York, NY: Humana Press. Kendall, M. G. (2004). A course in the geometry of n dimensions. Mineola, NY: Dover Publications. Kerber, R. (1992). Chimerge: Discretization of numeric attributes. V P. Rosenbloom & P. Szolovits (Ur.), Proceedings of the 10th national conference of the american association for artificial intelligence (str. 123–123). Cambridge, MA: MIT Press. Khan, J., Wei, J. S., Ringnér, M., Saal, L. H., Ladanyi, M., Westermann, F., . . . Meltzer, P. S. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7(6), 673–679. doi:10.1038/ 89044 Kira, K. & Rendell, L. A. (1992). A practical approach to feature selection. V D. H. Sleeman & P. Edwards (Ur.), Proceedings of the ninth international workshop on machine learning (str. 249–256). San Francisco, CA: Morgan Kaufmann. Kirby, M. (2001). Geometric data analysis: An empirical approach to dimensionality reduction and the study of patterns. New York, NY: John Wiley & Sons. Kirk, M. (2015). Thoughtful Machine Learning. Sebastopol, CA: O’Reilly Media. Kitano, H. (2002). Systems biology: A brief overview. Science, 295(5560), 1662–1664. doi:10. 1126/science.1069492 Kohavi, R. & John, G. H. (1997). Wrappers for feature subset selection. Artificial Intelligence, 97(1-2), 273–324. doi:10.1016/S0004-3702(97)00043-X Koller, D. & Sahami, M. (1996). Toward optimal feature selection. V L. Saitta (Ur.), Proceedings of the 13th international conference on machine learning (icml-96) (str. 284– 292). San Francisco, CA: Morgan Kaufmann. Komel, R. (2005). Funkcijska genomika in sistemska biologija. V G. Anderluh, B. Zupan & J. Stare (Ur.), Prvo sreˇcanje slovenskih bioinformatikov (str. 1–4). Ljubljana: Fakulteta za raˇcunalništvo in informatiko. Kononenko, I. & Kukar, M. (2007). Machine learning and data mining: Introduction to principles and algorithms. Chichester, England: Woodhead Publishing. Kuhn, M. & Johnson, K. (2013). Applied predictive modeling. New York, NY: Springer. Kuner, R., Muley, T., Meister, M., Ruschhaupt, M., Buness, A., Xu, E. C., . . . Hoffmann, H. (2009). Global gene expression analysis reveals specific patterns of cell junctions in non-small cell lung cancer subtypes. Lung Cancer, 63(1), 32–8. doi:10.1016/j. lungcan.2008.03.033 Kuriakose, M. A., Chen, W. T., He, Z. M., Sikora, A. G., Zhang, P., Zhang, Z. Y., . . . Chen, F. A. (2004). Selection and validation of differentially expressed genes in head and neck cancer. Cellular and Molecular Life Sciences, 61(11), 1372–1383. doi:10.1007/ s00018-004-4069-0 Kyzas, P. A., Denaxa-Kyza, D. & Ioannidis, J. P. A. (2007). Almost all articles on cancer prognostic markers report statistically significant results. European Journal of Cancer, 43(17), 2559–2579. Laine, C., Goodman, S. N., Griswold, M. E. & Sox, H. C. (2007). Reproducible research: Moving toward research the public can really trust. Annals of Internal Medicine, 146(6), 450–453. 214 Literatura Landi, M. T., Dracheva, T., Rotunno, M., Figueroa, J. D., Liu, H., Dasgupta, A., . . . Jen, J. (2008). Gene expression signature of cigarette smoking and its role in lung adenocarcinoma development and survival. PloS ONE, 3(2), e1651. doi:10.1371/ journal.pone.0001651 Lee, C.-H. (2007). A Hellinger-based discretization method for numeric attributes in classification learning. Knowledge-Based Systems, 20(4), 419–425. doi:10 . 1016 / j . knosys.2006.06.005 Lee, J. W., Lee, J. B., Park, M. & Song, S. H. (2005). An extensive comparison of recent classification tools applied to microarray data. Computational Statistics & Data Analysis, 48(4), 869–885. doi:10.1016/j.csda.2004.03.017 Lee, J. A. & Verleysen, M. (2007). Nonlinear dimensionality reduction. New York, NY: Springer. Levina, E. & Bickel, P. J. (2005). Maximum likelihood estimation of intrinsic dimension. V L. K. Saul, Y. Weiss & L. Bottou (Ur.), Advances in neural information processing systems 17 (Zv. 17, str. 777–784). Cambridge, MA: MIT Press. Li, Q., Brown, J. B., Huang, H. & Bickel, P. J. (2011). Measuring reproducibility of highthroughput experiments. The Annals of Applied Statistics, 5(3), 1752–1779. Li, T., Zhang, C. & Ogihara, M. (2004). A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression. Bioinformatics, 20(15), 2429–2437. doi:10.1093/bioinformatics/bth267 Li, Y., Liu, L., Bai, X., Cai, H., Ji, W., Guo, D. & Zhu, Y. (2010). Comparative study of discretization methods of microarray data for inferring transcriptional regulatory networks. BMC Bioinformatics, 11, 520. doi:10.1186/1471-2105-11-520 Liu, H., Hussain, F., Tan, C. L. & Dash, M. (2002). Discretization: An enabling technique. Data Mining and Knowledge Discovery, 6(4), 393–423. Liu, H. & Motoda, H. (1998). Feature selection for knowledge discovery and data mining. New York, NY: Kluwer Academic Publishers. Liu, H. & Motoda, H. (2007). Computational methods of feature selection. Boca Raton, FL: Chapman & Hall. Liu, H., Motoda, H., Setiono, R. & Zhao, Z. (2010). Feature selection: An ever evolving frontier in data mining. Journal of Machine Learning Research, 10, 4–13. Liu, H. & Setiono, R. (1997). Feature selection via discretization. IEEE Transactions on Knowledge and Data Engineering, 9(4), 642–645. Liu, H. & Yu, L. (2005). Toward integrating feature selection algorithms for classification and clustering. IEEE Transactions on Knowledge and Data Engineering, 17(4), 491–502. doi:10.1109/TKDE.2005.66 Lu, H., Plataniotis, K. N. & Venetsanopoulos, A. (2014). Multilinear subspace learning: Dimensionality reduction of multidimensional data. Boca Raton, FL: CRC Press. Lustgarten, J. L., Gopalakrishnan, V., Grover, H. & Visweswaran, S. (2008). Improving classification performance with discretization on biomedical datasets. V J. Suermondt, R. S. Evans & L. Ohno-Machado (Ur.), Proceedings of the 2008 american medical informatics association (amia) annual symposium (str. 445–449). Washington, DC: American Medical Informatics Association. Lustgarten, J. L., Visweswaran, S., Gopalakrishnan, V. & Cooper, G. F. (2011). Application of an efficient Bayesian discretization method to biomedical data. BMC Bioinformatics, 12, 309. doi:10.1186/1471-2105-12-309 215 Literatura Ma, S. & Huang, J. (2008). Penalized feature selection and classification in bioinformatics. Briefings in Bioinformatics, 9(5), 392–403. doi:10.1093/bib/bbn027 Martens, H. (2001). Reliable and relevant modelling of real world data: A personal account of the development of PLS Regression. Chemometrics and Intelligent Laboratory Systems, 58(2), 85–95. Martens, H. & Næs, T. (1992). Multivariate calibration. Chichester, England: John Wiley & Sons. Mehta, T., Tanik, M. & Allison, D. B. (2004). Towards sound epistemological foundations of statistical methods for high-dimensional biology. Nature Genetics, 36, 943–947. Metzker, M. L. (2010 januar). Sequencing technologies - the next generation. Nature reviews. Genetics, 11(1), 31–46. doi:10.1038/nrg2626 Mitchell, T. M. (1997). Machine learning. New York, NY: McGraw-Hill. Morrison, D. F. (2004). Multivariate statistical methods (4. izd.). Boston, MA: Cengage Learning. Narendra, P. M. & Fukunaga, K. (1977). A Branch and Bound Algorithm for Feature Subset Selection. IEEE Transactions on Computers, C-26(9), 917–922. doi:10.1109/TC. 1977.1674939 Ng, A. Y. (2004). Feature selection, L1 vs. L2 regularization, and rotational invariance. V C. E. Brodley (Ur.), Proceedings of the 21st international conference on machine learning (icml-04) (str. 78). New York, NY: ACM. doi:10.1145/1015330.1015435 Nguyen, D. V. & Rocke, D. M. (2002a). Multi-class cancer classification via partial least squares with gene expression profiles. Bioinformatics, 18(9), 1216–1226. Nguyen, D. V. & Rocke, D. M. (2002b). Tumor classification by partial least squares using microarray gene expression data. Bioinformatics, 18(1), 39–50. doi:10.1093/ bioinformatics/18.1.39 Nicholson, J. K. & Lindon, J. C. (2008 oktober). Systems biology: Metabonomics. Nature, 455(7216), 1054–6. doi:10.1038/4551054a Nilsson, T., Mann, M., Aebersold, R., Yates, J. R., Bairoch, A. & Bergeron, J. J. M. (2010 september). Mass spectrometry in high-throughput proteomics: ready for the big time. Nature methods, 7(9), 681–5. doi:10.1038/nmeth0910-681 Oates, T. & Jensen, D. (1998). Large Datasets Lead to Overly Complex Models: An Explanation and a Solution. V R. Agrawal & P. Stolorz (Ur.), Proceedings of the fourth international conference on knowledge discovery and data mining (str. 294–298). Menlo Park, CA: AAAI Press. Obulkasim, A., Meijer, G. A. & van de Wiel, M. A. (2011 januar). Stepwise classification of cancer samples using clinical and molecular data. BMC bioinformatics, 12(1), 422. doi:10.1186/1471-2105-12-422 Pearl, J. (1988). Probabilistic reasoning in intelligent systems: Networks of plausible inference. San Francisco, CA: Morgan Kaufmann. Pearson, K. (1901). On lines and planes of closest fit to systems of points in space. Philosophical Magazine Series 6, 2(11), 559–572. doi:10.1080/14786440109462720 Peng, R. D. (2009). Reproducible research and Biostatistics. Biostatistics, 10(3), 405–408. doi:10.1093/biostatistics/kxp014 Peng, R. D. (2011). Reproducible research in computational science. Science, 334(6060), 1226–1227. doi:10.1126/science.1213847 Pensa, R., Leschi, C., Besson, J. & Boulicaut, J. (2004). Assessment of discretization techniques for relevant pattern discovery from gene expression data. V M. J. Zaki, 216 Literatura S. Morishita & I. Rigoutsos (Ur.), Proceedings of the 4th acm sigkdd workshop on data mining in bioinformatics (str. 24–30). Seattle, WA. Pescatori, M., Broccolini, A., Minetti, C., Bertini, E., Bruno, C., D’amico, A., . . . Ricci, E. (2007). Gene expression profiling in the early phases of DMD: a constant molecular signature characterizes DMD muscle from early postnatal life throughout disease progression. FASEB Journal, 21(4), 1210–26. doi:10.1096/fj.06-7285com Pettis, K. W., Bailey, T. A., Jain, A. K. & Dubes, R. C. (1979). An intrinsic dimensionality estimator from near-neighbor information. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-1(1), 25–37. doi:10.1109/TPAMI.1979.4766873 Pochet, N., De Smet, F., Suykens, J. A. K. & De Moor, B. L. R. (2004). Systematic benchmarking of microarray data classification: Assessing the role of non-linearity and dimensionality reduction. Bioinformatics, 20(17), 3185–95. doi:10.1093/bioinformatics/ bth383 Poincaré, H. (2009). Mathematics and science last essays. Charleston, SC: BiblioBazaar. Pomeroy, S. L., Tamayo, P., Gaasenbeek, M., Sturla, L. M., Angelo, M., McLaughlin, M. E., . . . Golub, T. R. (2002). Prediction of central nervous system embryonal tumour outcome based on gene expression. Nature, 415(6870), 436–442. doi:10.1038/415436a Potamias, G., Koumakis, L. & Moustakis, V. (2004). Gene selection via discretized geneexpression profiles and greedy feature-elimination. V G. A. Vouros & T. Panayiotopoulos (Ur.), Methods and applications of artificial intelligence (Zv. 3025, str. 256–266). Lecture Notes in Computer Science. Berlin, Germany: Springer. doi:10.1007/b97168 Press, W. H., Teukolsky, S. A., Vetterling, W. T. & Flannery, B. P. (1992). Numerical recipes in C: The art of scientific computing (2. izd.). Cambridge, England: University Press. Pyle, D. (1999). Data preparation for data mining. San Francisco, CA: Morgan Kaufmann. Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81–106. Quinlan, J. R. (1993). C4.5: Programs for machine learning. San Mateo, CA: Morgan Kaufmann. Rao, C. R. (1948). The utilization of multiple measurements in problems of biological classification. Journal of the Royal Statistical Society. Series B (Methodological), 10(2), 159–203. Rencher, A. C. & Christensen, W. F. (2012). Methods of multivariate analysis (2. izd.). Hoboken, NJ: John Wiley & Sons. Rindflesch, T. C. & Fiszman, M. (2003). The interaction of domain knowledge and linguistic structure in natural language processing: Interpreting hypernymic propositions in biomedical text. Journal of Biomedical Informatics, 36(6), 462–477. doi:10.1016/j.jbi. 2003.11.003 Ripley, B. D. (2008). Pattern recognition and neural networks. Cambridge, England: University Press. Roweis, S. T. & Saul, L. K. (2000). Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500), 2323–2326. doi:10.1126/science.290.5500.2323 Rucker, R. & Povilaitis, D. (1984). The fourth dimension: A guided tour of the higher universes. Boston, MA: Houghton Mifflin Company. Rueda, L. & Ali, A. (2014). Introduction to microarrays. V L. Rueda (Ur.), Microarray image and data analysis: theory and practice (str. 1–39). Boca Raton, FL: CRC Press. Ruiz, F., Angulo, C. & Agell, N. (2008). IDD: A supervised interval distance-based method for discretization. IEEE Transactions on Knowledge and Data Engineering, 20(9), 1230– 1238. doi:10.1109/TKDE.2008.66 217 Literatura Ruiz, R., Riquelme, J. C. & Aguilar-Ruiz, J. S. (2006). Incremental wrapper-based gene selection from microarray data for cancer classification. Pattern Recognition, 39(12), 2383–2392. doi:10.1016/j.patcog.2005.11.001 Ruschhaupt, M., Huber, W., Poustka, A. & Mansmann, U. (2004). A compendium to ensure computational reproducibility in high-dimensional classification tasks. Statistical Applications in Genetics and Molecular Biology, 3, Article37. doi:10.2202/1544-6115. 1078 Rustici, G., Kolesnikov, N., Brandizi, M., Burdett, T., Dylag, M., Emam, I., . . . Sarkans, U. (2013). ArrayExpress update—Trends in database growth and links to data analysis tools. Nucleic Acids Research, 41(Database issue), D987–D990. doi:10.1093/nar/ gks1174 Ryan, M. M., Lockstone, H. E., Huffaker, S. J., Wayland, M. T., Webster, M. J. & Bahn, S. (2006). Gene expression analysis of bipolar disorder reveals downregulation of the ubiquitin cycle and alterations in synaptic genes. Molecular Psychiatry, 11(10), 965–978. doi:10.1038/sj.mp.4001875 Sabates-Bellver, J., Van der Flier, L. G., de Palo, M., Cattaneo, E., Maake, C., Rehrauer, H., . . . Marra, G. (2007). Transcriptome profile of human colorectal adenomas. Molecular Cancer Research, 5(12), 1263–1275. doi:10.1158/1541-7786.MCR-07-0267 Saeys, Y., Abeel, T. & Peer, Y. (2008). Robust feature selection using ensemble feature selection techniques. V W. Daelemans, B. Goethals & K. Morik (Ur.), Machine learning and knowledge discovery in databases (Zv. 5212, str. 313–325). Lecture Notes in Computer Science. Berlin, Germany: Springer. doi:10.1007/978-3-540-87481-2 Saeys, Y., Inza, I. & Larrañaga, P. (2007). A review of feature selection techniques in bioinformatics. Bioinformatics, 23(19), 2507–2517. doi:10.1093/bioinformatics/ btm344 Saidi, S. A., Holland, C. M., Kreil, D. P., MacKay, D. J. C., Charnock-Jones, D. S., Print, C. G. & Smith, S. K. (2004). Independent component analysis of microarray data in the study of endometrial cancer. Oncogene, 23(39), 6677–6683. doi:10.1038/sj.onc. 1207562 Sanoudou, D., Corbett, M. A., Han, M., Ghoddusi, M., Nguyen, M.-A. T., Vlahovich, N., . . . Beggs, A. H. (2006). Skeletal muscle repair in a mouse model of nemaline myopathy. Human Molecular Genetics, 15(17), 2603–2612. doi:10.1093/hmg/ddl186 Sayers, E. W., Barrett, T., Benson, D. A., Bolton, E., Bryant, S. H., Canese, K., . . . Ye, J. (2012). Database resources of the National Center for Biotechnology Information. Nucleic Acids Research, 40(Database issue), D13–D25. doi:10.1093/nar/gkr1184 Schirmer, S. H., Fledderus, J. O., van der Laan, A. M., van der Pouw-Kraan, T. C. T. M., Moerland, P. D., Volger, O. L., . . . van Royen, N. (2009). Suppression of inflammatory signaling in monocytes from patients with coronary artery disease. Journal of Molecular and Cellular Cardiology, 46(2), 177–185. doi:10.1016/j.yjmcc.2008.10.029 Schölkopf, B., Smola, A. & Müller, K.-R. (1998). Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation, 10(5), 1299–1319. doi:10 . 1162 / 089976698300017467 Scholz, M., Kaplan, F., Guy, C. L., Kopka, J. & Selbig, J. (2005). Non-linear PCA: A missing data approach. Bioinformatics, 21(20), 3887–3895. doi:10.1093/bioinformatics/ bti634 Scott, D. W. (1992). Multivariate density estimation: Theory, Practice, and visualization. New York, NY: John Wiley & Sons. 218 Literatura Shipp, M. A., Ross, K. N., Tamayo, P., Weng, A. P., Kutok, J. L., Aguiar, R. C. T., . . . Golub, T. R. (2002). Diffuse large B-cell lymphoma outcome prediction by geneexpression profiling and supervised machine learning. Nature Medicine, 8(1), 68–74. doi:10.1038/nm0102-68 Shmulevich, I. & Zhang, W. (2002). Binary analysis and optimization-based normalization of gene expression data. Bioinformatics, 18(4), 555–565. doi:10.1093/bioinformatics/ 18.4.555 Siedelecky, W. & Sklansky, J. (1988). On automatic feature selection. International Journal of Pattern Recognition and Artificial Intelligence, 2(2), 197–220. Simon, H. A. (1996). The sciences of the artificial. Cambridge, MA: MIT Press. Singh, D., Febbo, P. G., Ross, K., Jackson, D. G., Manola, J., Ladd, C., . . . Sellers, W. R. (2002). Gene expression correlates of clinical prostate cancer behavior. Cancer Cell, 1(2), 203–209. Skalak, D. B. (1994). Prototype and feature selection by sampling and random mutation hill climbing algorithms. V W. Cohen & H. Hirsh (Ur.), Proceedings of the 11th international conference on machine learning (str. 293–301). San Mateo, CA: Morgan Kaufmann. Slawski, M., Daumer, M. & Boulesteix, A.-L. (2008). CMA: A comprehensive Bioconductor package for supervised classification with high dimensional data. BMC Bioinformatics, 9, 439. doi:10.1186/1471-2105-9-439 Smyth, G. K. (2005). Limma: linear models for microarray data. V R. Gentleman, V. Carey, W. Huber, R. Irizarry & S. Dudoit (Ur.), Bioinformatics and computational biology solutions using r and bioconductor (str. 397–420). New York, NY: Springer. Somogyi, R. & Sniegoski, C. A. (1996). Modeling the complexity of genetic networks: Understanding multigenic and pleiotropic regulation. Complexity, 1(6), 45–63. doi:10. 1002/cplx.6130010612 Spang, R., Zuzan, H., West, M., Nevins, J., Blanchette, C. & Marks, J. R. (2002). Prediction and uncertainty in the analysis of gene expression profiles. In Silico Biology, 2(3), 369–381. Speed, T. (2003). Statistical analysis of gene expression microarray data (1. izd.). Chapman in Hall/CRC. Stearman, R. S., Dwyer-Nield, L., Zerbe, L., Blaine, S. A., Chan, Z., Bunn, P. A., . . . Geraci, M. W. (2005 december). Analysis of orthologous gene expression between human pulmonary adenocarcinoma and a carcinogen-induced murine model. The American journal of pathology, 167(6), 1763–75. doi:10.1016/S0002-9440(10)61257-6 Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677–680. doi:10.1126/science.103.2684.677 Stirewalt, D. L., Meshinchi, S., Kopecky, K. J., Fan, W., Pogosova-Agadjanyan, E. L., Engel, J. H., . . . Radich, J. P. (2008). Identification of genes with abnormal expression changes in acute myeloid leukemia. Genes, Chromosomes & Cancer, 47(1), 8–20. doi:10. 1002/gcc.20500 Stone, M. & Brooks, R. (1990). Continuum regression: Cross-validated sequentially constructed prediction embracing ordinary least squares, partial least squares and principal components. Journal of the Royal Statistical Society. Series B (Methodological), 52(2), 237–269. 219 Literatura Stracuzzi, D. J. (2012). Randomized feature selection. V H. Liu & H. Motoda (Ur.), Computational methods of feature selection (str. 41–62). Boca Raton, FL: Chapman & Hall. Strøm, C. C., Kruhøffer, M., Knudsen, S., Stensgaard-Hansen, F., Jonassen, T. E. N., Orntoft, T. F., . . . Sheikh, S. P. (2004). Identification of a core set of genes that signifies pathways underlying cardiac hypertrophy. Comparative and Functional Genomics, 5(6-7), 459–470. doi:10.1002/cfg.428 Strunnikova, N., Hilmer, S., Flippin, J., Robinson, M., Hoffman, E. & Csaky, K. G. (2005). Differences in gene expression profiles in dermal fibroblasts from control and patients with age-related macular degeneration elicited by oxidative injury. Free Radical Biology & Medicine, 39(6), 781–796. doi:10.1016/j.freeradbiomed.2005.04. 029 Stumpf, M., Balding, D. J. & Girolami, M. (2011). Handbook of statistical systems biology. Chichester, England: John Wiley & Sons. Subramanian, A., Tamayo, P., Mootha, V. K., Mukherjee, S., Ebert, B. L., Gillette, M. A., . . . Mesirov, J. P. (2005). Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences, USA, 102(43), 15545–15550. doi:10.1073/pnas.0506580102 Swets, J. (1988). Measuring the accuracy of diagnostic systems. Science, 240(4857), 1285– 1293. doi:10.1126/science.3287615 Tabus, I., Rissanen, J. & Astola, J. (2003). Normalized maximum likelihood models for boolean regression with application to prediction and classification in genomics. V W. Zhang & I. Shmulevich (Ur.), Computational and statistical approaches to genomics (str. 173–189). New York, NY: Kluwer Academic Publishers. doi:10.1007/b101927 Takens, F. (1985). On the numerical determination of the dimension of an attractor. V B. L. J. Braaksma, H. W. Broer & F. Takens (Ur.), Dynamical systems and bifurcations (Zv. 1125, str. 99–106). Lecture Notes in Mathematics. Berlin, Germany: Springer. doi:10.1007/BFb0075630 Tenenbaum, J. B., de Silva, V. & Langford, J. C. (2000). A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500), 2319–2323. doi:10.1126/ science.290.5500.2319 Thomas, M., De Brabanter, K. & De Moor, B. (2014). New bandwidth selection criterion for Kernel PCA: approach to dimensionality reduction and classification problems. BMC bioinformatics, 15, 137. doi:10.1186/1471-2105-15-137 Tian, E., Zhan, F., Walker, R., Rasmussen, E., Ma, Y., Barlogie, B. & Shaughnessy, J. D. (2003). The role of the Wnt-signaling antagonist DKK1 in the development of osteolytic lesions in multiple myeloma. The New England Journal of Medicine, 349(26), 2483–2494. doi:10.1056/NEJMoa030847 Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society. Series B (Methodological), 58(1), 267–288. Tibshirani, R., Hastie, T., Narasimhan, B. & Chu, G. (2002). Diagnosis of multiple cancer types by shrunken centroids of gene expression. Proceedings of the National Academy of Sciences, USA, 99(10), 6567–6572. doi:10.1073/pnas.082099299 Tibshirani, R., Hastie, T., Narasimhan, B. & Chu, G. (2003). Class prediction by nearest shrunken centroids, with applications to DNA microarrays. Statistical Science, 18(1), 104–117. 220 Literatura Tillander, A. (2012). Effect of data discretization on the classification accuracy in a highdimensional framework. International Journal of Intelligent Systems, 27(4), 355–374. Torgerson, W. S. (1952). Multidimensional scaling: I. Theory and method. Psychometrika, 17(4), 401–419. doi:10.1007/BF02288916 Trunk, G. V. (1976). Statistical estimation of the intrinsic dimensionality of a noisy signal collection. IEEE Transactions on Computers, C-25(2), 165–171. doi:10.1109/TC.1976. 5009231 Tusher, V. G., Tibshirani, R. & Chu, G. (2001). Significance analysis of microarrays applied to the ionizing radiation response. Proceedings of the National Academy of Sciences, USA, 98(9), 5116–5121. doi:10.1073/pnas.091062498 Umek, L. (2011). Odkrivanje podskupin v podatkih z veˇc odvisnimi spremenljivkami (Doktorska disertacija, Univerza v Ljubljani, Ljubljana, Slovenija). Utgoff, P. E. (1989). Incremental induction of decision trees. Machine Learning, 4(2), 161–186. doi:10.1023/A:1022699900025 van Erp, K., Dach, K., Koch, I., Heesemann, J. & Hoffmann, R. (2006). Role of strain differences on host resistance and the transcriptional response of macrophages to infection with Yersinia enterocolitica. Physiological Genomics, 25(1), 75–84. doi:10. 1152/physiolgenomics.00188.2005 van Harmelen, F., Lifschitz, V. & Porter, B. (2008). Handbook of knowledge representation. Amsterdam, Netherlands: Elsevier Science. Varmuza, K. & Filzmoser, P. (2009). Introduction to multivariate statistical analysis in chemometrics. Boca Raton, FL: CRC Press. Venna, J. & Kaski, S. (2006). Local multidimensional scaling. Neural Networks, 19(6-7), 889–899. doi:10.1016/j.neunet.2006.05.014 Verleysen, M. (2003). Learning high-dimensional data. V S. Ablameyko, M. Gori, L. Goras & V. Piuri (Ur.), Limitations and future trends in neural computation (str. 141–162). Amsterdam, Netherlands: IOS Press. Verleysen, M. & François, D. (2005). The curse of dimensionality in data mining and time series prediction. V J. Cabestany, A. Prieto & F. Sandoval (Ur.), Computational intelligence and bioinspired systems (str. 758–770). Berlin, Germany: Springer. Verveer, P. & Duin, R. (1995). An evaluation of intrinsic dimensionality estimators. IEEE Transactions on Pattern Analysis and Machine Intelligence, 17(1), 81–86. doi:10.1109/ 34.368147 Wang, K. & Liu, B. (1998). Concurrent discretization of multiple attributes. V H.-Y. Lee & H. Motoda (Ur.), Pricai’98: topics in artificial intelligence (Zv. 1531, str. 250–259). Lecture Notes in Computer Science. Berlin, Germany: Springer. doi:10.1007/BFb0095252 Wang, X. (2012). Robust two-gene classifiers for cancer prediction. Genomics, 99(2), 90–95. doi:10.1016/j.ygeno.2011.11.003 Wang, X. & Simon, R. (2011). Microarray-based cancer prediction using single genes. BMC bioinformatics, 12, 391. doi:10.1186/1471-2105-12-391 Webb, A. R. & Copsey, K. D. (2011). Statistical pattern recognition (3. izd.). Chichester, England: John Wiley & Sons. Welsh, R. C., Jelsone-Swain, L. M. & Foerster, B. R. (2013 januar). The utility of independent component analysis and machine learning in the identification of the amyotrophic lateral sclerosis diseased brain. Frontiers in human neuroscience, 7, 251. doi:10.3389/ fnhum.2013.00251 221 Literatura West, M., Blanchette, C., Dressman, H., Huang, E., Ishida, S., Spang, R., . . . Nevins, J. R. (2001). Predicting the clinical status of human breast cancer by using gene expression profiles. Proceedings of the National Academy of Sciences, USA, 98(20), 11462–11467. doi:10.1073/pnas.201162998 Wiener, N. (1965). Cybernetics: Or the control and communication in the animal and the machine. Cambridge, England: MIT Press. Wille, A., Zimmermann, P., Vranová, E., Fürholz, A., Laule, O., Bleuler, S., . . . Bühlmann, P. (2004). Sparse graphical Gaussian modeling of the isoprenoid gene network in Arabidopsis thaliana. Genome Biology, 5(11), R92. doi:10.1186/gb-2004-5-11-r92 Wold, S., Ruhe, A., Wold, H. & Dunn, III, W. J. (1984). The collinearity problem in linear regression. The partial least squares (PLS) approach to generalized inverses. SIAM Journal on Scientific and Statistical Computing, 5(3), 735–743. doi:10.1137/0905052 Wu, B., Abbott, T., Fishman, D., McMurray, W., Mor, G., Stone, K., . . . Zhao, H. (2003). Comparison of statistical methods for classification of ovarian cancer using mass spectrometry data. Bioinformatics, 19(13), 1636–1643. doi:10.1093/bioinformatics/ btg210 Wu, X., Kumar, V., Ross Quinlan, J., Ghosh, J., Yang, Q., Motoda, H., . . . Steinberg, D. (2007). Top 10 algorithms in data mining. Knowledge and Information Systems, 14(1), 1–37. doi:10.1007/s10115-007-0114-2 Xie, Y. (2014). Dynamic documents with R and knitr. Boca Raton, FL: CRC Press. Yang, P. [Pengyi], Zhou, B. B., Yang, J. Y.-H. & Zomaya, A. Y. (2013). Stability of feature selection algorithms and ensemble feature selection methods in bioinformatics. V M. Elloumi & A. Y. Zomaya (Ur.), Biological knowledge discovery handbook: preprocessing, mining, and postprocessing of biological data (str. 333–352). Hoboken, NJ: John Wiley & Sons. doi:10.1002/9781118617151.ch14 Yang, P. [Ping], Li, J.-S. & Huang, Y.-X. (2011). HDD: A hypercube division-based algorithm for discretisation. International Journal of Systems Science, 42(4), 557–566. doi:10.1080/ 00207720903572455 Yang, Y. & Webb, G. I. (2003). On why discretization works for naive-Bayes classifiers. V T. D. Gedeon & L. C. C. Fung (Ur.), Ai 2003: advances in artificial intelligence (Zv. 2903, str. 440–452). Lecture Notes in Computer Science. Berlin, Germany: Springer. doi:10.1007/b94701 Yang, Y. & Webb, G. I. (2008). Discretization for naive-Bayes learning: Managing discretization bias and variance. Machine Learning, 74(1), 39–74. doi:10.1007/s10994-0085083-5 Yang, Y., Webb, G. I. & Wu, X. (2010). Discretization Methods. V O. Maimon & L. Rokach (Ur.), Data mining and knowledge discovery handbook (str. 101–116). New York, NY: Springer. Yao, Y., Richman, L., Morehouse, C., de los Reyes, M., Higgs, B. W., Boutrin, A., . . . Jallal, B. (2008). Type I interferon: Potential therapeutic target for psoriasis? PloS ONE, 3(7), e2737. doi:10.1371/journal.pone.0002737 Yao, Z., Jaeger, J. C., Ruzzo, W. L., Morale, C. Z., Emond, M., Francke, U., . . . Mulvihill, E. R. (2007). A Marfan syndrome gene expression phenotype in cultured skin fibroblasts. BMC Genomics, 8, 319. doi:10.1186/1471-2164-8-319 Yousefi, M. R., And, J. H. & Dougherty, E. R. (2011). Multiple-rule bias in the comparison of classification rules. Bioinformatics, 27(12), 1675–1683. 222 Literatura Yousefi, M. R., Hua, J., Sima, C. & Dougherty, E. R. (2010). Reporting bias when using real data sets to analyze classification performance. Bioinformatics, 26(1), 68–76. doi:10.1093/bioinformatics/btp605 Yu, L. & Liu, H. (2004). Efficient feature selection via analysis of relevance and redundancy. The Journal of Machine Learning Research, 5, 1205–1224. Yu, Y. P., Landsittel, D., Jing, L., Nelson, J., Ren, B., Liu, L., . . . Luo, J.-H. (2004). Gene expression alterations in prostate cancer predicting tumor aggression and preceding development of malignancy. Journal of Clinical Oncology, 22(14), 2790–2799. doi:10. 1200/JCO.2004.05.158 Zaki, M. J. & Meira, W. (2014). Data mining and analysis: Fundamental concepts and algorithms. New York, NY: Cambridge University Press. Zhang, M., Yao, C., Guo, Z., Zou, J., Zhang, L., Xiao, H., . . . Li, X. (2008). Apparently low reproducibility of true differential expression discoveries in microarray studies. Bioinformatics, 24(18), 2057–2063. Zhu, J., Rosset, S., Hastie, T. & Tibshirani, R. (2004). 1-norm support vector machines. V S. Thrun, L. K. Saul & B. Schölkopf (Ur.), Advances in neural information processing systems 16 (Zv. 16, str. 49–56). Cambridge, MA: MIT Press. Zhu, Z., Ong, Y.-S. & Kuo, J.-L. (2009). Feature selection using single/multi-objective memetic frameworks. V C.-K. Goh, Y.-S. Ong & K. C. Tan (Ur.), Multi-objective memetic algorithms (Zv. 171, str. 111–131). Studies in Computational Intelligence. Berlin, Germany: Springer. doi:10.1007/978-3-540-88051-6 223
© Copyright 2024