FAKULTETA ZA INFORMACIJSKE ŠTUDIJE V NOVEM MESTU DIPLOMSKA NALOGA UNIVERZITETNEGA ŠTUDIJSKEGA PROGRAMA PRVE STOPNJE ALEŠ HOČEVAR FAKULTETA ZA INFORMACIJSKE ŠTUDIJE V NOVEM MESTU DIPLOMSKA NALOGA ANALIZA IN PRIMERJAVA STATIČNIH LASTNOSTI OMREŽIJ PRIJATELJSTEV V SPLETIŠČU FACEBOOK S TEORETIČNIMI Mentor: izr. prof. dr. Janez Povh Novo mesto, september 2012 Aleš Hočevar IZJAVA O AVTORSTVU Podpisani Aleš Hočevar, študent FIŠ Novo mesto, v skladu z določili statuta FIŠ izjavljam: o da sem diplomsko nalogo pripravljal samostojno na podlagi virov, ki so navedeni v diplomski nalogi, o da dovoljujem objavo diplomske naloge v polnem tekstu, v prostem dostopu, na spletni strani FIŠ oziroma v digitalni knjižnici FIŠ: takoj, po preteku 12 mesecev po uspešnem zagovoru, ne dovoljujem objave na spletni strani oziroma v elektronski knjižnici FIŠ zaradi prepovedi organizacije, v sklopu katere je bil pripravljen empirični del naloge, o da je diplomska naloga, ki sem jo oddal v elektronski obliki, identična tiskani verziji, o da je diplomska naloga lektorirana. V Novem mestu, dne: ________________ Podpis avtorja: __________________ POVZETEK Analiza omrežij spada med interdisciplinarne vede, saj vključuje matematične, računalniške in družboslovne raziskovalne metode. Po eni strani mora odkriti zakonitosti, po drugi pa razlage, zakaj do njih prihaja. Navkljub različnim oblikam realnih omrežij pa imajo pogosto ta omrežja nekatere skupne značilnosti. V tej nalogi bomo preverili domnevo, da izmerjene lastnosti vzorca podomrežij prijateljstev spletnega socialnega omrežja Facebook sledijo nekaterim teoretičnim predpostavkam: (i) velikost in premer omrežja (pregled literatura navaja predpostavko, da je premer omrežja šest povezav), (ii) število in velikost komponent (literatura navaja, da povprečno omrežje sestavljata ena velika komponenta in več manjših) ter (iii) porazdelitev stopnje točk sledi potenčnemu zakonu. Za to potrebujemo množico podomrežij, ki jih bomo analizirali v programskem okolju R za statistično analizo in grafiko. KLJUČNE BESEDE: analiza omrežij, realna omrežja, lastnosti realnih omrežij, programski jezik R ABSTRACT Network analysis is an interdisciplinary discipline since it involves methods from mathematics, computer and social sciences. On one hand, it discovers regularities in networks while on the other hand explains the reasons behind them. Despite the various forms of real networks, they have some common characteristics. In this BSc thesis we will try to confirm the hypothesis that the observed sample of Facebook subnetwork has properties that follow basic theoretical assumptions, such as (i) the size and the diameter of the network (theory suggest an assumption that the diameter of the network is six), (ii) number and size of components (theory indicates that average network consists of one large and several smaller component) and (iii) degree distribution follows the power law. All this needs a large number of individual sub-networks, which will be analyzed using program R for statistical computing and graphics... KEY WORDS: network analysis, real networks, properties of real networks, R programming language KAZALO 1 2 3 UVOD................................................................................................................................. 1 TEORIJA GRAFOV .......................................................................................................... 2 ANALIZA OMREŽIJ ........................................................................................................ 6 3.1 Analize omrežij skozi čas ........................................................................................... 8 3.2 Analiza omrežij danes .............................................................................................. 10 3.3 Realna omrežja ......................................................................................................... 12 3.3.1 Lastnosti realnih omrežij.................................................................................. 12 3.3.2 Porazdelitev stopnje točk in potenčni zakon..................................................... 13 3.3.3 Velikost in premer omrežja............................................................................... 15 3.3.4 Število in velikost komponent ........................................................................... 17 3.4 Spletna družabna omrežja......................................................................................... 18 3.5 Socialna omrežja v Sloveniji .................................................................................... 22 3.6 Facebook................................................................................................................... 23 4 CILJI DIPLOMSKEGA DELA IN RAZISKOVALNE DOMNEVE ............................. 24 4.1 Raziskovalne domneve ............................................................................................. 25 4.2 Glavni rezultati diplomskega dela ............................................................................ 25 5 METODA ......................................................................................................................... 25 5.1 Opis parametrov vzorca................................................................................................ 26 5.2 Vzorec........................................................................................................................... 26 5.3 Postopek ....................................................................................................................... 28 5.3.1 Facebook Query Language (FQL) ................................................................... 28 5.3.2 Način pridobivanja podatkov ........................................................................... 28 5.4 Analiza podatkov...................................................................................................... 28 5.5 Metode za obdelavo podatkov.................................................................................. 29 5.5.1 Stoufferjeva metoda .......................................................................................... 29 5.5.2 Kolmogorov-Smirnov test ................................................................................. 29 6 REZULTATI .................................................................................................................... 29 6.1 Številske karakteristike............................................................................................. 30 6.2 Premer omrežja......................................................................................................... 34 6.3 Velikost velike komponente ..................................................................................... 36 6.4 Porazdelitev stopenj vozlišč ..................................................................................... 37 7 ZAKLJUČEK ................................................................................................................... 38 8 RAZPRAVA..................................................................................................................... 38 9 LITERATURA ............................................................. Napaka! Zaznamek ni definiran. 10 VIRI.............................................................................. Napaka! Zaznamek ni definiran. PRILOGE KAZALO SLIK Slika 2.1: Enostaven usmerjen graf z eno komponento ............................................................. 2 Slika 2.2: Podgraf prejšnjega grafa............................................................................................. 3 Slika 2.3: Graf z dvema šibko povezanima komponentama ...................................................... 3 Slika 2.4: Utežen graf ................................................................................................................. 3 Slika 2.5: Primer okvirja z ročaji................................................................................................ 5 Slika 3.1: Histogram porazdelitve stopenj točk v realnem omrežju......................................... 13 Slika 3.2: Binomska porazdelitev............................................................................................. 14 Slika 3.3: Dendrogram – drevo združevanja po minimalni metodi.......................................... 18 Slika 3.4: Razvoj večjih spletnih socialnih omrežij skozi čas.................................................. 21 Slika 6.1: Število vozlišč .......................................................................................................... 31 Slika 6.2: Število povezav ........................................................................................................ 31 Slika 6.3: Premer omrežja ........................................................................................................ 32 Slika 6.4: Velikost glavne komponente.................................................................................... 32 Slika 6.5: Povprečna stopnja točk............................................................................................. 33 Slika 6.6: Število komponent ................................................................................................... 33 Slika 6.7: Gostota omrežja........................................................................................................ 34 Slika 6.8: Porazdelitev najkrajših razdalj ................................................................................. 34 Slika 6.9: Cohenov koeficient .................................................................................................. 35 Slika 6.10: Odstotek vozlišč v glavni komponenti in število komponent ................................ 36 Slika 6.11: Porazdelitev povprečnih stopenj točk .................................................................... 38 KAZALO TABEL Tabela 5.1: Število pridobljenih datotek po državah uporabnikov........................................... 27 Tabela 6.1: Prikaz osnovnih opisnih karakteristik.................................................................... 30 Tabela 6.2: Prikaz osnovnih opisnih karakteristik glede na spol ............................................. 30 1 UVOD Analiza socialnih omrežij je interdisciplinarno znanstveno področje in obsega računalniške ter informacijske znanosti, statistiko, uporabno matematiko, znanosti o življenju (npr. biologija, kemija, bioinformatika) ter družboslovne (npr. sociologija) in humanistične (npr. jezikoslovje) znanosti (Wasserman in Faust, 1994). V zadnjih letih uporaba analize socialnih omrežij močno narašča, čemur so vsekakor doprinesli tudi internet, socialna spletna omrežja in programi za analizo (velikih) podatkovij. Pred razcvetom interneta so analize izdelovali predvsem teoretično, praktično pa na majhnem številu enot. Več avtorjev navaja (Blatt 2011, Chakrabarti in Faloutsos 2006, Clauset, Shalizi in Newman 2009, Kadushin 2004, Leskovec in Horvitz 2007, Newman 2004, Travers in Milgram 1959, Watts 2004), da obstajajo nekatere teoretične lastnosti, ki so skupne mnogim realnim in naključnim omrežjem. V nadaljevanju bomo opisali tri takšne lastnosti oziroma značilnosti. Prva značilnost je, da je premer omrežja (najdaljša najkrajša razdalja med poljubnima točkama omrežja) šest. To pomeni, da obstaja velika verjetnost, da je v velikem omrežju, med poljubnima paroma točk najkrajša razdalja šest. Povedano drugače – v povprečnem omrežju najbolj oddaljeni točki med seboj loči le pet vozlišč. Naslednja skupna lastnost je, da velika omrežja v večini primerov vsebujejo eno veliko komponento in več manjših. Skupna značilnost je tudi ta, da porazdelitev stopenj točk sledi potenčnemu zakonu. To pa pomeni, da ima mnogo vozlišč nizko stopnjo točk in da število točk z večanjem stopenj upada. Obstaja še nekaj skupnih značilnosti, katerih obravnava presega okvir tega dela. Bralec, ki ga bo problematika podrobneje zanimala, naj poseže po dodatni literaturi (npr. Sabidussi 1966, Ciglarič 2003, Leskovec 2008). Pregled empirične evidence kaže, da doslej ni še nihče analiziral te lastnosti na primeru prijateljstva v socialnem spletnem omrežju Facebook (v nadaljevanju FB). Naš osnovni raziskovalni cilj je zato raziskovalna (eksploratorna) analiza omrežja FB v luči prej naštetih lastnosti (premer omrežja, porazdelitev stopnje točk in število ter velikost komponent). 1 Pri raziskovanju odnosov med opazovanimi osebami je najnaravnejši način predstavitve le-teh z omrežji. Kot smo že omenili, socialna spletna omrežja ponujajo bogat vir podatkov, kjer opazovane osebe obravnavamo kot vozlišča, njihove odnose pa kot povezave. Tudi pridobivanje teh podatkov ni zapleteno. Eden od načinov je kupovanje podatkov, drugi je uporaba sekundarnih virov, lahko pa tudi sami zbiramo podatke, pri čemer udeležence prosimo, naj nam te podatke posredujejo. Primarnega zbiranja podatkov smo se lotili tudi sami. 2 TEORIJA GRAFOV Da bi v nadaljevanju sledili pojmom, je prav, da nekatere med njimi malo bolje spoznamo. Vseh pojmov je preveč, da bi jih zajeli v tej nalogi, omejili se bomo na tiste, ki jih bomo v raziskavi uporabili. Graf je množica točk in njihovih povezav v prostoru. Kadar graf nima zank (povezava, ki se začne in konča v isti točki) in večkratnih povezav (med dvema točkama je ena sama povezava), govorimo o enostavnem grafu, drugače pa o multigrafu. Pri usmerjenem grafu obstaja najmanj ena povezava, po kateri lahko pridemo iz točke A v točko B, iz točke B v točko A pa po isti povezavi ne moremo, smer povezave je pomembna. Drugače govorimo o neusmerjenem grafu. Slika 2.1: Enostaven usmerjen graf z eno komponento Vir: Lastni prikaz (2012) Podgraf je del grafa, kjer so točke iz podgrafa podmnožice točk iz grafa. Enako velja za povezave. Graf je povezan, če lahko iz poljubne točke pridemo do vsake druge točke v grafu, v nasprotnem primeru govorimo o nepovezanem grafu. Povezan graf ima eno samo komponento. Kadar graf ni povezan, govorimo o grafu z več komponentami. 2 Slika 2.2: Podgraf prejšnjega grafa Vir: Lastni prikaz (2012) Slika 2.3: Graf z dvema šibko povezanima komponentama Vir: Lastni prikaz (2012) Če lahko iz vsake točke skupine pridemo v vsako drugo točko te skupine in pri tem upoštevamo smer povezav, govorimo o krepko povezani komponenti, kadar pa smeri ne upoštevamo, govorimo o šibko povezani komponenti. Graf je neutežen, kadar ima vsaka povezava v grafu enako vrednost (primer grafa prijateljstva: si prijatelj, povezava obstaja, nisi prijatelj, povezava ne obstaja), v nasprotnem primeru (kadar merimo komunikacijo med prijatelji: poslano pošto, klepet itd) ima lahko vsaka povezava svojo vrednost in govorimo o uteženem grafu. Slika 2.4: Utežen graf Vir: Lastni prikaz (2012) 3 Omrežje je sistem povezanih enot (stvari ali ljudi), ki lahko med sabo komunicirajo. Omrežje je graf, obogaten s podatki. Običajno je omrežje utežen graf. Omrežje, sestavljeno iz dveh enot, imenujemo diada, iz treh pa triada. Stopnja točke nam pove število povezav, ki imajo točko za krajišče. Pri enostavnem grafu lahko rečemo, s koliko ostalimi točkami ima točka neposredno povezavo. Kadar omrežje naredimo sami z uporabo generatorja naključnih števil, največkrat s pomočjo računalnika, govorimo o naključnih, slučajnih omrežjih. Kadar pa omrežje nastaja spontano (recimo spletna socialna omrežja), govorimo o realnih omrežjih. Za premer omrežja je treba izračunati najkrajšo povezavo med pari točk, tj. za vsak par točk, koliko povezav potrebujemo, da pridemo iz ene točke do druge. Točki, ki sta po povezavah najbolj oddaljeni med seboj, določata premer omrežja. Premer omrežja seveda lahko izračunamo samo v eni komponenti (Povh 2011, Kastrin 2011). Gostota omrežja je razmerje med številom povezav in številom vseh možnih povezav. Torej več ko imamo povezav v omrežju, večja je gostota omrežja. V nadaljevanju bomo opisali srednje vrednosti (aritmetična sredina, harmonična sredina, geometrična sredina in mediana) (Wikipedia-5). Aritmetična sredina ali povprečje niza podatkov je v statistiki seštevek vseh vrednosti, razdeljen na skupno število teh vrednosti oziroma podatkov. Harmonična sredina je ponavadi primerna v primerih, ko je treba najti srednje vrednosti stopenj. Izračunamo jo tako, da število enot delimo z vsoto vseh obratnih vrednosti. Geometrična sredina je v matematiki n-ti koren zmnožka vseh elementov množice, kjer je n število elementov. Mediana je v matematiki srednja vrednost nekega zaporedja števil, ki razdeli števila, razvrščena po velikosti, na dve enaki polovici po številu elementov. Prednost mediane pred aritmetično sredino je ta, da osamelci (podatki, ki ekstremno odstopajo od ostalih podatkov) manj vplivajo na njeno vrednost. Za vse množice podatkov, ki vsebujejo vsaj en par neenakih vrednosti, je harmonična sredina vedno najmanjša, aritmetična sredina največja, geometrična sredina pa vmes. Če so vse vrednosti v neprazni množici podatkov enake, so sredine vedno enake med seboj (Wikipedia5). 4 Kvartili so vrednosti, ki razdelijo proučevane podatke populacije ali vzorca na štiri enake dele (Q1, Q2, Q3 in Q4). Seveda pa morajo biti podatki urejeni po velikosti (Wikipedia-6). Kvartili omogočajo prikaz strukture porazdelitve podatkov v obliki “okvir z ročaji” (box and whiskers plot, boxplot na kratko). Škatla sega od Q1 do Q3 in je predeljena v dva dela z mediano. Na obeh straneh škatli dodamo ročaja, daljici, ki segata od škatle do najmanjšega (največjega) podatka oziroma največ do 3/2kr. Ta nam pove velikost intervala, na katerem je zbrana osrednja polovica podatkov. Predstavlja eno izmed mer za razpršenost (raztros) podatkov. Kadar obstajajo podatki, ki so od škatle oddaljeni za več od 3kr/2 (kjer je kr = Q3−Q1 kvartilni razmik), te vrednosti imenujemo osamelci (outliners) in jih označimo npr. z majhnimi krožci (kot točke). Običajno preverimo, ali so vrednosti resnične, saj so tolikšna odstopanja izjemna in morda tudi posledica napak. Takšen strukturni prikaz s kvartili je ugoden za primerjavo porazdelitev statistične spremenljivke na različnih populacijah (npr. moški – ženske) (Lešnjak, 2010). Slika 2.5: Primer okvirja z ročaji Najvišja vrednost Najnižja vrednost Vir: Lastni prikaz (2012) Ker je vedno bolj jasno, da rezultati statističnih testov ne povedo tistega, kar od njih želimo, nastajajo vedno nove mere, ki naj bi raziskovalcem pomagale pri ugotavljanju praktične pomembnosti razlik med vzorci. Mere povezanosti lahko interpretiramo kot stopnjo povezanosti med odvisno in neodvisno spremenljivko. Pri standardiziranih razlikah med aritmetičnimi sredinami gre za prikaz razdalj med aritmetičnimi sredinami vzorcev v enotah določene standardne deviacije. Najbolj znane med njimi so Hedgesov g koeficient, Glassov ∆5 in Cohenov d, ki ga izračunamo tako, da razliko aritmetičnih sredin (M1 – M2) delimo s skupnim standardnim odklonom (SDSKUPNO), ki ga izračunamo iz dosežkov v vseh vzorcih skupaj (Cankar in Bajec, 2003). 5 d= (M1 − M 2 ) SDSKUPNO Vrednosti d okoli 0,2 naj bi predstavljale majhen učinek, srednje velik učinek 0,5 in vrednosti okoli 0,8 velik učinek. Te vrednosti lahko interpretiramo na dva načina. Pri prvem načinu interpretiramo, na katerem centilu kontrolne skupine se nahaja aritmetična sredina eksperimentalne skupine. Pri vrednosti d = 0,2 je to 58. centil. Pri d = 0,5 je to 69. centil. Pri d = 0,8 je to 79. centil. Centili nam v tem primeru povedo, koliko odstotkov posameznikov kontrolne skupine se nahaja pod aritmetično sredino eksperimentalne skupine. Pri drugem načinu pojasnimo, kolikšen del porazdelitve eksperimentalne skupine se prekriva s porazdelitvijo rezultatov kontrolne skupine. Tako je pri vrednosti d=0,2 v eksperimentalni skupini 85,3 % enakih rezultatov kot v kontrolni skupini, pri vrednosti d=0,5 so enaki 67 % rezultatov, pri vrednosti 0,8 pa 52,6 % rezultatov (Cankar in Bajec, 2003). Statistični testi predpostavljajo, da ničelna hipoteza veljavno opisuje parametre ene ali več populacij (M, SD, korelacije …), nato pa ocenjujejo verjetnost rezultatov, dobljenih na vzorcih (vzorčne M, SD, korelacije …) ali bolj ekstremnih, glede na velikost vzorca ob predpostavki, da ta vzorec izhaja iz populacije, za katero drži ničelna hipoteza. Rezultat statističnega testa bo statistično pomemben, kadar bo verjetnost, da izhaja vzorec iz populacije, kjer ničelna hipoteza popolnoma drži, enaka ali manjša od poljubno izbrane stopnje tveganja (Cankar in Bajec, 2003). V nadaljevanju še dodajata, da je v strokovni literaturi najpogostejša meja za statistično pomembnost rezultatov 5-odstotna stopnja tveganja (0,05). 3 ANALIZA OMREŽIJ Področje analize omrežij združuje vrsto statističnih, matematičnih in drugih metod, ki se ukvarjajo z analizo relacijskih podatkovij, tj. odnosov med enotami v omrežju. Prednost analize omrežij pred klasičnim načinom analize značilnosti enot oziroma spremenljivk (npr. spol, starost ali izobrazba) je opazovanje odnosov med enotami omrežij (npr. obstoj prijateljskih odnosov, sorodstvenih odnosov ali izmenjava socialne opore). Podatki za analizo socialnih omrežij se zbirajo na različnih ravneh analize. Preučujemo lahko enote ali člane omrežja in njihove povezave, diade in triade (podskupine dveh ali treh enot in povezave med njimi), skupine enot ali pa celotno omrežje. Zbiranje podatkov se razlikuje tudi glede na popolno in egocentrično omrežje. O popolnem omrežju govorimo, ko v medsebojno 6 povezani skupini enot (oseb) opazujemo vse pripadajoče relacije (odnose) – npr. prijateljski odnosi v srednješolskem razredu. O egocentričnem omrežju pa govorimo, ko opazujemo (slučajno) izbrane posamezne enote, ki jih imenujemo »egi« (angl. ego), in njihova osebna (lokalna ali egocentrična) omrežja, ki so sestavljena iz alterjev (angl. alters) – npr. osebna omrežja starostnikov. Pri zbiranju podatkov o popolnih socialnih omrežjih navadno vsi anketiranci poročajo o svojih relacijah z drugimi člani omrežja. Če pa je raven raziskovanja egocentrično omrežje, potem anketiranci (egi) poročajo zase in za člane (alterje) svojega egocentričnega omrežja (Zemljič in Hlebec, 2002). Obvladovanje relacijskih podatkov služi tudi kot osnova drugim znanstvenim področjem. Naj naštejemo samo nekatera (Wasserman in drugi, 2006). Epidemiologi so ugotovili, da se epidemije po populaciji ne širijo enakomerno. Fiziki so razvili aplikacije, ki so odgovorile na vprašanja, o katerih so dolga leta razglabljali znanstveniki. Raziskave v telekomunikacijah so se začele z vpogledi telefonskih uporabnikov za namen odkrivanja prevar. Zaradi velike pozornosti medijev za teroristične mreže se je število metodologov za to področje izjemno povečalo. Hlebec in Kogovšek (2006) ugotavljata, da analiza omrežij sega od zaposlitvene mobilnosti v organizacijah, raziskav o razširjanju drog in nalezljivih bolezni do razširjanja informacij in inovacij v neposrednih ali računalniško posredovanih komunikacijah. V politologiji in sociologiji je moč raziskovati povezave med različnimi političnimi in/ali drugimi akterji, kako prek teh povezav poteka proces političnega odločanja. Podobno velja za ekonomiste, ki so se s politologi in sociologi povezali in analizirali omrežje pri preučevanju nacionalnih elit. Na organizacijskem področju je mogoče raziskovati strukturo povezav znotraj organizacij (Hlebec in Kogovšek, 2006). Omrežje lahko opredelimo kot skupek vozlišč ali enot in odnosov (ali ne) med njimi. Glede na raziskovalni problem omrežja analiziramo na različnih ravneh, ki vključujejo posamezna vozlišča, delna omrežja (diade, triade in druge sistemske sklope) in sistem popolnega omrežja (Bristor in Ryan, 1987). Raziskovalci so opisali tri vrste omrežij (Kadushin, 2004): egocentrično, sociocentrično in odprti sistem (open-system). Egocentrično omrežje je omrežje, ki je zgrajeno okoli enega vozlišča (npr. moji dobri prijatelji). Pomembno je, da mora omrežje poleg seznama vozlišč vsebovati tudi informacijo o povezavah med vozlišči, v nasprotnem primeru analiza ni možna. Sociocentrična omrežja, imenovana tudi osebna komunikacija, so nekakšna »omrežja v 7 škatli« (npr. komunikacija med učenci v razredu). Pri odprtih sistemih pa so meje omrežja zabrisane (npr. povezave med podjetji), kjer ne moremo jasno določiti meje. Tako recimo imamo povezavo med dvema podjetjema, kjer ima vsako od teh podjetij svoje povezave do drugih podjetij in spet te do naslednjih. Meje je tukaj nemogoče določiti. Po svoje so to najzanimivejša omrežja, a hkrati tudi najtežja za preučevanje (Kadushin, 2004). Čeprav lahko ljudje dolgo časa vzdržujejo tudi stike na daljše razdalje z ljudmi, ki so jih kdaj prej osebno srečali, je bilo do nedavnega razmeroma nenavadno, da bi se prijateljstvo razvilo med ljudmi, ki se niso nikoli srečali v živo. Za razvoj prijateljstva je bila nujno potrebna fizična prisotnost, vsaj v začetni fazi. S sodobno tehnologijo in z razvojem komunikacij ter transporta pa so se možnosti ohranjanja in celo vzpostavljanja prijateljstev zelo povečala (Adams, 1998). Eden od dejavnikov za razvoj prijateljstva je torej geografska bližina. Drugi bi lahko bil skupni interes. Ljudi, ki imajo enak hobi, interes …, ponavadi druži posebno prijateljstvo. Znano sta prijateljstvo in solidarnost med lovci, ribiči ali železničarji. 3.1 Analize omrežij skozi čas Razvoj področja analize omrežij lahko razvrstimo v tri smeri (Scott, 1996): filozofska, antropološka in psihološka. Euler je leta 1736 razrešil problem, znan kot sedem mostov Koningsberga, ki ga je prevedel v matematični zapis kot točke in povezave, iz katerih je nato izpeljal nekaj dokazov. Njegovo idejo so nato mnogokrat povzeli tudi v drugih znanstvenih disciplinah. Zanimiv je tudi tako imenovani problem štirih barv, ki ga je leta 1852 prvi predstavil Guthrie, ko je ugotovil, da za barvanje grofij potrebujemo le štiri barve. Ugotovitev sta leta 1976, s pomočjo računalnika, dokazala Appel in Haken (1976). To je bil hkrati tudi eden prvih velikih teoremov z uporabo računalniške opreme. Pri samem dokazovanju tega problema pa so matematiki iznašli veliko osnovnih pojmov in zamisli s področja teorije grafov (Pisanski, 1981). Kohler in Koffko sta uveljavila novo smer v psihologiji, ki so jo poimenovali gestalt (smer, ki preučuje, kako deluje um v smislu dojemanja in strukture misli). Nekje v tem času so, pred vojno v Evropi, v ZDA prispeli tudi Heider, Lewin in Levy Moreno, ki so nadaljevali tradicijo gestalt (Scott, 1996). Moreno (Scott, 1996) je razvil metodo sociometrija. Učence je povpraševal, kdo so njihovi prijatelji, in raziskoval, kako jih relacija z drugimi omejuje oziroma bogati v njihovih 8 dejavnostih in kako vplivajo na njihovo vedenje. Tehniko zbiranja relacijskih podatkov je poimenoval sociogram – diagram točk in linij, ki predstavljajo odnose med osebami. Sociogram je uporabljal za prepoznavanje pomembnih oseb v družbi in osamelce, asimetrijo in vzajemnost pri izbiri prijateljstva. Med drugim je opazil tudi sociometrično zvezdo – posameznika, ki ga mnogo drugih izbere za prijatelja. Lewin (Scott, 1996) je preučeval skupine in obnašanje. Trdil je, da skupina in okolje medsebojno vplivata ena na drugo in da bi lastnosti lahko preučevali matematično z uporabo teorije vektorjev in topologije. Heider (Scott, 1996) je deloval na področju socialnih zaznav in razvil teorijo ravnovesja. Posameznik išče kognitivno ravnovesje tako, da zadrži tiste ideje, ki niso v nasprotju z drugimi, kar velja tudi v odnosu med ljudmi. Posebno pozornost je posvečal situaciji, kjer je ena oseba čustveno blizu drugima dvema, ki se med seboj ne marata. Napetost mora biti sproščena. Eden izmed načinov je izbira enega izmed njiju. Oseba, ki je čustveno blizu dvema, izbere enega izmed njiju. Harary in Cartwright (Scott, 1996) sta pokazala, da na koncu nujno privede do skupin, v katerih so vse vezi pozitivne, med skupinami pa so vezi negativne. V antropologiji je bil v prejšnjem stoletju največji poudarek na družbenih odnosih. RadcliffeBrown je preučeval odnose med zaposlenimi v podjetju, kako socialni status vpliva na odnose med posamezniki. Dolgo je veljalo, da so v predindustrijski družbi sorodstveni odnosi izredno kompleksni in pomembni. Druga razmerja, kot recimo prijateljstvo, pa so v industrijski družbi ravno tako pomembni (Scott, 1996). Werner, Mayo, Roethlisberger in Dickson (Mayo, 1949) so sredi 20. let prejšnjega stoletja ugotavljali, kako izboljšanje delovnih pogojev (povečanje svetlobe, ogrevanje, počitek …) vpliva na storilnost. Ugotovili so, da se s povečanjem katerega koli dejavnika poveča tudi storilnost, zato so se zadeve lotili tudi antropološko. Gledali so zaposlene skozi cel čas proizvodnje in bili še posebej pozorni na odnose med delavci. Opisali so koncept “neformalne organizacije” v organizaciji, ki ima ravno takšen učinek na storilnost kot drugi dejavniki. V 50. letih so raziskovalci na univerzi v Manchesterju začeli preučevati konflikte v skupinah, kako odnosi med ljudmi vplivajo ne samo na posameznika, ampak tudi na družbo kot celoto (npr. svojo kohezivnost). Granovetter (Scott, 1996) je spraševal ljudi, kako so prišli do zaposlitve, ki jo imajo. Večina jo je dobila prek stikov in ne prek časopisnih oglasov. Med 9 tistimi, ki so dobili službo prek osebnih stikov, je bil majhen delež tistih, ki so jo dobili od svojih sorodnikov ali najbližjih prijateljev. Večina jih je službo dobila s pomočjo znancev. Ta fenomen je pojasnjen s teorijo razširjenosti informacije v socialnem omrežju. To je bil tudi začetek analize socialnega omrežja. Zanimiva raziskava je bila narejena leta 1969, ko so bili splavi nelegalni, torej oglaševanja o tem ni bilo. Da bi našle zdravnike, so ženske spraševale svoje prijateljice in znance. V povprečju so bile do zdravnika potrebne štiri povezave (ženska – kontakt – kontakt – kontakt – zdravnik) (Scott, 1996). Wasseman in Faust (Wasserman in Faust, 1994) omenjata prvo uporabo besedne zveze socialna omrežja v letu 1954. V nadaljevanju dodajata Morenov sociogram iz zgodnjih 30. let prejšnjega stoletja, ki je pomenil začetek sociometrije (predhodnica analize socialnega omrežja z močno socialno psihologijo). Prvi, ki so uporabljali matrike za preučevanja socialnih omrežij z izvirnimi metodami, so bili Forsyth in Katz leta 1946, Luce in Pery leta 1949, Bock in Husain leta 1950 ter Harary in Norman leta 1953. Tudi antropologi, posebno britanski, so v 50. letih prejšnjega stoletja spoznali, da tradicionalni pristop opisovanja družbenih oblik ni dovolj za razumevanje vedenja posameznikov v zapletenih družbah (Wasserman in Faust, 1994). 3.2 Analiza omrežij danes Socialna omrežja, omrežja metrojev, vozni redi, elektroomrežja, telekomunikacijska omrežja itd. so lahko oblikovana kot zelo veliki in kompleksni grafi, ki so lahko zelo zanimivi in uporabni na področju marketinga, varnosti, psihologije ... Vse več zanimanja je za upravljanje in analiziranje podatkov ter podatkovno rudarjenje. Vendar pa z redkimi izjemami ti podatki ostajajo zaupne narave in je do njih težko priti. Pot do zbiranja podatkov pa je še vedno enostavna, zato je vprašanje varovanja osebnih podatkov še vedno pereč problem. Danes smo priča močnim središčem, ki razvijajo področje analize omrežij, med njimi so zlasti pomembni: • oddelek matematične sociologije na American Sociological Association (ASA), ki se ukvarja s spodbujanjem raziskav, njihovo krepitvijo in skrbjo, poučevanjem in ostalim strokovnim delom na področju matematične sociologije za razvoj sociologije in v korist družbe; 10 • Austrian Network for Social Network Analysis (ASNA) je omrežje ljudi, ki se ukvarja s socialnimi analizami omrežij za zainteresirane za uporabo sinergij, mreženja in medsebojne podpore; • Kimmo Soramaki, ki se ukvarja z raziskavami in razvojem programskih orodij za finančne analize omrežij in finančno stabilnost, predvsem s centralnimi bankami; • LINKS center (International center for research on social networks in business) na univerzi v Kentuckyju, posvečen študiju in optimizaciji socialnih omrežij v organizacijah na področju raziskav, izobraževanj, svetovanj in konferenc; • NetWiki, ki se ukvarja z zbiranjem podatkov in sodelovanjem na področju raziskav o kompleksnih omrežjih in z aplikacijami znanstvenih omrežij; • NodeXL (Network Overview, Discovery and Exploration for Excel). Skupina je razvila odprtokodni dodatek za Excel 2007 in 2010 za risanje grafov; • Quintus-ential Solutions je specializiran za analizo omrežij in vizualizacijo, posebno velikih podatkovnih baz na področju javnega zdravja; • MelNet, kjer so razvili program za izdelavo simulacije modela eksponentnega slučajnega grafa; • The Nuffield Network of Network Researchers je mednarodno usmerjena fakulteta na univerzi v Oxfordu, specializirana za družbene znanosti. To je eden od vodilnih evropskih centrov za analizo omrežja. • West Point Network Science Center združuje zaposlene, civiliste in kadete v raziskavah in razvoju pomembnih prispevkov pri študiju omrežij s področja fizičnih, bioloških in družbenih pojavov, s katerimi lahko predvidimo modele; • Social Network Image Animator (SONIA) je program, zasnovan na osnovi Jave, ki so ga na Univerzi Stanford razvili za vizualizacijo dinamičnih podatkov (poleg vozlišč in vezi so prikazani tudi podatki, kdaj se ti odnosi pojavijo ali vsaj njihov vrstni red) (INSNA). 11 3.3 Realna omrežja Omrežje je sistem povezanih enot (stvari ali ljudi), ki lahko med sabo komunicirajo. Omrežje je graf, obogaten s podatki. Običajno je omrežje utežen graf. Poznamo realna in naključna omrežja. Realna so večinoma tista, ki se generirajo sama (spletna socialna omrežja so lep zgled realnih omrežij), slučajna omrežja pa so tista, ki jih generiramo sami z uporabo generatorjev naključnih števil (npr. vozlišča so med seboj povezana glede na verjetnost povezave). Modele naključnih omrežij lahko v grobem razdelimo v pet skupin (Chakrabarti in Faloutsos, 2006): • naključni modeli omrežij (angl. random graph models) – Omrežja generiramo z naključnim procesom. Ti modeli so zanimivi predvsem zaradi lepih matematičnih lastnosti. Kljub temu da ne modelirajo najbolje realnega sveta, so jih v preteklosti podrobno preučevali; • modeli po načelu prednostne povezanosti (angl. preferential attachment models) – Ti modeli temeljijo na načelu »bogati bogatijo« (the rich get richer) in s tem pripeljejo do potenčnih zakonov v omrežju. V to skupino spada danes nekaj najzanimivejših modelov; • geografski modeli (angl. geographical models) – Pri teh modelih se pri generiranju omrežja upošteva tudi geografska lokacija vozlišč. To je še zlasti pomembno pri generiranju komunikacijskih omrežij. Vpliv geografske lokacije se opazi tudi pri socialnih omrežjih; • optimizacijski modeli (angl. optimization-based models) – Optimizacijski modeli skušajo optimizirati neko mero modela z uporabo čim manjšega števila sredstev, kar naj bi prav tako privedlo do potenčnih zakonov; • modeli, prilagojeni posebnostim interneta (angl. internet-specific models) – Ti modeli so prilagojeni posebnim lastnostim internetnega omrežja. 3.3.1 Lastnosti realnih omrežij Kadar imamo enostavno usmerjeno omrežje, v katerem je n vozlišč, je število možnih povezav med vozlišči n( n − 1) , kar pomeni, da je vsako vozlišče povezano z vsemi drugimi vozlišči (razen samo s seboj), kadar govorimo o neusmerjenem omrežju, pa je takih možnih 12 povezav za polovico manj (če obstaja povezava med vozliščema A in B, jo moramo šteti samo enkrat, bodisi povezave pri točki A bodisi pri točki B). Naključne grafe oziroma omrežja so raziskovalci podrobno preučevali in rezultati, tako približni kot eksaktni, so bili čvrsto dokazani. Zadnja leta pa je raziskovalce pritegnilo spoznanje, da večina omrežij realnega sveta ni podobna naključnim grafom. Realna omrežja so nenaključna in nekatera odkritja nakazujejo oba možna mehanizma, ki lahko tvorita omrežje. Obstaja nekaj značilnosti, ki se zdijo skupne različnim tipom realnih omrežij (Newman, 2004). 3.3.2 Porazdelitev stopnje točk in potenčni zakon Stopnja točke nam pove, koliko povezav kaže na točko oziroma gre iz te točke. Porazdelitev stopnje točk pa upošteva stopnje vseh točk v omrežju in jih razvrsti od najmanjše stopnje do največje po skupinah. Najmanjšo stopnjo točke imajo osamelci (otoki), ki nimajo povezav. Porazdelitev stopnje točk nam torej pove, koliko je takšnih točk, ki imajo stopnjo 0, koliko je takšnih, ki imajo stopnjo točk 1 … Slika 3.6: Histogram porazdelitve stopenj točk v realnem omrežju 14 13 12 11 10 število točk 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 stopnja točke Vir: Lastni prikaz (2012) Če pogledamo večje število histogramov realnih omrežij, ugotovimo, da so porazdelitve stopenj močno desno asimetrične in ne sledijo binomski porazdelitvi stopenj, ampak bolj potenčni porazdelitvi. 13 Slika 3.7: Binomska porazdelitev Vir: Lastni prikaz (2012) Potenčni zakon se pojavlja v mnogih primerih znanstvenega dela in ima pomembno vlogo pri razumevanje naravnih in umetnih pojavov. Na žalost pa je njegovo odkrivanje in raziskovanje zapleteno zaradi velikih nihanj, ki se pojavijo v repu porazdelitve. Poznamo zvezne porazdelitve, kjer so vrednosti izražene z realnimi števili, in diskretne porazdelitve, kjer so vrednosti lahko izražene običajno kot pozitivna cela števila (Clauset in drugi, 2009). Medtem ko je normalna porazdelitev v naravi zelo pogosta, obstaja mnogo primerov, kjer je verjetnost dogodkov bistveno višja kot po normalni porazdelitvi (pomaknjeno daleč v desno stran). Definicija 1: Dve spremenljivki (x in y) sta povezani s potenčnim zakonom, ko: y(x) = ax−γ kjer sta a in γ pozitivni konstanti. Konstanto γ pogosto imenujemo eksponent potenčnega zakona. Definicija 2: Diskretna slučajna spremenljivka X se porazdeljuje potenčno, kadar gostota verjetnosti sledi potenčnemu zakonu: P(X = x) = p(x) = Ax−γ , γ > 1, x ≥ xmin Dodatek γ > 1 zagotavlja, da se funkcija p(x) normalizira. V naravi se γ < 1 pojavi zelo redko, če sploh kdaj. Asimetrična porazdelitev, kakršna je potenčni zakon, se pojavlja zelo pogosto (Chakrabarti in Faloutsos, 2006). Denimo, da s pk označimo delež vozlišč, ki imajo v omrežju stopnjo k. Torej je pk verjetnost, da bo slučajno izbrano vozlišče imelo stopnjo k. Diagram pk za katero koli omrežje se lahko nariše v obliki histograma stopenj točk. Ta histogram prikazuje porazdelitev stopenj vozlišč. V naključnem grafu je vsaka povezava prisotna ali odsotna z enako verjetnostjo. Posledično porazdelitev stopnje točk v slučajnem grafu sledi binomski porazdelitvi. Za večino realnih 14 omrežij pa je ugotovljeno, da se porazdelitev stopnje točk razlikuje od naključnih. Porazdelitve stopenj točk so močno razpotegnjene v desno, kar pomeni, da ima porazdelitev dolg rep vrednosti, ki so nad povprečjem (Newman, 2004). Merjenje tega repa je nekoliko zapleteno. V teoriji nekdo lahko naredi histogram stopenj točk, v praksi pa ima le redko dovolj meritev za dobro statistično obdelavo repa. Obstajata dva načina, kako zaobiti to težavo. Eden je, da se naredi histogram, v katerem rang velikosti narašča s stopnjo. Na primer prvih nekaj stopenj lahko pokriva stopnje 1, 2-3, 4-7, 8-15 in tako naprej. Število vzorcev v posameznem rangu nato delimo s širino ranga, da dobimo normalizirane vrednosti. Alternativa tej metodi je kumulativna porazdelitev ∞ Pk = ∑ pk ' k '= k ki je verjetnost, da je stopnja večja ali enaka k. Prednost te metode je, da so zastopani vsi originalni podatki (pri prejšnji metodi se zaradi rangov prvotni podatki porazgubijo, dobimo samo povprečje). Slabost pa je, da nam neposredno ne prikaže porazdelitvene stopnje in posamezne točke na prikazu niso dovolj neodvisne, kar povzroča zapleteno korektno interpretacijo (Newman, 2004). 3.3.3 Velikost in premer omrežja Eden izmed empiričnih fenomenov, ki ga s klasično teorijo ne moremo pojasniti, je dejstvo, da je razdalja v omrežju velikokrat manjša od pričakovanj. Ta fenomen je verjetno prvi opisal Frigyes Karinthy v kratki zgodbi, imenovani »Verige«, v kateri teoretizira, da v sodobnem svetu razdalja med dvema osebama verjetno ni večja od petih oseb (Stam in Reijneveld, 2007). Ni presenetljivo, da so omrežja kompaktna (omrežja so majhne velikosti v linearnem smislu). Še več, razsežnosti te kompaktnosti so resnično osupljive. Termina small-worlds in smallworld-effect sta standardna v Milgramovi teoriji. Vzemimo navadno mrežo ali rešetko, kjer je vsako stičišče točka. Tukaj ni dvoma, kakšna je linearna velikost. Razdalja med dvema točkama v rešetki je Evklidska, torej lahko enostavno vzamemo merilo in izmerimo razdaljo. V omrežju so razdalje bolj kompleksne. Torej, kakšna je linearna velikost omrežja? (Dorogovtsev in Mendes, 2003). 15 Kot prvo, predpostavimo, da je omrežje neusmerjeno in da so vse povezave omrežja izražene v enotah. Tedaj je razdalja med dvema točkama omrežja enaka dolžini najkrajše poti med njima (geodezična razdalja med točkama). Razdalja l med paroma točk je izražena v funkciji P(l) kot verjetnost, da je najkrajša razdalja med dvema naključnima točkama enaka l. P(l) je ena glavnih strukturnih karakteristik omrežja in nam omogoča oceniti linearno velikost omrežja. Za hitro padajoče porazdelitve je značilna karakteristika povprečna (ali pričakovana) dolžina najkrajše poti: l ≡ Σ l l P(l ) Druga je dolžina najdaljše najkrajše poti, ki obstaja v omrežju (Dorogovtsev in Mendes, 2003). Milgram in Travers (1959) sta preizkusila domnevo o majhnem svetu. Izbrala sta 296 ljudi v Nebraski in Bostonu in jih prosila, naj s pomočjo svojih znancev ustvarijo poštno verigo do določene osebe v Massachutsettsu. Šestdeset pisem je prispelo na cilj, dovolj, da sta prišla do osupljivega podatka. Povprečno je pismo potovalo preko 5,2 osebe. Najenostavnejše vprašanje majhnega sveta je, “kolikšna je verjetnost, da se poljubna dva državljana ZDA med seboj poznata?” Bolj zanimiva formulacija vprašanja bi bila, da se ti dve osebi med seboj ne poznata neposredno, vendar pa imata skupne prijatelje. Še bolj splošno, ti dve osebi morda ne poznata istega prijatelja, ampak serijo vmesnih ljudi (Travers in Milgram, 1959). Če pogledamo neusmerjeno omrežje in definiramo l kot povprečno razdaljo med dvema točkama v omrežju, l= 1 ∑ 1 n(n + 1) i ≥ j 2 dij kjer je l povprečna razdalja v omrežju, dij najkrajša razdalja med točkama i in j. Opazimo lahko, da smo uporabili tudi razdaljo točke do same sebe, kar je seveda 0, in jo uporabili v povprečju. Zato lahko l pomnožimo z (n+1)/(n-1). Ta definicija je problematična v omrežjih z več kot eno komponento. V teh primerih obstajajo pari točk, ki nimajo povezav. V tem primeru take rezultate ne vključujemo v povprečje (Newman, 2004). 16 Skorajda vsak izmed nas je prišel v situacijo, ko se je srečal z neznancem in začel pogovor, a sta nato nepričakovano ugotovila, da imata skupnega znanca. Ponavadi pravimo, da je ta svet res majhen (»It's a small world«). Ta »small world« fenomen je posplošena verzija omenjene situacije. Tudi v primeru, ko dve osebi nimata skupnih prijateljev, je med njima le kratka veriga posrednikov (Watts, 2004). Vedno pa lahko najdemo izjeme, odvisno od naloge, ki si jo zadamo. Povezanosti igralcev NBA lige je raziskoval Ben Blatt (Blatt 2004). Sestavil je bazo vseh igralcev, ki so kdaj koli v 62-letni zgodovini lige zaigrali v njej. Naredil je matriko igralcev, v kateri je z 1 označil pare igralcev, ki sta kadar koli igrala v isti ekipi, in z 0 tiste pare igralcev, ki nista nikoli zaigrala v isti ekipi. Nato je meril, kakšen je premer omrežja. Ugotovil je, da je največji premer 8. Kot razlog za to število je navedel, da je bilo potrebnih več prehodov od igralcev, ki so začeli igrati nedavno, do tistih, ki so igrali na začetku lige. Leta 2007 sta Leskovec in Horvitz (Leskovec in Horvitz, 2007) preučevala komunikacijo prek Microsoft Messaging sistema, v kateri sta zajela 240 milijonov ljudi s 30 milijardami komunikacij. Med drugim sta ugotovila tudi to, da je povprečna dolžina poti 6,6. Ta rezultat pomeni, da je naključni par vozlišč v omrežju Messenger na razdalji 6,6. Nekateri zaradi tega že govorijo o "the seven degrees of separation" (Wikipedia-1). 3.3.4 Število in velikost komponent Obstaja več različnih metod za odkrivanje števila in velikosti komponent. Hierarhično združevanje je ena idealnejših, saj deluje na povezovanju v skupine glede na podobnost elementov v skupini, kar pomeni, da lahko združujemo elemente v skupino po metodi najbolj podobnih ali najmanj podobnih (minimalna ali maksimalna Evklidska razdalja). Pri metodi najbolj podobnih (Slika 3.3) združimo dva najbolj podobna elementa v novo skupino, ki sedaj postane nov element. Vse elemente znova primerjamo med seboj in združimo dva najbolj podobna. Postopek ponavljamo do zadnjega para (Wasserman in Faust, 1994). 17 Slika 3.8: Dendrogram – drevo združevanja po minimalni metodi Vir: Lastni prikaz (2012) Število in velikost komponent razberemo iz drevesa združevanja. Povezave, ki so najdaljše, pomenijo največjo razliko med elementi. In če povlečemo horizontalno črto v višino najdaljših povezav, vidimo, da seka štiri povezave. Naše omrežje lahko torej razdelimo v štiri komponente. Velikosti komponent dobimo tako, da preštejemo elemente, ki so pod določeno najdaljšo povezavo. V primeru na sliki 3.8 je omrežje sestavljeno iz ene večje komponente (na dendrogramu levo) in treh manjših. Newman (2004) podaja več vzrokov, zakaj bi se lahko omrežje razdelilo na več komponent, kot recimo skupni interes, starost, poklic in podobno. Vendar pa tehnike komponent ne smemo enačiti s tehniko združevanja podatkov, ki je način odkrivanja združevanj podatkov v visoko dimenzionalnih podatkovnih prostorih. Za način odkrivanja komponent pa tudi on izpostavlja dendrogram. 3.4 Spletna družabna omrežja Ljudje komuniciramo besedno (verbalno) in nebesedno (neverbalno). Strokovnjaki ocenjujejo (Pease, 1996), da ljudje pri komunikaciji v živo dojemamo samo 7 % prek verbalnih sporočil, ostala so neverbalna. Tudi znotraj verbalnega sporočila obstajajo neverbalna (jakost in ton glasu, premori, poudarki itd). Pri pisni komunikaciji, ki je primarno tudi verbalna, tudi obstajajo neverbalna sporočila (slike, grafi, barva in velikost črk, slog itd). Ker verbalno komuniciranje lažje obvladamo, so socialna spletna omrežja idealen prostor tudi za tiste, ki so v komunikaciji v živo nekoliko bolj zadržani. Kadar računalniško omrežje povezuje ljudi ali organizacije, govorimo o socialnem omrežju. Tako kot je računalniško omrežje skupek strojev, povezanih z nizom kablov, je socialno 18 omrežje množica ljudi (ali organizacij ali drugih družbenih subjektov), povezanih z vrsto socialnih odnosov, kot so prijateljstvo, sodelavci ali izmenjava informacij. Veliko raziskav se je osredotočalo na to, kakšna je povezava med ljudmi in njihovimi računalniki, kako dve osebi sodelujeta na spletu ali kako majhne skupine delujejo na spletu. Ko se je komunikacija prek računalnikov razširila, so analitiki morali preseči študije posameznih uporabnikov, dveh uporabnikov in njunih vezi. Analiza socialnih omrežij se osredotoča na odnose med ljudmi, organizacijami, državam itd. (Garton in drugi, 1997). Raziskovalci socialnih omrežij iščejo razlago za odnose v največji možni meri. Poskušajo odkriti vzorce v teh omrežjih, tok informacij (in drugih virov) in kakšne posledice imajo te povezave na ljudi in organizacije (Garton in drugi, 1997). Spletna socialna omrežja so večinoma namenjena vzdrževanju in širitvi prijateljstev, zato je prav, da besedo ali dve namenimo tudi pojmu prijateljstvo. Milivojević (2011) navaja, da sta pamet in ljubezen osnovna razloga, zaradi katerih je človeška vrsta zavladala našemu planetu. Zaradi ljubezni in čustvenega povezovanja so se lahko ljudje združevali v trdno povezane skupine. Skupina je bila velika evolucijska prednost, saj je bilo v njej mogoče doseči vse, česar posameznik ni zmogel. En sam človek ni mogel ubiti mamuta ali si zgraditi domovanja, skupina pa je to zmogla. Sile, ki so povezovale skupino, so bile različne oblike ljubezni. Poleg ljubezni, ki je obstajala med ljudmi v sorodu, je bila pri tem nadvse pomembna ljubezen, ki ji pravimo prijateljstvo. Prijateljstvo je zelo pomemben medčloveški odnos. Poleg partnerske ljubezni je to najtrdnejša čustvena vez, ki jo vzpostavimo z ljudmi, s katerimi nismo v sorodu. Prijateljstvo velja za osnovni odnos in model za širšo kategorijo odnosov, ki jim pravimo prijateljski odnosi. To pomeni, da za vzpostavitev prijateljskega odnosa ni nujno, da smo prijatelji, saj smo lahko v prijateljskem odnosu tudi z neznanci ali celo z ljudmi, ki jih sploh nismo spoznali v živo (Milivojević, 2011). Raziskovalci na Univerzi Stanford pod vodstvom Leskovca so razvili algoritem, s pomočjo katerega lahko napovedujejo časovni razvoj prijateljstev na spletnih socialnih omrežjih. Torej lahko sklepamo, da kdo bo naš naslednji prijatelj, ni tako naključno, kot si mislimo (Zeitler, 2011). Spletna socialna omrežja definiramo kot spletne storitve, ki omogočajo posameznikom, da: • naredijo javen ali na pol javen profil v omrežju, • izoblikujejo seznam uporabnikov, s katerimi si delijo povezavo, in 19 • imajo pregled nad njihovim seznamom povezav, kakor tudi seznamom povezav drugih oseb v sistemu. Izraza spletno socialno omrežje in spletno socialno mreženje sta sopomenki (Boyd in Ellison, 2007). Na spletu je moč najti veliko spletnih omrežij, ki se razlikujejo po interesih, uporabi, možnostih itd., vsa pa imajo isti cilj – spoznavati nove ljudi in ohranjati odnose z že poznanimi. Smisel obstoja spletnega omrežja se lahko tudi spremeni oziroma dopolni. Omrežje je bilo morda narejeno za določeno skupino ljudi (npr. študente iste fakultete), ki se kasneje razširi na celotno prebivalstvo. Po mojih lastnih izkušnjah imajo socialna spletna omrežja tako dobre kot slabe lastnosti. Dobra je predvsem ta, da je v večini primerov uporaba brezplačna, dostopnost in komunikacija raznolika in drugo. Največja slabost spletnih socialnih omrežij je zagotovo varnost podatkov. Obstaja tudi nevarnost zasvojenosti z uporabo določenih aplikacij. Morda je slabost tudi ta, da se spletno oglaševanje seli tudi na socialna spletna omrežja in z reklamnimi sporočili zasedajo velik del prostora na zaslonu, hkrati pa se podatke uporabnikov za primerno ceno posreduje organizacijam, ki nato izvedejo oglaševanje za ciljno populacijo. Verjetno podatkov nikoli ne izbrišejo. Nevarnost predstavljajo tudi znanci, sorodniki in prijatelji, ki brez odobritve objavljajo informacije in slike drugih oseb. Sicer pa vedno obstaja možnost, da prek spleta ne komuniciramo s tistim, za katerega mislimo, da je naš sogovornik, izjemi sta glasovni ali videoklepet. Svoj profil na socialnih spletnih omrežjih zelo težko izbrišemo. Ponavadi z opcijo izbris svoje podatke samo naredimo nedostopne, na strežniku pa še vedno obstajajo. Za popoln izbris je potrebno kontaktirati uradne predstavnike omrežja ali pa izpolniti poseben obrazec. Seveda pa slabost lahko postane prednost in obratno, odvisno od zornega kota, iz katerega gledamo nanj. Spletno socialno omrežje je spletna stran, ki omogoča komunikacijo med njenimi uporabniki. Med prva spletna mesta, ki so začele graditi spletno skupnost, sodi spletišče Classmates.com, ki je začelo s svojim delovanjem leta 1995. Prvo pravo omrežno storitev, ki je povezala določene kroge uporabnikov in začela graditi pravo socialno omrežje, je leta 2002 ponudilo spletišče Friendster. Spoznavanje novih prijateljev, izmenjava mnenj, objavljanje fotografij ter videoposnetkov so storitve, ki jih je uspešno nadgradila platforma Myspace. Primat spletnega socialnega omrežja z video vsebinami je prevzelo spletno socialno omrežje YouTube, ki ga dnevno obišče več kot dve milijardi uporabnikov. Tudi velikan Google se je 20 odločil vstopiti v svet socialnih omrežij z aplikacijo Google+, za katerega predvidevamo uspeh zaradi integracije z aplikacijama gmail in google chat. Trenutno je eno najpopularnejših socialnih spletnih omrežij Facebook, ki ga bomo opisali v nadaljevanju. Slika 3.9: Razvoj večjih spletnih socialnih omrežij skozi čas Vir: Boyd in Ellison (2007) Analiza socialnih omrežij se večinoma naslanja na lastne vire, podatke, zbrane s pomočjo intervjujev in vprašalnikov. Zbiranje takšnih podatkov je zamudno in drago, zato so raziskave omejene na majhno število ljudi (običajno manj kot 100). Pojav sodobnih spletnih aplikacij omogoča analizo velikega števila podatkov, ki so na voljo, vendar pa obstajajo nastavitve, ki nam otežujejo dostop do podatkov celotnega omrežja. Nekatere podatke pa je skorajda nemogoče zbrati (primer uporabe drog ali spolna usmerjenost posameznika). Take podatke se običajno zbira z opazovanjem (Leskovec in Myers, 2010). 21 Vse več socialnih spletnih omrežij zahteva resnične podatke (ime in priimek) in razvijajo načine za odkrivanje psevdonimov in lažnih imen. Mnogo kritik gre na ta račun, saj je v nekaterih državah nevarno izpostavljati stališča, ki so v nasprotju z večinskimi, vendar za sedaj lastnikov socialnih spletnih omrežij še niso prepričali. Nekateri uporabljajo zgolj zbiranje prijav drugih uporabnikov, medtem ko drugi razvijajo aplikacije, ki omogočajo preverjanje identitete. Eden izmed načinov je, da vpišete svojo mobilno številko, na katero vam pošljejo kodo, nato pa to kodo vpišete v potrditveni obrazec na spletu. Ko imajo potrjeno vašo mobilno številko, lahko prek spletnih imenikov preverjajo resničnost vaših podatkov, kot denimo ime in priimek ter naslov. Naslednji način je odkrivanje ponarejenih profilov s primerjanjem slik. Obstajajo aplikacije, kot je TinEye, ki je imela septembra 2011 v bazi več kot dve milijardi fotografij. Aplikacija je brezplačna, naložite sliko ali spletni naslov in z indeksiranjem poišče fotografije v svoji bazi. Zadetke potem preverite in vidite, če so res od osebe, ki se predstavlja, da je (www.tineye.com). Ni popolnoma jasno, kako zasebnost in zaupanje vplivata na socialno vzajemno delovanje s socialnimi mrežnimi stranmi. T.i. online anketa dveh razširjenih spletnih strani (Facebook in MySpace) glede dojemanja zaupanja in zasebnosti je zaskrbljujoča vsaj glede voljnosti delitve informacij in širitve novih poznanstev. Uporabniki Facebooka so izrazili večje zaupanje portalu in njegovim uporabnikom in so bili pripravljeni deliti več osebnih informacij. Uporabniki MySpacea pa so izkazali več izkušenj pri spoznavanju novih oseb. Ti rezultati so napeljevali na to, da zaupanje ni nujno za novo prijateljstvo, kot je to iz oči v oči. Pokazalo se je tudi, da zaupanje in voljnost razkrivanja osebnih podatkov ne pomenita avtomatično tudi sklepanja novih prijateljstev. Ta študija demonstrira, da se t.i. online odnos lahko razvije na strani, kjer je zaščita zasebnosti slaba (Dwyer in drugi, 2007). 3.5 Socialna omrežja v Sloveniji V Sloveniji nimamo tipičnih poslovno usmerjenih socialnih mrež, kot je LinkedIn. Kljub vsemu velja omeniti zaposlitveni portal MojeDelo.com. Po drugi strani je v Sloveniji veliko izjemno popularnih socialnih mrež, namenjenih zabavi in druženju. Kot recimo GlasujZame.com, FrendiInFlirt.24ur.com, Ona-on.net, Ona-on.com in www.zveze.net. 22 Rezultati kažejo, da ima približno 60 % anketirancev oblikovan profil na vsaj enem od številnih spletnih socialnih omrežij (n = 1124) (Vehovar in drugi, 2011). 3.6 Facebook Socialno omrežje Facebook, ki je zagledalo luč sveta leta 2004, se je, sodeč po številu uporabnikov, z več kot 750 milijoni rednih uporabnikov prelevilo v eno najbolj priljubljenih spletnih socialnih omrežij na svetu. Omrežje nudi široko paleto storitev, kot so npr. iskanje prijateljev, pošiljanje sporočil, objavljanje slik in komentarjev, uporaba spletnih aplikacij, igre itd. Med vsemi aktualnimi spletnimi socialnimi omrežji (npr. Twitter, Myspace itd.) ima Facebook trenutno največ registriranih uporabnikov. Facebook omrežje prijateljev je realno omrežje, saj enote in relacije med njimi zrcalijo realne odnose med uporabniki storitve. Omrežje Facebook je zasnovano tako, da nekdo vpraša nekoga, če ga ta potrdi kot prijatelja in v primeru potrditve se naredi recipročna povezava, kar pomeni, da je Facebook neusmerjen graf. Če je oseba A prijatelj osebe B, je tudi oseba B prijatelj osebe A. Torej je Facebook neusmerjeno omrežje. Besedo facebook uporabljajo ameriške univerze za album, v katerem so slike in imena študentov, da bi se med seboj lažje spoznali. V začetku 21. stoletja so začele nekatere univerze te facebooke objavljati na spletu. Leta 2003 je študent Harvarda Mark Zuckerberg napisal Facemash, ki je te slike s spleta postavljal po dve in dve skupaj in spraševal, katera slika je boljša. V prvih nekaj urah je privabil 450 obiskovalcev, ki so pogledali 22.000 fotografij. Univerza ga je hotela tožiti zaradi kršenja varnosti, avtorskih pravic in zasebnosti, zaradi česar mu je grozila izključitev s fakultete. Tožbo so nato umaknili, Mark pa je naredil spletno stran z okoli petstotimi fotografijami, kjer je bila vsaka na svoji strani skupaj s poljem za komentarje. Naslednje leto je odprl stran »Thefacebook«, za katero je dobil navdih pri sodelovanju vzpostavitve nekega drugega socialnega omrežja, katerega lastniki so ga tudi tožili, vendar so dosegli poravnavo. Članstvo je bilo sprva omejeno samo na Harvard in že v prvem mesecu je bilo vpisanih več kot polovica dodiplomskih študentov. Kmalu se je razširil na Stanford. Leta 2005 so kupili domeno »Facebook.com« za 200.000 US$ in izpustili »The« iz imena. Mark je obdržal 24odstotni lastniški delež (Wikipedia-4). Facebook dobi večino prihodkov od oglaševanja. V drugem četrtletju leta 2012 so prodali za 992 milijonov dolarjev reklamnega prostora, kar je 84 odstotkov vseh prihodkov in za 28 23 odstotkov več kot v drugem četrtletju lani. Facebook je imel 30. junija 955 milijonov aktivnih uporabnikov, kar je za 29 odstotkov več kot lani ob enakem času (Časopis Dnevnik). Julija 2011 je bilo na straneh facebook.com registriranih 657.520 uporabnikov, ki so navedli državo bivanja Slovenijo, kar predstavlja 32,82 % celotne populacije in 50,64 % uporabnikov internetnih storitev. Od 213 držav, ki jih SocialBakers spremlja, zaseda Slovenija 85. mesto po številu prijavljenih uporabnikov. Če je še pred tremi meseci število uporabnikov naraslo za skoraj 2 odstotka, pa v mesecu juliju 2011 beležijo 0,29-odstotni padec (Socialbakers). Vendar pa Facebook šteje tudi tiste, ki jih ni več med nami. Znani so primeri, ko je oseba že dalj časa mrtva, profil na Facebooku pa živi še naprej. Sam obstoj profila je logičen, vendar pa zna biti marsikdo šokiran, ko mu Facebook priporoča, da bi določena oseba znala biti kandidat za prijatelja, za katerega pa ve, da ga ni več med nami. Facebook sicer ima obrazec, ki ga je treba izpolniti in priložiti nekakšen dokaz, da osebe ni več, nato profil postane v spomin na to osebo. Vendar pa obrazce malokdo izpolnjuje, z izjemo za slavne oziroma bolj znane ljudi. Kako popularen je Facebook, nam pove nekaj podatkov z začetka leta 2011. Prvi konec tedna leta 2011 (1. in 2. januar 2011) je bilo na Facebook naloženih kar 750 milijonov fotografij. V povprečju se v dvajsetih minutah objavi milijon povezav, pošlje poldrugi milijon povabil na dogodke, spremeni skoraj dva milijona stanj na zidovih uporabniških profilov, sprejme dva milijona povabil za prijateljstvo, naloži skoraj tri milijone fotografij in sporočil, napiše več kot deset milijonov komentarjev (Računalniške novice 2011). Če se to zgodi v času dvajsetih minut, potem si niti ne moremo predstavljati, koliko informacij se nahaja na Facebooku. To je pravi magnet za raziskovalce. Z raziskovalnega vidika ponuja FB omrežje prijateljev domala neomejen vir relacijskih podatkov, ki jih potrebujemo za preizkušanje obstoječih teoretičnih modelov o strukturi in dinamiki realnih omrežij kot tudi za razvijanje novih. 4 CILJI DIPLOMSKEGA DELA IN RAZISKOVALNE DOMNEVE Pregled empirične evidence kaže, da se z analizo FB omrežja prijateljev raziskovalci še niso intenzivno ukvarjali. Zlasti niso sistematično preverili predpostavk, ali statične lastnosti (majhen premer omrežja, potenčna porazdelitev stopenj točk omrežja, št. in velikost 24 komponent) veljajo tudi v FB omrežju prijateljstev. Opaziti je, da so se vse analize do sedaj omejevale na enem velikem omrežju. Cilj diplomskega dela je zajeti oziroma pridobiti čim več Facebook omrežij prijateljstev in na njih izvesti prvo sistematično analizo statičnih lastnosti realnih omrežij na Facebook omrežju prijateljstev. Vsako omrežje prijateljev bomo analizirali, nato pa tiste rezultate, ki so za to primerni, povprečili in jih primerjali s teoretičnimi vrednostmi. 4.1 Raziskovalne domneve Raziskovalne domneve, ki jih bomo preverili, so: • povprečna najkrajša razdalja med poljubnima prijateljema v Facebook omrežju prijateljev je okoli 6; • porazdelitev stopenj vozlišč Facebook omrežja prijateljev sledi potenčni porazdelitvi in • Facebook omrežje prijateljev sestavljajo ena velika komponenta in več manjših komponent. 4.2 Glavni rezultati diplomskega dela Glavni rezultati diplomskega dela so: • prva sistematična analiza Facebook omrežja prijateljstev; • rezultate dela bomo v okviru študentske sekcije predstavili na mednarodni konferenci ITIS2012 (http://itis2012.fis.unm.si); • rezultate dela bomo v soavtorstvu objavili v tuji znanstveni reviji s faktorjem vpliva in • rezultati dela bodo služili kot osnova za poglobljeno analizo statičnih in dinamičnih lastnosti spletnih socialnih omrežij, s katero se ukvarjajo raziskovalci v Laboratoriju za podatkovne tehnologije na Fakulteti za informacijske študije. 5 METODA Kvantitativne metode temeljijo na predpostavki, da je najboljša pot do razumevanja osnovnih vzorcev in odnosov preučevanja pojavov na velikem številu primerov (enot). Če se omejimo 25 le na en primer ali majhno število primerov, lahko dobimo zelo popačeno sliko pojava. Opazovanje velikega števila enot omogoči povzemanje posebnosti posameznih enot in oblikovanje slike družbenega življenja, iz katere so izločeni pojavi, značilni zgolj za posamezen primer ali za majhno skupino primerov. Ostane torej le splošni vzorec (Ragin, 2007). Zbiranje naših podatkov je omejeno samo na uporabnike socialnega spletnega omrežja Facebook, ki jih je v času nastajanja diplomske naloge več kot 750 milijonov. Raziskovalci so pogosto v skušnjavi pri načrtovanju in postavljanju vprašanj, ki jim bodo omogočila izmeriti verodostojnost odgovorov ali pa samo ugotavljala prisotnost ali odsotnost odgovarjajočih. Uporaba nedihotomnih spremenljivk (možni odgovor da ali ne) je korak naprej k večji natančnosti, ki omogoča formuliranje in testiranje kompleksnejših hipotez z uporabo sofisticiranih statističnih procedur (Foddy, 2003). V našem primeru zbiranja podatkov udeleženci nimajo možnosti izbiranja odgovorov. Ali datoteko naredijo ali ne. Za potrebe naše naloge bomo uporabili kvantitativno metodo in z njo poskušali potrditi ali zavreči osnovne hipoteze. 5.1 Opis parametrov vzorca Relacijska podatkovja smo zajeli s pomočjo spletne aplikacije friends2pajek (glej Prilogo 1), ki je dostopna na spletnem naslovu http://apps.facebook.com/friends_to_pajek. Aplikacija je bila razvita v Laboratoriju za podatkovne tehnologije na Fakulteti za informacijske študije in je prosto dostopna. Jedro aplikacije je implementirano v programskih jezikih Python in PHP. Spletni strežnik bazira na Apache, Operacijski sistem pa CentOS. 5.2 Vzorec Raziskovanje, ki temelji na vzorcu populacije, je danes splošno sprejet pristop pri zbiranju statističnih podatkov. Vzorčenje uporabljamo na najrazličnejših področjih v raziskovalne, poslovne, upravne in administrativne namene. Tako so na podlagi proučevanja vzorcev ciljne populacije na mnogih znanstvenih področjih razvili, preverili ali redefinirali številne raziskovalne hipoteze, posebej v sociologiji, demografiji, političnih vedah, ekonomiji, izobraževanju, socialni psihologiji in zdravstvu. Vzorne raziskave rutinsko uporabljajo tudi vladne in druge javne institucije za ugotavljanje razmer na področju brezposelnosti, dohodkov, življenjskih stroškov, stanovanjskih razmer, izobrazbe, prehrane, zdravja, potovanj ipd. (Kalton in Vehovar, 2001). V nadaljevanju avtorja opredeljujeta populacijo in vzorec, 26 kjer izraz populacija uporabljata v smislu množice vseh elementov, na katere se nanašajo naše ugotovitve. Vzorec pa pridobimo potem, ko je populacija opredeljena. Ena od možnosti je, da vključimo v raziskavo vse elemente populacije in jih enostavno popišemo. Naš vzorec šteje 193 datotek, ki imajo vsaj 4 povezave. Povprečna velikost omrežja je 284,74 vozlišč s 4.366,63 povezavami. V vzorcu je sodelovalo 127 moških, 53 žensk, 13 pa je takšnih, ki iz različnih vzrokov nimajo izbranega spola. Prilagamo tabelo, iz katere se vidi, da smo pridobili največje število datotek od uporabnikov omrežja Facebook, ki imajo v brskalniku izbrane jezikovne nastavitve brazilska portugalščina, ameriška angleščina in slovenščina. Odstotek pridobljenih podatkov iz teh treh držav je 68,39. Pomembno število datotek smo dobili tudi od uporabnikov z jezikovnimi nastavitvami britanska angleščina, italijanščina in tistih, ki nimajo opredeljenega jezika. Tabela 5.1: Število pridobljenih datotek po državah uporabnikov jezikovna nastavitev brazilska portugalščina ameriška angleščina slovenščina britanska angleščina italijanščina neizbrano nemščina španska laoščina francoščina kastiljanska španščina valežanska španščina hrvaščina indonezijščina korejščina poljščina portugalščina slovaščina švedščina turščina kitajščina kantonska kitajščina Vir: Lastni prikaz (2012) 27 število datotek 57 47 28 14 10 10 6 5 3 2 1 1 1 1 1 1 1 1 1 1 1 5.3 Postopek 5.3.1 Facebook Query Language (FQL) Facebook Query Language (FQL) nam omogoča uporabo SQL vmesnika za poizvedbo podatkov, ki v Graph API niso na voljo (ta omogoča le splošen pogled na vozlišča in njihove povezave), vključno z zahtevo več poizvedb z enim samim klicem. Poizvedbe so lahko oblike »SELECT [] FROM [] WHERE []«. Za razliko od SQL lahko FQL FROM vsebuje le eno tabelo. Uporabimo lahko IN določbo za SELECT ali WHERE, da bi naredili podquery, ki pa se ne more sklicevati na zunanje spremenljivke. FQL zmore preproste matematične operacije, osnovne logične operatorje (BOOLEAN), AND ali NOT logičnih operaterjev ter ORDER BY in LIMIT. Za kakršno koli poizvedbo, ki vrne uporabniški ID, lahko uporabimo ukaz me(), ki vrne prijavljenega uporabnika. 5.3.2 Način pridobivanja podatkov Dobivanje podatkov je potekalo po metodi snežne kepe (Chakrabarti in Faloutsos, 2006). Vsem svojim prijateljem v Facebook omrežju smo poslali elektronsko sporočilo (glej Prilogo 2), v katerem je bil na kratko predstavljen namen raziskave ter prošnja za njihovo pomoč pri zbiranju podatkov. Priloženo je bilo navodilo za zajem podatkov ter izjava o zaupnosti. Sporočilo je vsebovalo prošnjo, da prejemnik sporočila k sodelovanju v raziskavi povabi tudi svoje prijatelje. Na ta način smo pridobili zadostno število podatkov, saj ni bilo pričakovati, da bi se vsi naši prijatelji odzvali na prošnjo. Podatke smo zbirali od 17. 6. 2011 do 4. 9. 2011. Uporabili smo vse kontakte v aplikaciji Facebook, kakor tudi kontakte ostalih poštnih strežnikov. Da bi bilo število datotek še večje, smo obvestilo prilepili tudi na skupinah Facebook, kamor je prijavljenih veliko uporabnikov. 5.4 Analiza podatkov Zbrane podatke smo uredili v podatkovno zbirko in preverili njihovo veljavnost. Za analizo zbranih podatkovij smo uporabili knjižnico igraph (http://igraph.sourceforge.net) v okolju R za statistično analizo in grafiko (http://cran.r-project.org). Analizo podatkovij smo avtomatizirali s pomočjo skriptnih datotek (glej Priloge 3, 4 in 5). Sama skripta je 28 zasnovana tako, da izloči tiste datoteke, ki imajo samo tri ali manj povezav, saj gre bodisi za napako bodisi za zelo majhno omrežje. Jedro računskega dela analize predstavlja izračun statičnih parametrov posameznega omrežja ter statistični prikaz statičnih lastnosti na zbranem vzorcu omrežij. Rezultate skriptnih datotek smo izvozili v datoteko tipa csv (glej Prilogo 6). 5.5 Metode za obdelavo podatkov 5.5.1 Stoufferjeva metoda V nalogi bomo uporabili tudi Stoufferjevo metodo, ki za razliko od Fisherjeve, ki uporablja pvrednosti, računa z Z-vrednostmi: ∑ Z= k i =1 Zi k . Ena izmed prednosti računanja s Stoufferjevo metodo je tudi ta, da lahko enostavno vključimo uteži (Wikipedia-2). k Z= ∑ wZ ∑ w i =1 k i =1 i i 2 i i To metodo bomo uporabili za dokazovanje obstoja velike komponente. 5.5.2 Kolmogorov-Smirnov test Kolmogorov-Smirnov test statistično količinsko ovrednoti razdaljo med empirično funkcijo distribucijskega vzorca in kumulativno porazdelitveno funkcijo za referenčno distribucijo ali med empiričnimi distribucijskimi funkcijami dveh vzorcev. Porazdelitev se izračuna na podlagi ničelne hipoteze, da so vzorci sestavljeni iz iste porazdelitve (v primeru dveh vzorcev) ali pa da je vzorec sestavljen iz referenčne distribucije (v primeru enega vzorca). Kolmogorov-Smirnov test je ena izmed najbolj uporabnih in splošno neparametričnih metod za primerjavo dveh vzorcev, saj je občutljiv na razlike v obeh (Wikipedia-3). 6 REZULTATI Zbranih je bilo 193 datotek. Povprečno število vozlišč je 284,74. Največje omrežje je omrežje z 1.465 vozlišči, najmanjše pa ima 6 vozlišč. Povprečno število povezav je 4.366,63. Največje število povezav v omrežju je 82.865, najmanjše pa 4. 29 6.1 Številske karakteristike V spodnji tabeli smo opisali osnovne karakteristike omrežij: mediano, aritmetično sredino, standardni odklon, minimalno vrednost, maksimalno vrednost in interkvartilni razmik (IQR). Za vsako omrežje smo izračunali omenjene karakteristike, v tabeli 6.1 pa so prikazana povprečja vseh omrežij. Tabela 6.2: Prikaz osnovnih opisnih karakteristik Parameter št. povezav Me x SD mediana aritmet.sred. standardni odklon min maks IQR 1380,5 4366,63 10332,59 4 82865 3221 št. vozlišč 192 284,74 249,22 6 1465 240 premer omrežja 7,00 7,28 2,48 1 21 3 168,00 258,23 243,04 3 1455 224 velikost glavne kompon. povp stopnja točk 12,87 19,60 17,47 1,33 113,13 15,63 število komponent 11,00 17,36 21,78 1,00 167,00 14,00 gostota omrežja 0,072 0,095 0,08 0,012 0,525 0,065 N=193 Vir: Lastni prikaz (2012) Poglejmo še, kakšne so karakteristike, ločene po spolu (Tabela 6.3). V tabeli seveda ni vključenih tistih, ki niso izbrali spola pri registraciji profila. Tabela 6.3: Prikaz osnovnih opisnih karakteristik glede na spol ŽENSKE Parameter x SD min MOŠKI maks IQR x SD min maks IQR št. povezav 2551,47 2579,35 16 19696 2136 5378,37 11225,20 4 82865 4125 št. vozlišč 241,13 141,94 23 998 177 312,97 264,36 6 1465 260 premer omrežja velikost glavne kompon. 7,17 1,41 3 12 4 7,39 2,57 1 21 2 218,57 134,16 9 851 173 283,55 260,91 3 1455 246 15,55 povp stopnja točk 14,64 7,36 1,39 56 9,10 21,77 19,47 1,33 113,13 število komponent 14,92 10,82 1 117 12,00 19,04 24,11 1,00 167,00 15,00 gostota omrežja 0,089 0,044 0,020 0,38 0,064 0,092 0,08 0,012 0,500 0,062 N =53 N =127 Vir: Lastni prikaz (2012) 30 Slika 6.10: Število vozlišč Vir: Lastni prikaz (2012) Pri številu vozlišč lahko opazimo, da imamo večino omrežij s številom vozlišč med 100 in 400 in da obstajajo tudi takšna, ki se približujejo številu 1500. Slika 6.11: Število povezav Vir: Lastni prikaz (2012) Pri številu povezav v omrežju imamo dva močna ekstrema pri 8000 povezavah. To sta omrežji, ki imata tudi največje število vozlišč. 31 Slika 6.12: Premer omrežja Vir: Lastni prikaz (2012) Okvir z ročaji za premer omrežja nam pove, da je prvi kvartil v višini 6 in mediana malo preko 7, kar nam že nakazuje, da naša hipoteza, da je povprečni premer omrežja enak 6, ne drži. Slika 6.13: Velikost glavne komponente Vir: Lastni prikaz (2012) Velikost glavne komponente nam sam po sebi ne pove kaj dosti, saj nam pokaže, koliko odstotkov vozlišč je v glavni komponenti, ampak nam pove samo število vozlišč v njej. 32 Slika 6.14: Povprečna stopnja točk Vir: Lastni prikaz (2012) Od vseh okvirjev z ročaji ima ta, ki predstavlja povprečno stopnjo točk, še najmanj osamelcev. Slika 6.15: Število komponent Vir: Lastni prikaz (2012) Večina omrežij ima število komponent do 25. Redkejša so tista nad 50. 33 Slika 6.16: Gostota omrežja Vir: Lastni prikaz (2012) Za gostoto omrežij smo povedali, da ima polni graf gostoto enako 1. Naša omrežja, razen dveh, imajo vsa gostoto pod 0,5. 6.2 Premer omrežja Analiza povprečnega premera, ki je 7,28, vrednosti premera pa so med 1 in 21, pokaže, da je hipoteza, ki pravi, da je povprečni premer okoli 6, napačna. Zanimiva je tudi porazdelitev premera omrežja, ki močno spominja na normalno. Slika 6.17: Porazdelitev najkrajših razdalj 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Vir: Lastni prikaz (2012) Vidimo, da ima večina omrežij (73,6 %) premer vrednosti 5, 6, 7, 8 ali 9. 34 18 19 20 21 Izračunali smo t-test (priloga 6) s hipotezo, da je srednja vrednost premera omrežja enaka 6 (kot je to ugotovil Milgram in so kasneje potrdili še ostali). Rezultat testa je pokazal, da srednja vrednost ni enaka 6. To smo izračunali tudi sami in ugotovili, da je naša povprečna vrednost 7,2. Ker je rezultat t vrednosti pozitiven, ugotavljamo, da je naša hipoteza prenizka. Lahko pa z 95-odstotno gotovostjo trdimo, da je tveganje vrednosti srednje (povprečni premer FB omrežja na intervalu med 6,89 in 7,5). S t-testom smo ugotavljali tudi, ali je razlika statistično značilno različna od hipotetične, saj je izračunani p manjši od kritičnega (pvrednost = 7.445e-13). Izračunali smo Cohenov d koeficient (nadaljevanje priloge 6), ki znaša 0,56. V tabeli (glej sliko 6.18, kjer se nahaja razlaga Cohenovega d-ja) vidimo, da gre za praktično razliko srednje pomembnosti. Zanimalo nas je tudi, kaj pokaže izračun, če vzamemo, da je povprečni premer enak 7. Uporabili smo isto formulo in izračunali še t-test za srednjo vrednost omrežja 7. V tem primeru je p-value = 0,093, Cohenov d koeficient pa 0,2. Rezultat znova preverimo. V tabeli (slika 6.18) vidimo, da gre za praktično razliko majhne pomembnosti, kar pomeni, da gre za majhno tveganje napovedi. Iz vsega tega ne moremo potrditi prve hipoteze, ki pravi, da je povprečna najkrajša razdalja med poljubnima prijateljema v Facebook omrežju prijateljev okoli 6. Slika 6.18: Cohenov koeficient Cohenov standard VELIK SREDNJI MAJHEN Velikost učinka (d) % ene skupine pod sredino druge skupine % neprekrivanja 2,0 1,9 1,8 1,7 1,6 1,5 1,4 1,3 1,2 1,1 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 97,7 97,7 96,4 95,5 94,5 93,3 91,9 90 88 86 84 82 79 76 73 69 66 62 58 54 50 81,1% 79,4% 77,4% 75,4% 73,1% 70,7% 68,1% 65,3% 62,2% 58,9% 55,4% 51,6% 47,4% 43,0% 38,2% 33,0% 27,4% 21,3% 14,7% 7,7% 0,0% Vir: Becker (2000, str. 3) 35 6.3 Velikost velike komponente Naša hipoteza je, da naj bi Facebook omrežje prijateljev sestavljalo ena velika komponenta in več manjših. Zagotovo lahko trdimo, da je komponenta velika, če vsebuje vsaj polovico vseh vozlišč. Takšnih omrežij je več kot 95 %. Povedano drugače, samo 8 omrežij nima največje komponente, v kateri bi bila vsaj polovica vseh vozlišč. V povprečju ima teh 8 omrežij 22,25 komponente in 138,75 vozlišča. Naša omrežja imajo različno število komponent. Takšnih, ki imajo eno samo, je 8. Torej imajo ta omrežja samo eno veliko komponento, ostala imajo poleg velike komponente še vsaj eno manjšo. Slika 6.19: Odstotek vozlišč v glavni komponenti in število komponent 180 100% 160 št. komponent velikost glavne komponente 140 120 100 50% 80 60 40 20 0 0% Vir: Lastni prikaz (2012) Zaradi boljše preglednosti smo podatke razvrstili glede na odstotek velikosti glavne komponente (modra barva) glede na število vozlišč v omrežju. Vsako omrežje namreč lahko ima, ni pa nujno, več komponent. In z modro barvo je označen odstotek vozlišč omrežja v največji komponenti le-tega. Na desni strani je odstotkovna os, ki nam pove, koliko odstotkov vozlišč je v največji komponenti. Z rdečo barvo smo označili število komponent v posameznem omrežju. Na levi strani je številska os, ki nam pove, koliko komponent obstaja v tem omrežju. 36 Grafa sta med seboj povezana, kar pomeni, da lahko za vsako omrežje razberemo število komponent v tem omrežju in odstotek zastopanosti točk v največji komponenti tega omrežja. S testom za proporcionalne vrednosti bomo poskušali dokazati, da velike komponente v naših omrežjih obstajajo. Torej je naša ničelna domneva, da obstaja velika komponenta omrežja, ki ni večja od 50 % (H_0: pmax≤ 0,5; pmax označuje delež vozlišč v največji komponenti omrežja), in alternativna domneva, ki pravi, da obstaja velika komponenta omrežja, ki je večja od 50 % (H1: pmax> 0,5). V prilogi 8 lahko vidimo, na kakšen način smo izračunali proporcionalnost. Uporabljena funkcija je v bistvu pričakovanimi in v našem primeru znaša test, ki opazovane frekvence primerja s =107 pri stopnji prostosti df = 1, z zelo majhno vrednostjo p (p < 0.0001). Obstoj velike komponente v omrežju FB lahko potrdimo. 6.4 Porazdelitev stopenj vozlišč Prileganje naše porazdelitve teoretični potenčni porazdelitvi smo izračunali s pomočjo Kolmogorov-Smirnovega testa. Vsakemu omrežju smo, glede na njegove lastnosti, generirali ustrezno teoretično porazdelitev in jo primerjali z našim dejanskim omrežjem. Dobili smo p vrednosti, ki smo jih na koncu povprečili po Staufferjevi metodi, ki je v našem primeru znašala 0,999. Vrednost je zelo visoka, zato lahko domnevamo, da se naša omrežja prilegajo teoretičnim omrežjem in dejansko sledijo potenčni porazdelitvi. Naše ničelne hipoteze, da porazdelitev stopenj točk sledi potenčni porazdelitvi, ne moremo zavreči, torej jo lahko sprejmemo, saj so empirični podatki skladni z našo domnevo. 37 Slika 6.20: Porazdelitev povprečnih stopenj točk 80 70 60 50 40 30 20 10 0 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100 100-110 110-120 Vir: Lastni prikaz (2012) Iz grafa »Porazdelitev stopenj točk« je razvidno, da ima največ omrežij povprečno stopnjo točk med 10 in 20 (takšnih omrežij je 74), sledijo omrežja, ki imajo povprečno stopnjo točk do 10 (takšnih je 58 omrežij), nato omrežja s povprečno stopnjo točk med 20 in 30 (25 omrežij), nato pa število omrežij z višjimi povprečnimi stopnjami točk upada. Dve omrežji imata povprečno stopnjo točk med 110 in 120. To sta tudi omrežji z največjo stopnjo točk in hkrati omrežji z največjim številom vozlišč in povezav. 7 ZAKLJUČEK Prve domneve, da je povprečen premer omrežij enak 6, ne moremo potrditi. Drugače pa je z ostalima domnevama (obstoj ene velike komponente in več manjših ter da porazdelitev stopnje točk sledi potenčni porazdelitvi), ki ju lahko potrdimo. 8 RAZPRAVA V diplomski nalogi smo pristopili k analizi lastnosti omrežij na področju, ki ga po nam znanih podatkih ni analiziral še nihče, tj. lastnosti omrežja na podatkih Facebook prijateljstva. S pomočjo Facebook aplikacije smo od 17. 6. 2011 do 4. 9. 2011 zbrali 193 omrežij, ki imajo najmanj 3 povezave, in na njih izvedli analizo njihovih lastnosti. Podatke je prispevalo 127 moških, 53 žensk, 13 oseb pa nima navedenega spola. Zbiranje podatkov je potekalo po metodi snežne kepe. 38 Zanimalo nas je, ali statične lastnosti omrežij veljajo tudi na primeru Facebook prijateljstva. Postavili smo tri domneve: • povprečna najkrajša razdalja med poljubnima prijateljema v Facebook omrežju prijateljev je okoli 6; • porazdelitev stopenj vozlišč Facebook omrežja prijateljev sledi potenčni porazdelitvi in • Facebook omrežje prijateljev sestavlja ena velika komponenta in več manjših komponent. Izračunana povprečna razdalja med poljubnima prijateljema v Facebook omrežju je v našem primeru 7,28 in nas je sprva presenetila, saj smo računali, da bi lahko bila vrednost bližje 6. S prebiranjem literature pa se je izkazalo, da tudi zadnji rezultati na veliki količini podatkov (raziskava na 240 milijonov ljudi s 30 milijard komunikacij) (Leskovec in Horvitz, 2007) kažejo, da je premer omrežja 6,6 in da se že govori o premeru omrežja 7. Kljub temu da smo za kontrolno skupino izbrali izhodišče 6, smo izračunali, da je 67 % vrednosti enakih kot v kontrolni skupini. Postopek smo naknadno ponovili še z izhodiščem 7 in izračunali, da je 85,3 % vrednosti enakih kot v kontrolni skupini. Ugotovili smo, da lahko potrdimo domnevo, da omrežje sestavlja ena velika komponenta komponenta in več manjših, saj jo ima več kot 95 odstotkov omrežij. To smo potrdili tudi s Stoufferjevo metodo. Tudi izračun porazdelitev stopenj točk smo naredili s pomočjo Stoufferjeve metode in dokazali, da porazdelitev stopnje točk sledi potenčnemu zakonu. 39 40 9 LITERATURA 1. Adams G., Rebecca in Allan, G. ur. (1998) Placing Friendship in Context. Adams G. Rebecca The demise of theritorial determinism: online friendship (153–182). Cambridge university press. 2. Boyd, M. Danah in Ellison, B. Nicole (2007) Social network sites: Definition, history and scholarship. Journal of Computer–Mediated Communication, 13(1), article 11. 3. Bristor, H. Julija in Ryan, J. Michael (1987) The Buying Center is Dead, Long Live the Buying Center in Advances in Consumer Research Volume 14, eds. Melanie Wallendorf and Paul Anderson, Provo, UT : Association for Consumer Research (255–258). 4. Cankar, Gašper in Bajec, Boštjan (2003) Velikost učinka kot dopolnilo testiranju statistične pomembnosti razlik. Ljubljana: Univerza v Ljubljani. 5. Chakrabarti, Deepayan in Faloutsos, Christos (2006) Graph Mining: Laws, Generators, and Algorithms, ACM Computing Surveys, št. 38, zv. 2. 6. Ciglarič, Mojca (2003) Usmerjanje ponavljajočih se poizvedb v vsebinskih omrežjih. Doktorska disertacija. Ljubljana, Fakulteta za računalništvo in informatiko. 7. Dorogovtsev, N. Sergey. in Mendes, Jose Fernando (2003) Evolution of Networks. From Biological Nets to the Internet and WWW. Oxford University Press. 8. Foddy, William (2003) Constructing questions for interviews and questionnaires. Cambridge university press. 9. Garton Laura, Haythornthwaite Caroline in Wellman Barry (1997) Studying Online Social Networks. University of Toronto and Illinois. 10. Hlebec, Valentina in Kogovšek, Tina (2006) Merjenje socialnih omrežij. Ljubljana, Grafika Fric. 11. Kalton, Graham in Vehovar, Vasja (2001) Vzorčenje v anketah; Ljubljana: Fakulteta za družbene vede. 12. Kastrin, Andrej (2011) Prosojnice s predavanj. Novo mesto: Fakulteta za informacijske študije 08.03.2011. 13. Newman, Mark (2004) The structure and function of complex networks. University of Michigan, Department of Physics. 14. Pease, Allan (1996) Govorica telesa. Ljubljana: Mladinska knjiga. 15. Povh, Janez (2011) Prosojnice s predavanj. Novo mesto: Fakulteta za informacijske študije 25.02.2011. 16. Ragin, Charles (2007) Družboslovno raziskovanje: Enotnost in raznolikost metode; Ljubljana: Fakulteta za družbene vede. 17. Sabidussi, Gert (1966) The centrality index of a graph. Psychometrika. Volume 31 number 4. 18. Travers, Jeffrey in Milgram, Stanley (1959) An Experimental Study of the Small World Problem. Sociometry, št. 32. 19. Vehovar, Vasja, Jerman, Kuželički Ajda in Lebar, Lea (2011) Socialna omrežja 2011. Ljubljana: Fakulteta za družbene vede. 20. Wasserman, Stanley in Faust, Katherine (1994) Social network analysis: Methods and applications. New York, NY: Cambridge University Press. 21. Watts, J. Duncan. (2004) Small worlds: the dynamics of networks between order and randomness. New Jersey, Princeton University Press. 10 VIRI 1. Becker, A. Lee (2000) Effect size (ES). Dostopno na: http://www.bwgriffin.com/gsu/courses/edur9131/content/EffectSizeBecker.pdf (9.10.2011). 2. Blatt, Ben in Modi, Arjun (2011) Six Degrees of NBA Separation. Dostopno na http://harvardsportsanalysis.wordpress.com/2011/03/04/six-degrees-of-nba-separation/ (11.10.2011). 3. Clauset, Aaron, Shalizi, Cosma Rohilla in Newman, Mark (2009) Power-law Distributions in Empirical Data. Dostopno na: http://each.uspnet.usp.br/sistcomplexos/SC1/Fractal/PowerLawDistributions.pdf (8.7.2011). 4. Časopis Dnevnik. Facebook v prvem četrtletju na borzi s 157 milijoni dolarjev izgube Dostopno na http://www.dnevnik.si/poslovni_dnevnik/1042543830 (26.8.2012). 5. Dwyer, Catherine, Hiltz, Starr Roxanne in Passerini, Katia (2007) Trust and privacy concern within social networking sites: A comparison of Facebook and MySpace. Dostopno na: http://csis.pace.edu/~dwyer/research/DwyerAMCIS2007.pdf (25.8.2011). 6. INSNA. International Network for Social Network Analysis. Dostopno na http://www.insna.org/sna/links.html (5.7.2011). 7. Kadushin, Charles (2004) Introduction to Social Network Theory. Chapter 2. Some Basic Network Concepts and Propositions. Dostopno na: http://hevra.haifa.ac.il/~soc/lecturers/talmud/files/521.pdf (16.8.2011). 8. Leskovec, Jure (2008) Mere središčnosti. Prosojnice s predavanj. Dostopno na: http://agava.ijs.si/~jure/ao08/03-centrality.pdf (1.10.2011). 9. Leskovec, Jure in Myers, A. Seth (2010) On the Convexity of Latent Social Network Inference. Stanford University. Dostopno na http://cs.stanford.edu/people/jure/pubs/connie-nips10.pdf (15.8.2011). 10. Leskovec, Jure in Horvitz, Eric (2007) Planetary-Scale Views on an Instant Messaging Network. Dostopno na: http://arxiv.org/PS_cache/arxiv/pdf/0803/0803.0939v1.pdf (13.11.2011). 11. Lešnjak, Gorazd (2010) Statistika. Dostopno na http://www.mp.feri.unimb.si/osebne/lesnjak/STA_ITK/p_1.pdf (8.10.2011). 12. Mayo, Elton (1949) The Social Problems of an Industrial Civilisation. Dostopno na: http://xa.yimg.com/kq/groups/30802428/1886432542/name/elton+mayo+%2B+studiu+de +caz.pdf (5.7.2011). 13. Milivojević, Zoran (2011) Prijateljstvo v postmodernem času. Dostopno na http://www.viva.si/mnenja/6200/Prijateljstvo-v-postmodernem-%C4%8Dasu (14.8.2011). 14. Pisanski, Tomaž (1981) Problem štirih barv. Dostopno prek: http://www.presek.si/9/537Pisanski.pdf (8.7.2011). 15. Scott, John (1996) Social Network Analysis. Dostopno na: http://www.analytictech.com/networks/history.htm (5.7.2011). 16. Socialbakers. Facebook Statistics by country. Dostopno na http://www.socialbakers.com/facebook-statistics/#chart-intervals (14.8.2011). 17. Stam, J. Cornelis in Reijneveld, C. Jaap (2007) Graph theoretical analysis of complex networks in the brain. Dostopno na: http://www.biomedcentral.com/content/pdf/17534631-1-3.pdf (11.10.2011). 18. Računalniške novice (2011). Zanimiva dejstva o socialnem omrežju Facebook. Dostopno na http://www.racunalniske-novice.com/novice/splet/socialnaomrezja/facebook/zanimiva-dejstva-o-socialnem-omrezju-facebook-1.html (16.8.2011). 19. Wikipedia-1. Six degrees of separation. Dostopno na: http://en.wikipedia.org/wiki/Six_degrees_of_separation (13.11.2011). 20. Wikipedia-2. Fisher's method. Dostopno na: http://en.wikipedia.org/wiki/Stouffer%27s_method (19.2.2012). 21. Wikipedia-3. Kolmogorov–Smirnov test. Dostopno na http://en.wikipedia.org/wiki/Kolmogorov-Smirnov (19.2.2012). 22. Wikipedia-4. Facebook. Dostopno na http://en.wikipedia.org/wiki/Facebook#History (16.8.2011). 23. Wikipedia-5. Srednje vrednosti. Dostopno na: http://sl.wikipedia.org/wiki/Kategorija:Srednje_vrednosti (8.10.2011). 24. Wikipedia-6: Kvartil. Dostopno na: http://sl.wikipedia.org/wiki/Kvartil(8.10.2011). 25. Zeitler, Nicolas (2011). Computer Scientist Predicts Your Next Facebook Friends. Dostopno na: http://www.pcworld.com/article/237825/computer_scientist_predicts_your_next_faceboo k_friends.html (15.8.2011). 26. Zemljič, Barbara in Hlebec, Valentina (2002) Zanesljivost mer središčnosti in pomembnosti v socialnih omrežjih. Dostopno na: http://www.fdvinfo.net/uploadi/editor/1141994570dr37-38zemljichlebec.pdf (14.10.2011). PRILOGE Priloga 1: Spletna aplikacija friends2pajek Priloga 2: Prošnja z navodili za uporabo aplikacije Priloga 3: Funkcija za izračun lastnosti (premer omrežja in velikost glavne komponente) Priloga 4: Funkcija za izračun potenčne porazdelitve Priloga 5: Zagonska skripta Priloga 6: Skripta za hipotezo premer omrežja je 6 Priloga 7: Skripta za hipotezo potenčni zakon Priloga 8: Skripta za hipotezo velikost glavne komponente Priloga 1: Spletna aplikacija friends2pajek Za kreiranje Facebookove aplikacije za generiranje potrebnih datotek se je treba prijaviti na https://developers.facebook.com/apps in uporabiti uporabniško ime in geslo, ki ga sicer uporabljamo za vstop na Facebook. S klikom na »+ Create New App« ustvarimo novo apikacijo. Naši smo dodelili ime friends_to_pajek. V kodi namenoma ni podatkov uporabniško ime, geslo in strežnik. Koda izgleda takole: #!/bin/bash prog=$(basename $0) NO_ARGS=0 E_OPTERROR=85 # Script invoked with no command-line args? if [ $# -eq "$NO_ARGS" ]; then echo "Usage: $prog [-h host] [-u username] [-p password]" echo " $prog -help for help." exit $E_OPTERROR fi showhelp() { echo "Usage: $prog [-h host] [-u username] [-p password]" echo " -h: host" echo " -u: username" echo " -p: password" echo " -help: this help message" exit 2 } user="" host="" pass="" now=$(date +"%m-%d-%Y") dir="data_$now" file="data.tgz" while getopts "h:u:p:help" name; do case $name in h) host=$OPTARG ;; u) user=$OPTARG ;; p) pass=$OPTARG ;; help) showhelp $0 ;; esac done if [ -d "$dir" ]; then rm -R $dir mkdir $dir else mkdir $dir fi cmd1=$(expect << EOF spawn ssh $user@$host expect "password: " send "$pass\n" expect { "Permission denied, please try again." { send_user "Wrong password." exit } "$ " { send "cd /tmp\n" expect "$ " send "tar -czf $file \`find . -maxdepth 1 -name 'f2p_*' -print\`\n" expect "$ " send "logout" exit } } EOF) cmd2=$(expect << EOF spawn scp $user@$host:/tmp/$file $dir expect "password: " send "$pass\n" expect "$ " EOF) CMD3=$(expect << EOF spawn ssh $user@$host expect "password: " send "$pass\n" expect "$ " send "cd /tmp\n" expect "$ " send "rm $file\n" expect "$ " send "logout" EOF) echo "$cmd1" echo "$?" echo "$cmd2" echo "$?" echo "$cmd3" cd $dir tar -xzf $file rm $file count=$(ls -1 | wc -l | awk '{gsub(/^ +| +$/, "")}1') cd .. clear echo "All done. Extracted $count *.net files." Priloga 2: Prošnja z navodili za uporabo aplikacije Naslednja vsebina je bila poslana vsem avtorjevim kontaktom v Facebooku in tudi kontaktom v elektronski pošti. Prvi del je bil v pisni obliki kot besedilo, dodatna navodila po korakih potrjevanja pa so bila prilepljena kot datoteka v obliki pdf. Napisanih je bilo več inačic, v več jezikih, prilagamo samo slovensko inačico vikanja. Spoštovani, v okviru diplomskega dela na Fakulteti za informacijske študije se ukvarjam z analizo podatkov s spletišča Facebook. Delo poteka pod mentorstvom doc. dr. Janeza Povha. Cilj moje raziskave je zbrati čim večje število anonimnih seznamov prijateljev posameznega uporabnika spletišča Facebook. Upam, da mi lahko pri tem pomagate tudi vi. Vse, kar morate storiti, je, da sledite spodnjim korakom. 1. 2. 3. Kliknite na naslov http://apps.facebook.com/friends_to_pajek/ in se prijavite v spletišče Facebook. S klikom na gumb »Allow« dovolite aplikaciji friends2pajek, da zbere podatke o vaših prijateljih. Odprlo se bo glavno okno aplikacije friends2pajek. Kliknite na gumb »Submit« in postopek je zaključen. Podrobna navodila z ilustriranimi koraki najdete v priponki. Podatki, ki mi jih boste zaupali, bodo ostali anonimni. Zbrani podatki se bodo uporabljali izključno za raziskovalne namene. Za vsa vprašanja sem vam na voljo na naslovu [email protected]. Prosim vas, da to elektronsko sporočilo posredujete tudi svojim prijateljem. Za sodelovanje se vam najlepše zahvaljujem in vas lepo pozdravljam. Aleš Hočevar Priloga 3: Funkcija za izračun lastnosti (premer omrežja in velikost glavne komponente) Te funkcije ni potrebno zaganjati ročno, mora pa biti v istem direktoriju kot sta ostali dve. # Read Pajek file to igraph object data.dir <- "data_07-25-2011" GetGraph <- function(file) { awk.str <- "awk \'{if(NR==1)sub(/^\xef\xbb\xbf/, \"\"); print}\'" file.nobom <- paste(awk.str, " ", "./", data.dir, "/", file, sep="") pipe.con <- pipe(description=file.nobom, encoding="UTF-8") my.graph <- read.graph(file=pipe.con, format="pajek") return(my.graph) } # Compute diameter GetDiameter <- function(graph) { graph.diam <- diameter(graph=graph, directed=FALSE) rval <- list(diam=graph.diam) return(rval) } # Compute size of giant component GetGiantCompSize <- function(graph) { graph.size <- vcount(graph=graph) cl <- clusters(graph=graph) subgraph <- subgraph(graph=graph, v=which(cl$membership == which.max(cl$csize) - 1) - 1) subgraph.size <- vcount(graph=subgraph) rval <- list(g.size=subgraph.size) return(rval) } # Count vertices CountVertices <- function(file) { graph <- GetGraph(file=file) return(vcount(graph)) } # Count edges CountEdges <- function(file) { graph <- GetGraph(file=file) return(ecount(graph)) } # Compute power distribution parameters TestPowerLaw <- function(graph) { degree <- degree(graph) + 1 fit <- FitPowerLaw(x=degree) rval <- list(d.stat=fit$statistic, p.val=fit$p.value, xmin=fit$xmin, n=fit$n, alpha=fit$alpha) return(rval) } # Select graphs according to number of edges FilterGraphs <- function(file.list, limit) { edges <- sapply(X=file.list, FUN=CountEdges) if (limit >= min(edges)) { index <- which(edges <= limit) message(paste("Filtered", length(index), "out of", length(all.files), "graphs.")) rval <- list(files=all.files[-index], ind=index) return(rval) } } # Compute degree GetDegree <- function(graph) { graph.degree <- sum(degree(graph=graph))/vcount(graph) rval <- list(degree=graph.degree) return(rval) } # Compute vertices GetVozlisca <- function(graph) { graph.vozlisce <- vcount(graph=graph) rval <- list(vozlisca=graph.vozlisce) return(rval) } # Compute edges GetPovezave <- function(graph) { graph.povezave <- ecount(graph=graph) rval <- list(povezave=graph.povezave) return(rval) } # Compute clusters GetClusters <- function(graph) { graph.clusters <- no.clusters(graph=graph) rval <- list(clusters=graph.povezave) return(rval) } # Wrapper for functions above ComputeAll <- function(file) { graph <- GetGraph(file=file) vertices <- GetVozlisca(graph=graph) edges <- GetPovezave(graph=graph) diam <- GetDiameter(graph=graph) g.size <- GetGiantCompSize(graph=graph) kompon <- GetClusters(graph=graph) p.law <- TestPowerLaw(graph=graph) degree <- GetDegree(graph=graph) return(c(vertices, edges, degree, diam, g.size, kompon, p.law)) progress_bar_text$step() } Priloga 4: Funkcija za izračun potenčne porazdelitve Tudi te funkcije ni potrebno zaganjati ročno. # Check direct variant to solve xmin problem FitPowerLaw <- function(x) { suppressMessages(require(VGAM)) x <- as.integer(x) # Range of scaling parametersfunction(c) vec <- seq(1.5, 3.5, 0.01) zvec <- zeta(vec) xmins <- sort(unique(x)) # limit <- c() xmins <- xmins[-length(xmins)] xmax <- max(x) dat <- matrix(0, nrow=length(xmins), ncol=2) z <- x for (i in 1:length(xmins)) { xmin <- xmins[i] z <- z[z >= xmin] n <- length(z) # Use maximization of likelihood function to estimate alpha if (xmin == 1) { zdiff <- rep(1, length(vec)) } else { zdiff <- apply(X=rep(t(1:(xmin-1)), length(vec))^t(kronecker(t(array(1, xmin - 1)), vec)), MARGIN=2, FUN=sum) } L <- -vec * sum(log(z)) - n * log(zvec - zdiff) I <- which.max(L) # Compute KS statistic fit <- cumsum((((xmin:xmax)^-vec[I])) / (zvec[I] - sum((1:(xmin-1))^-vec[I]))) # Dirty, dirty, ... cdi <- cumsum(hist(z, c(min(z) - 1, (xmin + 0.5):xmax, max(z) + 1), plot=FALSE)$counts / n) dat[i, ] <- c(max(abs(fit - cdi)), vec[I]) } D <- min(dat[, 1]) I <- which.min(dat[, 1]) xmin <- xmins[I] n <- sum(x >= xmin) alpha <- dat[I, 2] # Correction for finite sample size alpha <- alpha * (n - 1) / n + 1 / n pval <- 1 - .C("pkolmogorov2x", p = as.double(D), as.integer(n), PACKAGE = "stats")$p rval <- list(statistic=D, p.value=pval, xmin=xmin, n=n, alpha=alpha) return(rval) } Priloga 5: Zagonska skripta To je edina skripta, ki jo zaženemo ročno. Končni produkt je generirana datoteka graph_invariants.csv, ki jo odpremo v Excelu ali OpenOfficeu. setwd("~/Namizje/fb_graph") data.dir <- "data_10-06-2011" require(VGAM) require(package=igraph, quietly=TRUE) source(file="my_functions.R") source(file="power_law.R") limit <- as.integer(3) all.files <- dir(path=data.dir) my.files <- FilterGraphs(file.list=all.files, limit=limit)$files if (is.null(my.files)) stop("Try again with different limit value.") message("Start processing. Please wait...") lol <- lapply(X=my.files, FUN=ComputeAll) # Reshape list of lists to data.frame out <- as.data.frame(do.call(rbind, lapply(X=lol, FUN=c, recursive=TRUE)), row.names=my.files) write.csv(x=out, file="graph_invariants.csv") Priloga 6: Skripta za hipotezo premer omrežja je 6 source("my_functions.R") data <- read.csv(file = "graph_data.csv", row.names = 1) diam <- data$diam diam.rm <- FindOutliers(x = diam, rm = TRUE) t.stat <- t.test(x = diam.rm, mu = 6) t.stat One Sample t-test data: diam.rm t = 7.6989, df = 189, p-value = 7.445e-13 alternative hypothesis: true mean is not equal to 6 95 percent confidence interval: 6.89254 7.50746 sample estimates: mean of x 7.2 Cohen mean.diff <- mean(diam.rm) - 6 sd.rm <- sd(diam.rm) cohen.d <- mean.diff/sd.rm cohen.d [1] 0.5585401 Priloga 7: Skripta za hipotezo potenčni zakon p.val <- data$p.val p.combined <- pnorm(sum(qnorm(p.val))/sqrt(length(p.val)), lower.tail = FALSE) p.combined [1] 0.9999999 Priloga 8: Skripta za hipotezo velikost glavne komponente H_0 = 0,5 H_1 >0,5 my.prop <- sum(data$giant.r > 0.5) my.n <- length(data$giant.r) prop.test(x = my.prop, n = my.n, p = 0.5, alternative = 'greater') 1-sample proportions test with continuity correction data: my.prop out of my.n, null probability 0.5 X-squared = 107.0205, df = 1, p-value < 2.2e-16 alternative hypothesis: true p is greater than 0.5 95 percent confidence interval: 0.8845861 1.0000000 sample estimates: p 0.9315068
© Copyright 2024