Spletne zbirke Trendi v znanstvenem informiranju, gradnja spletnih zbirk, avtomatsko indeksiranje, Boolov in ne-Boolov iskalni model, uporabnost spletnih zbirk za znanstveno informiranje, povezovanje podatkov v spletnih zbirkah. Kam gre znanstveno informiranje... Za današnjo pamet bi bil idealen informacijski sistem tak, ki bi zadostil večini današnjih informacijskih potreb. Edino takega si znamo danes predstavljati. Morda nima veliko skupnega z informacijskimi sistemi, kakršne bomo uporabljali čez 10 let. Predvidevamo pa lahko: še vedno bo težišče na zbiranju in ponudbi dokumentov, pestrejši bo nabor tipov dokumentov v sistemu, informacijski sistem bo imel večje sposobnosti analize in združevanja podatkov – od uporabnikov bo prevzel del pretvarjanja podatkov v informacije, Dr. Jure Dimec. Podatkovne zbirke v medicini. 2 Kam gre znanstveno informiranje... Predvidevamo lahko (nadaljevanje): še bolj bo nepomembna lokacija in format dokumentov ali podatkov, infrastruktura za organiziranje in dostop do informacij bo še vedno splet, ki svojo vlogo odlično opravlja, splet se bo spreminjal iz mreže strežnikov, na katerih so nameščeni podatki in dokumenti v porazdeljeno zbirko podatkov in dokumentov (Semantični splet), nadaljevala se bo rast količine prosto dostopnih podatkov in dokumentov. Končni cilj – prost dostop do vseh objavljenih strokovnih informacij – ni nemogoč. Dr. Jure Dimec. Podatkovne zbirke v medicini. 3 Splet kot infrastruktura Obstajata vidni in globoki (nevidni) splet. V vidni splet sodijo vse spletne strani, ki so vključene v spletno hipertekstno mrežo – vsak spletni dokument, na katerega kaže vsaj en spletni dokument, na katerega kaže vsaj en spletni dokument… Svetovni splet, kot si ga je zamislil avtor Tim Berners-Lee, je vidni splet. Veliki spletni iskalniki, kakršen je Google, do neke mere obvladujejo vidni splet in samo vidni splet. Vidni splet so vse spletne strani, do katerih je mogoče priti s klikanjem, neglede na naravo klikajočega: lahko je človek ali program. Dr. Jure Dimec. Podatkovne zbirke v medicini. 4 Splet kot infrastruktura Globoki splet je vse ostalo – podatki, do katerih ne moremo priti na avtomatski (programski) način: podatki so nameščeni na privatnih omrežjih, intranetih, ki so programsko ali strojno ločena od interneta, podatki so dostopni s pomočjo obrazcev, ki jih avtomat ne zna izpolniti, podatki so na spletiščih ali v zbirkah, zaščitenih z gesli, dokumenti kot celota ne obstajajo, ampak se, na z geslom zaščiten ukaz, sestavijo iz sestavin v podatkovnih zbirkah – taka je večina člankov v e-revijah, spletne strani, za katere obstaja standardna prepoved indeksiranja v zbirkah spletnih iskalnikov. Dr. Jure Dimec. Podatkovne zbirke v medicini. 5 Splet kot infrastruktura Niso vse informacije, nameščene v globokem spletu, vredne uporabe v znanosti, vendar večina informacij, ki so vredne uporabe v znanosti, je nameščenih v globokem spletu. V globokem spletu je večina bibliografskih zbirk in zbirk e-revij, velik del osebnih in institucijskih shramb dokumentov. Nekateri avtorji ali zbirke, ki sodijo v gibanje za odprt dostop (Open Source), se trudijo svoje podatke ali dokumente prestaviti iz globokega v vidni splet. Dr. Jure Dimec. Podatkovne zbirke v medicini. 6 Splet kot infrastruktura Globoki splet je neprimerno večji od vidnega – ocene se gibljejo od 1 : 9 do 1 : n * 1000. Bibliografska zbirka Medline (PubMed) je izjema: po naravi sodi v globoki splet, vendar ponuja lastna spletna orodja (e-Utils), ki omogočajo avtomatsko pretakanje zapisov v poljubno aplikacijo. Bibliografski zapisi iz Medline so najdljivi celo z Googlom, seveda pa je z Googlom nemogoče izvajati res kvalitetna iskanja po bibliografskih zbirkah. Dr. Jure Dimec. Podatkovne zbirke v medicini. 7 Spletni iskalniki: gradnja zbirk Zbirke spletnih iskalnikov nastajajo z avtomatskim odkrivanjem in obdelovanjem (indeksiranjem) dokumentov. Nekateri iskalniki shranjujejo le podatke o dokumentih, drugi (npr. Google) pa tudi same dokumente. shramba dokumentov pridobivanje dokumentov E-pošta, spletne strani, blogi, novice v forumih… Dr. Jure Dimec. Podatkovne zbirke v medicini. gradnja indeksov preoblikovanje besedila v indeksne izraze 8 Spletni iskalniki: gradnja zbirk Avtonomni programski agenti, znani tudi kot spletni roboti, zbirajo informacije o dokumentih v vidnem spletu. obzorje nabor semen Dr. Jure Dimec. Podatkovne zbirke v medicini. 9 Spletni iskalniki: gradnja zbirk Spletni roboti Spletni roboti avtomatsko odkrivajo dokumente tako, da sledijo spletnim kazalcem. Vsak dokument avtomatsko indeksirajo. Za uporabnost iskalnika je pomembna velikost prostora dokumentov, ki ga pokriva, ter frekvenca obnavljanja podatkov. Splet je ogromen in stalno (skoraj) eksponentno raste. Spletni roboti niti teoretično ne morejo obdelati vseh spletnih dokumentov. Dr. Jure Dimec. Podatkovne zbirke v medicini. 10 Spletni iskalniki: gradnja zbirk Robot začne delo s t. i. “naborom semen”, zbirko URL-jev, ki jih najprej uporabi za priklic novih dokumentov. Novi kazalci, ki jih najde v teh dokumentih, se dodajo k njegovemu “obzorju”. Spletni robot mora ponovno obiskovati strani, ki jih je že obiskal in njihove podatke vključil v zbirko. Dr. Jure Dimec. Podatkovne zbirke v medicini. 11 Avtomatsko indeksiranje Običajno, “intelektualno” indeksiranje je drago in zamudno, Potrebujemo redko pasmo človeka z vsaj površnim znanjem stroke, iz katere so dokumenti, dobrim poznavanjem informacijskih orodij in postopkov. Avtomatsko indeksiranje: opisovanje vsebine z avtomatskimi postopki, brez človeške intervencije. Dr. Jure Dimec. Podatkovne zbirke v medicini. 12 Avtomatsko indeksiranje Vsebino dokumenta predstavlja sam dokument. Avtomatski postopki iz njega izberejo ključne besede. Najuspešnejše so t.i. statistične metode avtomatskega indeksiranja. Del metod je odvisnih od jezika dokumenta. Dr. Jure Dimec. Podatkovne zbirke v medicini. 13 Avtomatsko indeksiranje Običajni postopki avtomatskega indeksiranja: blokiranje: izpuščanje besed brez vsebine (vezniki, predlogi, prislovi, zaimki…), krnjenje: poenotenje različnih oblik neke besede na skupni krn, vrednotenje besednih krnov: računanje količine informacije (povedne moči) v njih. Dr. Jure Dimec. Podatkovne zbirke v medicini. 14 Avtomatsko indeksiranje Krnjenje – uspešen in neuspešen primer: besedne oblike: zdravilo, zdravila, zdravilom krn: zdravil vendar besedne oblike: jetra, jeter, jetrom, jetrni krn: jet (prekratek) jetr (ne vključuje vseh oblik) Dr. Jure Dimec. Podatkovne zbirke v medicini. 15 Avtomatsko indeksiranje Vrednotenje količine informacije v besedah: beseda, ki zastopa pomembno vsebino dokumenta, običajno nosi veliko količino informacije (veliko povedno moč), za računanje količine informacije v besedi je pomembna frekvenca besede v dokumentu in v zbirki dokumentov, načeloma ima veliko informacije v nekem dokumentu beseda, ki je v tem dokumentu pogosta in se pojavlja v majhnem številu dokumentov v zbirki. Dr. Jure Dimec. Podatkovne zbirke v medicini. 16 Iskalni modeli Boolov iskalni model: prevladuje pri bibliografskih zbirkah, pri iskanju razdeli zbirko na enostavni množici relevantnih (poiskanih) zapisov in nerelevantnih (nepoiskanih) zapisov. Ne-Boolovi iskalni modeli: razumejo relevantnost kot zvezno lastnost dokumenti so lahko bolj ali manj relevantni. Dr. Jure Dimec. Podatkovne zbirke v medicini. 17 Iskanje – Boolov model Iskanje – Boolov model Dr. Jure Dimec. Podatkovne zbirke v medicini. 18 Boolov iskalni model Operatorji IN, ALI, NE (AND, OR, NOT), iskalna zahteva diabetes IN insulin poišče le zapise, ki vsebujejo oba deskriptorja; iskalna zahteva diabetes tip 1 ALI diabetes tip 2 poišče vse zapise, ki vsebujejo prvega, drugega ali oba deskriptorja. Dr. Jure Dimec. Podatkovne zbirke v medicini. 19 Boolov iskalni model iskalna zahteva diabetes NE insulin poišče vse zapise, ki vsebujejo deskriptor diabetes, ne pa deskriptorja insulin. Dr. Jure Dimec. Podatkovne zbirke v medicini. 20 Boolov iskalni model Kritike Boolovega iskalnega modela: z iskalno zahtevo d1 IN d2 IN d3 IN d4 bo poiskan le zapis, ki vsebuje vse štiri deskriptorje. Verjetno bi bil zanimiv tudi zapis, ki vsebuje le dva ali tri od njih. Dr. Jure Dimec. Podatkovne zbirke v medicini. 21 Boolov iskalni model Kritike Boolovega iskalnega modela: z iskalno zahtevo d1 ALI d2 ALI d3 ALI d4 bo poiskan vsak zapis, ki vsebuje vsaj enega od deskriptorjev. Vsi poiskani zapisi bodo enakovredni, čeprav je verjetno zapis z vsemi štirimi deskriptorji bolj relevanten od tistega z enim. Dr. Jure Dimec. Podatkovne zbirke v medicini. 22 Ne-Boolovi iskalni modeli Primerni za zbirke polnih, avtomatsko indeksiranih dokumentov. Računajo relevantnost kot podobnost med iskalno zahtevo in dokumentom. Podobnost dokumenta izvira iz števila besed (krnov) skupnih iskalni zahtevi in dokumentu. Pri računanju podobnosti se upoštevajo tudi povedne moči skupnih besed (krnov). Dr. Jure Dimec. Podatkovne zbirke v medicini. 23 Ne-Boolovi iskalni modeli Če je relevantnost zvezna lastnost, potem je mogoče: iskalcu ponuditi seznam rezultatov iskanja rangiran po relevantnosti, iskalec pregleduje rangirane dokumente dokler še najde zanimive. Tako delujejo spletni iskalniki, npr. Google. Dr. Jure Dimec. Podatkovne zbirke v medicini. 24 ne-Boolovi iskalni modeli: izmišljen primer rangiranja Iskalna zahteva: Slike prsnega koša v anatomskih atlasih na Svetovnem spletu D1: Oddelek za anatomijo prsnega koša je dobil novo predavalnico… D2: Učna zbirka slik anatomije prsnega koša zdaj tudi na Spletu… skupni krni D1 D2 povedne moči relevantnost anatom prsn koš 2 2 3 skupaj: 7 anatom prsn koš splet slik 5 8 10 3 3 skupaj: 29 Dr. Jure Dimec. Podatkovne zbirke v medicini. 25 Uporabnost spletnih iskalnikov: Scirus Scirus je eden redkih spletnih iskalnikov, namenjenih resni rabi. Pri gradnji zbirk se poskuša omejevati na strokovne vire. Do neke mere mu uspeva prebiti mejo globokega spleta. Informacije o dokumentih zbira z roboti, na enak način, kot splošni spletni iskalniki. Razlika je v „naboru semen”, začetnih strani s kazalci, ki izvirajo med drugim iz ScienceDirect, Medline, BioMed Central in US Patent Office. Dr. Jure Dimec. Podatkovne zbirke v medicini. 26 Uporabnost spletnih iskalnikov: Scirus Velikost zbirk: Google neugotovljivo velik, najmanj desetine milijard dokumentov, Medline ~20 milionov bibliografskih zapisov, Scirus: 350 milijonov dokumentov. Scirus omogoča sestavljanje iskalnih zahtev podobno, kot iskalniki pri biliografskih zbirkah: raba logičnih operatorjev in oklepajev, omejevanje glede starosti, tipov in formatov dokumentov, omejevanje glede virov dokumentov in strokovnih področij, iskanje po poljih: au:, ti:, ke: (keywords), url:, jo (journal)... Dr. Jure Dimec. Podatkovne zbirke v medicini. 27 Scirus: enostavno iskanje Iskalna zahteva H1N1 AND vaccination AND ("side effects" OR "adverse effects") Dr. Jure Dimec. Podatkovne zbirke v medicini. 28 Scirus: omejevanje iskalne zahteve Dr. Jure Dimec. Podatkovne zbirke v medicini. 29 Scirus: rezultati iskanja Dr. Jure Dimec. Podatkovne zbirke v medicini. 30 Google Scholar Google je razširil svojo ponudbo še na zbirko člankov iz znanstvenih revij. Polno besedilo člankov je avtomatsko indeksirano, reference so razvrščene po relevantnosti in dodana mreža citiranosti. Dr. Jure Dimec. Podatkovne zbirke v medicini. 31 Google Scholar Kazalci na dokumente, ki citirajo ta dokument. Dr. Jure Dimec. Podatkovne zbirke v medicini. 32 Kako sodobne zbirke povezujejo podatke... Primera: Znanstvena revija Science, Medline (PubMed). Dr. Jure Dimec. Podatkovne zbirke v medicini. 33 Google Scholar Polno besedilo Seznam kazalcev na članke, ki citirajo ta članek. Dodatni načini iskanja sorodne vsebine. Zanimiva funkcija! Dr. Jure Dimec. Podatkovne zbirke v medicini. 34 Povezovanje podatkov: Medline Medline avtomatsko odkriva in povezuje vsebinsko sorodne, vendar oblikovno in po izvoru zelo različne “koščke” informacij: bibliografski opis iskanega dokumenta, različne načine dostopa do polnega dokumenta, kemijske in farmakološke informacije o substancah, omenjenih v iskanem dokumentu, informacije, namenjene pacientom, o pojavih, opisanih v iskanem dokumentu, dodatne informacije, namenjene zdravnikom, o pojavih, opisanih v iskanem dokumentu… Dr. Jure Dimec. Podatkovne zbirke v medicini. 35 Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini. 36 Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini. 37 Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini. 38 Medline: dodatne informacije, povezane z iskanim dokumentom . Dr. Jure Dimec. Podatkovne zbirke v medicini. 39 Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini. 40 Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini. 41 Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini. 42
© Copyright 2024