Boolov iskalni model

Spletne zbirke
Trendi v znanstvenem informiranju,
gradnja spletnih zbirk,
avtomatsko indeksiranje,
Boolov in ne-Boolov iskalni model,
uporabnost spletnih zbirk za znanstveno informiranje,
povezovanje podatkov v spletnih zbirkah.
Kam gre znanstveno informiranje...

Za današnjo pamet bi bil idealen informacijski sistem
tak, ki bi zadostil večini današnjih informacijskih
potreb. Edino takega si znamo danes predstavljati.

Morda nima veliko skupnega z informacijskimi sistemi,
kakršne bomo uporabljali čez 10 let.

Predvidevamo pa lahko:

še vedno bo težišče na zbiranju in ponudbi dokumentov,

pestrejši bo nabor tipov dokumentov v sistemu,

informacijski sistem bo imel večje sposobnosti analize in
združevanja podatkov – od uporabnikov bo prevzel del
pretvarjanja podatkov v informacije,
Dr. Jure Dimec. Podatkovne zbirke v medicini.
2
Kam gre znanstveno informiranje...

Predvidevamo lahko (nadaljevanje):

še bolj bo nepomembna lokacija in format dokumentov ali
podatkov,

infrastruktura za organiziranje in dostop do informacij bo
še vedno splet, ki svojo vlogo odlično opravlja,

splet se bo spreminjal iz mreže strežnikov, na katerih so
nameščeni podatki in dokumenti v porazdeljeno zbirko
podatkov in dokumentov (Semantični splet),

nadaljevala se bo rast količine prosto dostopnih podatkov
in dokumentov.

Končni cilj – prost dostop do vseh objavljenih strokovnih
informacij – ni nemogoč.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
3
Splet kot infrastruktura

Obstajata vidni in globoki (nevidni) splet.

V vidni splet sodijo vse spletne strani, ki so vključene v spletno
hipertekstno mrežo – vsak spletni dokument, na katerega kaže
vsaj en spletni dokument, na katerega kaže vsaj en spletni
dokument…

Svetovni splet, kot si ga je zamislil avtor Tim Berners-Lee, je
vidni splet.

Veliki spletni iskalniki, kakršen je Google, do neke mere
obvladujejo vidni splet in samo vidni splet.

Vidni splet so vse spletne strani, do katerih je mogoče priti s
klikanjem, neglede na naravo klikajočega: lahko je človek ali
program.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
4
Splet kot infrastruktura

Globoki splet je vse ostalo – podatki, do katerih ne
moremo priti na avtomatski (programski) način:

podatki so nameščeni na privatnih omrežjih, intranetih, ki
so programsko ali strojno ločena od interneta,

podatki so dostopni s pomočjo obrazcev, ki jih avtomat ne
zna izpolniti,

podatki so na spletiščih ali v zbirkah, zaščitenih z gesli,

dokumenti kot celota ne obstajajo, ampak se, na z geslom
zaščiten ukaz, sestavijo iz sestavin v podatkovnih zbirkah –
taka je večina člankov v e-revijah,

spletne strani, za katere obstaja standardna prepoved
indeksiranja v zbirkah spletnih iskalnikov.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
5
Splet kot infrastruktura

Niso vse informacije, nameščene v globokem spletu,
vredne uporabe v znanosti, vendar

večina informacij, ki so vredne uporabe v znanosti, je
nameščenih v globokem spletu.

V globokem spletu je večina bibliografskih zbirk in zbirk
e-revij, velik del osebnih in institucijskih shramb
dokumentov.

Nekateri avtorji ali zbirke, ki sodijo v gibanje za odprt
dostop (Open Source), se trudijo svoje podatke ali
dokumente prestaviti iz globokega v vidni splet.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
6
Splet kot infrastruktura

Globoki splet je neprimerno večji od vidnega – ocene
se gibljejo od 1 : 9 do 1 : n * 1000.

Bibliografska zbirka Medline (PubMed) je izjema:


po naravi sodi v globoki splet, vendar

ponuja lastna spletna orodja (e-Utils), ki omogočajo
avtomatsko pretakanje zapisov v poljubno aplikacijo.
Bibliografski zapisi iz Medline so najdljivi celo z
Googlom, seveda pa je z Googlom nemogoče izvajati
res kvalitetna iskanja po bibliografskih zbirkah.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
7
Spletni iskalniki: gradnja zbirk

Zbirke spletnih iskalnikov nastajajo z avtomatskim odkrivanjem
in obdelovanjem (indeksiranjem) dokumentov.

Nekateri iskalniki shranjujejo le podatke o dokumentih, drugi
(npr. Google) pa tudi same dokumente.
shramba
dokumentov
pridobivanje
dokumentov
E-pošta, spletne
strani, blogi, novice
v forumih…
Dr. Jure Dimec. Podatkovne zbirke v medicini.
gradnja
indeksov
preoblikovanje
besedila v
indeksne izraze
8
Spletni iskalniki: gradnja zbirk
Avtonomni programski agenti, znani tudi kot spletni roboti, zbirajo
informacije o dokumentih v vidnem spletu.
obzorje
nabor semen
Dr. Jure Dimec. Podatkovne zbirke v medicini.
9
Spletni iskalniki: gradnja zbirk
Spletni roboti





Spletni roboti avtomatsko odkrivajo dokumente tako,
da sledijo spletnim kazalcem.
Vsak dokument avtomatsko indeksirajo.
Za uporabnost iskalnika je pomembna velikost prostora
dokumentov, ki ga pokriva, ter frekvenca obnavljanja
podatkov.
Splet je ogromen in stalno (skoraj) eksponentno raste.
Spletni roboti niti teoretično ne morejo obdelati vseh
spletnih dokumentov.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
10
Spletni iskalniki: gradnja zbirk

Robot začne delo s t. i. “naborom semen”, zbirko
URL-jev, ki jih najprej uporabi za priklic novih
dokumentov.

Novi kazalci, ki jih najde v teh dokumentih, se
dodajo k njegovemu “obzorju”.

Spletni robot mora ponovno obiskovati strani, ki
jih je že obiskal in njihove podatke vključil v
zbirko.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
11
Avtomatsko indeksiranje


Običajno, “intelektualno” indeksiranje je drago
in zamudno,
Potrebujemo redko pasmo človeka z



vsaj površnim znanjem stroke, iz katere so
dokumenti,
dobrim poznavanjem informacijskih orodij in
postopkov.
Avtomatsko indeksiranje: opisovanje vsebine z
avtomatskimi postopki, brez človeške
intervencije.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
12
Avtomatsko indeksiranje




Vsebino dokumenta predstavlja sam dokument.
Avtomatski postopki iz njega izberejo ključne
besede.
Najuspešnejše so t.i. statistične metode
avtomatskega indeksiranja.
Del metod je odvisnih od jezika dokumenta.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
13
Avtomatsko indeksiranje

Običajni postopki avtomatskega indeksiranja:



blokiranje: izpuščanje besed brez vsebine (vezniki,
predlogi, prislovi, zaimki…),
krnjenje: poenotenje različnih oblik neke besede na
skupni krn,
vrednotenje besednih krnov: računanje količine
informacije (povedne moči) v njih.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
14
Avtomatsko indeksiranje
Krnjenje – uspešen in neuspešen primer:
besedne oblike: zdravilo, zdravila, zdravilom
krn:
zdravil
vendar
besedne oblike: jetra, jeter, jetrom, jetrni
krn:
jet
(prekratek)
jetr (ne vključuje vseh oblik)
Dr. Jure Dimec. Podatkovne zbirke v medicini.
15
Avtomatsko indeksiranje
Vrednotenje količine informacije v besedah:



beseda, ki zastopa pomembno vsebino dokumenta,
običajno nosi veliko količino informacije (veliko
povedno moč),
za računanje količine informacije v besedi je
pomembna frekvenca besede v dokumentu in v
zbirki dokumentov,
načeloma ima veliko informacije v nekem
dokumentu beseda, ki


je v tem dokumentu pogosta in
se pojavlja v majhnem številu dokumentov v zbirki.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
16
Iskalni modeli
Boolov iskalni model:
 prevladuje pri bibliografskih zbirkah,
 pri iskanju razdeli zbirko na enostavni množici
relevantnih (poiskanih) zapisov in nerelevantnih
(nepoiskanih) zapisov.
Ne-Boolovi iskalni modeli:
 razumejo relevantnost kot zvezno lastnost dokumenti so lahko bolj ali manj relevantni.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
17
Iskanje – Boolov model
Iskanje – Boolov model
Dr. Jure Dimec. Podatkovne zbirke v medicini.
18
Boolov iskalni model
Operatorji IN, ALI, NE (AND, OR, NOT),
 iskalna zahteva
diabetes IN insulin
poišče le zapise, ki vsebujejo oba deskriptorja;
 iskalna zahteva
diabetes tip 1 ALI diabetes tip 2
poišče vse zapise, ki vsebujejo prvega, drugega
ali oba deskriptorja.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
19
Boolov iskalni model

iskalna zahteva
diabetes NE insulin
poišče vse zapise, ki vsebujejo deskriptor
diabetes, ne pa deskriptorja insulin.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
20
Boolov iskalni model
Kritike Boolovega iskalnega modela:

z iskalno zahtevo
d1 IN d2 IN d3 IN d4
bo poiskan le zapis, ki vsebuje vse štiri
deskriptorje.
Verjetno bi bil zanimiv tudi zapis, ki vsebuje le
dva ali tri od njih.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
21
Boolov iskalni model
Kritike Boolovega iskalnega modela:

z iskalno zahtevo
d1 ALI d2 ALI d3 ALI d4
bo poiskan vsak zapis, ki vsebuje vsaj enega od
deskriptorjev.
Vsi poiskani zapisi bodo enakovredni, čeprav je
verjetno zapis z vsemi štirimi deskriptorji bolj
relevanten od tistega z enim.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
22
Ne-Boolovi iskalni modeli




Primerni za zbirke polnih, avtomatsko
indeksiranih dokumentov.
Računajo relevantnost kot podobnost med
iskalno zahtevo in dokumentom.
Podobnost dokumenta izvira iz števila besed
(krnov) skupnih iskalni zahtevi in dokumentu.
Pri računanju podobnosti se upoštevajo tudi
povedne moči skupnih besed (krnov).
Dr. Jure Dimec. Podatkovne zbirke v medicini.
23
Ne-Boolovi iskalni modeli

Če je relevantnost zvezna lastnost, potem je
mogoče:



iskalcu ponuditi seznam rezultatov iskanja rangiran
po relevantnosti,
iskalec pregleduje rangirane dokumente dokler še
najde zanimive.
Tako delujejo spletni iskalniki, npr. Google.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
24
ne-Boolovi iskalni modeli: izmišljen primer rangiranja
Iskalna zahteva:
Slike prsnega koša v anatomskih atlasih na Svetovnem spletu
D1: Oddelek za anatomijo prsnega koša je dobil novo predavalnico…
D2: Učna zbirka slik anatomije prsnega koša zdaj tudi na Spletu…
skupni krni
D1
D2
povedne moči
relevantnost
anatom
prsn
koš
2
2
3
skupaj: 7
anatom
prsn
koš
splet
slik
5
8
10
3
3
skupaj: 29
Dr. Jure Dimec. Podatkovne zbirke v medicini.
25
Uporabnost spletnih iskalnikov: Scirus





Scirus je eden redkih spletnih iskalnikov,
namenjenih resni rabi.
Pri gradnji zbirk se poskuša omejevati na
strokovne vire.
Do neke mere mu uspeva prebiti mejo globokega
spleta.
Informacije o dokumentih zbira z roboti, na enak
način, kot splošni spletni iskalniki.
Razlika je v „naboru semen”, začetnih strani s
kazalci, ki izvirajo med drugim iz ScienceDirect,
Medline, BioMed Central in US Patent Office.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
26
Uporabnost spletnih iskalnikov: Scirus


Velikost zbirk:

Google neugotovljivo velik, najmanj desetine milijard
dokumentov,

Medline ~20 milionov bibliografskih zapisov,

Scirus: 350 milijonov dokumentov.
Scirus omogoča sestavljanje iskalnih zahtev podobno, kot
iskalniki pri biliografskih zbirkah:

raba logičnih operatorjev in oklepajev,

omejevanje glede starosti, tipov in formatov dokumentov,

omejevanje glede virov dokumentov in strokovnih področij,

iskanje po poljih: au:, ti:, ke: (keywords), url:, jo (journal)...
Dr. Jure Dimec. Podatkovne zbirke v medicini.
27
Scirus: enostavno iskanje

Iskalna zahteva
H1N1 AND vaccination AND
("side effects" OR "adverse effects")
Dr. Jure Dimec. Podatkovne zbirke v medicini.
28
Scirus: omejevanje iskalne zahteve
Dr. Jure Dimec. Podatkovne zbirke v medicini.
29
Scirus: rezultati iskanja
Dr. Jure Dimec. Podatkovne zbirke v medicini.
30
Google Scholar


Google je razširil svojo ponudbo še na zbirko člankov iz
znanstvenih revij.
Polno besedilo člankov je avtomatsko indeksirano,
reference so razvrščene po relevantnosti in dodana
mreža citiranosti.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
31
Google Scholar
Kazalci
na dokumente,
ki citirajo
ta dokument.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
32
Kako sodobne zbirke povezujejo podatke...
Primera:
 Znanstvena revija Science,
 Medline (PubMed).
Dr. Jure Dimec. Podatkovne zbirke v medicini.
33
Google Scholar
Polno besedilo
Seznam kazalcev na
članke, ki citirajo
ta članek.
Dodatni načini
iskanja sorodne
vsebine.
Zanimiva funkcija!
Dr. Jure Dimec. Podatkovne zbirke v medicini.
34
Povezovanje podatkov: Medline

Medline avtomatsko odkriva in povezuje
vsebinsko sorodne, vendar oblikovno in po
izvoru zelo različne “koščke” informacij:

bibliografski opis iskanega dokumenta,

različne načine dostopa do polnega dokumenta,

kemijske in farmakološke informacije o substancah,
omenjenih v iskanem dokumentu,

informacije, namenjene pacientom, o pojavih, opisanih v
iskanem dokumentu,

dodatne informacije, namenjene zdravnikom, o pojavih,
opisanih v iskanem dokumentu…
Dr. Jure Dimec. Podatkovne zbirke v medicini.
35
Medline: dodatne informacije, povezane z iskanim dokumentom.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
36
Medline: dodatne
informacije,
povezane z iskanim
dokumentom.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
37
Medline:
dodatne
informacije,
povezane z
iskanim
dokumentom.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
38
Medline:
dodatne
informacije,
povezane z
iskanim
dokumentom
.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
39
Medline: dodatne
informacije, povezane
z iskanim
dokumentom.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
40
Medline: dodatne informacije, povezane z
iskanim dokumentom.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
41
Medline: dodatne informacije, povezane z
iskanim dokumentom.
Dr. Jure Dimec. Podatkovne zbirke v medicini.
42