Tekstovne podatkovne zbirke

Tekstovne podatkovne zbirke
Zvrsti,
opisovanje vsebine,
bibliografske zbirke.
Tekstovne zbirke - uvod

Velik del informacij v znanosti (tudi v
medicini) je tekstovne narave.





tiskane publikacije, e-publikacije,
diagnoze,
poročila o posegih,
razlage nebesedilnih informacij...
Tudi za take informacije veljajo vse posledice
informacijske eksplozije, zato postanejo
obvladljive šele z uporabo informacijskih
orodij.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
2
Zvrsti tekstovnih zbirk


Bibliografske zbirke.
Zbirke polnih “besedil”:




nestrukturirana besedila,
hipertekstni in
multimedijski dokumenti.
Kratki tekstovni podatki so vključeni tudi v
tabele relacijskih zbirk, ki so vsebina enega
naslednjih predavanj.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
4
Bibliografske zbirke



Najstarejša in, v znanstvenem informiranju, še vedno
najpomembnejša oblika tekstovne podatkovne zbirke.
Bibliografski zapis vsebuje osnovne podatke o
dokumentu.
Načini uporabe:



informacijska potreba vsebinske narave – t.i. retrospektivne
poizvedbe,
iskanje po imenih avtorjev ali inštitucij – bibliografije,
vrednotenje raziskovalnega dela...
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
5
Bibliografske zbirke


Uporaba bibliografske zbirke je samo korak pri
zadovoljitvi informacijske potrebe.
Povezava s knjižnico:



v bibliografski zbirki izvemo za obstoj dokumenta,
ki ustreza informacijski potrebi,
dokument dobimo v knjižnici, lahko z
medknjižnično izposojo.
Vedno pogosteje bibliografski zapis vsebuje
spletni kazalec na polni dokument.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
6
Bibliografske zbirke, primer
...
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
7
Bibliografske zbirke
Bibliografska zbirka ni knjižnični katalog:
 bistvo knjižničnega kataloga so t.i. lokacijski
podatki - pozicija in zaloga enot gradiva v
knjižnici,
 knjižnični katalogi vsebujejo podatke o knjigah,
zbornikih, revijah, zelo redko podatke o člankih.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
8
Bibliografske zbirke: opisovanje vsebine dokumentov






Iskanje po tekstovni zbirki je najpogosteje iskanje po
vsebini dokumentov.
Vsebina dokumenta mora biti opisana v
bibliografskem zapisu v zbirki.
Elementi opisa vsebine - ključne besede ali
deskriptorji.
Postopek imenujemo indeksiranje.
Indekser uporablja elemente opisa vsebine za
opisovanje vsebine dokumenta.
Iskalec uporablja elemente opisa vsebine za izražanje
svoje informacijske potrebe.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
9
Bibliografske zbirke: opisovanje vsebine dokumentov



Iskanje in indeksiranje - zrcalna postopka.
Med indeksiranjem dokumenta indekser
poskuša uganiti ključne besede ali
deskriptorje, ki bi jih iskalec uporabil, če bi
hotel poiskati dani dokument.
Indekser in iskalec pri klasičnem indeksiranju
in iskanju uporabljata tezaver.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
10
Tezaver



Tezaver je seznam deskriptorjev in navodil za
njihovo uporabo.
Deskriptorji v tezavru so povezani s
semantičnimi relacijami, najpogosteje so to
hierarhične relacije.
Deskriptorji tvorijo umeten informacijski jezik:


za vsak pojem obstaja en sam deskriptor
(kontrola sinonimov),
vsak deskriptor opisuje en sam pojem (kontrola
homonimov).
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
11
Bibliografske zbirke: Medline






Največja bibliografska zbirka v biomedicini,
avtor: National Library of Medicine (NLM),
Bethesda, ZDA,
redno nastaja od l. 1947,
na voljo v e-obliki za obdobje 1966 – danes,
vključeni bibliografski podatki o člankih iz
5.400+ biomedicinskih revij,
v zadnjih letih 76% zapisov z izvlečkom v angl.,
prej pribl. 50%.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
12
Bibliografske zbirke: Medline






> 50% zapisov ima kazalce na polne dokumente,
večinoma na spletišču založnika revije.
Velikost: ~20.000.000 bibliografskih zapisov,
trend naraščanja: 2000+ / dan,
450.000+ / leto.
Vsak bibliografski zapis vsebuje opis vsebine
dokumenta,
opis vsebine narejen z vsebinskimi koncepti iz
tezavra MeSH.
MeSH = Medical Subject Headings.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
13
Tezaver MeSH

Kaj je vsebinski koncept?




najmanjša enota znanja, zapisana z besedami ali
besednimi zvezami,
koncept ima samostojen pomen,
koncept opisuje nek konkreten objekt ali pojem.
Vsebinski koncept v MeSH:


vsebinski koncept vključuje vse sinonime in
leksične variante (načine zapisovanja),
en sinonim je izbran kot “prednostno ime”
koncepta in ga imenujemo deskriptor.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
14
Tezaver MeSH
Vsebina je v bibliografskem zapisu opisana z
 deskriptorji in kvalifikatorji, npr
myocardial infarction / drug therapy
deskriptor


kvalifikator
(kvalifikatorji podrobneje omejijo vsebinski
obseg deskriptorja),
pomožnimi koncepti, pretežno kemijske in
farmakološke narave.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
15
Tezaver MeSH
Face [A01]
Cheek
Chin
Eye
Forehead
Mouth
Nose
Respiratory System [A04]
Larynx
Lung
Nose
Nasal Bone
Nasal Cavity
Nasal Mucosa
Nasal Septum
Sense Organs [A09]
Ear
Eye
Nose
Olfactory Mucosa
Vomeronasal Organ
Taste Buds
Deskriptorji so zelo pogosto uvrščeni na različna
mesta istega hierarhičnega drevesa
– primer deskriptorja Nose v hierarhiji Anatomy.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
16
Tezaver MeSH




Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
Deskriptorji
(koncepti) v tezavru
MeSH so urejeni
hierarhično.
Vseh hierarhij je 15.
En deskriptor je lahko
uvrščen v več ločenih
hierarhij, npr.
Creutzfeldt-Jakob
syndrome
je lahko
C10 - Nervous System
Diseases ali
F3 - Mental Disorders
17
MeSH: primer hierarhične pozicije deskriptorja
Norepinephrine
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
18
Tezaver MeSH

Tezaver MeSH se uporablja pri



indeksiranju in
iskanju.
Javno je dostopen na spletnem naslovu
http://www.nlm.nih.gov/mesh/MBrowser.html

Med iskanjem njegova hierarhična narava
pomaga pri


navigaciji ob izbiri ustreznih deskriptorjev,
širjenju ali oženju iskalne zahteve.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
19
Medline






Podatki iz zbirke Medline so pri proizvajalcu
(NLM) načeloma zastonj.
Obstajajo številne implementacije komercialnih
ponudnikov.
Spletna implementacija na NLM je zastonj.
Uporabniški vmesnik relativno neprijazen.
Največja pomanjkljivost: pregledovalnik za
MeSH ni del uporabniškega vmesnika.
Spletna implementacija PubMed na strežnikih NLM:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
20
Medline - PubMed
Primer
enostavnega
iskanja:
uporabljen
deskriptor
cardiovascular
abnormalities.
Rezultati so v
obliki
bibliografskih
zapisov.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
21
Medline - PubMed Rezultat iskanja je lahko tudi polni dokument.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
22
Biomedicina Slovenica





Največja specializirana bibliografska zbirka pri
nas.
Gradi jo Inštitut za biomedicinsko informatiko
MF.
Pokriva ista vsebinska področja kot Medline.
Veljajo ista načela gradnje, vključno z MeSH,
kot pri Medline.
Vključuje dela slovenskih avtorjev objavljena pri
nas in po svetu in dela tujih avtorjev, objavljena
pri nas.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
23
Biomedicina Slovenica



V računalniški obliki nastaja od leta 1976!
2010: v zbirki nad 145.000 zapisov.
Dostopna zastonj na spletnem naslovu
http://bswww.mf.uni-lj.si/pls/bs/bs_frm?lang=SLO
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
24
Biomedicina
Slovenica
Rezultati iskanja z
iskalno zahtevo
Avtor = Kansky A
in
Deskriptor =
SKIN DISEASES,
VESICULOBULLOUS
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
25
Biomedicina Slovenica
Rezultat iskanja
je lahko tudi
polni dokument.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
26
Zbirke polnih dokumentov




Bibliografski zapis je nadomestek pravega
nosilca informacij.
Bibliografski zapis le opozarja na dokument.
Informacijski potrebi lahko zadosti le polni
dokument.
V sodobnih tekstovnih zbirkah


bibliografske nadomestke zamenjujejo polni
dokumenti, ali pa
bibliografski zapis postane kazalec, ki omogoča
dostop do polnega dokumenta.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
27
Hipertekst, multimediji





Strokovni dokument ni linearno branje.
Nevidna struktura strokovnega
dokumenta je semantična mreža.
Tudi dokumenti v zbirki so na nek način
povezani s semantično mrežo.
Strokovni dokument ni samo besedilo.
Naravna načina zapisa strokovnih
dokumentov sta hipertekst in multimediji.
Informatika (2010 / 2011): J. Dimec: Tekstovne podatkovne zbirke
28