Klasifikator Naivni Bayes

Klasifikator Naivni Bayes
Odkrivanje zakonitosti v podatkih
UNG, 2015
Vid Podpečan
Vsebina
●
Bayesova formula
●
Bayesova formula kot napovedni model (Naivni Bayes)
●
ocenjevanje verjetnosti
●
vaje
Verjetnost – kratka ponovitev
●
verjetnostni poskus
●
●
●
poskus, katerega rezultat je odvisen od naključja (npr. met kovanca)
dogodek
●
pojav, ki se v verjetnostnem poskusu lahko zgod (npr. pade cifra)
●
dogodku pripada množica izidov
–
ugodni izidi: dogodek se je zgodil
–
neugodni: dogodek se ni zgodil
če so vsi izidi dogodka A enako verjetni
●
verjetnost dogodka A:
Primer
●
●
met kocke: pade šestica
●
ugodni izidi: {6}
●
vsi izidi: {1,2,3,4,5,6}
●
verjetnost dogodka:
med kartami izberemo figuro (fant, dama, ali kralj)
●
ugodni izidi: {fant, dama, kralj} - za vse štiri barve (3x4=12)
●
vsi izidi: {1,...,52} - toliko je kart
●
verjetnost dogodka:
Dogodki
●
nezdružljiva dogodka
●
●
neodvisna dogodka A in B
●
●
●
se ne moreta zgoditi hkrati
A ne vpliva na verjetnost B
verjetnost unije dogodkov (A ali B ali oba)
●
nezdružljiva:
●
splošno:
presek dogodkov (A in B hkrati)
●
neodvisna:
●
odvisna:
pogojna verjetnost
Pogojna verjetnost
●
P(B|A)
●
●
če sta A in B neodvisna
●
●
verjetnost, da se zgodi B, če vemo, da se je zgodil A
P(B|A) = P(B)
primer
●
mečemo par kock
●
kakšna je verjetnost, da je na eni kocki 2, če vemo, da je vsota 6
●
dogodek A: vsota je 6
●
dogodek B: na eni kocki je 2
Primer (met kock)
●
dogodek A se je zgodil: vsota je 6
●
●
ugodni izidi: {(1,5), (2,4), (3,3), (4,2), (5,1)}
dogodek B: na eni kocki je 2
●
ugodi izidi: {(2,1), (2,2), (2,3), (2,4), (2,5), (2,6),
(1,2), (3,2), (4,2), (5,2),(6,2)} - 11 možnosti
●
P(B|A) = 2/5 = 0.4 = 40 %
Bayesova formula
●
izhajamo iz obeh pogojnih verjetnosti
enako
Bayesova formula
Bayes kot napovedni model
●
podatki: bančno posojilo
lastnik hiše
stan
letni
dohodek
POSOJILO
1
da
samski
visok
DA
2
da
poročen
srednji
DA
3
ne
ločen
visok
NE
4
da
poročen
nizek
NE
5
da
ločen
srednji
????
nov primer, za katerega želimo napovedati posojilo
●
dogodek A, ki se je zgodil: vrednosti atributov
●
dogodek B: posojilo
katera
verjetnost je
večja?
Kako izračunati verjetnosti?
obakrat enako, ne
vpliva na verjetnost
enostavno: preštejemo v tabeli
težava: izračunati moramo verjetnosti
za vse kombinacije parov vrednosti atributov in razreda
Imamo premalo učnih podatkov!
Kako izračunati verjetnosti?
REŠITEV: predpostavka naivnosti (Naivni Bayes)
predpostavimo, da so pri dani vrednosti razreda
atributi pogojno neodvisni
enostavno: preštejemo v tabeli!
Naivni Bayes, formalni zapis
(dve obliki)
●
V – vektor vrednosti atributov < v1,....., vn >
●
C – razred, možne vrednosti {c1,....,ck}
Ocenjevanje verjetnosti
Ocenjevanje verjetnosti: primer
●
dvakrat vržemo pošten kovanec
●
dvakrat pade grb
●
relativna frekvenca:
●
Laplace:
●
m-ocena
●
vemo da je kovanec pošten: p0 = 0.5
●
m = 100, ker dajemo večjo utež našemu znanju, ne podatkom