Øving 5: Transaksjonshåndtering, logging og normalisering

Øving 5: Transaksjonshåndtering, logging og normalisering
Lars Kirkholt Melhus
Oppgave 1
a) ACID
Atomic
En transaksjon er en minste enhet. Alle ledd i transaksjonen må gå feilfritt for at transaksjonen skal
gjennomføres. Hvis ikke forblir databasen uendret, slik den var før transaksjonen.
Consistency
En transaksjon holder databasens tilstand konsistent, ved at nøkler, referanser, verdier og constraints
er gyldige. Under operasjonene i transaksjonen kan godt tilstanden være inkonsistent, men
tilstanden før og etter er garantert konsistent.
Isolation
Transaksjoner er uvitende om andre transaksjoner. Transaksjoner som utføres i parallell påvirker
ikke hverandre.
Durability
Når en transaksjon er gjennomført skal databasens nye tilstand holde (til en annen transaksjon
begynner).
b) Tofaselåsing
Om databasesystemet kjører tofaselåsing vil det si at når en transaksjon utføres deles tiden i to:
Først et intervall hvor låser tildeles og ingen frigjøres, deretter en periode hvor låser kun frigjøres.
Denne strategien garanterer serialiserbarhet, som igjen garanterer korrekt utførelse.
Oppgave 2
Har historiene S1 til S6. For å avgjøre om de er serialiserbare kan man skjekke at presedensgrafen
ikke inneholder sykler. En transaksjon Ti må skje før transaksjon Tj dersom RAW, WAR eller WAW.
S1: w2(X); w1(X); r3(X); r1(X); w2(Y); c1; r3(Y); r3(Z), c3; r2(X); c2;
S2: r3(Z); r3(Y), w2(Y); r2(Z); w2(X); w1(X); c2; r1(X); c1; r3(X); c3;
S3: r3(Z); w2(X); w2(Y); r1(X); r3(X); r2(Z), c2; r3(Y), c3; w1(X); c1;
S4: r2(Z); w2(X); w2(Y), c2; w1(X); r1(X); c1; r3(X); r3(Z); r3(Y); c3;
S5: r1(X); r2(X); w2(X); w2(Y); c2; w1(X); r3(Z); w1(Y); c1; r3(Y); r3(X); c3;
S6: r2(X); w2(X), r1(X); r2(Y); w1(Y); c1; r2(Z); w2(Z); c2;
a) Serialiserbarhet
Som grafene viser er S1, S3, S4 og S6 serialiserbare.
b) Recovery-egenskaper
(strict, cascadeless, recoverable, ingen av delene)
S1 og S6 er ingen av delene.
S2 er cascadeless.
S3 er recoverable, siden alle transaksjoner venter med å committe til transaksjoner som endret data
relevant for transaksjonen committer først.
S4 og S5 er strict, siden objekter som leses eller skrives av en transaksjon ikke røres av andre
transaksjoner før den første transaksjonen har committet.
Oppgave 3
Exercise 16.6
Isolasjon- og aksessnivåer i SQL
1. READ UNCOMMITTED
Dirty read er mulig, da databasesystemet tillater å lese data som ikke er committed av en
annen transaksjon, er det ingen garantier for at de ikke er oppdaterte.
Unrepeatable read er mulig, siden poster som leses ikke blir låst.
Phantom problem kan forekomme.
Eksempel på transaksjon som går bra på dette isolasjonsnivået er å finne statistikk av en stor
datamengde, da du ikke forventer at resultatet blir veldig feil fordi du kan gå glipp av
uncommitted forandringer underveis.
2. READ COMMITTED
Dirty read er ikke mulig, siden transaksjonene bare får lest ting som er committed.
Unrepeatable read er mulig, siden verdier som leses godt kan bli forandret av andre
transaksjoner.
Phantom problem kan forekomme.
Samme eksempel som over.
3. REPEATABLE READ
Dirty read er ikke mulig, siden transaksjonen låser alle felter den leser.
Unrepeatable read er ikke et problem, av samme grunn som over.
Phantom problem kan forekomme.
Alle transaksjoner som ikke skriver til databasen er trygge å kjøre her.
4. SERIALIZABLE
Dirty read er ikke mulig.
Unrepeatable read er ikke mulig.
Phantom problem kan ikke forekomme.
Alle transaksjoner går greit på dette isolasjonsnivået.
Aksessnivået til transaksjoner kan settes til READ ONLY eller READ WRITE. Ved å sette for
eksempel REPEATABLE READ READ ONLY er du sikker på konsistens, siden isolasjonsnivået er
trygt ved kun lesetilgang.
Excercise 18.1
1. Databasesystemets recovery manager sikrer at transaksjoner er «atomic» og «durable».
Dersom en transaksjon ikke committet sørger systemet for å «angre» alle operasonene
transaksjonen fikk gjort, slik at transaksjonen kan ses på som atomisk. Dersom systemet
krasjer har recovery manageren ansvar for å få databasen i en konsistent tilstand.
2. Forskjellen mellom «stable storage» og disk er at stable storage garanterer å overleve
systemfeil. I realiteten er dette tull, siden stable storage gjerne også er disklagring, men med
mange kopier på forskjellige steder for å minimere sannsynlighet for datatap. Logg er typisk
lagret på stable storage.
3. «System crash» kan for eksempel være softwarefeil som får datamaskinen til å krasje.
«Media failure» vil si at disken er fysisk ødelagt, «korrupt».
4. WAL står for Write Ahead Log, og går ut på at loggen for hva som gjøres med databasen
oppdateres før endringene faktisk utføres. På denne måten sikrer systemet seg mot datatap,
som kunne oppstått mellom oppdatering av databasen og skriving til loggen.
5. «Steal»: Dersom en pågående (uncommitted) transaksjon S er ferdig med en frame i minne
(den er unpinned) kan en annen transaksjon stjele framen hvis databasesystemet tillater å
skrive data forandret av S før S er ferdig.
«Force»: Når en transaksjon er ferdig (committed) kan databasesystemet tvinge alle
endringer til å skrives til disk. En «no-force»-policy blir da det motsatte, at endringer utført
av S ikke nødvendigvis skrives med en gang S er committed.
Exercise 18.3
1. Agoritmen ARIES tar hånd om å gjenopprette databasen i en konsistent tilstand gjennom tre
faser:
Analysis: Finner ut hvilke data som ikke har blitt skrevet til databasen og aktive
transaksjoner idet systemet krasjet.
Redo: Starter et sted i loggen og utfører alle sørringer på nytt opp til det punktet hvor
systemet krasjet.
Undo: Angre (abort) transaksjoner som ikke ble korrekt utført (uncommitted).
2. Gitt historikken på bildet over, ARIES-algoritmen vil gjøre følgende under restart:
a) I analysefasen identifiseres T1 som aktiv transaksjon. Alt de andre transaksjonene gjorde
før restart identifiseres som «dirty», dvs at T1 skriver P5 og T3 skriver P3.
b) Under redo-fasen gjøres alle operasjoner om igjen fra checkpoint fram til krasj. P3
skrives til disk siden det blir gjort av A2, som blir committed.
c) Under undo-fasen angres alle endringer gjort av T1 og T3, dvs skriving av P3 og P5.
Exercise 19.2
Har gitt relasjonen R (A, B, C, D) med avhengighetene: A → B, BC → E og ED → A.
1. C og D er nøkler i R, de har ingen inn-piler. En må vite en av A, B og E for å bestemme alle,
så alternativene blir CDA, CDB eller CDE.
2. R er i 3NF siden A → B, BD → E og ED → A alle inneholder deler av nøkkelen på
høyresiden.
3. R er ikke i BCNF, siden det krever at alle avhengigheter er enten trivielle eller er på formen
superkey → felt. En superkey er en nøkkel som definerer alle andre feltene i relasjonen, dvs
enten CDA, CDB eller CDE. Ingen av FD-ene for R oppfyller dette kravet.
Exercise 19.5
Har en relasjon R(A, B, C, D, E, F, G, H, I), ser på oppdelinger R1 – R5.
1. R1(A, C, B, D, E) : A → B, C → D
Nøkkelen her er ACE. Avhengighetene oppfyller ikke kravet til 3NF, siden verken B eller D
er en del av nøkkelen. Alle feltene er atomiske, R er på 1NF.
Dekomponering til BCNF: Algoritmen er enkel; Så
lenge det finnes avhengigheter X → A som ikke
oppfyller BCNF, del opp i R – A og XA. Først
«fjerner» vi A → B, og lager AB og ACED (R – B).
Videre det samme med C → D som gir ACE og CD.
AB, ACE og CD er R på BCNF.
2. R2(A, B, F) : AC → E, B → F
Nøkkel er AB. R2 er på 1NF. Dekomponering til BCNF gir BF, AB.
3. R3(A, D) : D → G, G → H
Nøkkel er AD, relasjonen er allerede på BCNF.
4. R4(D, C, H, G) : A → I, I → A
Nøkkel er DCHG, igjen er relasjonen ferdig på BCNF.
5. R5(A, I, C, E) : Ø
Her må alle feltene være nøkkel, siden det ikke finnes avhengigheter. R5 er på BCNF.
Exercise 19.6
Har relasjonen S (A, B, C) med følgende data:
A
B
C
1
2
3
4
2
3
5
3
3
1. a) A → B holder, siden alle A-verdier er unike.
b) BC → A holder ikke, siden (2,3) for B og C gir både 1 og 4 for A
c) B → C holder, B lik 2 eller 3 gir C lik 3.
2. Andre avhengigheter som holder over S:
AC → B
AB → C
Exercise 19.10
Har relasjonen R (A, B, C, D).
1. B → C, D → A. Oppdeling: BC og AD
Nøkkelkandidater: AB
Oppdelingen fungerer dårlig siden man taper informasjon ved join. Dvs, en join mellom BC
og AD blir mye mer enn den opprinnelige relasjonen ABCD.
2. AB → C, C → A, C → D. Oppdeling: ACD og BC
Nøkkelkandidater: BC eller BA.
Oppdelingen er tapsfri, siden ACD ∩ BC = C, og C er nøkkel i den første relasjonen ACD.
Den inneholder derimot ikke avhengigheten AB → C, siden det er C som er nøkkel i ACD.
3. A → BC, C → AD. Oppdeling: ABC, AD
Nøkkelkandidater: A eller C.
Relasjonen er allerede på BCNF, siden både C og A fungerer som superkey.
Oppdelingen er lossless, siden ABC ∩ AD = A, men avhengigheten C → AD mistes og det
er liten vits i å dele opp relasjonen som allerede var på BCNF.
4. A → B, B → C, C → D. Oppdeling: AB og ACD
Nøkkelkandidater: A.
Relasjonen er verken på BCNF eller 3NF, når vi har C → D og ACD. Kravet for 3NF er at
enten C er en superkey, eller at D er en del av en nøkkel, som ikke oppfylles.
Igjen, lossless oppdeling, men avhengigheten B → C mistes og det er ikke på 3NF.
5. A → B, B → C, C → D. Oppdeling: AB, AD, CD
Nøkkelkanidater: A.
Oppdelingen er lossless; (AB ∩ AD) ∩ CD = B ∩ CD = C ∩ CD = C, men tar ikke vare på
avhengigheten B → C. En bedre oppdeling (også BCNF) er AB, BC, CD.