Detektion av SNP i DNA-sekvenser

Detektion av SNP i DNA-sekvenser
by
Deniz Kaya, Ingemar Schwind och Anna Stenquist
Internrapport nr. 2003:6
UPPSALA UNIVERSITET
UPPSALA UNIVERSITY
Inst. för informationsteknologi
Information Technology
Avd. för teknisk databehandling
Dept. of Scientific Computing
Sammanfattning
Projektets m
al ar att hitta en battre metod att detektera SNPar(Single
uttalas 'snipp'). En SNP ar en position dar
DNA-sekvensen skiljer sig at p
a samma position i ett kromosompar1 .
SNParna ska hittas i kromatogram som ar utdata fr
an sekvenseringsmaskinerna.
For att nna SNP har karakteristiska drag som ar unika for SNP tagits
fram. Dessa parametrar undersoks sedan for varje topp i kromatogrammen. For att en topp ska klassas som SNP har det antagits att alla dessa
parametrar ska vara uppfyllda. Topparna detekteras med samma metod
som nns implementerad i programmet LifeTrace [4]. Den fardiga metoden nner cirka 90 % av SNParna. Tyvarr markerar den ocks
a SNPar p
a
positioner dar det inte ar SNPar. Det blir ungefar 1,4 icke SNP per SNP
som klassas som SNP.
Nucleotide Polymorphism,
1 Hos m
anniskan ar DNA-strangarna lagrade i kromosomer. Kromosomer forekommer
i par. Kromosomerna i ett par inneh
aller ungefar samma DNA-sekvenser (undantag:
konskromosomer).
1
INNEHALL
INNEH
ALL
Innehall
1
Inledning
2
Metodik
4
3
Teori
5
4
Utf
orande
7
5
Resultat
11
6
Utv
ardering av resultat
13
7
T
ankbara f
orb
attringar
13
8
Tack
14
1.1
1.2
1.3
1.4
Bakgrund . . . . . .
Kromatogram . . . .
SNP . . . . . . . . .
Problemformulering
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.1 Hitta topparna . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Bassekvensering . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 SNPdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Toppdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Bassekvensering . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 SNPdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
3
3
3
4
4
4
5
5
5
6
6
1 INLEDNING
1 Inledning
1.1
Bakgrund
DNA ar en forkortning av deoxyribonucleic acid, en sammansattning av de - borttaget, -oxi - syre, -ribo - ribos och nukleinsyra. Det vill saga, en nukleinsyra som
byggs upp av en l
ang kedja av ribos-molekyler som f
att en syreatom borttagen.
DNA utgor genomet hos alla kanda organismer och aven vissa virus. De fyra
olika baserna som en DNA-sekvens ar uppbyggd av ar A(Adenin), C(Cytosin),
G(Guanin) och T(Tymin).
Idag ar DNA-sekvensering en helt automatiserad process som utfors av maskiner exempelvis MegaBace och ABI. Processen bygger p
a att kopior skapas
av den DNA-strang som ska undersokas. Dessa kopior har egenskaperna att de
borjar med samma sekvens men ar av slumpvisa langder och ar markta med en
uoroserande agga som absorberar ljus. Flaggan ar olika for olika strangar men
alla strangar som slutar med samma bas har samma agga. For att undersoka
DNA-strangarna anvands elektrofores. I elektrofores f
ar molekyler vandra genom en gel i ett elektriskt falt. Det sker d
a en separation mellan molekylerna eftersom molekyler med hog laddning vandrar snabbare an de med l
ag [4].
En langre DNA-molekyl har en hogre laddning. P
a en plats i gelen belyses de
forbivandrande molekylerna och intensiteten for varje bas sparas i ett kromatogram (gur 1). Topparna i kromatogrammet motsvarar en bas i DNA-strangen.
DNA-sekvensen kan lasas av genom att titta p
a ordningen p
a topparna i kromatogrammet.
1.2
Kromatogram
Ur sekvensieringsmaskinen f
as kromatogram.
Ett kromatogram ar en
graf med fyra kurvor,
en for varje bas. Kurvorna inneh
aller intensiteten for respektive bas
vid en given tidpunkt.
Eftersom DNA-strangar
vandrar olika fort beroende p
a hur l
anga de ar
motsvarar en viss posi- Figur 1: Ett kromatogram ar en graf med 4 kurvor.
tion i tiden en position i Kurvorna inneh
aller intensiteten for respektive bas.
genomet. I ett kromatogram antas topparna vara normalfordelade. Ofta tas tv
a kromatogram fram nar
en DNA-sekvens ska bestammas, en for varje DNA-strang. Detta gors for att
f
a hogre nogrannhet. Kromatogrammet kan visualiseras tv
adimensionellt dar xaxeln representerar positionen i strangen och y-axeln representerar motsvarande
intensitet, (gur 1).
3
2 METODIK
1.3
1.3 SNP
SNP
En SNP ar en plats i genomet dar det sitter tv
a olika baser p
a samma plats i de
olika kromosomerna. Detta hander ungefar en g
ang p
a tusen baser. I gur 2 visas
hur det kan se ut i kromatogrammet vid en SNP position i DNA-sekvensen. Vad
som gor SNParna intressanta ar att de kan fungera som markorer for genetiskt
betingade sjukdomar som t.ex. schizofreni, sjuklig fetma och alkoholism.
1.4
Problemformulering
Ett problem for forskare ar att de program som anvands idag inte detekterar
SNPar med tillrackligt hog precision. En vanligt forekommande programvara
ade missar och markerar SNPar dar de inte ska vara.
ar PolyPhred [3] som b
Darfor kravs en nogrann visuell studie av kromatogrammet for att en SNPdetektion ska kunna faststallas.
Projektets m
al ar att nna en battre metod att detektera SNP.
Figur 2: Position 1933 ar en SNP. En SNP best
ar av tv
a toppar som har halva
topphojden jamfort med intilligande toppar.
2 Metodik
Detektering av SNP kan delas in i tre deluppgifter:
2.1
Hitta topparna
En bas i genomet kommer att se ut som en topp i kromatogrammet. Det ar
lampligt att borja med att hitta positionerna for topparna. Metoden for toppdetektion som implementerats ar samma som anvands i programmet Lifetrace
[4].
4
3 TEORI
2.2
2.2 Bassekvensering
Bassekvensering
M
alet med bassekvenseringen ar att bestamma vilken bas som sitter i vilken
position.
2.3
SNPdetektion
Nar positionerna for baserna ar kanda undersoks varje bas for att kontrollera
om det ar en SNP eller inte. Baserna klassas nu med hjalp av statistik p
a dess
karaktaristiska egenskaper som enkelbas eller SNP.
3 Teori
3.1
Toppdetektion
Positionerna for baserna detekteras med hjalp av metoden som nns implementerad i programvaran LifeTrace [4]. Kurvorna bearbetas s
a att de blir spetsigare
for att lattare kunna hitta positionen for toppen. I varje punkt undersoks hur
topplik kurvan ar genom att titta p
a korrelationen mellan kurvan i ett par punkter och en gausskurva (ekvation 1 och 2). Kromatogrammet nns sparat i en
matris T dar varje rad motsvarar en bas.
r(bas; pos) =
bas; j ); NF )
pvarcov((TT((bas;
j ))var(NF )
NF (i) =
p1
j = pos 3; pos 2; :::; pos + 3 (1)
i 2
1
e 2()
i = 3; 2; : : : ; 3
(2)
2
Standardavvikelsen i formeln for gausskurvan NF satts till 3,5. Observera
att NF endast motsvarar toppen av en gausskurva eftersom det ar den man
vill hitta. Topplika regioner kommer att f
a en korrelation nara 1, monotona
regioner kommer att f
a en korrelation nara 0 och konkava regioner kommer att
f
a en korrelation nara -1. Korrelationen skalas om s
a att vardet kommer att
ligga mellan 0 och 1.
(r(T [bas; postion]; NF ) + 1)
2
Korrelationsvardena multipliceras med kurvornas orginalvarden.
R[bas; position] =
f (bas; position) = R[bas; position] T [bas; position]
(3)
(4)
P
a detta satt straas icke topplika regioner och kurvorna blir spetsigare. De
fyra kurvorna kombineras nu till en kurva. Detta ges med hjalp av ekvation.
sX
f (bas; position)
LT (position) =
4
4
bas
5
(5)
3 TEORI
3.2 Bassekvensering
P
LT undersoks for att hitta toppostionerna(se gur 3). I princip ar LT maxvardet
av varje position i f. Det beror p
a att f 4 max(f )4 om ett f-varde ar mycket storre an de andra (detta galler inte for SNPar). Topparna hittas genom att
hitta nollstallen till derivatan av LT.
Figur 3: LT tillsammans med ett kromatogram. Har syns att LT ar spetsigare
an intensitetskurvorna i kromatogrammet.
3.2
Bassekvensering
For att bestamma bassekvensen beraknas forst arean och S for varje topposition
j. Arean beraknas i ett fonster om sju punkter.
A(bas; j ) =
X T (bas; i)
j +3
i=j
3
Sbas;j = R(bas; j ) A(bas; j )=
X A(i; j)
4
(6)
(7)
i=1
Basen vid toppositionen satts till den bas som har storst varde p
a S. Men
om arean for den basen ar den tredje eller fjarde i storlek satts den basen till
N, som betyder nukleotid. D
a antas basen obestambar.
3.3
SNPdetektion
En stor del av arbetet har g
att at till att hitta de sardrag som karakteriserar
SNP. Ett problem ar att hitta sardrag som bara karakteriserar SNP och inte
andra toppar. Ett annat problem ar att det nns m
anga toppar som ser ut som
SNP men som inte ar det utan beror p
a storningar fr
an omgivande toppar.
En ideal SNP har ett par tydliga sardrag:
6

4 UTFORANDE
Den best
ar av tv
a toppar som ar ungefar lika hoga.
De tv
a topparna ar i fas med varandra, det vill saga centrerade runt samma
x-position.
Topparna ska ligga i fas med ovriga toppar, det vill saga toppavst
andet
ska vara konstant.
Intensiteten for de tv
a topparna var for sig ar ungefar halften s
a hog som
intensiteten for narliggande toppar.
Verkligheten ar dock aldrig s
a enkel. Topparna i kromatogrammen ar ofta olika hoga vilket gor det sv
art att veta vad som ar halva topphojden. Dessutom
behover inte topparna vara centrerade kring samma x-position, utan de kan vara
n
agot ur fas med varandra.
For att hitta SNParna m
aste de parametrar de karakteriseras av hittas.
Foljande parametrar av betydelse har hittats:
Dierensen mellan de tv
a storsta areorna dividerat med den totala arean
av alla baser vid en topp. I texten kommer det att refereras till denna
parameter som areakvot.
Avst
andet mellan de tv
a topparna som ligger runt en topp. Vardet delas
med medelvardet av detta avst
and for hela kromatogrammet och kvadreras. Parametern kallas toppdist.
Kvoten mellan de tv
a storsta S-vardena (ekvation 7) (S-kvot ) for varje
topp.
Kvoten av dierensen mellan de tv
a storsta vardena p
a f och det storsta
vardet p
a f for varje topp. Denna parameter kallas hojdskillnad.
max(f )
LT
max(f )
fmLT.
I texten kommer det att refereras till denna parameter som
4 Utforande
All berakning sker i programmeringsspr
aket MATLAB. Forst beraknas r, R, f
och LT (ekvation 1 - 5). Nasta steg ar att utifr
an LT hitta topparna. Darefter
beraknas arean och S och basordningen bestams (ekvation 6 - 7). Nar alla dessa
parametrar har beraknats kan de parametrar som beskrivs i avsnitt 3.3 tas fram.
Genom att studera de olika parametrarna framtrader karaktaristiska egenskaper for SNPar. Dessa kan anvandas for ltrering av toppar som inte har
SNP-karakteristika (se avsnitt 3.3). Borjan och slutet i varje kromatogram inneh
aller mest brus. Ibland kapas dessa intervall bort for hand. Nedan foljer
en mer detaljerad forklaring av analysen av kromatogramdata med tillhorande
gurer:
7

4 UTFORANDE
P
For en vanlig topp blir LT max(f ). Detta beror p
a att f 4 max(f )4
om en topp ar mycket storre an de andra. For en SNP stammer inte approximationerna eftersom ingen topp dominerar. Darfor ar fmLT ungefar
lika med noll for en vanlig topp, men ett lagre varde f
as for en SNP. En
graf av fmLT for len ex8-143rev nns i gur 4. I guren urskiljs tv
a lokala
minima. Lokala minima av fmLT sparas i en indexvektor index1.
Figur 4: Graf av fmLT. Har framtrader tv
a lokala minima tydligt. Det till vanster
ar en SNP.
Areakvot kommer att vara l
ag for SNPar eftersom skillnaden mellan areorna (topphojderna) ar l
ag for SNPar. I gur 4 framtrader areakvot for vissa
toppositioner som lokala minima. Positionen for det minsta vardet av sju
p
a varandra foljande varden i areakvot sparas i en indexvektor index2.
Figur 5: Graf av areakvot. Har framtrader m
anga lokala minima.

Aven
ur S-kvot tas det lokala maxima fram och sparas i index-vektorn
index3. S-vardet (ekvation 7) sager n
agot om hur topplik och hur stor
area en kurva har runt en position. Kromatogrammen har stora S-varden
for toppar och sm
a for andra punkter. S-kvot kommer darfor vara stor for
icke SNPar och ungefar ett for SNPar.
Kvoten hojdskillnad ar stor for en icke SNP och liten for en SNP. Vektorn
index4 kommer att inneh
alla positionen till maxvarden av parametern
8

4 UTFORANDE
hojdskillnad i en omgivning av 20 toppar kring en topposition, 10 toppar

till hoger respektive till vanster om positionen i fr
aga (gur 6). Aven
har
framtrader vissa toppar mer an andra.
Figur 6: Graf av hojdskillnad.
En indexvektor som ar av betydelse ar index5. I den nns de toppositioner
som har ett varde over 0.79 for parametern toppdist. Gransen p
a 0.79 har
sats efter en studie av den traningsdata som har funnits tillganglig.
En sista indexvektor index6 inneh
aller index till de 25 storsta vardena av
hojdskillnad.
Endast de toppar som bildar snittet av alla indexvektorer antas vara SNPar,
dvs res-index = index1 \ index2 \ index3 \ index4 \ index5 \ index6.
Figur 7 best
ar av tre grafer: fmLT, hojdskillnad och areakvot. SNP positionen
markeras med en fyrkant och text. Kurvan fmLT och areakvot har kryss respektive stjarnor p
a de positioner som nns i index1 \ index2. Kurvan hojdskillnad
har trianglar p
a de positioner som nns i res-index. Som framg
ar av guren detekteras ytterligare tv
a mojliga SNP positioner forutom den riktiga. Det kravs
en parameter till for att gora ytterligare ltrering. Det nns dock ett fall d
a
algoritmen fungerar perfekt p
a traningsdata forutsatt att en manuell rensning
av borjan och slutet av kromatogrammet har gjorts (gur 8).
9

4 UTFORANDE
Figur 7: Graf av hojdskillnad, fmLT, areakvot. Nytt-index ar de positioner dar
b
ade areakvot och fmLT har lokala minima. Res-index ar de positioner dar SNP
markeras. Positionen for en 'riktig SNP' nns markerad i guren.
Figur 8: Samma som ovan men med ett annat kromatogram.
10
5 RESULTAT
5 Resultat
Metoden hittar de esta SNParna. Den data som har anvants i tabell 1 inneh
aller
klassicerade SNPar2 . Data i tabell 2 inneh
aller endast SNP positioner3 . Nedan
foljer tabeller med resultat.
Filnamn
ex8-124rev
ex8-139for
ex8-142rev
ex8-143rev
ex8-146rev
ex8-16rev
ex8-178rev
ex8-179rev
ex8-180rev
ex8-198rev
ex8-210rev
ex8-224rev
ex8-228rev
ex8-91rev
ex8-94rev
ex8-95rev
ex8-236arev
ex8-236brev
ex8-94rev
Kvalitet
p
u
l
p
p
pp
uuu
u
l
lp
lu
p
l
p
u
u
p
p
u
Hittade SNP
p
u
l
p
p
pp
uuu
u
l
lp
lu
p
l
u
u
p
-
Antal felklassade icke SNP
1
1
2
2
2
0
1
3
2
0
1
0
1
0
0
2
0
2
1
Tabell 1: Resultat av korning for klassade SNPar. Av kvalitetsvardena st
ar l for
likely, p for probable, u for unlikely. Streck betyder missad SNP. Att det ibland
st
ar mer an en bokstav beror p
a att ett kromatogram inneh
aller era SNPar.
2 Klassiceringen utf
ord av
3 Positionerna f
or SNParna
Martti Tammi p
a Karolinska Institutet.
a Karolinska Institutet.
ar framtagna av Shane McCarthy p
11
5 RESULTAT
Filnamn
Pat4R2N
Pat4F2N
CXCR1R2NPat15
CXCR1F2NPat15
CXCR1F2NCont13
Pat4R7N
CXCR1F7N2PatS
CXCR1F8NZ
CXCR1F8NPat14
CXCR1R8NX
CXCR1R8NPat12
Hittade SNP
ja
ja
ja
nej
ja
ja
ja
ja
ja
nej
ja
Antal felklassade icke SNP
4
3
3
1
2
3
2
4
2
1
3
Tabell 2: Resultat av korning for icke klassade SNPar.
Tabell 3 inneh
aller resultat av korningar p
a slumpmassigt urvalda kromatogram som inte inneh
aller n
agra SNPar.
Filnamn
ex8-100for
ex8-49rev
ex8-56for
ex8-66for
ex8-230rev
ex8-78fora
ex8-149rev
ex8-14for
ex8-150rev
ex8-31for
ex8-2rev
ex8-82for
ex8-83rev
ex8-117rev
ex8-7for
ex8-119for
ex8-109rev
ex8-10for
ex8-10rev
ex8-247for
ex8-110rev
ex8-24for
ex8-111rev
Antal felklassade icke SNP
1
0
0
0
0
1
2
0
0
0
2
0
1
0
0
0
0
0
0
0
0
0
1
Tabell 3: Resultat av korning for kromatogram utan SNPar. Kromatogrammen
ar slumpmassigt utvalda.
12
 A TTRINGAR
7 TA NKBARA FORB
6 Utvardering av resultat
Metoden lyckas klassa 90 % av SNParna ratt. Daremot blir det ungefar 1,4
felklassningar per riktig SNP. Av de parametrar som anvands ar hojdskillnad
den mest selektiva. Det skulle vara interesant att ha mer traningsdata eftersom
35 ler med SNPar inte ger underlag for p
alitlig statistik.
7 Tankbara forbattringar
Under arbetets g
ang har ett par ideer dykt upp som aldrig hunnit genomforas.
Jamfora fram- och baklanges sekvensieringen av DNA-sekvensen. Om b
ada
inneh
aller samma SNP blir resultatet sakrare men om SNPn bara nns i
ett kromatogram kan den forkastas.
Ta mer hansyn till omgivningen. Den felklassning som beskrivs i gur
9 skulle kunna forsvinna. Tidigare hoga toppar kan p
averka intensiteten
i senare punkter i kromatogrammet. I guren syns b
ade l
aga felaktiga
toppar och ett plant omr
ade for basen Tymin (T).
Figur 9: Felaktigt klassad SNP pga brus i basen Tymin (T).
Vikta parametrarna olika. Nu antas alla parametrar vara lika viktiga och
dessutom nodvandiga for att en topp ska klassas som SNP.
13
8 TACK
8 Tack
Till sist skulle forfattarna vilja tacka Shane McCarthy och v
ara handledarna
fr
an Karolinska Institutet Marti Tammi, Erik Arner och Daniel Nilsson for all
hjalp!
14
REFERENSER
REFERENSER
Referenser
[1] Brent Ewing, LaDeana Hillier, Michael C. Bender, Phill Green, BaseCalling of Automated Sequencer Traces Using Phred I. Accuracy Assignemnt, ISSN 1054-9803/98 , Cold Spring Harbor Laboratory Press 1998,
sid. 175-185.
[2] Brent Ewing, Phill Green, Base-Calling of Automated Sequencer Traces
Using Phred II. Error Propabilities, ISSN 1054-9803/98 , Cold Spring
Harbor Laboratory Press 1998, sid. 186-194.
[3] Deborah A. Nickerson, Vincent O. Tobe, Scott Taylor PolyPhred:
automating the detection and genotyping of single substitutions using
uorescence-based resequencing, Nucleic Acid Research, Vol. 25, No 14,
Oxford University Press 1997, sid. 2745-2751.
[4] Dirk Walter, Gabor Bartha Basecalling with LifeTrace, ISSN 1088-9051/01
, Cold Spring Harbor Laboratory Press 2001, sid. 875-888.
15