Detektion av SNP i DNA-sekvenser by Deniz Kaya, Ingemar Schwind och Anna Stenquist Internrapport nr. 2003:6 UPPSALA UNIVERSITET UPPSALA UNIVERSITY Inst. för informationsteknologi Information Technology Avd. för teknisk databehandling Dept. of Scientific Computing Sammanfattning Projektets m al ar att hitta en battre metod att detektera SNPar(Single uttalas 'snipp'). En SNP ar en position dar DNA-sekvensen skiljer sig at p a samma position i ett kromosompar1 . SNParna ska hittas i kromatogram som ar utdata fr an sekvenseringsmaskinerna. For att nna SNP har karakteristiska drag som ar unika for SNP tagits fram. Dessa parametrar undersoks sedan for varje topp i kromatogrammen. For att en topp ska klassas som SNP har det antagits att alla dessa parametrar ska vara uppfyllda. Topparna detekteras med samma metod som nns implementerad i programmet LifeTrace [4]. Den fardiga metoden nner cirka 90 % av SNParna. Tyvarr markerar den ocks a SNPar p a positioner dar det inte ar SNPar. Det blir ungefar 1,4 icke SNP per SNP som klassas som SNP. Nucleotide Polymorphism, 1 Hos m anniskan ar DNA-strangarna lagrade i kromosomer. Kromosomer forekommer i par. Kromosomerna i ett par inneh aller ungefar samma DNA-sekvenser (undantag: konskromosomer). 1 INNEHALL INNEH ALL Innehall 1 Inledning 2 Metodik 4 3 Teori 5 4 Utf orande 7 5 Resultat 11 6 Utv ardering av resultat 13 7 T ankbara f orb attringar 13 8 Tack 14 1.1 1.2 1.3 1.4 Bakgrund . . . . . . Kromatogram . . . . SNP . . . . . . . . . Problemformulering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Hitta topparna . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Bassekvensering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 SNPdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Toppdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Bassekvensering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 SNPdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3 3 3 4 4 4 5 5 5 6 6 1 INLEDNING 1 Inledning 1.1 Bakgrund DNA ar en forkortning av deoxyribonucleic acid, en sammansattning av de - borttaget, -oxi - syre, -ribo - ribos och nukleinsyra. Det vill saga, en nukleinsyra som byggs upp av en l ang kedja av ribos-molekyler som f att en syreatom borttagen. DNA utgor genomet hos alla kanda organismer och aven vissa virus. De fyra olika baserna som en DNA-sekvens ar uppbyggd av ar A(Adenin), C(Cytosin), G(Guanin) och T(Tymin). Idag ar DNA-sekvensering en helt automatiserad process som utfors av maskiner exempelvis MegaBace och ABI. Processen bygger p a att kopior skapas av den DNA-strang som ska undersokas. Dessa kopior har egenskaperna att de borjar med samma sekvens men ar av slumpvisa langder och ar markta med en uoroserande agga som absorberar ljus. Flaggan ar olika for olika strangar men alla strangar som slutar med samma bas har samma agga. For att undersoka DNA-strangarna anvands elektrofores. I elektrofores f ar molekyler vandra genom en gel i ett elektriskt falt. Det sker d a en separation mellan molekylerna eftersom molekyler med hog laddning vandrar snabbare an de med l ag [4]. En langre DNA-molekyl har en hogre laddning. P a en plats i gelen belyses de forbivandrande molekylerna och intensiteten for varje bas sparas i ett kromatogram (gur 1). Topparna i kromatogrammet motsvarar en bas i DNA-strangen. DNA-sekvensen kan lasas av genom att titta p a ordningen p a topparna i kromatogrammet. 1.2 Kromatogram Ur sekvensieringsmaskinen f as kromatogram. Ett kromatogram ar en graf med fyra kurvor, en for varje bas. Kurvorna inneh aller intensiteten for respektive bas vid en given tidpunkt. Eftersom DNA-strangar vandrar olika fort beroende p a hur l anga de ar motsvarar en viss posi- Figur 1: Ett kromatogram ar en graf med 4 kurvor. tion i tiden en position i Kurvorna inneh aller intensiteten for respektive bas. genomet. I ett kromatogram antas topparna vara normalfordelade. Ofta tas tv a kromatogram fram nar en DNA-sekvens ska bestammas, en for varje DNA-strang. Detta gors for att f a hogre nogrannhet. Kromatogrammet kan visualiseras tv adimensionellt dar xaxeln representerar positionen i strangen och y-axeln representerar motsvarande intensitet, (gur 1). 3 2 METODIK 1.3 1.3 SNP SNP En SNP ar en plats i genomet dar det sitter tv a olika baser p a samma plats i de olika kromosomerna. Detta hander ungefar en g ang p a tusen baser. I gur 2 visas hur det kan se ut i kromatogrammet vid en SNP position i DNA-sekvensen. Vad som gor SNParna intressanta ar att de kan fungera som markorer for genetiskt betingade sjukdomar som t.ex. schizofreni, sjuklig fetma och alkoholism. 1.4 Problemformulering Ett problem for forskare ar att de program som anvands idag inte detekterar SNPar med tillrackligt hog precision. En vanligt forekommande programvara ade missar och markerar SNPar dar de inte ska vara. ar PolyPhred [3] som b Darfor kravs en nogrann visuell studie av kromatogrammet for att en SNPdetektion ska kunna faststallas. Projektets m al ar att nna en battre metod att detektera SNP. Figur 2: Position 1933 ar en SNP. En SNP best ar av tv a toppar som har halva topphojden jamfort med intilligande toppar. 2 Metodik Detektering av SNP kan delas in i tre deluppgifter: 2.1 Hitta topparna En bas i genomet kommer att se ut som en topp i kromatogrammet. Det ar lampligt att borja med att hitta positionerna for topparna. Metoden for toppdetektion som implementerats ar samma som anvands i programmet Lifetrace [4]. 4 3 TEORI 2.2 2.2 Bassekvensering Bassekvensering M alet med bassekvenseringen ar att bestamma vilken bas som sitter i vilken position. 2.3 SNPdetektion Nar positionerna for baserna ar kanda undersoks varje bas for att kontrollera om det ar en SNP eller inte. Baserna klassas nu med hjalp av statistik p a dess karaktaristiska egenskaper som enkelbas eller SNP. 3 Teori 3.1 Toppdetektion Positionerna for baserna detekteras med hjalp av metoden som nns implementerad i programvaran LifeTrace [4]. Kurvorna bearbetas s a att de blir spetsigare for att lattare kunna hitta positionen for toppen. I varje punkt undersoks hur topplik kurvan ar genom att titta p a korrelationen mellan kurvan i ett par punkter och en gausskurva (ekvation 1 och 2). Kromatogrammet nns sparat i en matris T dar varje rad motsvarar en bas. r(bas; pos) = bas; j ); NF ) pvarcov((TT((bas; j ))var(NF ) NF (i) = p1 j = pos 3; pos 2; :::; pos + 3 (1) i 2 1 e 2() i = 3; 2; : : : ; 3 (2) 2 Standardavvikelsen i formeln for gausskurvan NF satts till 3,5. Observera att NF endast motsvarar toppen av en gausskurva eftersom det ar den man vill hitta. Topplika regioner kommer att f a en korrelation nara 1, monotona regioner kommer att f a en korrelation nara 0 och konkava regioner kommer att f a en korrelation nara -1. Korrelationen skalas om s a att vardet kommer att ligga mellan 0 och 1. (r(T [bas; postion]; NF ) + 1) 2 Korrelationsvardena multipliceras med kurvornas orginalvarden. R[bas; position] = f (bas; position) = R[bas; position] T [bas; position] (3) (4) P a detta satt straas icke topplika regioner och kurvorna blir spetsigare. De fyra kurvorna kombineras nu till en kurva. Detta ges med hjalp av ekvation. sX f (bas; position) LT (position) = 4 4 bas 5 (5) 3 TEORI 3.2 Bassekvensering P LT undersoks for att hitta toppostionerna(se gur 3). I princip ar LT maxvardet av varje position i f. Det beror p a att f 4 max(f )4 om ett f-varde ar mycket storre an de andra (detta galler inte for SNPar). Topparna hittas genom att hitta nollstallen till derivatan av LT. Figur 3: LT tillsammans med ett kromatogram. Har syns att LT ar spetsigare an intensitetskurvorna i kromatogrammet. 3.2 Bassekvensering For att bestamma bassekvensen beraknas forst arean och S for varje topposition j. Arean beraknas i ett fonster om sju punkter. A(bas; j ) = X T (bas; i) j +3 i=j 3 Sbas;j = R(bas; j ) A(bas; j )= X A(i; j) 4 (6) (7) i=1 Basen vid toppositionen satts till den bas som har storst varde p a S. Men om arean for den basen ar den tredje eller fjarde i storlek satts den basen till N, som betyder nukleotid. D a antas basen obestambar. 3.3 SNPdetektion En stor del av arbetet har g att at till att hitta de sardrag som karakteriserar SNP. Ett problem ar att hitta sardrag som bara karakteriserar SNP och inte andra toppar. Ett annat problem ar att det nns m anga toppar som ser ut som SNP men som inte ar det utan beror p a storningar fr an omgivande toppar. En ideal SNP har ett par tydliga sardrag: 6 4 UTFORANDE Den best ar av tv a toppar som ar ungefar lika hoga. De tv a topparna ar i fas med varandra, det vill saga centrerade runt samma x-position. Topparna ska ligga i fas med ovriga toppar, det vill saga toppavst andet ska vara konstant. Intensiteten for de tv a topparna var for sig ar ungefar halften s a hog som intensiteten for narliggande toppar. Verkligheten ar dock aldrig s a enkel. Topparna i kromatogrammen ar ofta olika hoga vilket gor det sv art att veta vad som ar halva topphojden. Dessutom behover inte topparna vara centrerade kring samma x-position, utan de kan vara n agot ur fas med varandra. For att hitta SNParna m aste de parametrar de karakteriseras av hittas. Foljande parametrar av betydelse har hittats: Dierensen mellan de tv a storsta areorna dividerat med den totala arean av alla baser vid en topp. I texten kommer det att refereras till denna parameter som areakvot. Avst andet mellan de tv a topparna som ligger runt en topp. Vardet delas med medelvardet av detta avst and for hela kromatogrammet och kvadreras. Parametern kallas toppdist. Kvoten mellan de tv a storsta S-vardena (ekvation 7) (S-kvot ) for varje topp. Kvoten av dierensen mellan de tv a storsta vardena p a f och det storsta vardet p a f for varje topp. Denna parameter kallas hojdskillnad. max(f ) LT max(f ) fmLT. I texten kommer det att refereras till denna parameter som 4 Utforande All berakning sker i programmeringsspr aket MATLAB. Forst beraknas r, R, f och LT (ekvation 1 - 5). Nasta steg ar att utifr an LT hitta topparna. Darefter beraknas arean och S och basordningen bestams (ekvation 6 - 7). Nar alla dessa parametrar har beraknats kan de parametrar som beskrivs i avsnitt 3.3 tas fram. Genom att studera de olika parametrarna framtrader karaktaristiska egenskaper for SNPar. Dessa kan anvandas for ltrering av toppar som inte har SNP-karakteristika (se avsnitt 3.3). Borjan och slutet i varje kromatogram inneh aller mest brus. Ibland kapas dessa intervall bort for hand. Nedan foljer en mer detaljerad forklaring av analysen av kromatogramdata med tillhorande gurer: 7 4 UTFORANDE P For en vanlig topp blir LT max(f ). Detta beror p a att f 4 max(f )4 om en topp ar mycket storre an de andra. For en SNP stammer inte approximationerna eftersom ingen topp dominerar. Darfor ar fmLT ungefar lika med noll for en vanlig topp, men ett lagre varde f as for en SNP. En graf av fmLT for len ex8-143rev nns i gur 4. I guren urskiljs tv a lokala minima. Lokala minima av fmLT sparas i en indexvektor index1. Figur 4: Graf av fmLT. Har framtrader tv a lokala minima tydligt. Det till vanster ar en SNP. Areakvot kommer att vara l ag for SNPar eftersom skillnaden mellan areorna (topphojderna) ar l ag for SNPar. I gur 4 framtrader areakvot for vissa toppositioner som lokala minima. Positionen for det minsta vardet av sju p a varandra foljande varden i areakvot sparas i en indexvektor index2. Figur 5: Graf av areakvot. Har framtrader m anga lokala minima. Aven ur S-kvot tas det lokala maxima fram och sparas i index-vektorn index3. S-vardet (ekvation 7) sager n agot om hur topplik och hur stor area en kurva har runt en position. Kromatogrammen har stora S-varden for toppar och sm a for andra punkter. S-kvot kommer darfor vara stor for icke SNPar och ungefar ett for SNPar. Kvoten hojdskillnad ar stor for en icke SNP och liten for en SNP. Vektorn index4 kommer att inneh alla positionen till maxvarden av parametern 8 4 UTFORANDE hojdskillnad i en omgivning av 20 toppar kring en topposition, 10 toppar till hoger respektive till vanster om positionen i fr aga (gur 6). Aven har framtrader vissa toppar mer an andra. Figur 6: Graf av hojdskillnad. En indexvektor som ar av betydelse ar index5. I den nns de toppositioner som har ett varde over 0.79 for parametern toppdist. Gransen p a 0.79 har sats efter en studie av den traningsdata som har funnits tillganglig. En sista indexvektor index6 inneh aller index till de 25 storsta vardena av hojdskillnad. Endast de toppar som bildar snittet av alla indexvektorer antas vara SNPar, dvs res-index = index1 \ index2 \ index3 \ index4 \ index5 \ index6. Figur 7 best ar av tre grafer: fmLT, hojdskillnad och areakvot. SNP positionen markeras med en fyrkant och text. Kurvan fmLT och areakvot har kryss respektive stjarnor p a de positioner som nns i index1 \ index2. Kurvan hojdskillnad har trianglar p a de positioner som nns i res-index. Som framg ar av guren detekteras ytterligare tv a mojliga SNP positioner forutom den riktiga. Det kravs en parameter till for att gora ytterligare ltrering. Det nns dock ett fall d a algoritmen fungerar perfekt p a traningsdata forutsatt att en manuell rensning av borjan och slutet av kromatogrammet har gjorts (gur 8). 9 4 UTFORANDE Figur 7: Graf av hojdskillnad, fmLT, areakvot. Nytt-index ar de positioner dar b ade areakvot och fmLT har lokala minima. Res-index ar de positioner dar SNP markeras. Positionen for en 'riktig SNP' nns markerad i guren. Figur 8: Samma som ovan men med ett annat kromatogram. 10 5 RESULTAT 5 Resultat Metoden hittar de esta SNParna. Den data som har anvants i tabell 1 inneh aller klassicerade SNPar2 . Data i tabell 2 inneh aller endast SNP positioner3 . Nedan foljer tabeller med resultat. Filnamn ex8-124rev ex8-139for ex8-142rev ex8-143rev ex8-146rev ex8-16rev ex8-178rev ex8-179rev ex8-180rev ex8-198rev ex8-210rev ex8-224rev ex8-228rev ex8-91rev ex8-94rev ex8-95rev ex8-236arev ex8-236brev ex8-94rev Kvalitet p u l p p pp uuu u l lp lu p l p u u p p u Hittade SNP p u l p p pp uuu u l lp lu p l u u p - Antal felklassade icke SNP 1 1 2 2 2 0 1 3 2 0 1 0 1 0 0 2 0 2 1 Tabell 1: Resultat av korning for klassade SNPar. Av kvalitetsvardena st ar l for likely, p for probable, u for unlikely. Streck betyder missad SNP. Att det ibland st ar mer an en bokstav beror p a att ett kromatogram inneh aller era SNPar. 2 Klassiceringen utf ord av 3 Positionerna f or SNParna Martti Tammi p a Karolinska Institutet. a Karolinska Institutet. ar framtagna av Shane McCarthy p 11 5 RESULTAT Filnamn Pat4R2N Pat4F2N CXCR1R2NPat15 CXCR1F2NPat15 CXCR1F2NCont13 Pat4R7N CXCR1F7N2PatS CXCR1F8NZ CXCR1F8NPat14 CXCR1R8NX CXCR1R8NPat12 Hittade SNP ja ja ja nej ja ja ja ja ja nej ja Antal felklassade icke SNP 4 3 3 1 2 3 2 4 2 1 3 Tabell 2: Resultat av korning for icke klassade SNPar. Tabell 3 inneh aller resultat av korningar p a slumpmassigt urvalda kromatogram som inte inneh aller n agra SNPar. Filnamn ex8-100for ex8-49rev ex8-56for ex8-66for ex8-230rev ex8-78fora ex8-149rev ex8-14for ex8-150rev ex8-31for ex8-2rev ex8-82for ex8-83rev ex8-117rev ex8-7for ex8-119for ex8-109rev ex8-10for ex8-10rev ex8-247for ex8-110rev ex8-24for ex8-111rev Antal felklassade icke SNP 1 0 0 0 0 1 2 0 0 0 2 0 1 0 0 0 0 0 0 0 0 0 1 Tabell 3: Resultat av korning for kromatogram utan SNPar. Kromatogrammen ar slumpmassigt utvalda. 12 A TTRINGAR 7 TA NKBARA FORB 6 Utvardering av resultat Metoden lyckas klassa 90 % av SNParna ratt. Daremot blir det ungefar 1,4 felklassningar per riktig SNP. Av de parametrar som anvands ar hojdskillnad den mest selektiva. Det skulle vara interesant att ha mer traningsdata eftersom 35 ler med SNPar inte ger underlag for p alitlig statistik. 7 Tankbara forbattringar Under arbetets g ang har ett par ideer dykt upp som aldrig hunnit genomforas. Jamfora fram- och baklanges sekvensieringen av DNA-sekvensen. Om b ada inneh aller samma SNP blir resultatet sakrare men om SNPn bara nns i ett kromatogram kan den forkastas. Ta mer hansyn till omgivningen. Den felklassning som beskrivs i gur 9 skulle kunna forsvinna. Tidigare hoga toppar kan p averka intensiteten i senare punkter i kromatogrammet. I guren syns b ade l aga felaktiga toppar och ett plant omr ade for basen Tymin (T). Figur 9: Felaktigt klassad SNP pga brus i basen Tymin (T). Vikta parametrarna olika. Nu antas alla parametrar vara lika viktiga och dessutom nodvandiga for att en topp ska klassas som SNP. 13 8 TACK 8 Tack Till sist skulle forfattarna vilja tacka Shane McCarthy och v ara handledarna fr an Karolinska Institutet Marti Tammi, Erik Arner och Daniel Nilsson for all hjalp! 14 REFERENSER REFERENSER Referenser [1] Brent Ewing, LaDeana Hillier, Michael C. Bender, Phill Green, BaseCalling of Automated Sequencer Traces Using Phred I. Accuracy Assignemnt, ISSN 1054-9803/98 , Cold Spring Harbor Laboratory Press 1998, sid. 175-185. [2] Brent Ewing, Phill Green, Base-Calling of Automated Sequencer Traces Using Phred II. Error Propabilities, ISSN 1054-9803/98 , Cold Spring Harbor Laboratory Press 1998, sid. 186-194. [3] Deborah A. Nickerson, Vincent O. Tobe, Scott Taylor PolyPhred: automating the detection and genotyping of single substitutions using uorescence-based resequencing, Nucleic Acid Research, Vol. 25, No 14, Oxford University Press 1997, sid. 2745-2751. [4] Dirk Walter, Gabor Bartha Basecalling with LifeTrace, ISSN 1088-9051/01 , Cold Spring Harbor Laboratory Press 2001, sid. 875-888. 15
© Copyright 2024