Tilastollinen päättely genominlaajuisissa assosiaatioanalyyseissä Matti Pirinen Suomen molekyylilääketieteen instituutti (FIMM) Helsingin Yliopisto 17.2.2015 Tilastollisen päättelyn kurssi Kumpula Sisältö 1. Motivaatio 2. Esimerkki MS-taudista 3. Tilastotiede 4. Tutkimuksen nykytila 1. Motivaatio − Genomi ja SNP − Mikä on “geneettinen assosiaatio” ? − Miksi tämä on tärkeää ? Ihmisgenomi ... G C G T T T A C G ... DNA-sekvenssi Ihmisgenomi on 3x109 kirjaimen lineaarinen sekvenssi aakkostosta {A, C, G, T} Single Nucleotide Polymorphism (SNP) Keskimäärin 1:300 genomin kohdasta on vaihtelua populaation tasolla. Näitä kohtia kutsutaan “snipeiksi” (SNP) Single Nucleotide Polymorphism (SNP) Keskimäärin 1:300 genomin kohdasta on vaihtelua populaation tasolla. Yksilöiden genotyypit populaatiossa Genomit populaatiossa ... G C G T T ... 96% ... G C T T T ... 4% 0: GG ~ 92.1% 1: GT ~ 7.7 % 2: TT ~ 0.2 % SNP, alleelit: G / T, minor allele frequency (MAF) = 4% PCSK9-geeni Kromosomissa 1, kohdassa 55.50 – 55.53 Mb Koodaa proteiinia 692 aminohappoa SNP PCSK9:ssä Alleelit: G / T , MAF=4% (Suomessa) Paikka: Chr1, emäspari 55,505,647 SNP PCSK9:ssä Alleelit: G / T , MAF=4% (Suomessa) Paikka: Chr1, emäspari 55,505,647 Vaikutus: vaihtaa 46. AH:n Arginiinista Lysiiniin G Arginine T Leucine SNP PCSK9:ssä Alleelit: G / T , MAF=4% (Suomessa) Paikka: Chr1, emäspari 55,505,647 Vaikutus: vaihtaa 46. AH:n Arginiinista Lysiiniin Katsotaan vaikuttaako tämä muutos (eli mutaatio) LDL-kolesterolitasoihin – LDL-C on riskitekijä sydäntaudille Mikä on “geneettinen assosiaatio”? Finn-Metabo-Seq project: 2099 suomalaista näytettä (08/2014) Boxploteissa (1) mediaani (paksu viiva), (2) interquartile range (laatikot) (3) 1.5 x interquartile range (pistejanat) (4) outliers (pisteet) Alleelin T kantajilla on pienempi LDL-C GG GT TT Miksi geneettiset assosiaatiot ovat tärkeitä? Antaa vinkkejä sairauksiin ja ominaisuuksiin vaikuttavista biologisista mekanismeista – Myöhemmin esimerkkejä MS-taudista ja skitsofreniasta Ideoita lääkkeiden kehitykseen – PCSK9:n hiljentäminen alentaa LDL-C:tä ? Raal et al. 2014, Lancet Genominlaajuinen assosiaatiotutkimus (GWAS) Idea: Etsitään assosiaatioita käyttäen tiheää snippikarttaa (jopa 10 miljoonaa snippiä) Tuli mahdolliseksi ~2006 − Teknologia (SNP-sirut, myöhemmin sekvenointi) − Yhteistyö (genetiikka + lääketiede + laboratorio tekniikka + bioinformatiikka + tilastotiede) Snippi-sirut (SNP arrays) Sisältää sekvenssin pätkiä miljoonille snipeille Hinta ~50-100 euroa/näyte Steven M. Carr www.mun.ca/biology/scarr/DNA_Chips.html 1. Motivaatio 2. Esimerkki MS-taudista MS-taudin assosiaatiotutkimus ~1x10⁴ Sairasta Yksilöt ~1.7x10⁴ Kontrollia Genotyypit ~5x105 Single nucleotide polymorphisms (SNPs) 0 1 0 2 1 2 2 Kysymys Eroavatko sairaiden ja terveiden genotyyppijakaumat toisistaan joissakin kohdissa genomia? Manhattan plot ~500,000 SNPs with MAF > 1% KIINNOSTAVAT SNIPIT KIINOSTAMATTOMAT SNIPIT © Nature Pystyakselilla snipin paikka genomissa Vaaka-akselilla assosiaation parvo (-log10) Yli 50 vakuuttavaa assosiaatiota MS-tautiin Immuunijärjestelmän geenit ovat yliedustettuina näiden assosiaatioiden joukossa; erityisesti “T-helper cell differentiation pathway” 1. Motivaatio 2. Esimerkki MS-taudista 3. Tilastotiedettä Lineaarinen malli assosiaatiolle Sovitetaan suora 3 genotyypin kautta Lineaarinen malli assosiaatiolle Sovitetaan suora 3 genotyypin kautta − Suuri kulmakerroin = vahva assosiaatio (mitä ongelmia? ) − Miksei Manhattan plotissa käytetä |est(b)| vaan “p-arvoa”? Miksei kulmakerroin yksin riitä? Kaksi snipiä joilla kk ~1.0 (n=2000) Miksei kulmakerroin yksin riitä ? Epävarmuus kulmakertoimesta Vasen 1.0 (0.97 ... 1.03); Oikea 1.0 (-1.0 ... 3.0) P-arvo Onko est(b) uskottava jos todellisuudessa b=0? P-arvo: Tn että nollahypoteesin vallitessa saadaan ainakin yhtä poikkeava estimaatti kuin on havaittu P=0.84: Ei näyttöä nollahypoteesin (H0) hylkäämiselle P=8e-5: Epätn H0:n vallitessa -> ehkä H0 ei vallitse Karkea päättely tilastollisen merkitsevyyden perusteella NOLLASNIPIT VAIKUTTAVAT SNIPIT Valitaan P-arvo -raja eli merkitsevyystaso EI MERKITSEVÄ PALJON MERKITSEVÄ Hyvin vähän ? ? Kutsutaan snipiä ”tilastollisesti merkitseväksi” jos p-arvo on tarpeeksi pieni Käytetään pientä merkitsevyystasoa jotta vääriä positiivisia ei tule juuri ollenkaan Toivotaan että löydetään joitain oikeita positiivisia Genominlaajuinen merkitsevyystaso Genomissa noin ~106 riippumatonta aluetta − Genomilla on blokkirakenne rekombinaatioprosessin vuoksi Tarvitaan erittäin pieni merkitsevyystaso suojaamaan vääriltä positiivisilta Genominlaajuinen merkitsevyystaso Genomissa noin ~106 riippumatonta aluetta − Genomilla on blokkirakenne rekombinaatioprosessin vuoksi Tarvitaan erittäin pieni merkitsevyystaso suojaamaan vääriltä positiivisilta Bonferronikorjatulla mt:lla = 0.05/106 = 5x10-8 , keskimäärin, 1:20 GWASista raportoi ainakin yhden väärän positiivisen assosiaation (mutta muut 19 ei yhtään) Genominlaajuinen merkitsevyystaso Entä jos dataa on vain yhdestä snipistä − Voidaanko sille käyttää mt:a 0.05? − Entä jos tiedetään että snipillä on selkeä efekti proteiinin rakenteeseen. Pitääkö edelleen käyttää samaa mt:a kuin snipille jolla ei epäillä olevan mitään funktionaalista seurausta? Genominlaajuinen merkitsevyystaso Entä jos dataa on vain yhdestä snipistä – Voidaanko sille käyttää mt:a 0.05? – Entä jos tiedetään että snipillä on selkeä efekti proteiinin rakenteeseen. Pitääkö edelleen käyttää samaa mt:a kuin snipille jolla ei epäillä olevan mitään funktionaalista seurausta? Valintakorjaus testien lukumäärän mukaan EI ole yleispätevä sääntö konsistenttien mt:jen määrittämiseen – Palataan tähän ”tilastollisen voiman” jälkeen Voima Voima = Tn että snip saavuttaa annetun merkitsevyystason – Riippuu otoskoosta, alleelifrekvenssistä ja todellisen efektin suuruudesta Voima Voima = Tn että snip saavuttaa annetun merkitsevyystason – Riippuu otoskoosta, alleelifrekvenssistä ja todellisen efektin suuruudesta Voima Voima = Tn että snip saavuttaa annetun merkitsevyystason – Riippuu otoskoosta, alleelifrekvenssistä ja todellisen efektin suuruudesta Voima Aiempi PCSK9:n mutaatio löytyy lähes varmasti meidän suomalaisesta datasta Voimalaskelmia tarvitaan tutkimuksen suunnitteluun – Kertovat millaiset efektit olemme jo löytäneet ja millaisia emme ole voineet löytää Voima Aiempi PCSK9:n mutaatio löytyy lähes varmasti meidän suomalaisesta datasta Mutta pysyisi lähes varmasti löytämättä keskieurooppalaisessa aineistossa jossa MAF=0.01 (vrt MAF=0.04 Suomessa) Assosiaatiotestauksen voima Jatkuvalle vasteelle voima kasvaa monot. N f (1-f) b2 − N = otoskoko − f = harvinaismman alleelin suhteell. frekvenssi − b = vaikutus (“kulmakerroin”) per 1 alleeli Case-control -asetelman voima kasvaa monot. N t (1-t) f (1-f) b − 2 t = tapausten suhde otoksesta Voiman ominaisuuksia Jos tietylle snipille pop1:ssä MAF=4% ja pop2:ssa MAF=1%, niin kuinka suuri otos pop2:sta tarvitaan saman voiman saamiseksi kuin mikä on otoksella n=2,000 pop1:stä ? N f (1-f) b2 Voiman ominaisuuksia Jos tietylle snipille pop1:ssä MAF=4% ja pop2:ssa MAF=1%, niin kuinka suuri otos pop2:sta tarvitaan saman voiman saamiseksi kuin mikä on otoksella n=2,000 pop1:stä ? N f (1-f) b2 N x 0.01 x (1-0.01) = 2000 x 0.04 x (1-0.04) N=7758 Merkitsevyydestä todellisen efektin todennäköisyyteen NOLLAEFEKTI TODELL. EFEKTI Merkitsevyystaso EIMERKIT. PALJON MERKIT. vähän ? ? T = ”todellinen efekti” N = ”nollaefekti” S = ”merkitsevä p-arvo” Merkitsevyydestä todellisen efektin todennäköisyyteen NOLLAEFEKTI TODELL. EFEKTI Merkitsevyystaso EIMERKIT. PALJON MERKIT. vähän ? ? T = ”todellinen efekti” N = ”nollaefekti” S = ”merkitsevä p-arvo” Merkitsevyydestä todellisen efektin todennäköisyyteen NOLLAEFEKTI TODELL. EFEKTI Merkitsevyystaso PALJON MERKIT. vähän ? ? Pieni mt tarvitaan siis koska assosiaation prioritn on pieni, EIKÄ sen vuoksi että tehdään paljon testejä – EIMERKIT. T = ”todellinen efekti” N = ”nollaefekti” S = ”merkitsevä p-arvo” Usein prioria ei ole helppo määrittää jolloin testien lkm voi toimia hyvin käytännössä, esim. replikaatio “Merkitsevä” tulos voimakkaasta tutkimuksesta on suuremmalla tn:llä todellinen efekti kuin vähemmän voimakkaasta tutkimuksesta! P-arvo ei ole koko totuus Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000 P-arvo ei ole koko totuus Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000 Oletetaan että kolesteroliin vaikuttaa 100 snipiä jotka kaikki selittävät <1% kolesterolitasojen vaihtelusta P-arvo ei ole koko totuus Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000 Oletetaan että kolesteroliin vaikuttaa 100 snipiä jotka kaikki selittävät <1% kolesterolitasojen vaihtelusta n E(väärät +) E(aidot +) P(aito|+) 1000 0.05 10000 0.05 0.01 0.167 20 0.998 Asymptoottiset testit 1. Uskottavuusosamäärän testi (eli LR test) 2. Waldin testi 3. Raon testi (eli score test) http://www.ats.ucla.edu/stat/mult_pkg/faq/general/nested_tests.htm Score test vs LR test Vaikka Raon testi ja uskottavuusosamäärän testi ovat samat asymptoottisesti, ne eivät aina ole lainkaan samat käytännön tilanteissa! – Asymptotiikka ei päde harvinaisille varianteille 1200 migreenikkoa vs 2700 kontrollia Saksasta Kuva: Priit Palta 1. Motivaatio 2. Esimerkki MS-taudista 3. Tilastotiede 4. Tutkimuksen nykytila Skitsofrenia (esimerkkinä GWAS-kehityksestä ) Mielen sairaus johon liittyy poikkeavaa käyttäytmistä ja ongelmia tunnistaa todellisuutta Puhkeaa nuorille aikuisille, 0.5%-1% populaatiosta Korkea periytyvyys, estimaatit jopa 80% Perheissä tehdyt kytkentäanalyysit eivät olleet menestyksellisiä 80- ja 90-luvuilla − Tuskin olemassa vain muutamia “Sf-geenejä” jotka selittäisivät periytyvyyden Int'l SZ Consortium, 2009, Nature 3,332 SZ-tapausta ja 3,587 kontrollia, 1M SNPs Tukea erittäin monitekijäiselle geneettiselle arkkitehtuurille Mutta ei yhtään “SF-geeniä” – GWAS on tuomittu epäonnistumaan ? From Mark Daly PGC 2011 9,394 cases and 12,462 controls From Mark Daly PGC 2014, Nature 34,000 SF-tapausta ja 45,600 kontrollia, 9.5M snipiä 108 erillistä aluetta p < 5e-8 Published Genome-Wide Associations through 12/2013 at p≤5e-8 for 17 trait categories NHGRI GWA Catalog www.genome.gov/GWAStudies www.ebi.ac.uk/fgpt/gwas/ Picture emerging from GWAS A lot of common variants with small effects − Some are tagging rare variants Picture emerging from GWAS A lot of common variants with small effects − How many tagging rare variants? Many shared effects across traits − Need joint analyses & phenotype refinement Psoriasis and Ankylosing spondylitis around IL23R Picture emerging from GWAS A lot of common variants with small effects − Many shared effects across traits − How many tagging rare variants? Need joint analyses & phenotype refinement Much to do on the biological side − Pathways − From association to function We also develop methods
© Copyright 2025