Tilastollinen päättely genominlaajuisissa assosiaatioanalyyseissä

Tilastollinen päättely
genominlaajuisissa
assosiaatioanalyyseissä
Matti Pirinen
Suomen molekyylilääketieteen instituutti (FIMM)
Helsingin Yliopisto
17.2.2015
Tilastollisen päättelyn kurssi
Kumpula
Sisältö

1. Motivaatio

2. Esimerkki MS-taudista

3. Tilastotiede

4. Tutkimuksen nykytila

1. Motivaatio
−
Genomi ja SNP
−
Mikä on “geneettinen assosiaatio” ?
−
Miksi tämä on tärkeää ?
Ihmisgenomi
... G C G T T T A C G ...
DNA-sekvenssi
Ihmisgenomi on 3x109 kirjaimen lineaarinen
sekvenssi aakkostosta {A, C, G, T}
Single Nucleotide Polymorphism
(SNP)

Keskimäärin 1:300 genomin kohdasta on
vaihtelua populaation tasolla. Näitä kohtia
kutsutaan “snipeiksi” (SNP)
Single Nucleotide Polymorphism
(SNP)

Keskimäärin 1:300 genomin kohdasta on
vaihtelua populaation tasolla.
Yksilöiden genotyypit
populaatiossa
Genomit
populaatiossa
... G C G T T ... 96%
... G C T T T ...
4%
0: GG ~ 92.1%
1: GT ~ 7.7 %
2: TT ~ 0.2 %
SNP, alleelit: G / T, minor allele frequency (MAF) = 4%
PCSK9-geeni

Kromosomissa 1, kohdassa 55.50 – 55.53 Mb
Koodaa proteiinia
692 aminohappoa
SNP PCSK9:ssä

Alleelit: G / T , MAF=4% (Suomessa)

Paikka: Chr1, emäspari 55,505,647
SNP PCSK9:ssä

Alleelit: G / T , MAF=4% (Suomessa)

Paikka: Chr1, emäspari 55,505,647

Vaikutus: vaihtaa 46. AH:n Arginiinista Lysiiniin
G
Arginine
T
Leucine
SNP PCSK9:ssä

Alleelit: G / T , MAF=4% (Suomessa)

Paikka: Chr1, emäspari 55,505,647

Vaikutus: vaihtaa 46. AH:n Arginiinista Lysiiniin

Katsotaan vaikuttaako tämä muutos (eli
mutaatio) LDL-kolesterolitasoihin
– LDL-C on riskitekijä sydäntaudille
Mikä on “geneettinen assosiaatio”?
Finn-Metabo-Seq project:
2099 suomalaista
näytettä (08/2014)
Boxploteissa
(1) mediaani (paksu
viiva),
(2) interquartile range
(laatikot)
(3) 1.5 x interquartile
range (pistejanat)
(4) outliers (pisteet)
Alleelin T kantajilla on
pienempi LDL-C
GG
GT
TT
Miksi geneettiset assosiaatiot ovat
tärkeitä?

Antaa vinkkejä sairauksiin ja ominaisuuksiin
vaikuttavista biologisista mekanismeista
–

Myöhemmin esimerkkejä MS-taudista ja
skitsofreniasta
Ideoita lääkkeiden kehitykseen
–
PCSK9:n hiljentäminen alentaa LDL-C:tä ?
Raal et al. 2014, Lancet
Genominlaajuinen
assosiaatiotutkimus (GWAS)


Idea: Etsitään assosiaatioita käyttäen tiheää
snippikarttaa (jopa 10 miljoonaa snippiä)
Tuli mahdolliseksi ~2006
−
Teknologia (SNP-sirut, myöhemmin sekvenointi)
−
Yhteistyö (genetiikka + lääketiede + laboratorio
tekniikka + bioinformatiikka + tilastotiede)
Snippi-sirut (SNP arrays)

Sisältää sekvenssin pätkiä miljoonille snipeille

Hinta ~50-100 euroa/näyte
Steven M. Carr
www.mun.ca/biology/scarr/DNA_Chips.html

1. Motivaatio

2. Esimerkki MS-taudista
MS-taudin assosiaatiotutkimus
~1x10⁴
Sairasta
Yksilöt
~1.7x10⁴
Kontrollia
Genotyypit ~5x105 Single nucleotide polymorphisms (SNPs)
0
1
0
2
1 2
2
Kysymys Eroavatko sairaiden ja terveiden genotyyppijakaumat
toisistaan joissakin kohdissa genomia?
Manhattan plot
~500,000 SNPs
with MAF > 1%
KIINNOSTAVAT
SNIPIT
KIINOSTAMATTOMAT
SNIPIT
© Nature
 Pystyakselilla snipin paikka
genomissa
 Vaaka-akselilla assosiaation parvo (-log10)
 Yli 50 vakuuttavaa assosiaatiota
MS-tautiin
 Immuunijärjestelmän geenit ovat
yliedustettuina näiden
assosiaatioiden joukossa;
erityisesti “T-helper cell
differentiation pathway”



1. Motivaatio
2. Esimerkki MS-taudista
3. Tilastotiedettä
Lineaarinen malli assosiaatiolle

Sovitetaan suora 3 genotyypin kautta
Lineaarinen malli assosiaatiolle

Sovitetaan suora 3 genotyypin kautta
−
Suuri kulmakerroin = vahva assosiaatio (mitä
ongelmia? )
−
Miksei Manhattan plotissa käytetä |est(b)|
vaan “p-arvoa”?
Miksei kulmakerroin yksin riitä?

Kaksi snipiä joilla kk ~1.0 (n=2000)
Miksei kulmakerroin yksin riitä ?

Epävarmuus kulmakertoimesta

Vasen 1.0 (0.97 ... 1.03); Oikea 1.0 (-1.0 ... 3.0)
P-arvo




Onko est(b) uskottava
jos todellisuudessa
b=0?
P-arvo: Tn että
nollahypoteesin
vallitessa saadaan
ainakin yhtä
poikkeava estimaatti
kuin on havaittu
P=0.84: Ei näyttöä
nollahypoteesin (H0)
hylkäämiselle
P=8e-5: Epätn H0:n
vallitessa -> ehkä H0
ei vallitse
Karkea päättely tilastollisen
merkitsevyyden perusteella
NOLLASNIPIT VAIKUTTAVAT
SNIPIT
Valitaan
P-arvo -raja
eli
merkitsevyystaso



EI
MERKITSEVÄ
PALJON
MERKITSEVÄ Hyvin vähän
?
?
Kutsutaan snipiä ”tilastollisesti merkitseväksi” jos
p-arvo on tarpeeksi pieni
Käytetään pientä merkitsevyystasoa jotta vääriä
positiivisia ei tule juuri ollenkaan
Toivotaan että löydetään joitain oikeita positiivisia
Genominlaajuinen merkitsevyystaso

Genomissa noin ~106 riippumatonta aluetta
−

Genomilla on blokkirakenne
rekombinaatioprosessin vuoksi
Tarvitaan erittäin pieni merkitsevyystaso
suojaamaan vääriltä positiivisilta
Genominlaajuinen merkitsevyystaso

Genomissa noin ~106 riippumatonta aluetta
−


Genomilla on blokkirakenne
rekombinaatioprosessin vuoksi
Tarvitaan erittäin pieni merkitsevyystaso
suojaamaan vääriltä positiivisilta
Bonferronikorjatulla mt:lla = 0.05/106 = 5x10-8 ,
keskimäärin, 1:20 GWASista raportoi ainakin
yhden väärän positiivisen assosiaation (mutta
muut 19 ei yhtään)
Genominlaajuinen merkitsevyystaso

Entä jos dataa on vain yhdestä snipistä
−
Voidaanko sille käyttää mt:a 0.05?
−
Entä jos tiedetään että snipillä on selkeä efekti
proteiinin rakenteeseen. Pitääkö edelleen
käyttää samaa mt:a kuin snipille jolla ei epäillä
olevan mitään funktionaalista seurausta?
Genominlaajuinen merkitsevyystaso

Entä jos dataa on vain yhdestä snipistä
– Voidaanko sille käyttää mt:a 0.05?
– Entä jos tiedetään että snipillä on selkeä efekti
proteiinin rakenteeseen. Pitääkö edelleen
käyttää samaa mt:a kuin snipille jolla ei epäillä
olevan mitään funktionaalista seurausta?

Valintakorjaus testien lukumäärän mukaan EI
ole yleispätevä sääntö konsistenttien mt:jen
määrittämiseen
– Palataan tähän ”tilastollisen voiman” jälkeen
Voima

Voima = Tn että snip saavuttaa annetun
merkitsevyystason
–
Riippuu otoskoosta, alleelifrekvenssistä ja
todellisen efektin suuruudesta
Voima

Voima = Tn että snip saavuttaa annetun
merkitsevyystason
–
Riippuu otoskoosta, alleelifrekvenssistä ja
todellisen efektin suuruudesta
Voima

Voima = Tn että snip saavuttaa annetun
merkitsevyystason
–
Riippuu otoskoosta, alleelifrekvenssistä ja
todellisen efektin suuruudesta
Voima


Aiempi PCSK9:n mutaatio löytyy lähes varmasti meidän
suomalaisesta datasta
Voimalaskelmia tarvitaan tutkimuksen suunnitteluun
–
Kertovat millaiset efektit olemme jo löytäneet ja millaisia
emme ole voineet löytää
Voima


Aiempi PCSK9:n mutaatio löytyy lähes varmasti meidän
suomalaisesta datasta
Mutta pysyisi lähes varmasti löytämättä keskieurooppalaisessa aineistossa jossa MAF=0.01 (vrt MAF=0.04
Suomessa)
Assosiaatiotestauksen voima

Jatkuvalle vasteelle voima kasvaa monot.
N f (1-f) b2

−
N = otoskoko
−
f = harvinaismman alleelin suhteell. frekvenssi
−
b = vaikutus (“kulmakerroin”) per 1 alleeli
Case-control -asetelman voima kasvaa monot.
N t (1-t) f (1-f) b
−
2
t = tapausten suhde otoksesta
Voiman ominaisuuksia

Jos tietylle snipille pop1:ssä MAF=4% ja
pop2:ssa MAF=1%, niin kuinka suuri otos
pop2:sta tarvitaan saman voiman saamiseksi
kuin mikä on otoksella n=2,000 pop1:stä ?
N f (1-f) b2
Voiman ominaisuuksia

Jos tietylle snipille pop1:ssä MAF=4% ja
pop2:ssa MAF=1%, niin kuinka suuri otos
pop2:sta tarvitaan saman voiman saamiseksi
kuin mikä on otoksella n=2,000 pop1:stä ?
N f (1-f) b2
N x 0.01 x (1-0.01) = 2000 x 0.04 x (1-0.04)
N=7758
Merkitsevyydestä todellisen efektin
todennäköisyyteen
NOLLAEFEKTI
TODELL.
EFEKTI
Merkitsevyystaso
EIMERKIT.
PALJON
MERKIT.
vähän
?
?
T = ”todellinen efekti”
N = ”nollaefekti”
S = ”merkitsevä p-arvo”
Merkitsevyydestä todellisen efektin
todennäköisyyteen
NOLLAEFEKTI
TODELL.
EFEKTI
Merkitsevyystaso
EIMERKIT.
PALJON
MERKIT.
vähän
?
?
T = ”todellinen efekti”
N = ”nollaefekti”
S = ”merkitsevä p-arvo”
Merkitsevyydestä todellisen efektin
todennäköisyyteen
NOLLAEFEKTI
TODELL.
EFEKTI
Merkitsevyystaso

PALJON
MERKIT.
vähän
?
?
Pieni mt tarvitaan siis koska assosiaation prioritn on pieni, EIKÄ sen
vuoksi että tehdään paljon testejä
–

EIMERKIT.
T = ”todellinen efekti”
N = ”nollaefekti”
S = ”merkitsevä p-arvo”
Usein prioria ei ole helppo määrittää jolloin testien lkm voi toimia
hyvin käytännössä, esim. replikaatio
“Merkitsevä” tulos voimakkaasta tutkimuksesta on suuremmalla tn:llä
todellinen efekti kuin vähemmän voimakkaasta tutkimuksesta!
P-arvo ei ole koko totuus
Tarkastellaan kahta tutkimusta joiden otoskoot
ovat n1=1,000 ja n2=10,000
P-arvo ei ole koko totuus
Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000
Oletetaan että kolesteroliin vaikuttaa 100 snipiä jotka kaikki selittävät <1%
kolesterolitasojen vaihtelusta
P-arvo ei ole koko totuus
Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000
Oletetaan että kolesteroliin vaikuttaa 100 snipiä jotka kaikki selittävät <1%
kolesterolitasojen vaihtelusta
n
E(väärät +) E(aidot +) P(aito|+)
1000
0.05
10000 0.05
0.01
0.167
20
0.998
Asymptoottiset testit
1. Uskottavuusosamäärän testi (eli LR test)
2. Waldin testi
3. Raon testi (eli score test)
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/nested_tests.htm
Score test vs LR test

Vaikka Raon testi ja uskottavuusosamäärän testi ovat samat
asymptoottisesti, ne eivät aina ole lainkaan samat käytännön tilanteissa!
– Asymptotiikka ei päde harvinaisille varianteille
1200 migreenikkoa vs
2700 kontrollia
Saksasta
Kuva: Priit Palta

1. Motivaatio

2. Esimerkki MS-taudista

3. Tilastotiede

4. Tutkimuksen nykytila
Skitsofrenia
(esimerkkinä GWAS-kehityksestä )




Mielen sairaus johon liittyy poikkeavaa
käyttäytmistä ja ongelmia tunnistaa todellisuutta
Puhkeaa nuorille aikuisille, 0.5%-1%
populaatiosta
Korkea periytyvyys, estimaatit jopa 80%
Perheissä tehdyt kytkentäanalyysit eivät olleet
menestyksellisiä 80- ja 90-luvuilla
−
Tuskin olemassa vain muutamia “Sf-geenejä”
jotka selittäisivät periytyvyyden
Int'l SZ Consortium, 2009, Nature

3,332 SZ-tapausta ja 3,587 kontrollia, 1M SNPs

Tukea erittäin monitekijäiselle geneettiselle arkkitehtuurille

Mutta ei yhtään “SF-geeniä”
–
GWAS on tuomittu epäonnistumaan ?
From Mark Daly
PGC 2011
9,394 cases and 12,462 controls
From Mark Daly
PGC 2014, Nature

34,000 SF-tapausta ja 45,600 kontrollia, 9.5M
snipiä
108 erillistä aluetta
p < 5e-8
Published Genome-Wide Associations through 12/2013
at p≤5e-8 for 17 trait categories
NHGRI GWA Catalog
www.genome.gov/GWAStudies
www.ebi.ac.uk/fgpt/gwas/
Picture emerging from GWAS

A lot of common variants with small effects
−
Some are tagging rare variants
Picture emerging from GWAS

A lot of common variants with small effects
−

How many tagging rare variants?
Many shared effects across traits
−
Need joint analyses & phenotype refinement
Psoriasis and
Ankylosing spondylitis
around IL23R
Picture emerging from GWAS

A lot of common variants with small effects
−

Many shared effects across traits
−

How many tagging rare variants?
Need joint analyses & phenotype refinement
Much to do on the biological side
−
Pathways
−
From association to function
We also develop methods