UNIVERZA V LJUBLJANI BIOTEHNIŠKA FAKULTETA ŠTUDIJ

UNIVERZA V LJUBLJANI
BIOTEHNIŠKA FAKULTETA
ŠTUDIJ BIOTEHNOLOGIJE
Nace KRANJC
ANALIZA ALTERNATIVNEGA IZREZA INTRONOV ZA
DETEKCIJO IZOOBLIK mRNA Z METODO SEKVENCIRANJA
RNA
DIPLOMSKI SEMINAR
Univerzitetni študij – 1. stopnja Biotehnologija
Ljubljana, 2012
UNIVERZA V LJUBLJANI
BIOTEHNIŠKA FAKULTETA
ŠTUDIJ BIOTEHNOLOGIJE
Nace KRANJC
ANALIZA ALTERNATIVNEGA IZREZA INTRONOV ZA DETEKCIJO IZOOBLIK
mRNA Z METODO SEKVENCIRANJA RNA
DIPLOMSKI SEMINAR
Univerzitetni študij – 1. stopnja Biotehnologija
ANALYSIS OF ALTERNATIVE SPLICING FOR DETECTION OF mRNA ISOFORMS
WITH RNA-seq METHOD
B. SC. THESIS
Academic Study Programmes - Biotechnology
Ljubljana, 2012
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
II
Diplomski seminar je zaključek univerzitetnega študija – 1. Stopnja Biotehnologija
Študijska komisija Študija biotehnologije je za mentorja diplomskega seminarja imenovala doc.
dr. Jerneja Jakšeta.
Komisija za oceno in predstavitev:
Predsednica: prof. dr. Branka JAVORNIK
Univerza v Ljubljani, Biotehniška fakulteta, Oddelek za agronomijo
Član:
doc. dr. Jernej JAKŠE
Univerza v Ljubljani, Biotehniška fakulteta, Oddelek za agronomijo
Članica:
doc. dr. Polona JAMNIK
Univerza v Ljubljani, Biotehniška fakulteta, Oddelek za živilstvo
Datum zagovora:
Podpisani se strinjam z objavo svojega diplomskega seminarja na spletni strani Digitalne
knjižnice Biotehniške fakultete. Izjavljam, da je delo, ki sem ga oddal v elektronski obliki,
identično tiskani verziji.
Nace Kranjc
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
III
KLJUČNA DOKUMENTACIJSKA INFORMACIJA
ŠD
DK
KG
AV
SA
KZ
ZA
LI
IN
TD
OP
IJ
JI
AI
Du1
UDK 577.2 (043.2)
alternativni izrez/mRNA/RNA-seq/transkriptom/izooblike/
KRANJC, Nace
JAKŠE, Jernej (mentor)
SI-1000 Ljubljana, Jamnikarjeva 101
Univerza v Ljubljani, Biotehniška fakulteta, Študij biotehnologije
2012
ANALIZA ALTERNATIVNEGA IZREZA INTRONOV ZA DETEKCIJO IZOOBLIK
mRNA Z METODO SEKVENCIRANJA RNA
Diplomski seminar (Univerzitetni študij – 1. stopnja Biotehnologija)
VI, 15 str., 4. sl., 18 vir.
sl
sl/en
RNA sekvenciranje (metoda RNA-seq) je novejši pristop za raziskovanje transkriptoma.
Temelji na uporabi novih generacij sekvenciranja in se uporablja za odkrivanje stopnje
ekspresije, alternativnega izreza intronov ter ostalih raziskav na področju transkriptomike.
Analiza alternativnega izreza intronov z RNA sekvenciranjem omogoča odkrivanje novih
izooblik mRNA molekul. Alternativni izrez intronov poteka v veliki večini več eksonskih
genov in je tkivno specifičen mehanizem. Pripomore k večjemu številu oblik mRNA, ki
izhajajo iz posameznega gena in poslednično k več proteinskim oblikam. Znanih je več
dogodkov alternativnega izreza, ki ustvarijo različne izooblike, med njimi se
najpogostejše pojavlja izpuščanje eksona. Za odkrivanje mest alternativnega izreza in
novih izooblik so potrebni algoritmi, ki pravilno sestavijo odčitke po RNA sekvenciranju.
Dva algoritma, ki se za to nalogo uporabljata sta TopHat in Cufflinks, ki si pomagata z
mapiranjem odčitkov na referenčni genom. Programa sta brezplačna ter odprtokodna in
sta močno orodje za odkrivanje tako dogodkov alternativnega izreza kakor tudi genskega
izražanja. Gre za relativno hiter postopek sestavljanja transkriptov. Obstajajo pa tudi
statistične metode, ki napovedo mesto izreza brez eksperimentalnih podatkov.
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
IV
KEY WORDS DOCUMENTATION
ND
DC
CX
AU
AA
PP
PB
PY
TI
DT
NO
LA
AL
AB
Du1
UDC 577.2 (043.2)
alternative splicing/mRNA/RNA-seq/transcriptome/isoforms/
KRANJC, Nace
JAKŠE, Jernej
SI-1000 Ljubljana, Jamnikarjeva 101
University of Ljubljana, Biotechnical Faculty, Academic Study in Biotechnology
2012
ANALYSIS OF ALTERNATIVE SPLICING FOR DETECTION OF mRNA
ISOFORMS WITH RNA-seq METHOD
B. Sc. Thesis (Academic Study Programmes – Biotechnology)
VI, 15 p., 4 fig., 18 ref.
sl
sl/en
RNA sequencing (RNA-seq method) is a new powerful genomic tool used for
transcriptome research. It employes a next generation sequencing methods to conduct
experiments for researchof different expression levels of genes, alternative splicing and
other studies in field of transcriptomics. Analysis of alternative splicing uses RNA
sequencing for discovering new mRNA isoforms. Almost all multiexon genes undergo
alternative splicing, which is considered as tissue specific process. It produces large
amount of translational products from a single gene, hence enriching the protein diversity.
As mechanism of alternativne splicing, a few splicing events are known, among which
skipping of exon most often occures. For detecting splice sites and new isoforms efficient
computational algorithms are required. Algorithms are also needed for assembly of reads
after RNA sequencing. Two of such algorithms are TopHat and Cufflinks, which use
mapping of reads to the reference genome. TopHat and Cufflinks are free and open source
software packages and are powerfull tool for discovering splicing events and genes
expressions. Transcript assembly is relatively fast process. For discovering splice sites
dedicated statistical methods can be used without experimental data.
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
V
KAZALO VSEBINE
Str.
KLJUČNA DOKUMENTACIJSKA INFORMACIJA .................................................. III KEY WORDS DOCUMENTATION ............................................................................... IV KAZALO VSEBINE ........................................................................................................... V KAZALO SLIK .................................................................................................................. VI SLOVARČEK ..................................................................................................................... VI 1 UVOD .................................................................................................................................... 1 2 RNA SEKVENCIRANJE .................................................................................................... 2 3 POST-TRANSKRIPCIJSKA REGULACIJA GENOV ................................................... 4 4 ANALIZA ALTERNATIVNEGA IZREZA ...................................................................... 5 5 REGULACIJA ALTERNATIVNEGA IZREZA IN IZOOBLIK ................................... 6 6 ODKRIVANJE IZOOBLIK ................................................................................................ 8 6.1 TOPHAT ................................................................................................................................ 9 6.2 CUFFLINKS ........................................................................................................................ 11 7 ZAKLJUČEK ..................................................................................................................... 13 8 VIRI ..................................................................................................................................... 14 8.1 CITIRANI VIRI ................................................................... Error! Bookmark not defined. 8.2 DRUGI VIRI ........................................................................ Error! Bookmark not defined. ZAHVALA Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
VI
KAZALO SLIK
Slika 1: Shematski prikaz tipičnega RNA-seq eksperimenta (Marguerat in Bähler, 2010) ..................... 3 Slika 2: Shematski prikaz dogodkov alternativnega izreza (Wang in sod., 2008).................................... 7 Slika 3: Shematski prikaz algoritma TopHat (Trapnell in sod., 2009) ................................................... 10 Slika 4: Shematski prikaz algoritma Cufflinks (Trapnell in sod., 2010) ................................................ 12 SLOVARČEK
IUM (angl. initialy unmaped reads) - odčitki, ki se po prvem poskusu ne mapirajo
Odčitek (angl. sequence read) - zaporedje DNA, ki smo mu določili nukleotidno zaporedje
RNA-seq - metoda sekvenciranja RNA molekul s pomočjo novih generacij sekvenciranja
SNP (ang. single nucleotide polymorphism) - polimorfizem enega nukleotida
Spajalno telesce (angl. spliceosom) - proteinski kompleks, ki omogoča alternativni izrez
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
1
1 UVOD
Do pred slabimi desetimi leti je veljala centralna dogma genetike, ki je trdila, da se DNA enega
gena prepiše v mRNA in ta kodira protein. Glede na centralno dogmo je RNA delovala kot most
pri prenosu biološke informacije iz DNA v proteine. V zadnjem času pa je dobila RNA širši
pomen predvsem pri regulaciji izražanja proteinov. Nepričakovano majhno število genov
postavlja vprašanje od kje izvira kompleksnost organizmov. Odkritje alternativnega izreza
intronov skupaj z drugimi odkritimi regulacijami izražanja genov je predstavilo povsem nov
pogled na centralno dogmo. Hiter napredek na področju sekvenciranja omogoča globje
raziskovanje regulacije izražanja genetskih informacij v zadnjih letih. Z razvojem novih generacij
sekvenciranja lahko v večjem obsegu, hitreje in ceneje dostopamo do genetskih informacij, ki so
potrebne za boljše razumevanje kompleksnosti organizma.
Ena izmed metod, ki jih omogočajo nove generacije sekvenciranja, je tudi RNA sekvenciranje, ki
zelo natančno določa stopnjo ekspresije določenih genov, alternativnega izreza intronov,
ekspresijo specifičnih alelov itd. Analize s starejšimi metodami sekvenciranja niso bile mogoče v
takšnem obsegu. Nove generacije sekvenciranja pa z velikimi količinami pridobljenih podatkov
in natančnostjo odpirajo vrata novemu biološkemu opazovanju ter novim dognanjem.
RNA sekvenciranje je lahko kot metoda uporabljena za raziskovanje na področju
transkriptomike, natančneje pri regulaciji izražanja genetskih informacij. V takšni regulaciji
sodeluje tudi alternativni izrez intronov, ki z različnimi izooblikami RNA molekul še bolj
prispeva h kompleksnosti in pestrosti organizmov. Analiziranje in pojasnjevanje takšnih
mehanizmov sta ključna za razumevanje osnovnega delovanja organizma ter življenja samega.
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
2
2 RNA SEKVENCIRANJE
Naslednje generacije sekvenciranja se ne uporabljajo samo za analiziranje statičnih genomov,
temveč tudi za analize dinamičnih transkriptomov v metodi, ki se imenuje RNA sekvenciranje.
Te zmogljive in hitro razvijajoče tehnologije so v uporabi le nekaj let, vendar so prispevale že
ogromno pri našem razumevanju genske ekspresije in regulacije.
Regulacija genske ekspresije je osnovna povezava genotipov s fenotipi. Sinteza RNA je močno
nadzorovana in oblikuje kompleksne mreže genske ekspresije, ki vodijo biološke procese. Te
mreže morajo biti robustne in plastične, da se lahko prilagajajo na okoljske in genetske
spremembe. Za več kot 10 let so mikromreže omogočale simultan nadzor nivoja ekspresije vseh
anotiranih genov v populaciji celic (Shalon in sod., 1996). Zmožnost analize celotnih programov
genske ekspresije je odprlo nova obzorja razumevanja globalnih procesov regulacije genske
ekspresije. Zavedanje, da RNA prepisana iz nekodirajočih delov genoma igra ključno vlogo, je
omogočilo dragocen vpogled v transkriptomiko.
Za razvojem tehnik mikromrež so pri različnih ogranizmih pokazali, da je bila kompleksnost
transkriptoma zelo podcenjena (Wang in sod., 2009). To je bil čas, ko so na trg vstopile nove
generacije sekvencioniranja. Te platforme omogočajo hitro in poceni sekvenciranje ogromnih
količin podatkov. Kljub temu, da je bilo direktno sekvencioniranje cDNA knjižnic doseženo že s
SAGE (Velculescu in sod., 1995) in MPSS (Brenner in sod., 2000), so NGS bolj direktne in
cenejše. Takrat se je rodil RNA-seq.
Na NGS trgu trenutno prevladujejo tri platforme: FLX-pirosekvenciranje (454 Roche), Illumina
genome analyser in ABI SOLiD. Na vseh treh platformah so DNA fragmenti sekvencirani
paralelno. Takšen način proizvede veliko število relativno kratkih odčitkov. Dolžine so v rangu
od 30-100 baznih parov pri Illumini in SOLiD-u ter do 200-500 baznih parov pri FLX-u.
Pomembno je poudariti, da se te tehnologije razvijajo zelo hitro z večanjem števila in dolžine
posameznih odčitkov.
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
3
Kljub tehnološkim razlikam med posameznimi napravami vse tri temeljijo na enakem procesu
dela za produkcijo, analizo in sekvenciranje knjižnic. Najprej mora biti vzorec DNA razrezan, da
doseže velikost, ki je kompatibilna s sekvenciranjem (običajno manj kot 500 bp). Naslednji korak
je pritrditev DNA adapterjev, ki vsebujejo unikatne sekvence, na oba konca razrezane DNA
molekule. Adapterji omogočajo, da so DNA fragmenti posamezno ločeni med seboj in pritrjeni
na pretočno celico (angl. flowcell) ali v emulgiranih kapljicah pritjeni na mikro kroglice (angl.
beads). DNA fragmenti so nato vzporedno sekvencirani. Ključen korak pri RNA sekvenciranju je
priprava cDNA knjižnice. Najbolj enostaven način je sinteza dvoverižne cDNA, na katero so nato
pritrjeni adapterji. Takšen protokol se je uporabljal tudi pri sekvenciranju genomske DNA in je
bil uporabljen tudi pri začetnih RNA-seq študijah.
Slika 1: Shematski prikaz tipičnega RNA-seq eksperimenta (Marguerat in Bähler, 2010)
NGS tehnologije izkoriščajo oddano svetlobo, ki nastane, ko se nukleotid (oz. oligonukleotid v
primeru SOLiD) pritrdi na matrico. Podatki pri NGS so torej posnetki oddane svetlobe v vsaki
vzporedni sekvenčni reakciji v vsakem ciklu sekvenciranja. Posnetki predstavljajo terabajte
podatkov, ki jih je potrebno za vsako vzporedno reakcijo, za vsako bazo posebej, pretvoriti v
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
4
numerični signal. RNA-seq podatki so po svoji naravi števni in digitalni. Zanesljivost RNA-seq
podatkov je v veliki meri odvisna od pravilnega mapiranja sekvenčnih odčitkov na ustrezne
referenčne genome ali od učinkovitega de novo sestavljanja. Mapiranje odčitkov z veliko
zanesljivostjo in visokim izkoristkom pa se sooča tudi s številnimi izzivi. Omejujoč dejavnik pri
mapiranju so omejeni računalniški viri, ki so potrebni za sestavljanje ogromnega števila majhnih
odčitkov. Druga težava je tudi visoka stopnja napak pri rezultatih sekvenciranja. Da lahko
dejansko ločimo med SNP (ki nas zanimajo pri alelno specifičnih ekspresijah v RNA-seq
podatkih) in napako pri sekvenciranju, je potrebna ustrezna pokritost sekvenciranja vsake baze
(angl. higher sequencing depth), kjer je ista baza sekvencirana večkrat. Tretji izziv in hkrati tudi
ena izmed najbolj zanimivih značilosti RNA-seq podatkov je zaznava odčitkov, ki vsebujejo
post-traskripcijsko spremenjene ali preurejene sekvence, ki se jih ne da direktno mapirati na
referenčni genom (Marguerat in Bähler, 2010).
3 POST-TRANSKRIPCIJSKA REGULACIJA GENOV
Post-transkripcijska regulacija je ključen del genske ekspresije, ki pa se po pomembnosti in
prefinjenosti lahko enači z nadzorom transkripcije. Vključuje alternativni izrez, poliadenilacijo,
RNA urejanje, RNA degradacijo in translacijo. Izključno z nadzorom translacije, med te procese
spada sprememba strukture ali sekvence transkripta. Kot rezultat teh procesov se torej sekvence
procesirane RNA bistveno razlikujejo od ustreznih genomskih sekvenc. Razumevanje posttranskripcijskih procesov se izboljšuje, vendar še nismo sposobni napovedati dogodkov mRNA
procesiranja samo na osnovi genomske sekvence.
RNA-seq je zelo primeren za študije mRNA procesiranja, saj ustvarja podatke iz sekvence
transkripta v knjižnico, ki je neodvisna od genomske sekvence organizma. Pri primeru
alternativnega izreza je pridobivanje odčitkov, ki vsebujejo nesosednje sekvence odvisno samo
od primerne strategije mapiranja.
V enem izmed pristopov, kjer se niz odčitkov pri mapiranju ne ujema z referenčnim genomom,
so odčitki lahko uspešno mapirani s pomočjo referenčne knjižnice, ki vsebuje vse predvidene
stike mest ekson-ekson. Sekvenčni odčitki, ki so mapirani preko ekson-ekson stika (angl. transread), so pokazatelj za post-transkripcijske preureditve. Kljub enostavnemu in fleksibilnemu
pristopu, pa nastanejo težave, ko se pojavijo novi, ne-anotirani spojitveni stiki (angl. splice
junctions). Alternativo za mapiranje bi lahko predstavljala referenčna sekvenčna knjižnica vseh
možnih spojitvenih stikov namesto vseh poznanih spojitvenih stikov. Ta pristop bi omogočal
odkrivanje novih alternativnih izrezov. V drugem pristopu lahko pri mapiranju sekvenčnih
odčitkov dopuščamo vrzeli pri poravnavi ali pa odčitke razdelimo na dva ločena dela pred
mapiranjem obeh polovic nazaj na referenčni genom. Če polovici nista poravnani ena ob drugi po
mapiranju, to kaže na post-transkripcijsko preureditev ali alternativni izrez. Ta pristop je lahko
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
5
zelo uporaben, saj ne potrebuje nikakršne genomske anotacije. Za zanesljivo mapiranje so, kljub
temu da so razdeljeni na dva dela, potrebni sekvenčni odčitki.
Število odčitkov, ki segajo preko stikov dveh eksonov nam, poleg mapiranja mest posttranskripcijskih preureditev, pove tudi stopnjo različnih transkripcijskih izooblik.
Četrta strategija uporablja prednosti, ki jih prinaša tako imenovano sekvenciranje parnih koncev
(angl. paired-end). Naprave za določanje zaporedja naslednje generacije sekvenciranja (NGS)
omogočajo sekvenciranje obeh koncev vsakega DNA fragmenta v knjižnici. Sekvenčne podatke
torej sestavljata dva sekvenčna odčitka za vsak DNA fragment. Dolžina med obema odčitkoma je
načeloma enaka kakor velikost fragmenta v knjižnici (Korbel in sod., 2007). Za analizo posttranskripcijskih preureditev z RNA-seq se upošteva dolžina med obema odčitkoma fragmenta. V
kolikor je dolžina krajša ali daljša od tiste v knjižnici, to nakazuje na preureditev. Ta način pa za
razliko od prvih treh načinov ne omogoča direktnega mapiranja vsake baze na stiku, kjer dobimo
točne koordinate, na katerih poteče alternativni izrez ali preureditev (Marguerat in Bähler, 2010).
4 ANALIZA ALTERNATIVNEGA IZREZA
Analiza alternativnega izreza intronov z RNA-seq je bila pred kratkim opravljena na več
človeških tkivih (Wang in sod., 2008; Pan in sod., 2008) in celičnih linijah (Wang in sod., 2008).
Zmožnost vzorčenja vsake možne izooblike alternativnega izreza je odkrila veliko večje število
alternativnega izreza v človeških tkivih kot je bilo prej predvidevano. Alternativni izrez poteče
kar v 95 % vseh človeških več eksonskih genih, če upoštevamo tkivno specifične gene.
Najpogostejša regulacija pri tem pa je izpuščanje eksonov (Wang in sod., 2008; Pan in sod.,
2008). Ti rezultati bistveno povečajo prejšnje ocene, ki so predvidevale, da izrez poteče v
približno dveh tretjinah človeških genov (Johnson in sod., 2003, cit. po Marguerat in Bähler,
2010). Pri 92 % vseh genov ima najpogostejša izooblika relativno frekvenco pojavljanja nad 15
%, kar pomeni, da v večini primerov več izooblik istega traskripta doseže visoke ravni izražanja
(Wang in sod., 2008).
Alternativni izrez mRNA omogoča nastajanje velikega števila produktov genov z različnimi
funkcijami iz ene same kodne sekvence. Ta mehanizem omogoča nastajanje višje stopnje
raznolikosti (Brett in sod., 2001).
Nepričakovano nizko število prepoznanih genov pri človeku postavlja vprašanje o izvoru
kompleksnosti organizma (Venter in sod., 2001, cit. po Brett in sod., 2001). Eden izmed vzrokov
večje kompleksnosti človeških genov (modularnosti) v primerjavi z ostalimi večceličnimi
organizmi, je višja stopnja regulacije genov in poti. Drug vir bi lahko bile post-translacijske
modulacije. Poznanih je več kot 200 različnih vrst, ob tem pa predvidevajo, da za vsak človeški
gen obstajajo trije različni prilagojeni proteini z različnimi funkcijami. Alternativni izrez pri
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
6
človeških genih lahko pripomore k večjemu številu proteinov na posamezni gen (Brett in sod.,
2001).
V prvi študiji, ki je analizirala kompleksnost alternativnega izreza v človeških tkivih z mRNAseq, so ugotovili, da pri prib. 95 % več eksonskih genov poteče alternativni izrez in pri tem
nastane prib. 100.000 intermediatov v človeških tkivih. Kot tehnika je bila uporabljena povezava
RNA-seq z EST-cDNA sekvenčnimi podatki.
Alternativni izrez se obravnava kot ključni faktor za povečano celično in funkcionalno
kompleksnost v višjih evkariontih (Matlin in sod., 2005; Blencowe, 2006; Ben-Dov in sod.,
2008). Pri analizi alternativnega izreza z mikročipi in EST-cDNA sekvenčnimi podatki je bilo
predvideno, da dve tretjini človeških genov vsebuje eno ali več alternativno izrezanih eksonov
(Pan in sod., 2008).
Za oceno kompleksnosti alternativnega izreza v človeških tkivih so bili v študiji (Pan in sod.,
2008) uporabljeni mRNA-seq podatki iz celotnih možganov, možganske skorje, srca, skeletnih
mišic, pljuč in jeter. V teh tkivih se je iskalo že znane in nove primere. Stične sekvence, ki so
določene kot znane so tiste, ki so bile podprte z analizo poravnave EST in cDNA sekvenc.
Podatkovno rudarjenje v 15.702 UniGene gručah z več eksoni, kjer vsaka vsebuje enega ali več
lokusno-specifičnih Refseq cDNA, je podalo rezultate o 257.257 že znanih mestih stika eksonov
in 2.459.306 kandidatnih novih mestih stika eksonov.
Pri povečani stopnji pokritosti zaporedja (16 do >500 branj na 100 nukleotidov), je bil
alternativni izrez zaznan pri 92 % - 97 % genov z več eksoni. To pomeni znatno povečanje v
primerjavi s prejšnjo oceno, da pri 74 % genov z več eksoni poteče eden ali več alternativnih
izrezov. V vsakem primeru je bilo ugotovljeno, da je bilo bistveno več stikov najdenih le v enem
tkivu, kar kaže na tkivno specifične variacije alternativnega izreza oz. tkivno omejene
alternativne izreze. S primerjavo novo odkritih stikov med posameznimi tkivi je bilo tudi
ugotovljeno, da je večji del enakih stikov v skeletni mišici in srcu ter možganih in možganski
skorji kot v drugih parih tkiv (Pan in sod., 2008).
5 REGULACIJA ALTERNATIVNEGA IZREZA IN IZOOBLIK
Tkivno specifični alternativni izrez je ponavadi reguliran s kombinacijo tkivno-specifičnih in
izraženih RNA-vezavnih faktorjev, ki so v interakciji z cis-delujočimi RNA elementi in vplivajo
na spajalno telesce (angl. spliceosom) v območju mest izreza. Veliko faktorjev lahko zavre ali
aktivira izrez.
Za detekcijo izooblik je poleg pravilnega mapiranja RNA-seq podatkov potrebno poznati tudi
dogodke alternativnega izreza, da lahko pri mapiranju sekvenc stikov pravilno predvidevamo
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
7
izooblike. Vsak od teh dogodkov alternativnega izreza proizvede več izooblik mRNA. Poznamo
8 različnih dogodkov, po katerih poteče alternativni izrez intronov (Slika 2). Pri medsebojni
izključitvi eksonov (MXE) transkripti vsebujejo enega ali drugega od alternativnih eksonov,
vendar nikoli oba. Pri preskoku eksona gre preprosto za preskok vključitve eksona v transkript.
Tretji način je ohranitev introna v zreli mRNA molekuli. Vključeno je tudi alternativno 5’
izrezno mesto (A5SS) ter alternativno 3’ mesto (A3SS). Pri tandemski 3’ neprepisani regiji
(tandem 3’ UTR) in alternativnemu zadnjemu eksonu (ALE) gre za izooblike, ki imajo daljšo ali
krajšo 3’ UTR mesto. Zadnja pa je alternativni prvi ekson (AFE), pri katerem alternativni
promotor na začetku gena vpliva na mRNA izooblike z različnim 5’ UTR mestom.
Slika 2: Shematski prikaz dogodkov alternativnega izreza (Wang in sod., 2008)
Da bi ocenili tkivno regulirano alternativno izrezovanje, je bilo pridobljenih približno 105.000
dogodkov alternativnega izreza na podlagi dostopnih človeških cDNA in EST podatkov. Odčitki,
ki so podpirali obe alternativni izoobliki, so se pojavili v več kot tretjini teh dogodkov.
Največkrat se je pojavil preskok enega eksona, najmanjkrat pa ohranitev introna.
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
8
Znanje kje se nahajajo odčitki mest spajanja ekson-ekson in mest, ki padejo v specifično regijo
izooblik, lahko pripomore k identificiranju novih izooblik. Teoretično jih lahko s pomočjo
statistike napovemo, glede na dolžino odčitkov na posemeznih prelomih in določeno število
neusklajenosti pri poravnavi.
Podatki pridobljeni iz RNA-seq omogočajo neposredno zaznavanje dogodkov alternativnega
izreza. Odčitki so mapirani na spojitveni stik iz česar lahko sklepamo o novih izooblikah ter
potrdimo že znane. Veliko vlogo pri celovitem pristopu in zanesljivem določanju izooblik ima
tudi pokritost sekvenciranja (ang. sequencing depth). Večja kot je globina sekvenciranja in
pokritost sekvenciranja, natančnejši so podatki (Wang in sod., 2008).
6 ODKRIVANJE IZOOBLIK
Za odkrivanje dogodkov alternativnega izreza so razvite tudi metode, ki kot vir podatkov
uporabljajo že obstoječe knjižnice in RNA-seq podatke. Pogoj za takšno analizo je vnaprej znana
porazdelitev odčitkov vzdolž transkriptov. Statistična metoda z imenom CASI (Cell type-specific
Alternative uSage Index) napove dogodke alternativnega izreza znotraj celične linije. Rezultat je
podan za vsak ekson posebej. Metoda POEM (PrOportion EstiMation) omogoča relativno
kvantifikacijo že znane transkripcijske strukture v posamezni celični liniji. Tretja metoda pa se
imenuje DASI (Differential Alternative uSage Index), ki napove razlikovanje med dvema
celičnima linijama. Takšno teoretično napovedovanje in ocenjevanje dogodkov alternativnega
izreza se lahko povratno preveri z RT-PCR metodo, ki zazna dolžine in količino posamezne
izooblike, ki nastane po alternativnem izrezu. CASI v večini primerov potrebuje vsaj dva
transkripta na posamezen gen, medtem ko DASI lahko predvidi variacije s samo enim
transkriptom. Rezultati POEM metode so se izkazali v dobri povezavi s qPCR rezultati (Richard
in sod., 2010).
Pri praktičnem odkrivanju izooblik mRNA prevladujeta dva algoritma, ki omogočata sestavljanje
RNA-seq odčitkov v različne transkripte oz. izooblike. Imenujeta se TopHat in Cufflinks.
Programa sta brezplačna ter odprtokodna in sta močno orodje za odkrivanje tako dogodkov
alternativnega izreza kakor tudi genskega izražanja. Omogočata odkrivanje novih genov, izooblik
mRNA, transkripcijskega izražanja ter primerjavo slednjih med različnimi celičnimi linjami ali
tkivi (Trapnell in sod., 2012).
Velika slabost RNA-seq je, da so odčitki občutneje krajši kot pri Sangerjevi tehniki
sekvenciranja. Ker so odčitki kratki, je pri mapiranju potrebne veliko več računalniške moči. Prva
stopnja pri strategijah mapiranja je poravnava odčitkov z že znanim eksonom za posamezne gene.
Kadar se odčitek ne prilega na ekson in je ta del sekvence na stiku introna in eksona, se ta odčitek
ne bo poravnal in bo program to zaznal kot napako pri poravnavi. To težavo so rešili na način, da
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
9
so povezali sekvence sosednjih eksonov in ustvarili sintetične fragmente h katerim so se lahko
poravnali odčitki, ki se prej niso mogli na genomsko karto. V kolikor se takšen odčitek poravna
ob sintetičen fragment, ta predstavlja mesto spajanja med znanima eksonoma. S tem lahko na
začetku identificiramo odčitke, ki prekrivajo mesta spajanja. Takšna strategija pa predstavlja
velik računalniški izziv, saj gre za delo z zelo kratkimi odčitki. Ena izmed novih metod za
mapiranje odčitkov uporablja tudi strojno učenje za odkrivanje mest spajanja. Imenuje se
QPALMA in za učenje potrebuje že znana mesta spajanja iz referenčnega genoma.
6.1 TOPHAT
TopHat je programski paket, ki identificira mesta izreza ab initio z mapiranjem RNA-seq
odčitkov. Postopek delovanja algoritma je prikazan spodaj (Slika 3). TopHat mapira odčitke s
stopnjo ~2,2 milijona odčitka na CPU uro. Namesto filtriranja možnih mest izreza s shemo
točkovanja, TopHat najprej mapira odčitke, ki se nahajajo znotraj eksona. Pri tem uporablja
izredno hiter Bowtie algoritem mapiranja, ki se uporablja tudi za poravnavanje genomskih DNA
fragmentov.
TopHat najde mesta spajanja z mapiranjem odčitkov na referenčni genom v dveh fazah. V prvi
fazi z Bowtie poravna vse odčitke na referenčni genom. Vsi odčitki, ki se pri tem koraku ne
mapirajo, so pospravljeni "na stran" kot začetni nemapirani odčitki (angl. IUM - initially
unmaped reads). Po prvem koraku mapiranja, TopHat poravna mapirane odčitke. Rezultat
poravnave so soseske zaporedja (ang. contiguous sequences), ki so bile zložene iz raztresenega
konsenza odčitkov. Za te soseske sklepamo, da so eksoni. Za vse napačne baze na regijah s šibko
pokritostjo odčitkov, se uporabijo baze referenčnega genoma. Na vsaki strani eksona, kjer se
nahajajo mesta spajanja eksonov, se predvideva, da tudi manjka del sekvence. TopHat v tem
primeru robne dele nadomesti s sekvencami referenčnega genoma. Znotraj eksona se zaradi šibke
pokritosti lahko pojavijo tudi vrzeli, ki pa jih TopHat ne zazna kot mesta spajanja, če niso daljše
od 6 bp. Običajno pri sesalskih eksonih introni niso krajši kot 70 bp. TopHat nato označi vsako
prepoznano donorsko ali akceptorsko mesto znotraj sosednih regij. Za tem obravnava vsa možna
parjenja teh mest znotraj sosednjih regij. Nato poskuša ugotoviti, če bi se med njih lahko vrinili
prepoznani introni. TopHat upošteva samo introne daljše kot 70 bp in krajše kot 20.000 bp. Vsak
tako predviden intron je nato primerjan z IUM odčitki, ki bi se nahajali v mestih spajanja. Robne
sekvence potencialnih donorskih in akceptorskih mest izreza znotraj sosednjih regij so nato
združene. IUM odčitki so zatem poravnani na sekvence mest spajanja. TopHat je zmožen hitrega
odkrivanja novih mest izreza in novih izooblik mRNA.
Za celotno zbirko podatkov iz enega RNA-seq, je TopHat potreboval le en dan dela na običajnem
računalniku. TopHat je uporaben tudi za odkrivanje mest spajanja eksonov pri nizkih stopnjah
transkripcije. V prihodnosti pa lahko s pair-end odčitki pričakujemo še lažje delo za TopHat in še
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
10
bolj natančne podatke. Detekcija mest spajanja se bo povečala in napake se bodo zmanjšale. V
prihodnosti pa meri tudi na večjo resolucijo in sicer do ene baze natančno določitev eksonov. Na
sedanji stopnji razvoja pa s TopHat ni mogoče zajeti mikroeksonov. TopHat je implementiran v
C++ in Python programski jezik in se ga lahko uporablja na Linux ali Mac OS X platformi
(Trapnell in sod., 2009).
Slika 3: Shematski prikaz algoritma TopHat (Trapnell in sod., 2009)
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
11
6.2 CUFFLINKS
Cufflinks algoritem (Slika 4) kot izvorne podatke uporabi cDNA fragmente, ki so bili poravnani
na genom s programsko opremo, ki je sposobna v to poravnavo že upoštevati izrezane dele.
Primer takšne programske opreme je že prej opisani TopHat. Algoritem ločeno sestavi snope
poravnanih fragmentov (ang. bundles), ki se med seboj prekrivajo. Ločeno sestavljanje poteka
zaradi zmanjšanja časa procesiranja in porabe računalniškega spomina. Cufflinks nato oceni
množino združenega transkripta. Prvi korak pri združevanju fragmentov je prepoznavanje parov
nezdružljivih fragmentov, ki izhajajo iz različnih mRNA izooblik. Fragmenti so povezani v graf
prekrivanja (ang. overlaping graph), ko so združljivi in se njihove poravnave prekrivajo z
genomom. Vsak fragment ima eno vozlišče in na vsaki strani rob, ki se prekriva z združljivim
fragmentom, vse vzdolž celotnega genoma. Poti vzdolž celotnega grafa predstavljajo nize
sorodnih in združljivih fragmentov, ki so lahko povezani v celotne izooblike.
Dilworthov teorem pravi, da število sorodnih nezdružljivih fragmentov predstavlja najmanjše
število transkriptov potrebnih za zajetje vseh fragmentov. Cufflinks dokazuje in uporablja
Dilworthov teorem, ki proizvaja najmanjši niz poti, ki zajemajo vse fragmente v grafu
prekrivanja, na ta način, da najde največji niz odčitkov, od katerih niti dva ne moreta izvirati iz
iste izooblike. Fragmenti so nato povezani v transkripte iz katerih bi lahko izvirali. Cufflinks nato
oceni množino transkriptov s pomočjo statističnega modela. Če gre za sekvenciranje parnih
koncev, imajo fragmenti sekvencirane le konce, kar pomeni, da dolžina posameznega ni znana.
Cufflinks si z distribucijo dolžin fragmentov pomaga določiti posamezne fragmente k
izooblikam. Nazadnje program določi verjetnost za vse možne nize množin posameznih izooblik
in jih prikaže v grafu (Trapnell in sod., 2010).
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
Slika 4: Shematski prikaz algoritma Cufflinks (Trapnell in sod., 2010)
12
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
13
7 ZAKLJUČEK
RNA-seq se je, zahvaljujoč novim metodam sekvenciranja, izkazalo kot zelo močno in natančno
orodje za raziskovanje transkriptoma. Glede na hitrost razvoja novih tehnologij sekvenciranja v
zadnjih letih, smo lahko prepričani v še hitrejši razvoj v prihodnosti. Metoda RNA-seq je
pripomogla k večjemu zavedanju kako kompleksen je transkriptom in kako potekajo mehanizmi,
ki uravnavajo transkripcijo. Predvsem pa je omogočila bolj natančen pogled v transkriptomiko.
Alternativni izrez intronov poteka v veliki večini evkariontskih več eksonskih genov. Ta
mehanizem omogoča večjo kompleksnost organizma. Pri alternativnem izrezu nastajajo različne
izooblike mRNA molekul iz enega gena. Na ta način nastaja veliko več končnih proteinskih
produktov kot je genov.
Za odkrivanje novih izooblik se raziskovalci poslužujejo relativno novih orodij. Nove izooblike
se lahko napove s statistično analizo, brez eksperimentalnih podatkov, lahko pa izooblike
določimo s pomočjo dveh računalniških algoritmov: TopHat in Cufflinks. Ker v prihodnosti
lahko pričakujemo daljše odčitke po sekvenciranju, se bo tudi čas za analizo z algoritmi in za
sestavljanje transkriptov skrajšal.
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
14
8 VIRI
8.1 CITIRANI VIRI
Ben-Dov C., Hartmann B., Lundgren J., Valcarcel J. 2008. Genome-wide Analysis of Alternative
Pre-mRNA Splicing. The Journal of Biological Chemistry, 283: 1229-1233
Blencowe B. J. 2006. Alternative Splicing: New Insights from Global Analyses. Cell, 126: 37-47
Brenner S., Johnson M., Bridgham J., Golda G., Lloyd D. H., Johnson D., Luo S., McCurdy S.,
Foy M., Ewan M., Roth R., George D., Eletr S., Albrecht G., Vermaas E., Williams S. R.,
Moon K., Burcham T., Pallas M., DuBridge R. B., Kirchner J., Fearon K., Mao J., Corcoran
K. 2000. Gene expression analysis by massively parallel signature sequencing (MPSS) on
microbead arrays. Nat Biotechnol, 18: 630–634
Brett D., Pospisil H., Valcárcel J., Reich J., Bork P. 2002. Alternative splicing and genome
complexity. Nature Genetics, 30: 29-30
Korbel J. O., Urban A. E., Affourtit J. P., Godwin B., Grubert F, Simons J. F., Kim P. M., Palejev
D., Carriero N. J., Du L., Taillon B. E., Chen Z., Tanzer A., Saunders A. C. E., Chi J., Yang
F., Carter N. P., Hurles M. E., Weissman S. M., Harkins T. T., Gerstein M. B., Egholm M.,
Snyder M. 2007. Paired-end mapping reveals extensive structural variation in the human
genome. Science, 318: 420–426
Maniatis T., Tasic B. 2002. Alternative pre-mRNA splicing and proteome expansion in
metazoans. Nature, 418: 236-243
Marguerat S., Bähler J. 2010. RNA-seq: from technology to biology. Cellular and Molecular Life
Sciences, 67: 569-579
Matlin A. J., Clark F., Smith C.W. 2005. Understanding alternative splicing: towards a cellular
code. Nature Reviews Molecular Cell Biology, 6: 386–398
Pan Q., Shai O., Lee L. J., Frey B. J., Blencowe B. J. 2008. Deep surveying of alternative
splicing complexity in the human transcriptome by high-throughput sequencing. Nature
Genetics, 40: 1413-1415
Richard H., Schulz M. H., Sultan M., Nürnberger A., Schrinner S., Balzereit D., Dagand E.,
Rasche A., Lehrach H., Vingron M., Hass S. A., Yaspo M. 2010. Prediction of alternative
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
15
isoforms from exon expression levels in RNA-Seq experiments. Nucleic Acids Research, 38,
10: 1-15
Shalon D., Smith S. J., Brown P. O. 1996. A DNA microarray system for analyzing complex
DNA samples using two-color fluorescent probe hybridization. Genome Res, 6: 639-645
Trapnell C., Pachter L., Salzberg S. L. 2009. TopHat: discovering splice junctions with RNASeq. Bioinformatics, 25, 9: 1105-1111
Trapnell C., Roberts A., Goff L., Pertea G., Kim D., Kelley D. R., Pimentel H., Salzberg S. L.,
Rinn J. L., Pachter L. 2012. Differential gene and transcript expression analysis of RNA-seq
experiments with TopHat and Cufflinks. Nature Protocols, 7, 3: 562-578
Trapnell C., Williams B. A., Pertea G., Mortazavi A., Kwan G., van Baren M. J., Salzberg S. L.,
Wold B. J., Pachter L. 2010. Transcript assembly and quantification by RNA-Seq reveals
unannotated transcripts and isoform switching during cell differentiation. Nature
Biotechnology, 28, 5: 511-515
Velculescu V. E., Zhang L., Vogelstein B., Kinzler K. W. 1995. Serial analysis of gene
expression. Science, 270: 484-487
Wang Z., Gerstein M., Snyder M. 2009. RNA-Seq: a revolutionary tool for transcriptomics. Nat
Rev Genet, 10: 57-63
Wang E. T., Sandberg R., Luo S., Khrebtukova I., Zhang L., Mayr C., Kingsmore S. F., Schroth
G. P., Burge C. B. 2008. Alternative isoform regulation in human tissue transcriptomes.
Nature, 456: 470-476
8.2 DRUGI VIRI
Costa V., Angelini C., De Feis I., Ciccodicola A. 2010. Uncovering the Complexity of
Transcriptomes with RNA-Seq. Journal of Biomedicine and Biotechnology, 2010: 1-19
Jain M. 2011. Next-generation sequencing technologies for gene expression profiling in plants.
Briefings In Functional Genomics, 2, 1: 63-70
Maniatis T., Tasic B. 2002. Alternative pre-mRNA splicing and proteome expansion in
metazoans. Nature, 418: 236-243
Ozsolak F., Milos P. M. 2010. RNA sequencing: advances, challenges and opportunities. Nature
Reviews Genetics, 12: 87-98
Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA.
Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012
ZAHVALA
Na prvem mestu bi se rad zahvalil mentorju doc. dr. Jerneju Jakšetu za priložnost opravljanja
diplomskega seminarja pod njegovim mentorstvom. Zahvalil bi se mu tudi za vso pomoč pri
iskanju literature ter pri prevajanju strokovnih izrazov, podajanju napotkov za pisanje in za hiter
odziv pri nastalih težavah.
Rad bi se zahvalil tudi vsem prijateljem in sošolcem za pomoč ter vzpodbudo pri pisanju
diplomskega seminarja.