Teil 1 - ankri.de

Fragenkatalog
Informationssysteme im Gesundheitswesen ISG1 (Bioinformatik)
Dieser Fragenkatalog wurde anhand des Themenkatalogs erstellt. Leider fehlen einige Antworten
in Teil 2, 3 und 4. Ich hoffe aber die restlichen Antworten helfen euch weiter.
Teil 1
Wozu Bioinformatik?
• Viele ungelöste medizinische Probleme
• Zunehmende Automatisierung der Biologie generiert Datenmengen!!
• Viele Forschungsrichtungen und Industrien benötigen Auswertung !
• Experimente theoretisch erst nach Berücksichtigung aller bisherigen Erkenntnisse sinnvoll,
Bioinformatik kann eingesetzt werden, um bisher bekanntes Wissenzu biomedizinischer
Fragestellung systematisch zu bestimmen
• Labor-Experiment und Bioinformatik bilden eine Einheit
• Die beiden Seiten der Bioinformatik sind Datenbank und Methode (Tool)
Was versteht man unter einer Sequenz?
Die Bioinformatik beschäftigt sich mit drei Sequenzarten:
– DNA-Sequenzen (DNA = Desoxyribonukleinsäure)
– RNA-Sequenzen (RNA = Ribonukleinsäure)
– Proteinsequenzen
Was ist ein Gen?
Das Gen ist ein Abschnitt auf der DNA, der die Grundinformation zu Herstellung einer RNA enhält.
Was ist Proteinbiosynthese?
Gene werden durch Polymerasen von der DNA abgelesen und zu RNA umgeschrieben.
(Transkription)
Die RNA wiederum wird von Ribosomen abgelesen, es werden Aminosäureketten gebildet.
(Translation)
Faltung der Aminosäureketten im ER mit Unterstützung von Chaperonen ergibt die Proteine.
Was versteht man unter dem Zentralen Dogma der Molekularbiologie?
DNA => (Transkription) => RNA => (Translation) => Protein
(Informationsfluss)
Was ist ein Nukleotid?
Ein Molekül, das als kleinster Baustein von Nukleinsäuren fungiert.
RNA und DNA (Riesenmoleküle) sind aus fünf verschiedenen Sorten Nukleotiden aufgebaut.
Solch ein Nukleotid besteht immer aus folgenden Bausteinen:
– Phosphorsäure (P)
– Monosaccharid (Z); Ribose bei RNA, Desoxyribose bei DNA
– Eine von folgenden Nukleobasen:
– Adenin (A)
– Guanin (G)
– Cytosin (C)
– Thymin (T, DNA) / Uracil (U, RNA)
–
Welche Nukleotid-Paarungen gibt es?
• G–C
• A – T/U
Was ist Desoxyribonukleinsäure (DNA)?
Die DNA ist normalerweise ein Doppelstrang in Helixform. Sie kann sich Replizieren indem sie
sich aufteilt und sich neue Nukleotide an beide Stränge anlagern. So entstehen zwei identische
Stränge.
Was wissen sie bezüglich Gewebe und Zellen?
Als Gewebe bezeichnet man einen (Tier-)Zellverbund mit gemeinsamer Funktion. Eine einzelne
Zelle besteht aus verschiedenen Organellen und trifft durchaus "autonome" Entscheidungen (z.B.
Angriff, Abwehr, Lebenszweck erfüllen (Organe)). Dies tut sie durch biochemische SignalNetzwerke (Signaltransduktion) oder Signal-Pathways. Als Metabolismus bezeichnet man den
Stoffwechsel einer Zelle, als Metabolische Pathways die Synthese neuen Materials und Abbau.
Was sind Komponenten einer Tierzelle?
Die wichtigsten, in der Vorlesung besprochenen sind:
• Zellkern
• Ribosomen
• Vesikel
• Mikrokörperchen (Microbody)
• Endoplasmisches Retikulum (ER)
• Mitochondrien
Wie ist der Aufbau von DNA und RNA?
• DNA (Desoxyribonukleinsäure) ist ein Doppelstrang von Nucleotiden (Cytosin, Guanin,
Adenin und Thymin), der in Doppelhelixform vorliegt. Er wird zum Ablesen (Transkription)
und zur Reproduktion (bei der Mitose) aufgetrennt.
• RNA (Ribonukleinsäure) ist einsträngig und besteht ebenfalls aus einer Nucleotidkette (aber
in diesem Fall Cytosin, Guanin, Adenen und Uracil). Wir die DNA im Zellkern abgelesen
bildet sich mRNA, die aus dem Zellkern nach außen zu den Ribosomen wandert.
Wie funktioniert die DNA-Replikation?
•
Helicasa: Protein, das den Strang auftrennt (Enzym)
•
linker Strang: richtige Richtung, zweiter Strang kann sich
einfach anlagern
•
rechter Strang: falsche Richtung, Primer lagern sich an, wo
immer Rückwärts angelagert wird
Wer ware Watson und Crick?
Die beiden veröffentlichten in den 50er Jahren ein Paper zum Aufbau der DNA als Doppelhelix.
Dafür bekamen sie den Nobel-Preis.
Was ist der Genetische Code?
Bei der Proteinbiosynthese werden jeweils 3 Nukleinsäuren zu einer Aminosäure übersetzt. Diese
Zuordnung nennt man auch genetischen Code. Da es für drei Aminosäuren ja 64 (4³)
Kombinationen, aber nur 23 verschiedene Aminosäuren sowie ein Stop-Codon codiert sind, sind im
Code einige Redundanzen. Einfach ablesen lässt sich der genetische Code von der so genannten
Code-Sonne.
Herstellung von Proteinen aus DNA
=> siehe Proteinbiosynthese
Wie ist die Verbindung zwischen Genotyp und Phänotyp?
Genotyp: exakter Genetische Aufbau
Phänotyp: physische Eigenschaften wie Gewicht, Größe, ...
Der Phänotyp hängt natürlich vom Genotyp ab. Diese Verbindung wird in s.g. Genotyp-PhänotypMaps abgebildet. Aber Achtung: ein augenscheinlich gleicher Phänotyp muss nicht auf dem
gleichen Genotyp beruhen, es kann sich auch um eine ähnliche Entwicklung handeln.
Was sind die Abstraktionsebenen der Bioinformatik?
- DNA/Gene
- Proteine
- Zellkompartimente
- Zellen
- Zellverbünde / Gewebe / Organe
- Organismen
- Populationen
Wozu Bioinformatik ?
– Viele ungelöste medizinische Probleme. Die Biotechnologie benötigt erheblichen
Erkenntniszuwachs um schwerwiegende Erkrankungen besser zu diagnostizieren und
therapieren zu können.
– Die zunehmende Automatisierung der Biologie generiert große Datenmengen.
– Viele Forschungseinrichtungen und Industrien benötigen Auswertungen.
– Experimente sind theoretisch erst nach Berücksichtigung aller bisherigen Erkenntnisse
sinnvoll: Bioinformatik kann eingesetzt werden, um bisher bekanntes Wissen zu
biomedizinischer Fragestellung systematisch zu bestimmen. Labor-Experiment und
Bioinformatik bilden also eine Einheit
Anwendungebiete der Bioinformatik
• Forschungsprojekte (Humangenomprojekt)
• Pharmazeutische Industrie (Wirkstoffoptimierung)
• Diagnostische Industrie (Biomarker)
• Nahrungsmittel Industrie (Hefe, Mikroorganismen)
•
•
•
•
•
Kosmetische Industrie (Toxikologie)
Chemische Industrie (Mikroorganismen)
Militär (Bioterrorismus)
Landwirtschaft (Saatgut)
Umwelttechnik (Enzymoptimierung)
Was ist Three-Domain-System von Carl Woese?
Dieses Modell unterteilt die Lebewesen in die Domänen der Bakteria, Archaea und der Eukarya.
Unterschiede Prokaryoten / Eukaryoten
Prokaryoten:
Eine Zelle
keine Nucleus
keine Organellen
Eine ringfrömige DNA
keine Modifikation der RNA
nach der Transkription (mRNA)
Eukarioten:
Eine oder mehrere Zellen
Nucleus
Organellen
Chromosomen
Exons/Introns (splicing), RNA wird nach dem Ablesen zerstückelt und erst außerhalb des Zellkerns
in Proteine umgewandelt
Was sind Gene, wie sind Gene aufgebaut ?
Ein Gen ist ein Abschnitt auf der DNA, der ein Protein codiert. Er besteht aus Promotor und
Enhancer (Transkriptionsbeginn), aus einem 5'UTR (Anfangsbereich), aus Introns und Extrons (der
eigentliche Proteincodierende Bereich wobei alle Introns beim Splicen wegfallen) und einem 3'UTR
(Endbereich).
Innerhalb des eigentlichen proteincodierenden Bereichs, der erst nach dem Splicen seine endgültige
Form hat, ist der Anfang durch ein Start-Codon und das Ende durch ein Stop-Codon
gekennzeichnet. Vor dem Start-Codon gibt es bei Eukarioten noch die Kozak-Sequenz, die an den
Ribosomen die Translation einleitet. Zwischen Start- und Stop-Codon steht der eigentliche
genetische Code, bei dem jeweils 3 Nukleotide eine Aminosäure codieren.
Was ist Zellkommunikation ?
Eine Zelle hat kein explizites Gehirn, trifft aber sehr wohl autonome Entscheidungen durch
biochemische Signal-Netzwerke (Signaltransduktion) oder Signal-Pathways. Dies tut sie zur
Funktionserfüllung (z.B. Angriff, Abwehr, Lebenszweck erfüllen wie Organe / Schwärme bilden)
Teil 2
Wie ist die Bedeutung der Datenbanken in der Bioinformatik?
Es gibt in der Bioinformatik eine riesige Datenflut (z.B. menschl. Genom), daher sind Datenbanken
sehr wichtig. Die meisten Abstraktionsebenen der Bioinformatik sind durch Datenbanken
abgedeckt.
Woher kommen die Daten?
Aufgebaut und betrieben werden bioinformatische Datenbanken von Teams nach dem AnnotatorenPrinzip (to curate = Datenpflege/Aufbau, to annotate = manuelle Ergänzung). Hierbei kommt oft ein
dreistufiges System zum Einsatz:
I. Experimentelle Rodaten (Labor)
II. Datenbankaufbau
III. Automatische Erzeugung neuer Daten
Wie ist die Bedeutung der Zeitschriften in der biomedizinischen Forschung?
Sie haben eine hohe Bedeutung wie in der gesamten Wissenschaft. Große Literatur-Datenbanken
wie pubmed bewerten die Publikationen/Zeitschriften nach Impact-Faktor. Wichtige Zeitschriften
sind:
• Nature, Science (allg.)
• Bioinformatic, BMC Bioinf. (Bioinformatische Zeitschriften)
Welche Datenbanken gibt es in der Bioinformatik ?
• Pubmed: Literaturdatenbank
• EMBL-DB: DNA-DB
• Uniprot: Protein-DB
• OMIM: Krankheits-DB
• SRS: DB-Abfragetool
• Genom-DBen
• Struktur-DBen
• DBen über biochemische Netwerke
• Spezial-DBen
Wichtigste Datenbanken am EBI
Was sind EMBL / Genbank /DDBJ
Organisation von UniProt (UniParc, UniKB, UniRef)
Speicherungsstruktur von Bioinformatischen DB im Textformat
Wieso gibt es Redundanz in bioinformatischen Daten ?
SRS
ENTREZ
NCBI Taxonomy
OMIM
=> was muss man dazu wissen?
Organisation des humanen Genmaterials in Chromosomen
Teil 3
Wozu Sequenzvergleich ?
Konzepte des Sequenzvergleichs
Globales / Lokales Alignment
Paarweises / Multiples Alignment
Karteikarten bisher bis hier...
Scoring von Buchstabenvergleichen / DNA / Proteinen
Substitutionsmatrizen PAM / BLOSUM
Margaret Dayhoff
Affine / linear Gapkosten
Was ist dynamisches Programmieren ?
Funktionsweise Needleman-Wunsch Algorithmus
Funktionsweise Smith-Waterman Algorithmus
Teil 4
Dotplots: wie und wozu ?
Ein Dotplot (dt. Punktauftragung) ist eine graphische Methode der Bioinformatik zwei biologische
Sequenzen miteinander (oder eine Sequenz mit sich selbst) zu vergleichen. Dabei werden die
Sequenzen auf die horizontale und vertikale Achse (oben und links) aufgetragen und
Übereinstimmungen zwischen einer Zeile und Spalte an der entsprechenden Schnittstelle durch
einen Punkt (engl. dot) markiert. (Wikipedia)
=> Der Dotplot dient der Auffindung von ähnlichen bzw. übereinstimmenden Regionen.
Was sind Wortalgorithmen / Was ist Stringenz?
Die Dotplot-Methode kann durch das Einführen von "Fenstern" erweitert werden (Parameter: WortGröße, Fenstergröße, Stringenz / Minimalscore). Hierbei kann man unterscheiden zwischen:
• der reinen Wortmethode
• der Wortmethode mit Stringenz: sie ist sensitiver als die reine Wortmethode, allerdings muss
die Fenster-Stringenz-Einstellung (Größe des Fensters) erst ermittelt werden.
=> Wie funktioniert das genau?
Was ist der FASTA-Algorithmus, wozu wird er verwendet?
Der heuristische FASTA-Algorithmus wurde 1985 von David J. Lipman und William R. Pearson als
FASTP für Proteine entwickelt. Das Programm wurde 1988 auf Nukleotide erweitert. FASTA sucht
nach Ähnlichkeiten zwischen Sequenzen oder vergleicht eine gegebene Sequenz mit einer SequenzDatenbank. Die Speicherung der Sequenzdaten erfolgt im FASTA-Format. Das Prinzip dahinter: der
Algorithmus konzentriert sich auf ähnliche Regionen. (lokales Alignment!)
Wie funktioniert der FASTA Algorithmus?
• Schritt 1:
(a) K-Tupel Zerlegung (1 Tupel: 1 oder 2 Aminosäuren bzw. 5 oder 6
Nukleotide)
(b) In beiden Listen werden gleiche Wörter gesucht und falls möglich mit
angrenzenden ebenfalls gleichen Wörtern zusammengefügt. Dadurch werden
Diagonalen wie bei einem Dotplot gebildet.
•
Schritt 2:
Finde die 10 besten Diagonalläufe. FASTA gibt dazu allen Diagonalläufen
Bewertungen und nimmt die 10 besten.
•
Schritt 3:
Es wird versucht die hoch bewerteten Diagonalen miteinander zu verbinden,
indem man Leerstellen erlaubt. Die Versuche werden mit einer
Bewertungsmatrix behandelt. (Bestes Ergebnis wird initn genannt)
•
Schritt 4:
Als letztes wird für die besten Bewertungen aus Schritt 3 der
Smith-Waterman-Algorithmus durchgeführt.
Was ist ein Problem beim FASTA-Algorithmus?
Da die Sequenzen vorgefiltert sind kann es aber sein, das FASTA Seqeunzen übersieht.
Was ist die Komplexität des FASTA-Algorithmus?
O(n*m) [worst case] / O(n*m/20^k) [Regelfall]
(k = Länge Hotspots)
Was sind die Eingabeparameter des FASTA-Algorithmus?
• die Wortlänge der k-Tupel (Standard: 2 für Aminosäuren / 6 für Nukleotide)
•
Schwellwert für initn-Regionen
•
Strafe für erste Leerstelle / nachfolgende Leerstellen (=Gap-Strafe?)
•
Anzahl der zu berechnenden Alignments
•
ein Schalter, mit dem alle Sequenzen aus der Datenbank über den Smith-Waterman
Algorithmus verglichen werden
•
ein Schalter zur Ausgabe eines Histogramms
Was ist BLAST?
BLAST steht für "Basic Local Alignment Search Tool" und findet das am besten bewertete lokale
Alignment einer Testsequenz mit allen Sequenzen einer Datenbank.
Was sind die Eigenschaften von BLAST?
• findet das beste lokale Alignment einer Testsequenz in einer Datenbank
• sehr schneller Algorithmus (50 x schneller als dynamische Programmierung)
• kann sehr große DBen durchsuchen (vorindizierung)
• ist ausreichend sensitiv für die meisten Zwecke (aber heutistische Methode)
• ist robust (Default-Parameter reichen meist aus)
Wie funktioniert der BLAST Algorithmus?
??
Was ist der e-Value und p-Value bei BLAST?
??
Wie ist die Komplexität des BLAST Algorithmus?
Maximal:
O(m*n) (m = Datenbankgröße; n = Länge Sequenz)
Durchschnitt: ~ O(D) (bei einer Datenbanksuche mit D Sequenzen)
Wie wichtig sind algorithmische Komplexitäten?
Wichtig denn die algorithmische Komplexität entscheidet über die Laufzeit eines Algorithmus. Soll
z.B. eine Datenbanksuche durchgeführt werden ist die Laufzeit entscheidend, da der Algorithmus
sehr oft durchlaufen muss, jede Sequenz muss ja mit der gesuchten verglichen werden.
Was ist der Unterschied zwischen Normalverteilung und Extremwertverteilung (EVD)?
Bei der der Normalverteilung werden gleichverteilte Zufallsvariablen addiert. Die Summe ist dann
Normalverteilt. Bei der Extremwertverteilung hingegen werden gleichverteilte Zufallsvariablen
maximiert, die Summe ist dann extremwertverteilt.
Extremwerteverteilung – woher ?
Bei der Extremwertverteilung werden gleichverteilte Zufallsvariablen maximiert, die Summe ist
dann extremwertverteilt. Bei Sequenzvergleichen wird immer das Maximum von Hits gesucht =>
dies führt zu einer Extremwertverteilung.
Was ist die Informationstheorie nach Shannon?
Die Informationstheorie ist eine mathematische Theorie aus dem Bereich der
Wahrscheinlichkeitstheorie und Statistik, die auf Claude Shannon zurückgeht. Sie beschäftigt sich
mit Begriffen wie Information, Entropie, Informationsübertragung, Datenkompression, Kodierung
und verwandten Themen. (Wikipedia)
Bewertung von Information: Was sagt in diesem Zusammenhang die Entropie aus und wie
berechnet sie sich?
Die Entropie ist ein Maß für den mittleren Informationsgehalt oder auch Informationsdichte eines
Zeichensystems.
Beispiel: Wenn die Wahrscheinlichkeit für das Auftreten jedes Zeichens einfach 1/n ist, dann ist der
Informationsgehalt jedes Zeichens log2(n). In diesem Fall ist das auch gleichzeitig der
durchschnittliche Informationsgehalt, also die Informationsdichte bzw. Entropie.
Allgemeine Formel: Im allgemeinen lässt sich die Entropie nach Shannon wie folgt berechnen:
i=1
H  p=−∑ p i log2 pi
n
Was sind Datenstrukturen zum schnellen Sequenzvergleich?
•
Felder (arrays)
•
Binäre Bäume (binary search trees)
•
Hash-Tabellen (hash tables)
Teil 5 – Human-Genom-Project (HGP)
Was ist das HGP?
Das Humangenomprojekt (HGP, engl. Human Genome Project) wurde im Herbst 1990 mit dem Ziel
gegründet, das Genom des Menschen vollständig zu entschlüsseln, d. h. die Abfolge der Basenpaare
in der menschlichen DNA auf ihren einzelnen Chromosomen durch Sequenzieren zu identifizieren.
Wer finanzierte das HGP?
• Viele internationale Forschungseinrichtungen
• Department of Energy (DoE) in USA
• tional Institute of Health
• Wellcome Trust in Britain
• Private Companies
Beispiel: The Institute for Genomics Research (TIGR)
• 1995: TIGR stellt erste vollständige Genomsequenz vor (Haemophilus influenza, 1.8Mb)
• Danach Celera als Ausgründung aus TIGR durch Craig Venter
• Ziel war die erste vollständige Sequenzierung des menschlichen Genoms durch shot-gun
sequencing
Was sind Primer?
• Primer sind kurze Oligonukleotidsequenzen (18-35bp)
• Hybridisieren mit komplementären Matrizenstrang
• Sie können sowohl aus RNA als auch aus DNA bestehen
• 3´ - Hydroxy- Ende dient zur Initiation für DNA- Synthese
Einsatzgebiete:
Primer in vivo:
• reverse Transkription (bei Retroviren)
• Replikation (RNA-Primer)
Primer in vitro:
• PCR
• Sequenzierung
• Mutagenese
• Reverse Transkription
• Sonden (radioaktiv- oder fluoreszenzmarkiert)
Was ist die Polymerase-Kettenreaktion (PCR)?
=> Vervielfältigung von DNA in vitro
Folgende Komponenten werden benötigt:
• DNA mit zu vervielfältigendem Abschnitt
• ZWEI Primer, um auf den beiden Einzelsträngen der DNA jeweils den Startpunkt der DNASynthese festzulegen, wodurch der zu vervielfältigende Bereich von beiden Seiten begrenzt
wird
• DNA-Polymerase (z.B. Taq Polymerase)
• Desoxyribonucleosidtriphosphate, die Bausteine für den von der DNA-Polymerase
synthetisierten DNA-Strang → dNTPs
• Mg2+-Ionen, für die Funktion der Polymerase essentiell
• Pufferlösungen, die eine für die DNA-Polymerase geeignete chemische Umgebung
sicherstellen
PCR-Gerät (Zyklus, 20 bis 30 mal durchgeführt)
1. Denaturierung der DNA (95°C)
2. Annealing: Hybridisierung der Primer (z. B. 65°C)
3. Extension: DNA Synthese (72°C)
Was sind Restriktionskarten?
• Hilfsmittel für die Analyse von DNA
• zeigt die Positionen der Schnittstellen einzelner Restriktionsenzyme auf der DNA von
Genomen oder Plasmiden
Sequenzieren
Didesoxymethode nach Sanger:
• Denaturierte DNA (Einstränge aus Doppelsträngen machen)
• DNA Polymerase kann DNA ablesen und kopieren
• Die Bausteine dazu sind Deoxyribonucleotide triphosphate = dNTPs
• dNTPs={dGTP, dTTP, dATP, dCTP }
• ddNTPs = Dideoxyribonucleotide triphosphate, sind dNTPs ohne 3‘ hydroxyl (-OH) Gruppe
(nur H)
• Da DNA-Polymerase immer von 5‘ nach 3‘ synthetisiert, kann ohne die OH-Gruppe nicht
mehr DNA synthetisiert werden.
• 4 Röhrchen (Tubes) (A,C,G,T) mit jeweils 99% dNTP und
• 1% ddNTP gefüllt + DNA+ Polymerase
• Radioaktive oder floureszente Markierung von ddNTPs
• Der Inhalt jedes Tube auf ein Gel geladen (Gelelektrophorese)
• Spannung anlegen an Gel => kleine Makromoleküle wandern weit im Gel, Große nur kleine
Strecken
• Ansätze des HGP
• Was kommt nach dem HGP ?
Gene Finding im Computer (in silico)
Man kann probieren in Sequenzdatenbanken Gen-Abfolgen wiederzufinden. Dazu gibt es z.B. das
Tool ORF Finder auf der NCBI Website. Die Sequenz kann dort im FASTA-Format eingegeben
werden.
Was ist ORF?
Als offener Leserahmen (OLR) oder offenes Leseraster (als Übersetzung von engl. open reading
frame, ORF) wird in der Genetik derjenige Bereich der DNA bzw. mRNA bezeichnet, dessen
Leserahmen zwischen einem Start-Codon und einem Stopp-Codon liegt. (Wikipedia)
Was bedeutet es wenn das Start-Codon erneut in einem ORF gefunden wird?
Wird nicht als Start-Codon gesehen, sondern als Aminosäure Methionin übersetzt.
Wie kann die Information genutzt werden um Gene in unbekannter DNA zu identifizieren?
??
Wie funktioniert Genregulation?
??
Was ist die Shine/Dalgarno, Kozak Sequenz?
Die Shine/Dalgarno-Sequenz ist eine RNA-Sequenz bei Prokarioten, die als Teil der ribosomalen
Bindungsstelle (RBS) von den Ribosomen erkannt wird und damit den Startpunkt der Translation
markiert.
Die Kozak Sequenz ist die RNA-Bindungsstelle für die Ribosomen bei Eukaryoten. Sie befindet
sich im Bereich des 5'UTR. Es folgt das Start-Codon, wo die Translation beginnt.
Wie ist die Architektur von Genen?
??
Was versteht man und alternativem Spleißen?
??
Was ist SAGE?
Die serielle Analyse der Genexpression (SAGE, von engl. Serial Analysis of Gene Expression) ist
eine effektive Methode zur Identifizierung von kurzen cDNA-Fragmenten, sogenannten tags, die
mittels dem Enzym Reverse Transkriptase aus mRNA-Molekülen gewonnen wurden. Die Methode
wurde 1995 von Victor Velculescu entwickelt.
=> Beantwortet die Frage: Wann werden welche Gene abgelesen?
Was zeichnet den Menschen auf der molekularen Ebene aus?
Zur Zeit total unklar (vielschichtige Antwort)!
Aber:
• Der Mensch hat keine einzigartigen Proteine.
• Genregulation ist sehr wichtig. (Hohe Entwicklungsstufe = komplexe regulatorische
Netzwerke)
Was für Kategorien von Proteinfunktionen gibt es?
• Stoffwechsel
• DNA Replikation
• Transkription / Translation (Genregulation!, beim Menschen hoch)
• Interzelluäre Signale
• Zell zu Zell - Kommunikation
• Proteinfaltung
• Transport
• Zelluläre Prozesse
• Multifunktionelle Proteine
• Strukturproteine
• Immunsystem
• Verschiedene Funktionen
Teil 6 – Microarrays
Beispielhafte Fragestellungen: (Glucose/Ethanol-Switch, Diagnostik..)
Was ist der Glucose/Ethanol-Switch?
Alkoholische Gärung: Unter Einfluß von Hefe lässt sich Glucose zu Ethanol vergähren.
Wie können Microarrays in der Diagnostik helfen?
Die Idee ist, das anhand festgestellter Genexpressionänderungen bei der Entartung von
Lymphgewebe die Erkrankung genauer beschrieben werden kann als bisher mit rein klinischen
Mitteln.
Trifft dies zu, kann eine genauere Therapieplanung erfolgen, unnötige Bestrahlungen können
vermieden und genauere Medikamente könnten verabreicht werden, usw..
Die Auswertung des in der Vorlesung vorgestellt Beispiels (Brustkrebs) erfolgt durch Clustern der
Gene nach Signaturen. In diesem Fall konnte in den ermittelten Proben-Clustern klar zwischen
Krebszellen und gesunden Zellen unterschieden werden. Dies muss aber nicht in jedem Fall so sein,
Krebserkrankungen sind teilweise komplex zu beschreiben.
Ansatzpunkt zur Verbesserung der Therapie durch Microarrays im Beispiel:
low-risk - Patienten durch die Signaturen unterscheiden: Microarrays können eine noch sicherere
Überlebensgruppe in der klinisch definierten Niedrig-Risiko Gruppe erkennen.
=> Hieraus könnte eine besondere Therapie erfolgen.
Was sind Microarrays?
Microarray ist eine Sammelbezeichnung für moderne molekularbiologische Untersuchungssysteme,
die die parallele Analyse von mehreren tausend Einzelnachweisen in einer geringen Menge
biologischen Probenmaterials erlauben.
Was ist cDNA?
cDNA (von eng. complementary DNA) ist eine DNA, die mittels des Enzyms reverse Transkriptase
aus RNA synthetisiert wird. Anwendung findet die cDNA in der Molekularbiologie, Transkriptomanalyse sowie in der medizinischen Diagnostik. cDNA ist einsträngig.
Wie ist die Funktionsweise von Microarrays?
Auf einem Microarray befinden sich, jeweils auf einem punktförmigen Bereich, verschiedene Typen
von cDNA. Gibt man nun eine Lösung auf den Microarray lagert sich komplementäre cDNA an den
entsprechenden Punkten an. Hat man die Lösung vorher eingefärbt kann man nun sehen, wo sich
die cDNA anlagert. Üblicherweise hat man noch eine zweite Lösung (anders eingefärbt) als
Vergleich, die ebenfalls auf den Microarray aufgebracht wird. Nun kann man den Farbton auf den
jeweiligen Punkten interpretieren.
Was bedeutet Expression von Genen?
Genexpression, kurz Expression oder Exprimierung, bezeichnet die Biosynthese von RNA und
Proteinen (siehe Proteinbiosynthese) aus den genetischen Informationen.
Warum und wie wird relative Expression gemessen?
Die Genexpression einer einzelnen Bedingung in absoluten Zahlen zu messen macht üblicherweise
wenig Sinn. Man will meistens die Genexpression einer experimentellen Bedingung mit der einer
Vergleichsbedingung vergleichen. => man ermittelt die relative Genexpression bezüglich der
Vergleichsbedingung.
Die relative Expression wird wie folgt gemessen:
• Die cDNA der experimentellen Bedingung wird rot eingefärbt
• Die cDNA der Vergleichsbedingung wird grün eingefärbt
• Die Intensitätswerte aus den beiden Farbkanälen rot und grün werden so dividiert, dass der
Experimentwert durch den Referenzwert geteilt wird.
Rote Experimentintensität
Relative Expression=
Grüne Experimentintensität
Anschaulich kann die reltive Expression als Farbskala dargestellt werden.
Was versteht man unter Zeitreihen-Experimenten?
Man kann mit Hilfe von Microarrays mehrere Messungen bei verschiedenen
Umgebungsbedingungen machen und so das Verhalten eines Zelltyps untersuchen. Dies geht nach
im Zeitverlauf oder kombiniert im Zeitverlauf mit veränderten Bedingungen.
Wie werden Microarrays hergestellt?
• alle 6200 mRNAs einzeln mittels PCA vervielfältigen, dann in cDNA zurückschreiben
•
die cDNA auf 144 Objektträger drucken (cDNA ist einsträngig, hier kann sich ein
Komplement bilden)
•
Objektträger abdecken und bis zur Nutzung trocken lagern
•
solch ein Microarray ist funktional äquivalent mit 6200 Southern-Blots
Was ist Northern / Southern Blot?
Beim Southern Blot handelt es sich um eine 1975 von Edwin Southern entwickelte
molekularbiologische Untersuchungsmethode für die DNA.[1] Sie ermöglicht den Nachweis einer
Gensequenz in einem komplexen DNA–Gemisch (z. B. dem gesamten Genom eines Organismus)
innerhalb kurzer Zeit, ohne dass sämtliche Sequenzen des Gemisches entschlüsselt werden müssen.
Der Northern Blot ist eine molekularbiologische Methode zur Übertragung (Blotten) der in der
Gelelektrophorese aufgetrennten RNA auf eine Membran. Somit kann bestimmte RNA
nachgewiesen werden.
Wie kann Microarray- Technologie validiert werden?
Das einzige was mir dazu einfällt wäre sehr aufwändig: Man könnte äquivalente Southern-Blots zu
den Microarray-Messungen durchführen und vergleichen ob sie zum selben Ergebnis kommen. Das
wäre allerdings pro Microarray 6200 Messungen!
Wozu Normalisierungen?
Quotienten sind nicht intuitiv, daher müssen die Daten vor einer Interpretation normalisiert werden.
• 4-fache Repression => Quotient von 0.25
• 16-fache Repression => Quotient von 0,0625
• 4-fache Induktion => Quotient von 4
• 16-fache Induktion => Quotient von 16
• Obwohl die Genregulation mit derselben Größenordnung erfolgte, ist dies bei einer Grafik
nicht intuitiv erkennbar
=> Man macht üblicherweise eine logarithmische Transformation des Quotienten. Die
Transformation wird zur Basis 2 oder 10 durchgeführt:
• Bei Basis 2: Verdopplungen und Halbierungen der Genexpression werden sichtbar
• Bei Basis 10: Verzehnfachungen werden sichtbar (d.h. der Fokus liegt auf großen
Schwankungen der Genexpression)
Wie misst man die Ähnlichkeit zwischen zwei Expressionsprofilen?
• Übliches Maß hierfür ist die Pearson-Korrelation (r)
• Verhalten sich zwei Gene ähnlich, auch unabhängig von der Größenordnung, dann geht die
Korrelation gegen 1
• Verhalten sich zwei Gene nicht ähnlich geht die Korrelation gegen 0
• Verhalten sich zwei Gene entgegengesetzt geht die Korrelation gegen -1
Was ist Hierarchisches Clustering?
Nachdem die paarweise Pearson-Ähnlichkeit zwischen allen Genexpressionsprofilen berechnet
wurde, werden diese geclustert.
Algorithmus Hierarchisches Clustering:
• Eingabe: Menge K aller (Kandidaten-) Gene
• Schritt 1: Finde die zwei ähnlichsten Gene i und j und vereine beide zu einem Cluster
Ci={i,j} und entferne die Gene i und j aus K
• Schritt 2: Berechne die Ähnlichkeit zwischen allen Genen und Genclustern und finde die
größte Ähnlichkeit
• Wiederhole Schritt 2 bis alle Gene aus K verbraucht sind
• Wie bestimmt man die Ähnlichkeit zwischen einem Gencluster und einem Gen oder
zwischen zwei Genclustern ? Durchschnittswerte innerhalb des Clusters verwenden !
=> doch wozu dieses Clustering, was sagt es aus?
Teil 7 – Proteomics
Southern Blots / Northern Blots / Western Blots
Die wichtigsten Nachweistechniken für ein gesuchtes Gen, eine RNA oder ein Protein in einem
Zell-Extrakt werden Blots genannt:
•
Southern Blot: DNA
•
Northern Blot: RNA
•
Western Blot: Proteine
=> diese Grundtechniken werden in der Forschung, Diagnostik und Therapie verwendet.
Die Blots funktionieren alle auf der Basis der Gelelektrophorese, die es als vertikale und horizontale
Variante gibt.
Gel-Elektrophorese
Die Gelelektrophorese ist eine analytische Methode der Chemie und Molekularbiologie, um
verschiedene Arten von Molekülen zu trennen. Dabei wandert eine Mischung aus zu trennenden
Molekülen unter Einfluss eines elektrischen Felds durch ein Gel, welches in einer ionischen
Pufferlösung liegt. Je nach Größe und Ladung der Moleküle bewegen sich diese unterschiedlich
schnell durch das als Molekularsieb wirkende Gel.
Arten von Antikörpern (Mono, Poly)
Polyklonale Antikörper binden an unterschiedliche Oberflächenstrukturen (Herstellung: im Tier)
Monoklonale Antikörper binden nur an eine Oberflächenstruktur (Herstellung: im Reagenzglas)
Einsatz von Antikörpern
Medizinische Anwendung: Verklumpungstest im Blut (Antikörper sind eines wichtigsten
diagnostischen Werkzeuge und nahezu beliebig einsetzbar!)
Bedeutung der Immunhistologie
Immunhistologie ist der Nachweis gesuchter Proteine in Gewebeschnitten durch Antikörper und
Färbung. Dabei handelt es sich um ein Routinemethode bei klinischer Diagnostik.
Hypothesenfreie Forschungsansätze
??
2D-Gelelektrophorese
Vorteile:
• Viele Proteine können gleichzeitig visualisiert
werden
• Massenspektrometrie möglich
• Isoformen und Modifikationen können visualisiert
werden
Nachteile:
• Nur hochexprimierte Proteine können visualisiert werden.
• Funktioniert nicht mit sehr kleinen oder hydrophoben Proteinen
• Auftrennung schwer reproduzierbar!
Bedeutung der Massenspektrometrie für Proteomics
& Für Proteomics relevante Ansätze: MALDI und ESI/MS-MS
Massenspektrometrie: Die Massenspektrometrie ist ein Verfahren zum Messen der Masse von
Teilchen. Dazu wird die zu untersuchende Substanz in die Gasphase überführt, ionisiert und die
ionisierten Teilchen durch ein elektrisches Feld beschleunigt.
Massenspektrometrie für Proteomics: Man kann eine Probe (z.B. Blut/Zellen/Urin) in den
Massenspektrometer geben und auf diese Weise die Proteine und deren Menge identifizieren.
MALDI (Matrix-unterstützte Laser-Desorption/Ionisation) und ESI/MS-MS (ElektrosprayIonisation) sind in diesem Zusammenhang Möglichkeiten um bei der Massenspektrometrie die
Molekühle zu unterscheiden.
Yeast2Hybrid
Beim Hefe-Zwei-Hybrid-System (englisch Yeast Two-Hybrid System, abgekürzt Y2H) handelt es
sich um eine Technik der Molekularbiologie zur Aufklärung von Protein-Protein-Interaktionen. Im
Screening-Verfahren können in einem eher empirischen Ansatz mit einer cDNA-Bank als „Prey“
mögliche Interaktionspartner identifiziert werden, oder aber es können bei dem so genannten
„Single mating“ mit diesem System gezielt die Interaktion für bestimmte Proteine überprüft
werden.
ICAT
??
Vorteil ICAT gegenüber Microarrays
??
Protein-Arrays - Ansätze
??
Wirkstoff-Protein Interaktion über Kristallisation
??
Bedeutung der Raumstrukturen in Proteomics
??