Fragenkatalog Informationssysteme im Gesundheitswesen ISG1 (Bioinformatik) Dieser Fragenkatalog wurde anhand des Themenkatalogs erstellt. Leider fehlen einige Antworten in Teil 2, 3 und 4. Ich hoffe aber die restlichen Antworten helfen euch weiter. Teil 1 Wozu Bioinformatik? • Viele ungelöste medizinische Probleme • Zunehmende Automatisierung der Biologie generiert Datenmengen!! • Viele Forschungsrichtungen und Industrien benötigen Auswertung ! • Experimente theoretisch erst nach Berücksichtigung aller bisherigen Erkenntnisse sinnvoll, Bioinformatik kann eingesetzt werden, um bisher bekanntes Wissenzu biomedizinischer Fragestellung systematisch zu bestimmen • Labor-Experiment und Bioinformatik bilden eine Einheit • Die beiden Seiten der Bioinformatik sind Datenbank und Methode (Tool) Was versteht man unter einer Sequenz? Die Bioinformatik beschäftigt sich mit drei Sequenzarten: – DNA-Sequenzen (DNA = Desoxyribonukleinsäure) – RNA-Sequenzen (RNA = Ribonukleinsäure) – Proteinsequenzen Was ist ein Gen? Das Gen ist ein Abschnitt auf der DNA, der die Grundinformation zu Herstellung einer RNA enhält. Was ist Proteinbiosynthese? Gene werden durch Polymerasen von der DNA abgelesen und zu RNA umgeschrieben. (Transkription) Die RNA wiederum wird von Ribosomen abgelesen, es werden Aminosäureketten gebildet. (Translation) Faltung der Aminosäureketten im ER mit Unterstützung von Chaperonen ergibt die Proteine. Was versteht man unter dem Zentralen Dogma der Molekularbiologie? DNA => (Transkription) => RNA => (Translation) => Protein (Informationsfluss) Was ist ein Nukleotid? Ein Molekül, das als kleinster Baustein von Nukleinsäuren fungiert. RNA und DNA (Riesenmoleküle) sind aus fünf verschiedenen Sorten Nukleotiden aufgebaut. Solch ein Nukleotid besteht immer aus folgenden Bausteinen: – Phosphorsäure (P) – Monosaccharid (Z); Ribose bei RNA, Desoxyribose bei DNA – Eine von folgenden Nukleobasen: – Adenin (A) – Guanin (G) – Cytosin (C) – Thymin (T, DNA) / Uracil (U, RNA) – Welche Nukleotid-Paarungen gibt es? • G–C • A – T/U Was ist Desoxyribonukleinsäure (DNA)? Die DNA ist normalerweise ein Doppelstrang in Helixform. Sie kann sich Replizieren indem sie sich aufteilt und sich neue Nukleotide an beide Stränge anlagern. So entstehen zwei identische Stränge. Was wissen sie bezüglich Gewebe und Zellen? Als Gewebe bezeichnet man einen (Tier-)Zellverbund mit gemeinsamer Funktion. Eine einzelne Zelle besteht aus verschiedenen Organellen und trifft durchaus "autonome" Entscheidungen (z.B. Angriff, Abwehr, Lebenszweck erfüllen (Organe)). Dies tut sie durch biochemische SignalNetzwerke (Signaltransduktion) oder Signal-Pathways. Als Metabolismus bezeichnet man den Stoffwechsel einer Zelle, als Metabolische Pathways die Synthese neuen Materials und Abbau. Was sind Komponenten einer Tierzelle? Die wichtigsten, in der Vorlesung besprochenen sind: • Zellkern • Ribosomen • Vesikel • Mikrokörperchen (Microbody) • Endoplasmisches Retikulum (ER) • Mitochondrien Wie ist der Aufbau von DNA und RNA? • DNA (Desoxyribonukleinsäure) ist ein Doppelstrang von Nucleotiden (Cytosin, Guanin, Adenin und Thymin), der in Doppelhelixform vorliegt. Er wird zum Ablesen (Transkription) und zur Reproduktion (bei der Mitose) aufgetrennt. • RNA (Ribonukleinsäure) ist einsträngig und besteht ebenfalls aus einer Nucleotidkette (aber in diesem Fall Cytosin, Guanin, Adenen und Uracil). Wir die DNA im Zellkern abgelesen bildet sich mRNA, die aus dem Zellkern nach außen zu den Ribosomen wandert. Wie funktioniert die DNA-Replikation? • Helicasa: Protein, das den Strang auftrennt (Enzym) • linker Strang: richtige Richtung, zweiter Strang kann sich einfach anlagern • rechter Strang: falsche Richtung, Primer lagern sich an, wo immer Rückwärts angelagert wird Wer ware Watson und Crick? Die beiden veröffentlichten in den 50er Jahren ein Paper zum Aufbau der DNA als Doppelhelix. Dafür bekamen sie den Nobel-Preis. Was ist der Genetische Code? Bei der Proteinbiosynthese werden jeweils 3 Nukleinsäuren zu einer Aminosäure übersetzt. Diese Zuordnung nennt man auch genetischen Code. Da es für drei Aminosäuren ja 64 (4³) Kombinationen, aber nur 23 verschiedene Aminosäuren sowie ein Stop-Codon codiert sind, sind im Code einige Redundanzen. Einfach ablesen lässt sich der genetische Code von der so genannten Code-Sonne. Herstellung von Proteinen aus DNA => siehe Proteinbiosynthese Wie ist die Verbindung zwischen Genotyp und Phänotyp? Genotyp: exakter Genetische Aufbau Phänotyp: physische Eigenschaften wie Gewicht, Größe, ... Der Phänotyp hängt natürlich vom Genotyp ab. Diese Verbindung wird in s.g. Genotyp-PhänotypMaps abgebildet. Aber Achtung: ein augenscheinlich gleicher Phänotyp muss nicht auf dem gleichen Genotyp beruhen, es kann sich auch um eine ähnliche Entwicklung handeln. Was sind die Abstraktionsebenen der Bioinformatik? - DNA/Gene - Proteine - Zellkompartimente - Zellen - Zellverbünde / Gewebe / Organe - Organismen - Populationen Wozu Bioinformatik ? – Viele ungelöste medizinische Probleme. Die Biotechnologie benötigt erheblichen Erkenntniszuwachs um schwerwiegende Erkrankungen besser zu diagnostizieren und therapieren zu können. – Die zunehmende Automatisierung der Biologie generiert große Datenmengen. – Viele Forschungseinrichtungen und Industrien benötigen Auswertungen. – Experimente sind theoretisch erst nach Berücksichtigung aller bisherigen Erkenntnisse sinnvoll: Bioinformatik kann eingesetzt werden, um bisher bekanntes Wissen zu biomedizinischer Fragestellung systematisch zu bestimmen. Labor-Experiment und Bioinformatik bilden also eine Einheit Anwendungebiete der Bioinformatik • Forschungsprojekte (Humangenomprojekt) • Pharmazeutische Industrie (Wirkstoffoptimierung) • Diagnostische Industrie (Biomarker) • Nahrungsmittel Industrie (Hefe, Mikroorganismen) • • • • • Kosmetische Industrie (Toxikologie) Chemische Industrie (Mikroorganismen) Militär (Bioterrorismus) Landwirtschaft (Saatgut) Umwelttechnik (Enzymoptimierung) Was ist Three-Domain-System von Carl Woese? Dieses Modell unterteilt die Lebewesen in die Domänen der Bakteria, Archaea und der Eukarya. Unterschiede Prokaryoten / Eukaryoten Prokaryoten: Eine Zelle keine Nucleus keine Organellen Eine ringfrömige DNA keine Modifikation der RNA nach der Transkription (mRNA) Eukarioten: Eine oder mehrere Zellen Nucleus Organellen Chromosomen Exons/Introns (splicing), RNA wird nach dem Ablesen zerstückelt und erst außerhalb des Zellkerns in Proteine umgewandelt Was sind Gene, wie sind Gene aufgebaut ? Ein Gen ist ein Abschnitt auf der DNA, der ein Protein codiert. Er besteht aus Promotor und Enhancer (Transkriptionsbeginn), aus einem 5'UTR (Anfangsbereich), aus Introns und Extrons (der eigentliche Proteincodierende Bereich wobei alle Introns beim Splicen wegfallen) und einem 3'UTR (Endbereich). Innerhalb des eigentlichen proteincodierenden Bereichs, der erst nach dem Splicen seine endgültige Form hat, ist der Anfang durch ein Start-Codon und das Ende durch ein Stop-Codon gekennzeichnet. Vor dem Start-Codon gibt es bei Eukarioten noch die Kozak-Sequenz, die an den Ribosomen die Translation einleitet. Zwischen Start- und Stop-Codon steht der eigentliche genetische Code, bei dem jeweils 3 Nukleotide eine Aminosäure codieren. Was ist Zellkommunikation ? Eine Zelle hat kein explizites Gehirn, trifft aber sehr wohl autonome Entscheidungen durch biochemische Signal-Netzwerke (Signaltransduktion) oder Signal-Pathways. Dies tut sie zur Funktionserfüllung (z.B. Angriff, Abwehr, Lebenszweck erfüllen wie Organe / Schwärme bilden) Teil 2 Wie ist die Bedeutung der Datenbanken in der Bioinformatik? Es gibt in der Bioinformatik eine riesige Datenflut (z.B. menschl. Genom), daher sind Datenbanken sehr wichtig. Die meisten Abstraktionsebenen der Bioinformatik sind durch Datenbanken abgedeckt. Woher kommen die Daten? Aufgebaut und betrieben werden bioinformatische Datenbanken von Teams nach dem AnnotatorenPrinzip (to curate = Datenpflege/Aufbau, to annotate = manuelle Ergänzung). Hierbei kommt oft ein dreistufiges System zum Einsatz: I. Experimentelle Rodaten (Labor) II. Datenbankaufbau III. Automatische Erzeugung neuer Daten Wie ist die Bedeutung der Zeitschriften in der biomedizinischen Forschung? Sie haben eine hohe Bedeutung wie in der gesamten Wissenschaft. Große Literatur-Datenbanken wie pubmed bewerten die Publikationen/Zeitschriften nach Impact-Faktor. Wichtige Zeitschriften sind: • Nature, Science (allg.) • Bioinformatic, BMC Bioinf. (Bioinformatische Zeitschriften) Welche Datenbanken gibt es in der Bioinformatik ? • Pubmed: Literaturdatenbank • EMBL-DB: DNA-DB • Uniprot: Protein-DB • OMIM: Krankheits-DB • SRS: DB-Abfragetool • Genom-DBen • Struktur-DBen • DBen über biochemische Netwerke • Spezial-DBen Wichtigste Datenbanken am EBI Was sind EMBL / Genbank /DDBJ Organisation von UniProt (UniParc, UniKB, UniRef) Speicherungsstruktur von Bioinformatischen DB im Textformat Wieso gibt es Redundanz in bioinformatischen Daten ? SRS ENTREZ NCBI Taxonomy OMIM => was muss man dazu wissen? Organisation des humanen Genmaterials in Chromosomen Teil 3 Wozu Sequenzvergleich ? Konzepte des Sequenzvergleichs Globales / Lokales Alignment Paarweises / Multiples Alignment Karteikarten bisher bis hier... Scoring von Buchstabenvergleichen / DNA / Proteinen Substitutionsmatrizen PAM / BLOSUM Margaret Dayhoff Affine / linear Gapkosten Was ist dynamisches Programmieren ? Funktionsweise Needleman-Wunsch Algorithmus Funktionsweise Smith-Waterman Algorithmus Teil 4 Dotplots: wie und wozu ? Ein Dotplot (dt. Punktauftragung) ist eine graphische Methode der Bioinformatik zwei biologische Sequenzen miteinander (oder eine Sequenz mit sich selbst) zu vergleichen. Dabei werden die Sequenzen auf die horizontale und vertikale Achse (oben und links) aufgetragen und Übereinstimmungen zwischen einer Zeile und Spalte an der entsprechenden Schnittstelle durch einen Punkt (engl. dot) markiert. (Wikipedia) => Der Dotplot dient der Auffindung von ähnlichen bzw. übereinstimmenden Regionen. Was sind Wortalgorithmen / Was ist Stringenz? Die Dotplot-Methode kann durch das Einführen von "Fenstern" erweitert werden (Parameter: WortGröße, Fenstergröße, Stringenz / Minimalscore). Hierbei kann man unterscheiden zwischen: • der reinen Wortmethode • der Wortmethode mit Stringenz: sie ist sensitiver als die reine Wortmethode, allerdings muss die Fenster-Stringenz-Einstellung (Größe des Fensters) erst ermittelt werden. => Wie funktioniert das genau? Was ist der FASTA-Algorithmus, wozu wird er verwendet? Der heuristische FASTA-Algorithmus wurde 1985 von David J. Lipman und William R. Pearson als FASTP für Proteine entwickelt. Das Programm wurde 1988 auf Nukleotide erweitert. FASTA sucht nach Ähnlichkeiten zwischen Sequenzen oder vergleicht eine gegebene Sequenz mit einer SequenzDatenbank. Die Speicherung der Sequenzdaten erfolgt im FASTA-Format. Das Prinzip dahinter: der Algorithmus konzentriert sich auf ähnliche Regionen. (lokales Alignment!) Wie funktioniert der FASTA Algorithmus? • Schritt 1: (a) K-Tupel Zerlegung (1 Tupel: 1 oder 2 Aminosäuren bzw. 5 oder 6 Nukleotide) (b) In beiden Listen werden gleiche Wörter gesucht und falls möglich mit angrenzenden ebenfalls gleichen Wörtern zusammengefügt. Dadurch werden Diagonalen wie bei einem Dotplot gebildet. • Schritt 2: Finde die 10 besten Diagonalläufe. FASTA gibt dazu allen Diagonalläufen Bewertungen und nimmt die 10 besten. • Schritt 3: Es wird versucht die hoch bewerteten Diagonalen miteinander zu verbinden, indem man Leerstellen erlaubt. Die Versuche werden mit einer Bewertungsmatrix behandelt. (Bestes Ergebnis wird initn genannt) • Schritt 4: Als letztes wird für die besten Bewertungen aus Schritt 3 der Smith-Waterman-Algorithmus durchgeführt. Was ist ein Problem beim FASTA-Algorithmus? Da die Sequenzen vorgefiltert sind kann es aber sein, das FASTA Seqeunzen übersieht. Was ist die Komplexität des FASTA-Algorithmus? O(n*m) [worst case] / O(n*m/20^k) [Regelfall] (k = Länge Hotspots) Was sind die Eingabeparameter des FASTA-Algorithmus? • die Wortlänge der k-Tupel (Standard: 2 für Aminosäuren / 6 für Nukleotide) • Schwellwert für initn-Regionen • Strafe für erste Leerstelle / nachfolgende Leerstellen (=Gap-Strafe?) • Anzahl der zu berechnenden Alignments • ein Schalter, mit dem alle Sequenzen aus der Datenbank über den Smith-Waterman Algorithmus verglichen werden • ein Schalter zur Ausgabe eines Histogramms Was ist BLAST? BLAST steht für "Basic Local Alignment Search Tool" und findet das am besten bewertete lokale Alignment einer Testsequenz mit allen Sequenzen einer Datenbank. Was sind die Eigenschaften von BLAST? • findet das beste lokale Alignment einer Testsequenz in einer Datenbank • sehr schneller Algorithmus (50 x schneller als dynamische Programmierung) • kann sehr große DBen durchsuchen (vorindizierung) • ist ausreichend sensitiv für die meisten Zwecke (aber heutistische Methode) • ist robust (Default-Parameter reichen meist aus) Wie funktioniert der BLAST Algorithmus? ?? Was ist der e-Value und p-Value bei BLAST? ?? Wie ist die Komplexität des BLAST Algorithmus? Maximal: O(m*n) (m = Datenbankgröße; n = Länge Sequenz) Durchschnitt: ~ O(D) (bei einer Datenbanksuche mit D Sequenzen) Wie wichtig sind algorithmische Komplexitäten? Wichtig denn die algorithmische Komplexität entscheidet über die Laufzeit eines Algorithmus. Soll z.B. eine Datenbanksuche durchgeführt werden ist die Laufzeit entscheidend, da der Algorithmus sehr oft durchlaufen muss, jede Sequenz muss ja mit der gesuchten verglichen werden. Was ist der Unterschied zwischen Normalverteilung und Extremwertverteilung (EVD)? Bei der der Normalverteilung werden gleichverteilte Zufallsvariablen addiert. Die Summe ist dann Normalverteilt. Bei der Extremwertverteilung hingegen werden gleichverteilte Zufallsvariablen maximiert, die Summe ist dann extremwertverteilt. Extremwerteverteilung – woher ? Bei der Extremwertverteilung werden gleichverteilte Zufallsvariablen maximiert, die Summe ist dann extremwertverteilt. Bei Sequenzvergleichen wird immer das Maximum von Hits gesucht => dies führt zu einer Extremwertverteilung. Was ist die Informationstheorie nach Shannon? Die Informationstheorie ist eine mathematische Theorie aus dem Bereich der Wahrscheinlichkeitstheorie und Statistik, die auf Claude Shannon zurückgeht. Sie beschäftigt sich mit Begriffen wie Information, Entropie, Informationsübertragung, Datenkompression, Kodierung und verwandten Themen. (Wikipedia) Bewertung von Information: Was sagt in diesem Zusammenhang die Entropie aus und wie berechnet sie sich? Die Entropie ist ein Maß für den mittleren Informationsgehalt oder auch Informationsdichte eines Zeichensystems. Beispiel: Wenn die Wahrscheinlichkeit für das Auftreten jedes Zeichens einfach 1/n ist, dann ist der Informationsgehalt jedes Zeichens log2(n). In diesem Fall ist das auch gleichzeitig der durchschnittliche Informationsgehalt, also die Informationsdichte bzw. Entropie. Allgemeine Formel: Im allgemeinen lässt sich die Entropie nach Shannon wie folgt berechnen: i=1 H p=−∑ p i log2 pi n Was sind Datenstrukturen zum schnellen Sequenzvergleich? • Felder (arrays) • Binäre Bäume (binary search trees) • Hash-Tabellen (hash tables) Teil 5 – Human-Genom-Project (HGP) Was ist das HGP? Das Humangenomprojekt (HGP, engl. Human Genome Project) wurde im Herbst 1990 mit dem Ziel gegründet, das Genom des Menschen vollständig zu entschlüsseln, d. h. die Abfolge der Basenpaare in der menschlichen DNA auf ihren einzelnen Chromosomen durch Sequenzieren zu identifizieren. Wer finanzierte das HGP? • Viele internationale Forschungseinrichtungen • Department of Energy (DoE) in USA • tional Institute of Health • Wellcome Trust in Britain • Private Companies Beispiel: The Institute for Genomics Research (TIGR) • 1995: TIGR stellt erste vollständige Genomsequenz vor (Haemophilus influenza, 1.8Mb) • Danach Celera als Ausgründung aus TIGR durch Craig Venter • Ziel war die erste vollständige Sequenzierung des menschlichen Genoms durch shot-gun sequencing Was sind Primer? • Primer sind kurze Oligonukleotidsequenzen (18-35bp) • Hybridisieren mit komplementären Matrizenstrang • Sie können sowohl aus RNA als auch aus DNA bestehen • 3´ - Hydroxy- Ende dient zur Initiation für DNA- Synthese Einsatzgebiete: Primer in vivo: • reverse Transkription (bei Retroviren) • Replikation (RNA-Primer) Primer in vitro: • PCR • Sequenzierung • Mutagenese • Reverse Transkription • Sonden (radioaktiv- oder fluoreszenzmarkiert) Was ist die Polymerase-Kettenreaktion (PCR)? => Vervielfältigung von DNA in vitro Folgende Komponenten werden benötigt: • DNA mit zu vervielfältigendem Abschnitt • ZWEI Primer, um auf den beiden Einzelsträngen der DNA jeweils den Startpunkt der DNASynthese festzulegen, wodurch der zu vervielfältigende Bereich von beiden Seiten begrenzt wird • DNA-Polymerase (z.B. Taq Polymerase) • Desoxyribonucleosidtriphosphate, die Bausteine für den von der DNA-Polymerase synthetisierten DNA-Strang → dNTPs • Mg2+-Ionen, für die Funktion der Polymerase essentiell • Pufferlösungen, die eine für die DNA-Polymerase geeignete chemische Umgebung sicherstellen PCR-Gerät (Zyklus, 20 bis 30 mal durchgeführt) 1. Denaturierung der DNA (95°C) 2. Annealing: Hybridisierung der Primer (z. B. 65°C) 3. Extension: DNA Synthese (72°C) Was sind Restriktionskarten? • Hilfsmittel für die Analyse von DNA • zeigt die Positionen der Schnittstellen einzelner Restriktionsenzyme auf der DNA von Genomen oder Plasmiden Sequenzieren Didesoxymethode nach Sanger: • Denaturierte DNA (Einstränge aus Doppelsträngen machen) • DNA Polymerase kann DNA ablesen und kopieren • Die Bausteine dazu sind Deoxyribonucleotide triphosphate = dNTPs • dNTPs={dGTP, dTTP, dATP, dCTP } • ddNTPs = Dideoxyribonucleotide triphosphate, sind dNTPs ohne 3‘ hydroxyl (-OH) Gruppe (nur H) • Da DNA-Polymerase immer von 5‘ nach 3‘ synthetisiert, kann ohne die OH-Gruppe nicht mehr DNA synthetisiert werden. • 4 Röhrchen (Tubes) (A,C,G,T) mit jeweils 99% dNTP und • 1% ddNTP gefüllt + DNA+ Polymerase • Radioaktive oder floureszente Markierung von ddNTPs • Der Inhalt jedes Tube auf ein Gel geladen (Gelelektrophorese) • Spannung anlegen an Gel => kleine Makromoleküle wandern weit im Gel, Große nur kleine Strecken • Ansätze des HGP • Was kommt nach dem HGP ? Gene Finding im Computer (in silico) Man kann probieren in Sequenzdatenbanken Gen-Abfolgen wiederzufinden. Dazu gibt es z.B. das Tool ORF Finder auf der NCBI Website. Die Sequenz kann dort im FASTA-Format eingegeben werden. Was ist ORF? Als offener Leserahmen (OLR) oder offenes Leseraster (als Übersetzung von engl. open reading frame, ORF) wird in der Genetik derjenige Bereich der DNA bzw. mRNA bezeichnet, dessen Leserahmen zwischen einem Start-Codon und einem Stopp-Codon liegt. (Wikipedia) Was bedeutet es wenn das Start-Codon erneut in einem ORF gefunden wird? Wird nicht als Start-Codon gesehen, sondern als Aminosäure Methionin übersetzt. Wie kann die Information genutzt werden um Gene in unbekannter DNA zu identifizieren? ?? Wie funktioniert Genregulation? ?? Was ist die Shine/Dalgarno, Kozak Sequenz? Die Shine/Dalgarno-Sequenz ist eine RNA-Sequenz bei Prokarioten, die als Teil der ribosomalen Bindungsstelle (RBS) von den Ribosomen erkannt wird und damit den Startpunkt der Translation markiert. Die Kozak Sequenz ist die RNA-Bindungsstelle für die Ribosomen bei Eukaryoten. Sie befindet sich im Bereich des 5'UTR. Es folgt das Start-Codon, wo die Translation beginnt. Wie ist die Architektur von Genen? ?? Was versteht man und alternativem Spleißen? ?? Was ist SAGE? Die serielle Analyse der Genexpression (SAGE, von engl. Serial Analysis of Gene Expression) ist eine effektive Methode zur Identifizierung von kurzen cDNA-Fragmenten, sogenannten tags, die mittels dem Enzym Reverse Transkriptase aus mRNA-Molekülen gewonnen wurden. Die Methode wurde 1995 von Victor Velculescu entwickelt. => Beantwortet die Frage: Wann werden welche Gene abgelesen? Was zeichnet den Menschen auf der molekularen Ebene aus? Zur Zeit total unklar (vielschichtige Antwort)! Aber: • Der Mensch hat keine einzigartigen Proteine. • Genregulation ist sehr wichtig. (Hohe Entwicklungsstufe = komplexe regulatorische Netzwerke) Was für Kategorien von Proteinfunktionen gibt es? • Stoffwechsel • DNA Replikation • Transkription / Translation (Genregulation!, beim Menschen hoch) • Interzelluäre Signale • Zell zu Zell - Kommunikation • Proteinfaltung • Transport • Zelluläre Prozesse • Multifunktionelle Proteine • Strukturproteine • Immunsystem • Verschiedene Funktionen Teil 6 – Microarrays Beispielhafte Fragestellungen: (Glucose/Ethanol-Switch, Diagnostik..) Was ist der Glucose/Ethanol-Switch? Alkoholische Gärung: Unter Einfluß von Hefe lässt sich Glucose zu Ethanol vergähren. Wie können Microarrays in der Diagnostik helfen? Die Idee ist, das anhand festgestellter Genexpressionänderungen bei der Entartung von Lymphgewebe die Erkrankung genauer beschrieben werden kann als bisher mit rein klinischen Mitteln. Trifft dies zu, kann eine genauere Therapieplanung erfolgen, unnötige Bestrahlungen können vermieden und genauere Medikamente könnten verabreicht werden, usw.. Die Auswertung des in der Vorlesung vorgestellt Beispiels (Brustkrebs) erfolgt durch Clustern der Gene nach Signaturen. In diesem Fall konnte in den ermittelten Proben-Clustern klar zwischen Krebszellen und gesunden Zellen unterschieden werden. Dies muss aber nicht in jedem Fall so sein, Krebserkrankungen sind teilweise komplex zu beschreiben. Ansatzpunkt zur Verbesserung der Therapie durch Microarrays im Beispiel: low-risk - Patienten durch die Signaturen unterscheiden: Microarrays können eine noch sicherere Überlebensgruppe in der klinisch definierten Niedrig-Risiko Gruppe erkennen. => Hieraus könnte eine besondere Therapie erfolgen. Was sind Microarrays? Microarray ist eine Sammelbezeichnung für moderne molekularbiologische Untersuchungssysteme, die die parallele Analyse von mehreren tausend Einzelnachweisen in einer geringen Menge biologischen Probenmaterials erlauben. Was ist cDNA? cDNA (von eng. complementary DNA) ist eine DNA, die mittels des Enzyms reverse Transkriptase aus RNA synthetisiert wird. Anwendung findet die cDNA in der Molekularbiologie, Transkriptomanalyse sowie in der medizinischen Diagnostik. cDNA ist einsträngig. Wie ist die Funktionsweise von Microarrays? Auf einem Microarray befinden sich, jeweils auf einem punktförmigen Bereich, verschiedene Typen von cDNA. Gibt man nun eine Lösung auf den Microarray lagert sich komplementäre cDNA an den entsprechenden Punkten an. Hat man die Lösung vorher eingefärbt kann man nun sehen, wo sich die cDNA anlagert. Üblicherweise hat man noch eine zweite Lösung (anders eingefärbt) als Vergleich, die ebenfalls auf den Microarray aufgebracht wird. Nun kann man den Farbton auf den jeweiligen Punkten interpretieren. Was bedeutet Expression von Genen? Genexpression, kurz Expression oder Exprimierung, bezeichnet die Biosynthese von RNA und Proteinen (siehe Proteinbiosynthese) aus den genetischen Informationen. Warum und wie wird relative Expression gemessen? Die Genexpression einer einzelnen Bedingung in absoluten Zahlen zu messen macht üblicherweise wenig Sinn. Man will meistens die Genexpression einer experimentellen Bedingung mit der einer Vergleichsbedingung vergleichen. => man ermittelt die relative Genexpression bezüglich der Vergleichsbedingung. Die relative Expression wird wie folgt gemessen: • Die cDNA der experimentellen Bedingung wird rot eingefärbt • Die cDNA der Vergleichsbedingung wird grün eingefärbt • Die Intensitätswerte aus den beiden Farbkanälen rot und grün werden so dividiert, dass der Experimentwert durch den Referenzwert geteilt wird. Rote Experimentintensität Relative Expression= Grüne Experimentintensität Anschaulich kann die reltive Expression als Farbskala dargestellt werden. Was versteht man unter Zeitreihen-Experimenten? Man kann mit Hilfe von Microarrays mehrere Messungen bei verschiedenen Umgebungsbedingungen machen und so das Verhalten eines Zelltyps untersuchen. Dies geht nach im Zeitverlauf oder kombiniert im Zeitverlauf mit veränderten Bedingungen. Wie werden Microarrays hergestellt? • alle 6200 mRNAs einzeln mittels PCA vervielfältigen, dann in cDNA zurückschreiben • die cDNA auf 144 Objektträger drucken (cDNA ist einsträngig, hier kann sich ein Komplement bilden) • Objektträger abdecken und bis zur Nutzung trocken lagern • solch ein Microarray ist funktional äquivalent mit 6200 Southern-Blots Was ist Northern / Southern Blot? Beim Southern Blot handelt es sich um eine 1975 von Edwin Southern entwickelte molekularbiologische Untersuchungsmethode für die DNA.[1] Sie ermöglicht den Nachweis einer Gensequenz in einem komplexen DNA–Gemisch (z. B. dem gesamten Genom eines Organismus) innerhalb kurzer Zeit, ohne dass sämtliche Sequenzen des Gemisches entschlüsselt werden müssen. Der Northern Blot ist eine molekularbiologische Methode zur Übertragung (Blotten) der in der Gelelektrophorese aufgetrennten RNA auf eine Membran. Somit kann bestimmte RNA nachgewiesen werden. Wie kann Microarray- Technologie validiert werden? Das einzige was mir dazu einfällt wäre sehr aufwändig: Man könnte äquivalente Southern-Blots zu den Microarray-Messungen durchführen und vergleichen ob sie zum selben Ergebnis kommen. Das wäre allerdings pro Microarray 6200 Messungen! Wozu Normalisierungen? Quotienten sind nicht intuitiv, daher müssen die Daten vor einer Interpretation normalisiert werden. • 4-fache Repression => Quotient von 0.25 • 16-fache Repression => Quotient von 0,0625 • 4-fache Induktion => Quotient von 4 • 16-fache Induktion => Quotient von 16 • Obwohl die Genregulation mit derselben Größenordnung erfolgte, ist dies bei einer Grafik nicht intuitiv erkennbar => Man macht üblicherweise eine logarithmische Transformation des Quotienten. Die Transformation wird zur Basis 2 oder 10 durchgeführt: • Bei Basis 2: Verdopplungen und Halbierungen der Genexpression werden sichtbar • Bei Basis 10: Verzehnfachungen werden sichtbar (d.h. der Fokus liegt auf großen Schwankungen der Genexpression) Wie misst man die Ähnlichkeit zwischen zwei Expressionsprofilen? • Übliches Maß hierfür ist die Pearson-Korrelation (r) • Verhalten sich zwei Gene ähnlich, auch unabhängig von der Größenordnung, dann geht die Korrelation gegen 1 • Verhalten sich zwei Gene nicht ähnlich geht die Korrelation gegen 0 • Verhalten sich zwei Gene entgegengesetzt geht die Korrelation gegen -1 Was ist Hierarchisches Clustering? Nachdem die paarweise Pearson-Ähnlichkeit zwischen allen Genexpressionsprofilen berechnet wurde, werden diese geclustert. Algorithmus Hierarchisches Clustering: • Eingabe: Menge K aller (Kandidaten-) Gene • Schritt 1: Finde die zwei ähnlichsten Gene i und j und vereine beide zu einem Cluster Ci={i,j} und entferne die Gene i und j aus K • Schritt 2: Berechne die Ähnlichkeit zwischen allen Genen und Genclustern und finde die größte Ähnlichkeit • Wiederhole Schritt 2 bis alle Gene aus K verbraucht sind • Wie bestimmt man die Ähnlichkeit zwischen einem Gencluster und einem Gen oder zwischen zwei Genclustern ? Durchschnittswerte innerhalb des Clusters verwenden ! => doch wozu dieses Clustering, was sagt es aus? Teil 7 – Proteomics Southern Blots / Northern Blots / Western Blots Die wichtigsten Nachweistechniken für ein gesuchtes Gen, eine RNA oder ein Protein in einem Zell-Extrakt werden Blots genannt: • Southern Blot: DNA • Northern Blot: RNA • Western Blot: Proteine => diese Grundtechniken werden in der Forschung, Diagnostik und Therapie verwendet. Die Blots funktionieren alle auf der Basis der Gelelektrophorese, die es als vertikale und horizontale Variante gibt. Gel-Elektrophorese Die Gelelektrophorese ist eine analytische Methode der Chemie und Molekularbiologie, um verschiedene Arten von Molekülen zu trennen. Dabei wandert eine Mischung aus zu trennenden Molekülen unter Einfluss eines elektrischen Felds durch ein Gel, welches in einer ionischen Pufferlösung liegt. Je nach Größe und Ladung der Moleküle bewegen sich diese unterschiedlich schnell durch das als Molekularsieb wirkende Gel. Arten von Antikörpern (Mono, Poly) Polyklonale Antikörper binden an unterschiedliche Oberflächenstrukturen (Herstellung: im Tier) Monoklonale Antikörper binden nur an eine Oberflächenstruktur (Herstellung: im Reagenzglas) Einsatz von Antikörpern Medizinische Anwendung: Verklumpungstest im Blut (Antikörper sind eines wichtigsten diagnostischen Werkzeuge und nahezu beliebig einsetzbar!) Bedeutung der Immunhistologie Immunhistologie ist der Nachweis gesuchter Proteine in Gewebeschnitten durch Antikörper und Färbung. Dabei handelt es sich um ein Routinemethode bei klinischer Diagnostik. Hypothesenfreie Forschungsansätze ?? 2D-Gelelektrophorese Vorteile: • Viele Proteine können gleichzeitig visualisiert werden • Massenspektrometrie möglich • Isoformen und Modifikationen können visualisiert werden Nachteile: • Nur hochexprimierte Proteine können visualisiert werden. • Funktioniert nicht mit sehr kleinen oder hydrophoben Proteinen • Auftrennung schwer reproduzierbar! Bedeutung der Massenspektrometrie für Proteomics & Für Proteomics relevante Ansätze: MALDI und ESI/MS-MS Massenspektrometrie: Die Massenspektrometrie ist ein Verfahren zum Messen der Masse von Teilchen. Dazu wird die zu untersuchende Substanz in die Gasphase überführt, ionisiert und die ionisierten Teilchen durch ein elektrisches Feld beschleunigt. Massenspektrometrie für Proteomics: Man kann eine Probe (z.B. Blut/Zellen/Urin) in den Massenspektrometer geben und auf diese Weise die Proteine und deren Menge identifizieren. MALDI (Matrix-unterstützte Laser-Desorption/Ionisation) und ESI/MS-MS (ElektrosprayIonisation) sind in diesem Zusammenhang Möglichkeiten um bei der Massenspektrometrie die Molekühle zu unterscheiden. Yeast2Hybrid Beim Hefe-Zwei-Hybrid-System (englisch Yeast Two-Hybrid System, abgekürzt Y2H) handelt es sich um eine Technik der Molekularbiologie zur Aufklärung von Protein-Protein-Interaktionen. Im Screening-Verfahren können in einem eher empirischen Ansatz mit einer cDNA-Bank als „Prey“ mögliche Interaktionspartner identifiziert werden, oder aber es können bei dem so genannten „Single mating“ mit diesem System gezielt die Interaktion für bestimmte Proteine überprüft werden. ICAT ?? Vorteil ICAT gegenüber Microarrays ?? Protein-Arrays - Ansätze ?? Wirkstoff-Protein Interaktion über Kristallisation ?? Bedeutung der Raumstrukturen in Proteomics ??
© Copyright 2024