‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬ ‫‪1‬‬ ‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬ ‫אתר הקורס הוא ‪ .moodle.tau.ac.il‬באתר יועלו שאלות סקר כקבלת פידבק‪ ,‬כאשר יש דרישה לענות על‬ ‫לפחות ‪ 10‬שאלות‪ .‬יש גם קורס תרגול אופציונאלי‪",‬כלים בביואינפורמטיקה"‪ ,‬בסמסטר ב'‪.‬‬ ‫המהפכה הגנומית ופרוייקט הגנום האנושי‬ ‫הרבה מתייחסים לפרוייקט האדם הראשון בחלל כהישג משמעותי של האנושות; אולם לצד הישג זה עומד‬ ‫פרוייקט הגנום האנושי – פרוייקט יקר הרבה יותר שההצלחה שלו עשויה לעלות על זו של הפרוייקט של‬ ‫נאס"א גם מבחינת יישומים רפואיים עתידיים וגם מבחינת הדברים שניתן ללמוד על העבר‪.‬‬ ‫פרוייקט הגנום האנושי ריצף ‪ 3‬מיליארד אותיות נוקליאוטידים; הקראת הגנום בקצב של אות בשנייה‬ ‫הייתה אורכת כ‪ 100-‬שנה‪ .‬הפרוייקט המורכב הזה ספג הרבה ביקורת ציבורית בתחילתו‪ ,‬שכן כשהוא‬ ‫התחיל בשנות ה‪ – 90-‬ומתוך הבנת ההיקף שלו והעובדה שעד כה לא הצליחו לרצף את כל הגנום האנושי‬ ‫– חששו שלא ניתן יהיה לסיים את הפרוייקט בזמן ובתקציב שניתנו‪.‬‬ ‫גם לאחר שעברו ‪ 2/3‬מהזמן הקצוב לפרוייקט לא הצליחו לרצף אלא ‪ 10%‬מהגנום‪ .‬בשליש האחרון‬ ‫השלימו את השאר – עדות להתקדמות הטכנולוגית ולמה היא מאפשרת‪.‬‬ ‫המירוץ לגנום‬ ‫פרוייקט הגנום האנושי התחיל מקונסורטיום של מעבדות תחת ה‪ ,NIH-‬שעבדו יחד‪ .‬הגישה שלהן הייתה‬ ‫הגיונית אך איטית‪ :‬מכיוון שהגנום גדול ומחולק לכרומוזומים‪ ,‬כדי חילקו אותו לסגמנטים קטנים וכל‬ ‫מעבדה הייתה צריכה לרצף חלק קטן‪ ,‬שהוא יותר נשלט מהגנום העצום‪.‬‬ ‫השיטה הייתה איטית כאמור ודרשה התערבות ידנית‪ ,‬כך שהיה קשה ליישם התערבות מחשבית ורובוטית‬ ‫להאצתה‪ .‬אחד מהשותפים לפרוייקט בתחילתו‪ ,‬קרייג וונטר‪ ,‬חשב על רעיון להאצת הפרוייקט אך לא‬ ‫הצליח לשכנע את הקונסורטיום לשנות את הגישה‪.‬‬ ‫בשל האטימות לרעיונותיו‪ ,‬ונטר הקים חברה בשם ‪ ,Celera Genomics‬שהתחילה לרצף מחדש לפי‬ ‫שיטתו וניסתה לרצף מספיק מהר כדי לנצח את ה‪ .NIH-‬היה לו היתרון של פרסומים פומביים של‬ ‫הקונסורטיום את הקטעים המרוצפים; אבל הגישה של סלרה הייתה לרצף את כל הגנום בבת אחת‬ ‫ולהרכיב את זה אחר כך‪ .‬לשם כך סלרה בנו את המחשב השלישי החזק ביותר בעולם באותו זמן‪ .‬ב‪-‬‬ ‫‪ 2001‬הם כבר הודיעו על סיום הטיוטא הראשונה‪.‬‬ ‫בעזרת טכנולוגיה מתקדמת התגברו ואף ניצחו את היתרון שהיה למעבדות שהתחילו כעשור קודם‪.‬‬ ‫הריצוף בקצב של המעבדות היה אורך כ‪ 500-‬שנה; אך הריצוף הולך ונעשה מהיר יותר – היום מדברים‬ ‫על מכונות ריצוף מהדור השני שיכולות לרצף בשבועות ספורים את הגנום‪ ,‬והתוכנית היא שמכשירי‬ ‫הדור השלישי ייפעלו בקצב יהיה כה מהיר ויעילות כה גבוהה; הביטחון בכך כה רב שקיים פרס גבוה על‬ ‫פריצת דרך זו כי הוא יאפשר יישום של ריצוף גנטי גם באפליקציות רפואיות‪.‬‬ ‫בינואר השנה ניתן אבטיפוס למכונה שתאפשר גנום ב‪ $100-‬ובפחות משעה‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪2‬‬ ‫חשיבות ריצוף הגנום האנושי‬ ‫אז הגנום ידוע‪ ,‬אבל מהי באמת החשיבות של הדבר? רוב האנשים לא חשים את המהפכה‬ ‫הביואינפורמטית על בשרם‪ ,‬ביום‪-‬יום‪ .‬איפה הפריצה?‬ ‫פרנסיס קולינס‪ ,‬יו"ר הקונסורטיום אמר כי יש חוק שאומר שכשיש מהפכה משמעותית מבחינה‬ ‫טכנולוגית אנחנו מבצעים הערכת‪-‬יתר בנוגע להשלכות המיידיות ותת‪-‬הערכה של ההשלכות לטווח‬ ‫הארוך‪ .‬ניתן להקביל זאת למהפכת האינטרנט‪ :‬בתחילת שנות ה‪ 2000-‬כמעט כל מניה של חברה‬ ‫שהודיעה שתעלה תכנים לאינטרנט העלתה את ערך מניותיה‪ ,‬אך בועה זו התנפצה‪ .‬יחד עם זאת עשור‬ ‫מאוחר יותר ניתן לראות כיצד הציפיות לטווח הארוך של השלכות מהפכת האינטרנט נכנסות לחיינו‪.‬‬ ‫לאחר שרוצף כל הגנום‪ ,‬התהליך של זיהוי גנים – שבעבר היה לוקח חודשים ושנים – יכול לקחת דקות‬ ‫וימים‪ .‬דוגמה לכך היא מחלה כמו ‪ .Duchenne's Muscular Dystrophy‬האחראי למחלה הזו‪ ,‬שתוקפת‬ ‫ילדים בגיל ‪ 4‬בערך‪ ,‬הוא גן ענק המכונה ‪ dystrophin‬שמכיל למעלה מ‪ 74-‬אקסונים‪ .‬לגן הזה יש גן‬ ‫חלופי‪ ,utrophyn ,‬שמתבטא יחד עם דיסטרופין‪ .‬אם יש מחיקה של דיסטרופין‪ ,‬גם אוטרופין מתבטא‬ ‫בחסר ולכן הקיום הטבעי שלו אינו יכול לבטל את ביטוי המחלה; אך עם הטכנולוגיה של היום‪ ,‬ניתן‬ ‫לגרום לעירור של הגן – כל שנדרש היה לדעת על קיומו ולחקור אותו‪.‬‬ ‫לפני פרוייקט הגנום‪ ,‬מציאת הגן אוטרופין‪ ,‬גן הומולוגי שעשוי לעזור בביצוע אותה פעולה כמו גן‬ ‫המחלה‪ ,‬היתה יכולה לקחת שנים; היום עם הגנום המרוצף ניתן לחפש הומולוג בעזרת ‪ BLAST‬ובהמשך‬ ‫לבודד את הגן בתוך שבועות ספורים בלבד‪ .‬זוהי התקדמות המאפשרת לחוקרים לבצע את המחקר שלהם‬ ‫במהירות וביעילות‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬ ‫‪3‬‬ ‫סקירה היסטורית‬ ‫•‬ ‫‪ – 1859‬דארווין היה בעל הרעיון הטוב ביותר‪ ,‬יש הטוענים‪ ,‬שמישהו העלה‪ .‬הרעיון שלו הוא שניתן‬ ‫לקבל משהו שנראה כמו ‪ design‬בלי שיעמוד מאחוריו ‪ .designer‬זהו רעיון חשוב גם מבחינה‬ ‫אוניברסלית – דארווין דיבר על ביולוגיה‪ ,‬אך הכלל שלו יכול להיות רלוונטי לא רק בביולוגיה ואולי‬ ‫לא רק על פני כד"א‪ .‬ברגע שיש שונות וחלק מהווריאנטים מצליחים יותר מאחרים יתקבל‬ ‫תהליך שנראה כמו עיצוב‪.‬‬ ‫•‬ ‫‪ – 1866‬מנדל גילה את חוקי התורשה‪ .‬אומנם בני אדם ידעו על תורשה עם המהפכה החקלאית‪ ,‬בה‬ ‫ידעו כי הורים מוצלחים מולידים צאצאים מוצלחים‪ ,‬אך התרומה של מנדל הייתה שהוא הבין‬ ‫שחוקי התורשה הם משהו בדיד – הורים יכולים להיות בעלי תכונה מסויימת אבל התינוק לא יהיה‬ ‫איחוי שלהם אלא תכונותיו נעות על ספקטרום מסויים בהתאם לתכונות ההורשה השונות‪,‬‬ ‫לדומיננטיות שלהן וכדומה‪.‬‬ ‫•‬ ‫‪ – 1928‬גריפית תרם להבנה מהו החומר התורשתי‪ .‬ידוע שצאצא יהיה מאותו המין ודומה להוריו;‬ ‫גריפית עשה ניסוי שבו הראה שהחומר התורשתי הוא חומצות גרעין – ‪ ,DNA‬נושא עליו הקהילה‬ ‫המדעית הייתה חלוקה בזמנו‪.‬‬ ‫•‬ ‫‪ – 1953‬ווטסון וקריק בנו את מודל ה‪ ,DNA-‬החומר התורשתי‪ ,‬והצליחו להבין איך המכאניזם של‬ ‫התורשה מתרחש על ידי הזיווג בין ארבעת הנוקליאוטידים‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫‪4‬‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫•‬ ‫‪ – 1961‬נירנברג קיבל נובל על פיצוח קוד המעבר מאינפורמציה של ארבע אותיות‬ ‫)נוקליאוטידים( ל‪ 20-‬אותיות )חומצות אמינו(‪ .‬הוא בנה את הקידוד והבין שהקוד הגנטי‬ ‫אוניברסלי בכל האורגניזמים הקיימים בכדור הארץ‪.1‬‬ ‫•‬ ‫‪ – 1970‬סאנגר המציא את הטכנולוגיה הבסיסית לריצוף ה‪ .DNA-‬כל הטכנולוגיות המתקדמות‬ ‫יותר ופחות שיש היום מתבססות עליו‪ .‬בשיטה זו יוצרים עותקים רבים של ‪ ,DNA‬חותכים אותם‬ ‫ומרכיבים אותם יחד על בסיס החפיפה ביניהם‪.‬‬ ‫•‬ ‫‪ – 2003‬פרוייקט הגנום האנושי‪.‬‬ ‫•‬ ‫מ‪ 1940-‬והלאה – הולדת המחשב הדיגיטלי הראשון‪ ,‬התפתחות המחשבים והטכנולוגיה שלהם‬ ‫מתרחשת ברקע לאורך ההיסטוריה הזו‪.‬‬ ‫המהפכה הגנומית מתכנסת עם מהפכת טכנולוגיית‬ ‫המידע – מהפכת המחשבים‪ .‬גם היא‪ ,‬כמו המהפכה‬ ‫הגנומית‪ ,‬מתקדמת בקצב אקספוננציאלי‪ .‬מעניין‬ ‫לראות שבמעבר למתמטיקה ולפונקציה התיאורטית‬ ‫קיימות‬ ‫התנהגות‬ ‫תופעות‬ ‫כלל‪-‬עולמיות‬ ‫אקספוננציאלית‪.‬‬ ‫בעולם‬ ‫הקצב‬ ‫בעלות‬ ‫בטכנולוגיית‬ ‫הריצוף מוכפל מדי ‪ 10‬חודשים בערך‪ ,‬והמהפכה‬ ‫הדיגיטלית ממשיכה ודוחפת אותו אל הקצה‪.‬‬ ‫מדע הביואינפורמטיקה‬ ‫מדע זה נולד מתוך הצורך להתגבר על פרוייקט הגנום האנושי – פרוייקט גדול שהביולוגים ניסו להתגבר‬ ‫עליו‪ .‬המחשבים שימשו בתחילה רק כדי לאחסן את כמויות הנתונים העצומות ומאוחר יותר גם לעשות‬ ‫סדר בערימות המידע העצום הזה‪.‬‬ ‫המחשב‪ ,‬עוד לפני פרוייקט הגנום‪ ,‬ידע לטפל במחרוזות – למצוא מחרוזות‪ ,‬תת מחרוזות‪ ,‬וכדומה‪ .‬גם‬ ‫‪ DNA‬וחלבונים הם מחרוזות – ולכן ניתן לומר שכבר אז היה הבסיס האלגוריתמי לחיפוש גנים‬ ‫וחלבונים ברצף‪.‬‬ ‫הדוֺגמה‬ ‫של‬ ‫שהאינפורמציה‬ ‫הביולוגיה‬ ‫נמצאת‬ ‫היא‬ ‫בגרעין‪,‬‬ ‫בצורת ‪ ,DNA‬והיא יוצאת החוצה‬ ‫בפורמט‬ ‫קריא‬ ‫בתור‬ ‫‪mRNA‬‬ ‫המאפשר תרגומה לחלבונים‪.‬‬ ‫‪ 1‬לא מדוייק‪ ,‬אבל לצורך הדיון נגיד שזה נכון לגבי כל האורגניזמים‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬ ‫‪5‬‬ ‫הגנומים עצמם – גנומיקה משווה‬ ‫תחום זה נועד ליישום עימוד – ‪ – alignment‬של גירסאות‪ .‬השוואה גנומית דורשת‬ ‫עימוד – לדעת מה עומד מול מה – כדי שניתן יהיה לחפש טעויות או סטיות‪ .‬לשם כך‬ ‫אוספים רצפים מכמה אורגניזמים שונים‪ ,‬מעמדים אותם ומחפשים את ההבדלים‬ ‫בעמודות‪ .‬בהמשך מחפשים את ההבדלים החשובים – אלו שממש משפיעים על יכולת‬ ‫החיות והויאביליות של האורגניזמים‪ ,‬ואלו שמהווים את הדומה והשונה בין אורגניזמים‪.‬‬ ‫עוד לפני פרויקט הגנום היו גנומים מרוצפים בשלמותם – של חיידקים‪ ,‬שמרים ובהמשך‬ ‫גם הנמטודה ‪ .C.elegans‬השוואה בין הנמטודה לאדם מגלה אותו סדר גודל של גנים‪.‬‬ ‫ההשוואה הזו מוזרה היות ו‪ C.elegans-‬היא כה קטנה‪ ,‬כה פשוטה עד שיש לה רק ‪ 32‬נוירונים – לעומת‬ ‫מליארדי נוירונים בבני אדם‪ ,‬מדד המעיד על היבט של מורכבות‪ .‬לפיכך הניחו שאין קשר ישר בין גודל‬ ‫הגנום לבין היכולת של הגנום לתמוך באורגניזם מורכב‪.‬‬ ‫לאמבה דביה‪ ,‬בעלת גודל מיקרוסקופי ויכולות רגילות של אמבות‪,‬‬ ‫יש גנום המכיל ‪ 600‬מיליארד בסיסים – למעלה מפי ‪ 200‬מגודל‬ ‫גנום האדם‪ .‬היום ידוע שיש הרבה חלקים בגנום שהפונקציה שלהם‬ ‫אינה בקידוד לחלבונים‪ ,‬אשר כונו בעבר ‪ ,Junk DNA‬וזוהי דוגמה‬ ‫קיצונית לכך‪.‬‬ ‫מקטעים שמורים = מקטעים חשובים‪ ,‬לא בהכרח חלבונים‬ ‫גנומיקה משווה אומרת שאם יש מקטע שמור – מקטע דומה בגנומים של אורגניזמים שונים – סימן‬ ‫שהאיזור מקודד למשהו בעל פונקציה חשובה ולכן האבולוציה לא איפשרה למקטע להשתנות‪.‬‬ ‫במסגרת מחקר כזה בחנו מספר גנומים‪ ,‬למשל של עכבר‪ ,‬חולדה ואדם‪ ,‬וניסו לחפש מקטעים שמורים‬ ‫לחלוטין – שלא השתנו אפילו בבסיס אחד – ושמהווים סגמנטים של כ‪ 200-‬זוגות בסיסים‪ .‬נמצאו כמעט‬ ‫‪ 500‬סגמנטים כאלה שמקודדים לחלבונים והיו ובעיקרם אקסונים; יחד עם זאת היו גם מקטעים שלא היו‬ ‫חלק מגנים שמקודדים לחלבונים‪ .‬זה הראה שאחוז מאוד משמעותי של הגנום יכול להיות שמור‬ ‫ופונקציונאלי אבל לא מקודד לחלבונים‪ .‬זה מתחיל לענות על שאלת הפער הגנומי בין הנמטודה לאדם –‬ ‫יכולים להיות איזורים רגולטוריים ולא מקודדים בגנום – המשנים תזמון וביטוי של חלבונים בהתאם‬ ‫למצב של הגוף; הם מהווים כעין אבני בניין ואם יוצרים תבנית אחרת של ביטוי ניתן לקבל תבנית אחרת‬ ‫בתוצאה – אדם או נמטודה‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫‪6‬‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪...‬האומנם?‬ ‫מאוחר יותר חוקר מאוני' תל אביב‪ ,‬נדב אחיטוב‪ ,‬לקח את הגנים ה‪) UC-‬אולטרא‪-‬שמורים( ועשה להם‬ ‫מחיקה‪ .‬הוא ראה שיש מקטעים שמחיקה שלהם עדיין תוליד עכבר ויאבילי ובריא‪ ,‬מה שמעלה שאלה בנוגע‬ ‫לכלל האצבע הזה ששמירות = חשוב או פונקציונאלי‪.‬‬ ‫במה נבדל האדם מהשימפנזה?‬ ‫הגנום של השימפנזה רוצף כחמש שנים לפני הגנום האנושי‪ .‬זמןר ב ידוע ששימוש בכלים אינו מבחין בני‬ ‫אדם בלבד – שהרי שימפנזות יכולות ללמוד להשתמש בכלים לשם ציד טרמיטים‪ .‬גם שפה היא לא דבר‬ ‫הייחודי לאדם – חוקרים בשנת ‪ 2008‬לימדו שימפנזים שפת סימנים‪ ,‬פתחו להם עמוד בפייסבוק‪ ,‬וארבעת‬ ‫השימפנזים האלה מנהלים חיי חברה פוריים דרך פייסבוק – הם משתמשים בשפת הסימנים שלמדו כדי‬ ‫להעביר מסרים די מורכבים‪.‬‬ ‫בגנום של השימפנזה נמצאה ‪ 96%‬זהות בין המקטעים שניתן להשוות ישירות יחד עם אלו שלא ניתן‬ ‫להשוות ישירות )‪ 97%‬בחלקים שניתן להשוות ישירות בלבד(‪ .‬משמעות הדבר היא שניתן לקבל שונות‬ ‫גדולה באורגניזם גם עם אחוז שונות מאוד קטן בגנום‪.‬‬ ‫ההבדל טמון גם בשמירות וגם בהבדלים שבין האדם לשימפנזה‪ .‬לשם כך חיפשו מקטעים שמורים‬ ‫מאוד בין האדם והשימפנזה לחולייתנים שונים‪ ,‬עד תרנגולת – כאשר המקטעים אינם בהכרח גנים –‬ ‫ודורשים בנוסף לשמירות הגבוה מתרנגולת לשימפנזה שבין אדם לשימפנזה המקטעים האלה כן ישתנו‬ ‫באופן יותר משמעותי‪ .‬קטעים אלו אולי מעידים על מקור ההבדל בין השימפנזה לאדם‪.‬‬ ‫בתהליך זה נמצא מקטע אחד שבין תרנגולות לשימפנזה היו בו שני שינויים בלבד אולם בין שימפנזה‬ ‫לאדם היו ‪ 18‬שינויים באותו המקטע )ניתן להניח שפרק הזמן בין אדם לשימפנזה קצר יותר מאשר‬ ‫לתרנגולת ולכן נראה שהאבולוציה לא רק משמרת אלא יכולה בתנאים מסויימים להאיץ שינויים(‪.‬‬ ‫במחקר התגלה שהמקטע אינו מקודד לחלבון כי אם לגדיל ‪ RNA‬בעל קיפול ייחודי‪ ,‬המתבטא במוח‬ ‫באיזור הקורטיקלי בתקופה העוברית‪ .‬זהו מועמד שכנראה הינו בעל תפקיד רגולטורי ויכול ליצור את‬ ‫ההבדלים השכליים בין האדם לשימפנזה‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬ ‫‪7‬‬ ‫ובמה נבדל האדם המודרני מהאדם הנאנדרטלי?‬ ‫בין אדם לשימפנזה קיימות בין ‪ 5-6‬מיליון שנים; מה עם ההיסטוריה הקרובה יותר? גם אוכלוסיית האדם‪,‬‬ ‫כמו אוכלוסיית השימפנזה‪ ,‬התפצלה – למרות שרק ההומו ספיינס שרדו‪ .‬יחד עם זאת היו גם‬ ‫הניאנדרטאלים‪ ,‬שחוקרים הצליחו להוציא את דגימות גנום שלהם מעצמות קבורות‪ .2‬לא ניתן היה לרצף‬ ‫הכל‪ ,‬אבל מהחלק שרוצף עלו כמה מסקנות‪:‬‬ ‫•‬ ‫יש הרבה גנים משותפים לספיינס‪ ,‬שזה הגיוני‬ ‫וצפוי; אבל יש גם גנים שונים‪ .‬ביניהם גנים‬ ‫שפגמים בהם יוצרים אוטיזם או סכיזופרניה;‬ ‫היו גם גנים שקשורים לצורת השלד העשויים‬ ‫להסביר את מבנה השלד המשוער של‬ ‫ניאנדרטלים‪.‬‬ ‫•‬ ‫ישנן עדויות ל‪ .Inter breeding-‬האדם היה‬ ‫באפריקה‬ ‫כשהניאנדרטלים‬ ‫חיו‬ ‫באירופה;‬ ‫כשהאדם יצא לאירופה הוא תפס להם את הנישה‪ ,‬אך ככל הנראה הם התרבו ביניהם לפני שהספיקו‬ ‫להיכחד‪ ,‬כי מוצאים אוכלוסיות של אדם מודרני שיותר דומות לאוכלוסיה הניאנדרטלית מאשר‬ ‫לאוכלוסיה שיצאה מאפריקה‪.‬‬ ‫וריאנטים אנושיים‪ /‬אדפטציות‬ ‫הפונקציה של גלוקוז‪-6-‬פוספט דהידרוגנאז )‪ (G6PD‬היא פונקציה נפוצה בגוף‪ ,‬אבל בתאי דם אדומים‬ ‫תפקידה חשוב במיוחד כי היא מונעת עומס חימצון של הכדורית האדומה‪ .‬הווריאנט אינו מבצע את‬ ‫הפונקציה באופן מלא – הוא עושה אותה באופן חלקי ולכן גורם לעומס חימצון לא קטלני‪ .‬אנשים שיש‬ ‫להם את הווריאנט עמידים לטפיל המלריה‪ ,‬ולכן הווריאנט הגיע לאחוזים גבוהים באוכלוסיה‪.‬‬ ‫הרצפטור ‪ CCR5‬משמש את נגיף האיידס לכניסה לתאי הדם הלבנים‪ .‬בימי הביניים השתוללה באירופה‬ ‫מגיפת המוות השחור; היא קטלה שליש מהאוכלוסייה אבל מהשורדים היו בעיקר בעלי חסר ברצפטור‬ ‫‪ .CCR5‬הדבר יצר עלייה בשכיחות של הרצפטור המוטנטי בקהילה האירופאית אשר תודות לה יש להם‬ ‫גם עמידות חלקית לנגיף האיידס‪.‬‬ ‫פרויקט מיפוי הוריאנטים של הגנום האנושי‬ ‫הרעיון היה ליצור קטלוג של סניפים )‪ (SNPs‬שונים בין בני אדם‪ .‬השם החדש של הפרוייקט הוא ‪1000‬‬ ‫‪ ,Genomes Project‬אשר ירצף מאות ואלפי גנומים שילמדו אותנו על דופליקציות של מקטעים‪ ,‬שונות‬ ‫בין בני אדם וכדומה‪.‬‬ ‫‪ 2‬זה היה עניין מאתגר‪ ,‬כי צריך למצוא עצמות טובות – שרוב הגנום שלהם הוא של ניאנדרטאלים ולא של חיידקים או פטריות‬ ‫שגדלו על העצם‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪8‬‬ ‫הפרוייקט נשמע שאפתני אבל המכונות היום יכולות לייצר ב‪ 12-‬שעות את כל מה שייצרו בפרוייקט הריצוף‬ ‫של הגנום האנושי הראשון‪.‬‬ ‫היום ניתן להשוות בין בני אדם ולקבל אינפורמציה על ההבדלים והווריאנטים‪ .‬האפליקציה הראשונה בה‬ ‫הציבור מעוניין היא רפואית – מציאת התאמה בין וריאנטים גנטיים לבין מחלות כך שניתן לזהות סיכוי‬ ‫מוגבר למחלות מסויימות בהתאם לווריאנטים הגנטיים‪.‬‬ ‫אפילו בתאומים זהים‪ ,‬שיש להם אותו הגנום‪ ,‬ניתן לכמת באופן שונה את הסיכוי למחלה עקב הבדלים לא‬ ‫בגורם הסיכון הגנטי אלא בגורם הסיכון הסביבתי‪ .‬השיטות עד כה יכלו להסביר רק כ‪ 10%-‬מהווריאנטים‬ ‫הגנטיים שאחראים לסיכון הגנטי‪ ,‬המהווה ‪ 50%‬מהסיכון; פרוייקט ‪ 1000‬הגנומים מבקש למצוא את ‪40%‬‬ ‫הנותרים‪.‬‬ ‫בעתיד שבו ריצוף גנום אנושי יהיה מהיר וזול ניתן יהיה לתת לאנשים פרוגנוזה על בסיס הגנום; יישום זה‬ ‫לא קיים כרגע ברפואה אבל הוא נכנס כבר לתחום הפרמקוגנומיקה – זיהוי גנים שמעידים על היכולת‬ ‫להגיב טוב יותר או פחות לתרופה מסויימת‪ .‬התחום הזה קיים במספר תרופות וכנראה יהיה תקן העתיד‪.‬‬ ‫בצורה זו ניתן יהיה לשווק תרופות המספקות תועלת מירבית ונזק מינימלי‪.‬‬ ‫גנומיקה של סרטן‬ ‫פרוייקטים מסויימים מרצפים גנום מתאים סרטניים במקום מתאים בריאים‪ .‬בצורה זו ניתן למצוא מהם‬ ‫הדומה והשונה בין הסרטן לתא הרגיל – במיוחד מהן האדפטציות הדרושות על מנת שהתא יוכל להיות‬ ‫סרטני‪ .‬כאשר סוקרים הרבה מאוד תאים סרטניים אפשר לחקור את הגנים האלה וליצור תרופות שיכוונו‬ ‫ספציפית אל אותם גנים סרטניים‪.‬‬ ‫תרופה שכזו היא ‪ LPX4032‬המשמשת לסרטן העור – מלנומה‪ .‬זוהי תרופה עם תגובה מאוד מועילה‬ ‫שפותחה לאחר שריצפו תאים עם מלנומה לעומת תאים בריאים ומצאו שינוי בגן ‪ .BRAF‬התרופה‬ ‫מביאה לשיפור משמעותי במצב התאים הסרטניים ומצב הגן – זוהי תרופה שפוגעת ספציפית בגן‪.‬‬ ‫בצורה כזו נחסכות תופעות הלוואי הרבות של הכימותרפיה‪ ,‬כי זו תרפיה נקודתית‪.‬‬ ‫שיטת ה‪ Genes Microarrays-‬מאפשרת בעזרת כרטיס אחד‪ ,‬שגודלו לא עולה על זה של כרטיס‬ ‫אשראי‪ ,‬להשוות בין מאות ואלפי גנומים ולראות את נקודות ההבדל והדמיון ביניהם‪ .‬ניתן להפעיל‬ ‫‪ DNA CHIPS‬על חולי לוקמיה למשל‪ ,‬סרטן חמור בעל מאפיינים דומים בין מטופלים‪ ,‬להשוות בין‬ ‫הגנומים של החולים ולראות שטיפול‬ ‫תרופתי מתאים לבעלי גנום מסויים‬ ‫אך פחות לבעלי ורייאנט אחר או‬ ‫שהם בעלי גן אחר שגרם ללוקמיה‪.‬‬ ‫בצורה זו מסתכלים על הנתונים‬ ‫ומפתחים כלים חישוביים לניתוחם‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬ ‫‪9‬‬ ‫ביואינפורמטיקה מבנית‬ ‫תחום זה מתאר את נסיונם של הביואינפורמטיקאים לקבל רצף של חומצות אמינו ו"לקפל" אותו במחשב‬ ‫לקבלת המבנה המרחבי של החלבון‪ .‬זה עדיין לא אפשרי היום‪ ,‬אבל כן ניתן ללמוד על האינטראקציה בין‬ ‫חלבונים בעלי מבנה ידוע – למשל לאתר את נקודות המגע והעיגון שלהם‪.‬‬ ‫כלים נוספים באשפתו של הביואינפורמטיקאי הם ‪ – machine learning‬קבלת אינפורמציה עם תיוג‪,‬‬ ‫סיווג מסויים‪ ,‬ויצירת תיוג מחדש‪ .‬הדוגמה הבאה לקוחה מתוך מטופלים שמקבלים תרופות נגד וירוס ה‪-‬‬ ‫‪ HIV‬והאופן בו הן משפיעות על הוירוס‪.‬‬ ‫הוירוס עובר אבולוציה מהירה עקב הרבה מוטציות‪,‬‬ ‫היוצרות‪ ,‬בחלקן‪ ,‬עמידות לתרופות שמקבל המטופל‪,‬‬ ‫שאמורות למנוע את התקדמות המחלה‪ .‬זהו למעשה‬ ‫מירוץ חימוש בין המטופל הלוקח תרופות לבין‬ ‫הוירוס‪.‬‬ ‫בקבלת מטופל חדש‪ ,‬מומלץ לדעת אם הוא נדבק‬ ‫בוירוס העמיד לתרופות מסויימות או לא‪ .‬ניתן‬ ‫להשוות בין גנומים של הוירוס העמיד לוירוס שאינו‬ ‫עמיד )וירוסים ממטופלים שקיבלו את התרופה‬ ‫לעומת כאלו שלא( ולמצוא את ההבדלים בגנום –‬ ‫ולהניח שהבדלים אלו הם ההבדלים שמביאים‬ ‫לעמידות‪ .‬כאשר מגיע המטופל החדש מרצפים את‬ ‫הגנום של הוירוס שלו וכך ניתן לדעת עוד לפני‬ ‫שהוא יקבל את התרופה האם הוירוס שלו עמיד לה‬ ‫או לא‪.‬‬ ‫לסיכום‬ ‫ביואינפורמטיקה חוקרת גנומים שלמים‪ ,‬רמות ביטוי של גנים ברמת ה‪ RNA-‬ויכולה לשמש גם למחקר‬ ‫בחלבונים‪ .‬כשחושבים על כלל האורגניזמים בכדור הארץ התמונה שלנו מעט מעוותת‪ :‬מיקרואורגניזמים‬ ‫הם יצורים שלא נראים לעין ואנו נוטים לשכוח שהם מהווים למעלה ממחצית הביומסה על כדור הארץ –‬ ‫כלל בעלי החיים תופסים רק כ‪ 1/1000-‬מהביומסה‪.‬‬ ‫היום קיים מעבר מעידן של קריאת הקוד הגנטי לרצון לכתוב את הקוד הגנטי‪ .‬הדבר הברור העיקרי הוא‬ ‫שהמטען הגנטי הוא מעין תוכנית בעלת פונקציות והוראות רבות‪.‬‬ ‫אחת מהוראות התוכנית שלנו‪ ,‬למשל‪ ,‬היא שכדאי לשמור כל קלוריה ולאגור אותה לתאי שומן; בעכברים‬ ‫מצאו שאם עושים נוקאאוט לגן מסויים הם חיים יותר ורזים יותר – תוך אכילת אותה כמות מזון‪ .‬העתיד‬ ‫עשוי לצפון לא רק מחיקת קטעים מתוך הקוד‪ ,‬אלא גם מניפולציה ושכתוב של הקוד הגנטי‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪10‬‬ ‫שיעור ‪ :02‬עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים‬ ‫מהי המוטיבציה לחפש אחר דמיון בין רצפים? מהןת‬ ‫הבעיות החישוביות העולות מן החיפוש? אנו‬ ‫שואפים ללמוד על ההומולוגיה‪ .‬הומולוגיה היא‬ ‫דמיון בין עצמים‪ ,‬הנובע מאב קדמון משותף‪.‬‬ ‫משמאל‪ :‬שלוש דוגמאות לגפיים קדמיות – של‬ ‫אורנגאוטן‪ ,‬כלב וחזיר‪ .‬ניתן להבחין בהומולוגיה‪.‬‬ ‫הומולוגיה לא מתקיימת רק באיברים; ניתן לבחון גם‬ ‫הומולוגיה של חלבונים מאורגניזמים שונים ולהסיק מידע על המבנה ואולי גם התפקוד של חלבון לא‬ ‫מוכר בהתבסס על ההומולוגיה שלו לחלבון מוכר‪.‬‬ ‫כיצד מגדירים מה דומה ומה שונה? בהתאם לאחוז הזהות בין חומצות האמינו ובהתאם ליכולת‬ ‫לעמד את הרצפים בצורה מדוייקת אחד מול השני‪.‬‬ ‫עימוד רצפים‬ ‫העימוד בין שני רצפים יכול להראות דמיון מוחלט או דמיון חלקי;‬ ‫ניתן גם לאתר ‪ insertions‬או ‪) deletions‬המכונים "‪ .("in-dels‬בסופו של דבר כל אלו עוזרים למצוא‬ ‫עד כמה הרצפים דומים אחד לשני על מנת למצוא את מידת ההומולוגיה הגנטית‪.‬‬ ‫מדוע לעמד?‬ ‫•‬ ‫בין שני חלבונים דומים מאוד‪ ,‬על פי רוב הפונקציה תהיה דומה‪ .‬אם נשווה חלבון חדש לחלבון מוכר‪,‬‬ ‫מידת דמיון גבוהה תעזור לכוון את מחקר הפונקציה של החלבון החדש כי היא כנראה תהיה דומה‬ ‫לפונקציה של החלבון המוכר‪.‬‬ ‫•‬ ‫אם נתון רצף גנומי ממקור לא ידוע‪ ,‬ניתן להשוות ‪ mRNA‬לרצף הגנומי למציאת גן המקור‪ .‬העימוד‬ ‫מאפשר להבין היכן נמצא הגן של ה‪ .mRNA-‬בהתאם למיקום ניתן להרחיב ולהעמיק את המחקר‪.‬‬ ‫•‬ ‫אם מרכיבים עץ פילוגנטי שעוזר להבנת אירועי התפצלויות שונים של מינים לאורך האבולוציה‪,‬‬ ‫אפשר להשתמש באנטומיה אבל הרבה אינפורמציה מתקבלת גם מהשוואת גנומים וחלבונים‬ ‫מאורגניזמים שונים‪ .‬על ידי השוואה בין רצפים שונים מאורגניזמים שונים‪ ,‬ועל ידי מדד שניתן לכמת‬ ‫בעזרתו את מידת השוויון או השוני של ההומולוגיה בין הגנומים השונים‪ ,‬ניתן ללמוד על המרחק‬ ‫האבולוציוני בין שני האורגניזמים להם היו שייכים הגנומים‪.‬‬ ‫•‬ ‫ברצף חומצות האמינו )למעלה משמאל( ניכרות חומצות אמינו שמורות מאוד ואחרות שמתחלפות‪.‬‬ ‫ניתן להבין מכך שאם נשווה בין כמה חלבונים כאלה ממקורות שונים‪ ,‬נלמד לאילו חומצות אמינו‬ ‫בחלבון יש תפקיד ועל כן מקומן נשמר באדיקות לאורך האבולוציה לעומת חומצות אמינו אחרות‬ ‫שיכלו "לספוג" שינויים‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :02‬עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים‬ ‫‪11‬‬ ‫ההבדלים המתקבלים‬ ‫אם שני רצפים חולקים אב קדמון משותף‪ ,‬ניתן‬ ‫לצייר את היחסים האבולוציונים שלהם בעזרת עץ‬ ‫פילוגנטי‪ .‬אם משווים בין שני הרצפים לאב הקדמון‪,‬‬ ‫מקבלים שלוש אפשרויות‪:‬‬ ‫•‬ ‫התאמה מושלמת – אותה חומצת אמינו נמצאת‬ ‫באותו המיקום בשני החלבונים; ההשערה היא‬ ‫שהסיבה היא שאותה חומצת אמינו הייתה‬ ‫קיימת גם באב הקדמון‪.‬‬ ‫•‬ ‫שיחלוף – זוהי מוטצית ‪ missense‬בה חומצת‬ ‫אמינו אחת הוחלפה באחרת‪ .‬התוצאה לא הייתה‬ ‫ליתאלית ולכן המוטציה שורדת‪ .‬באב הקדמון‬ ‫ישנם סיכויים שווים לכאורה שתהיה כל אחת מחומצות האמינו שיש במולקולות הבת )הסיכויים‬ ‫יורדים אם יש מולקולה שלישית שמחזקת אפשרות אחת או אחרת(‪ .‬ייתכן שיש מצב סביר יותר‬ ‫מהשני בהתבסס על נתוני ההסתברות שמוטציה כזו או אחרת תקרה‪ ,‬או שגם – בסבירות מאוד נמוכה‬ ‫– במולקולת האב היה משהו שונה לחלוטין וכל אחת ממולקולות הבת היא מוטציה חדשה‪.‬‬ ‫•‬ ‫מחיקה – לפעמים רואים מחיקה של חומצות‬ ‫אמינו מהאב הקדמון לצאצאים; יתרה מזאת‪ ,‬כל‬ ‫דבר שנדמה כמחיקה יכול באותה המידה )אם‬ ‫יש רק שתי מולקולות בת( להיות בעצם הכנסה‬ ‫של חומצת אמינו‪ .‬משום כך המצב הזה מכונה לעיתים קרובות )‪.indel (insertion-deletion‬‬ ‫אבולוציונית‪ ,‬בכל אחד מהמצבים יש גורם נעלם ולא ידוע‪ ,‬גורם הגיוני המביא לתוצאה וגורם‬ ‫שהוא הסביר ביותר לתוצאה‪.‬‬ ‫הקונטקסט של העימוד‬ ‫כשמעמדים שני רצפים של ‪ DNA‬ויודעים שהאיזור הנבדק מקודד לחלבון‪ ,‬ידיעה זו לבדה יכולה לספק‬ ‫אינדיקציה לאינדקס נוסף לחיפוש‪ :‬אם ידוע שזהו ‪ indel‬ומתלבטים בנוגע לשאלה האם זו מחיקה או‬ ‫הוספה‪ ,‬ניתן לבדוק מי מהאפשרויות מאפשרת שמירה על קיומה של המחיקה כמחיקה או ההכנסה‬ ‫כהכנסה תוך כדי שמירה על מסגרת הקריאה‪) Squience Alighnment .‬עימוד רצפים( בא להגיד עד‬ ‫כמה שני רצפים דומים אחד לשני‪ ,‬והתשובה לכך תלויה מאוד בקונטקסט‪ :‬הקונטקסט שיוצרת מחיקה‬ ‫יש לו השלכות שונות לחלוטין מאשר הוספה על התוצר הסופי‪ ,‬למרות ששניהם יוצרים ‪.missense‬‬ ‫מה עשו בפרוייקט הגנום האנושי בכדי למצוא איזורים המקודדים לחלבון? לאחר קבלת הגנום השלם‬ ‫מעמדים את הרצפים ומחפשים "‪ "indel‬במקטעים מסויימים‪ .‬על ה"‪ "indels‬להיות בגודל ‪) 3K‬כאשר‬ ‫…‪ ,K=1,2,3‬כלומר כפולות של ‪ .(3‬ניתן להניח ש‪ indels-‬של פחות מ‪ 3K-‬לא שורדים‪ ,‬כי האיזורים‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪12‬‬ ‫שבין ‪ indels‬מקודדים לחלבון ואם אינם כפולות של ‪ 3‬הם גורמים ליציאה ממסגרת הקריאה‪ .‬באופן זה‬ ‫ניתן לזהות חלבונים לפי גדלי ה"‪ "indels‬המותרים בהם‪.‬‬ ‫עימוד גלובלי לעומת עימוד מקומי‬ ‫נתונים שני רצפים ורוצים לעמד רצף‬ ‫אחד מול השני‪ .‬בחלבונים זה קורה‬ ‫לעיתים קרובות‪ ,‬כי ‪ domains‬שונים‬ ‫יכולים להיות שמורים מאוד או לא‪.‬‬ ‫בדוגמה משמאל נראה שכמחצית‬ ‫מהרצף מהווה לכאורה ‪mismatches‬‬ ‫היוצרים חוסר עימודיות גבוהה; אולם‬ ‫בעזרת עימוד מקומי מתגלים איזורי‬ ‫דמיון הנמצאים בחלק מהרצפים‪.‬‬ ‫לסיכום‬ ‫•‬ ‫בעימוד גלובלי חובה לעשות עימוד עד הסוף‪.‬‬ ‫•‬ ‫בעימוד מקומי מחפשים איזורים בהם החלקים הדומים יהיו האתרים שמעוררים דמיון‪.‬‬ ‫•‬ ‫בעימוד מקומי מחפשים קטעים שמגיעים ממקומות זהים באבולוציה‪ ,‬כאשר לכל הקטעים המקומיים‬ ‫היה אב קדמון משותף‪ ,‬למרות שהקטעים באמצע יכולים להיות ממקור אחר‪ ,‬משותף להם או שלא‪,‬‬ ‫ועל כן יכולים להיות שונים מאוד‪.‬‬ ‫דוגמה‬ ‫החלבון ‪ PTK2‬שמור בין אדם לקוף‪.‬‬ ‫בכל שורה נתונות חומצות אמינו‪,‬‬ ‫האחת של אדם והשנייה של הקוף‬ ‫‪ .Rhesus‬העימוד בין הקוף לאדם גדול מאוד‪ ,‬או‬ ‫לפחות כך נראה – עדות למרחק האבולוציוני בין‬ ‫האדם לרהסוס‪.‬‬ ‫בבחינת את הגן האנושי נראה שיש לו כמה דומיינים;‬ ‫ביניהם‪ ,‬דומיינים ‪ A‬ו‪ .B-‬בחלבון אחר דומה הקיים‬ ‫בלויקוציטים‪ ,‬יש דומיין ‪ A‬ודומיין ‪ X‬במקום דומיין‬ ‫‪ .B‬בין שני הדומיינים ‪ A‬יש דימיון כי לחלבון יש אב‬ ‫קדמון משותף‪ .‬דומיינים אחרים לא מעניינים אותנו‬ ‫כרגע‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :02‬עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים‬ ‫‪13‬‬ ‫אנליזת עימוד גלובלי הייתה מבטלת כמות גבוהה‬ ‫מהחלבון; כאן מתאים השימוש בעימוד מקומי –‬ ‫עימוד שמסמן מתי יש דמיון בתכונות למרות שידוע‬ ‫שהחלבונים אינם בהכרח זהים לחלוטין ‪ .‬כעת נראה‬ ‫שיש דווקא דמיון די גבוה בין שני הקטעים האלה‪.‬‬ ‫מסקנה‪:‬‬ ‫כשמחפשים עימוד גלובלי מצפים שהשאלה תהיה‬ ‫האם כל הרצף צריך להיות אותו דבר או לא;‬ ‫מחפשים גלובאלית כאשר מחפשים דימיון בין‬ ‫רצפים שונים‪.‬‬ ‫חישוב עימודים‬ ‫כיצד המחשב יכול להבחין בין קטעים‬ ‫דומים לקטעים שונים? בין שני רצפים‬ ‫נתונים קיים מגוון עימודים אפשריים‪,‬‬ ‫כאשר הם נבדלים בשינויים שיש לבצע‬ ‫כדי להגיע אליהם‪:‬‬ ‫הבחירה בעימוד הנכון אינה אינטואיטיבית‪ .‬היא נעשית על בסיס הטענה שנדרשות מקסימום התאמות‬ ‫מושלמות ומינימום "‪ ."indels‬מאידך‪ ,‬יכול להיות גם שיש להעדיף ‪ mismatch‬על פני מחיקה‪ ,‬כי מחיקה‬ ‫עשויה להביא למוטציה שתשנה את הפונקציה בעוד ש‪ mismatch-‬יכול עדיין לשמור על הפונקציה‬ ‫)למשל אם יש לשתי חומצות האמינו המוחלפות אותן התכונות זה פחות משנה את ההתאמה של החלבון‬ ‫ואת הפונקציה שלו(‪.‬‬ ‫חוקי אצבע‬ ‫•‬ ‫התאמה מושלמת זה טוב‪.‬‬ ‫•‬ ‫לא ברור אם "‪ "indel‬טוב יותר או פחות מ‪ ,mismatch-‬ויכול להיות ש"‪ "indel‬אחד יהיה דווקא‬ ‫יותר גרוע משלושה ברצף )שלא משנים את מסגרת הקריאה(‪.‬‬ ‫•‬ ‫באופן כללי שואפים לכמה שפחות ‪ mismatches‬ו"‪."indels‬‬ ‫•‬ ‫גם הרציפות של ההתאמה המושלמת חשובה – האם עדיפות ‪ 50‬התאמות מושלמות שמפוצלות‬ ‫מאוד לאורך חלבון של ‪ 100‬חומצות אמינו‪ ,‬או ‪ 30‬התאמות מושלמות הצמודות יחד?‬ ‫‪3‬‬ ‫השיטה היא לתת ציון לאירועים‪ :‬נניח שהציון מתבסס על כך שהתאמה מושלמת מקבלת ציון ‪,+1‬‬ ‫‪ mismatch‬מקבל ציון ‪) -2‬כי הוא יותר גרוע מ"‪ ("indel‬ו"‪ "indel‬מקבל ‪ .-1‬כעת סופרים כמה התאמות‬ ‫מושלמות‪ mismatch ,‬ו"‪ "indels‬יש בכל אחד מהעימודים ומחשבים את הציון שמתקבל‪.‬‬ ‫‪ 3‬במודל שנתאר לא נתייחס לנתון זה למרות שאפשר במקרים מסויימים‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪14‬‬ ‫לפי שיטת הניקוד הזו העימוד השמאלי‬ ‫הוא הטוב יותר‪ ,‬כי יש לו ציון גבוה יותר‪.‬‬ ‫המחשב נדרש לברור בין העימודים‬ ‫האפשריים השונים ולקבוע מי מהם הוא‬ ‫הכי טוב; אם אין ערך מספרי המחשב לא‬ ‫יוכל לקבוע זאת‪.‬‬ ‫מערכת ניקוד )‪(Scoring System‬‬ ‫נניח שיש אי‪-‬תלות בין העמדות השונות‪ .‬משמעות הדבר היא שכל עמדה בתוך העימוד היא בלתי תלויה‬ ‫במקומות האחרים – במובן הזה‪ ,‬אם מופיעות חמש התאמות מושלמות צמודות או מפוזרות ייתקבל עדיין‬ ‫אותו הציון‪ .4‬העקרון הוא לתת ציון חיובי על התאמה וציון שלילי על שוני‪ ,‬כאשר מידת הניקוד משתנה‬ ‫בהתאם למערכת הניקוד‪.‬‬ ‫איך מחליטים על מערכת הגיונית?‬ ‫אחד הדברים החשובים שיש להתחשב בהם הוא ששינוי הערכים הנבחרים יכול לשנות את הניקוד‬ ‫הסופי; משום כך יש לנסח מערכת ניקוד מוצלחת‪.‬‬ ‫הסתברות מול ניראות‬ ‫בסטטיסטיקה‪ ,‬קיים תחום בדיקת ההשערות וערכים כמו ‪ p-value‬והתפלגות נורמלית אשר מציגים את‬ ‫הסבירוּת של התוצאות‪ .‬ניתן לשאול מהי ההסתברות לקבל תוצאה מסויימת בקובייה נתונה; מושג זה הוא‬ ‫ההסתברות – ‪ .Probability‬מושג נוסף הוא הניראות – ‪ .likelihood‬מושג זה מבטא את ההסתברות‬ ‫לאחר שכבר יש תוצאה לניסוי – אם מטילים קוביה עשר פעמים ותמיד יוצא ‪ ,1‬הניראות תבטא את‬ ‫הסבירות לכך שהקובייה אינה הוגנת‪.‬‬ ‫• הסתברות – סיכוי לקבל תוצאה מסויימת באופן עיוור‪.‬‬ ‫• ניראות – סיכוי לקבל תוצאה בהתבסס על תוצאות ניסוי קודמות‪ .‬על מנת לחשב ניראות צריך‬ ‫לחשב הסתברות‪ ,‬בהתבסס גם על תוצאות עבר‪.‬‬ ‫מונחים אלה מופיעים כל הזמן – למשל‪ ,‬בדוגמה שעסקה באב הקדמון המשותף לשני חלבונים שיש להם‬ ‫שתי חומצות אמינו שונות באותה נקודה‪ ,‬הניראות של האב המשותף להיות בעל אחת מהחומצות אמינו‬ ‫האלה גדולה מכך שתהיה לו חומצת אמינו שאין לאף אחד מחלבוני‪-‬הבת‪.‬‬ ‫‪ 4‬הנחה זו היא כמובן שגויה ומערכות משוכללות יותר מהמודלים שנכיר אכן מתחשבות בתלות הקיימת בין עמדות‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :02‬עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים‬ ‫‪15‬‬ ‫המטריצה‬ ‫מושג נוסף הוא מטריצה – טבלה‪ .‬הטבלה משמשת לתיאור מטריצת‬ ‫ניקוד‪ .‬הטבלה היא בגודל ‪ ,n x n‬כאשר ‪ n‬הוא מספר המשתנים –‬ ‫‪ 20‬חומצות אמינו‪ 4 ,‬נוקליאוטידים וכו'‪ .‬כעת ניתן לדרג התאמות‬ ‫ואי‪-‬התאמות בין כל שני נוקליאוטידים‪ :‬התאמה מקבלת ‪ +2‬נקודות‬ ‫ואי‪-‬התאמה מקבלת ‪ -6‬נקודות‪ .‬המטריצה מתארת את הניקוד שניתן‬ ‫עבור כל התאמה או אי‪-‬התאמה ברצף המושווה‪ .‬ניתן ליצור‬ ‫מטריצות שונות לאתרים מקודדים לעומת לא מקודדים‪ ,‬האתר‬ ‫הפעיל בחלבון לעומת איזור שאינו האתר הפעיל וכדומה‪.‬‬ ‫שימו לב שהמטריצה סימטרית – אין הבדל בין חילוף של ‪ C‬ל‪ A-‬לעומת חילוף של ‪ A‬ל‪.C-‬‬ ‫ניתן גם לבחון את הנוקליאוטידים יותר לעומק ולטעון שהפורינים דומים יותר אחד לשני מפירימידין‬ ‫לפורין; במידה כזו ניתן ליצור מטריצה שמבטאת את הדימיון על ידי ניקוד שונה לאי‪-‬התאמה בתוך קבוצה‬ ‫לעומת הניקוד של אי‪-‬התאמה בין הקבוצות השונות )פורין לפורין‬ ‫לעומת פירימידין לפורין‪ ,‬למשל(‪ .‬ערכי הניקוד מתארים את‬ ‫הניראות של השינוי שאנו דורשים שקרה על מנת להגיע‬ ‫לעימוד מסויים‪.‬‬ ‫ניקוד "‪"indels‬‬ ‫כיצד ‪ indels‬משתלבים במטריצות הניקוד? ל‪ indels-‬יכולים להיות ניקודים מאוד שונים – לפעמים‬ ‫עדיף לנקד אותם אחרת אם הם כפולה של ‪) 3‬ולא מפריעים למסגרת הקריאה(‪ ,‬כך שיקבלו ערך שלילי‬ ‫יותר מ‪ indels 2-‬אך קטן יותר מכפולה של ‪ 3‬מ‪ indel-‬בודד‪.‬‬ ‫לצורך כך ניתן להגדיר ‪ Gap open‬ו‪ .Gap extension-‬אם מתקבל "‪ "indel‬מסויים של מחיקה‬ ‫למשל‪ ,‬הוא יקבל ניקוד מסויים; אבל אם מייד אחריו גם יש "‪ ,"indel‬זה יותר סביר אבולוציונית מאשר‬ ‫אם היו לנו שני "‪ "indels‬שביניהם משהו שהוא לא "‪ ."indel‬מסיבה זו ‪ gap open‬יהיה בעל ציון אחיד‬ ‫– ה"‪ "indel‬שפותח את המרווח – אבל ‪ gap extension‬שבא באופן רציף לו יקבל ציון מצטבר נמוך‬ ‫יותר מאשר שני ‪.gap open‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪16‬‬ ‫שיעור ‪ :03‬עימוד רצפים – המשך‬ ‫בעימוד של איזור מקודד‪ ,‬איזורים של שלוש מחיקות סבירים יותר אבולוציונים כי הם לא גורמים לשינוי‬ ‫במסגרת‪ .‬מבין הרבה עימודים אפשריים יש לבחור מה העימוד הכי טוב‪ ,‬ולשם כך יש להגדיר דירוג‬ ‫עימודים‪ .‬הישטה הפשוטה היא דירוג נאיבי שמתייחס לכל חומצת אמינו או נוקליאוטיד בצורה בלתי‬ ‫תלויה מהאחרות ואז כמות ה‪ ,indels-‬חוסר התאמות והתאמות מושלמות מהוות בסיס לדירוג‪ .‬העימוד‬ ‫המקבל את הדירוג הגבוה ביותר הוא העימוד הטוב ביותר‪.‬‬ ‫יש שיטות שונות לדירוג‪ ,‬כאשר השיטה השרירותית שלעיל היא מעט עיוורת ולכן יש לחשוב על דרך‬ ‫חכמה יותר‪ .‬אפשר לייצג את מערכת הדירוג בתור מטריצה – טבלה – שמתאימה לכל אפשרויות‬ ‫ההתאמות או ההחלפות בין נוקליאוטידים או חומצות אמינו ולהחליט מה יהיה הדירוג של כל החלפה‬ ‫בהתחשב בהשפעה )למשל החלפת פורין בפורין לעומת פורין בפירמידין(‪.‬‬ ‫המטריצה מתארת את הדירוג אבל היא לא מדרגת כראוי ‪ ,indels‬כי המרווחים שיוצרים ‪ indels‬צריכים‬ ‫להיות מנוקדים אחרת אם הם יוצרים מרווח של נוקליאוטיד אחד‪ ,‬שניים או שלושה‪ .‬בצורה כזו ניתן גם‬ ‫לגלות טעויות של מכשיר הריצוף עצמו‪ ,‬כאשר מניחים שאם המכשיר מדלג על שתי אותיות הדבר נובע‬ ‫מדילוג על אות אחת לפחות ואז ה‪ indels-‬יהיו רצופים ולא נפרדים במרחק כמה נוקליאוטידים‪ .‬כשם שזו‬ ‫יכולה להיות טעות של מכשיר הריצוף זו יכולה להיות גם מוטציית שיכפול גנום‪ .‬הסבירות‬ ‫שמוטציה‪/‬טעות שכזו תקרה פעם אחת על שני נוקליאוטידים גבוה מהסבירות שהיא תקרה פעמיים על‬ ‫נוקליאוטיד אחד כל פעם‪.‬‬ ‫ניקוד מרווחים‬ ‫במצב כזה יש לדרג באופן שונה את‬ ‫האירועים השונים – כאשר שתי המחיקות‬ ‫נפרדות יש לתת ציון נמוך יותר מאשר‬ ‫כאשר שתי המחיקות סמוכות‪ .‬אם האירוע‬ ‫נמצא באיזור מקודד‪ ,‬יש לתת ציון יותר‬ ‫טוב לשלושה ‪ indels‬מאשר ל‪indel-‬‬ ‫אחד‪ ,‬שניים או ארבעה‪ .‬ארבעה ‪indels‬‬ ‫פחות סבירים משלושה וגם פחות סבירים‬ ‫מאחד‪.‬‬ ‫הערכים של הדירוג עצמו לא משנים – אם מציעים דירוג שערכיו הם מחצית מדירוג אחר‪ ,‬עימוד שיהיה טוב‬ ‫לפי דירוג אחד יהיה טוב לפי דירוג שערכיו חצי מהראשון‪ .‬חשוב לציין שבדירוג השני‪ ,‬הכל צריך להתחלק‬ ‫בחצי – לא רק הדירוג של ה‪ indels-‬אלא גם הדירוג של חוסר ההתאמה וההתאמה המלאה‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :03‬עימוד רצפים – המשך‬ ‫‪17‬‬ ‫מטריצות ‪BLOSUM‬‬ ‫בחלבונים יש ‪ 20‬חומצות אמינו ולכן המטריצה בגודל ‪ ,20 x 20‬ומכניסה כמות גדולה של אלמנטים‬ ‫במטריצה‪ .‬מספרים לא נכונים לא יוכלו להניב עימוד מתאים‪ .‬כיצד ניתן להעריך את הפרמטרים האלה?‬ ‫כיצד ניתן לדרג אותם?‬ ‫•‬ ‫לקבץ לקבוצות – כמו בנוקליאוטידים עם פירמידינים ופורינים‪ ,‬אפשר לחלק את חומצות האמינו‬ ‫לקבוצות לפי שייריהם ותכונותיהם הכימיות‪.‬‬ ‫•‬ ‫סיכויים למוטציות – מה הסיכוי שמוטציה בקודון תביא לשינוי משמעותי בחומצת האמינו?‬ ‫•‬ ‫השוואה בין אורגניזמים – לבדוק מה השכיחות של המעבר בין חומצות אמינו בין אורגניזמים‬ ‫שונים בחלבונים שמורים‪ .‬שיטה זו יוצאת מתוך הנתונים הקיימים אל הביולוגיה – וזו השיטה‬ ‫שמשמשת בביואינפורמטיקה‪ ,‬הטוענת שלביולוגיה לבדה יש מעט מדי ידע‪.‬‬ ‫קיבוץ לתכונות כימיות‬ ‫בשיטה זו ניתן ליצור חמש קבוצות של חומצות אמינו וכך לצמצם מעט את המטריצה‪.‬‬ ‫מטריצת ‪BLOSUM‬‬ ‫מזינים את הנתונים ומתוכם מנסים לחלץ את המספרים‬ ‫הרלוונטים שמצביעים על מידת השכיחות של החלפה בין‬ ‫שתי חומצות אמינו נתונות‪ .‬ב‪ 1992-‬הניקוף והניקוף )‪ (Henikoff & Henikoff‬העמידו רצפים שונים‬ ‫שהוכרו עד אז ממאגר נתונים של אינפורמציה גנומית ובדקו בהם רצפי חומצות אמינו של חלבונים‬ ‫שמורים‪ .‬המטרה הייתה למצוא חומצות אמינו שמורות מאוד לעומת לא שמורות ולבדוק באיזו תדירות‬ ‫התחלפו חומצות האמינו ולאילו חומצות אמינו הן הפכו‪ .‬הרבה החלפות בין ‪ D‬ו‪ ,E-‬למשל‪ ,‬מעידות‬ ‫שהתהליך שכיח יחסית ולכן יש להעניק להחלפה זו בציון פחות מחמיר‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪18‬‬ ‫מתוך מחשבה זו נבנה מודל מתמטי שמנסה לתת את הסבירות של קבלת ‪ D‬בחלבון אחד ו‪ E-‬בשני‪ ,‬או כל‬ ‫שתי חומצות אמינו אחרות באותו המקום‪ .‬החוקרים השתמשו במאגר נתונים של ‪ 500‬משפחות ובלוקים‬ ‫– איזורים מאוד מאוד שמורים – באורכים שונים )‪ 3-60‬חומצות אמינו( ובדקו כמה פעמים מחליפים בין‬ ‫כל שתי חומצות אמינו‪.‬‬ ‫הוצע כבר להסתכל על החלפות שהיו שכיחות יותר; אבל איך ניתן לדעת שזו גם הייתה השכיחות כאשר‬ ‫האירוע התרחש? לשם כך יש לבחון שני חלבונים הידועים כקרובים ולבדוק מה הסבירות להחלפה של ‪D‬‬ ‫ו‪ ,E-‬למשל‪ .‬אפשר לקבוע שהסבירות גבוהה יחסית מהסבירות ל‪ V-‬ו‪ ,M-‬אבל זה בעיקר תלוי במרחק‬ ‫האבולוציוני של החלבונים או הפרטים‪ .‬בכדי למדוד סבירות יש להתחשב במרחק הזה‪ :‬ההסתברות לחוסר‬ ‫התאמה למשל בשני חלבונים שעד לא מזמן היו אותו חלבון תהיה קטנה יותר‪.‬‬ ‫‪BLOSUM = Blocks Substitution Matrix‬‬ ‫כיצד ניתן להפריד בין חלבונים רחוקים או קרובים אבולוציונית?‬ ‫•‬ ‫על סמך רצפים אחרים שכן ידוע מה קורה בהם‪ .‬יחד עם זאת זה‬ ‫אפקט מעגלי – כי איך ניתן לדעת על הרצף החיצוני מבלי לחקור‬ ‫אותו? ואיך ניתן לחקור אותו מבלי לדעת עליו?‬ ‫•‬ ‫אם נראה שבבלוק אחד יש הרבה שינויים בין החלבונים ניתן‬ ‫להניח שהבלוק פחות שמור מאשר בלוקים אחרים‪ .‬השיקול הוא‬ ‫כמה פעמים נראה זהות – זיהוי מדוייק של אותה חומצות אמינו‪.‬‬ ‫יש הרבה סוגים של בלוסומים; בלוסום ‪ 62‬יהיה קרוב יותר לרצף מאשר בלוסום ‪ .45‬המספר של‬ ‫הבלוסום מציין את אחוז חומצות האמינו הזהות לחלבון– אם הכמות שנמצאה גבוהה מזה הבלוק נשמר‪,‬‬ ‫אם לא – הבלוק עף‪ .‬במטריצה של בלוסום ‪ 100‬ניתן לצפות לראות את הבלוקים באלכסון‪ ,‬במספרים‬ ‫חיוביים‪ ,‬ומחוץ לאלכסון מספרים מאוד שליליים‪.‬‬ ‫משמאל מופיעה תמונת מטריצה של בלוסום‪.62‬‬ ‫באלכסון מתקבלים מספרים חיוביים – כי התאמות‬ ‫הן טובות – אבל הערכים אינם זהים‪ ,‬שלא כמו‬ ‫בנוקליאוטדים‪ .‬גם חוסר התאמות מתפזרות בטווח‬ ‫של ‪ 0‬עד ‪ ,-4‬כאשר ‪ 0‬אומר שלא ניתן לקבוע אם‬ ‫החלבונים קרובים או רחוקים על בסיס חוסר‬ ‫ההתאמה הנתון‪ .‬ניתן לראות גם ציון חיובי בהחלפה‬ ‫בין ‪ D‬ל‪ – E-‬ציון ‪ .+2‬משמעות הדבר היא שאם‬ ‫מחליפים ‪ D‬ב‪ E-‬זה לא רע‪ ,‬כי שתי חומצות האמינו האלה מתחלפות לעיתים קרובות‪.‬‬ ‫מה צפוי להתקבל באלכסון? בחומצת אמינו עם ארבעה קודונים אפשריים לעומת אחרת עם שניים יש‬ ‫סיכוי נמוך יותר להחלפת חומצת האמינו גם במקרה של מוטציה‪ .‬גם חומצות אמינו פונקציונאליות – כמו‬ ‫ציסטאין‪ ,‬היחידה שיוצרת קשרים די‪-‬סולפידים – ייטו פחות לשינוי‪ .‬הנטייה הנמוכה תבוטא באלכסון‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :03‬עימוד רצפים – המשך‬ ‫‪19‬‬ ‫אבל בבלוסום קיים דבר נוסף‪ .‬ניתן‬ ‫לראותו כשבוחנים את השכיחות של‬ ‫חומצות אמינו ספציפיות בבעלי חוליות‪.‬‬ ‫נראה שככל שחומצת אמינו נדירה יותר‬ ‫הניקוד שלה גבוה יותר‪ .‬הסיבה היא‬ ‫שהופעה של חומצת אמינו נדירה‪ ,‬למשל‬ ‫‪ ,W‬בשני רצפים מעידה על עימוד תקין‬ ‫– בשל נדירות חומצת האמינו‪.‬‬ ‫לסיכום‬ ‫מערכת הניקוד מכילה את מטריצת ההחלפות יחד עם ה‪ gap penalty-‬שנקבע‪ .‬כעת יש לקבוע האם‬ ‫מחפשים עימוד גלובאלי או לוקאלי – יש להגדיר למחשב איזה עימוד יהיה הטוב ביותר‪ .‬השיטה הזו טובה‬ ‫לשני סוגי העימודים‪.‬‬ ‫ההיבט המחשבי‬ ‫יש לחשב עימוד בין שני רצפים; אולם אם יש ‪ 10‬נוקליאוטידים בין שני‬ ‫הרצפים מספר העימודים האפשריים הוא לפחות מיליון; אם יש ‪20‬‬ ‫נוקליאוטידים יש לפחות ‪ 100,000‬מיליארד‪ .‬אם פונים לרצפים באורך ‪30‬‬ ‫נוקליאוטידים מתקבל מספר עם ‪ 22‬אפסים אחריו; כאן מתחילים להכנס‬ ‫לקושי חישובי מבחינת המחשב‪.‬‬ ‫כיצד ניתן‪ ,‬לאחר שנקבעה מערכת הניקוד‪ ,‬לדעת אילו עימודים מבין‬ ‫העימודים האפשריים יש לבדוק ואילו לא‪ ,‬מתוך הנחה שלא ניתן לבדוק את‬ ‫כולם?‬ ‫לצורך כך יש שני אלגוריתמים לעימוד אופטימלי‪ ,‬האחד לעימוד גלובאלי‬ ‫)‪ (Needleman-Wunsch‬והשני לעימוד לוקאלי )‪.(Smith-Waterman‬‬ ‫האלגוריתם מקטין את כמות הפעולות של המחשב פי עשרות ומאות אלפי‬ ‫מונים‪ ,‬כך שהמספרים לא יעלו אקספוננציאלית אלא כמו ‪ ,n2‬כאשר ‪ n‬הוא‬ ‫מספר האותיות ברצף‪.‬‬ ‫העקרון‪ :‬להכניס את תוצאות הדירוג של העימוד כולו במטריצה‪.‬‬ ‫האלגוריתם בונה מטריצה שבכל אחד מתאיה מוזן הדירוג הטוב ביותר‬ ‫שניתן היה לקבל עבור כל תת‪-‬רצף‪ .‬למשל‪ ,‬הדירוג של ‪ AAAC‬לעומת‬ ‫‪ (-1) AGC‬או ‪ AAA‬לעומת ‪.(-2) AG‬‬ ‫האלגוריתמים עובדים על ידי בנייה של מטריצה אשר אינה נותנת ציון עבור החלפה של נוקליאוטיד‬ ‫בנוקליאוטיד אלא שבכל תא נמצא הציון הכי טוב של העימוד של שני הרצפים שניתנים בין העמודה‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪20‬‬ ‫והשורה של אותו ציון‪ .‬בדוגמה‪ ,‬הציון ‪ -1‬הוא הציון הטוב ביותר עבור שילוב הריצופים ‪ AAAC‬ו‪-‬‬ ‫‪ .AGC‬היות ומספר הפעולות שנעשות במטריצה קטן יחסית‪ ,‬העלייה של העימודים היא ריבועית ולא‬ ‫אקספוננציאלית‪.‬‬ ‫הומולוגיה לעומת הסיכוי לדמיון‬ ‫לקבל דירוג הכי טוב אינו כמו להבין מה המסקנה המתקבלת מהדירוג הזה‪ .‬איך ניתן לדעת עד כמה‬ ‫הדירוג של העימוד הטוב ביותר מעיד על עימוד טוב או שמא הוא מקרי לחלוטין? אולי הדירוג הכי גבוה‬ ‫הוא נמוך‪ ,‬או לא מובהק‪ ,‬באופן אוניברסלי?‬ ‫לשם כך נבדקת האקראיות‪ .‬אלגוריתם זה מערבל לחלוטין את אחד הרצפים ומחשב את דירוג העימוד‬ ‫בינו לבין הרצף השני שהתקבל בעימוד עם הציון הגבוה‪ .‬כעת מחשבים שוב את הציון של העימוד בין‬ ‫הרצף המעורבב לרצף השני‪:‬‬ ‫•‬ ‫אם בכל הערבובים מתקבל דירוג נמוך מהדירוג הראשון שקיבלנו‪ ,‬אזי הדירוג הזה הוא חזק‪.‬‬ ‫•‬ ‫אם מתקבלים דירוגים גבוהים יותר סימן שהסדר היה פחות חשוב – או פחות חזק – ואז הדירוג חלש‬ ‫יחסית‪.‬‬ ‫אם המספר של העימוד המקורי שלילי הרי שברור שאין דמיון במיוחד‪ ,‬אבל ההבדלים בין ציונים ‪ 10‬או‬ ‫‪ 100‬או ‪ 1000‬עשויים לנבוע גם משיטת הניקוד עצמה; ערבוב אקראי של אחד הרצפים ובדיקת ציון‬ ‫העמוד של הרצף המעורבב והלא מעורבב כמה וכמה פעמים מוודאת האם תמיד מתקבלים ציונים נמוכים‬ ‫יותר‪ .‬אם אחוז הציונים של הרצף עם הרצף האקראי הגבוהים מהרצף הראשוני מהווים ‪ 50%‬או יותר‪,‬‬ ‫סימן שהעימוד הנבחר באמת היה אקראי; אם אף ציון לא היה גבוה יותר‪ ,‬סביר להניח שיש דמיון אמיתי‪.‬‬ ‫אם הציון נמצא ב‪ 5%-‬העליונים של הציונים‪ ,‬אזי הדמיון מובהק‪.‬‬ ‫מה בנוגע להשוואת רצף אחד לרצפים רבים אחרים? במסע של וונטר לפי המסלול של הביגל‪ ,‬הוא ריצף‬ ‫דגימות מים רנדומליות מבלי שידע אילו חיידקים היו באיזורים השונים של הדגימות‪ .‬בשביל לעשות את‬ ‫זה הוא ריצף את החיידקים בכל אחת מהנקודות וביקש לראות לאילו חיידקים שהוא מכיר הם מתאימים –‬ ‫בעזרת מאגר נתונים מוכר ורצף זר מהים ניתן לראות לאן הרצף מתאים במאגר הנתונים הקיים‪.‬‬ ‫לא ניתן לדעת מאיזה אורגניזם הגיעו הרצפים המתקבלים מתוך הדגימות של ונטר; זה גם יכול להיות‬ ‫אורגניזם שאינו מוכר למדע כלל‪ .‬משום כך מחפשים במאגר הנתונים את הרצף הדומה ביותר או הזהה‬ ‫לחלוטין לרצף )במקרה והיה מאגר נתונים של כל האורגניזמים בעולם( וכך ניתן היה לדעת בדיוק לאיזה‬ ‫אורגניזם הרצף שייך‪.‬‬ ‫טענה זו מציגה שתי בעיות‪ :‬גם אם היה מאגר נתונים של כל המיקרואורגניזמים‪ ,‬הריצוף עשוי להיות‬ ‫קלוקל – בין אם עקב תקלה במכשיר או מוטציה – ואז יש לנו טעויות ריצוף שמונעות הומולוגיה של‬ ‫‪ .100%‬כמו כן‪ ,‬גם ללא מוטציה שגורמת לבעיה‪ ,‬בין פרטים שונים יש מוטציות ושינויים גנומיים‪ .‬בעיה‬ ‫אחרת היא שהגנומים הזמינים מהווים רק חלק קטן מהמיקרואורגניזמים המוכרים )שהם חלקיק‬ ‫מהמיקרואורגניזמים הקיימים שאינם מוכרים(‪ ,‬ולכן יש סיכוי קטן שהרצף יהיה דומה בלבד לרצף מוכר‬ ‫וסיכוי אפסי שהרצף יהיה באמת זהה לחלוטין לרצף קיים ומוכר‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :04‬עימוד רצפים – המשך‬ ‫‪21‬‬ ‫שיעור ‪ :04‬עימוד רצפים – המשך‬ ‫חיפוש במאגר נתוני רצפים‬ ‫הבעיה שעולה בריצופים והעימודים של ונטר – אוזלת היד של הידוע למול הלא מרוצף והלא מוכר –‬ ‫היוותה את מוטיבציה לדבר הבא‪ :‬כאשר נתון מאגר נתונים של רצפים‪ ,‬למשל גנומים של חיידק או רצפי‬ ‫חלבונים וכו'‪ ,‬ויש לבדוק אם רצף חדש שהתקבל קיים במאגר הנתונים‪ ,‬ניתן לקחת את הרצף הזה‪ ,‬רצפים‬ ‫מתוך מאגר הנתונים‪ ,‬ולעשות אלגוריתם סמית‪-‬ווטרמן על מנת לראות איזה רצף הוא המתאים ביותר‪.‬‬ ‫השאילתא )‪ (query‬הוא הרצף שבעזרתו בודקים‬ ‫האם יש רצף אחר דומה במאגר הנתונים‪ .‬פגיעה‬ ‫)‪ (Hit‬היא מצב שבו מוצאים עימוד טוב וציון טוב‬ ‫בין השאילתא ואחד הרצפים ממאגר הנתונים‪.‬‬ ‫סמית‪-‬ווטרמן שייעשה לכל רצף מול מאגר של ‪107‬‬ ‫רצפים‪ ,‬למרות קיצור הזמנים‪ ,‬ייקח ‪ 11.5‬ימים‪.‬‬ ‫משום כך צריך לחשוב על אלגוריתם מהיר יותר‪.‬‬ ‫אחת הסיבות לאיטיות היא שמאגר הנתונים‪ ,‬שהוא מאגר גדול‪ ,‬יושב במקום מרכזי – ‪ NIH‬למשל –אליו‬ ‫ניתן לשלוח שאילתות לספריית הרצפים‪ .‬אולם בצורה זו כולם מריצים את הנתונים שלהם באותו מאגר‬ ‫הנתונים‪ ,‬באותו מתקן‪ ,‬ולכן יוצרים עומס שאילתות ברשת‪ .‬לונטר למשל יש עשרות מיליוני רצפים; גם‬ ‫אם כל רצף כזה לוקח ‪ 10‬שעות או אפילו דקה – זה עדיין הרבה‪ .‬לפיכך יש לחשוב על דרכים יותר‬ ‫יעילות‪ .‬פעולה זה מכונה יוריסטיקה‪.5‬‬ ‫‪BLAST‬‬ ‫אחת היוריסטיקות הנפוצות לחיפוש במאגר נתונים היא ‪ ,BLAST‬אשר נכתבה לפני כ‪ 15-‬שנה‪ .‬ה‪-‬‬ ‫‪ BLAST‬מחפש עימוד במהירות מקסימלית תוך התחשבות בסיכוי הפסד מינימלי‪ .‬לפיכך‪,‬שני רצפים‬ ‫הומולוגי או דומים שהינם באורך כמה עשרות או מאות נוקליאוטידים צריכים להכיל קטע קצר בו הם‬ ‫מתאימים בדיוק – כאשר יש לזכור שאפילו הומולוגים לא נראים בדיוק אותו הדבר‪ .‬משום שהמקטעים‬ ‫מתאימים באופן אקראי‪ ,‬יכולות להתקבל פגיעות באורכים קצרים מאוד‪ ,‬אך אלו יהיו פגיעות מדומות;‬ ‫יחד עם זאת אם הרצף ארוך מדי פגיעות‬ ‫אמיתיות עשויות להתפספס‪ .‬מסיבה זו‬ ‫נקבע סף מינימלי‪ :‬בחלבונים צריך ‪3‬‬ ‫חומצות אמינו‪ ,‬ב‪ DNA-‬צריך ‪11‬‬ ‫נוקליאוטידים‪.‬‬ ‫‪ 5‬שם כללי לשיטות ואלגוריתמים שהם טכניקות לשיפור זמנים‪ ,‬מהירות וכדומה‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪22‬‬ ‫בצורה זו מחפשים ברצף כל מיני "מילים" אפשריות – רצפים בני ‪ 11‬חומצות גרעין‪ .‬לאחר מכן שומרים‬ ‫במסגרת חיצונית את כל המילים שנמצאו‪ .‬בצורה כזו יוצרים אינדקס שמציין עבור כל מילה מאילו רצפים‬ ‫במאגר הנתונים היא הגיעה‪.‬‬ ‫ה"מילון" הזה נעשה עבור כל אחד מהרצפים במאגר‪ .‬חשוב לדעת לשייך כל מילון לרצף ממנו הוא בא‪.‬‬ ‫אז ניתן להשוות את השאילתא למילונים השונים ולאתר באילו רצפים מופיע רצף מתוך המילונים‪ .‬לאחר‬ ‫מכן מריצים סמית‪-‬ווטרמן עבור הרצפים המתאימים‪ .‬בצורה זו חוסכים בכמות הסמית‪-‬ווטרמן שמריצים‪,‬‬ ‫אבל מפסידים את הרצפים הפוטנציאלים שחסרים את רצף האינדקס‪.‬‬ ‫אם יש רצפים דומים‪ ,‬ניתן לצפות שהם‬ ‫יכילו כמה מילים דומות‪ .‬לכן דווקא רצף‬ ‫שיש לו מילה אחת בלבד פחות מועדף‬ ‫והחיפוש הוא אחר רצפים בעלי כמה‬ ‫וכמה מילים משותפות‪.‬‬ ‫טריק נוסף שניתן לעשות הוא להתרחב‬ ‫ימינה ושמאלה מהמילה המשותפת – אם‬ ‫הניקוד של המילה המשותפת הוא ‪,11‬‬ ‫ככל שמרחיבים הניקוד משתנה בהתאם‬ ‫– לפי אי התאמות והתאמות‪ .‬בתוך‬ ‫העימוד הזה ניתן לזרוק החוצה את‬ ‫העימודים שרק במקרה נראו טוב‪ ,‬כי הם‬ ‫מתחת לאיזשהו ניקוד מינימלי שנקבע מראש‪ .‬להבדיל מלקחת מילה יותר ארוכה‪ ,‬כאן מאפשרים גם אי‬ ‫התאמות שעשויות להיות מפוצות על ידי התאמות נוספות לאורך ההרחבה‪.‬‬ ‫מושג ה‪E-value-‬‬ ‫כאשר משווים רצפים יש לדעת מה‬ ‫הסיכוי שהעימוד הטוב הזה קרה במקרה‪.‬‬ ‫‪E-value‬‬ ‫הוא הסיכוי הזה‪.‬‬ ‫לאחר‬ ‫שהתקבל ניקוד מסויים‪ ,‬יוצרים רצף‬ ‫אקראי ומאגר נתונים אקראי; מערבבים‬ ‫את שניהם ובודקים כמה פעמים מתקבל‬ ‫הניקוד הראשוני‪ .‬אם הניקוד מתקבל לעיתים קרובות סימן שהוא שכיח ולכן אינו מהווה אינדיקציה טובה‬ ‫לעימוד; אם הממוצע נמוך ממה שהתקבל סימן שהתוצאה אינה אקראית ועשויה להיות מובהקת‪.‬‬ ‫בהסבר משמאל‪ Y ,‬היא התוצאה של סמית‪-‬ווטרמן שנקבעה כתוצאה שצריכה להתקבל בעימודים‬ ‫האקראיים‪ .‬ככל שהרצף יותר ארוך וציונו יותר גבוה‪ ,‬הסיכוי לרצפים אקראיים רבים הוא נמוך מאוד‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :04‬רפואה אישית‬ ‫‪23‬‬ ‫שיעור ‪ :04‬רפואה אישית‬ ‫תחום הרפואה האישית שואף שרופאים יוכלו לשקלל את הגנום של המטופל‪ ,‬יחד עם פרמטרים נוספים‬ ‫כמו ביטוי גנטי וגורמים סביבתיים‪ ,‬ויידעו מה הסיכוי של המטופל להגיב לטיפולים מסויימים‪ ,‬ללקות‬ ‫במחלות או אירועים מסויימים וכדומה‪.‬‬ ‫דוגמה לשימוש כזה הוא תרופת ה‪ Warfarin-‬המשמשת למניעת מחלת הטרומבוזיס )פקקת(‪ .‬בשנות ה‪-‬‬ ‫‪ 50‬היא שימשה כרעל חולדות וכאשר אדם ניסה להתאבד בעזרת החומר הוא לא הצליח – כי הגוף שלו‬ ‫יכול היה לספוג את הוורפרין בצורה טובה יותר משחשבו‪ .‬מתוך העובדה שיש אנשים שמסוגלים לעמוד‬ ‫בכמויות גבוהות של הסם והידע שהתרופה מדללת דם‪ ,‬חשבו שאולי הוא יעזור לדלל את הדם במידה כזו‬ ‫שתעזור למנוע טרומבוזיס‪ .‬מסתבר שאנשים שונים מגיבים לכמויות וורפרין באופן שונה‪ ,‬והתגובה הזו‬ ‫תלויה במוטציות מסויימות בשני הגנים ‪ VKORC1‬ו‪ ;CYP2C9-‬אדם שיש לו את המוטציות האלה יוכל‬ ‫לקבל גם פי ‪ 10‬ממנה רגילה‪.‬‬ ‫במטופל שרוצים לתת וורפרין‪ ,‬יש לתת לו את המקסימום האפשרי כדי לדלל את הדם כמה שיותר‪ ,‬מבלי‬ ‫להרוג אותו‪ .‬אם ניתן היה לדעת מה הגנום של המטופל הרי שניתן היה לכוון ישירות לכמות הוורפרין‬ ‫המקסימלית‪.‬‬ ‫מפת הדרכים של הרפואה הגנומית‬ ‫על מנת לדעת האם למטופל תהיה מחלה כלשהי מראש‪ ,‬כדי שאולי ניתן יהיה לטפל בה או אפילו למנוע‬ ‫אותה‪ ,‬צריך לדעת כמה דברים‪:‬‬ ‫•‬ ‫האם המחלה גנטית? צריך להבין את ההריטביליות של המחלה ולמדוד אותה‪ .‬מדידה זו נעשית לרוב‬ ‫על די השוואה בין תאומים זהים – אם תמיד כשלתאום אחד יש את המחלה יש אותה גם לשני הרי‬ ‫שזה הריטבילי; לרוב יש איזושהי שונות ולכן מקבלים מדד חלקי של הריטביליות‪.‬‬ ‫•‬ ‫מהן אבני הבניין של המחלה? אילו דברים משפיעים עליה מבחינת גנים‪ ,‬גורמים סביבתיים? ברגע‬ ‫שיודעים דברים אלו ניתן לדעת מה המנגנון שגורם למחלה מלכתחילה – חשוב לאתר מהם הגורמים‬ ‫השותפים להתפרצות של המחלה‪.‬‬ ‫בסופו של דבר‪ ,‬עם הידע הזה ניתן יהיה למצוא טיפול‪.‬‬ ‫חיפוש אחר גורמים גנטיים‬ ‫•‬ ‫מחלות מנדליות – מחלות שמושפעות על ידי מוטציה אחת‪ .‬אם יש את הגן – יש את המחלה‪ .6‬מחלות‬ ‫כאלה הן למשל הנטינגטון‪ ,CF ,‬אנמיה חרמשית‪.‬‬ ‫•‬ ‫מחלות מורכבות – מחלות שלמיטב הבנתנו מושפעות על ידי גנטיקה וסביבה יחד‪ ,‬כשלרוב זה לא על‬ ‫ידי גן אחד אלא על ידי גנים רבים‪ .‬דוגמאות לכך הן סרטן‪ ,‬אלצהיימר‪ ,‬סכרת‪ ,‬התקפי לב‪.‬‬ ‫‪ 6‬זה לא לגמרי מדוייק כי יש עניין של חדירות‪ ,‬אבל עדיין זה עובד ככה במודל הזה‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪24‬‬ ‫הגרף מראה מוטציות שונות הקשורות למחלות‬ ‫קומפלקסיות מסויימות )אלצהיימר‪ ,‬סרטן שד‪,‬‬ ‫סוכרת ‪ II‬ו‪ .(BMI-‬המוטציות שנלקחו שכיחות‬ ‫באוכלוסיה אך בניגוד למחלות מנדליות יכול להיות‬ ‫שאנשים נושאים את המוטציה ללא אפקט המחלה‪.‬‬ ‫על סמך המוטציות האלה בחנו כמה טוב ניתן‬ ‫לעשות פרדיקציה לגבי הסיכוי לחלות במחלה‪.‬‬ ‫באלצהיימר למשל‪ 15% ,‬מהאנשים בכלל יילקו באלצהיימר למרות שיש אנשים שהסיכוי שלהם קרוב ל‪-‬‬ ‫‪ 70%‬בהינתן המוטציה המסויימת שנבדקה‪ .‬הגרף מראה את הסיכוי המינימלי‪ ,‬המקסימלי והסיכוי‬ ‫הממוצע באוכלוסיה‪ .‬בגרף חסר נתון השכיחות של המקרה החמור – במקרה של האלצהיימר למשל זה‬ ‫נפוץ ב‪ 2-3%-‬מהאוכלוסיה‪ ,‬שזה די נפוץ‪ .‬במקרה של סרטן השד זה שקלול של הרבה מאוד מוטציות‬ ‫בגנים שונים ולכן המרווח בין המקסימום לממוצע באוכלוסיה מאוד קטן יחסית‪.‬‬ ‫ניתוח תורשה מנדלית‬ ‫במחלות מנדליות משתמשים בעצי שושלות כאשר‬ ‫ידוע שחלק מחברי העץ הם חולים וחלק בריאים‪,‬‬ ‫ואז מנתחים באיזה גן המחלה נמצאת‪ .‬בדוגמה‬ ‫מופיעה שושלת עם מחלה מסויימת; ניתן להניח‬ ‫שהמחלה דומיננטית כי היא לא מדלגת בדורות‪ .‬הלוקוס הנבדק מכיל שני אללים – ‪ A‬ו‪ ,a-‬והשושלת‬ ‫בודקת האם המוטציה ‪ A‬גורמת למחלה‪ .‬התשובה היא שלא – לפי פרט ‪ 4‬שיש לו את ‪ A‬ואינו חולה וגם‬ ‫לפי פרט ‪ 7‬שיש לו ‪ aa‬והוא נושא את המחלה‪.‬‬ ‫האם יכול להיות ש‪ A-‬הוא בכלל לא המוטציה‪ ,‬ואולי המוטציה ‪ D‬היא על כרומוזום שונה? זה ייתכן‪ ,‬אך‬ ‫פחות סביר כיוון שנראה שיש התאמה בין ‪ A‬לבין המחלה ‪ – D‬רק פעמיים לא הייתה התאמה בין המחלה‬ ‫להופעה של האלל ‪ .A‬אז אולי הם על אותו כרומוזום ו‪ A-‬הוא מרקר של ‪.D‬‬ ‫אם כן‪ ,‬כיצד ניתן לדעת מה התלות ביניהם? ניתן לחשב בדרכים סטטיסטיות עם יותר מדגמים מהו מרחק‬ ‫המפה שבין ‪ D‬ו‪ A-‬ואז להבין את התלות‪ .‬באמצעות מודל שכזה מצאו מוטציות למחלות רבות – על ידי‬ ‫זה שתחילה איתרו איזשהו גן עם תלות‪.‬‬ ‫הרעיון הזה עובד טוב עם מחלות מנדליות‪ ,‬אבל זה לא עובד במחלות קומפלקסים‪ .‬ב‪ 1996-‬יצא מאמר‬ ‫של ניל ריש ועמיתיו שטענו שדרך המחשבה אינה נכונה‪ :‬אולי במקום לבדוק משפחות צריך לבדוק‬ ‫קונפיגורציית מחקר אחרת‪ .‬ריש הציעו לקחת אוסף של חולים ולהשוות אותם לאוסף של בריאים‪ ,‬כאשר‬ ‫האנשים אינם קשורים אחד לשני משפחתית וגנטית‪ .‬המאמר טען שמחלות מורכבות מתנהגות לפי העקרון‬ ‫‪ – CD-CV‬מחלה שכיחה עם ווריאנטים שכיחים‪ .‬למחלות מסויימות יש מוטציות מגוונות ושונות‪,‬‬ ‫כשלכל אחת מהמוטציות יש אפקט מאוד קטן‪ .‬רק השילוב בין מספר רב של מוטציות גורם לפרוץ‬ ‫המחלה‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :04‬רפואה אישית‬ ‫‪25‬‬ ‫אך מי יודע מהו "סיכון קטן"? לשם כך‬ ‫קיים מדד בשם ‪ :relative risk‬המדד‬ ‫מחשב את הסיכוי ללקות במחלה עם כל‬ ‫אחת מהמוטציות‪ ,‬משקלל עם הסיכוי‬ ‫ללקות במחלה עם מוטציות שלא גורמות‬ ‫למחלה‪ ,‬ואז ניתן לדעת באיזה מידה‬ ‫המוטציות הקיימות מגדילות את הסיכוי‬ ‫של הפרט ללקות במחלה‪ .‬ברוב המקרים המוטציה השכיחה תהיה המוטציה עם הסיכוי הנמוך יותר ללקות‬ ‫בה‪ ,‬אבל לפעמים המוטציה הנדירה היא דווקא המוטציה בעלת הסיכון הכי גבוה‪ ,‬ולמעשה המוטציה‬ ‫השכיחה היא מוטציה שמגנה על הפרטים מפני המחלה‪.‬‬ ‫ניל ריש ועמיתיו הראו שאם מניחים שהסיכון היחסי הוא נמוך‪ ,‬כלומר שמתקיים ‪ ,CD-CV‬שהווריאנטים‬ ‫הגורמים למחלה הם שכיחים א לכל אחד מהם גורם סיכון מאוד נמוך‪ ,‬הרי שהעבודה עם משפחות אינה‬ ‫יעילה כי העובדה שלשני אנשים במשפחה יש את אותה מחלה לאו דווקא מצביעה על כך שהם נושאים‬ ‫את אותו מכלול גנים – אולי יש להם מכלול שונה של ווריאנטים גנטיים‪.‬‬ ‫אם הסיכון היחסי המתקבל הוא ‪ ,1‬המוטציה אינה משפיעה במחלה קומפלקסית; לעומת זאת‪ ,‬במחלה‬ ‫מנדלית שבה קיום המוטציה גורם למחלה נראה שסיכון יחסי יהיה ‪ 1‬או אינסוף – או שיש מחלה או שאין‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪26‬‬ ‫שיעור ‪ :05‬רפואה אישית‬ ‫מחקרי אסוציאציה של מחלות – ‪SNPs‬‬ ‫אם יש למחלות סיכון יחסי והן מושפעות מהרבה גנים שלכל אחד מהם סיכון יחסי נמוך‪ ,‬גם אם יש להורה‬ ‫מחלה מסויימת הסיכוי שהיא תעבור במשפחה בצורתה הפתולוגית נמוך יחסית‪ .‬משום כך עבודה עם‬ ‫שושלות‪ ,‬תחת ההנחה הזו‪ ,‬אינה רעיון טוב; עדיף יהיה במחקר של מחלות אלו לקחת קבוצות מדגם של‬ ‫חולים )‪ (Cases‬ובריאים )‪ (Controls‬שאף אחד מהם אינו קשור אחד לשני מבחינה שושלתית‪.‬‬ ‫מחקר מסוג זה מכונה ‪ ,Disease Association Studies‬בהם מרצפים את הגנום של החולים והבריאים‬ ‫באיזורים בהם נמצאים הגנים הרלוונטים למחלה ומשווים ביניהם‪ .‬בעקרון‪ ,‬רוב הגנום האנושי – ‪99.9%‬‬ ‫ממנו – זהה בין אנשים שונים‪ ,‬ומספר ההבדלים נמוך – בערך ‪ 1‬לאלף מקומות בגנום יהיו שונים‪.‬‬ ‫מקומות אלו‪ ,‬השונים‪ ,‬מכונים ‪ – SNP‬פולימורפיזם בנוקליאוטיד בודד‪.‬‬ ‫במחקרי אסוציאציה‪ ,‬אין טעם להסתכל על מקומות שאינם סניפים – בגלל שהם זהים בין החולים‬ ‫לבריאים‪ .‬המחקר תר אחר ‪ ,Common Variants‬שינויים שכיחים באוכלוסיה‪ ,‬ואלו הם בדיוק הסניפים;‬ ‫אך אלו צריכים להיות סניפים הנמצאים באסוציאציה למחלה – שברוב החולים יש נוקליאוטיד מסויים‪,‬‬ ‫למשל ‪ ,G‬וברוב הבריאים יש נוקליאוטיד אחר – למשל ‪.T‬‬ ‫אם ידוע על קיומם של הסניפים )כי בכל מחקר שבו מוצאים סניפ חדש מדווחים עליו( הרי שניתן לחפש‬ ‫אותם בגנום של המדגמים‪ .‬ישנם סניפים שבהם האסוציאציה היא חלשה יחסית – למשל שהיחס נוטה‬ ‫יותר לנוקליאוטיד אחד בחולים מאשר בבריאים אך לא באופן מוחלט – זהו מצב של סיכון יחסי נמוך‪ ,‬אך‬ ‫קיים‪ .‬זאת לעומת מצב כמו הראשון שתיארנו‪ ,‬שברוב המוחלט של המקרים יש נוקליאוטיד אחד בחולים‪,‬‬ ‫ואז הסיכון היחסי גדול והאדם שנושא את הסניפ הזה כמעט בטוח חולה‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :05‬רפואה אישית‬ ‫‪27‬‬ ‫טכנולוגיית ‪Genotyping‬‬ ‫טכנולוגיה זו בודקת סניפים במקטעים ארוכים מאוד של גנום‪ .‬נניח שיש מאגר של ‪ 10,000‬זוגות‬ ‫בסיסים; בעזרת טכנולוגיות אלו ניתן להתמקד רק בבסיסים שהם סניפים והרבה יותר קל לחפש אותם‬ ‫ולהשוות רק אותם מאשר להשוות את כל ‪ 10,000‬הבסיסים‪.‬‬ ‫לפני ‪ 10‬שנים‪ ,‬החיפוש אחר סניפ אחד באדם היה עולה ‪ .$1,000,000‬היום זה עולה פחות מדולר אחד –‬ ‫ניתן לחפש מאות ואלפי סניפים ב‪ .$200-‬מסיבה זו המחקר הזה הולך ותופס תאוצה‪.‬‬ ‫חוק מור )‪ (Moore‬טוען שהמידע במחשבים הולך ומוכפל מדי שנה וחצי‪ .‬כשמסתכלים על מה שקורה‬ ‫בעולם הריצוף והגנוטיפינג‪,‬הנתונים מוכפלים אפילו מהר יותר – מדי ‪ 10‬חודשים ולאחרונה אפילו פחות‪.‬‬ ‫כמות הנתונים עולה מאוד מהר וזה מספק הרבה מידע לגבי מחלות‪ ,‬גנוטיפינג וכדומה‪.‬‬ ‫בשלב מסויים עוד עלולה להיות בעיה להחזיק את כל המידע הזה; בשיטות החדשות של הריצוף מבקשים‬ ‫להחזיק גנומים שלמים – ‪ 3‬מיליארד נוקליאוטידים – למאות ואלפי בני אדם; למחשבים של היום אין זיכרון‬ ‫המסוגל להחזיק את הכמויות האלה‪.‬‬ ‫בעקרון‪ ,‬זוהי עיצומה של מהפכה שהתחילה לפני כשנתיים מבחינת כמות האינפורמציה הקיימת ומבחינת‬ ‫הטכנולוגיות הקיימות‪ .‬באיור )בן שנה( רואים את הכרומוזומים השונים וכל עיגול מציין סניפ‪ ,‬כאשר‬ ‫הצבע של העיגול מציין מהי המחלה שבאסוציאציה אליו‪ .‬בתוך שנתיים נמצאה אסוציאציה של כ‪440-‬‬ ‫סניפים למחלות שונות‪ .‬בגירסה העדכנית של האיור יש כבר ‪ 800-900‬סניפים חדשים‪.‬‬ ‫למשל לפני כשנה ידעו על כ‪ 2-‬גנים הקשורים למחלת הקרוהן והיום מכירים כבר למעלה מ‪.30-‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪28‬‬ ‫הגדרות ראשוניות‬ ‫•‬ ‫‪ – SNP‬מוטציות הנמצאות באחוזים גדולים באוכלוסיה )<‪ .(1%‬לרוב ה‪ SNP-‬יש שני אללים‬ ‫בלבד‪ ,‬למרות שיש יוצאים מן הכלל‪.‬‬ ‫•‬ ‫‪ – Risk Allele, Nonrisk Allele‬ברגע ש‪ SNP-‬בעל אסוציאציה למחלה‪ ,‬הוא מחולק לאללים‬ ‫בסיכון ואללים ללא סיכון‪ .‬אללים ללא סיכון נפוצים יותר בקבוצת הביקורת הבריאה )‪(Controls‬‬ ‫ואללים בסיכון נפוצים יותר בקבוצת החולים )‪.(Cases‬‬ ‫שימו לב‪ :‬אין זה אומר שהסניפ השכיח בקרב הבריאים הוא הסניפ השכיח באוכלוסיה!‬ ‫אסוציאציה אמיתית או מקרית?‬ ‫במידה ומוצאים סניפ שנראה כאילו יש לו אסוציאציה‪ ,‬יש לבצע מבחנים סטטיסטיים שיבדקו מהי‬ ‫מובהקות התוצאה‪ .‬השערת אפס טוענת שאין הבדל בהתפלגות האללים בין קבוצת הניסוי והביקורת‪.‬‬ ‫ההשערה האלטרנטיבית טוענת שהשכיחות הזו שונה‪ .‬לאחר הגדרת ההשערות‪ ,‬המבחן הסטטיסטי בודק‬ ‫האם השערת האפס נכונה; אם ההסתברות לכך נמוכה ניתן לדחות אותה ולהגיד שההשערה האלטרנטיבית‬ ‫היא הנכונה‪.‬‬ ‫לצורך כך בונים טבלה של ‪ :2x2‬בציר‬ ‫אחד יש ניסוי וביקורת; בציר שני יש‬ ‫אלל בסיכון )‪ (R‬ואלל ללא סיכון )‪.(N‬‬ ‫כעת מזינים את מספר הפעמים שכל אלל‬ ‫הופיע בכל קבוצה ומחפשים סטטיסטי‬ ‫לפי התפלגות של ‪.χ2‬‬ ‫אם הניסוי והביקורת היו מתנהגים אותו‬ ‫דבר‪ ,‬הרי ש‪ T-‬יהיה קטן מאוד )כי ‪ .(a~c‬אם הם שונים ‪ T‬צריך להיות יחסית גדול‪.‬‬ ‫בטכנולוגית הגנוטיפינג בוחנים כמיליון סניפים; כך שיש כמיליון השערות‪ .‬ריבוי ההשערות מוביל לכך‬ ‫שגם ‪ p-Value‬של ‪ 5%‬ומטה יכול להראות ‪ 50,000‬פגיעות‪ ,‬שכולם יהיו שגיאות‪ .‬מסיבה זו אנחנו‬ ‫צריכים ‪ p-Value‬מאוד נמוך )נהוג להשתמש בערך של ‪.(5x10-8‬‬ ‫התמונה משמאל מראה תוצאות של‬ ‫‪ .p-Value‬ציר ‪ Y‬הוא לוגריתם של‬ ‫‪ – p-Value‬ככל שהנקודה גבוהה יותר‬ ‫הסניפ יותר מעניין למחלה‪ .‬התמונה היא‬ ‫תמונה טיפוסית למחקר‪ :‬מתוך כמה מאות‬ ‫אלפי סניפים שנחקרו‪ ,‬יש סניפ אחד‬ ‫שנמצא מעל הקו‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :05‬רפואה אישית‬ ‫‪29‬‬ ‫זה עדיין לא מבטיח שזה סניפ אמיתי‪ :‬יכול להיות שהמדגם היה קטן מדי‪ ,‬דבר המגדיל את הסיכוי לתוצאה‬ ‫‪ ;false-positive‬יכול להיות שהמדגם היה מוטה – הניסוי והביקורת נאספו בצורה מעט שונה כך שזה‬ ‫היטה את התוצאות; יכול להיות שהיו טעויות בריצוף‪ ,‬שכן בריצוף יש מקומות שנוטים להכיל טעויות‬ ‫וכאלה שפחות ויכול להיות שבסניפ הספציפי הזה הייתה נטייה גבוהה לטעות‪.‬‬ ‫כיצד מתמודדים עם הבעיות האלה? כיצד מזהים מהו סניפ אמיתי? אפשר להשתמש בטכנולוגיית‬ ‫גנוטיפינג נוספת או שונה כדי לוודא שבאמת הריצוף היה נכון; אבל זהו שלב הוכחה אחרונה‪ ,‬לפני ריצוף‬ ‫מחדש של כל הגנומים‪ .‬אפשר גם לבצע אימות עם קבוצה נוספת‪ ,‬על מנת לבטל האפשרות שהמדגם היה‬ ‫מוטה‪ .‬כמו כן‪ ,‬אם הסניפ הזה קיים ואין בו טעות‪ ,‬הסניפים הסמוכים לו צריכים להיות בקורלציה עם‬ ‫ההתנהגות שלו – מכיוון שסניפים עם מרחקי מפה נמוכים יחסית עוברים ביחד תורשתית הם צריכים‬ ‫להתנהג בצורה קורלטיבית‪.‬‬ ‫אם יש סניפ אחד עם אסוציאציה‪ ,‬סניפים סמוכים צריכים גם להיות באסוציאציה‪ ,‬אולי לא חזקה כמו‬ ‫הראשון אך עדיין די חזקה; מכאן שקבלת סניפ בודד שעולה מתוך מאות או אלפי סניפיםהינה כנראה‬ ‫טעות כי אין סניפים אחרים קורולטיביים‪.‬‬ ‫שימו לב‪ :‬אין זה אומר שכל הסניפים‪ ,‬או אפילו מי מהסניפים האלה‪ ,‬גורם למחלה; אבל אחד מהם מעיד על‬ ‫קיום הווריאנט הגנטי שבאמת גורם למחלה‪.‬‬ ‫אתגר ראשון‪ :‬תיקון טעויות בגנוטיפינג‬ ‫במקרה שיש הורים או ילדים של הנבדקים‪ ,‬אפשר לעשות גנוטיפינג לאמא‪ ,‬אבא וילד‪ .‬העלות אומנם‬ ‫גבוהה יותר אבל האיכות של הגנוטיפינג טובה יותר‪ .‬במקרה כזה ניתן לאתר סתירה מנדלית‪ :‬בדוגמה‪,‬‬ ‫בצורות כתוב הגנוטיפ הקיים ותחתן מופיעה הקריאה‪ .‬בשושלת שבה לילד יש ‪ AA‬כי לאמא יש ‪ AT‬אבל‬ ‫המכשיר קרא אצלה ‪ TT‬ניתן להבין שהמכשיר‬ ‫טעה – אחרת לילד לא היה ‪ .AA‬יכול להיות גם‬ ‫שהייתה מוטציה ‪ de-novo‬בילד‪ ,‬אבל הסיכוי הזה‬ ‫קלוש; אם הטעות היא טעות גנוטיפינג‪ ,‬לא ניתן‬ ‫לדעת אם הטעות הייתה באמא או בילד‪.‬‬ ‫ניתן להשתמש גם בשיווי משקל הארדי‪-‬וויינברג‪ :‬בעזרת נוסחאות הארדי וויינברג‪ ,‬מתוך הנחה שקיים‬ ‫שיווי המשקל )כאשר האוכלוסיה הומוגנית יחסית(‪ ,‬ניתן לנבא מה תהיה התפלגות הגנוטיפים באוכלוסיה‪.‬‬ ‫אם רואים שאוכלוסיית הביקורת שונה מאוד מהמספרים שיוצאים בהארדי ווינברג‪ ,‬ניתן לטעון שהסניפ‬ ‫הזה חורג מכללי הארדי וויינברג‪.‬חריגה כזו מתרחשת לרוב כתוצאה מטעות גנוטיפינג ולא מהסבר‬ ‫ביולוגי‪-‬אבולוציוני אחר שגרם לסטייה‪.‬‬ ‫אתגר שני‪ :‬תת‪-‬מבנים של אוכלוסיות‬ ‫נניח שכל המקרים של החולים הגיעו מאפריקה וכל הביקורות הגיעו מאירופה; במקרה כזה‪ ,‬שתי‬ ‫האוכלוסיות מאוד שונות עקב היסטוריה ומיקום‪ ,‬הן מבודדות יחסית אחת מהשנייה ולכן הרבה סניפים‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪30‬‬ ‫יהיו שונים בין שתי האוכלוסיות אך דומים בתוך האוכלוסיה האחת עצמה‪ .‬יכולים להיות גם תנאים‬ ‫מסויימים שגורמים לסלקציה לגן מסויים באוכלוסיה אחת ולא באחרת או מקרים של ‪bottle neck‬‬ ‫בהיסטוריה של האוכלוסיות וכו'‪.‬‬ ‫ההבדלים האלה קיימים בין ביקורת לניסוי אבל הם לא קשורים למחלה; דבר ראשון שאפשר לעשות כדי‬ ‫להימנע מזה הוא להימנע מהטיות כאלו – אם דוגמים מקרי ניסוי ממקום מסויים יש לנסות להשיג משם‬ ‫גם את הביקורת; יחד עם זאת זה לא תמיד עובד – אולי אדם מחשיב עצמו אירופאי למרות שאחת‬ ‫מהסבתות שלו אפריקאית‪ ,‬אולי הוא ממקומות שונים באירופה וכדומה‪.‬‬ ‫אמצעי המניעה הבסיסי יהיה שאלון שיבדוק את השושלת של האדם; במידה והוא עצמו לא יוכל לענות‬ ‫עליו הגנים שלו יוכלו לעשות זאת‪ .‬מעניין לראות עד כמה מבנה האוכלוסיה יכול לנבוע מתוך מבנה‬ ‫הסניפים; ואם ניתן לדעת על אבותיו של אדם – אולי אפשר למצוא היסטוריה של אוכלוסיות שלמות‪ ,‬כמו‬ ‫לגלות מתי יצא האדם מאפריקה או לגלות גנים וסניפים שהיו תחת סלקציה מבחינה היסטורית על מנת‬ ‫לגלות אירועים שונים שהיו בהיסטוריה המקומית‪ .‬האנליזה הופכת מורכבת יותר ב"בני תערובת" –‬ ‫אנשים שהם גם אירופאים‪ ,‬אינדיאנים‪ ,‬אפריקאים וכדומה‪.‬‬ ‫מפת שושלות‬ ‫בהרכת מפה של שושלת‪ ,‬ממפים נקודות‬ ‫כאשר כל אחת מייצגת אדם‪ .‬השאיפה היא‬ ‫למפות אנשים לפי מוצאם על מפה דו‬ ‫מימדית‪ ,‬כאשר שתי נקודות קרובות‬ ‫מציינות כי הנדגמים קרובים יחסית אחד‬ ‫לשני מבחינת המקום ממנו הם באים‪ .‬מצד ימין נמצאת קבוצה שמקורה מסין‪ ,‬מצד שמאל קבוצה‬ ‫שמתאימה לאפריקה ולמעלה נמצאים האירופאים‪ .‬ואכן ניתן לצייר מפה על סמך סניפים שמאפיינים‬ ‫היסטוריה גיאוגרפית )בין האירופאים והסינים מופיע קו מרוח יותר השייך למקסיקנים ולהודים(‪.‬‬ ‫הצירים של המפה נקבעים לפי שיטה בשם ‪ .Principal Component Analysis‬מתייחסים לסניפים‬ ‫בתור קואורדינטות )האם האלל של הסניפ קיים פעמיים‪ ,‬פעם אחת או לא קיים כלל – ‪ (0,1,2‬של נקודה‬ ‫הנמצאת במרחב רב‪-‬מימדי המכיל מיליון מימדים )או כמספר הסניפים שבדקנו(‪ .‬על מנת לפשט את‬ ‫הקונספט האבסטרקטי של מרחב רב‪-‬מימדי‪ ,‬ניתן להצר אותו למשטח דו‪-‬מימדי שעובר במרכז הנקודות‬ ‫הרב‪-‬מימדיות‪ ,‬ואת המשטח הזה ניתן למקם על המפה הדו‪-‬מימדית שלנו‪ .‬באופן‬ ‫דומה‪ ,‬יש באיור אוסף גדול של נקודות בעלות קואורדינטות דו‪-‬מימדיות ועל‬ ‫מנת לבטא אותן בציר חד‪-‬מימדי מוצאים קו מגמה שעובר דרך רוב הנקודות‬ ‫המוגדר כציר המרכז של הנקודות‪.‬‬ ‫אפשר להפעיל עקרון זה על כל אוכלוסיה‪ ,‬כאשר הדוגמה שאובה מפרויקט ‪ ,Hap-Map‬שהוא פרויקט‬ ‫המשך של פרויקט הגנום האנושי; בפרויקט הגנום נבדק הגנום של אדם אחד; בפרויקט ‪ Hap-Map‬נבדקו‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :05‬רפואה אישית‬ ‫‪31‬‬ ‫מיליוני סניפים של ‪ 270‬אנשים שונים מאוכלוסיות שונות )בפעם הראשונה מיליון‪ ,‬בשניה ‪ 3‬מיליון‬ ‫ובשלישית ‪ 1.5‬מיליון על ‪ 1150‬איש(‪.‬‬ ‫האוכלוסיות האלה הגיעו מכל מיני אוכלוסיות בעולם‪ .‬כשיוצרים להן מפת אוכלוסיות במבצע ‪Hap-‬‬ ‫‪ ,Map‬המפה המתקבלת היא תלת מימדית )עכשיו רואים שההודיים מופרדים ממקסיקנים – הם יותר‬ ‫למעלה(‪ .‬באחת הדוגאות למפות האלו דגמו את האוכלוסיה האירופאית והתאימו צבעים למדינות שונות‬ ‫באירופה; דגמו ‪ 1300‬איש‪ ,‬כאשר כל‬ ‫נקודה היא אדם ממדינה אחרת‪ ,‬וחילקו‬ ‫אותן לשני צירים ראשונים‪ .‬ניתן לראות‬ ‫שהתמונה ממש מקבילה לתמונת המפה‬ ‫של אירופה‪ .‬המיפוי מקביל כמעט ‪1:1‬‬ ‫בין הגיאוגרפיה הפיזית והגנומית של‬ ‫האוכלוסיה )בשני צירים(‪.‬‬ ‫מתוך זה ניתן ללמוד על צירי הגירה‬ ‫לאורך השנים‪ ,‬איך סניפים עוברים סלקציה מסויימת באיזורים מסויימים וכדומה‪ .‬ניתן להשתמש בנתונים‬ ‫האלו על מנת להכיר את עצמנו יותר דרך הגנים שלנו‪.‬‬ ‫סיכום‬ ‫המחקר מחפש גנים הקשורים למחלות‪ .‬יש מחקרים חשובים וסטטיסטיים הבאים להתמודד עם טעויות‬ ‫בגנוטיפינג‪ ,‬הטייה של המדגם‪ ,‬אימות אי‪-‬תלות בין הנבדקים ושאר טעויות‪ .‬עד כה נמצא במחלות רבות‬ ‫קשר בין סניפים למחלות‪ ,‬אבל כשמנסים להסביר תורשתיות – מידת ההשפעה של הגנים על המחלה –‬ ‫ברוב הגנים ניתן להסביר רק ‪ 5-15%‬מהתורשתיות‪ .‬משמעות הדבר היא שרוב התורשתיות אינה‬ ‫מוסברת‪ ,‬יש עוד הרבה גנים שצריך למצוא‪.‬‬ ‫איפה התורשתיות מתחברת?‬ ‫•‬ ‫יש סניפים נדירים – סניפים כאלה תורמים כל אחד קצת למחלה‪ .‬הבעיה היא שבגנוטיפינג אי אפשר‬ ‫לבצע את הבדיקה הזו‪.‬‬ ‫•‬ ‫הדור הבא של מחקרי אסוציאציה מדבר על הבעיות האלה ומתחיל לנסות לעשות גנוטיפינג עם‬ ‫טכנולוגת ביו‪-‬נאנו‪.‬‬ ‫•‬ ‫יש אינטראקציה בין הגנים לסביבה‪.‬‬ ‫הסבר השאלה לבית‪ :‬יש ‪ 200,000‬רצפים במאגר‪ ,‬כל אחד באורך ‪ 100‬נוקליאוטידים‪ .‬יש מילה אקראית‬ ‫באורך ‪ 11‬נוקליאוטידים‪ .‬מסתכלים על ‪ 200,000x100=2x107‬נוקליאוטידים‪ .‬ההסתברות שמילה באורך‬ ‫‪ 11‬נוקליאוטידים תתאים היא )‪ 1/(411‬כפול מספר הנוקליאוטידים‪ .‬התוצאה היא ‪.4.79‬‬ ‫בפועל כל רצף מכיל ‪ 90‬אפשרויות של מילה בת ‪ 11‬אותיות כי החל מהנוקליאוטיד ה‪ 90-‬אין מקטע באורך‬ ‫‪ 11‬עד סוף הרצף; בגלל זה מכפילים ‪ 200,000x90‬ולא כפול ‪ .100‬התוצאה הסופית של זה היא ‪.4.29‬‬ ‫התוצאה שניתן היה לסמן הייתה בין ‪.4-5‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪32‬‬ ‫שיעור ‪ :06‬רפואה אישית – המשך‬ ‫גנטיקה של מחלות קומפלקסיות‬ ‫ניתן למדוד את ההריטביליות של מחלות קומפלקסיות רבות – עד כמה אב יכול להעביר אותן לילדיו –‬ ‫אבל יש מחלות שמושפעות גם מהגנטיקה וגם מהסביבה‪ .‬על מנת למדוד את זה בודקים את ההריטביליות‬ ‫בין תאומים זהים ולא זהים – לתאומים זהים יש אותו ‪ DNA‬וללא‪-‬זהים אין אותו ‪ DNA‬אך יש אותה‬ ‫סביבה‪.‬‬ ‫אם ההשפעה העיקרית הייתה סביבה‪ ,‬אין הכרח שמחלה בתאום זהה אחד תופיע בשני; אם ההשפעה‬ ‫העיקרית היא תורשתית‪ ,‬בתאומים לא זהים יש סבירות טובה שאם האחד חולה גם השני יחלה‪ ,‬אבל‬ ‫בתאומים הזהים שניהם יהיו חולים לבטח‪ .‬אם זה לא תורשתי לא ניתן ִלצפות דבר‪.‬‬ ‫כשמודדים הריטביליות ונתונים סניפים הקשורים למחלות‪ ,‬ניתן לבדוק – בהינתן אחוזים מסויימים של‬ ‫ההריטביליות המסוברים על ידי הגנים – כמה מתוך זה מוסבר על ידי הסניפים? הסניפים מסבירים לכל‬ ‫היותר ‪ 15%‬אחוז‪ ,‬כלומר הרוב אינו מוסבר בפן הגנטי‪ .‬גם היום‪ ,‬רב הנסתר על הגלוי‪.‬‬ ‫היכן ההריטביליות החסרה?‬ ‫•‬ ‫וריאנטים נדירים – הסניפים קיימים ב‪ 5-10%-‬אחוזים מהאוכלוסיה; ההסתכלות מצומצמת למיליון‬ ‫סניפים במקום לשלושה מיליארד נוקליאוטידים‪ .‬יכול להיות שיש מוטציות נדירות‪ ,‬עם שכיחות‬ ‫למשל של ‪ ,1:1000‬אבל כאשר הן רבות מאוד בגנום הן גורמות למחלה‪ .‬במחקר של נדב אחיטוב‪ ,‬בו‬ ‫הוא ריצף גנים של אנשים עם ‪ BMI‬גבוה )השמנת יתר( ועם ‪ BMI‬נמוך‪ ,‬הוא ראה שבעוד שאין‬ ‫סניפים משותפים יש הרבה גנים עם מוטציות מאוד נדירות ביניהם‪.‬‬ ‫•‬ ‫אינטראקציות בין גנים לגנים ובין גנים וסביבה‪.‬‬ ‫•‬ ‫מיקרוביום – הבקטריות שחיות בגוף‪ ,‬הגנום שלהן וההשפעה של המיקרוביום הזה על הגוף‪.‬‬ ‫חיפוש אחר וריאנטים נדירים‬ ‫בחיפוש הזה לא ניתן להשתמש בסניפים המוכרים; הסניפים המוכרים קבועים מראש‪ ,‬שכיחים‪ .‬כאשר‬ ‫מחפשים סניפים נדירים יש להניח שאיננו יודעים היכן הם יהיו‪ .‬מכאן שצריך לרצף‪.‬‬ ‫השאיפה היא לרצף את כל הגנום של מקרי הבדיקה והביקורת ולהשוות ביניהם; אך היום פעולה זו יותר‬ ‫מדי יקרה )למרות שזה הכיוון העתידי(‪ .‬בינתיים‪ ,‬אפשר להסתכל על גנים שנראים כמעניינים בהקשר של‬ ‫המחלה הנחקרת‪.‬‬ ‫קריאות של ‪Deep Sequencing‬‬ ‫טכנולוגיית הריצוף‪ ,‬כמו הגנוטיפינג‪ ,‬התקדמה מאוד בשנים האחרונות‪ .‬הטכנולוגיה המובילה היום היא‬ ‫‪ Deep Sequencing‬שנותנת מיליוני רצפים מאוד‪-‬מאוד קצרים‪ .‬הריצוף בשיטה זו מספק קריאות מאוד‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :06‬רפואה אישית – המשך‬ ‫‪33‬‬ ‫קצרות – כמה עשרות בודדות של‬ ‫נוקליאוטידים בכל קריאה‪ .‬בצורה כזו‬ ‫כל מקום בגנום מרוצף הרבה מאוד‬ ‫פעמים‪ .‬לאחר מכן‪ ,‬מעמידים את‬ ‫הרצפים האלה מול הרפרנס המתאים‬ ‫ורואים שהרבה רצפים נופלים בחפיפה‬ ‫גבוהה יחסית‪.‬‬ ‫עכשיו יש לעבד את מאגר הנתונים הגדול שנוצר‪ .‬בתהליך העימוד משתמשים בשיטה דמויית ‪.BLAST‬‬ ‫הרפרנס של העימוד הוא הגנום האנושי שפותח בפרויקט הגנום האנושי‪ ,‬שסיפק גנום שלם של אדם אחד‪.‬‬ ‫מסיבה זו יכול להיות שהעימוד החדש לא יצליח להיות תואם לחלוטין – כי אנשים נבדלים במוטציות‪,‬‬ ‫ברקע‪ ,‬בסניפים וכדומה‪.‬‬ ‫בדומה לפרוייקט ה‪ HAP-MAP-‬והגנום האנושי‪ ,‬יש פרוייקט חדש בשם ‪1000 genome project‬‬ ‫המנסה ליצור מאגר של ‪ 1000-2000‬אנשים מאוכלוסיות שונות ומגוונות‪ ,‬כך שניתן יהיה גם להשתמש‬ ‫ברפרנס הקרוב ביותר לנבדק במחקר האסוציאציה – במחקר עם אפריקאים לא רצוי להשתמש ברפרנס‬ ‫של אדם אירופאי‪ ,‬וההיפך‪ .‬כמו כן הפרוייקט מלמד על הבדלים בין אוכלוסיות ברמת הרצף‪.‬‬ ‫האתגרים בריצוף מהדור השלישי‬ ‫הבעיה הראשונה היא המיפוי של הקריאות לגנום; הבעיה הזו מורכבת יותר מבחינה חישובית מאשר‬ ‫‪ ,BLAST‬משום שמאגר הנתונים הרבה יותר גדול – יש ‪ 10‬מיליון קריאות לאדם ואם עושים מחקר עם‬ ‫כמה מאות או אלפי אנשים קבוצה מימדי נתונים נעשים עצומים‪ .‬קשה להחזיק כמות נתונים כזו בזיכרון‪,‬‬ ‫ולכן האלגוריתמים צריכים להשתנות‪.‬‬ ‫יש להבדיל גם בין סניפים לבין טעויות בריצוף; אם כסף לא היה בעיה‪ ,‬ניתן היה לרצף שוב ושוב וליצור‬ ‫מאגר גדול יותר של קריאות למקום עם ה"סניפ" החשוד‪ ,‬על מנת לוודא מה היחס ביניהם‪ :‬אם היחס גבוה‬ ‫לטובת נוקליאוטיד מסויים ניתן להבין שזהו הנוקליאוטיד הנכון וכי האדם הוא הומוזיגוט לנוקליאוטיד;‬ ‫אם היחס הוא ‪ 50:50‬כנראה האדם הוא הטרוזיגוט ושתי הקריאות נכונים‪.‬‬ ‫איך ניתן לאסוף אנשים באופן כזה שנוכל לשלם פחות כסף ועדיין לקבל תוצאות טובות; איך נוכל להוריד‬ ‫את המחיר של המחקר? דבר ראשון ניתן לרצף פחות – במקום להסתכל על ‪ 100‬עותקים של כל נקודה‬ ‫להסתכל על ‪ ;10‬אפשר גם לקחת את ה‪ DNA-‬של כל החולים יחד ושל כל הבריאים יחד ולרצף הכל –‬ ‫כך נדרשים לרצף רק פעם אחת‪.‬‬ ‫אם החיפוש הוא אחר חוסרים )‪ (deletions‬שמופיעים בנבדק ולא ברפרנס או ההיפך וכן של ‪double‬‬ ‫‪ ,locations‬ניתן להשתמש בשיטת השלשות – הבודקת אבא‪ ,‬אמא וילד למשל – ולבחון את הסניפים כמו‬ ‫טעויות מנדליות‪ .‬אם לילד יש ‪ AA‬ולאמא יש ‪ TT‬מובן שיש פה טעות‪ ,‬כי הילד היה חייב לקבל ‪A‬‬ ‫מהאמא; אבל אם יש חוסר אצל האמא‪ ,‬והילד מקבל את החוסר הזה‪ ,‬בגנוטיפינג תתקבל קומפנסציה של‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪34‬‬ ‫הקריאה על החסר שתראה כמו הכפלה של האות הקודמת‪T— :‬‬ ‫הופך ל‪ A— ,TT-‬הופך ל‪ .AA-‬אי אפשר לדעת אם זה ‪ T‬אחד‬ ‫ומחיקה או שני ‪ .TT‬משמעות הדבר היא שתמונה כזו – שבה יש‬ ‫ילד עם ‪ AA‬ו‪ – TT-‬יכולה לבטא מחיקה חוסר ולא רק טעות‬ ‫גנוטיפינג‪.‬‬ ‫מקרים אחרים‪ ,‬למשל השושלת הימנית‪ ,‬אינם מתאימים כלל‬ ‫לחוסר תורשתי‪ ,‬מכיוון שהילד הטרוזיגוטי‪ .‬גם בשושלת‬ ‫השמאלית אין התאמה לחוסר‪ ,‬כי אם שני ההורים היו‬ ‫הטרוזיגוטים סיכוי מזערי שהילד ההומוזיגוט הוא מקרה של חוסר‬ ‫למעשה‪.‬‬ ‫אם כן‪ ,‬יש מקרים שמתאימים למחיקה; מקרים שמתאימים וגם אם לא בטוח שיש חוסר יש בהם בעיה;‬ ‫מקרים שאולי מתאימים אבל לאו דווקא הם בעייתיים; ומקרים שבהם חוסר פשוט לא מתאים‪ .‬אם יש‬ ‫קטע מאוד ארוך שיכול להתאים לחוסר ונראה כמו חוסר בסינכרון‪ ,‬ניתן לשער שזה חוסר; שיעור‬ ‫האימות של השערות אלו הוא כ‪.85%-‬‬ ‫בטכנולוגיה החדשה של ‪ deep sequencing‬מחפשים אחר קריאות קצרות‪ .‬אם מוצאים איזור שאף‬ ‫קריאה לא נפלה עליו‪ ,‬ניתן להבין שכנראה לנבדק היה מחיקה או שלרפרנס הייתה דופליקציה‪ .‬הבעיה‬ ‫היא שאם המחיקה לא הומוזיגוטית‬ ‫הכמות של הקריאות לא תיעלם כליל‬ ‫אלא תרד לכדי חצי‪ ,‬וזה לאו דווקא‬ ‫מובהק; קושי שני הוא שזה יכול לקרות‬ ‫במקרה – אם מבצעים מעט קריאות לכל‬ ‫איזור יכול להיות שפשוט באופן אקראי‬ ‫הקריאות לא כיסו את אותה נקודה‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :06‬עצים פילוגנטיים‬ ‫‪35‬‬ ‫שיעור ‪ :06‬עצים פילוגנטיים‬ ‫הקדמה‬ ‫התרומה של דארווין לתיאוריית העצים הפילוגנטיים משמעותית מכדי לא לציין אותו‪ .‬דוקינס אומר שניתן‬ ‫להתייחס לעקרון האבולוציה על ידי ברירה טבעית כעקרון אוניברסלי – כשדארווין הגיע למסקנותיו הוא‬ ‫הגיע אליהן ממחקר מאוד ספציפי; דוקינס אומר שמדובר פה בקריטריון אוניברסלי לחלוטין שאינו מוגבל‬ ‫למדגסקר לבדה‪ .‬זהו למעשה‪ ,‬לפי דוקינס‪ ,‬הקריטריון היחיד שיכול להסביר את הנוכחות של חיים – יהיו‬ ‫באופן שבו יהיו‪ ,‬זה העקרון היחיד שמנחה יצירה של יצורים שנראים כאילו הם תוכננו‪.‬‬ ‫העקרון אוניברסלי כי הוא למעשה מתכון‪ ,‬אלגוריתם‪ .‬העקרון הכללי הוא שיהיו רפליקטורים – יחידות‬ ‫משתכפלות – שביניהם קיימת וריאביליות‪ .‬חלק מהיחידות יעמידו יותר צאצאים‪ ,‬ואותו חלק יגיע למירב‬ ‫המשאבים המוגבלים‪ .‬כשמריצים את האלגוריתם הזה על פרקי זמן או דורות ארוכים‪ ,‬מקבלים‬ ‫אורגניזמים מורכבים כמו שהתקבלו בכדור הארץ‪.‬‬ ‫היוונים )ובעקבותם רוב התובנות הישנות של העולם( הניחו שהחיים נוצרו על ידי ישות עליונה וכי הם‬ ‫נוצרו בצורתם הנוכחית‪ .‬למארק היה מי שהעלה את הרעיון של שינוי לאורך הזמן – שתנאי הסביבה‬ ‫גורמים לשינויים והשינויים האלה יכולים להיות תורשתיים‪ .‬באותה התקופה כבר היה הכרח מבחינת‬ ‫התצפיות ומבחינה אמפירית להכניס יסוד דינמי‪ ,‬המכונה היום אבולוציה‪ .‬הסיבה העיקרית היא המאובנים‬ ‫– עצמות של יצורים שאינם חיים היום מתגלות‪ .‬מכאן שלא כל החיים הקיימים היום הם החיים שהיו‬ ‫תמיד ובמתכונתם הנוכחית‪.‬‬ ‫דארווין העלה את רעיון העץ – לכל האורגניזמים בכדור הארץ יש אב קדמון משותף וכולם נוצרו‬ ‫כהתפצלות של אוכלוסיות לאורך הרבה מאוד שנים‪ .‬ניתן להשוות בין המהפכה של קופרניקוס‪ 7‬לזו של‬ ‫דארווין – הפרספקטיבה של דארווין הייתה שלא רק שאיננו במרכז היקום אלא שאנחנו גם לא נזר‬ ‫הבריאה – האדם לא נוצר כדי שכל היצורים ישרתו אותו וזה גם לא מצב של התפתחות הדרגתית‪ .‬בני‬ ‫האדם לא התפתחו מקופים; לקופים ולבני האדם יש אב משותף‪ ,‬ושניהם התפתחו באופן עצמאי לאורך‬ ‫האבולוציה לאחר שהם נפרדו‪.‬‬ ‫האבולוציה דמויית‪-‬העץ עוסקת באב המשותף ובהתפצלויות לאורך הדורות‪.‬‬ ‫עדויות מודרניות למוצא משותף‬ ‫לדבר על ברירה טבעית – מנגנון אבולוציוני שעובד בברירה טבעית – זה משהו אחד‪ ,‬ולומר שיש אב‬ ‫קדמון משותף יחיד היא רמה אחרת של חדשנות‪ .‬ואולם מאז שהקונספט הזה עלה על ידי דארווין הצטברו‬ ‫עדויות רבות שמראות שהוא אכן צדק‪.‬‬ ‫האלמנט האוניברסלי הראשון הוא הקוד הגנטי‪ .‬גם השימוש בנוקליאוטידים וגם הקידוד לחומצות אמינו‬ ‫כמעט אחידים בין כל היצורים החיים – ואחידים לחלוטין בין האאוקריוטיים‪ .‬השילוב הזה בין שלוש‬ ‫‪ 7‬קופרניקוס העלה את המודל הפשוט יותר לגרמי השמש שמבין שהשמש היא במרכז השמיים ולא כדור הארץ‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫‪36‬‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫אותיות ‪ DNA‬לקידוד לחומצת אמינו היה יכול ליצור טבלאות קודונים מגוונות מאוד; אין הכרח ביולוגי‬ ‫שזה יהיה בצורה אחת מסויימת‪ .‬העובדה שזה כן קיים היא עדות חזקה לכך שלכל היצורים בכדור הארץ‬ ‫יש אותו האב הקדמון‪.‬‬ ‫הקונספט של הסתכלות על האבולוציה כעץ עם אב קדמון משותף מקבל הרבהמאוד חיזוקים‪.‬‬ ‫לביולוגים היה כבר פיתוח של המתמטיקאים לעץ‪ .‬יולר‪ ,‬מתמטיקאי מוביל בתקופה ההיא לגרפיקה‪ ,‬פיתח‬ ‫גרפים של עץ‪ .‬יכולים להיות עצים בינאריים עם פיצולים בראש ובשורש‪ ,‬וגם עץ עם כיווניות – שאין לו‬ ‫פיצולים בשורש‪ ,‬שיש אב משותף‪ .‬מכאן שלביולוגים היה את ארסנל הכלים להסביר ולבצע מחקר בעזרת‬ ‫עצים‪.‬‬ ‫עצים פילוגנטיים הם היפותזה לגבי העבר –‬ ‫ההשערה הטובה ביותר לגבי איך המינים התפצלו‪.‬‬ ‫לא עוד בוחנים רק על הדמיון בין האורגניזמים‬ ‫השונים אלא ממש מנסים לשחזר את העבר שלהם‪,‬‬ ‫לחזור לאב קדמון משותף‪ .‬כשמסתכלים על‬ ‫הקודקודים בתוך הגרף – לא העלים אלא הענפים –‬ ‫ניתן לקבוע התפצלויות של מינים‪.‬‬ ‫העלים הם אורגניזמים הקיימים היום וניתן לרצף אותם; הקודקודים בתוך הגרף הם אבות היפותטיים‪.‬‬ ‫הטופולוגיה של העץ מציגה אילו מינים קרובים זה לזה ואורך הענף מתאר פונקציה של הזמן שעבר עד‬ ‫שהתקבל האורגניזם הנוכחי )ה"עלה"(‪ .‬ניתן לראות למשל שאורך הענף של החולדה )‪ (Rattus‬גדול‬ ‫משל המרחק של עכבר )‪ ,(Mus‬והם סה"כ קרובים יותר לאב המשותף שלהם ושל הפרה )‪.(Bos‬‬ ‫יש להדגיש‪ :‬פעמים רבות משתמשים בעץ על מנת לבנות היררכית קלאסטרים של פרטים – כמו שנעשה ב‪-‬‬ ‫‪ .microarray‬דמיון בתוך תבניות ביטוי של גנים בונים עץ של הכמות הנמדדת‪ .‬עץ פילוגנטי הוא מאוד‬ ‫מיוחד ואינו מודד רק דמיון‪ ,‬כמו כאן! זה נכון שלפעמים בונים עץ פילוגנטי על בסיס דימיון אבל הוא מבטא‬ ‫את האופן בו התפתחו המינים‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :06‬עצים פילוגנטיים‬ ‫‪37‬‬ ‫הייצוג הגרפי יכול להיות מגוון‪ ,‬יכול‬ ‫להראות את סדר הפיצולים‪ ,‬הקפדה או‬ ‫אי הקפדה על אורכי ענפים‪ ,‬גרפים‬ ‫מתעקמים‪ .‬הנקודה החשובה היא שלכל‬ ‫עץ יש צורות הצגה ויזואליות שונות‪.‬‬ ‫עצים פילוגנטיים לרוב יהיו בינאריים‪ ,‬כל‬ ‫פעם פיצול לשניים; אבל זה לא חייב‬ ‫להיות כך‪ ,‬עץ פילוגנטי יכול להיות גם‬ ‫יותר מבינארי אם יש אי וודאות מסויימת‪.‬‬ ‫סוגי מחקר בעצים פילוגנטיים‬ ‫ידוע שקיימת קירבה גדולה בין השימפנזה לאדם; ב‪ ,2003-‬עוד לפני שסיימו לרצף את גנום השימפנזה‪,‬‬ ‫ראו שאם משווים התמרות לא סינונימיות‪ ,8‬המקום הנכון של האדם והשימפנזה כה קרוב שהם צריכים‬ ‫להיות באותו מקום בענף ואולי אפילו לשנות את שם ה‪ genus-‬של השימפנזה ל‪.Homo-‬‬ ‫גם כשגילו את המאובנים של הניאנדרטלים‪ ,‬היו מי שחשבו שאולי הם לא צריכים להיות ענף נפרד‬ ‫מההומו ספיינס אלא מה שמכונה "החוליה החסרה"‪ .‬היום ניתן לרצף ‪ DNA‬מתוך מאובנים; ה‪DNA-‬‬ ‫הרלוונטי )פחות מ‪ (1%-‬של הניאנדרטל‬ ‫נאסף מעצמות שנמצאו והראה שהומו‪-‬‬ ‫ספיינס לא התפתחו מהניאנדרטאלים והם‬ ‫באמת היו פיצול מתוך אותו ענף שנכחד‬ ‫מאוחר יותר‪.‬‬ ‫בדוגמה הבאה מופיע עץ אבולוציוני של‬ ‫יונקים שונים‪ .‬ההיפופוטם קרוב ביותר מכל היצורים המופיעים בעץ דווקא ללוייתן‪ .‬התובנה הזו הגיע‬ ‫ממרקרים מולקולאריים של מערכת החיסון – שיטה שמדדה קומפטביליות ברמה אימונולוגית‪ ,‬הקשורה‬ ‫גם לנושאים כמו דחיית רקמות בהשתלות ותרומות דם ואיברים‪ .‬שנים לאחר שהעץ הזה הורכב‪ ,‬כאשר‬ ‫מצאו שלד של לוויתן באפריקה‪ ,‬לקחו עם מיטב הטכנולוגיה הרבה מאוד מאפיינים הניתנים להשוואה‬ ‫וראו שהסתירה לכאורה נעלמת ויש עדיין‬ ‫שמירה על המבנה של העץ כפי שבנו‬ ‫אותו לפי המערכת החיסונית – הרמה‬ ‫המורפולוגית‬ ‫מחזקת‬ ‫את‬ ‫הרמה‬ ‫המולקולארית‪.‬‬ ‫‪ 8‬שינויים בקוד הגנטי שכן מביאים להחלפה של חומצת אמינו בקודון‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪38‬‬ ‫שיעור ‪ :07‬עצים פילוגנטיים‬ ‫שאלת הסקר‪ :‬יש לבדוק מהו הענף בעץ הפילוגנטי עליו יושב אורגניזם ‪ .A‬ידוע שבודקים עימוד של‬ ‫מקטעים בני ‪ 5000‬זוגות‪-‬בסיסים וכן ידוע שיש ‪ 25‬התמרות‪ .‬צריך לחלק את ‪ 25‬ב‪ 5000-‬הבסיסים ואז‬ ‫מתקבל האורך של הענף – המרחק של אורגניזם ‪ A‬מהאב הקדום שלו‪.‬‬ ‫הקדמה לעצים פילוגנטיים – המשך‬ ‫עצים פילוגנטיים בשימוש משפטי‬ ‫במקרה משפטי‪ ,‬רופא ואחות שהיה ביניהם רומן ממושך הפסיקו את הרומן – ביוזמת האחות‪ .‬הרופא‪,‬‬ ‫כנקמה‪ ,‬יצר במזיד סיטואציה בה היא נדבקה בוירוס ‪ .HIV‬אולם כיצד חושדים או מוכיחים משהו כזה?‬ ‫•‬ ‫מעט לפני האירוע ראו שהיא לא נשאית של ‪ HIV‬ושל הפטיטיס‪ ,C-‬במהלך בדיקות שגרתיות‬ ‫שעוברים צוותים רפואיים‪.‬‬ ‫•‬ ‫מעט אחרי הפרידה האחות קיבלה מהרופא זריקה של ‪.B12‬‬ ‫•‬ ‫כשנה לאחר מכן‪ ,‬בבדיקה שגרתית של ‪ HIV‬והפטיטיס‪ C-‬התגלה שהיא כן נשאית‪.‬‬ ‫בחקירה עלה שביום שבו היא קיבלה את הזריקה מהרופא הגיעו שני מטופלים שהאחות לא הכירה‪ ,‬ולהם‬ ‫היה ‪ HIV‬והפטיטיס ‪ .C‬זהו אוסף ראיות נסיבתיות שמעלות חשד לאקט במזיד מצד הרופא‪ .‬הקהילה‬ ‫הביואינפורמטית חשבה שאולי ניתן יהיה להשתמש במודלים של פילוגנטיקה על מנת לבדוק אם באמת יש‬ ‫הדבקה‪ ,‬האם קיים קשר בין זני הוירוסים למטופל שממנו נחשד שלקחו את הדם‪.‬‬ ‫וירוס ה‪ HIV-‬מוגדר לעיתים לא כמין אלא קוואסי‪-‬מין‪ .‬הסיבה היא שהוא עובר אבולוציה בקצב מאוד‬ ‫מאוד מהיר – באדם שנדבק ניתן ממש לזהות עץ פילוגנטי שלם של הוירוס מרגע ההדבקה בנשא ועד רגע‬ ‫הבדיקה‪ .‬השאלה ההיסטורית על הוירוס אינה מורכבת כמו בחולייתנים – כי סדר הגודל של האבולוציה‬ ‫הוא שנים ספורות‪.‬‬ ‫שיחזור עצים פילוגנטיים על סמך רצף לא נעשה על פי כל הגנום של שני האורגניזמים שמנסים להקביל‪,‬‬ ‫שכן זו עבודה קשה ומורכבת מדי‪ .‬במקום זאת לוקחים מקטעים קטנים לצורך ‪Multiple Sequence‬‬ ‫‪ Alignment‬במחשבה שהם מייצגים את הגנום‪ .‬אם כל תת מקטע כזה הוא גן‪ ,‬אפשר להגדיר ‪Gene-‬‬ ‫‪ Tree‬שיהיה דומה למדי לעץ הפילוגנטי‪.‬‬ ‫הדבר הראשון שהחוקרים ניסו לעשות היה להשוות את‬ ‫אחד הגנים של ‪ HIV‬שקשור בהתגוננות מהמערכת‬ ‫החיסונית של הנשא ולכן הוא עובר‪ ,‬במירוץ חימוש‪,‬‬ ‫מוטציות ושינויים רבים‪ .‬בתת הרצפים של האחות לעומת‬ ‫המטופל של הרופא יש יותר קירבה מרצפים אחרים שהיו‬ ‫בסביבה – וירוסים אחרים של חולים ונשאים אחרים‬ ‫בסביבה‪ .‬מכאן שהאחות ככל הנראה הודבקה בסבירות‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :07‬עצים פילוגנטיים‬ ‫‪39‬‬ ‫גבוהה מהמחט ששימשה ללקיחת דם מהמטופל‪ .‬אולם‪ ,‬בשיטה זו מקשה על הבחנה בכווניות של ההעברה‬ ‫והוכחה שוירוס ה‪ HIV-‬במטופל יותר קדום לזה שבאחות‪.‬‬ ‫לשם כך עשו עץ לפי המקטע לגן של ‪ – RT‬רברס‪-‬‬ ‫טראנסקריפטאז‪ .‬הגן הזה יציב יותר ועובר פחות‬ ‫שינוייים‪ ,‬ואכן ניתן לראות בעץ שהמקטעים של‬ ‫המטופל מקיפים את המקטעים שנמצאו באחות‪ ,‬דבר‬ ‫המהווה עדות לכך שהמטופל הוא שהדביק את האחות ולא ההיפך‪.‬‬ ‫יש להבין כי במקרה זה שוחזרה ההיסטוריה של נגיף ה‪ .HIV-‬הגן הראשון הראה את הקירבה והגן‬ ‫השני הראה את הכיווניות‪ .‬האינפורמציה והעדויות האלה הולכים ונעלמים עם הזמן‪ .‬זוהי שאלה‬ ‫של קצב האבולוציה מחד ושל הזמן שעבר בפועל מאידך‪.‬‬ ‫בניית עץ החיים‬ ‫החידוש של דארווין לא היה ברעיון העצים כי אם ברעיון שיש אב קדמון משותף; אולם איך מיישמים את‬ ‫הרעיון‪ ,‬להניח את כל האורגניזמים על אחד?‬ ‫עד המאה הקודמת‪ ,‬העולם חולק לשניים‪ :‬צמחים וחיות‪ .‬אקרט כבר דיבר על חלוקה לשלוש והיום‬ ‫מדברים על חלוקה לחמש; וניתן כמובן גם פשוט לחלק לפרוקריוטים ואאוקריוטיים‪ .‬ואז הגיע קרל ווז עם‬ ‫חלוקה‬ ‫לשלוש‬ ‫קבוצות‪:‬‬ ‫בקטריה‪,‬‬ ‫ארכיאה‬ ‫ואאוקריה‪ .‬בעוד שהחלוקה הטקסונומית הקודמת‬ ‫התבססה על מקורות מורפולוגים‪ ,‬מבנה ממברנה‪,‬‬ ‫מבנים אנטומיים מתקדמים וכו'‪ ,‬ווז השווה רצף‬ ‫כרומוזומלי שמופיע בכל האורגניזמים וניתן לעקוב‬ ‫אחריו‪ ,rRNA ,‬בדק את הרצף באורניזמים‬ ‫השונים‪ ,‬עימד והסיק את מסקנותיו על הפיצולים‪.‬‬ ‫כך התקבל העץ של ווז‪ :‬בעוד שבעבר התייחסו בהזנחה לפרוקריוטיים‪ ,‬ווז מבחין בין ארכיאה ובקטריה‬ ‫ויותר מכך – הוא מראה שהארכיאה קרובה יותר לאאוקריה‪ .‬בעוד שבעבר ידעו שיש שארכיאה שנבדלים‬ ‫אולי מהבקטריה אבל עדיין ראויים להיות תחת אותם ענפים‪ ,‬ווז גילה שהן קבוצות שונות לחלוטין‪.‬‬ ‫המושג של "עץ החיים" מאוד שנוי במחלוקת‪ :‬דארווין טען שאפשר לתאר את החיים על סמך מטאפורת‬ ‫עץ אולם היום אנו מכירים תופעת מעבר גנים הוריזונטלי‪ .‬גנים עוברים למעשה בין מיקרואורגניזמים‬ ‫שיכולים להיות מאוד מרוחקים מבחינת האב הקדמון על ידי מגוון שיטות להעברת מידע בין‬ ‫המיקרואורגניזמים – זוהי הורשה שאינה דארווינית וורטיקלית‪ .‬למרות זאת‪ ,‬מרבית הגנים לא עוברים‬ ‫בהעברה צדדית; מכאן שעל גנים שמורים כאלה‪ ,‬דוגמת ‪ ,rRNA‬ניתן לבסס את העצים הפילוגנטיים‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫‪40‬‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫אנליזה פילוגנטית‪ :‬לא רק בין אורגניזמים‬ ‫כלים פילוגנטיים יכולים לתאר היסטוריה אבולוציונית של אורגניזמים כמו גם של דברים נוספים‪ ,‬דוגמת‬ ‫מחלות‪ .‬הדוגמה הבאה תעסוק בפילוגנזה של סרטן‪ .‬כאשר מתחיל תהליך סרטני בגוף‪ ,‬הוא מתחיל בנקודה‬ ‫מסויימת; מספר רב של אירועי חלוקה מאוחר יותר‪ ,‬כשהגידול מתחיל להיות ממאיר‪ ,‬הוא עבר למעשה‬ ‫אבולוציה כדי להיות סרטן "טוב יותר"‪.‬‬ ‫פילוגנזה של סרטן דומה מאוד לכל פילוגנזה אחרת‪,‬‬ ‫אבל ההיסטוריה המתוארת היא ברמה הפילוגנטית‪.‬‬ ‫גישה זו חשובה לא רק להבנה הכללית אלא גם‬ ‫ליכולת לפתח תרופות טובות יותר‪ .‬אנליזה של שני‬ ‫סוגי סרטן תראה שהם שונים אבל ניתן לזהות עוד‬ ‫הבדלים בשיטות גנטיות שיעזרו להבנת המרחק‬ ‫והפעולה הקשורות לסרטן זה‪.‬‬ ‫השיטה הראשונה היא בעזרת ‪ ,MicroRNA Chip‬אשר משווה בין גידולים של אנשים שונים‪ .‬בשנים‬ ‫האחרונות במקום היברידיזציה של ‪ CGA‬נעשה שימוש במיקרו‪-‬אראי שבודק את ה‪ mRNA-‬ברקמה‬ ‫מסוימת; ‪ CEGH‬היא שיטה היכולה לבדוק רמת עותקים – כמו רמת ביטוי – על פ ההיברידיזציה של‬ ‫תאי הסרטן‪.‬‬ ‫אנליזה פילוגנטית‪ :‬לא רק בביולוגיה‬ ‫השפות האנושיות התפתחו בקבוצות שונות של בני אדם ובתחום השפה נראה שהתפתחות השפה אינה‬ ‫בלתי תלויה – יש תהליך של "ייבוא"‪ ,‬כמו מעבר גנים הוריזונטלי בין קבוצות בני האדם‪ .‬אם קודם הגנים‬ ‫חולקו למשפחות גנים או הומולוגים‪ ,‬כאן ניתן לעשות אותו דבר לגבי מילים מתוך הלקסיקון‪ .‬אם לקבוצה‬ ‫של מילים יש משמעות דומה‪ ,‬צליל דומה ומרכיבים אחרים‪ ,‬אפשר להגיד שהמילים הן הומולוגיות – שיש‬ ‫להן אב קדמון משותף‪.‬‬ ‫דוגמה אחרת היא שימוש בעצים פילוגנטיים לחקר ההתפתחות של הקומפלקסיות בפוליטיקה‪ .‬עוסקים‬ ‫במחקר בארבעה מצבים‪ :‬ללא מנהיג‪ ,‬מנהיג אבסולוטי פשוט ומורכב ומצב של מדינה‪ .‬למעשה זוהי‬ ‫אנאליזה פילוגנטית המופעלת על מחקר פוליטי‪-‬חברתי‪ .‬המודל האבולוציוני נתן את המדד הכמותי לסיכוי‬ ‫שיהיו קפיצות קדימה במבנה השלטון או אחורה‪ .‬הם ראו שבעוד שקפיצות קדימה כמעט לא קורות‬ ‫בדילוגים‪ ,‬קפיצות אחורה קורות מדי פעם‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :07‬עצים פילוגנטיים‬ ‫‪41‬‬ ‫קריאת עצים‪ :‬איזה עץ יותר מדוייק?‬ ‫שימו לב שעצים ניתן לסובב – בנקודות‬ ‫הפיצול‪ .‬שני עצים יהיו זהים אם האבות‬ ‫המשותפים נותרים זהים‪ ,‬ואין זה משנה‬ ‫איך נסובב אותם‪ .‬בארבעת העצים‬ ‫משמאל ניתן לראות שהאב הקדמון של‬ ‫גורילה תמיד משותף לשימפנזה ולאדם‪.‬‬ ‫האב הקדמון של השימפנזה והאדם גם‬ ‫הוא אותו אב קדמון בכל ארבעת העצים‪.‬‬ ‫עצים פילוגנטיים יכולים להיות חסרי‪-‬‬ ‫ואז‬ ‫שורש‪,‬‬ ‫הפיצולים‬ ‫מופיעים‬ ‫אבל‬ ‫לא‬ ‫נתוני‬ ‫נקודת‬ ‫סדר‬ ‫הזמן‪,‬‬ ‫הכיווניות‪ .‬השורש נותן למעשה כיווניות‬ ‫ממנו אל העלים‪ .‬בעץ לא משורש אין‬ ‫התייחסות למימד הזמן‪.‬‬ ‫כאשר יש מספר קבוצות טקסונומיות‬ ‫בעץ לא משורש ניתן לבחור כל ענף‬ ‫בתור השורש; לרוב ייעשה שימוש‬ ‫בקבוצה טקסונומית רחוקה יחסית על‬ ‫מנת לראות את השורש – למשל‬ ‫בתרנגולת יחד עם שימפנזה‪ ,‬גורילה‬ ‫ואדם‪,‬‬ ‫על‬ ‫מנת‬ ‫להראות‬ ‫שביחס‬ ‫לתרנגולת שלושת האורגניזמים האחרים‬ ‫חייבים לשבת על אותו הענף‪.‬‬ ‫הרצפים שלהם בוצע שירוש מכונים ‪ ingroup‬והרצף הנוסף הוא ‪.outgroup‬‬ ‫דרך אחרת היא ‪ – midpoint‬לוקחים שני עלים שביניהם המרחק מקסימלי‪ ,‬ונקודת האמצע ביניהם היא‬ ‫השורש‪ .‬הנחה זו עובדת בצורה גסה אבל שירוש בשיטה זו אינו מקובל‪ ,‬כי מספיק שיהיה אורגניזם אחד‬ ‫שעובר אבולוציה מהירה יותר מהאורגניזמים האחרים וכבר‬ ‫השירוש הזה אינו נכון – שירוש שכזה תקף רק כאשר קצב‬ ‫האבולוציה בכל האורגניזמים זהה‪ .‬קצב האבולוציה הזה מכונה‬ ‫"‪."molecular clock‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪42‬‬ ‫חלוקה של הקבוצות‪ :‬מונופילטית‪ ,‬פאראפילטית‪ ,‬פוליפילטית‬ ‫דוגמה לאחד מהמצבים האלה היה במקרה של המטופל והאחות – הרצפים של המטופל עוטפים את‬ ‫הרצפים של האחות‪ .‬דבר זה מכונה קבוצה פאראפילטית‪ .‬באירוים הבאים רואים דוגמאות למצבים‬ ‫כאלה‪:‬‬ ‫•‬ ‫פאראפילטית – מכילה את האב הקדום ביותר של הרצפים‪ ,‬אולם יש רצפים חיצוניים למסלול הזה‪.‬‬ ‫•‬ ‫פוליפילטית – הקבוצה מכילה את כל הרצפים אבל לא את האב הקדמון של כולם‪.‬‬ ‫•‬ ‫מונופילטית – כל הרצפים מוכלים באותה קבוצה כולל אב קדמון מסויים‪.‬‬ ‫הומולוגיה והומופלאסיות‬ ‫• הומולוגיה – מאפיין משותף שעבר בתורשה מאב קדמון משותף‪.‬‬ ‫• הומופלאסיה – מאפיין משותף שנוצר באופן בלתי תלוי‪.‬‬ ‫הומופלאסיות גורמת לתכונה מסויימת להופיע לאורך האבולוציה בצורה דומה‪ ,‬למרות שכנראה התפתחה‬ ‫בתנאים שונים‪ ,‬וההתפתחות של האנאלוגיה הייתה בלתי תלויה‪ .‬דוגמה לכך היא הראייה‪ ,‬שיש הטוענים‬ ‫כי התפתחה לפחות שש פעמים שונות בצורה בלתי תלוייה‪.‬‬ ‫מה הקשר לפילוגנטיקה? אם לא הייתה הומופלאסיות או אבולוציה הוריזונטאלית‪ ,‬הניתוח הפילוגנטי היה‬ ‫יכול להיות הרבה יותר קל; הדברים המקשים על הניתוח הם אבולוציה גנטית‪ ,‬חזרה מנקודה מסויימת‬ ‫לקודמתה‪ ,‬וגם הומופלאסיות‪ .‬כאשר משחזרים עצים פילוגנטיים עושים זאת לרוב על פי תכונות שלא‬ ‫נוטות להומופלאסיות‪.‬‬ ‫דוגמה לתכונות כאלו הן ‪ ,indels‬מחיקות ותוספות בגנום‪ .‬הטענה היא שהסיכוי לקבל מרווח מסויים בין‬ ‫שני אורגנימים בגנום שלהם מאוד נמוך‪ ,‬ולכן אם רואים בין שניהם ‪ indel‬באותו המיקום אנחנו יכולים‬ ‫להניח שה‪ indels-‬לא נגרמו מהומופלאסיות‪ .‬הטענה הזו יפה אולם לא תמיד נכונה כי ‪ indels‬לא חסינים‬ ‫לחלוטין מפני הומופלאסיות‪ ,‬ואכן הראו וביקרו מאוחר יותר שהשיטה של ה‪ indels-‬אינה בלתי‪-‬רגישה‬ ‫לחלוטין להומופלאסיות‪ .‬יחד עם זאת‪ ,‬החוקרים שואפים להגיע למצב שיש מינימום הומופלאסיות ו‪-‬‬ ‫‪ indels‬הם דוגמה טובה‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :07‬עצים פילוגנטיים‬ ‫‪43‬‬ ‫אורתולוגים‬ ‫קיימים שני סוגי הומולוגים‪:‬‬ ‫•‬ ‫אורתולוגים – שני גנים עם אב קדמון משותף‬ ‫כאשר מה שגרם להבדלם בין האללים הוא‬ ‫ספציאציה‪ .‬במצב כזה הגנים לרוב ישמרו על‬ ‫הפונקציה שהייתה עוד לאב הקדמון – האירוע‬ ‫של הספציאציה לרוב לא מספיק לגרום לשינוי‬ ‫בתפקוד‪.‬‬ ‫•‬ ‫פאראלוגים – מצב זה קורה מדופליקציה‪ .‬במצב זה‬ ‫שני גנים הם נפרדים כתוצאה מדופליקציה אבל‬ ‫להבדיל מהמקרה הקודם‪ ,‬המצב הזה לא מתקיים בין‬ ‫שני מינים שונים כי אם בתוך אותו המין – זוהי לא‬ ‫תוצאה של ספציאציה‪.‬‬ ‫יש להדגיש כי אירועי הדופליקציה הם כנראה המנוע החשוב ביותר לחדשנות אבולוציונית‪ :‬כאשר גנומים‬ ‫משתכפלים המטרה של הרפליקטור היא להעמיד עותקים כמה שיותר מדוייקים למקור‪ .‬האבולוציה‬ ‫שמרנית מאוד ולכן הרפליקציה מאוד אמינה‪ .‬יחד עם זאת‪ ,‬אם כבר יש דופליקציה‪ ,‬העובדה שיש גן אחד‬ ‫שיכול תמיד להישאר תקין מביאה לכך שהגן המשוכפל חשוף למוטציות מבלי שהן ישפיעו בצורה מזיקה‬ ‫מאוד על האורגניזם‪ .‬כאשר יהיו מוטציות בגן השני שיביאו לשינוי התפקוד שלו‪ ,‬התפקוד המקורי יישמר‬ ‫על ידי העותק הראשון ולכן השינויים ייתקבלו בברכה‪.‬‬ ‫נניח יונק טיפוסי; משפחת הגנים הנפוצה ביותר ביונקים הם גנים הקשורים להרחה‪ ,‬שכן לרוב היונקים‬ ‫יש חוש ריח מפותח למדי‪ :‬יונקים מקדישים כ‪ 1000-‬גנים להרחה מתוך כ‪ 20,000-‬גנים בגנום‪ .‬אם‬ ‫מסתכלם על שימפנזה‪ ,‬לעומת זאת‪ ,‬רואים שכ‪ 50%-‬מהגנים "הלכו לאיבוד"‪ .‬אבל הם לא באמת אבודים‪:‬‬ ‫הגנים הם למעשה פסודוגנים או גנים מאובנים‪ ,‬אשר לרוב אינם עוברים תרגום וגם אם הם יוצרים חלבון‬ ‫הוא לרוב לא פונקציונאלי‪.‬‬ ‫בשל כך חוש הריח של בני האדם הוא ברמה מאוד נמוכה בהשוואה לשאר היונקים‪ .‬ניתן לנחש שהדבר‬ ‫נובע מאירוע אבולוציוני שאיפשר הקלה של הלחץ האבולוציוני על שימור חוש הריח‪ .‬שהרי‪ ,‬כל‬ ‫הפעולות של יונקים קשורות בריח‪ :‬מציאת מזון‪ ,‬זיהוי מזון מקולקל‪ ,‬מציאת בני זוג וכדומה‪ .‬בני אדם‬ ‫וקרוביהם כנראה עברו אירוע שגרם להם לא להסתמך על החוש הזה‪.‬‬ ‫ידוע היום שרוב היונקים לא רואים בצבעים – אלא בשני צבעים בלבד‪ .‬בפרימאטים לעומת זאת הייתה‬ ‫דופליקציה שאיפשרה לראות צבע בתדירות כלשהי; העותק הנוסף של הדופליקציה עבר מוטציות שהפכו‬ ‫אותו רגיש לצבע בדרגה שונה‪ .‬ההתפצלות הזו הקנתה אפשרות לראות בשלושה צבעים ויצרה בדיוק את‬ ‫ההתפצלות הגנטית הפאראלוגית‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫‪44‬‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫מרגע שלקופים של העולם הישן הייתה היכולת לראות בשלושה צבעים‪ ,‬פעולות שנעשו על בסיס ריח‬ ‫התבססו על ראיה‪ ,‬שהיא הרבה יותר אינפורמטיבית ומדוייקת‪ .‬בצורה זו כל המוח והמערכת הקוגנטיבית‬ ‫עבר למצב של הסתמכות על ראייה במקום על ריח‪ .‬הצבעים הם קרינה אלקטרומגנטית בתדרים שונים –‬ ‫בטווח האור הנראה לנו‪.‬‬ ‫עצים גנטיים ועצים של מינים‬ ‫עצים גנטיים ועצים של מינים יכולים להיות במקרים‬ ‫מסויימים אותו הדבר – כמו העץ שבנה ווז על בסיס‬ ‫‪ ;rRNA‬אבל זה לא תמיד נכון‪ ,‬בין אם כי הגן לא‬ ‫מתאים ובין אם כי הסיגנל לא מפורש נכונה‪ .‬משום‬ ‫כך יש להשתמש בעצים גנטיים של גנים רבים‬ ‫ולמצע בין העצים השונים על מנת למצוא את העץ‬ ‫ההגיוני ביותר בין כולם‪.‬‬ ‫במחשב מציגים עצים במחרוזת‪ ,‬כאשר מה שחשוב‬ ‫למחשב כדי להבין את העץ הוא הסוגריים‪ :‬ברגע‬ ‫שכמה עלים נמצאים יחד בתוך סוגריים המחשב יודע‬ ‫שהם בעלי אותו אב משותף‪ .‬יכולים להיות‬ ‫אלגוריתמים שכוללים גם אורכי ענפים‪ .‬האלגוריתם‬ ‫הזה מכונה ‪.Newick Format‬‬ ‫דוגמה‬ ‫בדוגמה משמאל מופיעים אצה ירוקה‪ ,‬אצה אדומה‬ ‫וטחב‪ .‬לטחב ואצה ירוקה יש אב משותף פחות קדום‬ ‫מהאב המשותף של אצה ירוקה ואצה אדומה‪ .‬מכאן‬ ‫שהמרחק האבולוציוני בין אצה ירוקה לטחב קרוב‬ ‫יותר מאשר לאצה אדומה‪.‬‬ ‫באופן דומה ניתן לומר שהקירבה האבולוציונית של אצה ירוקה מטחב היא אותה קירבה שיש לו לאורן –‬ ‫משום שחוזרים עד לאותו אב משותף בשביל להגיע מאצה ירוקה לכל אחד מהמינים האלה‪.‬‬ ‫מחפשים את האב הקדמון הקרוב ביותר בין שני המינים ובודקים מי האב הקדמון הקרוב ביותר בין‬ ‫זוג מסויים‪ .‬זוג זה יהיה הזוג בעל הקירבה האבולוציונית הגדולה ביותר‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫‪/‬שיעור ‪ :08‬בניית עצים – המשך‬ ‫‪45‬‬ ‫שיעור ‪ :08‬בניית עצים – המשך‬ ‫ככל שמספר הרצפים שעל פיהם בונים את העץ גדול‬ ‫יותר‪ ,‬גדל מספר העצים שניתן לבנות בתהליך‬ ‫שנקרא ‪ ,Combinational Explosion‬בצורה‬ ‫מאוד אלימה‪ .‬המונח ‪OTU=Operational Tree‬‬ ‫‪ Unit‬הוא מספר העלים בעץ – היחידה המציאותית‬ ‫שאינה היפוטתית‪.‬‬ ‫נשאלת השאלה – כמה עצים אפשריים שונים יש‬ ‫כאשר לוקחים בחשבון ‪ 70‬מינים )‪ ?(OTU‬יש‬ ‫להתחשב רק ביחסים בין המינים‪ ,‬בטופולוגיה‪ ,‬ולא מנסים עדיין להבין את אורכי הענפים המעידים על‬ ‫המרחקים הגנטיים בין המינים‪ .‬כאשר ‪ ,OTU=70‬קיימים ‪ 7*10117‬עצים אפשריים‪ .9‬מכאן שנדרשת‬ ‫שיטה אחרת‪ :‬אפשרות אחת היא להימנע מלסרוק כל כך הרבה מינים; אפשרות שנייה היא להימנע‬ ‫מלסרוק את כל העצים האפשריים בעזרת אלגוריתם מסנן מתחכם‪ .‬ישנן למעשה שתי שיטות‪:‬‬ ‫•‬ ‫לתרגם את נתוני הרצפים למטריצת מרחקים )‪ – (Distance‬במצב כזה לא לוקחים את כל‬ ‫ההבדלים בין שני רצפים אלא מספר אחד שמייצג את המרחק ביניהם‪ .‬בעזרת המטריצה של‬ ‫המרחקים בונים עץ‪.‬‬ ‫•‬ ‫הסתכלות על הרצף והמאפיינים שלו )‪ .(Character‬בשיטה זו מחפשים את העץ האופטימלי‬ ‫לאבולוציה לאחר הערכה של כל העצים האפשריים‪.‬‬ ‫‪Distance-Based Method‬‬ ‫בונים מטריצה של רצפים ומאפיין כלשהו‪.‬‬ ‫ממירים את הנתונים למטריצת מרחקים ועל סמך‬ ‫המטריצה בונים את העץ‪ .‬המטריצה מיוצגת‬ ‫כמשולש משום שהיא סימטרית‪ :‬המרחק בין ‪A‬‬ ‫ל‪ B-‬שווה למרחק בין ‪ B‬ל‪ .A-‬כל האינפורמציה‬ ‫נמצאת בחצי מטריצה‪.‬‬ ‫כעת עולות שתי שאלות‪ :‬מה יהיה הקריטריון הראשון על פיו תיכתב‬ ‫המטריצה‪ ,‬ומה יהיה הקריטריון השני על מנת לבנות את העץ? המרחק‬ ‫בטבלה בין שתי נקודות צריך להיות ריבוע של יחס השינויים‪ ,‬אשר‬ ‫מורכב על ידי ספירת מספר השינויים וחלוקת באורך הרצף‪.‬‬ ‫‪ 9‬לצורך השוואה ההנחה גורסת שמספר האטומים ביקום הנראה הם ‪ ,1080‬כלומר גם אם כל האטומים ביקום היו מחשבים‬ ‫שעובדים על הבעיה הזו הם עדיין לא היו מצליחים לעבור על פני כל העצים מתחילת היקום ועד היום‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫‪46‬‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪UPGMA = un-weighted pair group method with arithmetic mean‬‬ ‫זה הפרוטוקול לבניית העץ הפילוגנטי על בסיס מטריצה‪ .‬יש להתחיל מבחירת המספר הקטן ביותר‪ .‬כאשר‬ ‫מוצאים אותו‪ ,‬מחברים בין שני המינים האלה‪ .‬שימו לב שההנחה היא שהמרחקים הם שווים – כלומר אם‬ ‫המרחק בין דב לדביבון הוא ‪ 0.26‬אורך כל ענף הוא ‪.0.13‬‬ ‫ברגע ששני מינים אוחדו עוברים לטבלה עם אורגניזם היפוטתי – אב קדמון של דב ודביבון – ומחשבים‬ ‫את המרחק בין בין אב היפוטתי זה לחיה הבאה‪ .‬ההנחה היא שהמרחק הזה הוא המרחק הממוצע בין החיה‬ ‫הבאה – כלב ים – לדב ולדביבון‪.‬‬ ‫לאחר חישוב המרחקים החדשים מקבלים טבלה מצומצמת יותר‪ .‬הטבלה הולכת ומצטמצמת על ידי‬ ‫האורגניזמים ההיפוטתיים ש"מוצאים" בתור האבות המשותפים של אורגניזמים קרובים‪ .‬כל פעם‬ ‫מחשבים את המרחק מחדש עד שמסיימים את המטריצה‪.‬‬ ‫מבחינה ביולוגית קשה להתיחס לכל השינויים אותו הדבר; לא ניתן להתייחס להחלפה של נוקליאוטיד בודד‬ ‫באותו האופן כמו למחיקה של נוקליאוטיד – שיכולה לגרום לשינוי מסגרת הקריאה‪ .‬בהמשך נדגים כיצד‬ ‫משקללים את הדברים ומתייחסים אליהם‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫‪/‬שיעור ‪ :08‬בניית עצים – המשך‬ ‫‪47‬‬ ‫חסרונות השיטה‬ ‫השיטה הזו אינה נפוצה בשימוש למרות שהיא מאוד מהירה; הסיבה לכך היא שהשיטה נשענת על ההנחה‬ ‫שקצב האבולוציה שווה לאורך כל העץ וענפיו‪ .‬כשבוחרים שורש של עץ‪ ,‬משתמשים בקבוצה חיצונית או‬ ‫מניחים שקיים שעון מולקולארי; מהסיבה הזו העץ יוצא משורש אבל זו סיבה גסה יחסית‪.‬‬ ‫‪Neighbor-Joining – Based on Star Decomposition‬‬ ‫במקרה הזה‪ ,‬במקום לבנות מטריצת מרחקים פשוטה לוקחים מטריצת ‪ ,Q-Matrix‬המתייחסת למה קורה‬ ‫לכל הענפים על ידי איחוד בין שני ענפים‪ .‬זה מאוד דומה ל‪ ,UPGMA-‬אבל ה‪ Q-Matrix-‬מעלה מצב בו‬ ‫סך כל הענפים בכל שלב הוא אורך מינימלי‪ .‬זוהי שיטה לבניית עץ שסך אורכי ענפיו הוא מינימלי‪.‬‬ ‫כאן אין מניחים קצב אבולוציה שווה או שעון מולקולארי‪ ,‬אבל לא מקבלים עץ משורש‪ .‬גם בשיטה הזו‬ ‫עדיין לא נפתרה הבעיה שצריך לקחת בחשבון את המודל האבולוציוני או הביולוגי‪.‬‬ ‫אין צורך להכיר את כל הפרטים הטכניים אבל‬ ‫יש לזכור ששיטה זו היא מהירה יחסית‪.‬‬ ‫‪Character-Based Methods‬‬ ‫השיטה הזו מתייחסת למאפיינים שאינם בהכרח‬ ‫גנטיים – אלו יכולים להיות גם מאפיינים‬ ‫פיזיולוגיים‪ ,‬למשל די‪-‬פדאליזם‪ ,‬הליכה על שתי‬ ‫רגליים‪ .‬אפשר לקחת מאפיינים של תכונות‬ ‫מורפולוגיות‬ ‫ופיזיולוגיות‪,‬‬ ‫להמיר‬ ‫אותם‬ ‫לאלגוריתם בינארי שמצמצם את האפשרויות‬ ‫וליצור מטריצה‪.‬‬ ‫עקרון החסכנות – ‪Maximal Parsimony‬‬ ‫לפי עקרון זה‪ ,‬העץ שדורש הכי פחות שינויים יהיה העץ המועדף‪ .‬הציון הניתן לטופולוגיה המתקבלת‬ ‫בעץ צריך להתבסס על עקרון זה‪ .‬השיטה מתחילה בסריקת העצים האפשריים וחיפוש העץ בעל הציון‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪48‬‬ ‫הטוב ביותר‪ .‬זאת לעומת שיטות אחרות‪ ,‬שבהן אין למעשה השוואה של העץ המתקבל לעצים‬ ‫אפשריים אחרים‪ .10‬השיטה הזו מהירה מאוד; היא כוללת את בעיית החיפוש במרחב העצים ומשום שאי‬ ‫אפשר לסרוק את כולם יכול להיות שהציון המיטבי יהיה לוקאלי ולא גלובאלי‪.‬‬ ‫הציון של החסכנות שניתן לעץ חוזר‬ ‫לטבלה של המאפיינים‪ ,‬אבל יש לזכור כי‬ ‫התקבלה טופולוגיה מסויימת של העץ‪.‬‬ ‫הציון ניתן על פי טבלה הנוכחות‪/‬היעדרות‬ ‫של הגן הראשון‪ ,‬כאשר בודקים כמה‬ ‫מוטציות היו צריכות להיעשות בעץ על‬ ‫מנת לקיים את פורמט הנוכחות‪/‬היעדרות‬ ‫הזו לפי ציונים של ‪) 1‬קיים( או ‪0‬‬ ‫)נעדר(‪.‬‬ ‫שיטת החסכנות נותנת ציון בהינתן טופולוגיה של העץ‪.‬‬ ‫ניתן להמשיך כך עבור כל אחד מהגנים או‬ ‫המאפיינים הנבחנים על פני אותו העץ ולשקלל ציון‬ ‫כולל של כל הגנים עבור העץ‪ .‬לאחר שעוברים על‬ ‫כל גן בנפרד סוכמים את הציונים וזה הציון הכולל‬ ‫של העץ )ראו שקופיות ‪.(20-31‬‬ ‫כעת נשאלת השאלה האם זה המספר המינימלי‬ ‫שהיינו יכולים לקבל? האלגוריתם מאפשר שיטוט‬ ‫בין העצים ומתן ציון לכל עץ על מנת לאתר את‬ ‫הציון המינימלי‪ .‬האלגוריתם המתוחכם יותר מאפשר‬ ‫למצוא את הנקודה המינימלית ביתר קלות‪.‬‬ ‫השיטה החסכנית דורשת חישוב הציון לכל אחת מהעמדות בנפרד‪ .‬ציון החסכנות ניתן על ידי סכימת הציון‬ ‫לכל גן בנפרד‪ .‬חישוב הציון המינימלי יכול להיות בעמדה אחת ולפי נוכחות‪/‬העדרות אבל הוא יכול‬ ‫להיעשות גם לפי חומצות אמינו‪ .‬זהות ברצף אינה עוזרת במציאת מידת שינויים שנעשו‪ ,‬אבל אם יש‬ ‫חומצות אמינו שונות תתקבל מידת השינויים שקרו לאורך העץ‪.‬‬ ‫אם המאפיין בין שני ענפים אינו זהה יש‬ ‫לבצע איחוד )‪ .(U‬במאפיינים משותפים‬ ‫יש לבצע חיתוך )∩(‪ .‬מספר השינויים‬ ‫הסופי שווה למספר פעולות האיחוד‬ ‫שנדרשו עד השורש‪ .‬כאשר סוכמים‬ ‫‪ 10‬זיכרו כי אין אפשרות לסרוק את כל העצים‪ ,‬כי הם עצומים‪ ,‬ולכן מחפשים איזושהי השוואה חכמה כלשהי‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫‪/‬שיעור ‪ :08‬בניית עצים – המשך‬ ‫‪49‬‬ ‫אותן עבור כל העמדות‪ ,‬מתקבל ציון החסכנות של כל העץ‪.‬‬ ‫בעיית שינויים נסתרים או מרובים‬ ‫כאשר בוחנים את המידע הקיים ברמת העלים‪,‬‬ ‫סופרים שינויים או מרחק אבל הרבה פעמים המרחק‬ ‫הזה קטן בהרבה מהמרחק האבולוציוני – או מספר‬ ‫השינויים שהיו בפועל‪ .‬אם למשל יש שני אורגניזמים עם אב משותף‪ ,‬ולשניהם יש ‪ ,A‬שיטת החסכנות‬ ‫אומרת שהאב הקדמון יהיה ‪ ;A‬אולם יש הסתברות שהוא יהיה גם משהו אחר‪ ,‬למשל ‪ .G‬כמו כן גם אם‬ ‫חייב להיות שינוי – לא ידוע אם השינוי היה יחיד או יותר מכך‪.‬‬ ‫האיור הבא מציג רצף שהיו בו‪ ,‬היסטורית‪ 12 ,‬התמרות אבל בפועל רואים רק שלוש‪ .‬הוא מציג מספר‬ ‫סוגי שינויים שלא ניתן לספור כלל או כראוי‪ :‬בין שאלו שינויים מקבילים‪ ,‬מספר שינויים באותה עמדה‬ ‫שנראים כמו שינוי אחד‪ ,‬רברסיות שהן שני שינויים שכלל לא נראים – כתוצאה מכל אלו מתקבל מספר‬ ‫שינויים גדול יותר מכפי שניתן לראות או להעריך‪.‬‬ ‫הפתרון הוא מודל אבולוציוני שיכול להתחשב בשינויים הנסתרים‪ .‬הגרף מתאר את אחוז השינויים‬ ‫כפונקציה של המרחק הגנטי‪ .‬בשיטת החסכנות‪ ,‬הגרף המתקבל היה לינארי; אולם כעת הגרף נראה כעקום‬ ‫רווייה – המרחקים הגנטיים הולכים וגדלים בין עשרות אחוזים באופן יחסי‪ ,‬כי יש להניח שכמות‬ ‫השינויים הנסתרים הולכת ועולה ככל שמספר השינויים הנראים הולך וגדל‪.‬‬ ‫ככל שהענף קצר יותר‪ ,‬על כל שינוי יש קירוב של‬ ‫יחידת מרחק; ככל שהענף גדל ה"מס" על שינויים‬ ‫נסתרים הולך וגדל גם כן‪ .‬המודלים האבולוציונים‬ ‫מתבססים על שיטה הסתברותית המתייחסת לרצף‪,‬‬ ‫לעץ שמתאר את היחסים בין המינים ומטריצה‬ ‫שמתארת את השינויים הנראים בפועל‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪50‬‬ ‫מתוך המטריצה ניתן לגזור את ציון העץ ואורכי הענפים ולהבין מה קרה בערך מבחינת האבולוציה;‬ ‫השיטה של המודלים עוזרת להבין גם את הנסתר לצד הנראה‪.‬‬ ‫‪Maximum Likelihood‬‬ ‫בשיטה זו מחשבים את הסיכוי שמשהו יקרה בהתבסס על נתוני העבר – בהתאם להבדל שבין ההגדרות‬ ‫‪ probability‬לעומת ‪ .likelihood‬זהו חישוב של ניראות – כאשר המודל מתחשב בחוסר ההגינות‬ ‫הסטטיסטית בה פועלות המערכות הביולוגיות‪ .‬ה‪ ,maximum likelihood estimate-‬היכולת להעריך‬ ‫מודל ביחס לתצפיות‪ ,‬הוא התוצאה של הניראות‪.‬‬ ‫ככל שמספר התצפיות גדול יותר היכולת‬ ‫לסמוך על ההשערה הולכת וגדלה‪ .‬ככל‬ ‫שהשונות מצטמצמת‪ ,‬גם אם הערך‬ ‫שהתקבל עבור ‪maximu likelihood‬‬ ‫‪ estimate‬זהה לערך שבשונות רחבה‬ ‫יותר‪ ,‬אפשר לבטוח יותר בתוצאה כאשר‬ ‫היא מתקבלת בגרף עם השונות הצרה‪.‬‬ ‫השיטה מרכיבה מודל אבולוציוני שמתאים לסיכויי המעבר‪ .‬המודל הראשון מייחס סיכוי שווה לכל‬ ‫נוקליאוטיד להתחלף באחר‪ ,‬אולם הניראות מבוססת כבר על תצפיות בנוגע להתחלפות הזו כך שהמודל‬ ‫השני יתייחס לכך כמודל מורכב שמבחין בין טרנזיציה לטרנסברסיה – מעבר מפורין לפורין לעומת מעבר‬ ‫מפורין לפירמידין )למשל(‪ .‬בצורה כזו המודל כבר‬ ‫יותר מתקדם כי הוא מסביר יותר טוב את הנתונים‪.‬‬ ‫הטבלה משווה את שתי השיטות – החסכנות‬ ‫והניראות המקסימלית‪ .‬נראה שיש יחסי גומלין בין‬ ‫השיטות – החסכנות נותנת תשובות מהירות בעוד‬ ‫שבמודלים מתחשבים גם בביולוגיה של התהליכים‪.‬‬ ‫תהליכי בניית העץ‬ ‫כאשר נותנים ציון לעץ מסויים‪ ,‬יש לזכור כי קיים מרחב עצים עצום שלא ניתן לראות או לחשב‪ .‬לפיכך‬ ‫יש לבצע ניחושים מושכלים‪ ,‬תיכנות דינאמי ואלגוריתמים חמדניים השואפים תמיד לחפש גבוה יותר‬ ‫ולטפס נכון יותר בתוך המרחב‪ .‬הבעיה של הביואינפורמטיקאים‪ :‬נקודות מקסימום לוקאליות‪ .‬אחד‬ ‫הפתרונות המקובלים הוא להתחיל מכמה נקודות אקראיות במרחב – במקום להתחיל בנקודה אחת ואז‬ ‫להסתכן בכך שהיא תגיע למקסימום לוקאלי‪.‬‬ ‫שימו לב שעובדה זו נכונה גם עבור שיטת המודלים והניראות המקסימלית וגם עבור שיטת החסכנות‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫‪/‬שיעור ‪ :08‬בניית עצים – המשך‬ ‫‪51‬‬ ‫‪Bootstraping‬‬ ‫עם קבלת עץ אפשרי חובה להבין מהי מידת האמינות שלו‪ .‬הבעיה‪ :‬אין אמצעי חיצוני לחלוטין להערכה זו‬ ‫)דוגמה לשימוש באמצעי חיצוני היא בניית העץ לפי דאטה רצפי מסויים והשוואתו לעץ ידוע אחר(‪ .‬לשם‬ ‫כך קיים ה‪.Bootstraping-‬‬ ‫בתהליך זה בודקים עד כמה כל עמדה נפרדת שהיה בה שינוי מסכימה עם הסיפור האבולוציוני המסופר‬ ‫על ידי העץ‪ .‬יש לבדוק כמה מתוך כלל העמדות מסכימות עם הטופולוגיה ועד כמה מידת ההסכמה הזו‬ ‫מחזקת את אמיתות העץ מבחינה סטטיסטית‪.‬‬ ‫בשלב הראשון דוגמים קבוצות אקראיות של עמדות ובודקים אותן‪ .‬בשלב השני בונים עצים לפי ה‪-‬‬ ‫‪ dataset‬המלאכותי שהורכב באקראי‪ .‬כעת משווים את העצים האלה לעץ הנבדק‪ .‬כל אחד מהפיצולים‬ ‫מייצג את אחוז מערכי הנתונים השונים שקיבלו את אותו הפיצול‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪52‬‬ ‫שיעור ‪ :09‬בניית עצים‬ ‫ניתן לחלק את סך השיטות לייצור עצים לשיטות שמבוססות על מרחקים )‪ (Distance‬ומאפיינים‬ ‫)‪.(Character‬‬ ‫•‬ ‫השיטות מבוססות‪-‬המרחק מהירות מאוד‪ ,‬בונות עצים ממשיים‪ ,‬ועושות חישוב מינימלי ביותר‬ ‫)‪ (UPGMA‬או מיזעור סך אורכי הענפים בהינתן ששני ענפים חוברו )‪.(NJ‬‬ ‫•‬ ‫שיטות מבוססות‪-‬מאפיינים מונחות על ידי ההסבר המינימלי ביותר )‪ (MP‬בקביעת מינימום אירועים‬ ‫אפשריים‪ ,‬או בשיטות שיותר מקורבות להסברים הביולוגיים )‪ (ML‬הנותנות‪ ,‬על ידי מודל‬ ‫הסתברותי‪ ,‬הערכה כמותית של תופעות שונות באבולוציה‪.‬‬ ‫חיפוש במרחב העצים‬ ‫כשמסתכלים על כלל מרחב העצים‪ ,‬תוך שיטוט במרחב רב‪-‬מימדי של עצים וחיפוש אחר נקודת‬ ‫מקסימום‪ ,‬מה משמעות המעבר מנקודה לנקודה? כל נקודה היא למעשה הציון – בין אם על ידי ‪ MP‬או‬ ‫‪ .ML‬המשטח הוא אפשרויות שונות‪,‬‬ ‫עצים שונים‪ ,‬והמעבר בין שתי נקודות‬ ‫סמוכות הוא השוואה בין שני עצים‬ ‫שדומים בטופולוגיה שלהם וכעת משווים‬ ‫בין ה"גובה" של הנקודות – כלומר‬ ‫הציון של כל אחד משני העצים‪.‬‬ ‫ההבדל ‪ p‬והמרחק הגנטי ‪K‬‬ ‫מודלים הסתברותיים המבוססים על ניראות יכולים במידה מסויימת להתחשב בשינויים חבויים – דוגמת‬ ‫מוטציה ורברסיה‪ .‬המודלים האלה מתחשבים באחוז ההבדל בין שני הרצפים ונותנים לו את המרחק‬ ‫שיכול להיות בין המינים‪ ,‬בהתחשב בשינויים הנסתרים‪ .‬כאן המרחק אינו גדל לינארית עם ההבדלים‬ ‫משום שככל שיש יותר הבדלים יש סבירות לכמות הולכת וגדולה של שינויים חבויים‪ .‬ההבדלים גדלים‬ ‫פרבולית כפונקציה של המרחק הגנטי‪ .‬כשמספר השינויים עולה על ‪ 25%‬כבר אין יכולת לקבוע את‬ ‫המרחק בצורה אמינה‪.‬‬ ‫בבחינת עקרון החסכנות המתייחס לזהות‬ ‫או שונות ב‪ 0-‬ו‪ ,1-‬יכולים להיות‬ ‫אירועים שבהם מוטציה אחת בין שני‬ ‫עצים תראה זהה‪ ,‬אולם פעם אחת זו‬ ‫תהיה מוטציה חיובית )‪ (gain‬ופעם אחרת היא מוטציה שלילית )‪ .(loss‬שיטת החסכנות כשלעצמה אינה‬ ‫יכולה לקבוע איזו מוטציה עדיפה‪ ,‬אולם שיטת ה‪ ML-‬יכולה למצוא הערכת ‪ ML‬לקצב של ה‪gain-‬‬ ‫ולקצב של ה‪ .loss-‬בהתאם לקצב ניתן לקבוע איזה תסריט אבולוציוני הוא הסביר ביותר‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :09‬בניית עצים‬ ‫‪53‬‬ ‫‪Bootstrap‬‬ ‫תהליך זה עוזר להעריך את אמינות העץ שלא על‬ ‫סמך קריטרון חיצוני אלא על ידי "הסכמה" של‬ ‫הנתונים עם עצמם‪.‬‬ ‫בשיטה זו לוקחים את מערך הנתונים המעומד‬ ‫המקורי ומשתמשים בעמדות אקראיות מתוכו –‬ ‫לפעמים אפילו כמה פעמים באותה עמדה – על מנת‬ ‫לבדוק כמה מהעצים שנוצרים באופן כזה יהיו עדיין‬ ‫עצים שמסכימים עם הפיצולים שהיו בעץ המקורי‪.‬‬ ‫שימו לב שהדגימה אקראית לחלוטין אבל מתוך‬ ‫עמדות אמיתיות – מתוך אותו מאגר עמדות‬ ‫שבעזרתו נבנה העץ המקורי‪.‬‬ ‫גנומיקה משווה‬ ‫תחום זה הינו אולי החשוב ביותר בקהילה‬ ‫הביולוגית – בין אם בשימוש ישיר או לא‪ .‬בסופו של דבר הביולוגיה היא מעין ‪Reverse Engineering‬‬ ‫– נסיון להבין איך האורגניזם עובד‪ ,‬הנסיון להבין את הפונקציה ויחסי הגומלין של גנים שונים‪ .‬אולם יש‬ ‫לזכור כי המהנדס של המערכות הביולוגיות הוא הברירה הטבעית – שמעדיפה את האורגניזמים‬ ‫שמעמידים יותר צאצאים‪.‬‬ ‫עובדה זו מצווה שמבחינת המורכבות המערכות הביולוגיות מורכבות יותר – הוכחה לכך היא בביולוגיה‬ ‫המולקולארית אשר ככל שהיא מתקדמת וחושפת עוד טפח מתברר שעדיין מוסתרים טפחיים – היום‬ ‫יודעים יותר וגם יודעים כמההתמונה השלמה מורכבת הרבה יותר מהגלוי‪ .‬ניתן ממש להפעיל זאת‬ ‫כקריטריון‪ :‬מידת המורכבות של אובייקט יכולה ללמד אם המהנדס היה אינטילגנטי )"‪ ("Robot‬ויצר‬ ‫עיצוב מודולארי‪ ,‬בעל מודולים וקבוצות של אופרטורים שמבצעים פעולות יחד; או אם המהנדס היה‬ ‫ביולוגי‪ ,‬שיצר "‪ "UFO‬מורכב מאוד‪.‬‬ ‫זוהי הסיבה לקושי הגדול של ביצוע ה‪ Reverse Engineering-‬בביולוגיה‪ .‬היתרון של ביולוגים הוא‬ ‫שכשהם חוקרים אורגניזם מסויים ניתן להקיש ממנו על הרבה מאוד אורגניזמים אחרים בפלנטה – שכן‬ ‫לכולם אב קדמון משותף‪ .‬כך למשל על מנת להבין את הביולוגיה של האדם אין חובה לבצע מחקר‬ ‫ישירות באדם – ניתן להשתמש במודל כמו ‪,E.coli‬‬ ‫שמרים‪ ,‬תולעים‪ ,‬דרוזופילות ועכברים – שבהם‬ ‫מקישים‬ ‫הרבה‬ ‫מאוד‬ ‫דברים‬ ‫גם‬ ‫מבחינות‬ ‫התנהגותיות ולא רק גנטיות‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪54‬‬ ‫בפילוגנזה‪ ,‬כדי להבין איך נראית‬ ‫האבולוציה‪ ,‬לא בודקים רק את ה‪-‬‬ ‫‪sequence alignment‬‬ ‫‪,multiple‬‬ ‫אלא גם מה קצב האבולוציה שהתרחשה‬ ‫באותה עמדה‪ ,‬האם העמדה שמורה או‬ ‫לא‪ ,‬וגו‪ .‬זה מידע שניתן לקבל רק‬ ‫כשמתחשבים בסדר הסופי של העץ‪.‬‬ ‫בתחום‬ ‫האבולוציה‬ ‫המולקולארית‪,‬‬ ‫הרלוונטי גם לחוקרי הבילוגיה המולקולארית באופן כללי‪ ,‬חשוב להבין את לחצי הסלקציה הפועלים‬ ‫באיזורים שונים בגנום ועל הלחצים הפועלים על גן במיקום ספציפי‪.‬‬ ‫שיטות להערכות צפי‬ ‫היכולת להבין כיצד בדיקה מסויימת עשויה להיות נכונה או שגויה וסוג הטעויות האפשריות בבדיקה‬ ‫ספציפית היא אספקט חשוב מאוד בביולוגיה‪ .‬נניח בדיקה של נשאות ל‪ :HIV-‬ישנה תוצאה חיובית או‬ ‫שלילית וישנה תוצאת אמת או שקר – דבר המחלק‬ ‫את התוצאות לארבע לפי החלוקה הבאה‪:‬‬ ‫הבדיקה יכולה להיות צודקת בשני מיקרים‪ :‬במקרה‬ ‫שבו היא נותנת תוצאה חיובית לנשא ובמקרה בו‬ ‫היא נותנת תוצאה שלילית לאדם בריא‪ .‬באותה‬ ‫מידה‪ ,‬הבדיקה יכולה לטעות בשני מקרים‪ :‬לתת‬ ‫תוצאה חיובית לאדם בריא )טעות מסוג ‪ (1‬או לתת‬ ‫תוצאה שלילית לנשא )טעות מסוג ‪.(2‬‬ ‫כל בדיקה‪ ,‬חישובית או ניסויית‪ ,‬שצריכה לתת‬ ‫תשובה בינארית – כן או לא‪ ,‬הצלחה או כשלון –‬ ‫ניתן לבנות בצורה סקפטית מאוד‪ ,‬שבה רק אם הממצאים מראים בוודאות שהאדם הוא נשא‪ ,‬היא תגיד‬ ‫שהוא אכן נשא; מצד שני אפשר לעשות בדיקה מתירנית – שאחוז גדול יחסית מהמקרים היא מגדירה‬ ‫כנשא‪ .‬בכל אחד מהמקרים הקיצוניים )תמיד תיתן תשובה שלילית או תמיד תיתן תשובה חיובית(‬ ‫מנוטרלת אחת מהשגיאות האפשריות‪.‬‬ ‫נניח שמבצעים בדיקת ‪ BLAST‬ומעלים את ערך ה‪ – E-Value-‬כתוצאה מכך גנים הומולוגים ייתפסו‬ ‫ביתר קלות אולם במקביל גם התוצאות ה‪ False Positive-‬יעלו‪ .‬הורדה של ה‪ E-Value-‬תוריד את‬ ‫הסיכוי לטעות מסוג ‪,2‬אבל גם את הסיכוי למצוא‬ ‫באופן אמין את ה‪.True Negative-‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :09‬בניית עצים‬ ‫‪55‬‬ ‫אבולוציה אדאפטיבית )דארוויניסטית(‬ ‫יש למצוא איזורים בגנום שעברו אבולוציה‬ ‫דרוויניסטית – בין אם אבולוציה חיובית או‬ ‫שלילית‪ .‬ידועים מקרים של שינוי במאגר הגנים‬ ‫עקב לחץ סלקטיבי לשינוי – דוגמת המלאניזם‬ ‫התעשייתי של העש בבריטניה‪ ,‬כאשר העשן דחף‬ ‫ליצירה של השינוי באוכלוסיה‪.‬‬ ‫אבולוציה מטהרת )שמורה(‬ ‫דבר שכיח במקטעים פונקציונאלים בגנום הוא‬ ‫‪ ,purifying selection‬אשר בה היה לחץ סלקטיבי‬ ‫חזק מאוד למניעת שינויים‪ .‬דוגמה לכך היא משקל‬ ‫ילודים בלידה‪.‬‬ ‫איזורים אלו נשמרים על ידי האבולוציה על מנת‬ ‫שלא יישתנו – וכל שינוי באיזורים אלו במרבית‬ ‫המקרים יזיק ל‪ fitness-‬ולא יעלה אותו‪.‬‬ ‫תיאוריית האבולוציה הנייטרלית‬ ‫כ‪ 90%-‬הגנום‪ ,‬ככל הנראה‪ ,‬אינו גנום פונקציונאלי‪ .‬משמעות הדבר היא שאיזורים אלו אינם משפיעים‬ ‫ישירות על ה‪ fitness-‬של האורגניזם‪ .‬כתוצאה יש באיזורים אלו וריאביליות ופולימורפיזם‪ ,‬והסיכוי‬ ‫לקיבוע של אלל מסויים באוכלוסיה נתון על ידי סיכוי לתופעות ה‪ .random drift-‬היום ידוע שבאופן‬ ‫גורף‪ ,‬תיאוריה זו נכונה – מרבית הגנום עובר אבולוציה תחת משטר אבולוציה נייטרלית‪ ,‬מאירועים‬ ‫אקראים וללא שינוי ה‪.fitness-‬‬ ‫איתור נאיבי‬ ‫הגישה לאיתור אתרי סלקציה על סמך איזורים שמורים בלבד היא גישה נאיבית‪ ,‬בעיקר בהתחשב בכך‬ ‫שרוב האיזורים עוברים שינויים באקראי; אומנם ניתן לזהות איזורים של אבולוציה מטהרת כאיזורים‬ ‫שמורים מאוד‪ ,‬אולם אם איזור לא שמור אין זה אומר שהייתה שם אבולוציה אדאפטיבית‪ ,‬כי זה לא‬ ‫מספיק; במצב זה הנחת האפס תהיה דווקא שהאיזור אינו פונקציונאלי והאבולוציה היא נייטרלית‪.‬‬ ‫אם כן‪ ,‬איך מוצאים איזורים שהשתנו לא בשל חוסר חשיבות אלא ההיפך? לשם כך יש לחפש איזורים‬ ‫שעברו שינויים תוך שימוש בתכונת ה‪ Redundancy-‬של הקודונים‪ .‬תופעה זו מאפשרת להפריד בין שני‬ ‫סוגי התמרות ברמת הקודונים‪:‬‬ ‫•‬ ‫‪ – Synnonymous‬שינוי בקודון שומר על אותה חומצת אמינו‪ ,‬אין שינוי בחלבון‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪56‬‬ ‫•‬ ‫‪ – Non-Synonymous‬השינוי בקודון משנה את חומצת האמינו ולכן את החלבון‪.‬‬ ‫קצב השינויים הסינונימים‪ ,‬היות ואינם גורמים לשינוי‪ ,‬יהיו הקצב הבסיסי של החלופה באותו איזור גנומי‬ ‫)ביקורת(‪ .‬כעת ניתן להשוות את השינויים הלא‪-‬סינונימים האחרים‪ :‬אם הקצבים שווים‪ ,‬הרי שזוהי‬ ‫אבולוציה נייטרלית; אם השינויים הסינונימיים‬ ‫רבים‬ ‫מהשינויים‬ ‫הלא‪-‬סינונימיים‬ ‫זהו‬ ‫מצב‬ ‫אבולוציה מטהרת )נוגדת שינויים(‪ ,‬ואם השינויים‬ ‫הסינונימים נדירים יותר מהשינויים הלא‪-‬סינונימים‬ ‫זה אירוע שעשוי להיות אדאפטיבי ונגרם‬ ‫בשכיחות‬ ‫גבוהה‬ ‫עקב‬ ‫לחצים‬ ‫סלקטיביים‬ ‫חיצוניים‪.‬‬ ‫במקטעים שאינם מקודדים לחלבונים עדיין מנסים למצוא רקע מסויים – כמו שנעשה בעזרת הסינונימים‬ ‫– והיום התחום מתקדם אך נתון למחלוקת‪.‬פתרון אחד הוא מציאת איזורים מקודדים באותו איזור בגנום‬ ‫ואז ביצוע הערכה בצורה יחסית של מידת השינויים הצפויה גם לאיזור הסמוך שאינו מקודד‪.‬‬ ‫שימו לב‪ :‬באלגוריתמים מתקדמים‪ ,‬הסינונימים אינם לוקחים בחשבון רק החלפה ברמת הקודון אלא גם‬ ‫חומצות אמינו דומות או שונות )גם אם הוחלפו חומצות האמינו‪ ,‬אין זה אומר שהשינוי ישפיע על המבנה‬ ‫והפונקציונאליות של החלבון( ותפקידן בחלבון )אתר פעיל או לא‪ ,‬למשל(‪.‬‬ ‫דוגמאות‬ ‫בדוגמה הבאה מציגה את מירוץ החימוש שבין וירוס‬ ‫ה‪ HIV-‬לבין גוף המאחסן‪ .‬הנגיף עובר אבולוציה‬ ‫מהירה מאוד‪ ,‬כאשר הסלקציה האדאפטיבית של‬ ‫הנגיף מוגברת על ידי קוקטייל התרופות שמקבל‬ ‫הנשא‪.‬‬ ‫אחד מהחלבונים החשובים לאנזים הוא פרוטאזה‬ ‫שמבקעת את החלבונים שלו‪ .‬הקוקטייל שמקבל הנשא מכיל תרופה נגד הפרוטאזה‪ ,‬וכעת נוצר לחץ‬ ‫סלקטיבי לשינוי על גן הפרוטאזה‪ .‬בצורה כזו ניתן להשוות בין עמדות שונות ולראות אילו איזורים עברו‬ ‫ברירה חיובית כתוצאה מהטיפול התרופתי ואילו עברו ברירה מטהרת‪.‬‬ ‫יש דרכים שונות לזהות לחצים לסלקציה חיובית‪:‬‬ ‫•‬ ‫חלבונים המערבים את המערכת החיסונית – קשורים במרוץ החימוש בין הוירוס למערכת‬ ‫החיסונית והתרופות שאנו נותנים למטופל‪.‬‬ ‫•‬ ‫חלבונים הקשורים לאינטראקציות בין הפתוגן והמארח‪.‬‬ ‫•‬ ‫חלבונים הקשורים בדופליקציות גנטיות‪.‬‬ ‫•‬ ‫חלבונים המעורבים במערכות הרבייה או השכפול של האורגניזמים‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :09‬בניית עצים‬ ‫‪57‬‬ ‫אחד הגנים שעוברים שינויים בסלקציה חיובית הוא הגן שקשור לפיתוח השפה‪ .‬הוא התגלה עקב משפחה‬ ‫בה למספר פרטים במשפחה הייתה יכולת דיבור פגועה‪ ,‬וכשריצפו אותם מצאו את הגן המעורב בבעיה –‬ ‫‪ .FOXp2‬לאחר מניפולציות סטטיסטיות התגלה שהיחס לשינויים סינונימיים ולא‪-‬סינונימיים מראה יותר‬ ‫שינויים לא‪-‬סינונימיים ברמה מובהקת‪ .‬נראה שעיקר המוטציות הופיעו בקו שהוביל לבני אדם‪.‬‬ ‫בהמשך עשו מחקר על הגן בעכברים‪ ,‬ובדקו את היכולת הווקלית – בעכברים עם נוק‪-‬אאוט לגן יש יכולת‬ ‫ווקאלית מוחלשת; ציפורים עם פגיעה בגן לא יכולות ללמוד שירים נוספים‪ .‬משמעות הדבר היא שהגן‬ ‫התחיל כרלוונטי ליכולת הווקאלית ובהמשך עבר לחץ להשתנות על מנת לפתח את השפה‪.‬‬ ‫יש לציין כי הגן הזה הוא פקטור שיעתוק – כלומר הוא מבצע את הפונקציה שלו דרך גנים נוספים רבים‬ ‫אחרים‪ .‬כמו כן יש לזכור שמצאו קשר כלשהו לשפה גם בבעלי חיים אחרים שאצלם הגן נמצא בהקשר‬ ‫ווקאליות‪ ,‬אולם יש לקחת בחשבון שבאותה תקופה המחקר התעסק רבות באותו הגן ספציפית ובבעיות‬ ‫ווקאליות; ייתכן שיש גנים אחרים‪ ,‬יותר משמעותיים‪ ,‬הקשורים בכך‪ ,‬אבל לא הצטברו עדויות בנוגע אליהם‬ ‫כי ה"אלומה" לא הופנתה אליהם‪.‬‬ ‫לסיכום‬ ‫בעיסוק בפיצוצים קומבינטוריים‪ ,‬לא ניתן לסרוק את כולם; לא ניתן להשתמש בגישת ה‪ MP-‬כדי להעריך‬ ‫את כל העצים האפשריים‪ .‬ככל שיש יותר אפשרויות יש יותר קומבינציות‪ ,‬עד אינסוף‪.‬‬ ‫נניח שמחשבים את העצים עבור ‪ 85‬מינים‪ .‬לשם כך מייצרים ‪ – grid computation‬התקנת תוכנה על‬ ‫מחשבים ביתיים‪ ,‬אשר כאשר המחשב אינו פעיל )במצב ‪ (Idle‬הוא יבצע חישובים עבור המערכת‪ .‬גם אם‬ ‫תזומן היכולת החישובית של כל אחד מהמחשבים בעולם‪ ,‬ואפילו תוכפל באלף ונניח שהעץ נבנה על ידי‬ ‫פעולה אחת בלבד )בעזרת ‪ ,(MP‬דבר שאינו נכון; עדיין כמות העצים שניתן להפיק הם ‪,10150*3.94‬‬ ‫כלומר יידרשו ‪ 10120‬שנים לבצע את החישוב הזה‪.‬‬ ‫למרות חוק מור‪ ,‬הקובע שקצב החישוב הולך ועולה כל הזמן‪ ,‬תמיד יימצאו בעיות קומבינטוריות שלא‬ ‫ניתן לפתור‪ .‬הפתרון עודנו רחוק אולם זו לא ממש בעיה – אפשר להשתמש במדגמים ויוריסטיקה‪,‬‬ ‫המאפשרים למצוא בזמן סביר פתרון מקורב‪ .‬אומנם לא מרחב העצים העצום הקיים לא נסקר במלואו‪,‬‬ ‫אולם הפתרון קרוב לפתרון הודאי האופטימלי – בהתאם לדרישות‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪58‬‬ ‫שיעור ‪ :10‬מיקרואראי ונתוני ביטוי גנים‬ ‫המניע למחקר‬ ‫צ'יפים של ‪ microarray‬יכולים להיות יחסיים ולא יחסיים ומודדים אלפי מקטעי גנים במקביל‪ .‬הכלי הזה‬ ‫מאפשר מדידה של ביטוי כל הגנים בבת אחת‪ ,‬המפיק למשל פרופיל ביטוי של סוג מסויים של רקמה –‬ ‫אפשר להרץ את כל ה‪ mRNA-‬מהרקמה ולראות את הביטוי‪ .‬אפשר גם לבדוק תזמון ספציפי – למשל‬ ‫ביטוי ברקמה מסויימת באם ובעובר במקביל‪ .‬בדיקה נוספת היא של הגנים המתבטאים ברקמה סרטנית –‬ ‫ברקמה סרטנית הרקמה היא הטרוגנית ויש לנסות לפרק את הסיגנל לסוגי התאים השונים הקיימים‪.‬‬ ‫ישנן גם שאלות הרלוונטיות לביטוי השוואתי‪ :‬אם עושים ‪ knockout‬לפקטור שיעתוק‪ ,‬ניתן להשוות בין‬ ‫הזן המבטא והזן הלא מבטא על מנת למצוא את הגנים המבוטאים או מבוקרים על ידי הפקטור‪ .‬כך נראה‬ ‫את ההשפעה של הביטוי ‪ downstream‬בהתאם לזמן בו נבלם ביטוי הפקטור – בין חצי שעה ליומיים‬ ‫אחרי ההשתקה כמות הגנים שיישתנו לרוב תהיה שונה‪.‬‬ ‫אפשר גם לבדוק אילו גנים מתבטאים בזמן ערות מול שינה‪ ,‬או במוח של חולי סכיזורניה – כל אלו הן‬ ‫שאלות שניתן לענות עליהן בעזרת נתוני ביטוי גנים‪.‬‬ ‫האנאליזה‬ ‫נניח שנערך סט ניסויים‪ .‬ניתן להשתמש במערך המיקרו‪-‬אראי כמטריצה )לאחר עיבוד הנתונים של השבב‬ ‫על ידי ‪ image analysis‬וקבלת תוצאות מספריות במקום הנקודות(‪ .‬מערך הנתונים יכיל סוגים שונים‬ ‫של חזרות‪:‬‬ ‫•‬ ‫חזרה טכנית – דגימה ביולוגית דוגמים על שני צ'יפים שונים‪ ,‬בין אם באותו יום‪ ,‬ימים אחרים‪,‬‬ ‫מעבדות שונות‪ .‬חזרות אלו חשובות כיוון שהן עוזרות להתמודד עם הארטיפקטים בניסויים אלו –‬ ‫יותר דגימות באיזורים מסויימים בשבב יפיקו את מידת הסטייה; יש גלאים מסויימים שיעילים יותר‬ ‫מאחרים; אוזון משפיע על פירוק הצובענים; יש הרבה הטיות שקשורות למקום ולזמן הניסוי‪.‬‬ ‫•‬ ‫חזרה ביולוגית – לוקחים דגימות מגידול מסוג מסויים אבל מכמה חולים שונים‪.‬‬ ‫פרופיל הביטוי‬ ‫בטבלה הבאה מופיעות ארבע דגימות ‪ WT‬וארבע דגימות מגידול מוחי‪ ,‬ומשמונה הדגימות בדקו שלושה‬ ‫גנים‪ .‬בשניים מהגנים מופיעה עלייה בתאי הגידול לעומת ‪ ,WT‬בעוד שבגן ‪ 2‬אין ביטוי כזה‪ .‬גנים עם‬ ‫פרופיל ביטוי דומה עשויים להיות קשורים לתכונות של התא השונה לעומת ‪ – WT‬אם לשני גנים יש‬ ‫אותו פרופיל ביטוי אולי יש להם מנגנוני בקרה‬ ‫דומים‪ ,‬או שהפונקציה שלהם קשורה לאותו תהליך‬ ‫)כמו‬ ‫אפופטוזס‪,‬‬ ‫למשל(‪.‬‬ ‫מצביע‬ ‫על‬ ‫קו‪-‬‬ ‫פונקציונאליות או קו‪-‬בקרה בקבוצת הגנים‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :10‬מיקרואראי ונתוני ביטוי גנים‬ ‫‪59‬‬ ‫דוגמה פשוטה לפרופיל ביטוי הוא פרופיל בין שני סוגי רקמות – למשל‬ ‫רקמות נורמליות ורקמות גידול‪ .‬קוד הצבעים בתמונה הוא אותו קוד‬ ‫שיש בשבב‪ ,‬אבל במטריצה הזו כל עמודה היא צ'יפ שלם – כאשר‬ ‫בחלק העליון יש גנים שהם בביטוי יתר )אדום( בגידול לעומת ה‪WT-‬‬ ‫ובחלק התחתון הגנים הם בתת‪-‬ביטוי )ירוק( לעומת ‪ .WT‬חשוב תמיד‬ ‫לדעת מהי נקודת היחוס‪.‬‬ ‫קיבוץ של גנים בעלי פרופיל דומה יכול להצביע על קבוצות גנים‬ ‫קו‪-‬מבוקרות או קו‪-‬פונקציונליות‪.‬‬ ‫אפשר גם להשוות פרופיל ביטוי בין רקמות‪ .‬ניתן לראות שלגידול ‪bt1‬‬ ‫‪ & bt3‬יש פרופיל ביטוי דומה בעוד לשרקמות ‪ bt2 & bt4‬יש פרופיל‬ ‫ביטוי שונה )אך דומה ביניהן(‪ .‬אם יש דרך לקבץ את הוקטורים האלה‪,‬‬ ‫ניתן לגלות סוגים שונים של גידולים המאופיינים בפרופילי ביטוי שונים‪.‬‬ ‫שיטה זו מאפשרת לבצע ‪Class Discovery‬‬ ‫ולגלות מהו סוג הגידול שהאונקולוג עומד מולו‪,‬‬ ‫דבר בעל חשיבות קלינית ופתולוגית; שיטה זו‬ ‫מאפשרת לבצע זיהוי מאוד מדוייק של הגידול לפי‬ ‫חתימתו המולקולארית‪ .‬ניתן לבצע גם ‪Class‬‬ ‫‪ – Prediction‬ניבוי של דגימת גידול שאינה מתוייגת בעבר‪ .‬גם זה חשוב מאוד בשביל מציאת הטיפול‬ ‫הנכון בגידול‪ .‬דבר זה נעשה על ידי שיטות סיווג‪.‬‬ ‫לפעמים החתימה המאפיינת דגימות שונות לא‬ ‫מתקיימת בכל הגנים – שהרי מבין כל הגנים‬ ‫ברקמה לא כולם משחקים תפקיד בהפיכת הרקמה‬ ‫לסרטנית‪ .‬כל הגנים שאינם שייכים למערך מכניסים‬ ‫"רעש" לנתונים‪ .‬מסיבה זו יש להשתמש רק בגנים‬ ‫שיש ביניהם תבנית אמיתית‪ .‬בדוגמה נראה שלגנים ‪ 1‬ו‪ 2-‬יש פרופיל ביטוי דומה – נמוכים ברקמות‬ ‫המסומנות באדום וגבוהים בירוק‪ ,‬ביחסים דומים‪ .‬אולם גן ‪ 3‬אינו מקיים תבנית זו – למרות שניתן לומר‬ ‫שבקבוצה אחת הוא גבוה ובשניה הוא נמוך‪ ,‬אין יחסים מספיק קבועים כדי להכניס אותו ולכן הוא יוגדר‬ ‫כרעש רקע‪.‬‬ ‫דוגמה אחת של בי‪-‬קלאסטרים או מציאת חתימה כזו‬ ‫נכנסה כבר למוצר מסחרי לזיהוי סרטני‪ :‬השוואת דגימת‬ ‫חתימה של ‪ 70‬גנים שבגידולי סרטן העשויים לפתח‬ ‫גרורות מתבטאים ביתר לעומת גידולים שלא יפתחו‬ ‫גרורות‪ .‬מכאן שהחתימה של ‪ 70‬גנים אלו היא מאבחן‬ ‫טוב לסיכוי לגרורות מהסרטן הזה‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪60‬‬ ‫שימו לב‪ :‬באראי בתמונה השורות הן חולות שונות והעמודות הן הגנים; הטור השחור לבן מציין האם יש‬ ‫סיכוי לגרורות )לבן( או אין סיכוי לגרורות )שחור(‪ .‬הימצאות צבע שחור בחלק התחתון או לבן בחלק‬ ‫העליון היא טעות של המדידה – ‪ false positive‬למעלה ו‪ false negative-‬למטה‪.‬‬ ‫יישומים‬ ‫•‬ ‫שינוי מקור הגלוקוז של ‪ E.coli‬על מנת לבדוק את הגנים המעורבים בנצול מקורות פחמן שונים‪.‬‬ ‫•‬ ‫מדידת פרופילי ביטוי שונים של שמרים בתנאים שונים‪.‬‬ ‫היישומים האלו תורמים למאמץ הגדול לפיענוח מעגל הבקרה בתא – לפענח מה עושה כל פקטור‬ ‫שיעתוק‪ ,‬מה הדינמיקה של מעגלי הבקרה וכדומה‪ .‬אחת השאיפות היא שבעזרת סט של נתוני מיקרו‪-‬אראי‬ ‫ניתן יהיה ללמוד את מבנה רשתות הבקרה‪.‬‬ ‫שימוש נוסף במיקרו‪-‬אראי הוא לא רק לביטוי אלא גם לזיהוי מקטעי ‪ ,DNA‬כך שניתן למשל לזהות את‬ ‫סט ה‪ DNA-‬אליו נדבק חלבון מסויים‪ ,‬למשל פקטור שיעתוק כלשהו‪ .‬טכניקה זו מכונה ‪Chromatin‬‬ ‫)‪(ChIP‬‬ ‫‪.immune-precipitation‬‬ ‫בטכניקה הזו שוברים ‪ DNA‬למקטעים‬ ‫לאחר שנתנו לחלבון להיקשר אליו ואז‬ ‫מסמנים את החלבון בעזרת נוגדן;‬ ‫שוטפים ומקבלים רק את החלבון עם‬ ‫הנוגדן הקשור ואחרי שמשחררים את ה‪-‬‬ ‫‪ DNA‬מהחלבון מקבלים את כל איזורי‬ ‫הפרומוטורים של החלבון על גבי השבב‬ ‫)‪.(ChIP-on-chip‬‬ ‫שימוש אחר שנעשה בשמר היה לקחת את כל פקטורי השיעתוק ולבצע לכולם ‪ .ChIP on Chip‬בצורה‬ ‫זו קיבלו את כל מסלולי הבקרה של שמר ואז המשיכו וניתחו את האינטראקציה בין המסלולים‪ .‬בהמשך‬ ‫שילבו את הנתונים עם נתוני שימור ברמת הרצף של איזורים שונים של הפרומוטור‪ ,‬מתוך הנחה‬ ‫שאיזורים החשובים לקישור יהיו שמורים יותר במינים קרובים של שמר‬ ‫‪11‬‬ ‫וכן איפשרו לבדוק האם‬ ‫החלבון באמת משפיע על הביטוי‪ ,‬האם הוא גורם להגברה או עיכוב וכדומה‪ .‬בצורה זו מצאו את "קוד‬ ‫הפרומוטורים" מבחינת אתרי הקישור‪ .‬הפרומוטורים חולקו לסוגים שונים‪ ,‬למשל בעלי אתר יחיד‪ ,‬זוגות‬ ‫או שלשות של אתרים סמוכים‪ ,‬תערובת של סוגי אתרים באותו פרוטומוטור‪ ,‬רגולטורים מקבילים‬ ‫וכדומה‪.‬‬ ‫היום יש בביולוגיה חישובית וביואינפורטיקה הבשלה של הטכנולוגיות והן מוחלפות על ידי טכנולוגיות‬ ‫אחרות; יש אינטגרציה של מקורות מידע שונים‪ ,‬ולכן חשוב לדעת את מקורות המידע הקיימים ואופני‬ ‫השילובים ביניהם‪.‬‬ ‫‪ 11‬מאפשר לדעת לא רק מהו הפרומוטור אלא גם את הרצף של הקישור‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :10‬מיקרואראי ונתוני ביטוי גנים‬ ‫‪61‬‬ ‫‪Tiling arrays‬‬ ‫‪ tku‬מערכים שהגלאים שלהם מרצפים מקטעים שונים על הגנום‪ ,‬לפעמים עם חפיפה‪ .‬זהו סוג של‬ ‫מיקרואראי המשמש לקבלת מידע צפוף ואמין לגבי מקטע ‪ DNA‬מסויים – למשל בשביל לרצף‬ ‫פרומוטור שלם )הפרומוטור באורך ‪ 600‬נוקליאוטידים והשבב מכיל ‪ 20-30‬נוקליאוטידים בכל נקודה(‪.‬‬ ‫בשנים האחרונות יש יותר ויותר מעבר ל‪ – next generation sequencing-‬מכונות ריצוף שפועלות‬ ‫הרבה יותר מהר‪ .‬בעזרת הכלים העוצמתיים האלה אפשר להחליף את רוב הפונקציות של מיקרואראי‪.‬‬ ‫הגישה הזו היא לא מוטית‪ ,‬לא מנחשים מראש את הפרובים כמו במיקרואראי והיא הרבה יותר מדוייקת‪.‬‬ ‫בצורה זו ‪ RNA-seq‬ו‪ ChIP-seq-‬מחליפים את הצ'יפים של ‪ ChIP-On chip‬ו‪.mRNA-‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪62‬‬ ‫שיעור ‪ :10‬למידה של מכונות – ‪Machine Learning‬‬ ‫למידת מכונות היא תחום במדעי המחשב המאגד את השאלות והאלגוריתמים המקבילים למה שמוגדר‬ ‫כלמידה‪ .‬ניתן לחלק את התחום הזה לשלושה חלקים‪:‬‬ ‫•‬ ‫למידה מפוקחת )‪ – (Supervised learning‬הנתונים שעליהם מתאמנים מתוייגים באופן כלשהו‬ ‫)נכון‪/‬לא נכון‪ ,‬זכר‪/‬נקבה‪ ,‬בריא‪/‬חולה וכדומה(‪ .‬האלגוריתם משתמש בתיוגים האלה ומנסה לחזות‬ ‫תיוגים של דוגמאות לא מתוייגות‪.‬‬ ‫•‬ ‫למידה לא מפוקחת )‪ – (Unsupervised learning‬סוג זה של למידה מקבל נתונים לא מסומנים‬ ‫ומנסה למצוא בתוכו מבנה‪ ,‬בצורה לא מבוקרת‪ ,‬ללא "מורה" חיצוני המכווין לתשובה הנכונה‪.‬‬ ‫בשיטה זו לא זמינות דוגמאות מתוייגות‪ .‬קלאסטרינג הוא סוג אחד של למידה זו‪.‬‬ ‫•‬ ‫למידת חיזוק )‪ – (Reinforcement learning‬למידה שבה התיוג והחיזוקים לתיוג לא חייבים‬ ‫להיות במונחים קטגוריים אלא בצורת חיזוקים חיוביים על כל פעולה או ניחוש שאתה עושה‪ .‬דוגמה‬ ‫לכך היא תוכנת ה‪ 20-‬שאלות‪ ,‬או המחשב שמאזן מקל על מנוע המדפסת‪.‬‬ ‫מהו קלאסטרינג?‬ ‫הקלט של קלאסטרינג הוא סט של דוגמאות‪ ,‬ועל מנת לעשות‬ ‫קלאסטרינג יש להגדיר מרחק בין הדוגמאות או את מיקומן‬ ‫במרחב כלשהו‪ .‬הפלט הוא קבוצה של מקבצים‪ .‬הבעיה‬ ‫בתחום זה היא בהגדרה של הקלאסטרינג‪ :‬לרוב לא מצליחים‬ ‫להגדיר היטב מהי התוצאה המבוקשת‪ ,‬מהי הפונקציה‬ ‫שמנסים למזער או למקסם בשאלת הקלאסטרינג‪.‬‬ ‫הקלאסטרינג הוא סוג של למידה לא‪-‬מבוקרת‪ ,‬למרות שיש וריאנטים שמכניסים סט של תיוג נתונים‬ ‫)‪ (data labeling‬שמאפשר בקרה מסויימת‪ .‬כמו כן בשיטה עולה שאלת משמעות הדמיון – מהו דמיון בין‬ ‫דוגמאות‪ ,‬האם יש ייצוג בקלאסטר‪ ,‬איך מגדירים משהו כזה וכדומה‪.‬‬ ‫האלגוריתם ‪ UPGMA‬של בניית עץ הוא למעשה קלאסטרינג‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :10‬למידה של מכונות‪– Machine Learning‬‬ ‫‪63‬‬ ‫קלאסטרינג של נתוני ביטוי‬ ‫הגדרות אפשריות לפרופילים של קלאסטרינג‪:‬‬ ‫•‬ ‫בקלאסטרינג של דגימות‪ ,‬לכל דגימה ניתן‬ ‫להגדיר פרופיל ביטוי של כל הגנים בדגימה‪.‬‬ ‫עמודה שמתארת צ'יפ אנושי עם ‪ 20,000‬גנים‬ ‫יכולה להיות מתוארת כנקודה יחידה במרחב‬ ‫בעל ‪ 20,000‬מימדים‪.‬‬ ‫•‬ ‫בעיה אחרת היא קיבוץ גנים כדי למצוא גנים‬ ‫קו‪-‬פונקציונאלים או קו‪-‬רוגלטורים‪ .‬במקרה כזה‬ ‫יש לקבץ גנים לא לפי דגימות כי אם לפי גנים‪:‬‬ ‫אם יש ארבעה צ'יפים כל גן הוא נקודה במרחב‬ ‫ארבעה‪-‬מימדי‪.‬‬ ‫•‬ ‫נניח הצגה של קיבוץ גנים בשני מימדים כדי‬ ‫למצוא גנים בעלי פרופיל ביטוי דומה‪ .‬כל נקודה‬ ‫במרחב היא גן המסומן על ידי שתי קואורדינטות‬ ‫הניתנות לפי עוצמת הביטוי של הגן בתנאי ‪1‬‬ ‫ובתנאי ‪ .2‬תוצאה של קלאסטרינג יכולה‬ ‫להיראות כמו באיור‪ ,‬כאשר הגנים בכל קבוצה‬ ‫עשויים להיות מבוקרים יחד‪.‬‬ ‫מרחק בין שני פרופילי ביטוי‬ ‫בסוגי קלאסטרים מסויימים יש להגדיר מידת מרחק‬ ‫או דמיון‪ .‬מידת המרחק המקובלת היא המרחק‬ ‫האאוקלידי‪ ,‬שעובדת בכל כמות של מרחבים‬ ‫)נוסחה באיור(‪ ,‬ומחושבת על פי הקואורדינטות של‬ ‫כל נקודה‪.‬המרחק הזה יכול להיות דמיון או מרחק‬ ‫פיזי במרחב הרב‪-‬מימדי‪.‬‬ ‫תחילה יש לחשב את המרחקים בין כל זוגות הגנים‪.‬‬ ‫החישוב מפיק מטריצת מרחקים‪ .12‬בבניית עץ‬ ‫מהמטריצה יש לזכור כי הנקודות הן עלים ולכן‬ ‫מאחדים את שני העלים הקרובים ביותר ויוצרים גן‬ ‫קדום – ‪.g56‬‬ ‫‪ 12‬כעת מתחילים להבין מה הקשר לבניית עצים לפי ‪.UPGMA‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪64‬‬ ‫מה המרחק של הגן הזה מהגנים האחרים? אחת הגישות היא שהמרחק שלו מכל גן היא ממוצע המרחקים‬ ‫של הגנים שהרכיבו אותו מהגן החדש שאנחנו מכניסים למשוואה – המרחק של ‪ g56‬מ‪ g1-‬הוא ממוצע‬ ‫המרחקים של ‪ g6‬ו‪ g5-‬מ‪ .g1-‬בצורה כזו ממשיכים ומחברים תמיד את ה‪ Nodes-‬בעלי המרחק הקצר‬ ‫ביותר עד שמחברים "אבות קדומים" ולבסוף מצטצמצמים לשורשו של העץ‪.‬‬ ‫זוהי שיטת ה‪ Neighbor joining-‬תוך שימוש במרחק אאוקלידי‪ .‬התוצאה היא עץ‪.‬‬ ‫אך מדוע העץ הזה הוא קלאסטרינג? קלאסטרינג‬ ‫הוא לא בעיה מוגדרת – אפשר לחלק תוצאות ל‪2-‬‬ ‫קלאסטרים וגם ל‪ 30-‬קלאסטרים‪ .‬ככל שיהיו יותר‬ ‫קלאסטרים ניתן לצפות שכל קלאסטר יהיה קטן‬ ‫יותר והדוק יותר‪ ,‬המרחקים קטנים יותר ומידת‬ ‫הדמיון בין הגנים גבוהה יותר )כאשר הקיצוניות‬ ‫הגבוהה ביותר היא הגדרה כל גן כקלאסטר – ואז‬ ‫מידת הדמיון היא ‪ ,100%‬המרחק הוא אפסי וכמות‬ ‫החברים בקלאסטר היא ‪.(1‬‬ ‫כיצד ניתן לחלק את העץ?‬ ‫•‬ ‫שני קלאסטרים – בין שני ענפים‪ ,‬קבוצה של‬ ‫‪ g8‬וקבוצה של כל ‪ 7‬הגנים האחרים‪.‬‬ ‫•‬ ‫שלושה קלאסטרים – יורדים עוד רמה בעץ‪,‬‬ ‫עושים חתך העובר דרך שלושה ענפים‪,‬‬ ‫מקבלים קלאסטר של ‪ ,g8‬שני של ‪ g7‬ועוד‬ ‫אחת של ששת הגנים הנותרים‪.‬‬ ‫ככל שיורדים ברמות העץ וחותכים יותר ענפים‪ ,‬מקבלים יותר קלאסטרים‪ .‬אפשר גם להגדיר‬ ‫חלוקות של חתך שאינו בגובה שווה אלא מבוססות על קריטריונים אחרים‪.‬‬ ‫קלאסטר היררכי ‪ -‬סיכום‬ ‫נתונה טבלת ביטוי עם נתונים; מחשבים מתוכה מטריצת מרחקים או מטריצת דמיון‪ ,‬באותו האלגוריתם;‬ ‫מתוכה בונים מבנה עץ היררכי בזיווג שכנים‪ .‬ניתן להפעיל זאת על הגנים ועל הדגימות‪ ,‬ואפילו בו זמנית‬ ‫לשניהם – האחד לא מפריע לשני‪ .‬זה משפיע על מידת המרחק אבל הרי מרחק אאוקלידי לא מושפע‬ ‫מהסדר – הגדרת המרחק בין שתי דגימות אינו תלוי בסדר בו בנויים הגנים‪ ,‬וההיפך‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :11‬למידת מכונות‪ ,‬קלאסטרים‪ ,‬קלאסיפיקציה‬ ‫‪65‬‬ ‫שיעור ‪ :11‬למידת מכונות‪ ,‬קלאסטרים‪ ,‬קלאסיפיקציה‬ ‫קלאסטרים לפי ממוצע‪K-‬‬ ‫במקרה זה הנתונים ממלאים שני תנאים ולכן כל גן מצויין‬ ‫לפי שתי קואורדינטות; בוחרים שתי נקודות רנדומליות‬ ‫ומכיילים את המיקום שלהן לפי הקלאסטרים של קבוצות‬ ‫הגנים הקרובות אליהן ביותר‪ .‬כל פעם שעושים כיול‬ ‫מזיזים את שתי הנקודות בצורה סימטרית‪.‬‬ ‫כאשר אין יותר שינוי בשיוכים ולכן אין יותר שנוי‬ ‫בסנטרואידים )נקודות המרכז( ניתן לקבוע שהמיקום הוא‬ ‫המיטבי והנכון‪ .‬יש תכונות שונות לאלגוריתם ‪:K-means‬‬ ‫•‬ ‫הקלאסטרינג מתחיל בצורה רנדומלית‪ ,‬והאלגוריתם לא מתכנס בהכרח לאותו פתרון סופי‪ .‬ככל‬ ‫שמספר הקלאסטרים וכמות הנתונים עולים ניתן להגיע ליותר ויותר אפשרויות‪.‬‬ ‫•‬ ‫על מנת למנוע מצבים פתולוגיים של קלאסטרינג לא הגיוני‪ ,‬ניתן לעשות מספר התחלות רנדומליות‬ ‫ולסווג אותן לפי שכיחות ולפי מרחקים ממוצעים‪.‬‬ ‫•‬ ‫למרות שהאלגוריתם בכל צד משפר את הניקוד שלו‪ ,‬יש לוודא שהפתרון הוא לא מינימום לוקאלי –‬ ‫מספר התחלות מאפשר לוודא שהמינימום הנמצא הוא גלובאלי ולא לוקאלי‪.‬‬ ‫קלאסטרינג היררכי אינו ממקסם מידה גלובאלית לגבי הקלאסטרינג‪ ,‬אבל הוא דטרמיניסטי – התקדמותו‬ ‫מוגדרת באופן מוחלט ומדוייק ולכן אין טעם להריץ שוב את הקלאסטרינג על אותם נתונים‪ .‬היתרון‪:‬‬ ‫מקבלים מבנה ולא רק את הקלאסטר – מבנה פנימי המעיד על מידת הדמיון במבנה שבין נקודות שונות‬ ‫השייכות לאותו קלאסטר‪.‬‬ ‫לא נרחיב הרבה על סוגי קלאסטרינג אחרים אבל יש לציין כי הקלאסטרים מתייחסים לבעיה כללית‪ ,‬שאינה‬ ‫מוגדרת היטב‪ ,‬כי קלאסטרים שונים מנסים למקסם נקודות שונות‪ .‬ניתן לעסוק לא רק במיקסום של אדיקות‬ ‫בין נקודות אלא גם הומוגניות ביניהן‪ ,‬דמיון או מרחק בין מרכז קלאסטרים שונים‪ .‬כמו כן יש אלגוריתמים‬ ‫"רכים" – בהם ההשמה היא רכה‪ ,‬הנקודה אינה משוייכת באופן אבסולוטי אלא באחוזים מסויימים ניתנת‬ ‫השייכות של הנקודה לסנטרואידים שונים‪.‬‬ ‫קלאסיפיקציה‬ ‫קלאסיפיקציה היא סיווג המשמש בקלאסטרים בדברים שונים‪:‬‬ ‫•‬ ‫סיווג דוגמאות סרטן שונות‬ ‫•‬ ‫סיווג גנים לקבוצות קלאסטרים שונות‬ ‫בקלאסיפיקציה יש כבר את הסיווג‪ ,‬סט הדוגמאות הראשוני כבר מסווגות – שלילי וחיובי‪ ,‬סרטני ובריא‪,‬‬ ‫וכו'‪ .‬לעיתים זו מכונה קלאסיפיקציה בינארית‪ ,‬לעיתים מתעסקים ביותר משתי קבוצות‪ .‬לתוך מערך זה‬ ‫מתקבלת דוגמית נטולת תווית שיש לגלות לאן היא משוייכת‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫‪66‬‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫כעת צריך ‪ classifier‬אשר יוכל לתייג את‬ ‫הדוגמאות החדשות במאגר‪ .‬במרחב דוגמאות גנים‬ ‫דו‪-‬מימדי‪ ,‬כל מיקרואראי מוצג כנקודה לפי רמת‬ ‫הביטוי של הגן הראשון ורמת הביטוי של הגן השני‪.‬‬ ‫כמו כן הדגימות מתוייגות כבר – אדום‪ ,‬לבן וכחול‪.‬‬ ‫חולה חדש שנבדק בו הביטוי גנטי יש לסווג לכאן‬ ‫או לכאן‪.‬‬ ‫גישה אחת לקלאסיפיקציה היא לצייר קו מפריד בין‬ ‫הדוגמאות‪ :‬נתונות שלוש נקודות )מרובעים‬ ‫כחולים( לסיווג‪ .‬הנתונים הקיימים מאפשרים‬ ‫להעביר קו מפריד ביתר קלות‪ .‬ריבוי נתונים משפר‬ ‫את התוצאות‪ ,‬ברוב המקרים; זאת למרות‬ ‫שלפעמים ריבוי נתונים עשוי לבלבל‪.‬‬ ‫יכולות להיות אפילו ‪ ,outlayers‬נקדות שתוייגו‬ ‫במקום שאינו אופייני או שתוייגו באופן שגוי‪.‬‬ ‫לפעמים זה גם נראה כמו בתמונה הבאה‪:‬‬ ‫כמו כן יש לזכור כי בביטוי גנים מתקבלים מאות‬ ‫ואלפי גנים מעשרות או מאות נבדקים‪ ,‬כלומר מאות‬ ‫דגימות – מכאן שיש יותר ויותר נקודות‪ ,‬סטיות‬ ‫ובלבול‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :11‬למידת מכונות‪ ,‬קלאסטרים‪ ,‬קלאסיפיקציה‬ ‫‪67‬‬ ‫השיטות לקלאסיפיקציה‬ ‫עצי החלטה‬ ‫במצב הזה‪ ,‬המוגדר לכאורה כחסר תקווה‪ ,‬נראה שניתן דווקא ליישם שיטה זו‪ :‬ניתן לשאול שאלה אחת‬ ‫לגבי הגן על ציר ‪ – Y‬מעל או מתחת לקו ‪) 36‬שהאלגוריתם מצא כיעילה למתן תוצאה מיטבית(‪ .‬אם‬ ‫הערך קטן מ‪ ,36-‬עוברים הלאה לסף הבא‪ .‬האלגוריתם המוצא את הסף הקטן ביותר התקבל על ידי‬ ‫מציאת הסף בעל נתוני האימון הקרובים ביותר‪ .‬לאחר מכן קובעים הגבלה מסויימת על ציר ‪ ,X‬ותוחמים‬ ‫את המקומות בהן נמצאים גנים אדומים מול גנים ירוקים‪.‬‬ ‫עץ החלטה יכול להיות כלי נחמד אולם לא יעיל במיוחד שכן ברביע האחרון הוא מסוגל להרבה טעויות‪.‬‬ ‫אפילו בשני מימדים‪ ,‬עץ החלטה מסוגל להתמודד עם החלטות יותר מורכבות מאשר מסווג לינארי‪ .‬חלוקת‬ ‫המרחב שלו יותר מורכבת מהעברת קו או מישור פשוט‪ .‬יחד עם זאת הוא שואל שאלות על המאפיינים‬ ‫בנפרד ולכן לא מתייחס לקשרים ביניהם‪.‬‬ ‫הרשימה הבאה מציגה רשימת מאפייני מטופלים שנכנסו למרפאה והאם הם נותחו בהצלחה; כך ניתן יהיה‬ ‫לדעת הא לנתח חולה חדש בהתאם לנתונים שלו‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪68‬‬ ‫שימו לב שבצמתים יש החלטה בינארית – כן‪/‬לא‪ ,‬נמוך‪/‬גבוה‬ ‫וכדומה‪ .‬בדוגמה הזו נעשתה גם ‪– feature selection‬‬ ‫שימוש רק בשני המאפיינים האינפורמטיביים ביותר‪ .‬זו‬ ‫יכולה להיות הפרדה בין שני שלבים או חלק אינטגרלי‬ ‫מלמידת המסווג‪ .‬מצב זה אומר שלא בכל מסווג יופיעו‬ ‫בהכרח כל המאפיינים‪.‬‬ ‫‪) SVM‬כלי תמיכה וקטוראלי(‬ ‫ישנם כל מיני סוגים של ‪ .SVM‬שיטה זו מחליטה על קו מפריד‬ ‫בין שתי דוגמאות‪ .‬ה‪ SVM-‬המתוחכמים יכולים ללמוד גם מישורי‬ ‫הפרדה שאינם לינארים‪ .‬בנקודות מסויימות שיש לדעת מה יהיה‬ ‫הסיווג שלהן ייקבע הסיווג בהתאם לצד בו הן נמצאות ביחס לקו‪.‬‬ ‫ה‪ SVM-‬מסווג בהתאם לקו המסווג כמה שיותר דוגמאות עם‬ ‫תיוג נכון‪ .‬אם יש דוגמאות מעבר לקו הוא מתחשב בהן ומנסה‬ ‫למזער אותן‪ ,‬וכן למקסם את המרחק של הנקודות הקרובות ביותר אל המישור המפריד ממנו )כלומר בין‬ ‫הנקודות למישור יהיה המרחק המקסימלי(‪ .‬ה‪ SVM-‬יוצר שני וקטורים מקבילים למישור החלוקה‬ ‫המשמשים מעין "פיגומים" שמרחיקים את נקודות המדגם ממישור‬ ‫החלוקה‪.‬‬ ‫הגדולה של ‪ SVM‬היא בכך שהוא מאפשר מיפוי שאינו לינארי‪,‬‬ ‫דוגמאות שאין ביניהן מרחב לינארי דו‪-‬מימדי ממופות למרחב תלת‬ ‫מימדי‪ ,‬המאפשר להגדיר מישור שיחתוך בין הדוגמאות בצורה‬ ‫שתבצע הפרדה יעילה‪.‬‬ ‫‪ SVM‬יכול לעשות הפרדה לינארית וגם הפרדה לא לינארית על ידי מיפוי למימד יותר גבוה‪ ,‬כל‬ ‫זאת במרחב רב‪-‬מימדי לא מוגבל‪.‬‬ ‫הביטחון של הסיווג יכול להיות מדורג גם הוא‪ ,‬כאשר מה שקובע את הדירוג הוא המרחק ממישור‬ ‫החלוקה – ככל שהנקודה רחוקה יותר כך הביטחון בסיווג שלה גובר‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :11‬למידת מכונות‪ ,‬קלאסטרים‪ ,‬קלאסיפיקציה‬ ‫‪69‬‬ ‫‪KNN = K nearest neighbors‬‬ ‫משתמש באותה מטריצה של ‪ :K-Means‬מסתכל על‬ ‫השכנים הקרובים ביותר ולפיהם קובע מה הפרמטר‬ ‫החדש )"אמור לי חבריך ואומר לך מי אתה"(‪ .‬למשל‬ ‫בדוגמה‪ ,‬הנקודה הלבנה עם סימן השאלה קרוב‬ ‫לשתי נקודות אדומות ורק אחת לבנה ולכן היא תסווג‬ ‫כנקודה אדומה‪.‬‬ ‫התוכנה אינה יוצרת מבנה מסווג ולכן אינה מספקת נתונים על מבנה מאגר הנתונים‪ ,‬מבנה הבעיה‪.‬‬ ‫האלגוריתם מסתכל תמיד בסביבה לוקאלית ואינו מסתכל על התמונה הגדולה‪ .‬הוא יעיל לטיפול‬ ‫בדוגמאות מורכבות שאין להן קווי הפרדה פשוטים‪.‬‬ ‫טריינינג לעומת טסט דאטה‬ ‫ככל שיש טריינינג דאטה )"נתוני אימון"( יותר גודל‪ ,‬הסיווג יותר אמין‪ .‬אבל לא ניתן לדעת כמה‬ ‫הטריינינג טוב אם הוא לא נוסה על דאטה נעלם – זה לא בעיה להגדיר מסווג שיודע לסווג את הטריינינג‬ ‫דאטה‪ ,‬ואפשר אפילו לעשות מסווג מומחה לטריינינג דאטה מסויים‪ ,‬אבל כשינתן לו טסט דאטה הוא לא‬ ‫יעבוד היטב‪ .‬רק בגלל שהציון לטריינינג דאטה יותר טוב לא אומר שסיווג הדאטה החדש‪ ,‬טסט‬ ‫דאטה‪ ,‬יהיה אמין יותר‪.‬‬ ‫כיצד להעריך את הביצועים?‬ ‫ניתן לקחת את הטריינינג דאטה ולחלק אותו‪ :‬רובו ישמש בתור טריינינג וחלקו בתור טסט )היות וידוע‬ ‫כבר כיצד הוא מסווג‪ ,‬ידוע מה המסווג הטוב ביותר צריך לעשות עם הדאטה חדשים שסיווגם ידוע(‪.‬‬ ‫בתהליך זה משתמשים בקרוס‪-‬ולידציה‪ :‬בוחרים מקטעים מסויימים של הדאטה בתור טריינינג סט ומקטע‬ ‫קטן יהיה טסט סט‪ .‬כל פעם משנים את המקטעים שמשמשים לטסט‪ .‬בסוף ניתן לקבוע איזו שיטת‬ ‫קלאסיפיקציה סיוווגה נכונה כמות האחוזים הגבוהה ביותר מתוך הטסט סט‪ ,‬ושיטה זו תיבחר בתור הטובה‬ ‫ביותר‪ .‬אחרי שבוחרים מסווג אפשר להשתמש בכל הדאטה‪ ,‬ליצור את המסווג המיטבי ביותר עם מלוא‬ ‫הנתונים‪ ,‬ולהתחיל להשתמש בו לנתונים חדשים שטרם נראו‪.‬‬ ‫נניח מחלה נדירה הפוגעת ב‪ 1-‬מ‪ 100,000-‬אנשים; נניח שהטריינינג סט היה של ‪ 100,000‬אנשים בהם‬ ‫היה חולה אחד‪ ,‬והמסווג שלנו תמיד אומר "לא"‪ .‬טכנית‪ ,‬למסווג הזה יש ‪ 99.9%‬הצלחה‪ .‬אבל בפועל זה‬ ‫מסווג גרוע‪ .‬כאשר מחליטים בין מה למה מסווגים צריך לדאוג לייצוג מאוזן של הדוגמאות‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪70‬‬ ‫שיעור ‪ :12‬למידת מכונות – המשך‬ ‫‪ROC Curve‬‬ ‫עקומת ‪ ROC‬היא כלי שנמצא בשימוש הולך וגובר בתחומי למידת מכונות ואנאליזה ביורפואית המשמש‬ ‫להשוואה בין ביצועי נתונים שונים‪ .‬עקומת ‪ ROC‬משמשת להשוואה בין מסווגים שונים על מנתל בדוק‬ ‫מי מהם עובד יותר טוב‪ .‬המצב יכול להיות מורכב יותר מהכלים הפשוטים שהודגמו לעיל ואז צריך את‬ ‫הכלי הזה‪.‬‬ ‫בדוגמה הקודמת‪ ,‬בגלל התפלגות פתולוגית של הנתונים‪ ,‬ניתן היה להשתמש במסווג מאוד טיפשי שיהיה‬ ‫צודק לפי הנתונים – אם המיוחד מופיע ‪ 1:100,000‬והמסווג אומר תמיד "לא" תשובתו תהיה נכונה ב‪-‬‬ ‫‪ 99.99%‬מהפעמים‪ .‬המונחים הבאים מגדירים יחסים בהקשר תצפיות ‪True-Positive/ True-‬‬ ‫‪:Negative‬‬ ‫•‬ ‫‪ – TPR‬יחס הנתונים הצודקים החיוביים‪ ,‬מחלק את הנתונים שהיו ‪ TP‬בסך הנתונים החיוביים )‪.(P‬‬ ‫שימו לב שסך הנתונים החיוביים הם גם ‪ TP‬וגם ‪ .FN‬המדד הוא מספר בין ‪.0.0-1.0‬‬ ‫•‬ ‫‪ – FPR‬יחס הנתונים השגויים החיוביים‪ ,‬מחלק את הנתונים שהיו ‪ FP‬בסך הנתונים שהיו שליליים‬ ‫)‪ .(N‬שימו לב שסך הנתונים השליליים הם גם ‪ FP‬וגם ‪ .TN‬המדד הוא מספר בין ‪.0.0-1.0‬‬ ‫ניתן להגדיר כל מסווג על ידי שני מספרים אלו‪.‬‬ ‫אפשר לשרטט מערכת צירים של שת תכונות אלו‬ ‫ואז לצייר עקומות ‪ ROC‬עבור מסווגים בהם יש‬ ‫פרמטר רציף‪ .‬הפרמטר הרציף חשוב כי הוא מספק‬ ‫שולי בטחון המקטינים את הסיכוי לשגיאה החמורה‬ ‫יותר‪ .‬במסווג עם פרמטר רציף אפשר לראות מה‬ ‫יהיו ערכי הפרמטר הרציף ואז לתת סימן לפי‬ ‫הפרמטר הרציף‪ .‬אם הפרמרטר לא היה רציף‪ ,‬לא‬ ‫ניתן היה לתייג באופן יעיל‪.‬‬ ‫בעקרון‪ ,‬יש ‪ cutoff‬בין הנתונים – ככל שרוצים‬ ‫לאפשר פחות סיכוי לטעות מסויימת ניתן לשנות את ה‪ cutoff-‬בהתאם‪ .‬לפיכך‪ ,‬בכל נקודה בעלת תיוג‬ ‫כלשהו ניתן היה להעלות את ערך ה‪ cutoff-‬עד אליה ולקבל עקומה מחיבור כל הנקודות האלו‪ .‬ככל‬ ‫שהמסווג מקבל תוצאות חיוביות יותר הוא עולה למעלה; תוצאות שליליות גורמות לנטייה הצידה‪ .‬מכיוון‬ ‫שכך‪ ,‬מסווג מושלם יעלה עד למעלה לינארית ואז ייפנה ימינה‪ .‬השטח )אינטגרל( של עקומת ‪ ROC‬כזו‬ ‫יהיה ‪ .1‬ככל שהשטח קרוב יותר ל‪ 1-‬המסווג יותר טוב‪ .‬אם המסווג אקראי השטח יהיה שווה ל‪.0.5-‬‬ ‫שימו לב שהמדד הזה מתייחס לטעויות מסוג ‪ 1‬וטעויות מסוג ‪.2‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :12‬למידת מכונות – המשך‬ ‫‪71‬‬ ‫‪Voting‬‬ ‫זהו "טריק מלוכלך"‪ :‬נניח שיש לבחור‬ ‫מבין שלושה מסווגים כלשהם מיהו‬ ‫המסווג היעיל ביותר; לוקחים את שלושת‬ ‫המסווגים ונותנים להם לבדוק נתונים‬ ‫חדשים )”‪ .(“raw‬דעת הרוב היא הדעה‬ ‫המתקבלת‪ ,‬והמסווג בעל אחוזי ההצלחה‬ ‫הגדולים ביותר הוא היעיל ביותר‪.‬‬ ‫שימושים שלא בביואינפורמטיקה‬ ‫השיטות לבדיקת היעילות של המסווג אינן קיימות‬ ‫רק בביואינפורמטיקה; הן משמשות גם לזיהוי‬ ‫ממוחשב של אותיות בעזרת ‪ KNN‬למשל‪ ,‬כאשר‬ ‫סט כתבי היד משמאל הוא טריינינג סט והשרבוט של‬ ‫ה‪ 5-‬הוא הטסט‪ .‬על ידי זיהוי ה"שכנים" הדומים ביותר לטסט המשחב מזהה מהי הספרה שנכתבה‪.‬‬ ‫השיטה פותחה על ידי האמריקנים לאחר פרל הארבור וסייעהלבדוק מהי המהירות שלהם‪ ,‬כיצד להבדיל‬ ‫בין מטוסים שלהם למטוסים שאינם אויב וכו'‪.‬‬ ‫דוגמה‬ ‫הבעיה העיקרית באבחון עם מיקרואראי היא שמקור הגן איננו ידוע )בתא גידול שהתגלה בגרורה(‪.‬‬ ‫כשנותנים תרופות ספציפות לפי מאפיינים גנטיים של הגידול תוחלת החיים עולה‪ ,‬ולכן המטופלות ייזכו‬ ‫לטיפול טוב יותר אם יכירו את הפריימרים של הגנים הרלוונטים‪.‬‬ ‫כאשר מקבלים ‪ DNA‬מביופסיה של‬ ‫חולה‪ ,‬עושים אימונוהיסטוכימיה כנגד ‪5-‬‬ ‫‪ 6‬מרקרים‪ .‬דיאגנוזה טובה תצליח לקבוע‬ ‫באיזה סרטן מדובר וקובעים טיפול‪.‬‬ ‫אם לא‪ ,‬משלימים עוד רצף אימונו‪-‬‬ ‫היסטוכימיה‪.‬‬ ‫אם‬ ‫הדבר‬ ‫שיפר‬ ‫את‬ ‫הדיאגנוזה אפשר להמשיך לטיפול‪.‬‬ ‫הבעיה היא שלרוב הליך זה מוסיף רק‬ ‫‪ 25%‬הצלחה‪ ,‬מכאן שיש צורך חמור‬ ‫בשיטת קלאסיפיקציה משופרת‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪72‬‬ ‫המחקר‬ ‫את המחקר הוביל טרי גולוב – העבודה הראשונה לקחה ‪ ALL‬ו‪-‬‬ ‫‪ ,AML‬שני סוגי לוקמיה אקוטיות ממקורות שונים )‪ 38‬דגימות‬ ‫סה"כ(‪ ,‬וביצעה פרופילים במיקרואראי‪ .‬לאחר הוצאת ‪ 50‬גנים‬ ‫מסווגים‪ ,‬הריצו טסט סט‪ .‬בדיקה של המיקרואראי מראה ‪100%‬‬ ‫דיוק קלאספיקציה של הטסט – זאת לעומת בעיית זיהוי קלה‬ ‫שמאפשרת זיהוי גם על ידי יותר מהסובסטרבט‪.‬‬ ‫בשלב הבא לקחו ‪ 14‬סוגי גידולים שונים‪ .‬בתהליך זה הגדירו ולמדו‬ ‫‪ SVM 14‬שונים אחד מול השני – סרטן המעי מול כל האחרים‪,‬‬ ‫וכן הלאה‪ .‬כעת מריצים דגימות חדשות מ‪ 14-‬ה‪ SVM-‬שנוצרו‬ ‫ובודקים מה נותן את התשובה הטובה ביותר מכחינת הסרטן והגן‪.‬‬ ‫מה הרעיון הביולוגי?‬ ‫תבנית ביטוי הגנים נקבעת על פי סוג‬ ‫הריקמה‪ .‬סרטנים ממקורות שונים נגזרים‬ ‫מתאים שנבעו מתהליכי התפתחות שונים‪,‬‬ ‫ולכן לכל תא סרטני ביטוי גנים מובחן‬ ‫וייחודי הנובע מתהליכי ההתפתחות שלו‪.‬‬ ‫מסיבה זו יש לזהות את מאפייני הגידול‬ ‫של מטופל‪/‬ת חדש‪/‬ה על מנת לדעת מהו‬ ‫הטיפול המתאים לפרופיל הגידול‪.‬‬ ‫הכנסת הליך סיווג מולקולארי של הסרטן‬ ‫עשוי להיות החוליה בחסרה בארסנל הכלים לזיהוי הגידול‪ ,‬ולחסוך תהליכים רבים של אימונוהיסטוכימיה‬ ‫שגם כך אחוזי ההצלחה שלהם נמוכים יחסית‪.‬‬ ‫דוגמה שנייה‪ :‬ליגיונלה‬ ‫ליגיונלה הוא חיידק פתוגני )המחלה קרויה על שם החיידק( שהתגלה לפני כ‪ 30-‬שנה‪ ,‬בחגיגות המאתיים‬ ‫לארה"ב‪ :‬גדוד הליגיונרים‪ ,‬ותיקי הצבא ההאמריקאי‪ ,‬ערכו כנס במלון וכותרות העיתונים הזדעקו כי ‪20‬‬ ‫מהם מתו ואחרים חלו‪ .‬לאחר ‪ 26‬שנים זה התפרץ שוב‪ .‬אחרי בדיקה נמצא קשר למחלה שתפרצה‬ ‫בלגיונרים וקשר לחיידק‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :12‬למידת מכונות – המשך‬ ‫‪73‬‬ ‫החיידק מתרבה בגוף אמבות‪ .‬הוא נמצא במקווי מים עומדים‪ ,‬וחודר לאדם דרך רסס מים עומדים‪ ,‬כמו‬ ‫שקיים במזגנים‪ .‬מאקרופאגים שמנסים לבלוע אותו מכווינים את הפאגוזום לליזוזום‪ ,‬אולם החיידק מפעיל‬ ‫לוחמת נגד‪ ,‬עוטף את עצמו בוזיקולה מגנה‪ ,‬וכך‬ ‫מתרבה בוזיקולה‪ .‬לאחר כמה מחזורי שיכפול הוא‬ ‫מפתח שוטונים‪ ,‬מפוצץ את הבועה ואת התא ויוצא‬ ‫החוצה‪.‬‬ ‫מיהם האפקטורים של המנגנון? בעזרת למידת‬ ‫מכונה ביצעו זיהוי לגנים כאפקטורים ולא אפקטורים‪ ,‬נתנו למכונה סט גנים לא ידועים והניחו לה ללמוד‬ ‫אותם‪ .‬אלו שהיא חזתה כחיוביים לקחו למעבדה‪ ,‬השתמשו בשלל מאפיינים‪ ,‬הומולוגיה לרצפים אחרים‬ ‫שקשורים ללמידת מכונות‪ ,‬קירבה לגנום‪ ,‬פרומוטור‪ ,‬פפטיד הפרשה שעוזר לחיידק לצאת מהמעטפת‬ ‫שיצר‪ ,‬הומולגיה לחלבונים‪ ,‬אחוז ‪ G:C‬וכדומה‪.‬‬ ‫אלו שסווגו לאחר בדיקות אלו כחיוביים נבדקו במעבדה‪ .‬לאחר שאושררה החיוביות שלהם הם נכנסו‬ ‫לשימוש במערכת הדיאגנוסטית‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪74‬‬ ‫שיעור ‪:12‬ביולוגיה של מערכות‬ ‫שיטה זו מסתכלת על מערכות ביולוגיות באופן כולל‪ ,‬ללא התמקדות בפרט יחיד‪ .‬הפרספקטיבה בוחנת‬ ‫מערכות ומנגנונים ביולוגים בהקשר המערכת השלמה ומחפשת תכונות הנגזרות מהמערכת כולה ולא‬ ‫מפרטים ספציפיים‪.‬‬ ‫מהי מערכת?‬ ‫•‬ ‫תא שלם‪.‬‬ ‫•‬ ‫המערכת הרגולטורית‪ ,‬הסיגנלינג‪ ,‬הנוירונים‪.‬‬ ‫•‬ ‫מעגל הבקרה של כימוטקסיס – המורכב במשלושה או ארבעה גנים‪.‬‬ ‫הביולוגיה המסורתית היתה רדוקציוניסטית – ירידה מאורגניזמים למערכות‪ ,‬איברים‪ ,‬תאים וגנים‪ .‬הדבר‬ ‫משול לחקר הפעילות של רדיו דרך נגד מסויים ומבלי להבין איך המערכת כולה עובדת‪ .‬את ההשלמה הזו‬ ‫זה ביולוגיה של מערכות מנסה לספק‪ .‬אחד מהטריגרים לפריחת המדע הזה היא התפתחות ה‪– Omics-‬‬ ‫מחקרים בתחומים הנוגעים להרבה מאוד פרוטאינים‪ ,‬אנזימים‪ ,‬גנומים וכדומה‪ .‬לרוב מנסים לעשות‬ ‫אינטגרציה של נתונים‪.‬‬ ‫השיטה מסתכלת על מערכות קטנות יחסית ומנסה לנתח אותן כמותית‪ ,‬כמו שאולי היה עושה מהנדס‬ ‫אלקטרוניקה או פיזיקאי‪ .‬ניתן לבצע מדידות ברמה מאוד מפורטת ולעשות עימוד דינמי‪.‬‬ ‫דוגמה‪ :‬התא האלקטרוני‬ ‫להגיע לרמה של הבנת התא כך שניתן יהיה לבצע סימולציה מלאה של תא שלם וחי בעזרת מחשב‪ .‬זוהי‬ ‫הממטרה הסופית כרגע )למרות שאחרי זה אפשר להמשיך לאיבר שלם או אורגניזם שלם(‪.‬‬ ‫הרשת‬ ‫רכיב חשוב בביולוגיה של מערכות‪ ,‬לפחות מהסוג הראשון‪,‬‬ ‫הוא הרשת‪ .‬רשת מוגדרת מתמטית על ידי גרף‪ ,‬שהוא‬ ‫אוסף של שני דברים‪ :‬קודקודים‬ ‫)‪ (nodes‬וקשתות )‪ .(edges‬כל קשת‬ ‫מחברת בין שני קודקודים‪.‬‬ ‫גרף מתמטי הוא אוסף הקודקודים‬ ‫ואוסף הקשתות כאשר כל קשת מוגדרת לאילו שני‬ ‫קודקודים היא מחברת‪ .‬ניתן ללמוד את מבנה הרשת ואת הדינמיקה של הרשת – איך דברים משתנים עם‬ ‫הזמן‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪:12‬ביולוגיה של מערכות‬ ‫‪75‬‬ ‫דוגמאות לרשתות המוגדרות בגרפים‪:‬‬ ‫•‬ ‫רשתות חברתיות – הקודקודים הם בני אדם‪ ,‬הקשתות הן אמצעי ההכרה או אינטראקציה ביניהם‪,‬‬ ‫למשל האם הם שלחו אי מייל‪ ,‬קיימו מגע מיני‪ ,‬מכירים‪ ,‬חברים בפייסבוק וכו'‪ .‬עניין המגע המיני‬ ‫מעניין בתחום מחקר מחלות מועברות במין‪.‬‬ ‫•‬ ‫רשתות מולקולאריות תאיות – הקודקודים הם מולקולות והקשתות הן אינטראקציות‪ ,‬דוגמת‬ ‫מטאבוליטים שעוברים ממצב מטאבוליט אחד לאחר דרך אינטראקציה המתווכת לרוב על ידי אנזים‪.‬‬ ‫•‬ ‫מסלול העברת אותות – באיור‬ ‫מופיעה רשת של ארבעת ה‪Map--‬‬ ‫‪ Kinase‬של השמר‪ ,‬החל מרמת‬ ‫הרצפטור ועד הגרעין והטרנס‪-‬‬ ‫אקטיבציה‪ .‬קשתות אלו מסמלות‬ ‫אקטיבציה או אינהיביציה‪ ,‬והסימון‬ ‫שלהם הוא די קבוע – ראש חץ‬ ‫וראש ישר‪ ,‬בהתאמה‪.‬‬ ‫•‬ ‫רשת בקרת הטרנסקריפציה – כל‬ ‫גן שמבקר גן אחר על ידי התיישבות על הפרומוטור שלו הם שני גנים שיש ביניהם קשת‪ .‬גם כאן יש‬ ‫כיווניות לקשתות – מי משפיע על מי‪ .‬מכאן שגרפים יכולים להיות מכוונים ולא מכוונים‪.‬‬ ‫•‬ ‫רשת אינטראקציות חלבון‪-‬חלבון – אינטראקציה פיזית בין חלבונים‪ ,‬כמו קינאז לחלבון שהוא‬ ‫מזרחן או שני חלבונים מאותו קומפלקס‪.‬‬ ‫•‬ ‫ה‪ – WWW-‬רשת בה כל עמוד אינטרנט הוא קודקוד וכל לינק הוא קשת‪ .‬זוהי רשת מוכוונת – כי‬ ‫לא בהכרח יש לינקים דו כיוונים‪.‬‬ ‫•‬ ‫האינטרנט – זוהי רשת מחשבים המחוברים פיזית‪ ,‬זאת לעומת ה‪ .WWW-‬כאן כל מחשב הוא‬ ‫קודקוד וכל חיבור בין מחשבים הוא קשת‪ .‬הפרוטוקול של האינטרנט מחייב תקשורת דו כיוונית ולכן‬ ‫אין כיווניות לקשתות‪.‬‬ ‫•‬ ‫רשת הקולבורציות האקדמית – כל חוקר הוא קודקוד ואם שני חוקרים כתבו יחד או עבדו יחד‬ ‫‪13‬‬ ‫בפרויקט עשו ביניהם קשת‪ .‬אין כיווניות ‪.‬‬ ‫‪ 13‬בתמונה )שקף ‪ (15‬מופיע ארדש נאמבר‪ ,‬המתמטיקאי שפיתח במידה רבה את כל ענף הרשתות הרנדומליות‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪76‬‬ ‫הגדרת תכונות הגרף‬ ‫•‬ ‫קשת יכולה להיות מכוונת ולא מכוונת‪.‬‬ ‫•‬ ‫ניתן להגדיר משקולות על קשתות – בהם לא‬ ‫מתייחסים לכל הקשתות במידה שווה‪ ,‬יש‬ ‫אינטראקציות חזקו פחות וחזקות יותק‪.‬‬ ‫•‬ ‫דרגת הקודקוד – מספר הקשתות שנכנסות‬ ‫ויוצאות מהקודקוד‪ .‬בגרף לא מכוון אין הבדל‪,‬‬ ‫בגרף מכוון מדברים גם על דרגת הכניסה‬ ‫והיציאה של הקודקוד‪.‬‬ ‫רשתות אקראיות‬ ‫ארדש התחיל לפתח תחום זה בסוף שנות ה‪ 50-‬והגדיר גרף רנדומלי באופן הבא‪ :‬מתוך אוסף קודקודים‬ ‫יש להגריל מספר קשתות בצורה רנדומלית לכל אחד מהם ולקשר אותן‪ .‬החשוב הוא שבגרף כזה‬ ‫התפלגות מספר הקשתות בכל קודקוד המתקבלת קרובה לנורמלית‪ .‬דרגת הקישוריות של הקודקודים‪,‬‬ ‫לפיכך‪ ,‬דומה בטווח מסויים‪.‬‬ ‫רשתות חסרות‪-‬סקאלה‬ ‫אולם‪ ,‬כאשר מסתכלים כמעט על כל הרשתות המוכרות מהעולם האמיתי‪ ,‬רואים מבנה לגמרי אחר – הן‬ ‫לא נראות בכלל כמו הגרפים האקראים של ארדש אלא גרפים מסוג אחר – רשתות חסרות סקאלה‬ ‫)‪ .(Scale-Free Networks‬רשתות כאלה מאופיינות במספר קטן של קודקודים )‪ (hubs‬המרכזים‬ ‫קשתות ממספר גדול של קודקודים‪ ,‬בעוד שלרוב הקודקודים ברשת יש מספר קטן של חיבורים‪.‬‬ ‫לרוב הקודקודים מספר קטן של חיבורים; למיעוטם יש רוב החיבורים‪ .‬זהו עקרון פארטו המוכר גם‬ ‫בתור עקרון ‪ ,80-20‬כלומר ‪ 80%‬מהפעולה של מערכת מורכבת נעשה על ידי ‪ 20%‬מהשחקנים‬ ‫הקיימים בה‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪:12‬ביולוגיה של מערכות‬ ‫‪77‬‬ ‫רוב הרשתות האמיתיות הן רשתות חסרות סקאלה‬ ‫כמעט בכל הדוגמאות הטבעיות רואים את המבנה הזה ולא מבנה אקראי‪ .‬מדוע זה כך?‬ ‫לפני כעשור באראבשי ואלברט הציעו מודל פשוט שמסביר מדוע הרשתות נראות כפי שהן נראות‪ :‬זהו‬ ‫מודל בנייה המציע שאם רשת נבנית על בסיס שני כללים פשוטים היא תראה חסרת סקאלה‪ .‬הכללים הם‪:‬‬ ‫•‬ ‫גדילה בשלבים – הרשת יכולה להתחיל במספר קטן של קודקודים וקודקודים נוספים ייתווספו עם‬ ‫הזמן‪.‬‬ ‫•‬ ‫חיבור קודקודים חדשים – ‪ – Preferential Attachment‬קודקוד חדש שנכנס בעל סיכוי טוב‬ ‫יותר להיקשר לקודקוד ‪ Hub‬מאשר קודקוד עם מעט חיבורים )עקרון "‪.("the rich get richer‬‬ ‫בסימולציה במחשב לפי שני עקרונות אלו מתקבלת הרשת באיור‪ ,‬וזה בדיוק המבנה של רשת חסרת‪-‬‬ ‫סקאלה‪ .‬אבל לא כל הרשתות בטבע נוצרו כך; הרי ה‪ Yahoo ,WWW-‬או ‪ Google‬אינן עובדות כך –‬ ‫הן לא הקודקודים הכי וותיקים ברשת ועדיין הם מאוד מקושרים‪ .‬גם כאשר משווים בין יצורים קדומים‬ ‫למאוחרים יש יותר גנים בהתקדמות ההאבולוציונית ויש יותר קודקודים‪.‬‬ ‫אם חלבונים נוצרים בדופליקציה‪ ,‬בזמן הדופליקציה לשני הדופליקטים יש אותם לינקים לחלבונים שלפני‬ ‫הדופליקציה העותק היחיד היה מחובר אליהם‪ .‬אם היה קודקוד אחד שהיה מרכזי והקישורים שלו‬ ‫משתכפלים‪ ,‬הקישורים גדלים‪ ,‬ואז אולי זה מנגנון לעקרון ‪.rich get richer‬‬ ‫תכונות של רשתות חסרות‪-‬סקאלה‬ ‫מה קורה כשפוגעים )משמידים( בקודקוד מסויים ברשת כזו? רוב הסיכויים שהקודקוד לא הכיל חיבורים‬ ‫רבים ולכן הקישוריות של הרשת לא תיפגע משמעותית; אך אם הפגיעה הייתה ב‪ ,hub-‬לדבר תהיה‬ ‫השפעה הרסנית על הרשת‪ .‬מתוך מחשבה זו‪ ,‬ברבאשי הסתכל על ה‪ PPI-‬שראינו קודם‪.‬‬ ‫הקודקודים‬ ‫האדומים‬ ‫ליתאליים‬ ‫בנוקאאוט‪ .‬הירוקים אינם ליתאליים‪ .‬ניתן‬ ‫לראות שרוב ה‪ hubs-‬מכילים קודקוד‬ ‫אדום במרכזם בעוד שקצוות ה‪hub-‬‬ ‫לרוב ירוקים‪ .‬בין הרבה קודקודים עומד‬ ‫גן חיוני‪ .‬זה מאוד הגיוני‪ :‬גן חיוני מקיים‬ ‫אינטראקצייות גנטיות רבות ולכן פגיעה‬ ‫בו תביא להשפעה יותר הרסנית מפגיעה‬ ‫בגנים עליהם הוא משפיע‪.‬‬ ‫כמו כן כמותה העמידות של רשת חסרת‪-‬‬ ‫סקאלה לעומת רשת אקראית‪ ,‬ונראה‬ ‫שניתן לפגוע אקראית בקודקודים בלי‬ ‫לפגוע ממש ברשת‪ .‬זה מסביר למה אורגניזמים יכולים לשרוד גם לאחר שמספר גנים עברו מוטציות‪.‬‬ ‫המוטציות הן רנדומליות ולכן הם יוכלו לשרוד אותן‪ .‬לעומת זאת‪ ,‬פגיעה מכוונת ב‪ hub-‬יכולה להיות‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪78‬‬ ‫קטלנית‪ .‬ברשת עובדה זו תנוצל‪ :‬האקרים באינטרנט‪ ,‬פאראזיטים במאחסן או תאים סרטניים יתקפו‬ ‫אתרים‪/‬חלבונים שהם ‪) hubs‬כמו ‪ p53‬המותקף בסרטן(‪ ,‬כך שנוצר ‪ – cascading failure effect‬הם‬ ‫גורמים לכשל מתגלגל‪.‬‬ ‫אורך מסלול ממוצע‬ ‫אורך מסלול בין שני קודקודים הוא מספר הקשתות שצריך לעבור על מסלול כלשהו בין שני הקודקודים‬ ‫האלה‪ .‬האורך הזה יכול להיות מסלול מינימלי או כל מסלול אחר בין שני הקודקודים‪ .‬המסלול המינימלי‬ ‫לרוב מתואר בתור המרחק בין שני הקודקודים‪ .‬המרחק הממוצע‬ ‫הוא הממוצע בין כל המרחקים שבין זוגות הקודקודים ברשת‪.‬‬ ‫המרחק הממוצע לרוב קטן בין שני ‪.scale-nodes‬‬ ‫עקרון העולם הקטן אומר שניתן למצוא עד שישה אנשים כדי‬ ‫למצוא קשר בין כל שני אנשים בעולם‪.‬‬ ‫ברשת של ריאקציות מטאבוליות‪ ,‬בין כל זוג מטאבולים אפשר‬ ‫להגיע אחד לשני דרך מספר קטן של ריאקציות‪.‬‬ ‫מאפייני הרשת – ‪Network Motifs‬‬ ‫המוטיבציה‬ ‫בעזרת כלים שונים ניתן ללמוד מבנים של רשתות ביולוגיות גדולות מאוד – למשל ‪ PPI‬של כל חלבוני‬ ‫השמר או הרשת הרגולטורית בכל ‪ 1500‬הגנים של הקולי; אולם במערכות אחרות חוקרים כבר ‪150‬‬ ‫שנה אינטראקציות קטנות בין סוג גנים‪ .‬האם יש רמת ביניים של ארגון שיכולה לתווך בין שני קצוות אלו‬ ‫של הסקאלה‪ ,‬בין הגן הבודד לרשת כולה? האם יש עקרונות תכנון אבולוציוני לפיהם הרשת הביולוגית‬ ‫מתוכננת?‬ ‫רשתות גדולות המכילות מאות ואלפי ‪ nodes‬ועל התכונות שלהן; אך נראה שחסרה רמת ביניים של‬ ‫ארגון שתעזור להבין איך הרשתות עובדות – בין מבנה הרשת לבין האינטראקציות של חלבון בודד או‬ ‫בין זוג חלבונים‪.‬‬ ‫באלקטרוניקה בונים מעגלים עם פונקציה מסויימת; בביולוגיה המעגלים עוצבו מכוח האבולוציה ולכן‬ ‫נדרשה עבודה רבה על מנת לנסות לאפיין אותם ולהבין את התפקוד של תתי מעגלים קטנים‪.‬‬ ‫תתי מעגלים פונקציונאלים קטנים‬ ‫מעגלי משוב חיובי ושלילי ומשובי איניהיביציה הדדית יהיו המודל הראשון‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪:12‬ביולוגיה של מערכות‬ ‫‪79‬‬ ‫משוב חיובי‬ ‫בין שני גנים‪ ,‬האחד מפעיל את השני והשני מפעיל‬ ‫את הראשון‪ .‬בצורה זו הפעלה של אחד הגנים תגרום‬ ‫להגברה משמעותית של שניהם‪ .‬למערכת כזו יש שני‬ ‫מצבים יציבים‪ :‬שני הגנים מופעלים או שני הגנים‬ ‫כבויים‪.‬‬ ‫מתמטית‪ ,‬מצב הפעילות של שני הגנים ללא שום מגבלות אינו מצב יציב – כל הפעלה תגרום לעלייה עד‬ ‫אינסוף; אולם מערכות ביולוגיות לא בנויות על הפעלה לינארית אחידה ולכן נראה מצב גבוה יציב‪ ,‬שרק‬ ‫נראה כאילו הוא קרוב להתפוצצות או הגעה לאינסוף‪.‬‬ ‫יכול להיות גם משוב עצמי של גן יחיד‪ ,‬שכאשר הוא מופעל התוצר שלו גורם להפעלה נוספת של ביטוי‬ ‫אותו הגן‪.‬‬ ‫על פי רוב‪ ,‬על מנת שמערכות יוכלו לעבור ממצב למצב נדרש סיגנל חיצוני – בין אם חלקיק סיגנל או‬ ‫פקטור שיעתוק נוסף שמפעיל את המערכת‪ .‬כאשר הסיגנל מפעיל את המערכת‪ ,‬יש להגיע לסף מסויים‬ ‫של הפעלת ‪ X‬על מנת לגרום להצטברות של הגורם השני ‪ ,Y‬ולכן העלייה הגרפית תהיה איטית; בשלב‬ ‫מסויים המשוב החיובי נכנס לפעולה‪ ,‬שני הגנים מגבירים אחד את השני ויש מעבר למצב אחר – מופעל‪.‬‬ ‫כעת ניתן להחליש את הסיגנל הראשוני מבלי לפגוע במערכת – כי הגנים כבר מתחזקים אחד את השני‪.‬‬ ‫במצב זה יש ביטוי לשני המצבים היציבים – ‪ – bistability‬כי גם אם יוחלש הסיגנל לאט לאט הירידה‬ ‫תיעשה במסלול השונה מזה של העלייה‪.‬‬ ‫המערכת זו יכולה להתנהג כמו מתג הפעלה‪/‬כיבוי‪ .‬זהו מצב דומה ל"נתיך"‪ .‬מוות תאי הוא דוגמה לכך‪:‬‬ ‫כאשר מסלול האפופטוזיס המיטוכונדריאלי ביונקים עובר סף אקטיבציה מסויים‪ ,‬הוא גורם להתפרקות‬ ‫של המיטוכונדריה והרס מערכות התא עד שהתא גוסס ומת‪ .‬משום כך כאשר מגיעים לשיא ההפעלה של‬ ‫המערכת לא ניתן לחזור משם )כמו נתיך שרוף‪ ,‬שאפשר להחליף אולם אי אפשר לתקן(‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪80‬‬ ‫אינהיביציה הדדית‬ ‫במצב זה שני הגנים מעכבים אחד את השני‪ ,‬כך שכאשר האחד פעיל השני‬ ‫מעוכב‪ .‬גם דבר זה גורם לבי‪-‬סטאביליות‪ .‬בביולוגיה‪ ,‬גם המצב בו שני‬ ‫הגנים יהיו כבויים יהיה מצב יציב; מכיוון שבביולוגיה תמיד יש ביטוי זולג‪,‬‬ ‫יש אפילו מצבי אוטו‪-‬אקטיבציה מאוזנת אשר בה אם אחד עולה יותר הוא‬ ‫מתחיל במסלול עיכוב של השני וההיפך‪ .‬מצב זה דוחף את התא לאחד ה‪ ,fates-‬לאחד הגורלות שקובעים‬ ‫מה תהיה השלכת הפעילות של הגנים על התא‪ .‬מסיבה זו המסלול פעיל במיוחד בתוכניות התפתחותיות‪.‬‬ ‫משוב שלילי‬ ‫מצב שבו מרכיב אחד מפעיל את השני‬ ‫והשני מדכא את הראשון‪ .‬במצב הזה אין‬ ‫בי‪-‬סטאביליות‪ ,‬אבל בתלות בערכי‬ ‫פרמטרי‬ ‫וקבועי‬ ‫האקטיבציה‪,‬‬ ‫האינהיביציה‬ ‫שלהם‬ ‫לקבל‬ ‫הזמן‬ ‫ניתן‬ ‫התנהגויות שונות אפשריות‪.‬‬ ‫אחת ההתנהגיות האפשריות היא אוסילציה‪ ,‬דוגמת השעון הצירקאדי )יומי( המבקר פעילויות בהתאם‬ ‫לאורך היום; אם משנים את הפרמטרים אפשר לקבל אטנואציה‪ ,‬אוסילציות שהולכות ויורדות עם הזמן;‬ ‫שינוי אחר יביא להיעלמות האוסילציות בכלל ורילקסציה מהירה לאחר הגעה לערך כלשהו – במקום‬ ‫רוויה של ‪ X‬המייצר את ‪ ,Y‬הוספת ‪ Y‬תביא רוויה בערך נמוך יותר ומהר יותר‪ .‬בצורה זו התגובה מואצת‬ ‫ומיוצבת בו זמנית‪.‬‬ ‫מוטיבים של רשתות‬ ‫האם יש ארגון שדרכו ניתן להסביר את הרשתות המוכרות‪ ,‬האם יש מוטיבים שחוזרים על עצמם יותר‬ ‫מאשר בצורה אקראית‪ ,‬המופיעים הרבה ברשתות וייתכן שיש להם משמעות פונקציונאלית?‬ ‫נניח שאין מוטיבים פונקציונאלים שהטבע למד ומשתמש בהם שוב ושוב; משמעות הדבר היא שמוטיבים‬ ‫קטנים של שלושה‪-‬ארבעה חלבונים ברשת יכולים להופיע באותה השכיחות של מוטיבים אחרים – אף‬ ‫מוטיב לא יעבור סלקציה חיובית עם האבולוציה‪ .‬לעומת זאת מוטיבים בעלי יתרון פונקציונאלי‪ ,‬ניתן‬ ‫לצפות שהאבולוציה "תלמד" לחזור עליהם בצורה שכיחה יותר במערכת‪.‬‬ ‫איך מגדירים מוטיבים שכיחים יותר? תחילה קבוצת‬ ‫המחקר שהתמודדה עם שאלה זו התרכזה במוטיבים‬ ‫של ‪ 3-4‬קודקודים‪ .‬ברשת מכוונת יש ‪ 13‬מוטיבים‬ ‫אפשריים של חיבוריות בין שלושה נודים‪ .‬בין‬ ‫ארבעה קודקודים יש ‪ 199‬מוטיבים‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪:12‬ביולוגיה של מערכות‬ ‫‪81‬‬ ‫לאחר הרכבת סוגי המוטיבים האפשריים ניתן לבדוק בקבוצה של רשת רנדומית כמה פעמים כל מוטיב‬ ‫מופיע )תוך שמוודאים שהרשת אכן רנדומית(; לאחר יש לעבור לרשת האמיתית ולבדוק האם תבנית‬ ‫השכיחות מתאימה לתבנית של הרשת הרנדומית או לא‪ .‬אם מוטיב מסויים מופיע יותר מהשכיחות‬ ‫הצפוייה שלו‪ ,‬נאמר שהרשת מועשרת )‪ (enriched‬עבור אותו מוטיב‪.‬‬ ‫ברשת השיעתוק של ‪ E.coli‬נמצאו‬ ‫המוטיבים משמאל בתור המוטיבים‬ ‫השכיחים ביותר‪ .‬הללו היו היחידים‬ ‫שהיו מועשרים בצורה מובהקת מעבר‬ ‫למצב האקראי‪ .‬ניתן אולי לומר שזה יד המקרה‪ ,‬אולם גם כשבדקו את רשת שמר האפייה מצאו את אותם‬ ‫מוטיבים בתור המועשרים – והמועשרים היחידים‪ .14‬גם בתולעת ‪ C.elegans‬שני המוטיבים האלה עולים‬ ‫בצורה מובהקת‪ .‬מה שיותר מפתיע הוא שגם ברשתות אלקטרוניות מסוג מסויים ראו את אותם‬ ‫המוטיבים‪.‬‬ ‫כאשר סקרו רשתות שונות של החיים‪ ,‬נמצא כי יש מוטיבים ספציפיים שהם המועשרים האקסקלוסיבים‬ ‫כמעט תמיד‪ .‬אפשר לסווג את הרשתות לרשתות העברת אינפורמציה‪ ,‬העברת אנרגיה )כמו טורף‪/‬נטרף(‬ ‫וזרימת אינפורמציה שלא במובן עיבוד אינפורמציה )כמו ה‪ .(WWW-‬בכל רשתות האינפורמציה –‬ ‫אלקטרונית או ביולוגית – רואים אותם מוטיבים חוזרים‪.‬‬ ‫‪ 14‬שימו לב שאין כאן חלוקה לפי כיווניות החצים‪ ,‬אקטיבציה או אינהיביציה‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪82‬‬ ‫מבנה המוטיב של שלושת הקודקודים נחקר על ידי הקבוצה‪ ,‬וכונה ‪Feed-‬‬ ‫‪ .forward loop‬המבנה מכיל שני גורמי שיעתוק‪ X ,‬ו‪ ,Y-‬כאשר ‪ X‬מפעיל‬ ‫את ‪ ,Y‬וכל אחד מהם יכול להפעיל את ‪ .Z‬הסוג הזה של ‪Feed-Forward‬‬ ‫‪ Loop‬הוא מסוג ‪ .Coherent feed-forward loop15‬הסיבה לכך היא‬ ‫ששני המסלולים – הישיר והעקיף – מסכימים )קוהרנטיים( זה עם זה‪.‬‬ ‫מבחינת השפעה של ‪ X‬ו‪ Y-‬על ‪,Z‬‬ ‫אפשר לחשוב על שתי אפשרויות‬ ‫פשוטות‪ :‬מעגל ‪ AND‬ומעגל ‪:OR‬‬ ‫•‬ ‫‪ – X AND Y‬צריך שגם ‪ X‬וגם ‪Y‬‬ ‫ייפעלו על מנת להפעיל את ‪,Z‬‬ ‫למשל שני פקטורי שיעתוק היוצרים‬ ‫הטרודימר שמפעיל את גן ‪ .Z‬במצב‬ ‫זה ההפעלה תהיה איטית והכיבוי‬ ‫יהיה מהיר‪.‬‬ ‫ההפעלה איטית משום שנדרשת‬ ‫כמות מספקת משני הפקטורים‪ :‬יש‬ ‫לחכות ש‪ X-‬יצטבר‪ ,‬יגיע לסף בו‬ ‫הוא מתחיל להפעיל את ‪ Y‬ואז‬ ‫להמתין עד ש‪ Y-‬יגיע לסף בו הוא‬ ‫מפעיל את ‪.Z‬‬ ‫לעומת זאת בכיבוי‪ X ,‬מתחיל לרדת בתום הסיגנל וכאשר הוא מגיע לסף מסויים מתחילה ירידה ב‪Y-‬‬ ‫)עם עיכוב קטן מסוף הסיגנל‪ ,‬למרות שיכול להיות שזה מקוזז על ידי קצבי ירידה אחרים(‪ .‬אולם‪,‬‬ ‫מכיוון ש‪ Z-‬זקוק לשני הפקטורים הוא יהיה רגיש לירידה של הראשון ולא השני – ולכן הגורם‬ ‫המשפיע על הירידה של ‪ Z‬יהיה הירידה של ‪.X‬‬ ‫המסלול הזה יעיל בסינון רעשים – אם יש סיגנל "רעש" שגורם להתחלה של ההפעלה של ‪ X‬אבל‬ ‫זהו אינו סיגנל אמיתי באורך הדרוש‪ X ,‬לא יספיק להפעיל את ‪ Y‬או שהוא יתחיל להפעיל אותו אבל‬ ‫‪ Y‬לא יגיע למצב שהוא יכול להפעיל את ‪ ;Z‬מתקבל מצב ש‪ X-‬ו‪ Y-‬אינם מגיעים למצב המאפשר‬ ‫הפעלה של ‪ Z‬והרעש הזה‪ ,‬שמשפיע על ‪ X‬ואולי על ‪ ,Y‬אינו משפיע על ‪.Z‬‬ ‫אם יש רעש בכיבוי‪ ,‬הרעש לא יסונן מכיוון ש‪ Z-‬רגיש לפקטור הראשון שיושפע מהירידה בסיגנל‪,‬‬ ‫גם אם הירידה היא רגעית עקב רעש )אבל ארוכה דיה לרדת מתחת לסף הדרוש(‪.‬‬ ‫‪ 15‬סוג נוסף של לופ קוהרנטי יכול להיות מצב בו ‪ X‬הוא איהיביטורי של ‪ X ,Z‬הוא מפעיל של ‪ Y‬שהוא איהיביטורי של ‪X ;Z‬‬ ‫אינהיביטורי של ‪ Z‬ואינהיביטורי של ‪ Y‬שהוא אקטיבטור של ‪ ;Z‬ו‪ X-‬הוא אקטיבטור של ‪ Z‬ומפעיל של ‪ Y‬שהוא אקטיבטור‬ ‫של ‪.Z‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪:12‬ביולוגיה של מערכות‬ ‫•‬ ‫‪83‬‬ ‫‪ – X OR Y‬מבטא מצב של‬ ‫‪ ,redundancy‬למשל שני פקטורי‬ ‫שיעתוק‬ ‫הומולוגים‬ ‫שנקשרים‬ ‫במקומות דומים‪ ,‬ומספיק שאחד‬ ‫מהם יהיה קשור כדי לעורר ביטוי‬ ‫של ‪.Z‬‬ ‫במצב זה הסיגנל אינו תלוי; ההתנהגות של ‪ X‬ו‪ Y-‬תהיה כמו קודם )הפעלה איטית של ‪ Y‬על ידי ‪(X‬‬ ‫אולם כעת ‪ Z‬יתחיל לפעול כאשר הראשון מביניהם יעבור את סף ההפעלה של ‪ Z‬ויתחיל לרדת‬ ‫כאשר האחרון מביניהם יעבור את סף הכיבוי של ‪ .Z‬כתוצאה תתקבל הפעלה מוקדמת יותר ועיכוב‬ ‫בכיבוי‪.‬‬ ‫במקרה הזה הרגישות לרעשים תהיה הפוכה – לא יסונן רעש לש הפעלה אבל כן יהיה סינון של‬ ‫רעשי כיבוי‪.‬‬ ‫לופ אינקוהרנטי‬ ‫יש ארבעה סוגים של הפעלה קוהרנטית; אך יותר‬ ‫מכך יש התנהגויות אינקוהרנטיות‪ .‬תגובות אלו‬ ‫יכולות להאיץ תגובה התחלתית‪ ,‬לייצר פולסים‬ ‫ולגלות שינויי‪-‬קיפול )‪ ,(fold change‬כלומר להגיב‬ ‫באותה צורה לשינוי בסיגנל שהוא שינוי ב‪ – fold change-‬אם הסיגנל עולה מ‪ 2-‬ל‪ 4-‬הוא יגיב באופן‬ ‫מסויים ואם יעלה מ‪ 20-‬ל‪ 40-‬הוא יגיב באופן אחר – הוא יודע לחשב בכמה עלה הסיגנל ולהגיב‬ ‫בהתאם‪ ,‬מה שלא ניתן לומר על הסוגים הקוהרנטים‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪84‬‬ ‫שיעור ‪ :13‬החלטות גורל התא‬ ‫מוטיבציה‬ ‫ללא שיטת דימות )‪ (imaging‬ישירה לתאים בודדים לא ניתן היה להעריך את אורך הזמן והדינמיקה של‬ ‫תופעות רבות‪ .‬הבעיה היא שרוב השיטות המוכרות – מיקרואראי‪ ,‬ג'לים‪ ,‬בלוטינג – מרסקות תאים‬ ‫וממצעות את האוכלוסיה‪ .‬הדימות מאפשר מעקב ברמת התא הבודד אחר תופעות דינמיות‪.‬‬ ‫גם במקרים בהם שולטים בצורה מדוייקת בתנאים החיצוניים‪ ,‬כך שכל התאים יראו אותם תנאים ולא יהיו‬ ‫מושפעים משינויים עקב השכנים או המדיום‪ ,‬עדיין רואים שונות בתגובות – בכל מערכות החיים‪ ,‬בכל‬ ‫מיני סוגי תהליכים – בין אם ספורולציה בשמרים‪ ,‬פילמנטציה בפטריות‪ ,‬אפופטוזיס כתגובה לתרופה או‬ ‫התמיינות של תאים בצלחת‪.‬‬ ‫כל השיטות המסורתיות עושות מיצוע ולכן צריך שיטת דימות להסתכלות ברמת התאים הבודדים‪.‬‬ ‫מעקב אחר תאים ברמת התא הבודד‬ ‫המהפכה העיקרית בתחום זה נעשתה על ידי ‪ ,GFP‬חלבון המאפשר סימון ופיקוח על חלבונים ספציפיים‬ ‫בתנאי ‪ .in vivo‬חוקרים שונים עובדים כל חייהם בפיתוח צבעים שונים של חלבונים ממשפחת ‪.GFP‬‬ ‫דוגמה‪ :‬מיוזה בשמרים‬ ‫שמרים בתנאי עקה יעברו מיוזה‪ ,‬וזוהי עובדה; אולם השאלה הגדולה היא‬ ‫מתי הם מחליטים לעבור חלוקה זו‪ .,‬כל עוד יש להם אוכל‪ ,‬שמרים מתחלקים‬ ‫מיטוטית; רק בתנאי עקה הם יעברו מיוזה וספורולציה ליצירת נבגים עטופים‬ ‫באסקוס קשיח שעמיד בפני מרבית תנאי העקה לפרקי זמן ממושכים מאוד‪.‬‬ ‫מצבים כאלה הם דוגמה לחשיבות של סינון רעשים ב‪ :input-‬כל עוד השמר מתחלק מיטוטית יש לו יתרון‬ ‫על אלו שמתחלקים מיוטית ולכן חשוב יתחיל ספורולציה בכל ירידה קטנה ונקודתית בגלוקוז‪ .‬משום כך‬ ‫הרגולציה על מיוזה עוברת מבנה קלאסי של רשתות ביולוגיות – הסיגנלים מתקבלים על ידי רצפטורים‬ ‫מסויימים‪ ,‬המקשיבים לריכוז של נוטריינטים שונים; האותות מתרכזים בגורמי שיעתוק המפזרים את‬ ‫המידע מלמעלה כלפי מטה – לחלבונים ולגנים‬ ‫שצריכים להוציא לפועל את השינוי במחזור חיי‬ ‫התא‪.‬‬ ‫בגישת ‪ ,Life Cell Imaging‬ניתן לסמן את אחד‬ ‫הגנים המוקדמים של המיוזה בזן של ‪ ,GFP‬לגדל‬ ‫את השמר בתנאים טובים ואז לתת פולס הרעבה‪.‬‬ ‫כעת מצלמים את הצלחת במיקרוסקופ ממונע‪,‬‬ ‫שיכול לצלם ‪ 50‬שדות שונים על הצלחת ולהפיק‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :13‬החלטות גורל התא‬ ‫‪85‬‬ ‫‪ 50‬סרטים‪ .‬בתחילת הסרט לא רואים כלום כי הגן‬ ‫של המיוזה עוד לא הצטבר‪ ,‬אבל בהמשך ניתן‬ ‫לראות הצטברות כמו גם את החלוקה המיוטית של‬ ‫התאים לשני גרעינים ואז לארבעה‪ .‬בסרט ניתן לראות וריאביליות בתזמון הכניסה למיוזה או בקצב‬ ‫ההתקדמות בין שלבי המיוזה השונים‪.‬‬ ‫‪Image Analysis‬‬ ‫כדי להפיק ולנתח את הנתונים‪ ,‬יש למלא אחר כמה שלבים‪:‬‬ ‫•‬ ‫סגמנטציה – המחשב צריך לזהות את התאים ולסמן אותם‪ .‬בשמרים זה די פשוט‪ ,‬כי הם עגולים‬ ‫יחסית ולכן ניתן לזהות אותם‪ .‬בתאים הומאניים או תאי יונקים אחרים יש שונות הרבה יותר גבוהה‬ ‫בין סוגי התאים ולכן זה נחשב‪ ,‬באופן טיפוסי‪ ,‬השלב הקשה‪.‬‬ ‫•‬ ‫מיפוי התאים על פני הזמן – לדעת לשרשר בין זמנים שונים‪.‬‬ ‫•‬ ‫זיהוי נקודות זוהרות של ‪.YFP‬‬ ‫•‬ ‫מיפוי של הנקודות הזוהרות לתא שהכיל אותן‪.‬‬ ‫לאחר שמתגברים על מכשולים אלו בדרך לאנאליזה ניתן לקבל את רמות ה‪ YFP-‬בתא שמר בודד וכיצד‬ ‫הרמה הזו משתנה כפוקנציה של הזמן‪ .‬חשיבות הדבר היא בתזמון התרחשות נקודת ההחלטה‪.‬‬ ‫בסרט ניתן לראות דינמיקה קבועה יחסית‪ ,‬אחידה‪ ,‬של הזמן בו הבלובים נפרדים אלו מאלו ולכן ניתן לזהות‬ ‫מתי מתרחשת המיוזה הראשונה ומתי השנייה‪.‬‬ ‫דימות תאים חיים‬ ‫האנליזה מציגה את כמות החלבון בתא‬ ‫בודד במיקום מסויים‪ ,‬למשל בגרעין;‬ ‫המחשב גם יודע לזהות מיוזות ראשונה‬ ‫ושנייה‪ ,‬ומפיק גרף דוגמת זה שמשמאל‬ ‫עבור כל אחד מהתאים‪ .‬מסוג כזה של‬ ‫נתונים‬ ‫ניתן‬ ‫להוציא‬ ‫מספר‬ ‫סוגי‬ ‫סטטיסטיקות )שקף ‪:(15‬‬ ‫•‬ ‫זמני מאורעות – למשל‪ ,‬התפלגות זמן ההחלטה להתחייב לחלוקה‪ ,‬שהוא נקודת חלוקת המיוזה‬ ‫הראשונה‪ .‬ניתן לנתח את המידע שהתקבל לפי נתון זה ולקבל היסטוגרמה של התפלגות הזמנית‪,‬‬ ‫המראה שהתאים מתחילים להתחייב בין ‪ 7-24‬שעות לאחר תחילת ההרעבה‪.‬‬ ‫•‬ ‫פירוק מקטעי הזמן – ניתן לבדוק מתי רמת הגן עולה בקצב מקסימלי‪ ,‬להגדיר זאת כאירוע הדלקה‬ ‫מירבית ולציין את התזמון של זה‪.‬‬ ‫•‬ ‫קורלציה בין מאורעות – התאמה בין שני מרווחי זמן לא אפשרית באף שיטה אחרת‪ FACS .‬יכול‬ ‫לחלק תאים ולהראות תבנית של גודל לעומת רמות פלורסנציה‪ ,‬אבל חסר לנו נתון של מימד הזמן –‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬ ‫ביואינפורמטיקה ‪ -‬שיעור‬ ‫‪86‬‬ ‫מתקבלת תמונה בודדת של התרבית ולא ניתן לעקוב אחר תאים ספציפיים לאורך הזמן‪ .‬בשיטה זו‬ ‫מתקבלת גם אינפורמציה על ההיסטוריה של התאים וניתן לראות מה ההתאמה בין ההסטוריה של‬ ‫אירועים איטיים ומהירים – האם תאים שהיו איטיים במרווח זמן אחד יהיו איטיים גם במרווח הזמן‬ ‫השני )התשובה שלא‪ ,‬אין התאמה(‪.‬‬ ‫•‬ ‫קורלציה בין מאורעות בעזרת פלואורפור נוסף – ניתן להוסיף למערכת עוד פלואורופור ולבדוק‬ ‫קורלציה בין גורמים נוספים –‬ ‫למשל האם זמן המיוזה נמצא‬ ‫בקורלציה לשלב מחזור התא בו היה‬ ‫השמר‪ .‬מכיוון שרואים שהשונות בין‬ ‫הזמנים דומה ניתן להבין שאין‬ ‫קורלציה בין זמן המיטוזה האחרונה‬ ‫למיוזה הראשונה‪.‬‬ ‫•‬ ‫קורלציה בין רמות מולקולאריות‬ ‫לבין תזמונים – ניתן לבחון פעילות‬ ‫פרומוטור מסויים‪ ,‬ולראות לפי‬ ‫הגרפים של תאים בודדים האם‬ ‫השונות מספקת אינפורמציה לגבי‬ ‫תיזמון זמן הכניסה לתהליך‪ .‬במקרה‬ ‫שבאיור רואים קורלציה שלילית –‬ ‫ככל שזמן פעילות הפרומוטור קצר‬ ‫יותר הזמן עד הכניסה לתהליך היה‬ ‫קצר יותר‪.‬‬ ‫התרשים התחתון מסכם את תהליך‬ ‫הכניסה של מיוזה בשמר‪ .‬ניתן גם למדוד‬ ‫דברים נוספים כמו גודל התא‪ ,‬צורה‪,‬‬ ‫רמות‬ ‫מולקולאריות‬ ‫שונות‬ ‫וכימות‬ ‫סטטיסטי ברמת התאים הבודדים‪ .‬כל זה‬ ‫מתאפשר תודות למדגמים גדולים של‬ ‫תאים ומעקב טמפורלי אחר התאים‬ ‫המודד רמות מולקולאריות שונות‪.‬‬ ‫בסרט התא שנכנס למצב ‪ competence‬לזמן מסויים ומפסיק )תחילת המצגת(‪ ,‬הקבוצה שעשתה את‬ ‫המחקר ניסתה להסביר מדוע התופעה נדירה וטרנסגנטית‪ .‬הם הציעו מודל המבוסס על הרבה קשרים ידועים‬ ‫ומעגלים של משובים חיוביים ושליליים‪ .‬הם יכלו לבדוק את ההתנהגויות החזויות במודל בעזרת דימות תאים‬ ‫חיים‪ .‬כל גרף מראה מעקב באותו התא אחר גנים שונים‪ ,‬והצליחו להראות שיש אנטי‪-‬קורלציה מושלמת בין‬ ‫שני הגנים – דבר שחזה המודל שלהם‪.‬‬ ‫חמוטל בן דב‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫שיעור ‪ :13‬החלטות גורל התא‬ ‫‪87‬‬ ‫סיכום‬ ‫אחת המוטיבציות הייתה שתאים שונים‪ ,‬גם באוכלוסיה שמתחילה באותו מצב‪ ,‬מגיבים שונה – תאי סרטן‬ ‫מגיבים לטיפול או לא; התמיינות מתרחשת או לא; מיקרוסקופיה של תאים בודדים יכולה לכמת את‬ ‫ההבדלים האלה‪ ,‬תזמון המאורעות לאורך זמן ותזמון המאורעות בתא‪.‬‬ ‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬ ‫חמוטל בן דב‬