ביואינפורמטיקה

‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬
‫‪1‬‬
‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬
‫אתר הקורס הוא ‪ .moodle.tau.ac.il‬באתר יועלו שאלות סקר כקבלת פידבק‪ ,‬כאשר יש דרישה לענות על‬
‫לפחות ‪ 10‬שאלות‪ .‬יש גם קורס תרגול אופציונאלי‪",‬כלים בביואינפורמטיקה"‪ ,‬בסמסטר ב'‪.‬‬
‫המהפכה הגנומית ופרוייקט הגנום האנושי‬
‫הרבה מתייחסים לפרוייקט האדם הראשון בחלל כהישג משמעותי של האנושות; אולם לצד הישג זה עומד‬
‫פרוייקט הגנום האנושי – פרוייקט יקר הרבה יותר שההצלחה שלו עשויה לעלות על זו של הפרוייקט של‬
‫נאס"א גם מבחינת יישומים רפואיים עתידיים וגם מבחינת הדברים שניתן ללמוד על העבר‪.‬‬
‫פרוייקט הגנום האנושי ריצף ‪ 3‬מיליארד אותיות נוקליאוטידים; הקראת הגנום בקצב של אות בשנייה‬
‫הייתה אורכת כ‪ 100-‬שנה‪ .‬הפרוייקט המורכב הזה ספג הרבה ביקורת ציבורית בתחילתו‪ ,‬שכן כשהוא‬
‫התחיל בשנות ה‪ – 90-‬ומתוך הבנת ההיקף שלו והעובדה שעד כה לא הצליחו לרצף את כל הגנום האנושי‬
‫– חששו שלא ניתן יהיה לסיים את הפרוייקט בזמן ובתקציב שניתנו‪.‬‬
‫גם לאחר שעברו ‪ 2/3‬מהזמן הקצוב לפרוייקט לא הצליחו לרצף אלא ‪ 10%‬מהגנום‪ .‬בשליש האחרון‬
‫השלימו את השאר – עדות להתקדמות הטכנולוגית ולמה היא מאפשרת‪.‬‬
‫המירוץ לגנום‬
‫פרוייקט הגנום האנושי התחיל מקונסורטיום של מעבדות תחת ה‪ ,NIH-‬שעבדו יחד‪ .‬הגישה שלהן הייתה‬
‫הגיונית אך איטית‪ :‬מכיוון שהגנום גדול ומחולק לכרומוזומים‪ ,‬כדי חילקו אותו לסגמנטים קטנים וכל‬
‫מעבדה הייתה צריכה לרצף חלק קטן‪ ,‬שהוא יותר נשלט מהגנום העצום‪.‬‬
‫השיטה הייתה איטית כאמור ודרשה התערבות ידנית‪ ,‬כך שהיה קשה ליישם התערבות מחשבית ורובוטית‬
‫להאצתה‪ .‬אחד מהשותפים לפרוייקט בתחילתו‪ ,‬קרייג וונטר‪ ,‬חשב על רעיון להאצת הפרוייקט אך לא‬
‫הצליח לשכנע את הקונסורטיום לשנות את הגישה‪.‬‬
‫בשל האטימות לרעיונותיו‪ ,‬ונטר הקים חברה בשם ‪ ,Celera Genomics‬שהתחילה לרצף מחדש לפי‬
‫שיטתו וניסתה לרצף מספיק מהר כדי לנצח את ה‪ .NIH-‬היה לו היתרון של פרסומים פומביים של‬
‫הקונסורטיום את הקטעים המרוצפים; אבל הגישה של סלרה הייתה לרצף את כל הגנום בבת אחת‬
‫ולהרכיב את זה אחר כך‪ .‬לשם כך סלרה בנו את המחשב השלישי החזק ביותר בעולם באותו זמן‪ .‬ב‪-‬‬
‫‪ 2001‬הם כבר הודיעו על סיום הטיוטא הראשונה‪.‬‬
‫בעזרת טכנולוגיה מתקדמת התגברו ואף ניצחו את היתרון שהיה למעבדות שהתחילו כעשור קודם‪.‬‬
‫הריצוף בקצב של המעבדות היה אורך כ‪ 500-‬שנה; אך הריצוף הולך ונעשה מהיר יותר – היום מדברים‬
‫על מכונות ריצוף מהדור השני שיכולות לרצף בשבועות ספורים את הגנום‪ ,‬והתוכנית היא שמכשירי‬
‫הדור השלישי ייפעלו בקצב יהיה כה מהיר ויעילות כה גבוהה; הביטחון בכך כה רב שקיים פרס גבוה על‬
‫פריצת דרך זו כי הוא יאפשר יישום של ריצוף גנטי גם באפליקציות רפואיות‪.‬‬
‫בינואר השנה ניתן אבטיפוס למכונה שתאפשר גנום ב‪ $100-‬ובפחות משעה‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪2‬‬
‫חשיבות ריצוף הגנום האנושי‬
‫אז הגנום ידוע‪ ,‬אבל מהי באמת החשיבות של הדבר? רוב האנשים לא חשים את המהפכה‬
‫הביואינפורמטית על בשרם‪ ,‬ביום‪-‬יום‪ .‬איפה הפריצה?‬
‫פרנסיס קולינס‪ ,‬יו"ר הקונסורטיום אמר כי יש חוק שאומר שכשיש מהפכה משמעותית מבחינה‬
‫טכנולוגית אנחנו מבצעים הערכת‪-‬יתר בנוגע להשלכות המיידיות ותת‪-‬הערכה של ההשלכות לטווח‬
‫הארוך‪ .‬ניתן להקביל זאת למהפכת האינטרנט‪ :‬בתחילת שנות ה‪ 2000-‬כמעט כל מניה של חברה‬
‫שהודיעה שתעלה תכנים לאינטרנט העלתה את ערך מניותיה‪ ,‬אך בועה זו התנפצה‪ .‬יחד עם זאת עשור‬
‫מאוחר יותר ניתן לראות כיצד הציפיות לטווח הארוך של השלכות מהפכת האינטרנט נכנסות לחיינו‪.‬‬
‫לאחר שרוצף כל הגנום‪ ,‬התהליך של זיהוי גנים – שבעבר היה לוקח חודשים ושנים – יכול לקחת דקות‬
‫וימים‪ .‬דוגמה לכך היא מחלה כמו ‪ .Duchenne's Muscular Dystrophy‬האחראי למחלה הזו‪ ,‬שתוקפת‬
‫ילדים בגיל ‪ 4‬בערך‪ ,‬הוא גן ענק המכונה ‪ dystrophin‬שמכיל למעלה מ‪ 74-‬אקסונים‪ .‬לגן הזה יש גן‬
‫חלופי‪ ,utrophyn ,‬שמתבטא יחד עם דיסטרופין‪ .‬אם יש מחיקה של דיסטרופין‪ ,‬גם אוטרופין מתבטא‬
‫בחסר ולכן הקיום הטבעי שלו אינו יכול לבטל את ביטוי המחלה; אך עם הטכנולוגיה של היום‪ ,‬ניתן‬
‫לגרום לעירור של הגן – כל שנדרש היה לדעת על קיומו ולחקור אותו‪.‬‬
‫לפני פרוייקט הגנום‪ ,‬מציאת הגן אוטרופין‪ ,‬גן הומולוגי שעשוי לעזור בביצוע אותה פעולה כמו גן‬
‫המחלה‪ ,‬היתה יכולה לקחת שנים; היום עם הגנום המרוצף ניתן לחפש הומולוג בעזרת ‪ BLAST‬ובהמשך‬
‫לבודד את הגן בתוך שבועות ספורים בלבד‪ .‬זוהי התקדמות המאפשרת לחוקרים לבצע את המחקר שלהם‬
‫במהירות וביעילות‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬
‫‪3‬‬
‫סקירה היסטורית‬
‫•‬
‫‪ – 1859‬דארווין היה בעל הרעיון הטוב ביותר‪ ,‬יש הטוענים‪ ,‬שמישהו העלה‪ .‬הרעיון שלו הוא שניתן‬
‫לקבל משהו שנראה כמו ‪ design‬בלי שיעמוד מאחוריו ‪ .designer‬זהו רעיון חשוב גם מבחינה‬
‫אוניברסלית – דארווין דיבר על ביולוגיה‪ ,‬אך הכלל שלו יכול להיות רלוונטי לא רק בביולוגיה ואולי‬
‫לא רק על פני כד"א‪ .‬ברגע שיש שונות וחלק מהווריאנטים מצליחים יותר מאחרים יתקבל‬
‫תהליך שנראה כמו עיצוב‪.‬‬
‫•‬
‫‪ – 1866‬מנדל גילה את חוקי התורשה‪ .‬אומנם בני אדם ידעו על תורשה עם המהפכה החקלאית‪ ,‬בה‬
‫ידעו כי הורים מוצלחים מולידים צאצאים מוצלחים‪ ,‬אך התרומה של מנדל הייתה שהוא הבין‬
‫שחוקי התורשה הם משהו בדיד – הורים יכולים להיות בעלי תכונה מסויימת אבל התינוק לא יהיה‬
‫איחוי שלהם אלא תכונותיו נעות על ספקטרום מסויים בהתאם לתכונות ההורשה השונות‪,‬‬
‫לדומיננטיות שלהן וכדומה‪.‬‬
‫•‬
‫‪ – 1928‬גריפית תרם להבנה מהו החומר התורשתי‪ .‬ידוע שצאצא יהיה מאותו המין ודומה להוריו;‬
‫גריפית עשה ניסוי שבו הראה שהחומר התורשתי הוא חומצות גרעין – ‪ ,DNA‬נושא עליו הקהילה‬
‫המדעית הייתה חלוקה בזמנו‪.‬‬
‫•‬
‫‪ – 1953‬ווטסון וקריק בנו את מודל ה‪ ,DNA-‬החומר התורשתי‪ ,‬והצליחו להבין איך המכאניזם של‬
‫התורשה מתרחש על ידי הזיווג בין ארבעת הנוקליאוטידים‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫‪4‬‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫•‬
‫‪ – 1961‬נירנברג קיבל נובל על פיצוח קוד המעבר מאינפורמציה של ארבע אותיות‬
‫)נוקליאוטידים( ל‪ 20-‬אותיות )חומצות אמינו(‪ .‬הוא בנה את הקידוד והבין שהקוד הגנטי‬
‫אוניברסלי בכל האורגניזמים הקיימים בכדור הארץ‪.1‬‬
‫•‬
‫‪ – 1970‬סאנגר המציא את הטכנולוגיה הבסיסית לריצוף ה‪ .DNA-‬כל הטכנולוגיות המתקדמות‬
‫יותר ופחות שיש היום מתבססות עליו‪ .‬בשיטה זו יוצרים עותקים רבים של ‪ ,DNA‬חותכים אותם‬
‫ומרכיבים אותם יחד על בסיס החפיפה ביניהם‪.‬‬
‫•‬
‫‪ – 2003‬פרוייקט הגנום האנושי‪.‬‬
‫•‬
‫מ‪ 1940-‬והלאה – הולדת המחשב הדיגיטלי הראשון‪ ,‬התפתחות המחשבים והטכנולוגיה שלהם‬
‫מתרחשת ברקע לאורך ההיסטוריה הזו‪.‬‬
‫המהפכה הגנומית מתכנסת עם מהפכת טכנולוגיית‬
‫המידע – מהפכת המחשבים‪ .‬גם היא‪ ,‬כמו המהפכה‬
‫הגנומית‪ ,‬מתקדמת בקצב אקספוננציאלי‪ .‬מעניין‬
‫לראות שבמעבר למתמטיקה ולפונקציה התיאורטית‬
‫קיימות‬
‫התנהגות‬
‫תופעות‬
‫כלל‪-‬עולמיות‬
‫אקספוננציאלית‪.‬‬
‫בעולם‬
‫הקצב‬
‫בעלות‬
‫בטכנולוגיית‬
‫הריצוף מוכפל מדי ‪ 10‬חודשים בערך‪ ,‬והמהפכה‬
‫הדיגיטלית ממשיכה ודוחפת אותו אל הקצה‪.‬‬
‫מדע הביואינפורמטיקה‬
‫מדע זה נולד מתוך הצורך להתגבר על פרוייקט הגנום האנושי – פרוייקט גדול שהביולוגים ניסו להתגבר‬
‫עליו‪ .‬המחשבים שימשו בתחילה רק כדי לאחסן את כמויות הנתונים העצומות ומאוחר יותר גם לעשות‬
‫סדר בערימות המידע העצום הזה‪.‬‬
‫המחשב‪ ,‬עוד לפני פרוייקט הגנום‪ ,‬ידע לטפל במחרוזות – למצוא מחרוזות‪ ,‬תת מחרוזות‪ ,‬וכדומה‪ .‬גם‬
‫‪ DNA‬וחלבונים הם מחרוזות – ולכן ניתן לומר שכבר אז היה הבסיס האלגוריתמי לחיפוש גנים‬
‫וחלבונים ברצף‪.‬‬
‫הדוֺגמה‬
‫של‬
‫שהאינפורמציה‬
‫הביולוגיה‬
‫נמצאת‬
‫היא‬
‫בגרעין‪,‬‬
‫בצורת ‪ ,DNA‬והיא יוצאת החוצה‬
‫בפורמט‬
‫קריא‬
‫בתור‬
‫‪mRNA‬‬
‫המאפשר תרגומה לחלבונים‪.‬‬
‫‪ 1‬לא מדוייק‪ ,‬אבל לצורך הדיון נגיד שזה נכון לגבי כל האורגניזמים‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬
‫‪5‬‬
‫הגנומים עצמם – גנומיקה משווה‬
‫תחום זה נועד ליישום עימוד – ‪ – alignment‬של גירסאות‪ .‬השוואה גנומית דורשת‬
‫עימוד – לדעת מה עומד מול מה – כדי שניתן יהיה לחפש טעויות או סטיות‪ .‬לשם כך‬
‫אוספים רצפים מכמה אורגניזמים שונים‪ ,‬מעמדים אותם ומחפשים את ההבדלים‬
‫בעמודות‪ .‬בהמשך מחפשים את ההבדלים החשובים – אלו שממש משפיעים על יכולת‬
‫החיות והויאביליות של האורגניזמים‪ ,‬ואלו שמהווים את הדומה והשונה בין אורגניזמים‪.‬‬
‫עוד לפני פרויקט הגנום היו גנומים מרוצפים בשלמותם – של חיידקים‪ ,‬שמרים ובהמשך‬
‫גם הנמטודה ‪ .C.elegans‬השוואה בין הנמטודה לאדם מגלה אותו סדר גודל של גנים‪.‬‬
‫ההשוואה הזו מוזרה היות ו‪ C.elegans-‬היא כה קטנה‪ ,‬כה פשוטה עד שיש לה רק ‪ 32‬נוירונים – לעומת‬
‫מליארדי נוירונים בבני אדם‪ ,‬מדד המעיד על היבט של מורכבות‪ .‬לפיכך הניחו שאין קשר ישר בין גודל‬
‫הגנום לבין היכולת של הגנום לתמוך באורגניזם מורכב‪.‬‬
‫לאמבה דביה‪ ,‬בעלת גודל מיקרוסקופי ויכולות רגילות של אמבות‪,‬‬
‫יש גנום המכיל ‪ 600‬מיליארד בסיסים – למעלה מפי ‪ 200‬מגודל‬
‫גנום האדם‪ .‬היום ידוע שיש הרבה חלקים בגנום שהפונקציה שלהם‬
‫אינה בקידוד לחלבונים‪ ,‬אשר כונו בעבר ‪ ,Junk DNA‬וזוהי דוגמה‬
‫קיצונית לכך‪.‬‬
‫מקטעים שמורים = מקטעים חשובים‪ ,‬לא בהכרח חלבונים‬
‫גנומיקה משווה אומרת שאם יש מקטע שמור – מקטע דומה בגנומים של אורגניזמים שונים – סימן‬
‫שהאיזור מקודד למשהו בעל פונקציה חשובה ולכן האבולוציה לא איפשרה למקטע להשתנות‪.‬‬
‫במסגרת מחקר כזה בחנו מספר גנומים‪ ,‬למשל של עכבר‪ ,‬חולדה ואדם‪ ,‬וניסו לחפש מקטעים שמורים‬
‫לחלוטין – שלא השתנו אפילו בבסיס אחד – ושמהווים סגמנטים של כ‪ 200-‬זוגות בסיסים‪ .‬נמצאו כמעט‬
‫‪ 500‬סגמנטים כאלה שמקודדים לחלבונים והיו ובעיקרם אקסונים; יחד עם זאת היו גם מקטעים שלא היו‬
‫חלק מגנים שמקודדים לחלבונים‪ .‬זה הראה שאחוז מאוד משמעותי של הגנום יכול להיות שמור‬
‫ופונקציונאלי אבל לא מקודד לחלבונים‪ .‬זה מתחיל לענות על שאלת הפער הגנומי בין הנמטודה לאדם –‬
‫יכולים להיות איזורים רגולטוריים ולא מקודדים בגנום – המשנים תזמון וביטוי של חלבונים בהתאם‬
‫למצב של הגוף; הם מהווים כעין אבני בניין ואם יוצרים תבנית אחרת של ביטוי ניתן לקבל תבנית אחרת‬
‫בתוצאה – אדם או נמטודה‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫‪6‬‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪...‬האומנם?‬
‫מאוחר יותר חוקר מאוני' תל אביב‪ ,‬נדב אחיטוב‪ ,‬לקח את הגנים ה‪) UC-‬אולטרא‪-‬שמורים( ועשה להם‬
‫מחיקה‪ .‬הוא ראה שיש מקטעים שמחיקה שלהם עדיין תוליד עכבר ויאבילי ובריא‪ ,‬מה שמעלה שאלה בנוגע‬
‫לכלל האצבע הזה ששמירות = חשוב או פונקציונאלי‪.‬‬
‫במה נבדל האדם מהשימפנזה?‬
‫הגנום של השימפנזה רוצף כחמש שנים לפני הגנום האנושי‪ .‬זמןר ב ידוע ששימוש בכלים אינו מבחין בני‬
‫אדם בלבד – שהרי שימפנזות יכולות ללמוד להשתמש בכלים לשם ציד טרמיטים‪ .‬גם שפה היא לא דבר‬
‫הייחודי לאדם – חוקרים בשנת ‪ 2008‬לימדו שימפנזים שפת סימנים‪ ,‬פתחו להם עמוד בפייסבוק‪ ,‬וארבעת‬
‫השימפנזים האלה מנהלים חיי חברה פוריים דרך פייסבוק – הם משתמשים בשפת הסימנים שלמדו כדי‬
‫להעביר מסרים די מורכבים‪.‬‬
‫בגנום של השימפנזה נמצאה ‪ 96%‬זהות בין המקטעים שניתן להשוות ישירות יחד עם אלו שלא ניתן‬
‫להשוות ישירות )‪ 97%‬בחלקים שניתן להשוות ישירות בלבד(‪ .‬משמעות הדבר היא שניתן לקבל שונות‬
‫גדולה באורגניזם גם עם אחוז שונות מאוד קטן בגנום‪.‬‬
‫ההבדל טמון גם בשמירות וגם בהבדלים שבין האדם לשימפנזה‪ .‬לשם כך חיפשו מקטעים שמורים‬
‫מאוד בין האדם והשימפנזה לחולייתנים שונים‪ ,‬עד תרנגולת – כאשר המקטעים אינם בהכרח גנים –‬
‫ודורשים בנוסף לשמירות הגבוה מתרנגולת לשימפנזה שבין אדם לשימפנזה המקטעים האלה כן ישתנו‬
‫באופן יותר משמעותי‪ .‬קטעים אלו אולי מעידים על מקור ההבדל בין השימפנזה לאדם‪.‬‬
‫בתהליך זה נמצא מקטע אחד שבין תרנגולות לשימפנזה היו בו שני שינויים בלבד אולם בין שימפנזה‬
‫לאדם היו ‪ 18‬שינויים באותו המקטע )ניתן להניח שפרק הזמן בין אדם לשימפנזה קצר יותר מאשר‬
‫לתרנגולת ולכן נראה שהאבולוציה לא רק משמרת אלא יכולה בתנאים מסויימים להאיץ שינויים(‪.‬‬
‫במחקר התגלה שהמקטע אינו מקודד לחלבון כי אם לגדיל ‪ RNA‬בעל קיפול ייחודי‪ ,‬המתבטא במוח‬
‫באיזור הקורטיקלי בתקופה העוברית‪ .‬זהו מועמד שכנראה הינו בעל תפקיד רגולטורי ויכול ליצור את‬
‫ההבדלים השכליים בין האדם לשימפנזה‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬
‫‪7‬‬
‫ובמה נבדל האדם המודרני מהאדם הנאנדרטלי?‬
‫בין אדם לשימפנזה קיימות בין ‪ 5-6‬מיליון שנים; מה עם ההיסטוריה הקרובה יותר? גם אוכלוסיית האדם‪,‬‬
‫כמו אוכלוסיית השימפנזה‪ ,‬התפצלה – למרות שרק ההומו ספיינס שרדו‪ .‬יחד עם זאת היו גם‬
‫הניאנדרטאלים‪ ,‬שחוקרים הצליחו להוציא את דגימות גנום שלהם מעצמות קבורות‪ .2‬לא ניתן היה לרצף‬
‫הכל‪ ,‬אבל מהחלק שרוצף עלו כמה מסקנות‪:‬‬
‫•‬
‫יש הרבה גנים משותפים לספיינס‪ ,‬שזה הגיוני‬
‫וצפוי; אבל יש גם גנים שונים‪ .‬ביניהם גנים‬
‫שפגמים בהם יוצרים אוטיזם או סכיזופרניה;‬
‫היו גם גנים שקשורים לצורת השלד העשויים‬
‫להסביר את מבנה השלד המשוער של‬
‫ניאנדרטלים‪.‬‬
‫•‬
‫ישנן עדויות ל‪ .Inter breeding-‬האדם היה‬
‫באפריקה‬
‫כשהניאנדרטלים‬
‫חיו‬
‫באירופה;‬
‫כשהאדם יצא לאירופה הוא תפס להם את הנישה‪ ,‬אך ככל הנראה הם התרבו ביניהם לפני שהספיקו‬
‫להיכחד‪ ,‬כי מוצאים אוכלוסיות של אדם מודרני שיותר דומות לאוכלוסיה הניאנדרטלית מאשר‬
‫לאוכלוסיה שיצאה מאפריקה‪.‬‬
‫וריאנטים אנושיים‪ /‬אדפטציות‬
‫הפונקציה של גלוקוז‪-6-‬פוספט דהידרוגנאז )‪ (G6PD‬היא פונקציה נפוצה בגוף‪ ,‬אבל בתאי דם אדומים‬
‫תפקידה חשוב במיוחד כי היא מונעת עומס חימצון של הכדורית האדומה‪ .‬הווריאנט אינו מבצע את‬
‫הפונקציה באופן מלא – הוא עושה אותה באופן חלקי ולכן גורם לעומס חימצון לא קטלני‪ .‬אנשים שיש‬
‫להם את הווריאנט עמידים לטפיל המלריה‪ ,‬ולכן הווריאנט הגיע לאחוזים גבוהים באוכלוסיה‪.‬‬
‫הרצפטור ‪ CCR5‬משמש את נגיף האיידס לכניסה לתאי הדם הלבנים‪ .‬בימי הביניים השתוללה באירופה‬
‫מגיפת המוות השחור; היא קטלה שליש מהאוכלוסייה אבל מהשורדים היו בעיקר בעלי חסר ברצפטור‬
‫‪ .CCR5‬הדבר יצר עלייה בשכיחות של הרצפטור המוטנטי בקהילה האירופאית אשר תודות לה יש להם‬
‫גם עמידות חלקית לנגיף האיידס‪.‬‬
‫פרויקט מיפוי הוריאנטים של הגנום האנושי‬
‫הרעיון היה ליצור קטלוג של סניפים )‪ (SNPs‬שונים בין בני אדם‪ .‬השם החדש של הפרוייקט הוא ‪1000‬‬
‫‪ ,Genomes Project‬אשר ירצף מאות ואלפי גנומים שילמדו אותנו על דופליקציות של מקטעים‪ ,‬שונות‬
‫בין בני אדם וכדומה‪.‬‬
‫‪ 2‬זה היה עניין מאתגר‪ ,‬כי צריך למצוא עצמות טובות – שרוב הגנום שלהם הוא של ניאנדרטאלים ולא של חיידקים או פטריות‬
‫שגדלו על העצם‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪8‬‬
‫הפרוייקט נשמע שאפתני אבל המכונות היום יכולות לייצר ב‪ 12-‬שעות את כל מה שייצרו בפרוייקט הריצוף‬
‫של הגנום האנושי הראשון‪.‬‬
‫היום ניתן להשוות בין בני אדם ולקבל אינפורמציה על ההבדלים והווריאנטים‪ .‬האפליקציה הראשונה בה‬
‫הציבור מעוניין היא רפואית – מציאת התאמה בין וריאנטים גנטיים לבין מחלות כך שניתן לזהות סיכוי‬
‫מוגבר למחלות מסויימות בהתאם לווריאנטים הגנטיים‪.‬‬
‫אפילו בתאומים זהים‪ ,‬שיש להם אותו הגנום‪ ,‬ניתן לכמת באופן שונה את הסיכוי למחלה עקב הבדלים לא‬
‫בגורם הסיכון הגנטי אלא בגורם הסיכון הסביבתי‪ .‬השיטות עד כה יכלו להסביר רק כ‪ 10%-‬מהווריאנטים‬
‫הגנטיים שאחראים לסיכון הגנטי‪ ,‬המהווה ‪ 50%‬מהסיכון; פרוייקט ‪ 1000‬הגנומים מבקש למצוא את ‪40%‬‬
‫הנותרים‪.‬‬
‫בעתיד שבו ריצוף גנום אנושי יהיה מהיר וזול ניתן יהיה לתת לאנשים פרוגנוזה על בסיס הגנום; יישום זה‬
‫לא קיים כרגע ברפואה אבל הוא נכנס כבר לתחום הפרמקוגנומיקה – זיהוי גנים שמעידים על היכולת‬
‫להגיב טוב יותר או פחות לתרופה מסויימת‪ .‬התחום הזה קיים במספר תרופות וכנראה יהיה תקן העתיד‪.‬‬
‫בצורה זו ניתן יהיה לשווק תרופות המספקות תועלת מירבית ונזק מינימלי‪.‬‬
‫גנומיקה של סרטן‬
‫פרוייקטים מסויימים מרצפים גנום מתאים סרטניים במקום מתאים בריאים‪ .‬בצורה זו ניתן למצוא מהם‬
‫הדומה והשונה בין הסרטן לתא הרגיל – במיוחד מהן האדפטציות הדרושות על מנת שהתא יוכל להיות‬
‫סרטני‪ .‬כאשר סוקרים הרבה מאוד תאים סרטניים אפשר לחקור את הגנים האלה וליצור תרופות שיכוונו‬
‫ספציפית אל אותם גנים סרטניים‪.‬‬
‫תרופה שכזו היא ‪ LPX4032‬המשמשת לסרטן העור – מלנומה‪ .‬זוהי תרופה עם תגובה מאוד מועילה‬
‫שפותחה לאחר שריצפו תאים עם מלנומה לעומת תאים בריאים ומצאו שינוי בגן ‪ .BRAF‬התרופה‬
‫מביאה לשיפור משמעותי במצב התאים הסרטניים ומצב הגן – זוהי תרופה שפוגעת ספציפית בגן‪.‬‬
‫בצורה כזו נחסכות תופעות הלוואי הרבות של הכימותרפיה‪ ,‬כי זו תרפיה נקודתית‪.‬‬
‫שיטת ה‪ Genes Microarrays-‬מאפשרת בעזרת כרטיס אחד‪ ,‬שגודלו לא עולה על זה של כרטיס‬
‫אשראי‪ ,‬להשוות בין מאות ואלפי גנומים ולראות את נקודות ההבדל והדמיון ביניהם‪ .‬ניתן להפעיל‬
‫‪ DNA CHIPS‬על חולי לוקמיה למשל‪ ,‬סרטן חמור בעל מאפיינים דומים בין מטופלים‪ ,‬להשוות בין‬
‫הגנומים של החולים ולראות שטיפול‬
‫תרופתי מתאים לבעלי גנום מסויים‬
‫אך פחות לבעלי ורייאנט אחר או‬
‫שהם בעלי גן אחר שגרם ללוקמיה‪.‬‬
‫בצורה זו מסתכלים על הנתונים‬
‫ומפתחים כלים חישוביים לניתוחם‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :01‬הקדמה לביואינפורמטיקה‬
‫‪9‬‬
‫ביואינפורמטיקה מבנית‬
‫תחום זה מתאר את נסיונם של הביואינפורמטיקאים לקבל רצף של חומצות אמינו ו"לקפל" אותו במחשב‬
‫לקבלת המבנה המרחבי של החלבון‪ .‬זה עדיין לא אפשרי היום‪ ,‬אבל כן ניתן ללמוד על האינטראקציה בין‬
‫חלבונים בעלי מבנה ידוע – למשל לאתר את נקודות המגע והעיגון שלהם‪.‬‬
‫כלים נוספים באשפתו של הביואינפורמטיקאי הם ‪ – machine learning‬קבלת אינפורמציה עם תיוג‪,‬‬
‫סיווג מסויים‪ ,‬ויצירת תיוג מחדש‪ .‬הדוגמה הבאה לקוחה מתוך מטופלים שמקבלים תרופות נגד וירוס ה‪-‬‬
‫‪ HIV‬והאופן בו הן משפיעות על הוירוס‪.‬‬
‫הוירוס עובר אבולוציה מהירה עקב הרבה מוטציות‪,‬‬
‫היוצרות‪ ,‬בחלקן‪ ,‬עמידות לתרופות שמקבל המטופל‪,‬‬
‫שאמורות למנוע את התקדמות המחלה‪ .‬זהו למעשה‬
‫מירוץ חימוש בין המטופל הלוקח תרופות לבין‬
‫הוירוס‪.‬‬
‫בקבלת מטופל חדש‪ ,‬מומלץ לדעת אם הוא נדבק‬
‫בוירוס העמיד לתרופות מסויימות או לא‪ .‬ניתן‬
‫להשוות בין גנומים של הוירוס העמיד לוירוס שאינו‬
‫עמיד )וירוסים ממטופלים שקיבלו את התרופה‬
‫לעומת כאלו שלא( ולמצוא את ההבדלים בגנום –‬
‫ולהניח שהבדלים אלו הם ההבדלים שמביאים‬
‫לעמידות‪ .‬כאשר מגיע המטופל החדש מרצפים את‬
‫הגנום של הוירוס שלו וכך ניתן לדעת עוד לפני‬
‫שהוא יקבל את התרופה האם הוירוס שלו עמיד לה‬
‫או לא‪.‬‬
‫לסיכום‬
‫ביואינפורמטיקה חוקרת גנומים שלמים‪ ,‬רמות ביטוי של גנים ברמת ה‪ RNA-‬ויכולה לשמש גם למחקר‬
‫בחלבונים‪ .‬כשחושבים על כלל האורגניזמים בכדור הארץ התמונה שלנו מעט מעוותת‪ :‬מיקרואורגניזמים‬
‫הם יצורים שלא נראים לעין ואנו נוטים לשכוח שהם מהווים למעלה ממחצית הביומסה על כדור הארץ –‬
‫כלל בעלי החיים תופסים רק כ‪ 1/1000-‬מהביומסה‪.‬‬
‫היום קיים מעבר מעידן של קריאת הקוד הגנטי לרצון לכתוב את הקוד הגנטי‪ .‬הדבר הברור העיקרי הוא‬
‫שהמטען הגנטי הוא מעין תוכנית בעלת פונקציות והוראות רבות‪.‬‬
‫אחת מהוראות התוכנית שלנו‪ ,‬למשל‪ ,‬היא שכדאי לשמור כל קלוריה ולאגור אותה לתאי שומן; בעכברים‬
‫מצאו שאם עושים נוקאאוט לגן מסויים הם חיים יותר ורזים יותר – תוך אכילת אותה כמות מזון‪ .‬העתיד‬
‫עשוי לצפון לא רק מחיקת קטעים מתוך הקוד‪ ,‬אלא גם מניפולציה ושכתוב של הקוד הגנטי‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪10‬‬
‫שיעור ‪ :02‬עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים‬
‫מהי המוטיבציה לחפש אחר דמיון בין רצפים? מהןת‬
‫הבעיות החישוביות העולות מן החיפוש? אנו‬
‫שואפים ללמוד על ההומולוגיה‪ .‬הומולוגיה היא‬
‫דמיון בין עצמים‪ ,‬הנובע מאב קדמון משותף‪.‬‬
‫משמאל‪ :‬שלוש דוגמאות לגפיים קדמיות – של‬
‫אורנגאוטן‪ ,‬כלב וחזיר‪ .‬ניתן להבחין בהומולוגיה‪.‬‬
‫הומולוגיה לא מתקיימת רק באיברים; ניתן לבחון גם‬
‫הומולוגיה של חלבונים מאורגניזמים שונים ולהסיק מידע על המבנה ואולי גם התפקוד של חלבון לא‬
‫מוכר בהתבסס על ההומולוגיה שלו לחלבון מוכר‪.‬‬
‫כיצד מגדירים מה דומה ומה שונה? בהתאם לאחוז הזהות בין חומצות האמינו ובהתאם ליכולת‬
‫לעמד את הרצפים בצורה מדוייקת אחד מול השני‪.‬‬
‫עימוד רצפים‬
‫העימוד בין שני רצפים יכול להראות דמיון מוחלט או דמיון חלקי;‬
‫ניתן גם לאתר ‪ insertions‬או ‪) deletions‬המכונים "‪ .("in-dels‬בסופו של דבר כל אלו עוזרים למצוא‬
‫עד כמה הרצפים דומים אחד לשני על מנת למצוא את מידת ההומולוגיה הגנטית‪.‬‬
‫מדוע לעמד?‬
‫•‬
‫בין שני חלבונים דומים מאוד‪ ,‬על פי רוב הפונקציה תהיה דומה‪ .‬אם נשווה חלבון חדש לחלבון מוכר‪,‬‬
‫מידת דמיון גבוהה תעזור לכוון את מחקר הפונקציה של החלבון החדש כי היא כנראה תהיה דומה‬
‫לפונקציה של החלבון המוכר‪.‬‬
‫•‬
‫אם נתון רצף גנומי ממקור לא ידוע‪ ,‬ניתן להשוות ‪ mRNA‬לרצף הגנומי למציאת גן המקור‪ .‬העימוד‬
‫מאפשר להבין היכן נמצא הגן של ה‪ .mRNA-‬בהתאם למיקום ניתן להרחיב ולהעמיק את המחקר‪.‬‬
‫•‬
‫אם מרכיבים עץ פילוגנטי שעוזר להבנת אירועי התפצלויות שונים של מינים לאורך האבולוציה‪,‬‬
‫אפשר להשתמש באנטומיה אבל הרבה אינפורמציה מתקבלת גם מהשוואת גנומים וחלבונים‬
‫מאורגניזמים שונים‪ .‬על ידי השוואה בין רצפים שונים מאורגניזמים שונים‪ ,‬ועל ידי מדד שניתן לכמת‬
‫בעזרתו את מידת השוויון או השוני של ההומולוגיה בין הגנומים השונים‪ ,‬ניתן ללמוד על המרחק‬
‫האבולוציוני בין שני האורגניזמים להם היו שייכים הגנומים‪.‬‬
‫•‬
‫ברצף חומצות האמינו )למעלה משמאל( ניכרות חומצות אמינו שמורות מאוד ואחרות שמתחלפות‪.‬‬
‫ניתן להבין מכך שאם נשווה בין כמה חלבונים כאלה ממקורות שונים‪ ,‬נלמד לאילו חומצות אמינו‬
‫בחלבון יש תפקיד ועל כן מקומן נשמר באדיקות לאורך האבולוציה לעומת חומצות אמינו אחרות‬
‫שיכלו "לספוג" שינויים‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :02‬עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים‬
‫‪11‬‬
‫ההבדלים המתקבלים‬
‫אם שני רצפים חולקים אב קדמון משותף‪ ,‬ניתן‬
‫לצייר את היחסים האבולוציונים שלהם בעזרת עץ‬
‫פילוגנטי‪ .‬אם משווים בין שני הרצפים לאב הקדמון‪,‬‬
‫מקבלים שלוש אפשרויות‪:‬‬
‫•‬
‫התאמה מושלמת – אותה חומצת אמינו נמצאת‬
‫באותו המיקום בשני החלבונים; ההשערה היא‬
‫שהסיבה היא שאותה חומצת אמינו הייתה‬
‫קיימת גם באב הקדמון‪.‬‬
‫•‬
‫שיחלוף – זוהי מוטצית ‪ missense‬בה חומצת‬
‫אמינו אחת הוחלפה באחרת‪ .‬התוצאה לא הייתה‬
‫ליתאלית ולכן המוטציה שורדת‪ .‬באב הקדמון‬
‫ישנם סיכויים שווים לכאורה שתהיה כל אחת מחומצות האמינו שיש במולקולות הבת )הסיכויים‬
‫יורדים אם יש מולקולה שלישית שמחזקת אפשרות אחת או אחרת(‪ .‬ייתכן שיש מצב סביר יותר‬
‫מהשני בהתבסס על נתוני ההסתברות שמוטציה כזו או אחרת תקרה‪ ,‬או שגם – בסבירות מאוד נמוכה‬
‫– במולקולת האב היה משהו שונה לחלוטין וכל אחת ממולקולות הבת היא מוטציה חדשה‪.‬‬
‫•‬
‫מחיקה – לפעמים רואים מחיקה של חומצות‬
‫אמינו מהאב הקדמון לצאצאים; יתרה מזאת‪ ,‬כל‬
‫דבר שנדמה כמחיקה יכול באותה המידה )אם‬
‫יש רק שתי מולקולות בת( להיות בעצם הכנסה‬
‫של חומצת אמינו‪ .‬משום כך המצב הזה מכונה לעיתים קרובות )‪.indel (insertion-deletion‬‬
‫אבולוציונית‪ ,‬בכל אחד מהמצבים יש גורם נעלם ולא ידוע‪ ,‬גורם הגיוני המביא לתוצאה וגורם‬
‫שהוא הסביר ביותר לתוצאה‪.‬‬
‫הקונטקסט של העימוד‬
‫כשמעמדים שני רצפים של ‪ DNA‬ויודעים שהאיזור הנבדק מקודד לחלבון‪ ,‬ידיעה זו לבדה יכולה לספק‬
‫אינדיקציה לאינדקס נוסף לחיפוש‪ :‬אם ידוע שזהו ‪ indel‬ומתלבטים בנוגע לשאלה האם זו מחיקה או‬
‫הוספה‪ ,‬ניתן לבדוק מי מהאפשרויות מאפשרת שמירה על קיומה של המחיקה כמחיקה או ההכנסה‬
‫כהכנסה תוך כדי שמירה על מסגרת הקריאה‪) Squience Alighnment .‬עימוד רצפים( בא להגיד עד‬
‫כמה שני רצפים דומים אחד לשני‪ ,‬והתשובה לכך תלויה מאוד בקונטקסט‪ :‬הקונטקסט שיוצרת מחיקה‬
‫יש לו השלכות שונות לחלוטין מאשר הוספה על התוצר הסופי‪ ,‬למרות ששניהם יוצרים ‪.missense‬‬
‫מה עשו בפרוייקט הגנום האנושי בכדי למצוא איזורים המקודדים לחלבון? לאחר קבלת הגנום השלם‬
‫מעמדים את הרצפים ומחפשים "‪ "indel‬במקטעים מסויימים‪ .‬על ה"‪ "indels‬להיות בגודל ‪) 3K‬כאשר‬
‫…‪ ,K=1,2,3‬כלומר כפולות של ‪ .(3‬ניתן להניח ש‪ indels-‬של פחות מ‪ 3K-‬לא שורדים‪ ,‬כי האיזורים‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪12‬‬
‫שבין ‪ indels‬מקודדים לחלבון ואם אינם כפולות של ‪ 3‬הם גורמים ליציאה ממסגרת הקריאה‪ .‬באופן זה‬
‫ניתן לזהות חלבונים לפי גדלי ה"‪ "indels‬המותרים בהם‪.‬‬
‫עימוד גלובלי לעומת עימוד מקומי‬
‫נתונים שני רצפים ורוצים לעמד רצף‬
‫אחד מול השני‪ .‬בחלבונים זה קורה‬
‫לעיתים קרובות‪ ,‬כי ‪ domains‬שונים‬
‫יכולים להיות שמורים מאוד או לא‪.‬‬
‫בדוגמה משמאל נראה שכמחצית‬
‫מהרצף מהווה לכאורה ‪mismatches‬‬
‫היוצרים חוסר עימודיות גבוהה; אולם‬
‫בעזרת עימוד מקומי מתגלים איזורי‬
‫דמיון הנמצאים בחלק מהרצפים‪.‬‬
‫לסיכום‬
‫•‬
‫בעימוד גלובלי חובה לעשות עימוד עד הסוף‪.‬‬
‫•‬
‫בעימוד מקומי מחפשים איזורים בהם החלקים הדומים יהיו האתרים שמעוררים דמיון‪.‬‬
‫•‬
‫בעימוד מקומי מחפשים קטעים שמגיעים ממקומות זהים באבולוציה‪ ,‬כאשר לכל הקטעים המקומיים‬
‫היה אב קדמון משותף‪ ,‬למרות שהקטעים באמצע יכולים להיות ממקור אחר‪ ,‬משותף להם או שלא‪,‬‬
‫ועל כן יכולים להיות שונים מאוד‪.‬‬
‫דוגמה‬
‫החלבון ‪ PTK2‬שמור בין אדם לקוף‪.‬‬
‫בכל שורה נתונות חומצות אמינו‪,‬‬
‫האחת של אדם והשנייה של הקוף‬
‫‪ .Rhesus‬העימוד בין הקוף לאדם גדול מאוד‪ ,‬או‬
‫לפחות כך נראה – עדות למרחק האבולוציוני בין‬
‫האדם לרהסוס‪.‬‬
‫בבחינת את הגן האנושי נראה שיש לו כמה דומיינים;‬
‫ביניהם‪ ,‬דומיינים ‪ A‬ו‪ .B-‬בחלבון אחר דומה הקיים‬
‫בלויקוציטים‪ ,‬יש דומיין ‪ A‬ודומיין ‪ X‬במקום דומיין‬
‫‪ .B‬בין שני הדומיינים ‪ A‬יש דימיון כי לחלבון יש אב‬
‫קדמון משותף‪ .‬דומיינים אחרים לא מעניינים אותנו‬
‫כרגע‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :02‬עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים‬
‫‪13‬‬
‫אנליזת עימוד גלובלי הייתה מבטלת כמות גבוהה‬
‫מהחלבון; כאן מתאים השימוש בעימוד מקומי –‬
‫עימוד שמסמן מתי יש דמיון בתכונות למרות שידוע‬
‫שהחלבונים אינם בהכרח זהים לחלוטין ‪ .‬כעת נראה‬
‫שיש דווקא דמיון די גבוה בין שני הקטעים האלה‪.‬‬
‫מסקנה‪:‬‬
‫כשמחפשים עימוד גלובלי מצפים שהשאלה תהיה‬
‫האם כל הרצף צריך להיות אותו דבר או לא;‬
‫מחפשים גלובאלית כאשר מחפשים דימיון בין‬
‫רצפים שונים‪.‬‬
‫חישוב עימודים‬
‫כיצד המחשב יכול להבחין בין קטעים‬
‫דומים לקטעים שונים? בין שני רצפים‬
‫נתונים קיים מגוון עימודים אפשריים‪,‬‬
‫כאשר הם נבדלים בשינויים שיש לבצע‬
‫כדי להגיע אליהם‪:‬‬
‫הבחירה בעימוד הנכון אינה אינטואיטיבית‪ .‬היא נעשית על בסיס הטענה שנדרשות מקסימום התאמות‬
‫מושלמות ומינימום "‪ ."indels‬מאידך‪ ,‬יכול להיות גם שיש להעדיף ‪ mismatch‬על פני מחיקה‪ ,‬כי מחיקה‬
‫עשויה להביא למוטציה שתשנה את הפונקציה בעוד ש‪ mismatch-‬יכול עדיין לשמור על הפונקציה‬
‫)למשל אם יש לשתי חומצות האמינו המוחלפות אותן התכונות זה פחות משנה את ההתאמה של החלבון‬
‫ואת הפונקציה שלו(‪.‬‬
‫חוקי אצבע‬
‫•‬
‫התאמה מושלמת זה טוב‪.‬‬
‫•‬
‫לא ברור אם "‪ "indel‬טוב יותר או פחות מ‪ ,mismatch-‬ויכול להיות ש"‪ "indel‬אחד יהיה דווקא‬
‫יותר גרוע משלושה ברצף )שלא משנים את מסגרת הקריאה(‪.‬‬
‫•‬
‫באופן כללי שואפים לכמה שפחות ‪ mismatches‬ו"‪."indels‬‬
‫•‬
‫גם הרציפות של ההתאמה המושלמת חשובה – האם עדיפות ‪ 50‬התאמות מושלמות שמפוצלות‬
‫מאוד לאורך חלבון של ‪ 100‬חומצות אמינו‪ ,‬או ‪ 30‬התאמות מושלמות הצמודות יחד?‬
‫‪3‬‬
‫השיטה היא לתת ציון לאירועים‪ :‬נניח שהציון מתבסס על כך שהתאמה מושלמת מקבלת ציון ‪,+1‬‬
‫‪ mismatch‬מקבל ציון ‪) -2‬כי הוא יותר גרוע מ"‪ ("indel‬ו"‪ "indel‬מקבל ‪ .-1‬כעת סופרים כמה התאמות‬
‫מושלמות‪ mismatch ,‬ו"‪ "indels‬יש בכל אחד מהעימודים ומחשבים את הציון שמתקבל‪.‬‬
‫‪ 3‬במודל שנתאר לא נתייחס לנתון זה למרות שאפשר במקרים מסויימים‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪14‬‬
‫לפי שיטת הניקוד הזו העימוד השמאלי‬
‫הוא הטוב יותר‪ ,‬כי יש לו ציון גבוה יותר‪.‬‬
‫המחשב נדרש לברור בין העימודים‬
‫האפשריים השונים ולקבוע מי מהם הוא‬
‫הכי טוב; אם אין ערך מספרי המחשב לא‬
‫יוכל לקבוע זאת‪.‬‬
‫מערכת ניקוד )‪(Scoring System‬‬
‫נניח שיש אי‪-‬תלות בין העמדות השונות‪ .‬משמעות הדבר היא שכל עמדה בתוך העימוד היא בלתי תלויה‬
‫במקומות האחרים – במובן הזה‪ ,‬אם מופיעות חמש התאמות מושלמות צמודות או מפוזרות ייתקבל עדיין‬
‫אותו הציון‪ .4‬העקרון הוא לתת ציון חיובי על התאמה וציון שלילי על שוני‪ ,‬כאשר מידת הניקוד משתנה‬
‫בהתאם למערכת הניקוד‪.‬‬
‫איך מחליטים על מערכת הגיונית?‬
‫אחד הדברים החשובים שיש להתחשב בהם הוא ששינוי הערכים הנבחרים יכול לשנות את הניקוד‬
‫הסופי; משום כך יש לנסח מערכת ניקוד מוצלחת‪.‬‬
‫הסתברות מול ניראות‬
‫בסטטיסטיקה‪ ,‬קיים תחום בדיקת ההשערות וערכים כמו ‪ p-value‬והתפלגות נורמלית אשר מציגים את‬
‫הסבירוּת של התוצאות‪ .‬ניתן לשאול מהי ההסתברות לקבל תוצאה מסויימת בקובייה נתונה; מושג זה הוא‬
‫ההסתברות – ‪ .Probability‬מושג נוסף הוא הניראות – ‪ .likelihood‬מושג זה מבטא את ההסתברות‬
‫לאחר שכבר יש תוצאה לניסוי – אם מטילים קוביה עשר פעמים ותמיד יוצא ‪ ,1‬הניראות תבטא את‬
‫הסבירות לכך שהקובייה אינה הוגנת‪.‬‬
‫• הסתברות – סיכוי לקבל תוצאה מסויימת באופן עיוור‪.‬‬
‫• ניראות – סיכוי לקבל תוצאה בהתבסס על תוצאות ניסוי קודמות‪ .‬על מנת לחשב ניראות צריך‬
‫לחשב הסתברות‪ ,‬בהתבסס גם על תוצאות עבר‪.‬‬
‫מונחים אלה מופיעים כל הזמן – למשל‪ ,‬בדוגמה שעסקה באב הקדמון המשותף לשני חלבונים שיש להם‬
‫שתי חומצות אמינו שונות באותה נקודה‪ ,‬הניראות של האב המשותף להיות בעל אחת מהחומצות אמינו‬
‫האלה גדולה מכך שתהיה לו חומצת אמינו שאין לאף אחד מחלבוני‪-‬הבת‪.‬‬
‫‪ 4‬הנחה זו היא כמובן שגויה ומערכות משוכללות יותר מהמודלים שנכיר אכן מתחשבות בתלות הקיימת בין עמדות‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :02‬עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים‬
‫‪15‬‬
‫המטריצה‬
‫מושג נוסף הוא מטריצה – טבלה‪ .‬הטבלה משמשת לתיאור מטריצת‬
‫ניקוד‪ .‬הטבלה היא בגודל ‪ ,n x n‬כאשר ‪ n‬הוא מספר המשתנים –‬
‫‪ 20‬חומצות אמינו‪ 4 ,‬נוקליאוטידים וכו'‪ .‬כעת ניתן לדרג התאמות‬
‫ואי‪-‬התאמות בין כל שני נוקליאוטידים‪ :‬התאמה מקבלת ‪ +2‬נקודות‬
‫ואי‪-‬התאמה מקבלת ‪ -6‬נקודות‪ .‬המטריצה מתארת את הניקוד שניתן‬
‫עבור כל התאמה או אי‪-‬התאמה ברצף המושווה‪ .‬ניתן ליצור‬
‫מטריצות שונות לאתרים מקודדים לעומת לא מקודדים‪ ,‬האתר‬
‫הפעיל בחלבון לעומת איזור שאינו האתר הפעיל וכדומה‪.‬‬
‫שימו לב שהמטריצה סימטרית – אין הבדל בין חילוף של ‪ C‬ל‪ A-‬לעומת חילוף של ‪ A‬ל‪.C-‬‬
‫ניתן גם לבחון את הנוקליאוטידים יותר לעומק ולטעון שהפורינים דומים יותר אחד לשני מפירימידין‬
‫לפורין; במידה כזו ניתן ליצור מטריצה שמבטאת את הדימיון על ידי ניקוד שונה לאי‪-‬התאמה בתוך קבוצה‬
‫לעומת הניקוד של אי‪-‬התאמה בין הקבוצות השונות )פורין לפורין‬
‫לעומת פירימידין לפורין‪ ,‬למשל(‪ .‬ערכי הניקוד מתארים את‬
‫הניראות של השינוי שאנו דורשים שקרה על מנת להגיע‬
‫לעימוד מסויים‪.‬‬
‫ניקוד "‪"indels‬‬
‫כיצד ‪ indels‬משתלבים במטריצות הניקוד? ל‪ indels-‬יכולים להיות ניקודים מאוד שונים – לפעמים‬
‫עדיף לנקד אותם אחרת אם הם כפולה של ‪) 3‬ולא מפריעים למסגרת הקריאה(‪ ,‬כך שיקבלו ערך שלילי‬
‫יותר מ‪ indels 2-‬אך קטן יותר מכפולה של ‪ 3‬מ‪ indel-‬בודד‪.‬‬
‫לצורך כך ניתן להגדיר ‪ Gap open‬ו‪ .Gap extension-‬אם מתקבל "‪ "indel‬מסויים של מחיקה‬
‫למשל‪ ,‬הוא יקבל ניקוד מסויים; אבל אם מייד אחריו גם יש "‪ ,"indel‬זה יותר סביר אבולוציונית מאשר‬
‫אם היו לנו שני "‪ "indels‬שביניהם משהו שהוא לא "‪ ."indel‬מסיבה זו ‪ gap open‬יהיה בעל ציון אחיד‬
‫– ה"‪ "indel‬שפותח את המרווח – אבל ‪ gap extension‬שבא באופן רציף לו יקבל ציון מצטבר נמוך‬
‫יותר מאשר שני ‪.gap open‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪16‬‬
‫שיעור ‪ :03‬עימוד רצפים – המשך‬
‫בעימוד של איזור מקודד‪ ,‬איזורים של שלוש מחיקות סבירים יותר אבולוציונים כי הם לא גורמים לשינוי‬
‫במסגרת‪ .‬מבין הרבה עימודים אפשריים יש לבחור מה העימוד הכי טוב‪ ,‬ולשם כך יש להגדיר דירוג‬
‫עימודים‪ .‬הישטה הפשוטה היא דירוג נאיבי שמתייחס לכל חומצת אמינו או נוקליאוטיד בצורה בלתי‬
‫תלויה מהאחרות ואז כמות ה‪ ,indels-‬חוסר התאמות והתאמות מושלמות מהוות בסיס לדירוג‪ .‬העימוד‬
‫המקבל את הדירוג הגבוה ביותר הוא העימוד הטוב ביותר‪.‬‬
‫יש שיטות שונות לדירוג‪ ,‬כאשר השיטה השרירותית שלעיל היא מעט עיוורת ולכן יש לחשוב על דרך‬
‫חכמה יותר‪ .‬אפשר לייצג את מערכת הדירוג בתור מטריצה – טבלה – שמתאימה לכל אפשרויות‬
‫ההתאמות או ההחלפות בין נוקליאוטידים או חומצות אמינו ולהחליט מה יהיה הדירוג של כל החלפה‬
‫בהתחשב בהשפעה )למשל החלפת פורין בפורין לעומת פורין בפירמידין(‪.‬‬
‫המטריצה מתארת את הדירוג אבל היא לא מדרגת כראוי ‪ ,indels‬כי המרווחים שיוצרים ‪ indels‬צריכים‬
‫להיות מנוקדים אחרת אם הם יוצרים מרווח של נוקליאוטיד אחד‪ ,‬שניים או שלושה‪ .‬בצורה כזו ניתן גם‬
‫לגלות טעויות של מכשיר הריצוף עצמו‪ ,‬כאשר מניחים שאם המכשיר מדלג על שתי אותיות הדבר נובע‬
‫מדילוג על אות אחת לפחות ואז ה‪ indels-‬יהיו רצופים ולא נפרדים במרחק כמה נוקליאוטידים‪ .‬כשם שזו‬
‫יכולה להיות טעות של מכשיר הריצוף זו יכולה להיות גם מוטציית שיכפול גנום‪ .‬הסבירות‬
‫שמוטציה‪/‬טעות שכזו תקרה פעם אחת על שני נוקליאוטידים גבוה מהסבירות שהיא תקרה פעמיים על‬
‫נוקליאוטיד אחד כל פעם‪.‬‬
‫ניקוד מרווחים‬
‫במצב כזה יש לדרג באופן שונה את‬
‫האירועים השונים – כאשר שתי המחיקות‬
‫נפרדות יש לתת ציון נמוך יותר מאשר‬
‫כאשר שתי המחיקות סמוכות‪ .‬אם האירוע‬
‫נמצא באיזור מקודד‪ ,‬יש לתת ציון יותר‬
‫טוב לשלושה ‪ indels‬מאשר ל‪indel-‬‬
‫אחד‪ ,‬שניים או ארבעה‪ .‬ארבעה ‪indels‬‬
‫פחות סבירים משלושה וגם פחות סבירים‬
‫מאחד‪.‬‬
‫הערכים של הדירוג עצמו לא משנים – אם מציעים דירוג שערכיו הם מחצית מדירוג אחר‪ ,‬עימוד שיהיה טוב‬
‫לפי דירוג אחד יהיה טוב לפי דירוג שערכיו חצי מהראשון‪ .‬חשוב לציין שבדירוג השני‪ ,‬הכל צריך להתחלק‬
‫בחצי – לא רק הדירוג של ה‪ indels-‬אלא גם הדירוג של חוסר ההתאמה וההתאמה המלאה‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :03‬עימוד רצפים – המשך‬
‫‪17‬‬
‫מטריצות ‪BLOSUM‬‬
‫בחלבונים יש ‪ 20‬חומצות אמינו ולכן המטריצה בגודל ‪ ,20 x 20‬ומכניסה כמות גדולה של אלמנטים‬
‫במטריצה‪ .‬מספרים לא נכונים לא יוכלו להניב עימוד מתאים‪ .‬כיצד ניתן להעריך את הפרמטרים האלה?‬
‫כיצד ניתן לדרג אותם?‬
‫•‬
‫לקבץ לקבוצות – כמו בנוקליאוטידים עם פירמידינים ופורינים‪ ,‬אפשר לחלק את חומצות האמינו‬
‫לקבוצות לפי שייריהם ותכונותיהם הכימיות‪.‬‬
‫•‬
‫סיכויים למוטציות – מה הסיכוי שמוטציה בקודון תביא לשינוי משמעותי בחומצת האמינו?‬
‫•‬
‫השוואה בין אורגניזמים – לבדוק מה השכיחות של המעבר בין חומצות אמינו בין אורגניזמים‬
‫שונים בחלבונים שמורים‪ .‬שיטה זו יוצאת מתוך הנתונים הקיימים אל הביולוגיה – וזו השיטה‬
‫שמשמשת בביואינפורמטיקה‪ ,‬הטוענת שלביולוגיה לבדה יש מעט מדי ידע‪.‬‬
‫קיבוץ לתכונות כימיות‬
‫בשיטה זו ניתן ליצור חמש קבוצות של חומצות אמינו וכך לצמצם מעט את המטריצה‪.‬‬
‫מטריצת ‪BLOSUM‬‬
‫מזינים את הנתונים ומתוכם מנסים לחלץ את המספרים‬
‫הרלוונטים שמצביעים על מידת השכיחות של החלפה בין‬
‫שתי חומצות אמינו נתונות‪ .‬ב‪ 1992-‬הניקוף והניקוף )‪ (Henikoff & Henikoff‬העמידו רצפים שונים‬
‫שהוכרו עד אז ממאגר נתונים של אינפורמציה גנומית ובדקו בהם רצפי חומצות אמינו של חלבונים‬
‫שמורים‪ .‬המטרה הייתה למצוא חומצות אמינו שמורות מאוד לעומת לא שמורות ולבדוק באיזו תדירות‬
‫התחלפו חומצות האמינו ולאילו חומצות אמינו הן הפכו‪ .‬הרבה החלפות בין ‪ D‬ו‪ ,E-‬למשל‪ ,‬מעידות‬
‫שהתהליך שכיח יחסית ולכן יש להעניק להחלפה זו בציון פחות מחמיר‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪18‬‬
‫מתוך מחשבה זו נבנה מודל מתמטי שמנסה לתת את הסבירות של קבלת ‪ D‬בחלבון אחד ו‪ E-‬בשני‪ ,‬או כל‬
‫שתי חומצות אמינו אחרות באותו המקום‪ .‬החוקרים השתמשו במאגר נתונים של ‪ 500‬משפחות ובלוקים‬
‫– איזורים מאוד מאוד שמורים – באורכים שונים )‪ 3-60‬חומצות אמינו( ובדקו כמה פעמים מחליפים בין‬
‫כל שתי חומצות אמינו‪.‬‬
‫הוצע כבר להסתכל על החלפות שהיו שכיחות יותר; אבל איך ניתן לדעת שזו גם הייתה השכיחות כאשר‬
‫האירוע התרחש? לשם כך יש לבחון שני חלבונים הידועים כקרובים ולבדוק מה הסבירות להחלפה של ‪D‬‬
‫ו‪ ,E-‬למשל‪ .‬אפשר לקבוע שהסבירות גבוהה יחסית מהסבירות ל‪ V-‬ו‪ ,M-‬אבל זה בעיקר תלוי במרחק‬
‫האבולוציוני של החלבונים או הפרטים‪ .‬בכדי למדוד סבירות יש להתחשב במרחק הזה‪ :‬ההסתברות לחוסר‬
‫התאמה למשל בשני חלבונים שעד לא מזמן היו אותו חלבון תהיה קטנה יותר‪.‬‬
‫‪BLOSUM = Blocks Substitution Matrix‬‬
‫כיצד ניתן להפריד בין חלבונים רחוקים או קרובים אבולוציונית?‬
‫•‬
‫על סמך רצפים אחרים שכן ידוע מה קורה בהם‪ .‬יחד עם זאת זה‬
‫אפקט מעגלי – כי איך ניתן לדעת על הרצף החיצוני מבלי לחקור‬
‫אותו? ואיך ניתן לחקור אותו מבלי לדעת עליו?‬
‫•‬
‫אם נראה שבבלוק אחד יש הרבה שינויים בין החלבונים ניתן‬
‫להניח שהבלוק פחות שמור מאשר בלוקים אחרים‪ .‬השיקול הוא‬
‫כמה פעמים נראה זהות – זיהוי מדוייק של אותה חומצות אמינו‪.‬‬
‫יש הרבה סוגים של בלוסומים; בלוסום ‪ 62‬יהיה קרוב יותר לרצף מאשר בלוסום ‪ .45‬המספר של‬
‫הבלוסום מציין את אחוז חומצות האמינו הזהות לחלבון– אם הכמות שנמצאה גבוהה מזה הבלוק נשמר‪,‬‬
‫אם לא – הבלוק עף‪ .‬במטריצה של בלוסום ‪ 100‬ניתן לצפות לראות את הבלוקים באלכסון‪ ,‬במספרים‬
‫חיוביים‪ ,‬ומחוץ לאלכסון מספרים מאוד שליליים‪.‬‬
‫משמאל מופיעה תמונת מטריצה של בלוסום‪.62‬‬
‫באלכסון מתקבלים מספרים חיוביים – כי התאמות‬
‫הן טובות – אבל הערכים אינם זהים‪ ,‬שלא כמו‬
‫בנוקליאוטדים‪ .‬גם חוסר התאמות מתפזרות בטווח‬
‫של ‪ 0‬עד ‪ ,-4‬כאשר ‪ 0‬אומר שלא ניתן לקבוע אם‬
‫החלבונים קרובים או רחוקים על בסיס חוסר‬
‫ההתאמה הנתון‪ .‬ניתן לראות גם ציון חיובי בהחלפה‬
‫בין ‪ D‬ל‪ – E-‬ציון ‪ .+2‬משמעות הדבר היא שאם‬
‫מחליפים ‪ D‬ב‪ E-‬זה לא רע‪ ,‬כי שתי חומצות האמינו האלה מתחלפות לעיתים קרובות‪.‬‬
‫מה צפוי להתקבל באלכסון? בחומצת אמינו עם ארבעה קודונים אפשריים לעומת אחרת עם שניים יש‬
‫סיכוי נמוך יותר להחלפת חומצת האמינו גם במקרה של מוטציה‪ .‬גם חומצות אמינו פונקציונאליות – כמו‬
‫ציסטאין‪ ,‬היחידה שיוצרת קשרים די‪-‬סולפידים – ייטו פחות לשינוי‪ .‬הנטייה הנמוכה תבוטא באלכסון‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :03‬עימוד רצפים – המשך‬
‫‪19‬‬
‫אבל בבלוסום קיים דבר נוסף‪ .‬ניתן‬
‫לראותו כשבוחנים את השכיחות של‬
‫חומצות אמינו ספציפיות בבעלי חוליות‪.‬‬
‫נראה שככל שחומצת אמינו נדירה יותר‬
‫הניקוד שלה גבוה יותר‪ .‬הסיבה היא‬
‫שהופעה של חומצת אמינו נדירה‪ ,‬למשל‬
‫‪ ,W‬בשני רצפים מעידה על עימוד תקין‬
‫– בשל נדירות חומצת האמינו‪.‬‬
‫לסיכום‬
‫מערכת הניקוד מכילה את מטריצת ההחלפות יחד עם ה‪ gap penalty-‬שנקבע‪ .‬כעת יש לקבוע האם‬
‫מחפשים עימוד גלובאלי או לוקאלי – יש להגדיר למחשב איזה עימוד יהיה הטוב ביותר‪ .‬השיטה הזו טובה‬
‫לשני סוגי העימודים‪.‬‬
‫ההיבט המחשבי‬
‫יש לחשב עימוד בין שני רצפים; אולם אם יש ‪ 10‬נוקליאוטידים בין שני‬
‫הרצפים מספר העימודים האפשריים הוא לפחות מיליון; אם יש ‪20‬‬
‫נוקליאוטידים יש לפחות ‪ 100,000‬מיליארד‪ .‬אם פונים לרצפים באורך ‪30‬‬
‫נוקליאוטידים מתקבל מספר עם ‪ 22‬אפסים אחריו; כאן מתחילים להכנס‬
‫לקושי חישובי מבחינת המחשב‪.‬‬
‫כיצד ניתן‪ ,‬לאחר שנקבעה מערכת הניקוד‪ ,‬לדעת אילו עימודים מבין‬
‫העימודים האפשריים יש לבדוק ואילו לא‪ ,‬מתוך הנחה שלא ניתן לבדוק את‬
‫כולם?‬
‫לצורך כך יש שני אלגוריתמים לעימוד אופטימלי‪ ,‬האחד לעימוד גלובאלי‬
‫)‪ (Needleman-Wunsch‬והשני לעימוד לוקאלי )‪.(Smith-Waterman‬‬
‫האלגוריתם מקטין את כמות הפעולות של המחשב פי עשרות ומאות אלפי‬
‫מונים‪ ,‬כך שהמספרים לא יעלו אקספוננציאלית אלא כמו ‪ ,n2‬כאשר ‪ n‬הוא‬
‫מספר האותיות ברצף‪.‬‬
‫העקרון‪ :‬להכניס את תוצאות הדירוג של העימוד כולו במטריצה‪.‬‬
‫האלגוריתם בונה מטריצה שבכל אחד מתאיה מוזן הדירוג הטוב ביותר‬
‫שניתן היה לקבל עבור כל תת‪-‬רצף‪ .‬למשל‪ ,‬הדירוג של ‪ AAAC‬לעומת‬
‫‪ (-1) AGC‬או ‪ AAA‬לעומת ‪.(-2) AG‬‬
‫האלגוריתמים עובדים על ידי בנייה של מטריצה אשר אינה נותנת ציון עבור החלפה של נוקליאוטיד‬
‫בנוקליאוטיד אלא שבכל תא נמצא הציון הכי טוב של העימוד של שני הרצפים שניתנים בין העמודה‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪20‬‬
‫והשורה של אותו ציון‪ .‬בדוגמה‪ ,‬הציון ‪ -1‬הוא הציון הטוב ביותר עבור שילוב הריצופים ‪ AAAC‬ו‪-‬‬
‫‪ .AGC‬היות ומספר הפעולות שנעשות במטריצה קטן יחסית‪ ,‬העלייה של העימודים היא ריבועית ולא‬
‫אקספוננציאלית‪.‬‬
‫הומולוגיה לעומת הסיכוי לדמיון‬
‫לקבל דירוג הכי טוב אינו כמו להבין מה המסקנה המתקבלת מהדירוג הזה‪ .‬איך ניתן לדעת עד כמה‬
‫הדירוג של העימוד הטוב ביותר מעיד על עימוד טוב או שמא הוא מקרי לחלוטין? אולי הדירוג הכי גבוה‬
‫הוא נמוך‪ ,‬או לא מובהק‪ ,‬באופן אוניברסלי?‬
‫לשם כך נבדקת האקראיות‪ .‬אלגוריתם זה מערבל לחלוטין את אחד הרצפים ומחשב את דירוג העימוד‬
‫בינו לבין הרצף השני שהתקבל בעימוד עם הציון הגבוה‪ .‬כעת מחשבים שוב את הציון של העימוד בין‬
‫הרצף המעורבב לרצף השני‪:‬‬
‫•‬
‫אם בכל הערבובים מתקבל דירוג נמוך מהדירוג הראשון שקיבלנו‪ ,‬אזי הדירוג הזה הוא חזק‪.‬‬
‫•‬
‫אם מתקבלים דירוגים גבוהים יותר סימן שהסדר היה פחות חשוב – או פחות חזק – ואז הדירוג חלש‬
‫יחסית‪.‬‬
‫אם המספר של העימוד המקורי שלילי הרי שברור שאין דמיון במיוחד‪ ,‬אבל ההבדלים בין ציונים ‪ 10‬או‬
‫‪ 100‬או ‪ 1000‬עשויים לנבוע גם משיטת הניקוד עצמה; ערבוב אקראי של אחד הרצפים ובדיקת ציון‬
‫העמוד של הרצף המעורבב והלא מעורבב כמה וכמה פעמים מוודאת האם תמיד מתקבלים ציונים נמוכים‬
‫יותר‪ .‬אם אחוז הציונים של הרצף עם הרצף האקראי הגבוהים מהרצף הראשוני מהווים ‪ 50%‬או יותר‪,‬‬
‫סימן שהעימוד הנבחר באמת היה אקראי; אם אף ציון לא היה גבוה יותר‪ ,‬סביר להניח שיש דמיון אמיתי‪.‬‬
‫אם הציון נמצא ב‪ 5%-‬העליונים של הציונים‪ ,‬אזי הדמיון מובהק‪.‬‬
‫מה בנוגע להשוואת רצף אחד לרצפים רבים אחרים? במסע של וונטר לפי המסלול של הביגל‪ ,‬הוא ריצף‬
‫דגימות מים רנדומליות מבלי שידע אילו חיידקים היו באיזורים השונים של הדגימות‪ .‬בשביל לעשות את‬
‫זה הוא ריצף את החיידקים בכל אחת מהנקודות וביקש לראות לאילו חיידקים שהוא מכיר הם מתאימים –‬
‫בעזרת מאגר נתונים מוכר ורצף זר מהים ניתן לראות לאן הרצף מתאים במאגר הנתונים הקיים‪.‬‬
‫לא ניתן לדעת מאיזה אורגניזם הגיעו הרצפים המתקבלים מתוך הדגימות של ונטר; זה גם יכול להיות‬
‫אורגניזם שאינו מוכר למדע כלל‪ .‬משום כך מחפשים במאגר הנתונים את הרצף הדומה ביותר או הזהה‬
‫לחלוטין לרצף )במקרה והיה מאגר נתונים של כל האורגניזמים בעולם( וכך ניתן היה לדעת בדיוק לאיזה‬
‫אורגניזם הרצף שייך‪.‬‬
‫טענה זו מציגה שתי בעיות‪ :‬גם אם היה מאגר נתונים של כל המיקרואורגניזמים‪ ,‬הריצוף עשוי להיות‬
‫קלוקל – בין אם עקב תקלה במכשיר או מוטציה – ואז יש לנו טעויות ריצוף שמונעות הומולוגיה של‬
‫‪ .100%‬כמו כן‪ ,‬גם ללא מוטציה שגורמת לבעיה‪ ,‬בין פרטים שונים יש מוטציות ושינויים גנומיים‪ .‬בעיה‬
‫אחרת היא שהגנומים הזמינים מהווים רק חלק קטן מהמיקרואורגניזמים המוכרים )שהם חלקיק‬
‫מהמיקרואורגניזמים הקיימים שאינם מוכרים(‪ ,‬ולכן יש סיכוי קטן שהרצף יהיה דומה בלבד לרצף מוכר‬
‫וסיכוי אפסי שהרצף יהיה באמת זהה לחלוטין לרצף קיים ומוכר‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :04‬עימוד רצפים – המשך‬
‫‪21‬‬
‫שיעור ‪ :04‬עימוד רצפים – המשך‬
‫חיפוש במאגר נתוני רצפים‬
‫הבעיה שעולה בריצופים והעימודים של ונטר – אוזלת היד של הידוע למול הלא מרוצף והלא מוכר –‬
‫היוותה את מוטיבציה לדבר הבא‪ :‬כאשר נתון מאגר נתונים של רצפים‪ ,‬למשל גנומים של חיידק או רצפי‬
‫חלבונים וכו'‪ ,‬ויש לבדוק אם רצף חדש שהתקבל קיים במאגר הנתונים‪ ,‬ניתן לקחת את הרצף הזה‪ ,‬רצפים‬
‫מתוך מאגר הנתונים‪ ,‬ולעשות אלגוריתם סמית‪-‬ווטרמן על מנת לראות איזה רצף הוא המתאים ביותר‪.‬‬
‫השאילתא )‪ (query‬הוא הרצף שבעזרתו בודקים‬
‫האם יש רצף אחר דומה במאגר הנתונים‪ .‬פגיעה‬
‫)‪ (Hit‬היא מצב שבו מוצאים עימוד טוב וציון טוב‬
‫בין השאילתא ואחד הרצפים ממאגר הנתונים‪.‬‬
‫סמית‪-‬ווטרמן שייעשה לכל רצף מול מאגר של ‪107‬‬
‫רצפים‪ ,‬למרות קיצור הזמנים‪ ,‬ייקח ‪ 11.5‬ימים‪.‬‬
‫משום כך צריך לחשוב על אלגוריתם מהיר יותר‪.‬‬
‫אחת הסיבות לאיטיות היא שמאגר הנתונים‪ ,‬שהוא מאגר גדול‪ ,‬יושב במקום מרכזי – ‪ NIH‬למשל –אליו‬
‫ניתן לשלוח שאילתות לספריית הרצפים‪ .‬אולם בצורה זו כולם מריצים את הנתונים שלהם באותו מאגר‬
‫הנתונים‪ ,‬באותו מתקן‪ ,‬ולכן יוצרים עומס שאילתות ברשת‪ .‬לונטר למשל יש עשרות מיליוני רצפים; גם‬
‫אם כל רצף כזה לוקח ‪ 10‬שעות או אפילו דקה – זה עדיין הרבה‪ .‬לפיכך יש לחשוב על דרכים יותר‬
‫יעילות‪ .‬פעולה זה מכונה יוריסטיקה‪.5‬‬
‫‪BLAST‬‬
‫אחת היוריסטיקות הנפוצות לחיפוש במאגר נתונים היא ‪ ,BLAST‬אשר נכתבה לפני כ‪ 15-‬שנה‪ .‬ה‪-‬‬
‫‪ BLAST‬מחפש עימוד במהירות מקסימלית תוך התחשבות בסיכוי הפסד מינימלי‪ .‬לפיכך‪,‬שני רצפים‬
‫הומולוגי או דומים שהינם באורך כמה עשרות או מאות נוקליאוטידים צריכים להכיל קטע קצר בו הם‬
‫מתאימים בדיוק – כאשר יש לזכור שאפילו הומולוגים לא נראים בדיוק אותו הדבר‪ .‬משום שהמקטעים‬
‫מתאימים באופן אקראי‪ ,‬יכולות להתקבל פגיעות באורכים קצרים מאוד‪ ,‬אך אלו יהיו פגיעות מדומות;‬
‫יחד עם זאת אם הרצף ארוך מדי פגיעות‬
‫אמיתיות עשויות להתפספס‪ .‬מסיבה זו‬
‫נקבע סף מינימלי‪ :‬בחלבונים צריך ‪3‬‬
‫חומצות אמינו‪ ,‬ב‪ DNA-‬צריך ‪11‬‬
‫נוקליאוטידים‪.‬‬
‫‪ 5‬שם כללי לשיטות ואלגוריתמים שהם טכניקות לשיפור זמנים‪ ,‬מהירות וכדומה‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪22‬‬
‫בצורה זו מחפשים ברצף כל מיני "מילים" אפשריות – רצפים בני ‪ 11‬חומצות גרעין‪ .‬לאחר מכן שומרים‬
‫במסגרת חיצונית את כל המילים שנמצאו‪ .‬בצורה כזו יוצרים אינדקס שמציין עבור כל מילה מאילו רצפים‬
‫במאגר הנתונים היא הגיעה‪.‬‬
‫ה"מילון" הזה נעשה עבור כל אחד מהרצפים במאגר‪ .‬חשוב לדעת לשייך כל מילון לרצף ממנו הוא בא‪.‬‬
‫אז ניתן להשוות את השאילתא למילונים השונים ולאתר באילו רצפים מופיע רצף מתוך המילונים‪ .‬לאחר‬
‫מכן מריצים סמית‪-‬ווטרמן עבור הרצפים המתאימים‪ .‬בצורה זו חוסכים בכמות הסמית‪-‬ווטרמן שמריצים‪,‬‬
‫אבל מפסידים את הרצפים הפוטנציאלים שחסרים את רצף האינדקס‪.‬‬
‫אם יש רצפים דומים‪ ,‬ניתן לצפות שהם‬
‫יכילו כמה מילים דומות‪ .‬לכן דווקא רצף‬
‫שיש לו מילה אחת בלבד פחות מועדף‬
‫והחיפוש הוא אחר רצפים בעלי כמה‬
‫וכמה מילים משותפות‪.‬‬
‫טריק נוסף שניתן לעשות הוא להתרחב‬
‫ימינה ושמאלה מהמילה המשותפת – אם‬
‫הניקוד של המילה המשותפת הוא ‪,11‬‬
‫ככל שמרחיבים הניקוד משתנה בהתאם‬
‫– לפי אי התאמות והתאמות‪ .‬בתוך‬
‫העימוד הזה ניתן לזרוק החוצה את‬
‫העימודים שרק במקרה נראו טוב‪ ,‬כי הם‬
‫מתחת לאיזשהו ניקוד מינימלי שנקבע מראש‪ .‬להבדיל מלקחת מילה יותר ארוכה‪ ,‬כאן מאפשרים גם אי‬
‫התאמות שעשויות להיות מפוצות על ידי התאמות נוספות לאורך ההרחבה‪.‬‬
‫מושג ה‪E-value-‬‬
‫כאשר משווים רצפים יש לדעת מה‬
‫הסיכוי שהעימוד הטוב הזה קרה במקרה‪.‬‬
‫‪E-value‬‬
‫הוא הסיכוי הזה‪.‬‬
‫לאחר‬
‫שהתקבל ניקוד מסויים‪ ,‬יוצרים רצף‬
‫אקראי ומאגר נתונים אקראי; מערבבים‬
‫את שניהם ובודקים כמה פעמים מתקבל‬
‫הניקוד הראשוני‪ .‬אם הניקוד מתקבל לעיתים קרובות סימן שהוא שכיח ולכן אינו מהווה אינדיקציה טובה‬
‫לעימוד; אם הממוצע נמוך ממה שהתקבל סימן שהתוצאה אינה אקראית ועשויה להיות מובהקת‪.‬‬
‫בהסבר משמאל‪ Y ,‬היא התוצאה של סמית‪-‬ווטרמן שנקבעה כתוצאה שצריכה להתקבל בעימודים‬
‫האקראיים‪ .‬ככל שהרצף יותר ארוך וציונו יותר גבוה‪ ,‬הסיכוי לרצפים אקראיים רבים הוא נמוך מאוד‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :04‬רפואה אישית‬
‫‪23‬‬
‫שיעור ‪ :04‬רפואה אישית‬
‫תחום הרפואה האישית שואף שרופאים יוכלו לשקלל את הגנום של המטופל‪ ,‬יחד עם פרמטרים נוספים‬
‫כמו ביטוי גנטי וגורמים סביבתיים‪ ,‬ויידעו מה הסיכוי של המטופל להגיב לטיפולים מסויימים‪ ,‬ללקות‬
‫במחלות או אירועים מסויימים וכדומה‪.‬‬
‫דוגמה לשימוש כזה הוא תרופת ה‪ Warfarin-‬המשמשת למניעת מחלת הטרומבוזיס )פקקת(‪ .‬בשנות ה‪-‬‬
‫‪ 50‬היא שימשה כרעל חולדות וכאשר אדם ניסה להתאבד בעזרת החומר הוא לא הצליח – כי הגוף שלו‬
‫יכול היה לספוג את הוורפרין בצורה טובה יותר משחשבו‪ .‬מתוך העובדה שיש אנשים שמסוגלים לעמוד‬
‫בכמויות גבוהות של הסם והידע שהתרופה מדללת דם‪ ,‬חשבו שאולי הוא יעזור לדלל את הדם במידה כזו‬
‫שתעזור למנוע טרומבוזיס‪ .‬מסתבר שאנשים שונים מגיבים לכמויות וורפרין באופן שונה‪ ,‬והתגובה הזו‬
‫תלויה במוטציות מסויימות בשני הגנים ‪ VKORC1‬ו‪ ;CYP2C9-‬אדם שיש לו את המוטציות האלה יוכל‬
‫לקבל גם פי ‪ 10‬ממנה רגילה‪.‬‬
‫במטופל שרוצים לתת וורפרין‪ ,‬יש לתת לו את המקסימום האפשרי כדי לדלל את הדם כמה שיותר‪ ,‬מבלי‬
‫להרוג אותו‪ .‬אם ניתן היה לדעת מה הגנום של המטופל הרי שניתן היה לכוון ישירות לכמות הוורפרין‬
‫המקסימלית‪.‬‬
‫מפת הדרכים של הרפואה הגנומית‬
‫על מנת לדעת האם למטופל תהיה מחלה כלשהי מראש‪ ,‬כדי שאולי ניתן יהיה לטפל בה או אפילו למנוע‬
‫אותה‪ ,‬צריך לדעת כמה דברים‪:‬‬
‫•‬
‫האם המחלה גנטית? צריך להבין את ההריטביליות של המחלה ולמדוד אותה‪ .‬מדידה זו נעשית לרוב‬
‫על די השוואה בין תאומים זהים – אם תמיד כשלתאום אחד יש את המחלה יש אותה גם לשני הרי‬
‫שזה הריטבילי; לרוב יש איזושהי שונות ולכן מקבלים מדד חלקי של הריטביליות‪.‬‬
‫•‬
‫מהן אבני הבניין של המחלה? אילו דברים משפיעים עליה מבחינת גנים‪ ,‬גורמים סביבתיים? ברגע‬
‫שיודעים דברים אלו ניתן לדעת מה המנגנון שגורם למחלה מלכתחילה – חשוב לאתר מהם הגורמים‬
‫השותפים להתפרצות של המחלה‪.‬‬
‫בסופו של דבר‪ ,‬עם הידע הזה ניתן יהיה למצוא טיפול‪.‬‬
‫חיפוש אחר גורמים גנטיים‬
‫•‬
‫מחלות מנדליות – מחלות שמושפעות על ידי מוטציה אחת‪ .‬אם יש את הגן – יש את המחלה‪ .6‬מחלות‬
‫כאלה הן למשל הנטינגטון‪ ,CF ,‬אנמיה חרמשית‪.‬‬
‫•‬
‫מחלות מורכבות – מחלות שלמיטב הבנתנו מושפעות על ידי גנטיקה וסביבה יחד‪ ,‬כשלרוב זה לא על‬
‫ידי גן אחד אלא על ידי גנים רבים‪ .‬דוגמאות לכך הן סרטן‪ ,‬אלצהיימר‪ ,‬סכרת‪ ,‬התקפי לב‪.‬‬
‫‪ 6‬זה לא לגמרי מדוייק כי יש עניין של חדירות‪ ,‬אבל עדיין זה עובד ככה במודל הזה‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪24‬‬
‫הגרף מראה מוטציות שונות הקשורות למחלות‬
‫קומפלקסיות מסויימות )אלצהיימר‪ ,‬סרטן שד‪,‬‬
‫סוכרת ‪ II‬ו‪ .(BMI-‬המוטציות שנלקחו שכיחות‬
‫באוכלוסיה אך בניגוד למחלות מנדליות יכול להיות‬
‫שאנשים נושאים את המוטציה ללא אפקט המחלה‪.‬‬
‫על סמך המוטציות האלה בחנו כמה טוב ניתן‬
‫לעשות פרדיקציה לגבי הסיכוי לחלות במחלה‪.‬‬
‫באלצהיימר למשל‪ 15% ,‬מהאנשים בכלל יילקו באלצהיימר למרות שיש אנשים שהסיכוי שלהם קרוב ל‪-‬‬
‫‪ 70%‬בהינתן המוטציה המסויימת שנבדקה‪ .‬הגרף מראה את הסיכוי המינימלי‪ ,‬המקסימלי והסיכוי‬
‫הממוצע באוכלוסיה‪ .‬בגרף חסר נתון השכיחות של המקרה החמור – במקרה של האלצהיימר למשל זה‬
‫נפוץ ב‪ 2-3%-‬מהאוכלוסיה‪ ,‬שזה די נפוץ‪ .‬במקרה של סרטן השד זה שקלול של הרבה מאוד מוטציות‬
‫בגנים שונים ולכן המרווח בין המקסימום לממוצע באוכלוסיה מאוד קטן יחסית‪.‬‬
‫ניתוח תורשה מנדלית‬
‫במחלות מנדליות משתמשים בעצי שושלות כאשר‬
‫ידוע שחלק מחברי העץ הם חולים וחלק בריאים‪,‬‬
‫ואז מנתחים באיזה גן המחלה נמצאת‪ .‬בדוגמה‬
‫מופיעה שושלת עם מחלה מסויימת; ניתן להניח‬
‫שהמחלה דומיננטית כי היא לא מדלגת בדורות‪ .‬הלוקוס הנבדק מכיל שני אללים – ‪ A‬ו‪ ,a-‬והשושלת‬
‫בודקת האם המוטציה ‪ A‬גורמת למחלה‪ .‬התשובה היא שלא – לפי פרט ‪ 4‬שיש לו את ‪ A‬ואינו חולה וגם‬
‫לפי פרט ‪ 7‬שיש לו ‪ aa‬והוא נושא את המחלה‪.‬‬
‫האם יכול להיות ש‪ A-‬הוא בכלל לא המוטציה‪ ,‬ואולי המוטציה ‪ D‬היא על כרומוזום שונה? זה ייתכן‪ ,‬אך‬
‫פחות סביר כיוון שנראה שיש התאמה בין ‪ A‬לבין המחלה ‪ – D‬רק פעמיים לא הייתה התאמה בין המחלה‬
‫להופעה של האלל ‪ .A‬אז אולי הם על אותו כרומוזום ו‪ A-‬הוא מרקר של ‪.D‬‬
‫אם כן‪ ,‬כיצד ניתן לדעת מה התלות ביניהם? ניתן לחשב בדרכים סטטיסטיות עם יותר מדגמים מהו מרחק‬
‫המפה שבין ‪ D‬ו‪ A-‬ואז להבין את התלות‪ .‬באמצעות מודל שכזה מצאו מוטציות למחלות רבות – על ידי‬
‫זה שתחילה איתרו איזשהו גן עם תלות‪.‬‬
‫הרעיון הזה עובד טוב עם מחלות מנדליות‪ ,‬אבל זה לא עובד במחלות קומפלקסים‪ .‬ב‪ 1996-‬יצא מאמר‬
‫של ניל ריש ועמיתיו שטענו שדרך המחשבה אינה נכונה‪ :‬אולי במקום לבדוק משפחות צריך לבדוק‬
‫קונפיגורציית מחקר אחרת‪ .‬ריש הציעו לקחת אוסף של חולים ולהשוות אותם לאוסף של בריאים‪ ,‬כאשר‬
‫האנשים אינם קשורים אחד לשני משפחתית וגנטית‪ .‬המאמר טען שמחלות מורכבות מתנהגות לפי העקרון‬
‫‪ – CD-CV‬מחלה שכיחה עם ווריאנטים שכיחים‪ .‬למחלות מסויימות יש מוטציות מגוונות ושונות‪,‬‬
‫כשלכל אחת מהמוטציות יש אפקט מאוד קטן‪ .‬רק השילוב בין מספר רב של מוטציות גורם לפרוץ‬
‫המחלה‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :04‬רפואה אישית‬
‫‪25‬‬
‫אך מי יודע מהו "סיכון קטן"? לשם כך‬
‫קיים מדד בשם ‪ :relative risk‬המדד‬
‫מחשב את הסיכוי ללקות במחלה עם כל‬
‫אחת מהמוטציות‪ ,‬משקלל עם הסיכוי‬
‫ללקות במחלה עם מוטציות שלא גורמות‬
‫למחלה‪ ,‬ואז ניתן לדעת באיזה מידה‬
‫המוטציות הקיימות מגדילות את הסיכוי‬
‫של הפרט ללקות במחלה‪ .‬ברוב המקרים המוטציה השכיחה תהיה המוטציה עם הסיכוי הנמוך יותר ללקות‬
‫בה‪ ,‬אבל לפעמים המוטציה הנדירה היא דווקא המוטציה בעלת הסיכון הכי גבוה‪ ,‬ולמעשה המוטציה‬
‫השכיחה היא מוטציה שמגנה על הפרטים מפני המחלה‪.‬‬
‫ניל ריש ועמיתיו הראו שאם מניחים שהסיכון היחסי הוא נמוך‪ ,‬כלומר שמתקיים ‪ ,CD-CV‬שהווריאנטים‬
‫הגורמים למחלה הם שכיחים א לכל אחד מהם גורם סיכון מאוד נמוך‪ ,‬הרי שהעבודה עם משפחות אינה‬
‫יעילה כי העובדה שלשני אנשים במשפחה יש את אותה מחלה לאו דווקא מצביעה על כך שהם נושאים‬
‫את אותו מכלול גנים – אולי יש להם מכלול שונה של ווריאנטים גנטיים‪.‬‬
‫אם הסיכון היחסי המתקבל הוא ‪ ,1‬המוטציה אינה משפיעה במחלה קומפלקסית; לעומת זאת‪ ,‬במחלה‬
‫מנדלית שבה קיום המוטציה גורם למחלה נראה שסיכון יחסי יהיה ‪ 1‬או אינסוף – או שיש מחלה או שאין‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪26‬‬
‫שיעור ‪ :05‬רפואה אישית‬
‫מחקרי אסוציאציה של מחלות – ‪SNPs‬‬
‫אם יש למחלות סיכון יחסי והן מושפעות מהרבה גנים שלכל אחד מהם סיכון יחסי נמוך‪ ,‬גם אם יש להורה‬
‫מחלה מסויימת הסיכוי שהיא תעבור במשפחה בצורתה הפתולוגית נמוך יחסית‪ .‬משום כך עבודה עם‬
‫שושלות‪ ,‬תחת ההנחה הזו‪ ,‬אינה רעיון טוב; עדיף יהיה במחקר של מחלות אלו לקחת קבוצות מדגם של‬
‫חולים )‪ (Cases‬ובריאים )‪ (Controls‬שאף אחד מהם אינו קשור אחד לשני מבחינה שושלתית‪.‬‬
‫מחקר מסוג זה מכונה ‪ ,Disease Association Studies‬בהם מרצפים את הגנום של החולים והבריאים‬
‫באיזורים בהם נמצאים הגנים הרלוונטים למחלה ומשווים ביניהם‪ .‬בעקרון‪ ,‬רוב הגנום האנושי – ‪99.9%‬‬
‫ממנו – זהה בין אנשים שונים‪ ,‬ומספר ההבדלים נמוך – בערך ‪ 1‬לאלף מקומות בגנום יהיו שונים‪.‬‬
‫מקומות אלו‪ ,‬השונים‪ ,‬מכונים ‪ – SNP‬פולימורפיזם בנוקליאוטיד בודד‪.‬‬
‫במחקרי אסוציאציה‪ ,‬אין טעם להסתכל על מקומות שאינם סניפים – בגלל שהם זהים בין החולים‬
‫לבריאים‪ .‬המחקר תר אחר ‪ ,Common Variants‬שינויים שכיחים באוכלוסיה‪ ,‬ואלו הם בדיוק הסניפים;‬
‫אך אלו צריכים להיות סניפים הנמצאים באסוציאציה למחלה – שברוב החולים יש נוקליאוטיד מסויים‪,‬‬
‫למשל ‪ ,G‬וברוב הבריאים יש נוקליאוטיד אחר – למשל ‪.T‬‬
‫אם ידוע על קיומם של הסניפים )כי בכל מחקר שבו מוצאים סניפ חדש מדווחים עליו( הרי שניתן לחפש‬
‫אותם בגנום של המדגמים‪ .‬ישנם סניפים שבהם האסוציאציה היא חלשה יחסית – למשל שהיחס נוטה‬
‫יותר לנוקליאוטיד אחד בחולים מאשר בבריאים אך לא באופן מוחלט – זהו מצב של סיכון יחסי נמוך‪ ,‬אך‬
‫קיים‪ .‬זאת לעומת מצב כמו הראשון שתיארנו‪ ,‬שברוב המוחלט של המקרים יש נוקליאוטיד אחד בחולים‪,‬‬
‫ואז הסיכון היחסי גדול והאדם שנושא את הסניפ הזה כמעט בטוח חולה‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :05‬רפואה אישית‬
‫‪27‬‬
‫טכנולוגיית ‪Genotyping‬‬
‫טכנולוגיה זו בודקת סניפים במקטעים ארוכים מאוד של גנום‪ .‬נניח שיש מאגר של ‪ 10,000‬זוגות‬
‫בסיסים; בעזרת טכנולוגיות אלו ניתן להתמקד רק בבסיסים שהם סניפים והרבה יותר קל לחפש אותם‬
‫ולהשוות רק אותם מאשר להשוות את כל ‪ 10,000‬הבסיסים‪.‬‬
‫לפני ‪ 10‬שנים‪ ,‬החיפוש אחר סניפ אחד באדם היה עולה ‪ .$1,000,000‬היום זה עולה פחות מדולר אחד –‬
‫ניתן לחפש מאות ואלפי סניפים ב‪ .$200-‬מסיבה זו המחקר הזה הולך ותופס תאוצה‪.‬‬
‫חוק מור )‪ (Moore‬טוען שהמידע במחשבים הולך ומוכפל מדי שנה וחצי‪ .‬כשמסתכלים על מה שקורה‬
‫בעולם הריצוף והגנוטיפינג‪,‬הנתונים מוכפלים אפילו מהר יותר – מדי ‪ 10‬חודשים ולאחרונה אפילו פחות‪.‬‬
‫כמות הנתונים עולה מאוד מהר וזה מספק הרבה מידע לגבי מחלות‪ ,‬גנוטיפינג וכדומה‪.‬‬
‫בשלב מסויים עוד עלולה להיות בעיה להחזיק את כל המידע הזה; בשיטות החדשות של הריצוף מבקשים‬
‫להחזיק גנומים שלמים – ‪ 3‬מיליארד נוקליאוטידים – למאות ואלפי בני אדם; למחשבים של היום אין זיכרון‬
‫המסוגל להחזיק את הכמויות האלה‪.‬‬
‫בעקרון‪ ,‬זוהי עיצומה של מהפכה שהתחילה לפני כשנתיים מבחינת כמות האינפורמציה הקיימת ומבחינת‬
‫הטכנולוגיות הקיימות‪ .‬באיור )בן שנה( רואים את הכרומוזומים השונים וכל עיגול מציין סניפ‪ ,‬כאשר‬
‫הצבע של העיגול מציין מהי המחלה שבאסוציאציה אליו‪ .‬בתוך שנתיים נמצאה אסוציאציה של כ‪440-‬‬
‫סניפים למחלות שונות‪ .‬בגירסה העדכנית של האיור יש כבר ‪ 800-900‬סניפים חדשים‪.‬‬
‫למשל לפני כשנה ידעו על כ‪ 2-‬גנים הקשורים למחלת הקרוהן והיום מכירים כבר למעלה מ‪.30-‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪28‬‬
‫הגדרות ראשוניות‬
‫•‬
‫‪ – SNP‬מוטציות הנמצאות באחוזים גדולים באוכלוסיה )<‪ .(1%‬לרוב ה‪ SNP-‬יש שני אללים‬
‫בלבד‪ ,‬למרות שיש יוצאים מן הכלל‪.‬‬
‫•‬
‫‪ – Risk Allele, Nonrisk Allele‬ברגע ש‪ SNP-‬בעל אסוציאציה למחלה‪ ,‬הוא מחולק לאללים‬
‫בסיכון ואללים ללא סיכון‪ .‬אללים ללא סיכון נפוצים יותר בקבוצת הביקורת הבריאה )‪(Controls‬‬
‫ואללים בסיכון נפוצים יותר בקבוצת החולים )‪.(Cases‬‬
‫שימו לב‪ :‬אין זה אומר שהסניפ השכיח בקרב הבריאים הוא הסניפ השכיח באוכלוסיה!‬
‫אסוציאציה אמיתית או מקרית?‬
‫במידה ומוצאים סניפ שנראה כאילו יש לו אסוציאציה‪ ,‬יש לבצע מבחנים סטטיסטיים שיבדקו מהי‬
‫מובהקות התוצאה‪ .‬השערת אפס טוענת שאין הבדל בהתפלגות האללים בין קבוצת הניסוי והביקורת‪.‬‬
‫ההשערה האלטרנטיבית טוענת שהשכיחות הזו שונה‪ .‬לאחר הגדרת ההשערות‪ ,‬המבחן הסטטיסטי בודק‬
‫האם השערת האפס נכונה; אם ההסתברות לכך נמוכה ניתן לדחות אותה ולהגיד שההשערה האלטרנטיבית‬
‫היא הנכונה‪.‬‬
‫לצורך כך בונים טבלה של ‪ :2x2‬בציר‬
‫אחד יש ניסוי וביקורת; בציר שני יש‬
‫אלל בסיכון )‪ (R‬ואלל ללא סיכון )‪.(N‬‬
‫כעת מזינים את מספר הפעמים שכל אלל‬
‫הופיע בכל קבוצה ומחפשים סטטיסטי‬
‫לפי התפלגות של ‪.χ2‬‬
‫אם הניסוי והביקורת היו מתנהגים אותו‬
‫דבר‪ ,‬הרי ש‪ T-‬יהיה קטן מאוד )כי ‪ .(a~c‬אם הם שונים ‪ T‬צריך להיות יחסית גדול‪.‬‬
‫בטכנולוגית הגנוטיפינג בוחנים כמיליון סניפים; כך שיש כמיליון השערות‪ .‬ריבוי ההשערות מוביל לכך‬
‫שגם ‪ p-Value‬של ‪ 5%‬ומטה יכול להראות ‪ 50,000‬פגיעות‪ ,‬שכולם יהיו שגיאות‪ .‬מסיבה זו אנחנו‬
‫צריכים ‪ p-Value‬מאוד נמוך )נהוג להשתמש בערך של ‪.(5x10-8‬‬
‫התמונה משמאל מראה תוצאות של‬
‫‪ .p-Value‬ציר ‪ Y‬הוא לוגריתם של‬
‫‪ – p-Value‬ככל שהנקודה גבוהה יותר‬
‫הסניפ יותר מעניין למחלה‪ .‬התמונה היא‬
‫תמונה טיפוסית למחקר‪ :‬מתוך כמה מאות‬
‫אלפי סניפים שנחקרו‪ ,‬יש סניפ אחד‬
‫שנמצא מעל הקו‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :05‬רפואה אישית‬
‫‪29‬‬
‫זה עדיין לא מבטיח שזה סניפ אמיתי‪ :‬יכול להיות שהמדגם היה קטן מדי‪ ,‬דבר המגדיל את הסיכוי לתוצאה‬
‫‪ ;false-positive‬יכול להיות שהמדגם היה מוטה – הניסוי והביקורת נאספו בצורה מעט שונה כך שזה‬
‫היטה את התוצאות; יכול להיות שהיו טעויות בריצוף‪ ,‬שכן בריצוף יש מקומות שנוטים להכיל טעויות‬
‫וכאלה שפחות ויכול להיות שבסניפ הספציפי הזה הייתה נטייה גבוהה לטעות‪.‬‬
‫כיצד מתמודדים עם הבעיות האלה? כיצד מזהים מהו סניפ אמיתי? אפשר להשתמש בטכנולוגיית‬
‫גנוטיפינג נוספת או שונה כדי לוודא שבאמת הריצוף היה נכון; אבל זהו שלב הוכחה אחרונה‪ ,‬לפני ריצוף‬
‫מחדש של כל הגנומים‪ .‬אפשר גם לבצע אימות עם קבוצה נוספת‪ ,‬על מנת לבטל האפשרות שהמדגם היה‬
‫מוטה‪ .‬כמו כן‪ ,‬אם הסניפ הזה קיים ואין בו טעות‪ ,‬הסניפים הסמוכים לו צריכים להיות בקורלציה עם‬
‫ההתנהגות שלו – מכיוון שסניפים עם מרחקי מפה נמוכים יחסית עוברים ביחד תורשתית הם צריכים‬
‫להתנהג בצורה קורלטיבית‪.‬‬
‫אם יש סניפ אחד עם אסוציאציה‪ ,‬סניפים סמוכים צריכים גם להיות באסוציאציה‪ ,‬אולי לא חזקה כמו‬
‫הראשון אך עדיין די חזקה; מכאן שקבלת סניפ בודד שעולה מתוך מאות או אלפי סניפיםהינה כנראה‬
‫טעות כי אין סניפים אחרים קורולטיביים‪.‬‬
‫שימו לב‪ :‬אין זה אומר שכל הסניפים‪ ,‬או אפילו מי מהסניפים האלה‪ ,‬גורם למחלה; אבל אחד מהם מעיד על‬
‫קיום הווריאנט הגנטי שבאמת גורם למחלה‪.‬‬
‫אתגר ראשון‪ :‬תיקון טעויות בגנוטיפינג‬
‫במקרה שיש הורים או ילדים של הנבדקים‪ ,‬אפשר לעשות גנוטיפינג לאמא‪ ,‬אבא וילד‪ .‬העלות אומנם‬
‫גבוהה יותר אבל האיכות של הגנוטיפינג טובה יותר‪ .‬במקרה כזה ניתן לאתר סתירה מנדלית‪ :‬בדוגמה‪,‬‬
‫בצורות כתוב הגנוטיפ הקיים ותחתן מופיעה הקריאה‪ .‬בשושלת שבה לילד יש ‪ AA‬כי לאמא יש ‪ AT‬אבל‬
‫המכשיר קרא אצלה ‪ TT‬ניתן להבין שהמכשיר‬
‫טעה – אחרת לילד לא היה ‪ .AA‬יכול להיות גם‬
‫שהייתה מוטציה ‪ de-novo‬בילד‪ ,‬אבל הסיכוי הזה‬
‫קלוש; אם הטעות היא טעות גנוטיפינג‪ ,‬לא ניתן‬
‫לדעת אם הטעות הייתה באמא או בילד‪.‬‬
‫ניתן להשתמש גם בשיווי משקל הארדי‪-‬וויינברג‪ :‬בעזרת נוסחאות הארדי וויינברג‪ ,‬מתוך הנחה שקיים‬
‫שיווי המשקל )כאשר האוכלוסיה הומוגנית יחסית(‪ ,‬ניתן לנבא מה תהיה התפלגות הגנוטיפים באוכלוסיה‪.‬‬
‫אם רואים שאוכלוסיית הביקורת שונה מאוד מהמספרים שיוצאים בהארדי ווינברג‪ ,‬ניתן לטעון שהסניפ‬
‫הזה חורג מכללי הארדי וויינברג‪.‬חריגה כזו מתרחשת לרוב כתוצאה מטעות גנוטיפינג ולא מהסבר‬
‫ביולוגי‪-‬אבולוציוני אחר שגרם לסטייה‪.‬‬
‫אתגר שני‪ :‬תת‪-‬מבנים של אוכלוסיות‬
‫נניח שכל המקרים של החולים הגיעו מאפריקה וכל הביקורות הגיעו מאירופה; במקרה כזה‪ ,‬שתי‬
‫האוכלוסיות מאוד שונות עקב היסטוריה ומיקום‪ ,‬הן מבודדות יחסית אחת מהשנייה ולכן הרבה סניפים‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪30‬‬
‫יהיו שונים בין שתי האוכלוסיות אך דומים בתוך האוכלוסיה האחת עצמה‪ .‬יכולים להיות גם תנאים‬
‫מסויימים שגורמים לסלקציה לגן מסויים באוכלוסיה אחת ולא באחרת או מקרים של ‪bottle neck‬‬
‫בהיסטוריה של האוכלוסיות וכו'‪.‬‬
‫ההבדלים האלה קיימים בין ביקורת לניסוי אבל הם לא קשורים למחלה; דבר ראשון שאפשר לעשות כדי‬
‫להימנע מזה הוא להימנע מהטיות כאלו – אם דוגמים מקרי ניסוי ממקום מסויים יש לנסות להשיג משם‬
‫גם את הביקורת; יחד עם זאת זה לא תמיד עובד – אולי אדם מחשיב עצמו אירופאי למרות שאחת‬
‫מהסבתות שלו אפריקאית‪ ,‬אולי הוא ממקומות שונים באירופה וכדומה‪.‬‬
‫אמצעי המניעה הבסיסי יהיה שאלון שיבדוק את השושלת של האדם; במידה והוא עצמו לא יוכל לענות‬
‫עליו הגנים שלו יוכלו לעשות זאת‪ .‬מעניין לראות עד כמה מבנה האוכלוסיה יכול לנבוע מתוך מבנה‬
‫הסניפים; ואם ניתן לדעת על אבותיו של אדם – אולי אפשר למצוא היסטוריה של אוכלוסיות שלמות‪ ,‬כמו‬
‫לגלות מתי יצא האדם מאפריקה או לגלות גנים וסניפים שהיו תחת סלקציה מבחינה היסטורית על מנת‬
‫לגלות אירועים שונים שהיו בהיסטוריה המקומית‪ .‬האנליזה הופכת מורכבת יותר ב"בני תערובת" –‬
‫אנשים שהם גם אירופאים‪ ,‬אינדיאנים‪ ,‬אפריקאים וכדומה‪.‬‬
‫מפת שושלות‬
‫בהרכת מפה של שושלת‪ ,‬ממפים נקודות‬
‫כאשר כל אחת מייצגת אדם‪ .‬השאיפה היא‬
‫למפות אנשים לפי מוצאם על מפה דו‬
‫מימדית‪ ,‬כאשר שתי נקודות קרובות‬
‫מציינות כי הנדגמים קרובים יחסית אחד‬
‫לשני מבחינת המקום ממנו הם באים‪ .‬מצד ימין נמצאת קבוצה שמקורה מסין‪ ,‬מצד שמאל קבוצה‬
‫שמתאימה לאפריקה ולמעלה נמצאים האירופאים‪ .‬ואכן ניתן לצייר מפה על סמך סניפים שמאפיינים‬
‫היסטוריה גיאוגרפית )בין האירופאים והסינים מופיע קו מרוח יותר השייך למקסיקנים ולהודים(‪.‬‬
‫הצירים של המפה נקבעים לפי שיטה בשם ‪ .Principal Component Analysis‬מתייחסים לסניפים‬
‫בתור קואורדינטות )האם האלל של הסניפ קיים פעמיים‪ ,‬פעם אחת או לא קיים כלל – ‪ (0,1,2‬של נקודה‬
‫הנמצאת במרחב רב‪-‬מימדי המכיל מיליון מימדים )או כמספר הסניפים שבדקנו(‪ .‬על מנת לפשט את‬
‫הקונספט האבסטרקטי של מרחב רב‪-‬מימדי‪ ,‬ניתן להצר אותו למשטח דו‪-‬מימדי שעובר במרכז הנקודות‬
‫הרב‪-‬מימדיות‪ ,‬ואת המשטח הזה ניתן למקם על המפה הדו‪-‬מימדית שלנו‪ .‬באופן‬
‫דומה‪ ,‬יש באיור אוסף גדול של נקודות בעלות קואורדינטות דו‪-‬מימדיות ועל‬
‫מנת לבטא אותן בציר חד‪-‬מימדי מוצאים קו מגמה שעובר דרך רוב הנקודות‬
‫המוגדר כציר המרכז של הנקודות‪.‬‬
‫אפשר להפעיל עקרון זה על כל אוכלוסיה‪ ,‬כאשר הדוגמה שאובה מפרויקט ‪ ,Hap-Map‬שהוא פרויקט‬
‫המשך של פרויקט הגנום האנושי; בפרויקט הגנום נבדק הגנום של אדם אחד; בפרויקט ‪ Hap-Map‬נבדקו‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :05‬רפואה אישית‬
‫‪31‬‬
‫מיליוני סניפים של ‪ 270‬אנשים שונים מאוכלוסיות שונות )בפעם הראשונה מיליון‪ ,‬בשניה ‪ 3‬מיליון‬
‫ובשלישית ‪ 1.5‬מיליון על ‪ 1150‬איש(‪.‬‬
‫האוכלוסיות האלה הגיעו מכל מיני אוכלוסיות בעולם‪ .‬כשיוצרים להן מפת אוכלוסיות במבצע ‪Hap-‬‬
‫‪ ,Map‬המפה המתקבלת היא תלת מימדית )עכשיו רואים שההודיים מופרדים ממקסיקנים – הם יותר‬
‫למעלה(‪ .‬באחת הדוגאות למפות האלו דגמו את האוכלוסיה האירופאית והתאימו צבעים למדינות שונות‬
‫באירופה; דגמו ‪ 1300‬איש‪ ,‬כאשר כל‬
‫נקודה היא אדם ממדינה אחרת‪ ,‬וחילקו‬
‫אותן לשני צירים ראשונים‪ .‬ניתן לראות‬
‫שהתמונה ממש מקבילה לתמונת המפה‬
‫של אירופה‪ .‬המיפוי מקביל כמעט ‪1:1‬‬
‫בין הגיאוגרפיה הפיזית והגנומית של‬
‫האוכלוסיה )בשני צירים(‪.‬‬
‫מתוך זה ניתן ללמוד על צירי הגירה‬
‫לאורך השנים‪ ,‬איך סניפים עוברים סלקציה מסויימת באיזורים מסויימים וכדומה‪ .‬ניתן להשתמש בנתונים‬
‫האלו על מנת להכיר את עצמנו יותר דרך הגנים שלנו‪.‬‬
‫סיכום‬
‫המחקר מחפש גנים הקשורים למחלות‪ .‬יש מחקרים חשובים וסטטיסטיים הבאים להתמודד עם טעויות‬
‫בגנוטיפינג‪ ,‬הטייה של המדגם‪ ,‬אימות אי‪-‬תלות בין הנבדקים ושאר טעויות‪ .‬עד כה נמצא במחלות רבות‬
‫קשר בין סניפים למחלות‪ ,‬אבל כשמנסים להסביר תורשתיות – מידת ההשפעה של הגנים על המחלה –‬
‫ברוב הגנים ניתן להסביר רק ‪ 5-15%‬מהתורשתיות‪ .‬משמעות הדבר היא שרוב התורשתיות אינה‬
‫מוסברת‪ ,‬יש עוד הרבה גנים שצריך למצוא‪.‬‬
‫איפה התורשתיות מתחברת?‬
‫•‬
‫יש סניפים נדירים – סניפים כאלה תורמים כל אחד קצת למחלה‪ .‬הבעיה היא שבגנוטיפינג אי אפשר‬
‫לבצע את הבדיקה הזו‪.‬‬
‫•‬
‫הדור הבא של מחקרי אסוציאציה מדבר על הבעיות האלה ומתחיל לנסות לעשות גנוטיפינג עם‬
‫טכנולוגת ביו‪-‬נאנו‪.‬‬
‫•‬
‫יש אינטראקציה בין הגנים לסביבה‪.‬‬
‫הסבר השאלה לבית‪ :‬יש ‪ 200,000‬רצפים במאגר‪ ,‬כל אחד באורך ‪ 100‬נוקליאוטידים‪ .‬יש מילה אקראית‬
‫באורך ‪ 11‬נוקליאוטידים‪ .‬מסתכלים על ‪ 200,000x100=2x107‬נוקליאוטידים‪ .‬ההסתברות שמילה באורך‬
‫‪ 11‬נוקליאוטידים תתאים היא )‪ 1/(411‬כפול מספר הנוקליאוטידים‪ .‬התוצאה היא ‪.4.79‬‬
‫בפועל כל רצף מכיל ‪ 90‬אפשרויות של מילה בת ‪ 11‬אותיות כי החל מהנוקליאוטיד ה‪ 90-‬אין מקטע באורך‬
‫‪ 11‬עד סוף הרצף; בגלל זה מכפילים ‪ 200,000x90‬ולא כפול ‪ .100‬התוצאה הסופית של זה היא ‪.4.29‬‬
‫התוצאה שניתן היה לסמן הייתה בין ‪.4-5‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪32‬‬
‫שיעור ‪ :06‬רפואה אישית – המשך‬
‫גנטיקה של מחלות קומפלקסיות‬
‫ניתן למדוד את ההריטביליות של מחלות קומפלקסיות רבות – עד כמה אב יכול להעביר אותן לילדיו –‬
‫אבל יש מחלות שמושפעות גם מהגנטיקה וגם מהסביבה‪ .‬על מנת למדוד את זה בודקים את ההריטביליות‬
‫בין תאומים זהים ולא זהים – לתאומים זהים יש אותו ‪ DNA‬וללא‪-‬זהים אין אותו ‪ DNA‬אך יש אותה‬
‫סביבה‪.‬‬
‫אם ההשפעה העיקרית הייתה סביבה‪ ,‬אין הכרח שמחלה בתאום זהה אחד תופיע בשני; אם ההשפעה‬
‫העיקרית היא תורשתית‪ ,‬בתאומים לא זהים יש סבירות טובה שאם האחד חולה גם השני יחלה‪ ,‬אבל‬
‫בתאומים הזהים שניהם יהיו חולים לבטח‪ .‬אם זה לא תורשתי לא ניתן ִלצפות דבר‪.‬‬
‫כשמודדים הריטביליות ונתונים סניפים הקשורים למחלות‪ ,‬ניתן לבדוק – בהינתן אחוזים מסויימים של‬
‫ההריטביליות המסוברים על ידי הגנים – כמה מתוך זה מוסבר על ידי הסניפים? הסניפים מסבירים לכל‬
‫היותר ‪ 15%‬אחוז‪ ,‬כלומר הרוב אינו מוסבר בפן הגנטי‪ .‬גם היום‪ ,‬רב הנסתר על הגלוי‪.‬‬
‫היכן ההריטביליות החסרה?‬
‫•‬
‫וריאנטים נדירים – הסניפים קיימים ב‪ 5-10%-‬אחוזים מהאוכלוסיה; ההסתכלות מצומצמת למיליון‬
‫סניפים במקום לשלושה מיליארד נוקליאוטידים‪ .‬יכול להיות שיש מוטציות נדירות‪ ,‬עם שכיחות‬
‫למשל של ‪ ,1:1000‬אבל כאשר הן רבות מאוד בגנום הן גורמות למחלה‪ .‬במחקר של נדב אחיטוב‪ ,‬בו‬
‫הוא ריצף גנים של אנשים עם ‪ BMI‬גבוה )השמנת יתר( ועם ‪ BMI‬נמוך‪ ,‬הוא ראה שבעוד שאין‬
‫סניפים משותפים יש הרבה גנים עם מוטציות מאוד נדירות ביניהם‪.‬‬
‫•‬
‫אינטראקציות בין גנים לגנים ובין גנים וסביבה‪.‬‬
‫•‬
‫מיקרוביום – הבקטריות שחיות בגוף‪ ,‬הגנום שלהן וההשפעה של המיקרוביום הזה על הגוף‪.‬‬
‫חיפוש אחר וריאנטים נדירים‬
‫בחיפוש הזה לא ניתן להשתמש בסניפים המוכרים; הסניפים המוכרים קבועים מראש‪ ,‬שכיחים‪ .‬כאשר‬
‫מחפשים סניפים נדירים יש להניח שאיננו יודעים היכן הם יהיו‪ .‬מכאן שצריך לרצף‪.‬‬
‫השאיפה היא לרצף את כל הגנום של מקרי הבדיקה והביקורת ולהשוות ביניהם; אך היום פעולה זו יותר‬
‫מדי יקרה )למרות שזה הכיוון העתידי(‪ .‬בינתיים‪ ,‬אפשר להסתכל על גנים שנראים כמעניינים בהקשר של‬
‫המחלה הנחקרת‪.‬‬
‫קריאות של ‪Deep Sequencing‬‬
‫טכנולוגיית הריצוף‪ ,‬כמו הגנוטיפינג‪ ,‬התקדמה מאוד בשנים האחרונות‪ .‬הטכנולוגיה המובילה היום היא‬
‫‪ Deep Sequencing‬שנותנת מיליוני רצפים מאוד‪-‬מאוד קצרים‪ .‬הריצוף בשיטה זו מספק קריאות מאוד‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :06‬רפואה אישית – המשך‬
‫‪33‬‬
‫קצרות – כמה עשרות בודדות של‬
‫נוקליאוטידים בכל קריאה‪ .‬בצורה כזו‬
‫כל מקום בגנום מרוצף הרבה מאוד‬
‫פעמים‪ .‬לאחר מכן‪ ,‬מעמידים את‬
‫הרצפים האלה מול הרפרנס המתאים‬
‫ורואים שהרבה רצפים נופלים בחפיפה‬
‫גבוהה יחסית‪.‬‬
‫עכשיו יש לעבד את מאגר הנתונים הגדול שנוצר‪ .‬בתהליך העימוד משתמשים בשיטה דמויית ‪.BLAST‬‬
‫הרפרנס של העימוד הוא הגנום האנושי שפותח בפרויקט הגנום האנושי‪ ,‬שסיפק גנום שלם של אדם אחד‪.‬‬
‫מסיבה זו יכול להיות שהעימוד החדש לא יצליח להיות תואם לחלוטין – כי אנשים נבדלים במוטציות‪,‬‬
‫ברקע‪ ,‬בסניפים וכדומה‪.‬‬
‫בדומה לפרוייקט ה‪ HAP-MAP-‬והגנום האנושי‪ ,‬יש פרוייקט חדש בשם ‪1000 genome project‬‬
‫המנסה ליצור מאגר של ‪ 1000-2000‬אנשים מאוכלוסיות שונות ומגוונות‪ ,‬כך שניתן יהיה גם להשתמש‬
‫ברפרנס הקרוב ביותר לנבדק במחקר האסוציאציה – במחקר עם אפריקאים לא רצוי להשתמש ברפרנס‬
‫של אדם אירופאי‪ ,‬וההיפך‪ .‬כמו כן הפרוייקט מלמד על הבדלים בין אוכלוסיות ברמת הרצף‪.‬‬
‫האתגרים בריצוף מהדור השלישי‬
‫הבעיה הראשונה היא המיפוי של הקריאות לגנום; הבעיה הזו מורכבת יותר מבחינה חישובית מאשר‬
‫‪ ,BLAST‬משום שמאגר הנתונים הרבה יותר גדול – יש ‪ 10‬מיליון קריאות לאדם ואם עושים מחקר עם‬
‫כמה מאות או אלפי אנשים קבוצה מימדי נתונים נעשים עצומים‪ .‬קשה להחזיק כמות נתונים כזו בזיכרון‪,‬‬
‫ולכן האלגוריתמים צריכים להשתנות‪.‬‬
‫יש להבדיל גם בין סניפים לבין טעויות בריצוף; אם כסף לא היה בעיה‪ ,‬ניתן היה לרצף שוב ושוב וליצור‬
‫מאגר גדול יותר של קריאות למקום עם ה"סניפ" החשוד‪ ,‬על מנת לוודא מה היחס ביניהם‪ :‬אם היחס גבוה‬
‫לטובת נוקליאוטיד מסויים ניתן להבין שזהו הנוקליאוטיד הנכון וכי האדם הוא הומוזיגוט לנוקליאוטיד;‬
‫אם היחס הוא ‪ 50:50‬כנראה האדם הוא הטרוזיגוט ושתי הקריאות נכונים‪.‬‬
‫איך ניתן לאסוף אנשים באופן כזה שנוכל לשלם פחות כסף ועדיין לקבל תוצאות טובות; איך נוכל להוריד‬
‫את המחיר של המחקר? דבר ראשון ניתן לרצף פחות – במקום להסתכל על ‪ 100‬עותקים של כל נקודה‬
‫להסתכל על ‪ ;10‬אפשר גם לקחת את ה‪ DNA-‬של כל החולים יחד ושל כל הבריאים יחד ולרצף הכל –‬
‫כך נדרשים לרצף רק פעם אחת‪.‬‬
‫אם החיפוש הוא אחר חוסרים )‪ (deletions‬שמופיעים בנבדק ולא ברפרנס או ההיפך וכן של ‪double‬‬
‫‪ ,locations‬ניתן להשתמש בשיטת השלשות – הבודקת אבא‪ ,‬אמא וילד למשל – ולבחון את הסניפים כמו‬
‫טעויות מנדליות‪ .‬אם לילד יש ‪ AA‬ולאמא יש ‪ TT‬מובן שיש פה טעות‪ ,‬כי הילד היה חייב לקבל ‪A‬‬
‫מהאמא; אבל אם יש חוסר אצל האמא‪ ,‬והילד מקבל את החוסר הזה‪ ,‬בגנוטיפינג תתקבל קומפנסציה של‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪34‬‬
‫הקריאה על החסר שתראה כמו הכפלה של האות הקודמת‪T— :‬‬
‫הופך ל‪ A— ,TT-‬הופך ל‪ .AA-‬אי אפשר לדעת אם זה ‪ T‬אחד‬
‫ומחיקה או שני ‪ .TT‬משמעות הדבר היא שתמונה כזו – שבה יש‬
‫ילד עם ‪ AA‬ו‪ – TT-‬יכולה לבטא מחיקה חוסר ולא רק טעות‬
‫גנוטיפינג‪.‬‬
‫מקרים אחרים‪ ,‬למשל השושלת הימנית‪ ,‬אינם מתאימים כלל‬
‫לחוסר תורשתי‪ ,‬מכיוון שהילד הטרוזיגוטי‪ .‬גם בשושלת‬
‫השמאלית אין התאמה לחוסר‪ ,‬כי אם שני ההורים היו‬
‫הטרוזיגוטים סיכוי מזערי שהילד ההומוזיגוט הוא מקרה של חוסר‬
‫למעשה‪.‬‬
‫אם כן‪ ,‬יש מקרים שמתאימים למחיקה; מקרים שמתאימים וגם אם לא בטוח שיש חוסר יש בהם בעיה;‬
‫מקרים שאולי מתאימים אבל לאו דווקא הם בעייתיים; ומקרים שבהם חוסר פשוט לא מתאים‪ .‬אם יש‬
‫קטע מאוד ארוך שיכול להתאים לחוסר ונראה כמו חוסר בסינכרון‪ ,‬ניתן לשער שזה חוסר; שיעור‬
‫האימות של השערות אלו הוא כ‪.85%-‬‬
‫בטכנולוגיה החדשה של ‪ deep sequencing‬מחפשים אחר קריאות קצרות‪ .‬אם מוצאים איזור שאף‬
‫קריאה לא נפלה עליו‪ ,‬ניתן להבין שכנראה לנבדק היה מחיקה או שלרפרנס הייתה דופליקציה‪ .‬הבעיה‬
‫היא שאם המחיקה לא הומוזיגוטית‬
‫הכמות של הקריאות לא תיעלם כליל‬
‫אלא תרד לכדי חצי‪ ,‬וזה לאו דווקא‬
‫מובהק; קושי שני הוא שזה יכול לקרות‬
‫במקרה – אם מבצעים מעט קריאות לכל‬
‫איזור יכול להיות שפשוט באופן אקראי‬
‫הקריאות לא כיסו את אותה נקודה‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :06‬עצים פילוגנטיים‬
‫‪35‬‬
‫שיעור ‪ :06‬עצים פילוגנטיים‬
‫הקדמה‬
‫התרומה של דארווין לתיאוריית העצים הפילוגנטיים משמעותית מכדי לא לציין אותו‪ .‬דוקינס אומר שניתן‬
‫להתייחס לעקרון האבולוציה על ידי ברירה טבעית כעקרון אוניברסלי – כשדארווין הגיע למסקנותיו הוא‬
‫הגיע אליהן ממחקר מאוד ספציפי; דוקינס אומר שמדובר פה בקריטריון אוניברסלי לחלוטין שאינו מוגבל‬
‫למדגסקר לבדה‪ .‬זהו למעשה‪ ,‬לפי דוקינס‪ ,‬הקריטריון היחיד שיכול להסביר את הנוכחות של חיים – יהיו‬
‫באופן שבו יהיו‪ ,‬זה העקרון היחיד שמנחה יצירה של יצורים שנראים כאילו הם תוכננו‪.‬‬
‫העקרון אוניברסלי כי הוא למעשה מתכון‪ ,‬אלגוריתם‪ .‬העקרון הכללי הוא שיהיו רפליקטורים – יחידות‬
‫משתכפלות – שביניהם קיימת וריאביליות‪ .‬חלק מהיחידות יעמידו יותר צאצאים‪ ,‬ואותו חלק יגיע למירב‬
‫המשאבים המוגבלים‪ .‬כשמריצים את האלגוריתם הזה על פרקי זמן או דורות ארוכים‪ ,‬מקבלים‬
‫אורגניזמים מורכבים כמו שהתקבלו בכדור הארץ‪.‬‬
‫היוונים )ובעקבותם רוב התובנות הישנות של העולם( הניחו שהחיים נוצרו על ידי ישות עליונה וכי הם‬
‫נוצרו בצורתם הנוכחית‪ .‬למארק היה מי שהעלה את הרעיון של שינוי לאורך הזמן – שתנאי הסביבה‬
‫גורמים לשינויים והשינויים האלה יכולים להיות תורשתיים‪ .‬באותה התקופה כבר היה הכרח מבחינת‬
‫התצפיות ומבחינה אמפירית להכניס יסוד דינמי‪ ,‬המכונה היום אבולוציה‪ .‬הסיבה העיקרית היא המאובנים‬
‫– עצמות של יצורים שאינם חיים היום מתגלות‪ .‬מכאן שלא כל החיים הקיימים היום הם החיים שהיו‬
‫תמיד ובמתכונתם הנוכחית‪.‬‬
‫דארווין העלה את רעיון העץ – לכל האורגניזמים בכדור הארץ יש אב קדמון משותף וכולם נוצרו‬
‫כהתפצלות של אוכלוסיות לאורך הרבה מאוד שנים‪ .‬ניתן להשוות בין המהפכה של קופרניקוס‪ 7‬לזו של‬
‫דארווין – הפרספקטיבה של דארווין הייתה שלא רק שאיננו במרכז היקום אלא שאנחנו גם לא נזר‬
‫הבריאה – האדם לא נוצר כדי שכל היצורים ישרתו אותו וזה גם לא מצב של התפתחות הדרגתית‪ .‬בני‬
‫האדם לא התפתחו מקופים; לקופים ולבני האדם יש אב משותף‪ ,‬ושניהם התפתחו באופן עצמאי לאורך‬
‫האבולוציה לאחר שהם נפרדו‪.‬‬
‫האבולוציה דמויית‪-‬העץ עוסקת באב המשותף ובהתפצלויות לאורך הדורות‪.‬‬
‫עדויות מודרניות למוצא משותף‬
‫לדבר על ברירה טבעית – מנגנון אבולוציוני שעובד בברירה טבעית – זה משהו אחד‪ ,‬ולומר שיש אב‬
‫קדמון משותף יחיד היא רמה אחרת של חדשנות‪ .‬ואולם מאז שהקונספט הזה עלה על ידי דארווין הצטברו‬
‫עדויות רבות שמראות שהוא אכן צדק‪.‬‬
‫האלמנט האוניברסלי הראשון הוא הקוד הגנטי‪ .‬גם השימוש בנוקליאוטידים וגם הקידוד לחומצות אמינו‬
‫כמעט אחידים בין כל היצורים החיים – ואחידים לחלוטין בין האאוקריוטיים‪ .‬השילוב הזה בין שלוש‬
‫‪ 7‬קופרניקוס העלה את המודל הפשוט יותר לגרמי השמש שמבין שהשמש היא במרכז השמיים ולא כדור הארץ‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫‪36‬‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫אותיות ‪ DNA‬לקידוד לחומצת אמינו היה יכול ליצור טבלאות קודונים מגוונות מאוד; אין הכרח ביולוגי‬
‫שזה יהיה בצורה אחת מסויימת‪ .‬העובדה שזה כן קיים היא עדות חזקה לכך שלכל היצורים בכדור הארץ‬
‫יש אותו האב הקדמון‪.‬‬
‫הקונספט של הסתכלות על האבולוציה כעץ עם אב קדמון משותף מקבל הרבהמאוד חיזוקים‪.‬‬
‫לביולוגים היה כבר פיתוח של המתמטיקאים לעץ‪ .‬יולר‪ ,‬מתמטיקאי מוביל בתקופה ההיא לגרפיקה‪ ,‬פיתח‬
‫גרפים של עץ‪ .‬יכולים להיות עצים בינאריים עם פיצולים בראש ובשורש‪ ,‬וגם עץ עם כיווניות – שאין לו‬
‫פיצולים בשורש‪ ,‬שיש אב משותף‪ .‬מכאן שלביולוגים היה את ארסנל הכלים להסביר ולבצע מחקר בעזרת‬
‫עצים‪.‬‬
‫עצים פילוגנטיים הם היפותזה לגבי העבר –‬
‫ההשערה הטובה ביותר לגבי איך המינים התפצלו‪.‬‬
‫לא עוד בוחנים רק על הדמיון בין האורגניזמים‬
‫השונים אלא ממש מנסים לשחזר את העבר שלהם‪,‬‬
‫לחזור לאב קדמון משותף‪ .‬כשמסתכלים על‬
‫הקודקודים בתוך הגרף – לא העלים אלא הענפים –‬
‫ניתן לקבוע התפצלויות של מינים‪.‬‬
‫העלים הם אורגניזמים הקיימים היום וניתן לרצף אותם; הקודקודים בתוך הגרף הם אבות היפותטיים‪.‬‬
‫הטופולוגיה של העץ מציגה אילו מינים קרובים זה לזה ואורך הענף מתאר פונקציה של הזמן שעבר עד‬
‫שהתקבל האורגניזם הנוכחי )ה"עלה"(‪ .‬ניתן לראות למשל שאורך הענף של החולדה )‪ (Rattus‬גדול‬
‫משל המרחק של עכבר )‪ ,(Mus‬והם סה"כ קרובים יותר לאב המשותף שלהם ושל הפרה )‪.(Bos‬‬
‫יש להדגיש‪ :‬פעמים רבות משתמשים בעץ על מנת לבנות היררכית קלאסטרים של פרטים – כמו שנעשה ב‪-‬‬
‫‪ .microarray‬דמיון בתוך תבניות ביטוי של גנים בונים עץ של הכמות הנמדדת‪ .‬עץ פילוגנטי הוא מאוד‬
‫מיוחד ואינו מודד רק דמיון‪ ,‬כמו כאן! זה נכון שלפעמים בונים עץ פילוגנטי על בסיס דימיון אבל הוא מבטא‬
‫את האופן בו התפתחו המינים‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :06‬עצים פילוגנטיים‬
‫‪37‬‬
‫הייצוג הגרפי יכול להיות מגוון‪ ,‬יכול‬
‫להראות את סדר הפיצולים‪ ,‬הקפדה או‬
‫אי הקפדה על אורכי ענפים‪ ,‬גרפים‬
‫מתעקמים‪ .‬הנקודה החשובה היא שלכל‬
‫עץ יש צורות הצגה ויזואליות שונות‪.‬‬
‫עצים פילוגנטיים לרוב יהיו בינאריים‪ ,‬כל‬
‫פעם פיצול לשניים; אבל זה לא חייב‬
‫להיות כך‪ ,‬עץ פילוגנטי יכול להיות גם‬
‫יותר מבינארי אם יש אי וודאות מסויימת‪.‬‬
‫סוגי מחקר בעצים פילוגנטיים‬
‫ידוע שקיימת קירבה גדולה בין השימפנזה לאדם; ב‪ ,2003-‬עוד לפני שסיימו לרצף את גנום השימפנזה‪,‬‬
‫ראו שאם משווים התמרות לא סינונימיות‪ ,8‬המקום הנכון של האדם והשימפנזה כה קרוב שהם צריכים‬
‫להיות באותו מקום בענף ואולי אפילו לשנות את שם ה‪ genus-‬של השימפנזה ל‪.Homo-‬‬
‫גם כשגילו את המאובנים של הניאנדרטלים‪ ,‬היו מי שחשבו שאולי הם לא צריכים להיות ענף נפרד‬
‫מההומו ספיינס אלא מה שמכונה "החוליה החסרה"‪ .‬היום ניתן לרצף ‪ DNA‬מתוך מאובנים; ה‪DNA-‬‬
‫הרלוונטי )פחות מ‪ (1%-‬של הניאנדרטל‬
‫נאסף מעצמות שנמצאו והראה שהומו‪-‬‬
‫ספיינס לא התפתחו מהניאנדרטאלים והם‬
‫באמת היו פיצול מתוך אותו ענף שנכחד‬
‫מאוחר יותר‪.‬‬
‫בדוגמה הבאה מופיע עץ אבולוציוני של‬
‫יונקים שונים‪ .‬ההיפופוטם קרוב ביותר מכל היצורים המופיעים בעץ דווקא ללוייתן‪ .‬התובנה הזו הגיע‬
‫ממרקרים מולקולאריים של מערכת החיסון – שיטה שמדדה קומפטביליות ברמה אימונולוגית‪ ,‬הקשורה‬
‫גם לנושאים כמו דחיית רקמות בהשתלות ותרומות דם ואיברים‪ .‬שנים לאחר שהעץ הזה הורכב‪ ,‬כאשר‬
‫מצאו שלד של לוויתן באפריקה‪ ,‬לקחו עם מיטב הטכנולוגיה הרבה מאוד מאפיינים הניתנים להשוואה‬
‫וראו שהסתירה לכאורה נעלמת ויש עדיין‬
‫שמירה על המבנה של העץ כפי שבנו‬
‫אותו לפי המערכת החיסונית – הרמה‬
‫המורפולוגית‬
‫מחזקת‬
‫את‬
‫הרמה‬
‫המולקולארית‪.‬‬
‫‪ 8‬שינויים בקוד הגנטי שכן מביאים להחלפה של חומצת אמינו בקודון‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪38‬‬
‫שיעור ‪ :07‬עצים פילוגנטיים‬
‫שאלת הסקר‪ :‬יש לבדוק מהו הענף בעץ הפילוגנטי עליו יושב אורגניזם ‪ .A‬ידוע שבודקים עימוד של‬
‫מקטעים בני ‪ 5000‬זוגות‪-‬בסיסים וכן ידוע שיש ‪ 25‬התמרות‪ .‬צריך לחלק את ‪ 25‬ב‪ 5000-‬הבסיסים ואז‬
‫מתקבל האורך של הענף – המרחק של אורגניזם ‪ A‬מהאב הקדום שלו‪.‬‬
‫הקדמה לעצים פילוגנטיים – המשך‬
‫עצים פילוגנטיים בשימוש משפטי‬
‫במקרה משפטי‪ ,‬רופא ואחות שהיה ביניהם רומן ממושך הפסיקו את הרומן – ביוזמת האחות‪ .‬הרופא‪,‬‬
‫כנקמה‪ ,‬יצר במזיד סיטואציה בה היא נדבקה בוירוס ‪ .HIV‬אולם כיצד חושדים או מוכיחים משהו כזה?‬
‫•‬
‫מעט לפני האירוע ראו שהיא לא נשאית של ‪ HIV‬ושל הפטיטיס‪ ,C-‬במהלך בדיקות שגרתיות‬
‫שעוברים צוותים רפואיים‪.‬‬
‫•‬
‫מעט אחרי הפרידה האחות קיבלה מהרופא זריקה של ‪.B12‬‬
‫•‬
‫כשנה לאחר מכן‪ ,‬בבדיקה שגרתית של ‪ HIV‬והפטיטיס‪ C-‬התגלה שהיא כן נשאית‪.‬‬
‫בחקירה עלה שביום שבו היא קיבלה את הזריקה מהרופא הגיעו שני מטופלים שהאחות לא הכירה‪ ,‬ולהם‬
‫היה ‪ HIV‬והפטיטיס ‪ .C‬זהו אוסף ראיות נסיבתיות שמעלות חשד לאקט במזיד מצד הרופא‪ .‬הקהילה‬
‫הביואינפורמטית חשבה שאולי ניתן יהיה להשתמש במודלים של פילוגנטיקה על מנת לבדוק אם באמת יש‬
‫הדבקה‪ ,‬האם קיים קשר בין זני הוירוסים למטופל שממנו נחשד שלקחו את הדם‪.‬‬
‫וירוס ה‪ HIV-‬מוגדר לעיתים לא כמין אלא קוואסי‪-‬מין‪ .‬הסיבה היא שהוא עובר אבולוציה בקצב מאוד‬
‫מאוד מהיר – באדם שנדבק ניתן ממש לזהות עץ פילוגנטי שלם של הוירוס מרגע ההדבקה בנשא ועד רגע‬
‫הבדיקה‪ .‬השאלה ההיסטורית על הוירוס אינה מורכבת כמו בחולייתנים – כי סדר הגודל של האבולוציה‬
‫הוא שנים ספורות‪.‬‬
‫שיחזור עצים פילוגנטיים על סמך רצף לא נעשה על פי כל הגנום של שני האורגניזמים שמנסים להקביל‪,‬‬
‫שכן זו עבודה קשה ומורכבת מדי‪ .‬במקום זאת לוקחים מקטעים קטנים לצורך ‪Multiple Sequence‬‬
‫‪ Alignment‬במחשבה שהם מייצגים את הגנום‪ .‬אם כל תת מקטע כזה הוא גן‪ ,‬אפשר להגדיר ‪Gene-‬‬
‫‪ Tree‬שיהיה דומה למדי לעץ הפילוגנטי‪.‬‬
‫הדבר הראשון שהחוקרים ניסו לעשות היה להשוות את‬
‫אחד הגנים של ‪ HIV‬שקשור בהתגוננות מהמערכת‬
‫החיסונית של הנשא ולכן הוא עובר‪ ,‬במירוץ חימוש‪,‬‬
‫מוטציות ושינויים רבים‪ .‬בתת הרצפים של האחות לעומת‬
‫המטופל של הרופא יש יותר קירבה מרצפים אחרים שהיו‬
‫בסביבה – וירוסים אחרים של חולים ונשאים אחרים‬
‫בסביבה‪ .‬מכאן שהאחות ככל הנראה הודבקה בסבירות‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :07‬עצים פילוגנטיים‬
‫‪39‬‬
‫גבוהה מהמחט ששימשה ללקיחת דם מהמטופל‪ .‬אולם‪ ,‬בשיטה זו מקשה על הבחנה בכווניות של ההעברה‬
‫והוכחה שוירוס ה‪ HIV-‬במטופל יותר קדום לזה שבאחות‪.‬‬
‫לשם כך עשו עץ לפי המקטע לגן של ‪ – RT‬רברס‪-‬‬
‫טראנסקריפטאז‪ .‬הגן הזה יציב יותר ועובר פחות‬
‫שינוייים‪ ,‬ואכן ניתן לראות בעץ שהמקטעים של‬
‫המטופל מקיפים את המקטעים שנמצאו באחות‪ ,‬דבר‬
‫המהווה עדות לכך שהמטופל הוא שהדביק את האחות ולא ההיפך‪.‬‬
‫יש להבין כי במקרה זה שוחזרה ההיסטוריה של נגיף ה‪ .HIV-‬הגן הראשון הראה את הקירבה והגן‬
‫השני הראה את הכיווניות‪ .‬האינפורמציה והעדויות האלה הולכים ונעלמים עם הזמן‪ .‬זוהי שאלה‬
‫של קצב האבולוציה מחד ושל הזמן שעבר בפועל מאידך‪.‬‬
‫בניית עץ החיים‬
‫החידוש של דארווין לא היה ברעיון העצים כי אם ברעיון שיש אב קדמון משותף; אולם איך מיישמים את‬
‫הרעיון‪ ,‬להניח את כל האורגניזמים על אחד?‬
‫עד המאה הקודמת‪ ,‬העולם חולק לשניים‪ :‬צמחים וחיות‪ .‬אקרט כבר דיבר על חלוקה לשלוש והיום‬
‫מדברים על חלוקה לחמש; וניתן כמובן גם פשוט לחלק לפרוקריוטים ואאוקריוטיים‪ .‬ואז הגיע קרל ווז עם‬
‫חלוקה‬
‫לשלוש‬
‫קבוצות‪:‬‬
‫בקטריה‪,‬‬
‫ארכיאה‬
‫ואאוקריה‪ .‬בעוד שהחלוקה הטקסונומית הקודמת‬
‫התבססה על מקורות מורפולוגים‪ ,‬מבנה ממברנה‪,‬‬
‫מבנים אנטומיים מתקדמים וכו'‪ ,‬ווז השווה רצף‬
‫כרומוזומלי שמופיע בכל האורגניזמים וניתן לעקוב‬
‫אחריו‪ ,rRNA ,‬בדק את הרצף באורניזמים‬
‫השונים‪ ,‬עימד והסיק את מסקנותיו על הפיצולים‪.‬‬
‫כך התקבל העץ של ווז‪ :‬בעוד שבעבר התייחסו בהזנחה לפרוקריוטיים‪ ,‬ווז מבחין בין ארכיאה ובקטריה‬
‫ויותר מכך – הוא מראה שהארכיאה קרובה יותר לאאוקריה‪ .‬בעוד שבעבר ידעו שיש שארכיאה שנבדלים‬
‫אולי מהבקטריה אבל עדיין ראויים להיות תחת אותם ענפים‪ ,‬ווז גילה שהן קבוצות שונות לחלוטין‪.‬‬
‫המושג של "עץ החיים" מאוד שנוי במחלוקת‪ :‬דארווין טען שאפשר לתאר את החיים על סמך מטאפורת‬
‫עץ אולם היום אנו מכירים תופעת מעבר גנים הוריזונטלי‪ .‬גנים עוברים למעשה בין מיקרואורגניזמים‬
‫שיכולים להיות מאוד מרוחקים מבחינת האב הקדמון על ידי מגוון שיטות להעברת מידע בין‬
‫המיקרואורגניזמים – זוהי הורשה שאינה דארווינית וורטיקלית‪ .‬למרות זאת‪ ,‬מרבית הגנים לא עוברים‬
‫בהעברה צדדית; מכאן שעל גנים שמורים כאלה‪ ,‬דוגמת ‪ ,rRNA‬ניתן לבסס את העצים הפילוגנטיים‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫‪40‬‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫אנליזה פילוגנטית‪ :‬לא רק בין אורגניזמים‬
‫כלים פילוגנטיים יכולים לתאר היסטוריה אבולוציונית של אורגניזמים כמו גם של דברים נוספים‪ ,‬דוגמת‬
‫מחלות‪ .‬הדוגמה הבאה תעסוק בפילוגנזה של סרטן‪ .‬כאשר מתחיל תהליך סרטני בגוף‪ ,‬הוא מתחיל בנקודה‬
‫מסויימת; מספר רב של אירועי חלוקה מאוחר יותר‪ ,‬כשהגידול מתחיל להיות ממאיר‪ ,‬הוא עבר למעשה‬
‫אבולוציה כדי להיות סרטן "טוב יותר"‪.‬‬
‫פילוגנזה של סרטן דומה מאוד לכל פילוגנזה אחרת‪,‬‬
‫אבל ההיסטוריה המתוארת היא ברמה הפילוגנטית‪.‬‬
‫גישה זו חשובה לא רק להבנה הכללית אלא גם‬
‫ליכולת לפתח תרופות טובות יותר‪ .‬אנליזה של שני‬
‫סוגי סרטן תראה שהם שונים אבל ניתן לזהות עוד‬
‫הבדלים בשיטות גנטיות שיעזרו להבנת המרחק‬
‫והפעולה הקשורות לסרטן זה‪.‬‬
‫השיטה הראשונה היא בעזרת ‪ ,MicroRNA Chip‬אשר משווה בין גידולים של אנשים שונים‪ .‬בשנים‬
‫האחרונות במקום היברידיזציה של ‪ CGA‬נעשה שימוש במיקרו‪-‬אראי שבודק את ה‪ mRNA-‬ברקמה‬
‫מסוימת; ‪ CEGH‬היא שיטה היכולה לבדוק רמת עותקים – כמו רמת ביטוי – על פ ההיברידיזציה של‬
‫תאי הסרטן‪.‬‬
‫אנליזה פילוגנטית‪ :‬לא רק בביולוגיה‬
‫השפות האנושיות התפתחו בקבוצות שונות של בני אדם ובתחום השפה נראה שהתפתחות השפה אינה‬
‫בלתי תלויה – יש תהליך של "ייבוא"‪ ,‬כמו מעבר גנים הוריזונטלי בין קבוצות בני האדם‪ .‬אם קודם הגנים‬
‫חולקו למשפחות גנים או הומולוגים‪ ,‬כאן ניתן לעשות אותו דבר לגבי מילים מתוך הלקסיקון‪ .‬אם לקבוצה‬
‫של מילים יש משמעות דומה‪ ,‬צליל דומה ומרכיבים אחרים‪ ,‬אפשר להגיד שהמילים הן הומולוגיות – שיש‬
‫להן אב קדמון משותף‪.‬‬
‫דוגמה אחרת היא שימוש בעצים פילוגנטיים לחקר ההתפתחות של הקומפלקסיות בפוליטיקה‪ .‬עוסקים‬
‫במחקר בארבעה מצבים‪ :‬ללא מנהיג‪ ,‬מנהיג אבסולוטי פשוט ומורכב ומצב של מדינה‪ .‬למעשה זוהי‬
‫אנאליזה פילוגנטית המופעלת על מחקר פוליטי‪-‬חברתי‪ .‬המודל האבולוציוני נתן את המדד הכמותי לסיכוי‬
‫שיהיו קפיצות קדימה במבנה השלטון או אחורה‪ .‬הם ראו שבעוד שקפיצות קדימה כמעט לא קורות‬
‫בדילוגים‪ ,‬קפיצות אחורה קורות מדי פעם‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :07‬עצים פילוגנטיים‬
‫‪41‬‬
‫קריאת עצים‪ :‬איזה עץ יותר מדוייק?‬
‫שימו לב שעצים ניתן לסובב – בנקודות‬
‫הפיצול‪ .‬שני עצים יהיו זהים אם האבות‬
‫המשותפים נותרים זהים‪ ,‬ואין זה משנה‬
‫איך נסובב אותם‪ .‬בארבעת העצים‬
‫משמאל ניתן לראות שהאב הקדמון של‬
‫גורילה תמיד משותף לשימפנזה ולאדם‪.‬‬
‫האב הקדמון של השימפנזה והאדם גם‬
‫הוא אותו אב קדמון בכל ארבעת העצים‪.‬‬
‫עצים פילוגנטיים יכולים להיות חסרי‪-‬‬
‫ואז‬
‫שורש‪,‬‬
‫הפיצולים‬
‫מופיעים‬
‫אבל‬
‫לא‬
‫נתוני‬
‫נקודת‬
‫סדר‬
‫הזמן‪,‬‬
‫הכיווניות‪ .‬השורש נותן למעשה כיווניות‬
‫ממנו אל העלים‪ .‬בעץ לא משורש אין‬
‫התייחסות למימד הזמן‪.‬‬
‫כאשר יש מספר קבוצות טקסונומיות‬
‫בעץ לא משורש ניתן לבחור כל ענף‬
‫בתור השורש; לרוב ייעשה שימוש‬
‫בקבוצה טקסונומית רחוקה יחסית על‬
‫מנת לראות את השורש – למשל‬
‫בתרנגולת יחד עם שימפנזה‪ ,‬גורילה‬
‫ואדם‪,‬‬
‫על‬
‫מנת‬
‫להראות‬
‫שביחס‬
‫לתרנגולת שלושת האורגניזמים האחרים‬
‫חייבים לשבת על אותו הענף‪.‬‬
‫הרצפים שלהם בוצע שירוש מכונים ‪ ingroup‬והרצף הנוסף הוא ‪.outgroup‬‬
‫דרך אחרת היא ‪ – midpoint‬לוקחים שני עלים שביניהם המרחק מקסימלי‪ ,‬ונקודת האמצע ביניהם היא‬
‫השורש‪ .‬הנחה זו עובדת בצורה גסה אבל שירוש בשיטה זו אינו מקובל‪ ,‬כי מספיק שיהיה אורגניזם אחד‬
‫שעובר אבולוציה מהירה יותר מהאורגניזמים האחרים וכבר‬
‫השירוש הזה אינו נכון – שירוש שכזה תקף רק כאשר קצב‬
‫האבולוציה בכל האורגניזמים זהה‪ .‬קצב האבולוציה הזה מכונה‬
‫"‪."molecular clock‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪42‬‬
‫חלוקה של הקבוצות‪ :‬מונופילטית‪ ,‬פאראפילטית‪ ,‬פוליפילטית‬
‫דוגמה לאחד מהמצבים האלה היה במקרה של המטופל והאחות – הרצפים של המטופל עוטפים את‬
‫הרצפים של האחות‪ .‬דבר זה מכונה קבוצה פאראפילטית‪ .‬באירוים הבאים רואים דוגמאות למצבים‬
‫כאלה‪:‬‬
‫•‬
‫פאראפילטית – מכילה את האב הקדום ביותר של הרצפים‪ ,‬אולם יש רצפים חיצוניים למסלול הזה‪.‬‬
‫•‬
‫פוליפילטית – הקבוצה מכילה את כל הרצפים אבל לא את האב הקדמון של כולם‪.‬‬
‫•‬
‫מונופילטית – כל הרצפים מוכלים באותה קבוצה כולל אב קדמון מסויים‪.‬‬
‫הומולוגיה והומופלאסיות‬
‫• הומולוגיה – מאפיין משותף שעבר בתורשה מאב קדמון משותף‪.‬‬
‫• הומופלאסיה – מאפיין משותף שנוצר באופן בלתי תלוי‪.‬‬
‫הומופלאסיות גורמת לתכונה מסויימת להופיע לאורך האבולוציה בצורה דומה‪ ,‬למרות שכנראה התפתחה‬
‫בתנאים שונים‪ ,‬וההתפתחות של האנאלוגיה הייתה בלתי תלויה‪ .‬דוגמה לכך היא הראייה‪ ,‬שיש הטוענים‬
‫כי התפתחה לפחות שש פעמים שונות בצורה בלתי תלוייה‪.‬‬
‫מה הקשר לפילוגנטיקה? אם לא הייתה הומופלאסיות או אבולוציה הוריזונטאלית‪ ,‬הניתוח הפילוגנטי היה‬
‫יכול להיות הרבה יותר קל; הדברים המקשים על הניתוח הם אבולוציה גנטית‪ ,‬חזרה מנקודה מסויימת‬
‫לקודמתה‪ ,‬וגם הומופלאסיות‪ .‬כאשר משחזרים עצים פילוגנטיים עושים זאת לרוב על פי תכונות שלא‬
‫נוטות להומופלאסיות‪.‬‬
‫דוגמה לתכונות כאלו הן ‪ ,indels‬מחיקות ותוספות בגנום‪ .‬הטענה היא שהסיכוי לקבל מרווח מסויים בין‬
‫שני אורגנימים בגנום שלהם מאוד נמוך‪ ,‬ולכן אם רואים בין שניהם ‪ indel‬באותו המיקום אנחנו יכולים‬
‫להניח שה‪ indels-‬לא נגרמו מהומופלאסיות‪ .‬הטענה הזו יפה אולם לא תמיד נכונה כי ‪ indels‬לא חסינים‬
‫לחלוטין מפני הומופלאסיות‪ ,‬ואכן הראו וביקרו מאוחר יותר שהשיטה של ה‪ indels-‬אינה בלתי‪-‬רגישה‬
‫לחלוטין להומופלאסיות‪ .‬יחד עם זאת‪ ,‬החוקרים שואפים להגיע למצב שיש מינימום הומופלאסיות ו‪-‬‬
‫‪ indels‬הם דוגמה טובה‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :07‬עצים פילוגנטיים‬
‫‪43‬‬
‫אורתולוגים‬
‫קיימים שני סוגי הומולוגים‪:‬‬
‫•‬
‫אורתולוגים – שני גנים עם אב קדמון משותף‬
‫כאשר מה שגרם להבדלם בין האללים הוא‬
‫ספציאציה‪ .‬במצב כזה הגנים לרוב ישמרו על‬
‫הפונקציה שהייתה עוד לאב הקדמון – האירוע‬
‫של הספציאציה לרוב לא מספיק לגרום לשינוי‬
‫בתפקוד‪.‬‬
‫•‬
‫פאראלוגים – מצב זה קורה מדופליקציה‪ .‬במצב זה‬
‫שני גנים הם נפרדים כתוצאה מדופליקציה אבל‬
‫להבדיל מהמקרה הקודם‪ ,‬המצב הזה לא מתקיים בין‬
‫שני מינים שונים כי אם בתוך אותו המין – זוהי לא‬
‫תוצאה של ספציאציה‪.‬‬
‫יש להדגיש כי אירועי הדופליקציה הם כנראה המנוע החשוב ביותר לחדשנות אבולוציונית‪ :‬כאשר גנומים‬
‫משתכפלים המטרה של הרפליקטור היא להעמיד עותקים כמה שיותר מדוייקים למקור‪ .‬האבולוציה‬
‫שמרנית מאוד ולכן הרפליקציה מאוד אמינה‪ .‬יחד עם זאת‪ ,‬אם כבר יש דופליקציה‪ ,‬העובדה שיש גן אחד‬
‫שיכול תמיד להישאר תקין מביאה לכך שהגן המשוכפל חשוף למוטציות מבלי שהן ישפיעו בצורה מזיקה‬
‫מאוד על האורגניזם‪ .‬כאשר יהיו מוטציות בגן השני שיביאו לשינוי התפקוד שלו‪ ,‬התפקוד המקורי יישמר‬
‫על ידי העותק הראשון ולכן השינויים ייתקבלו בברכה‪.‬‬
‫נניח יונק טיפוסי; משפחת הגנים הנפוצה ביותר ביונקים הם גנים הקשורים להרחה‪ ,‬שכן לרוב היונקים‬
‫יש חוש ריח מפותח למדי‪ :‬יונקים מקדישים כ‪ 1000-‬גנים להרחה מתוך כ‪ 20,000-‬גנים בגנום‪ .‬אם‬
‫מסתכלם על שימפנזה‪ ,‬לעומת זאת‪ ,‬רואים שכ‪ 50%-‬מהגנים "הלכו לאיבוד"‪ .‬אבל הם לא באמת אבודים‪:‬‬
‫הגנים הם למעשה פסודוגנים או גנים מאובנים‪ ,‬אשר לרוב אינם עוברים תרגום וגם אם הם יוצרים חלבון‬
‫הוא לרוב לא פונקציונאלי‪.‬‬
‫בשל כך חוש הריח של בני האדם הוא ברמה מאוד נמוכה בהשוואה לשאר היונקים‪ .‬ניתן לנחש שהדבר‬
‫נובע מאירוע אבולוציוני שאיפשר הקלה של הלחץ האבולוציוני על שימור חוש הריח‪ .‬שהרי‪ ,‬כל‬
‫הפעולות של יונקים קשורות בריח‪ :‬מציאת מזון‪ ,‬זיהוי מזון מקולקל‪ ,‬מציאת בני זוג וכדומה‪ .‬בני אדם‬
‫וקרוביהם כנראה עברו אירוע שגרם להם לא להסתמך על החוש הזה‪.‬‬
‫ידוע היום שרוב היונקים לא רואים בצבעים – אלא בשני צבעים בלבד‪ .‬בפרימאטים לעומת זאת הייתה‬
‫דופליקציה שאיפשרה לראות צבע בתדירות כלשהי; העותק הנוסף של הדופליקציה עבר מוטציות שהפכו‬
‫אותו רגיש לצבע בדרגה שונה‪ .‬ההתפצלות הזו הקנתה אפשרות לראות בשלושה צבעים ויצרה בדיוק את‬
‫ההתפצלות הגנטית הפאראלוגית‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫‪44‬‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫מרגע שלקופים של העולם הישן הייתה היכולת לראות בשלושה צבעים‪ ,‬פעולות שנעשו על בסיס ריח‬
‫התבססו על ראיה‪ ,‬שהיא הרבה יותר אינפורמטיבית ומדוייקת‪ .‬בצורה זו כל המוח והמערכת הקוגנטיבית‬
‫עבר למצב של הסתמכות על ראייה במקום על ריח‪ .‬הצבעים הם קרינה אלקטרומגנטית בתדרים שונים –‬
‫בטווח האור הנראה לנו‪.‬‬
‫עצים גנטיים ועצים של מינים‬
‫עצים גנטיים ועצים של מינים יכולים להיות במקרים‬
‫מסויימים אותו הדבר – כמו העץ שבנה ווז על בסיס‬
‫‪ ;rRNA‬אבל זה לא תמיד נכון‪ ,‬בין אם כי הגן לא‬
‫מתאים ובין אם כי הסיגנל לא מפורש נכונה‪ .‬משום‬
‫כך יש להשתמש בעצים גנטיים של גנים רבים‬
‫ולמצע בין העצים השונים על מנת למצוא את העץ‬
‫ההגיוני ביותר בין כולם‪.‬‬
‫במחשב מציגים עצים במחרוזת‪ ,‬כאשר מה שחשוב‬
‫למחשב כדי להבין את העץ הוא הסוגריים‪ :‬ברגע‬
‫שכמה עלים נמצאים יחד בתוך סוגריים המחשב יודע‬
‫שהם בעלי אותו אב משותף‪ .‬יכולים להיות‬
‫אלגוריתמים שכוללים גם אורכי ענפים‪ .‬האלגוריתם‬
‫הזה מכונה ‪.Newick Format‬‬
‫דוגמה‬
‫בדוגמה משמאל מופיעים אצה ירוקה‪ ,‬אצה אדומה‬
‫וטחב‪ .‬לטחב ואצה ירוקה יש אב משותף פחות קדום‬
‫מהאב המשותף של אצה ירוקה ואצה אדומה‪ .‬מכאן‬
‫שהמרחק האבולוציוני בין אצה ירוקה לטחב קרוב‬
‫יותר מאשר לאצה אדומה‪.‬‬
‫באופן דומה ניתן לומר שהקירבה האבולוציונית של אצה ירוקה מטחב היא אותה קירבה שיש לו לאורן –‬
‫משום שחוזרים עד לאותו אב משותף בשביל להגיע מאצה ירוקה לכל אחד מהמינים האלה‪.‬‬
‫מחפשים את האב הקדמון הקרוב ביותר בין שני המינים ובודקים מי האב הקדמון הקרוב ביותר בין‬
‫זוג מסויים‪ .‬זוג זה יהיה הזוג בעל הקירבה האבולוציונית הגדולה ביותר‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫‪/‬שיעור ‪ :08‬בניית עצים – המשך‬
‫‪45‬‬
‫שיעור ‪ :08‬בניית עצים – המשך‬
‫ככל שמספר הרצפים שעל פיהם בונים את העץ גדול‬
‫יותר‪ ,‬גדל מספר העצים שניתן לבנות בתהליך‬
‫שנקרא ‪ ,Combinational Explosion‬בצורה‬
‫מאוד אלימה‪ .‬המונח ‪OTU=Operational Tree‬‬
‫‪ Unit‬הוא מספר העלים בעץ – היחידה המציאותית‬
‫שאינה היפוטתית‪.‬‬
‫נשאלת השאלה – כמה עצים אפשריים שונים יש‬
‫כאשר לוקחים בחשבון ‪ 70‬מינים )‪ ?(OTU‬יש‬
‫להתחשב רק ביחסים בין המינים‪ ,‬בטופולוגיה‪ ,‬ולא מנסים עדיין להבין את אורכי הענפים המעידים על‬
‫המרחקים הגנטיים בין המינים‪ .‬כאשר ‪ ,OTU=70‬קיימים ‪ 7*10117‬עצים אפשריים‪ .9‬מכאן שנדרשת‬
‫שיטה אחרת‪ :‬אפשרות אחת היא להימנע מלסרוק כל כך הרבה מינים; אפשרות שנייה היא להימנע‬
‫מלסרוק את כל העצים האפשריים בעזרת אלגוריתם מסנן מתחכם‪ .‬ישנן למעשה שתי שיטות‪:‬‬
‫•‬
‫לתרגם את נתוני הרצפים למטריצת מרחקים )‪ – (Distance‬במצב כזה לא לוקחים את כל‬
‫ההבדלים בין שני רצפים אלא מספר אחד שמייצג את המרחק ביניהם‪ .‬בעזרת המטריצה של‬
‫המרחקים בונים עץ‪.‬‬
‫•‬
‫הסתכלות על הרצף והמאפיינים שלו )‪ .(Character‬בשיטה זו מחפשים את העץ האופטימלי‬
‫לאבולוציה לאחר הערכה של כל העצים האפשריים‪.‬‬
‫‪Distance-Based Method‬‬
‫בונים מטריצה של רצפים ומאפיין כלשהו‪.‬‬
‫ממירים את הנתונים למטריצת מרחקים ועל סמך‬
‫המטריצה בונים את העץ‪ .‬המטריצה מיוצגת‬
‫כמשולש משום שהיא סימטרית‪ :‬המרחק בין ‪A‬‬
‫ל‪ B-‬שווה למרחק בין ‪ B‬ל‪ .A-‬כל האינפורמציה‬
‫נמצאת בחצי מטריצה‪.‬‬
‫כעת עולות שתי שאלות‪ :‬מה יהיה הקריטריון הראשון על פיו תיכתב‬
‫המטריצה‪ ,‬ומה יהיה הקריטריון השני על מנת לבנות את העץ? המרחק‬
‫בטבלה בין שתי נקודות צריך להיות ריבוע של יחס השינויים‪ ,‬אשר‬
‫מורכב על ידי ספירת מספר השינויים וחלוקת באורך הרצף‪.‬‬
‫‪ 9‬לצורך השוואה ההנחה גורסת שמספר האטומים ביקום הנראה הם ‪ ,1080‬כלומר גם אם כל האטומים ביקום היו מחשבים‬
‫שעובדים על הבעיה הזו הם עדיין לא היו מצליחים לעבור על פני כל העצים מתחילת היקום ועד היום‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫‪46‬‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪UPGMA = un-weighted pair group method with arithmetic mean‬‬
‫זה הפרוטוקול לבניית העץ הפילוגנטי על בסיס מטריצה‪ .‬יש להתחיל מבחירת המספר הקטן ביותר‪ .‬כאשר‬
‫מוצאים אותו‪ ,‬מחברים בין שני המינים האלה‪ .‬שימו לב שההנחה היא שהמרחקים הם שווים – כלומר אם‬
‫המרחק בין דב לדביבון הוא ‪ 0.26‬אורך כל ענף הוא ‪.0.13‬‬
‫ברגע ששני מינים אוחדו עוברים לטבלה עם אורגניזם היפוטתי – אב קדמון של דב ודביבון – ומחשבים‬
‫את המרחק בין בין אב היפוטתי זה לחיה הבאה‪ .‬ההנחה היא שהמרחק הזה הוא המרחק הממוצע בין החיה‬
‫הבאה – כלב ים – לדב ולדביבון‪.‬‬
‫לאחר חישוב המרחקים החדשים מקבלים טבלה מצומצמת יותר‪ .‬הטבלה הולכת ומצטמצמת על ידי‬
‫האורגניזמים ההיפוטתיים ש"מוצאים" בתור האבות המשותפים של אורגניזמים קרובים‪ .‬כל פעם‬
‫מחשבים את המרחק מחדש עד שמסיימים את המטריצה‪.‬‬
‫מבחינה ביולוגית קשה להתיחס לכל השינויים אותו הדבר; לא ניתן להתייחס להחלפה של נוקליאוטיד בודד‬
‫באותו האופן כמו למחיקה של נוקליאוטיד – שיכולה לגרום לשינוי מסגרת הקריאה‪ .‬בהמשך נדגים כיצד‬
‫משקללים את הדברים ומתייחסים אליהם‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫‪/‬שיעור ‪ :08‬בניית עצים – המשך‬
‫‪47‬‬
‫חסרונות השיטה‬
‫השיטה הזו אינה נפוצה בשימוש למרות שהיא מאוד מהירה; הסיבה לכך היא שהשיטה נשענת על ההנחה‬
‫שקצב האבולוציה שווה לאורך כל העץ וענפיו‪ .‬כשבוחרים שורש של עץ‪ ,‬משתמשים בקבוצה חיצונית או‬
‫מניחים שקיים שעון מולקולארי; מהסיבה הזו העץ יוצא משורש אבל זו סיבה גסה יחסית‪.‬‬
‫‪Neighbor-Joining – Based on Star Decomposition‬‬
‫במקרה הזה‪ ,‬במקום לבנות מטריצת מרחקים פשוטה לוקחים מטריצת ‪ ,Q-Matrix‬המתייחסת למה קורה‬
‫לכל הענפים על ידי איחוד בין שני ענפים‪ .‬זה מאוד דומה ל‪ ,UPGMA-‬אבל ה‪ Q-Matrix-‬מעלה מצב בו‬
‫סך כל הענפים בכל שלב הוא אורך מינימלי‪ .‬זוהי שיטה לבניית עץ שסך אורכי ענפיו הוא מינימלי‪.‬‬
‫כאן אין מניחים קצב אבולוציה שווה או שעון מולקולארי‪ ,‬אבל לא מקבלים עץ משורש‪ .‬גם בשיטה הזו‬
‫עדיין לא נפתרה הבעיה שצריך לקחת בחשבון את המודל האבולוציוני או הביולוגי‪.‬‬
‫אין צורך להכיר את כל הפרטים הטכניים אבל‬
‫יש לזכור ששיטה זו היא מהירה יחסית‪.‬‬
‫‪Character-Based Methods‬‬
‫השיטה הזו מתייחסת למאפיינים שאינם בהכרח‬
‫גנטיים – אלו יכולים להיות גם מאפיינים‬
‫פיזיולוגיים‪ ,‬למשל די‪-‬פדאליזם‪ ,‬הליכה על שתי‬
‫רגליים‪ .‬אפשר לקחת מאפיינים של תכונות‬
‫מורפולוגיות‬
‫ופיזיולוגיות‪,‬‬
‫להמיר‬
‫אותם‬
‫לאלגוריתם בינארי שמצמצם את האפשרויות‬
‫וליצור מטריצה‪.‬‬
‫עקרון החסכנות – ‪Maximal Parsimony‬‬
‫לפי עקרון זה‪ ,‬העץ שדורש הכי פחות שינויים יהיה העץ המועדף‪ .‬הציון הניתן לטופולוגיה המתקבלת‬
‫בעץ צריך להתבסס על עקרון זה‪ .‬השיטה מתחילה בסריקת העצים האפשריים וחיפוש העץ בעל הציון‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪48‬‬
‫הטוב ביותר‪ .‬זאת לעומת שיטות אחרות‪ ,‬שבהן אין למעשה השוואה של העץ המתקבל לעצים‬
‫אפשריים אחרים‪ .10‬השיטה הזו מהירה מאוד; היא כוללת את בעיית החיפוש במרחב העצים ומשום שאי‬
‫אפשר לסרוק את כולם יכול להיות שהציון המיטבי יהיה לוקאלי ולא גלובאלי‪.‬‬
‫הציון של החסכנות שניתן לעץ חוזר‬
‫לטבלה של המאפיינים‪ ,‬אבל יש לזכור כי‬
‫התקבלה טופולוגיה מסויימת של העץ‪.‬‬
‫הציון ניתן על פי טבלה הנוכחות‪/‬היעדרות‬
‫של הגן הראשון‪ ,‬כאשר בודקים כמה‬
‫מוטציות היו צריכות להיעשות בעץ על‬
‫מנת לקיים את פורמט הנוכחות‪/‬היעדרות‬
‫הזו לפי ציונים של ‪) 1‬קיים( או ‪0‬‬
‫)נעדר(‪.‬‬
‫שיטת החסכנות נותנת ציון בהינתן טופולוגיה של העץ‪.‬‬
‫ניתן להמשיך כך עבור כל אחד מהגנים או‬
‫המאפיינים הנבחנים על פני אותו העץ ולשקלל ציון‬
‫כולל של כל הגנים עבור העץ‪ .‬לאחר שעוברים על‬
‫כל גן בנפרד סוכמים את הציונים וזה הציון הכולל‬
‫של העץ )ראו שקופיות ‪.(20-31‬‬
‫כעת נשאלת השאלה האם זה המספר המינימלי‬
‫שהיינו יכולים לקבל? האלגוריתם מאפשר שיטוט‬
‫בין העצים ומתן ציון לכל עץ על מנת לאתר את‬
‫הציון המינימלי‪ .‬האלגוריתם המתוחכם יותר מאפשר‬
‫למצוא את הנקודה המינימלית ביתר קלות‪.‬‬
‫השיטה החסכנית דורשת חישוב הציון לכל אחת מהעמדות בנפרד‪ .‬ציון החסכנות ניתן על ידי סכימת הציון‬
‫לכל גן בנפרד‪ .‬חישוב הציון המינימלי יכול להיות בעמדה אחת ולפי נוכחות‪/‬העדרות אבל הוא יכול‬
‫להיעשות גם לפי חומצות אמינו‪ .‬זהות ברצף אינה עוזרת במציאת מידת שינויים שנעשו‪ ,‬אבל אם יש‬
‫חומצות אמינו שונות תתקבל מידת השינויים שקרו לאורך העץ‪.‬‬
‫אם המאפיין בין שני ענפים אינו זהה יש‬
‫לבצע איחוד )‪ .(U‬במאפיינים משותפים‬
‫יש לבצע חיתוך )∩(‪ .‬מספר השינויים‬
‫הסופי שווה למספר פעולות האיחוד‬
‫שנדרשו עד השורש‪ .‬כאשר סוכמים‬
‫‪ 10‬זיכרו כי אין אפשרות לסרוק את כל העצים‪ ,‬כי הם עצומים‪ ,‬ולכן מחפשים איזושהי השוואה חכמה כלשהי‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫‪/‬שיעור ‪ :08‬בניית עצים – המשך‬
‫‪49‬‬
‫אותן עבור כל העמדות‪ ,‬מתקבל ציון החסכנות של כל העץ‪.‬‬
‫בעיית שינויים נסתרים או מרובים‬
‫כאשר בוחנים את המידע הקיים ברמת העלים‪,‬‬
‫סופרים שינויים או מרחק אבל הרבה פעמים המרחק‬
‫הזה קטן בהרבה מהמרחק האבולוציוני – או מספר‬
‫השינויים שהיו בפועל‪ .‬אם למשל יש שני אורגניזמים עם אב משותף‪ ,‬ולשניהם יש ‪ ,A‬שיטת החסכנות‬
‫אומרת שהאב הקדמון יהיה ‪ ;A‬אולם יש הסתברות שהוא יהיה גם משהו אחר‪ ,‬למשל ‪ .G‬כמו כן גם אם‬
‫חייב להיות שינוי – לא ידוע אם השינוי היה יחיד או יותר מכך‪.‬‬
‫האיור הבא מציג רצף שהיו בו‪ ,‬היסטורית‪ 12 ,‬התמרות אבל בפועל רואים רק שלוש‪ .‬הוא מציג מספר‬
‫סוגי שינויים שלא ניתן לספור כלל או כראוי‪ :‬בין שאלו שינויים מקבילים‪ ,‬מספר שינויים באותה עמדה‬
‫שנראים כמו שינוי אחד‪ ,‬רברסיות שהן שני שינויים שכלל לא נראים – כתוצאה מכל אלו מתקבל מספר‬
‫שינויים גדול יותר מכפי שניתן לראות או להעריך‪.‬‬
‫הפתרון הוא מודל אבולוציוני שיכול להתחשב בשינויים הנסתרים‪ .‬הגרף מתאר את אחוז השינויים‬
‫כפונקציה של המרחק הגנטי‪ .‬בשיטת החסכנות‪ ,‬הגרף המתקבל היה לינארי; אולם כעת הגרף נראה כעקום‬
‫רווייה – המרחקים הגנטיים הולכים וגדלים בין עשרות אחוזים באופן יחסי‪ ,‬כי יש להניח שכמות‬
‫השינויים הנסתרים הולכת ועולה ככל שמספר השינויים הנראים הולך וגדל‪.‬‬
‫ככל שהענף קצר יותר‪ ,‬על כל שינוי יש קירוב של‬
‫יחידת מרחק; ככל שהענף גדל ה"מס" על שינויים‬
‫נסתרים הולך וגדל גם כן‪ .‬המודלים האבולוציונים‬
‫מתבססים על שיטה הסתברותית המתייחסת לרצף‪,‬‬
‫לעץ שמתאר את היחסים בין המינים ומטריצה‬
‫שמתארת את השינויים הנראים בפועל‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪50‬‬
‫מתוך המטריצה ניתן לגזור את ציון העץ ואורכי הענפים ולהבין מה קרה בערך מבחינת האבולוציה;‬
‫השיטה של המודלים עוזרת להבין גם את הנסתר לצד הנראה‪.‬‬
‫‪Maximum Likelihood‬‬
‫בשיטה זו מחשבים את הסיכוי שמשהו יקרה בהתבסס על נתוני העבר – בהתאם להבדל שבין ההגדרות‬
‫‪ probability‬לעומת ‪ .likelihood‬זהו חישוב של ניראות – כאשר המודל מתחשב בחוסר ההגינות‬
‫הסטטיסטית בה פועלות המערכות הביולוגיות‪ .‬ה‪ ,maximum likelihood estimate-‬היכולת להעריך‬
‫מודל ביחס לתצפיות‪ ,‬הוא התוצאה של הניראות‪.‬‬
‫ככל שמספר התצפיות גדול יותר היכולת‬
‫לסמוך על ההשערה הולכת וגדלה‪ .‬ככל‬
‫שהשונות מצטמצמת‪ ,‬גם אם הערך‬
‫שהתקבל עבור ‪maximu likelihood‬‬
‫‪ estimate‬זהה לערך שבשונות רחבה‬
‫יותר‪ ,‬אפשר לבטוח יותר בתוצאה כאשר‬
‫היא מתקבלת בגרף עם השונות הצרה‪.‬‬
‫השיטה מרכיבה מודל אבולוציוני שמתאים לסיכויי המעבר‪ .‬המודל הראשון מייחס סיכוי שווה לכל‬
‫נוקליאוטיד להתחלף באחר‪ ,‬אולם הניראות מבוססת כבר על תצפיות בנוגע להתחלפות הזו כך שהמודל‬
‫השני יתייחס לכך כמודל מורכב שמבחין בין טרנזיציה לטרנסברסיה – מעבר מפורין לפורין לעומת מעבר‬
‫מפורין לפירמידין )למשל(‪ .‬בצורה כזו המודל כבר‬
‫יותר מתקדם כי הוא מסביר יותר טוב את הנתונים‪.‬‬
‫הטבלה משווה את שתי השיטות – החסכנות‬
‫והניראות המקסימלית‪ .‬נראה שיש יחסי גומלין בין‬
‫השיטות – החסכנות נותנת תשובות מהירות בעוד‬
‫שבמודלים מתחשבים גם בביולוגיה של התהליכים‪.‬‬
‫תהליכי בניית העץ‬
‫כאשר נותנים ציון לעץ מסויים‪ ,‬יש לזכור כי קיים מרחב עצים עצום שלא ניתן לראות או לחשב‪ .‬לפיכך‬
‫יש לבצע ניחושים מושכלים‪ ,‬תיכנות דינאמי ואלגוריתמים חמדניים השואפים תמיד לחפש גבוה יותר‬
‫ולטפס נכון יותר בתוך המרחב‪ .‬הבעיה של הביואינפורמטיקאים‪ :‬נקודות מקסימום לוקאליות‪ .‬אחד‬
‫הפתרונות המקובלים הוא להתחיל מכמה נקודות אקראיות במרחב – במקום להתחיל בנקודה אחת ואז‬
‫להסתכן בכך שהיא תגיע למקסימום לוקאלי‪.‬‬
‫שימו לב שעובדה זו נכונה גם עבור שיטת המודלים והניראות המקסימלית וגם עבור שיטת החסכנות‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫‪/‬שיעור ‪ :08‬בניית עצים – המשך‬
‫‪51‬‬
‫‪Bootstraping‬‬
‫עם קבלת עץ אפשרי חובה להבין מהי מידת האמינות שלו‪ .‬הבעיה‪ :‬אין אמצעי חיצוני לחלוטין להערכה זו‬
‫)דוגמה לשימוש באמצעי חיצוני היא בניית העץ לפי דאטה רצפי מסויים והשוואתו לעץ ידוע אחר(‪ .‬לשם‬
‫כך קיים ה‪.Bootstraping-‬‬
‫בתהליך זה בודקים עד כמה כל עמדה נפרדת שהיה בה שינוי מסכימה עם הסיפור האבולוציוני המסופר‬
‫על ידי העץ‪ .‬יש לבדוק כמה מתוך כלל העמדות מסכימות עם הטופולוגיה ועד כמה מידת ההסכמה הזו‬
‫מחזקת את אמיתות העץ מבחינה סטטיסטית‪.‬‬
‫בשלב הראשון דוגמים קבוצות אקראיות של עמדות ובודקים אותן‪ .‬בשלב השני בונים עצים לפי ה‪-‬‬
‫‪ dataset‬המלאכותי שהורכב באקראי‪ .‬כעת משווים את העצים האלה לעץ הנבדק‪ .‬כל אחד מהפיצולים‬
‫מייצג את אחוז מערכי הנתונים השונים שקיבלו את אותו הפיצול‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪52‬‬
‫שיעור ‪ :09‬בניית עצים‬
‫ניתן לחלק את סך השיטות לייצור עצים לשיטות שמבוססות על מרחקים )‪ (Distance‬ומאפיינים‬
‫)‪.(Character‬‬
‫•‬
‫השיטות מבוססות‪-‬המרחק מהירות מאוד‪ ,‬בונות עצים ממשיים‪ ,‬ועושות חישוב מינימלי ביותר‬
‫)‪ (UPGMA‬או מיזעור סך אורכי הענפים בהינתן ששני ענפים חוברו )‪.(NJ‬‬
‫•‬
‫שיטות מבוססות‪-‬מאפיינים מונחות על ידי ההסבר המינימלי ביותר )‪ (MP‬בקביעת מינימום אירועים‬
‫אפשריים‪ ,‬או בשיטות שיותר מקורבות להסברים הביולוגיים )‪ (ML‬הנותנות‪ ,‬על ידי מודל‬
‫הסתברותי‪ ,‬הערכה כמותית של תופעות שונות באבולוציה‪.‬‬
‫חיפוש במרחב העצים‬
‫כשמסתכלים על כלל מרחב העצים‪ ,‬תוך שיטוט במרחב רב‪-‬מימדי של עצים וחיפוש אחר נקודת‬
‫מקסימום‪ ,‬מה משמעות המעבר מנקודה לנקודה? כל נקודה היא למעשה הציון – בין אם על ידי ‪ MP‬או‬
‫‪ .ML‬המשטח הוא אפשרויות שונות‪,‬‬
‫עצים שונים‪ ,‬והמעבר בין שתי נקודות‬
‫סמוכות הוא השוואה בין שני עצים‬
‫שדומים בטופולוגיה שלהם וכעת משווים‬
‫בין ה"גובה" של הנקודות – כלומר‬
‫הציון של כל אחד משני העצים‪.‬‬
‫ההבדל ‪ p‬והמרחק הגנטי ‪K‬‬
‫מודלים הסתברותיים המבוססים על ניראות יכולים במידה מסויימת להתחשב בשינויים חבויים – דוגמת‬
‫מוטציה ורברסיה‪ .‬המודלים האלה מתחשבים באחוז ההבדל בין שני הרצפים ונותנים לו את המרחק‬
‫שיכול להיות בין המינים‪ ,‬בהתחשב בשינויים הנסתרים‪ .‬כאן המרחק אינו גדל לינארית עם ההבדלים‬
‫משום שככל שיש יותר הבדלים יש סבירות לכמות הולכת וגדולה של שינויים חבויים‪ .‬ההבדלים גדלים‬
‫פרבולית כפונקציה של המרחק הגנטי‪ .‬כשמספר השינויים עולה על ‪ 25%‬כבר אין יכולת לקבוע את‬
‫המרחק בצורה אמינה‪.‬‬
‫בבחינת עקרון החסכנות המתייחס לזהות‬
‫או שונות ב‪ 0-‬ו‪ ,1-‬יכולים להיות‬
‫אירועים שבהם מוטציה אחת בין שני‬
‫עצים תראה זהה‪ ,‬אולם פעם אחת זו‬
‫תהיה מוטציה חיובית )‪ (gain‬ופעם אחרת היא מוטציה שלילית )‪ .(loss‬שיטת החסכנות כשלעצמה אינה‬
‫יכולה לקבוע איזו מוטציה עדיפה‪ ,‬אולם שיטת ה‪ ML-‬יכולה למצוא הערכת ‪ ML‬לקצב של ה‪gain-‬‬
‫ולקצב של ה‪ .loss-‬בהתאם לקצב ניתן לקבוע איזה תסריט אבולוציוני הוא הסביר ביותר‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :09‬בניית עצים‬
‫‪53‬‬
‫‪Bootstrap‬‬
‫תהליך זה עוזר להעריך את אמינות העץ שלא על‬
‫סמך קריטרון חיצוני אלא על ידי "הסכמה" של‬
‫הנתונים עם עצמם‪.‬‬
‫בשיטה זו לוקחים את מערך הנתונים המעומד‬
‫המקורי ומשתמשים בעמדות אקראיות מתוכו –‬
‫לפעמים אפילו כמה פעמים באותה עמדה – על מנת‬
‫לבדוק כמה מהעצים שנוצרים באופן כזה יהיו עדיין‬
‫עצים שמסכימים עם הפיצולים שהיו בעץ המקורי‪.‬‬
‫שימו לב שהדגימה אקראית לחלוטין אבל מתוך‬
‫עמדות אמיתיות – מתוך אותו מאגר עמדות‬
‫שבעזרתו נבנה העץ המקורי‪.‬‬
‫גנומיקה משווה‬
‫תחום זה הינו אולי החשוב ביותר בקהילה‬
‫הביולוגית – בין אם בשימוש ישיר או לא‪ .‬בסופו של דבר הביולוגיה היא מעין ‪Reverse Engineering‬‬
‫– נסיון להבין איך האורגניזם עובד‪ ,‬הנסיון להבין את הפונקציה ויחסי הגומלין של גנים שונים‪ .‬אולם יש‬
‫לזכור כי המהנדס של המערכות הביולוגיות הוא הברירה הטבעית – שמעדיפה את האורגניזמים‬
‫שמעמידים יותר צאצאים‪.‬‬
‫עובדה זו מצווה שמבחינת המורכבות המערכות הביולוגיות מורכבות יותר – הוכחה לכך היא בביולוגיה‬
‫המולקולארית אשר ככל שהיא מתקדמת וחושפת עוד טפח מתברר שעדיין מוסתרים טפחיים – היום‬
‫יודעים יותר וגם יודעים כמההתמונה השלמה מורכבת הרבה יותר מהגלוי‪ .‬ניתן ממש להפעיל זאת‬
‫כקריטריון‪ :‬מידת המורכבות של אובייקט יכולה ללמד אם המהנדס היה אינטילגנטי )"‪ ("Robot‬ויצר‬
‫עיצוב מודולארי‪ ,‬בעל מודולים וקבוצות של אופרטורים שמבצעים פעולות יחד; או אם המהנדס היה‬
‫ביולוגי‪ ,‬שיצר "‪ "UFO‬מורכב מאוד‪.‬‬
‫זוהי הסיבה לקושי הגדול של ביצוע ה‪ Reverse Engineering-‬בביולוגיה‪ .‬היתרון של ביולוגים הוא‬
‫שכשהם חוקרים אורגניזם מסויים ניתן להקיש ממנו על הרבה מאוד אורגניזמים אחרים בפלנטה – שכן‬
‫לכולם אב קדמון משותף‪ .‬כך למשל על מנת להבין את הביולוגיה של האדם אין חובה לבצע מחקר‬
‫ישירות באדם – ניתן להשתמש במודל כמו ‪,E.coli‬‬
‫שמרים‪ ,‬תולעים‪ ,‬דרוזופילות ועכברים – שבהם‬
‫מקישים‬
‫הרבה‬
‫מאוד‬
‫דברים‬
‫גם‬
‫מבחינות‬
‫התנהגותיות ולא רק גנטיות‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪54‬‬
‫בפילוגנזה‪ ,‬כדי להבין איך נראית‬
‫האבולוציה‪ ,‬לא בודקים רק את ה‪-‬‬
‫‪sequence alignment‬‬
‫‪,multiple‬‬
‫אלא גם מה קצב האבולוציה שהתרחשה‬
‫באותה עמדה‪ ,‬האם העמדה שמורה או‬
‫לא‪ ,‬וגו‪ .‬זה מידע שניתן לקבל רק‬
‫כשמתחשבים בסדר הסופי של העץ‪.‬‬
‫בתחום‬
‫האבולוציה‬
‫המולקולארית‪,‬‬
‫הרלוונטי גם לחוקרי הבילוגיה המולקולארית באופן כללי‪ ,‬חשוב להבין את לחצי הסלקציה הפועלים‬
‫באיזורים שונים בגנום ועל הלחצים הפועלים על גן במיקום ספציפי‪.‬‬
‫שיטות להערכות צפי‬
‫היכולת להבין כיצד בדיקה מסויימת עשויה להיות נכונה או שגויה וסוג הטעויות האפשריות בבדיקה‬
‫ספציפית היא אספקט חשוב מאוד בביולוגיה‪ .‬נניח בדיקה של נשאות ל‪ :HIV-‬ישנה תוצאה חיובית או‬
‫שלילית וישנה תוצאת אמת או שקר – דבר המחלק‬
‫את התוצאות לארבע לפי החלוקה הבאה‪:‬‬
‫הבדיקה יכולה להיות צודקת בשני מיקרים‪ :‬במקרה‬
‫שבו היא נותנת תוצאה חיובית לנשא ובמקרה בו‬
‫היא נותנת תוצאה שלילית לאדם בריא‪ .‬באותה‬
‫מידה‪ ,‬הבדיקה יכולה לטעות בשני מקרים‪ :‬לתת‬
‫תוצאה חיובית לאדם בריא )טעות מסוג ‪ (1‬או לתת‬
‫תוצאה שלילית לנשא )טעות מסוג ‪.(2‬‬
‫כל בדיקה‪ ,‬חישובית או ניסויית‪ ,‬שצריכה לתת‬
‫תשובה בינארית – כן או לא‪ ,‬הצלחה או כשלון –‬
‫ניתן לבנות בצורה סקפטית מאוד‪ ,‬שבה רק אם הממצאים מראים בוודאות שהאדם הוא נשא‪ ,‬היא תגיד‬
‫שהוא אכן נשא; מצד שני אפשר לעשות בדיקה מתירנית – שאחוז גדול יחסית מהמקרים היא מגדירה‬
‫כנשא‪ .‬בכל אחד מהמקרים הקיצוניים )תמיד תיתן תשובה שלילית או תמיד תיתן תשובה חיובית(‬
‫מנוטרלת אחת מהשגיאות האפשריות‪.‬‬
‫נניח שמבצעים בדיקת ‪ BLAST‬ומעלים את ערך ה‪ – E-Value-‬כתוצאה מכך גנים הומולוגים ייתפסו‬
‫ביתר קלות אולם במקביל גם התוצאות ה‪ False Positive-‬יעלו‪ .‬הורדה של ה‪ E-Value-‬תוריד את‬
‫הסיכוי לטעות מסוג ‪,2‬אבל גם את הסיכוי למצוא‬
‫באופן אמין את ה‪.True Negative-‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :09‬בניית עצים‬
‫‪55‬‬
‫אבולוציה אדאפטיבית )דארוויניסטית(‬
‫יש למצוא איזורים בגנום שעברו אבולוציה‬
‫דרוויניסטית – בין אם אבולוציה חיובית או‬
‫שלילית‪ .‬ידועים מקרים של שינוי במאגר הגנים‬
‫עקב לחץ סלקטיבי לשינוי – דוגמת המלאניזם‬
‫התעשייתי של העש בבריטניה‪ ,‬כאשר העשן דחף‬
‫ליצירה של השינוי באוכלוסיה‪.‬‬
‫אבולוציה מטהרת )שמורה(‬
‫דבר שכיח במקטעים פונקציונאלים בגנום הוא‬
‫‪ ,purifying selection‬אשר בה היה לחץ סלקטיבי‬
‫חזק מאוד למניעת שינויים‪ .‬דוגמה לכך היא משקל‬
‫ילודים בלידה‪.‬‬
‫איזורים אלו נשמרים על ידי האבולוציה על מנת‬
‫שלא יישתנו – וכל שינוי באיזורים אלו במרבית‬
‫המקרים יזיק ל‪ fitness-‬ולא יעלה אותו‪.‬‬
‫תיאוריית האבולוציה הנייטרלית‬
‫כ‪ 90%-‬הגנום‪ ,‬ככל הנראה‪ ,‬אינו גנום פונקציונאלי‪ .‬משמעות הדבר היא שאיזורים אלו אינם משפיעים‬
‫ישירות על ה‪ fitness-‬של האורגניזם‪ .‬כתוצאה יש באיזורים אלו וריאביליות ופולימורפיזם‪ ,‬והסיכוי‬
‫לקיבוע של אלל מסויים באוכלוסיה נתון על ידי סיכוי לתופעות ה‪ .random drift-‬היום ידוע שבאופן‬
‫גורף‪ ,‬תיאוריה זו נכונה – מרבית הגנום עובר אבולוציה תחת משטר אבולוציה נייטרלית‪ ,‬מאירועים‬
‫אקראים וללא שינוי ה‪.fitness-‬‬
‫איתור נאיבי‬
‫הגישה לאיתור אתרי סלקציה על סמך איזורים שמורים בלבד היא גישה נאיבית‪ ,‬בעיקר בהתחשב בכך‬
‫שרוב האיזורים עוברים שינויים באקראי; אומנם ניתן לזהות איזורים של אבולוציה מטהרת כאיזורים‬
‫שמורים מאוד‪ ,‬אולם אם איזור לא שמור אין זה אומר שהייתה שם אבולוציה אדאפטיבית‪ ,‬כי זה לא‬
‫מספיק; במצב זה הנחת האפס תהיה דווקא שהאיזור אינו פונקציונאלי והאבולוציה היא נייטרלית‪.‬‬
‫אם כן‪ ,‬איך מוצאים איזורים שהשתנו לא בשל חוסר חשיבות אלא ההיפך? לשם כך יש לחפש איזורים‬
‫שעברו שינויים תוך שימוש בתכונת ה‪ Redundancy-‬של הקודונים‪ .‬תופעה זו מאפשרת להפריד בין שני‬
‫סוגי התמרות ברמת הקודונים‪:‬‬
‫•‬
‫‪ – Synnonymous‬שינוי בקודון שומר על אותה חומצת אמינו‪ ,‬אין שינוי בחלבון‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪56‬‬
‫•‬
‫‪ – Non-Synonymous‬השינוי בקודון משנה את חומצת האמינו ולכן את החלבון‪.‬‬
‫קצב השינויים הסינונימים‪ ,‬היות ואינם גורמים לשינוי‪ ,‬יהיו הקצב הבסיסי של החלופה באותו איזור גנומי‬
‫)ביקורת(‪ .‬כעת ניתן להשוות את השינויים הלא‪-‬סינונימים האחרים‪ :‬אם הקצבים שווים‪ ,‬הרי שזוהי‬
‫אבולוציה נייטרלית; אם השינויים הסינונימיים‬
‫רבים‬
‫מהשינויים‬
‫הלא‪-‬סינונימיים‬
‫זהו‬
‫מצב‬
‫אבולוציה מטהרת )נוגדת שינויים(‪ ,‬ואם השינויים‬
‫הסינונימים נדירים יותר מהשינויים הלא‪-‬סינונימים‬
‫זה אירוע שעשוי להיות אדאפטיבי ונגרם‬
‫בשכיחות‬
‫גבוהה‬
‫עקב‬
‫לחצים‬
‫סלקטיביים‬
‫חיצוניים‪.‬‬
‫במקטעים שאינם מקודדים לחלבונים עדיין מנסים למצוא רקע מסויים – כמו שנעשה בעזרת הסינונימים‬
‫– והיום התחום מתקדם אך נתון למחלוקת‪.‬פתרון אחד הוא מציאת איזורים מקודדים באותו איזור בגנום‬
‫ואז ביצוע הערכה בצורה יחסית של מידת השינויים הצפויה גם לאיזור הסמוך שאינו מקודד‪.‬‬
‫שימו לב‪ :‬באלגוריתמים מתקדמים‪ ,‬הסינונימים אינם לוקחים בחשבון רק החלפה ברמת הקודון אלא גם‬
‫חומצות אמינו דומות או שונות )גם אם הוחלפו חומצות האמינו‪ ,‬אין זה אומר שהשינוי ישפיע על המבנה‬
‫והפונקציונאליות של החלבון( ותפקידן בחלבון )אתר פעיל או לא‪ ,‬למשל(‪.‬‬
‫דוגמאות‬
‫בדוגמה הבאה מציגה את מירוץ החימוש שבין וירוס‬
‫ה‪ HIV-‬לבין גוף המאחסן‪ .‬הנגיף עובר אבולוציה‬
‫מהירה מאוד‪ ,‬כאשר הסלקציה האדאפטיבית של‬
‫הנגיף מוגברת על ידי קוקטייל התרופות שמקבל‬
‫הנשא‪.‬‬
‫אחד מהחלבונים החשובים לאנזים הוא פרוטאזה‬
‫שמבקעת את החלבונים שלו‪ .‬הקוקטייל שמקבל הנשא מכיל תרופה נגד הפרוטאזה‪ ,‬וכעת נוצר לחץ‬
‫סלקטיבי לשינוי על גן הפרוטאזה‪ .‬בצורה כזו ניתן להשוות בין עמדות שונות ולראות אילו איזורים עברו‬
‫ברירה חיובית כתוצאה מהטיפול התרופתי ואילו עברו ברירה מטהרת‪.‬‬
‫יש דרכים שונות לזהות לחצים לסלקציה חיובית‪:‬‬
‫•‬
‫חלבונים המערבים את המערכת החיסונית – קשורים במרוץ החימוש בין הוירוס למערכת‬
‫החיסונית והתרופות שאנו נותנים למטופל‪.‬‬
‫•‬
‫חלבונים הקשורים לאינטראקציות בין הפתוגן והמארח‪.‬‬
‫•‬
‫חלבונים הקשורים בדופליקציות גנטיות‪.‬‬
‫•‬
‫חלבונים המעורבים במערכות הרבייה או השכפול של האורגניזמים‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :09‬בניית עצים‬
‫‪57‬‬
‫אחד הגנים שעוברים שינויים בסלקציה חיובית הוא הגן שקשור לפיתוח השפה‪ .‬הוא התגלה עקב משפחה‬
‫בה למספר פרטים במשפחה הייתה יכולת דיבור פגועה‪ ,‬וכשריצפו אותם מצאו את הגן המעורב בבעיה –‬
‫‪ .FOXp2‬לאחר מניפולציות סטטיסטיות התגלה שהיחס לשינויים סינונימיים ולא‪-‬סינונימיים מראה יותר‬
‫שינויים לא‪-‬סינונימיים ברמה מובהקת‪ .‬נראה שעיקר המוטציות הופיעו בקו שהוביל לבני אדם‪.‬‬
‫בהמשך עשו מחקר על הגן בעכברים‪ ,‬ובדקו את היכולת הווקלית – בעכברים עם נוק‪-‬אאוט לגן יש יכולת‬
‫ווקאלית מוחלשת; ציפורים עם פגיעה בגן לא יכולות ללמוד שירים נוספים‪ .‬משמעות הדבר היא שהגן‬
‫התחיל כרלוונטי ליכולת הווקאלית ובהמשך עבר לחץ להשתנות על מנת לפתח את השפה‪.‬‬
‫יש לציין כי הגן הזה הוא פקטור שיעתוק – כלומר הוא מבצע את הפונקציה שלו דרך גנים נוספים רבים‬
‫אחרים‪ .‬כמו כן יש לזכור שמצאו קשר כלשהו לשפה גם בבעלי חיים אחרים שאצלם הגן נמצא בהקשר‬
‫ווקאליות‪ ,‬אולם יש לקחת בחשבון שבאותה תקופה המחקר התעסק רבות באותו הגן ספציפית ובבעיות‬
‫ווקאליות; ייתכן שיש גנים אחרים‪ ,‬יותר משמעותיים‪ ,‬הקשורים בכך‪ ,‬אבל לא הצטברו עדויות בנוגע אליהם‬
‫כי ה"אלומה" לא הופנתה אליהם‪.‬‬
‫לסיכום‬
‫בעיסוק בפיצוצים קומבינטוריים‪ ,‬לא ניתן לסרוק את כולם; לא ניתן להשתמש בגישת ה‪ MP-‬כדי להעריך‬
‫את כל העצים האפשריים‪ .‬ככל שיש יותר אפשרויות יש יותר קומבינציות‪ ,‬עד אינסוף‪.‬‬
‫נניח שמחשבים את העצים עבור ‪ 85‬מינים‪ .‬לשם כך מייצרים ‪ – grid computation‬התקנת תוכנה על‬
‫מחשבים ביתיים‪ ,‬אשר כאשר המחשב אינו פעיל )במצב ‪ (Idle‬הוא יבצע חישובים עבור המערכת‪ .‬גם אם‬
‫תזומן היכולת החישובית של כל אחד מהמחשבים בעולם‪ ,‬ואפילו תוכפל באלף ונניח שהעץ נבנה על ידי‬
‫פעולה אחת בלבד )בעזרת ‪ ,(MP‬דבר שאינו נכון; עדיין כמות העצים שניתן להפיק הם ‪,10150*3.94‬‬
‫כלומר יידרשו ‪ 10120‬שנים לבצע את החישוב הזה‪.‬‬
‫למרות חוק מור‪ ,‬הקובע שקצב החישוב הולך ועולה כל הזמן‪ ,‬תמיד יימצאו בעיות קומבינטוריות שלא‬
‫ניתן לפתור‪ .‬הפתרון עודנו רחוק אולם זו לא ממש בעיה – אפשר להשתמש במדגמים ויוריסטיקה‪,‬‬
‫המאפשרים למצוא בזמן סביר פתרון מקורב‪ .‬אומנם לא מרחב העצים העצום הקיים לא נסקר במלואו‪,‬‬
‫אולם הפתרון קרוב לפתרון הודאי האופטימלי – בהתאם לדרישות‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪58‬‬
‫שיעור ‪ :10‬מיקרואראי ונתוני ביטוי גנים‬
‫המניע למחקר‬
‫צ'יפים של ‪ microarray‬יכולים להיות יחסיים ולא יחסיים ומודדים אלפי מקטעי גנים במקביל‪ .‬הכלי הזה‬
‫מאפשר מדידה של ביטוי כל הגנים בבת אחת‪ ,‬המפיק למשל פרופיל ביטוי של סוג מסויים של רקמה –‬
‫אפשר להרץ את כל ה‪ mRNA-‬מהרקמה ולראות את הביטוי‪ .‬אפשר גם לבדוק תזמון ספציפי – למשל‬
‫ביטוי ברקמה מסויימת באם ובעובר במקביל‪ .‬בדיקה נוספת היא של הגנים המתבטאים ברקמה סרטנית –‬
‫ברקמה סרטנית הרקמה היא הטרוגנית ויש לנסות לפרק את הסיגנל לסוגי התאים השונים הקיימים‪.‬‬
‫ישנן גם שאלות הרלוונטיות לביטוי השוואתי‪ :‬אם עושים ‪ knockout‬לפקטור שיעתוק‪ ,‬ניתן להשוות בין‬
‫הזן המבטא והזן הלא מבטא על מנת למצוא את הגנים המבוטאים או מבוקרים על ידי הפקטור‪ .‬כך נראה‬
‫את ההשפעה של הביטוי ‪ downstream‬בהתאם לזמן בו נבלם ביטוי הפקטור – בין חצי שעה ליומיים‬
‫אחרי ההשתקה כמות הגנים שיישתנו לרוב תהיה שונה‪.‬‬
‫אפשר גם לבדוק אילו גנים מתבטאים בזמן ערות מול שינה‪ ,‬או במוח של חולי סכיזורניה – כל אלו הן‬
‫שאלות שניתן לענות עליהן בעזרת נתוני ביטוי גנים‪.‬‬
‫האנאליזה‬
‫נניח שנערך סט ניסויים‪ .‬ניתן להשתמש במערך המיקרו‪-‬אראי כמטריצה )לאחר עיבוד הנתונים של השבב‬
‫על ידי ‪ image analysis‬וקבלת תוצאות מספריות במקום הנקודות(‪ .‬מערך הנתונים יכיל סוגים שונים‬
‫של חזרות‪:‬‬
‫•‬
‫חזרה טכנית – דגימה ביולוגית דוגמים על שני צ'יפים שונים‪ ,‬בין אם באותו יום‪ ,‬ימים אחרים‪,‬‬
‫מעבדות שונות‪ .‬חזרות אלו חשובות כיוון שהן עוזרות להתמודד עם הארטיפקטים בניסויים אלו –‬
‫יותר דגימות באיזורים מסויימים בשבב יפיקו את מידת הסטייה; יש גלאים מסויימים שיעילים יותר‬
‫מאחרים; אוזון משפיע על פירוק הצובענים; יש הרבה הטיות שקשורות למקום ולזמן הניסוי‪.‬‬
‫•‬
‫חזרה ביולוגית – לוקחים דגימות מגידול מסוג מסויים אבל מכמה חולים שונים‪.‬‬
‫פרופיל הביטוי‬
‫בטבלה הבאה מופיעות ארבע דגימות ‪ WT‬וארבע דגימות מגידול מוחי‪ ,‬ומשמונה הדגימות בדקו שלושה‬
‫גנים‪ .‬בשניים מהגנים מופיעה עלייה בתאי הגידול לעומת ‪ ,WT‬בעוד שבגן ‪ 2‬אין ביטוי כזה‪ .‬גנים עם‬
‫פרופיל ביטוי דומה עשויים להיות קשורים לתכונות של התא השונה לעומת ‪ – WT‬אם לשני גנים יש‬
‫אותו פרופיל ביטוי אולי יש להם מנגנוני בקרה‬
‫דומים‪ ,‬או שהפונקציה שלהם קשורה לאותו תהליך‬
‫)כמו‬
‫אפופטוזס‪,‬‬
‫למשל(‪.‬‬
‫מצביע‬
‫על‬
‫קו‪-‬‬
‫פונקציונאליות או קו‪-‬בקרה בקבוצת הגנים‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :10‬מיקרואראי ונתוני ביטוי גנים‬
‫‪59‬‬
‫דוגמה פשוטה לפרופיל ביטוי הוא פרופיל בין שני סוגי רקמות – למשל‬
‫רקמות נורמליות ורקמות גידול‪ .‬קוד הצבעים בתמונה הוא אותו קוד‬
‫שיש בשבב‪ ,‬אבל במטריצה הזו כל עמודה היא צ'יפ שלם – כאשר‬
‫בחלק העליון יש גנים שהם בביטוי יתר )אדום( בגידול לעומת ה‪WT-‬‬
‫ובחלק התחתון הגנים הם בתת‪-‬ביטוי )ירוק( לעומת ‪ .WT‬חשוב תמיד‬
‫לדעת מהי נקודת היחוס‪.‬‬
‫קיבוץ של גנים בעלי פרופיל דומה יכול להצביע על קבוצות גנים‬
‫קו‪-‬מבוקרות או קו‪-‬פונקציונליות‪.‬‬
‫אפשר גם להשוות פרופיל ביטוי בין רקמות‪ .‬ניתן לראות שלגידול ‪bt1‬‬
‫‪ & bt3‬יש פרופיל ביטוי דומה בעוד לשרקמות ‪ bt2 & bt4‬יש פרופיל‬
‫ביטוי שונה )אך דומה ביניהן(‪ .‬אם יש דרך לקבץ את הוקטורים האלה‪,‬‬
‫ניתן לגלות סוגים שונים של גידולים המאופיינים בפרופילי ביטוי שונים‪.‬‬
‫שיטה זו מאפשרת לבצע ‪Class Discovery‬‬
‫ולגלות מהו סוג הגידול שהאונקולוג עומד מולו‪,‬‬
‫דבר בעל חשיבות קלינית ופתולוגית; שיטה זו‬
‫מאפשרת לבצע זיהוי מאוד מדוייק של הגידול לפי‬
‫חתימתו המולקולארית‪ .‬ניתן לבצע גם ‪Class‬‬
‫‪ – Prediction‬ניבוי של דגימת גידול שאינה מתוייגת בעבר‪ .‬גם זה חשוב מאוד בשביל מציאת הטיפול‬
‫הנכון בגידול‪ .‬דבר זה נעשה על ידי שיטות סיווג‪.‬‬
‫לפעמים החתימה המאפיינת דגימות שונות לא‬
‫מתקיימת בכל הגנים – שהרי מבין כל הגנים‬
‫ברקמה לא כולם משחקים תפקיד בהפיכת הרקמה‬
‫לסרטנית‪ .‬כל הגנים שאינם שייכים למערך מכניסים‬
‫"רעש" לנתונים‪ .‬מסיבה זו יש להשתמש רק בגנים‬
‫שיש ביניהם תבנית אמיתית‪ .‬בדוגמה נראה שלגנים ‪ 1‬ו‪ 2-‬יש פרופיל ביטוי דומה – נמוכים ברקמות‬
‫המסומנות באדום וגבוהים בירוק‪ ,‬ביחסים דומים‪ .‬אולם גן ‪ 3‬אינו מקיים תבנית זו – למרות שניתן לומר‬
‫שבקבוצה אחת הוא גבוה ובשניה הוא נמוך‪ ,‬אין יחסים מספיק קבועים כדי להכניס אותו ולכן הוא יוגדר‬
‫כרעש רקע‪.‬‬
‫דוגמה אחת של בי‪-‬קלאסטרים או מציאת חתימה כזו‬
‫נכנסה כבר למוצר מסחרי לזיהוי סרטני‪ :‬השוואת דגימת‬
‫חתימה של ‪ 70‬גנים שבגידולי סרטן העשויים לפתח‬
‫גרורות מתבטאים ביתר לעומת גידולים שלא יפתחו‬
‫גרורות‪ .‬מכאן שהחתימה של ‪ 70‬גנים אלו היא מאבחן‬
‫טוב לסיכוי לגרורות מהסרטן הזה‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪60‬‬
‫שימו לב‪ :‬באראי בתמונה השורות הן חולות שונות והעמודות הן הגנים; הטור השחור לבן מציין האם יש‬
‫סיכוי לגרורות )לבן( או אין סיכוי לגרורות )שחור(‪ .‬הימצאות צבע שחור בחלק התחתון או לבן בחלק‬
‫העליון היא טעות של המדידה – ‪ false positive‬למעלה ו‪ false negative-‬למטה‪.‬‬
‫יישומים‬
‫•‬
‫שינוי מקור הגלוקוז של ‪ E.coli‬על מנת לבדוק את הגנים המעורבים בנצול מקורות פחמן שונים‪.‬‬
‫•‬
‫מדידת פרופילי ביטוי שונים של שמרים בתנאים שונים‪.‬‬
‫היישומים האלו תורמים למאמץ הגדול לפיענוח מעגל הבקרה בתא – לפענח מה עושה כל פקטור‬
‫שיעתוק‪ ,‬מה הדינמיקה של מעגלי הבקרה וכדומה‪ .‬אחת השאיפות היא שבעזרת סט של נתוני מיקרו‪-‬אראי‬
‫ניתן יהיה ללמוד את מבנה רשתות הבקרה‪.‬‬
‫שימוש נוסף במיקרו‪-‬אראי הוא לא רק לביטוי אלא גם לזיהוי מקטעי ‪ ,DNA‬כך שניתן למשל לזהות את‬
‫סט ה‪ DNA-‬אליו נדבק חלבון מסויים‪ ,‬למשל פקטור שיעתוק כלשהו‪ .‬טכניקה זו מכונה ‪Chromatin‬‬
‫)‪(ChIP‬‬
‫‪.immune-precipitation‬‬
‫בטכניקה הזו שוברים ‪ DNA‬למקטעים‬
‫לאחר שנתנו לחלבון להיקשר אליו ואז‬
‫מסמנים את החלבון בעזרת נוגדן;‬
‫שוטפים ומקבלים רק את החלבון עם‬
‫הנוגדן הקשור ואחרי שמשחררים את ה‪-‬‬
‫‪ DNA‬מהחלבון מקבלים את כל איזורי‬
‫הפרומוטורים של החלבון על גבי השבב‬
‫)‪.(ChIP-on-chip‬‬
‫שימוש אחר שנעשה בשמר היה לקחת את כל פקטורי השיעתוק ולבצע לכולם ‪ .ChIP on Chip‬בצורה‬
‫זו קיבלו את כל מסלולי הבקרה של שמר ואז המשיכו וניתחו את האינטראקציה בין המסלולים‪ .‬בהמשך‬
‫שילבו את הנתונים עם נתוני שימור ברמת הרצף של איזורים שונים של הפרומוטור‪ ,‬מתוך הנחה‬
‫שאיזורים החשובים לקישור יהיו שמורים יותר במינים קרובים של שמר‬
‫‪11‬‬
‫וכן איפשרו לבדוק האם‬
‫החלבון באמת משפיע על הביטוי‪ ,‬האם הוא גורם להגברה או עיכוב וכדומה‪ .‬בצורה זו מצאו את "קוד‬
‫הפרומוטורים" מבחינת אתרי הקישור‪ .‬הפרומוטורים חולקו לסוגים שונים‪ ,‬למשל בעלי אתר יחיד‪ ,‬זוגות‬
‫או שלשות של אתרים סמוכים‪ ,‬תערובת של סוגי אתרים באותו פרוטומוטור‪ ,‬רגולטורים מקבילים‬
‫וכדומה‪.‬‬
‫היום יש בביולוגיה חישובית וביואינפורטיקה הבשלה של הטכנולוגיות והן מוחלפות על ידי טכנולוגיות‬
‫אחרות; יש אינטגרציה של מקורות מידע שונים‪ ,‬ולכן חשוב לדעת את מקורות המידע הקיימים ואופני‬
‫השילובים ביניהם‪.‬‬
‫‪ 11‬מאפשר לדעת לא רק מהו הפרומוטור אלא גם את הרצף של הקישור‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :10‬מיקרואראי ונתוני ביטוי גנים‬
‫‪61‬‬
‫‪Tiling arrays‬‬
‫‪ tku‬מערכים שהגלאים שלהם מרצפים מקטעים שונים על הגנום‪ ,‬לפעמים עם חפיפה‪ .‬זהו סוג של‬
‫מיקרואראי המשמש לקבלת מידע צפוף ואמין לגבי מקטע ‪ DNA‬מסויים – למשל בשביל לרצף‬
‫פרומוטור שלם )הפרומוטור באורך ‪ 600‬נוקליאוטידים והשבב מכיל ‪ 20-30‬נוקליאוטידים בכל נקודה(‪.‬‬
‫בשנים האחרונות יש יותר ויותר מעבר ל‪ – next generation sequencing-‬מכונות ריצוף שפועלות‬
‫הרבה יותר מהר‪ .‬בעזרת הכלים העוצמתיים האלה אפשר להחליף את רוב הפונקציות של מיקרואראי‪.‬‬
‫הגישה הזו היא לא מוטית‪ ,‬לא מנחשים מראש את הפרובים כמו במיקרואראי והיא הרבה יותר מדוייקת‪.‬‬
‫בצורה זו ‪ RNA-seq‬ו‪ ChIP-seq-‬מחליפים את הצ'יפים של ‪ ChIP-On chip‬ו‪.mRNA-‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪62‬‬
‫שיעור ‪ :10‬למידה של מכונות – ‪Machine Learning‬‬
‫למידת מכונות היא תחום במדעי המחשב המאגד את השאלות והאלגוריתמים המקבילים למה שמוגדר‬
‫כלמידה‪ .‬ניתן לחלק את התחום הזה לשלושה חלקים‪:‬‬
‫•‬
‫למידה מפוקחת )‪ – (Supervised learning‬הנתונים שעליהם מתאמנים מתוייגים באופן כלשהו‬
‫)נכון‪/‬לא נכון‪ ,‬זכר‪/‬נקבה‪ ,‬בריא‪/‬חולה וכדומה(‪ .‬האלגוריתם משתמש בתיוגים האלה ומנסה לחזות‬
‫תיוגים של דוגמאות לא מתוייגות‪.‬‬
‫•‬
‫למידה לא מפוקחת )‪ – (Unsupervised learning‬סוג זה של למידה מקבל נתונים לא מסומנים‬
‫ומנסה למצוא בתוכו מבנה‪ ,‬בצורה לא מבוקרת‪ ,‬ללא "מורה" חיצוני המכווין לתשובה הנכונה‪.‬‬
‫בשיטה זו לא זמינות דוגמאות מתוייגות‪ .‬קלאסטרינג הוא סוג אחד של למידה זו‪.‬‬
‫•‬
‫למידת חיזוק )‪ – (Reinforcement learning‬למידה שבה התיוג והחיזוקים לתיוג לא חייבים‬
‫להיות במונחים קטגוריים אלא בצורת חיזוקים חיוביים על כל פעולה או ניחוש שאתה עושה‪ .‬דוגמה‬
‫לכך היא תוכנת ה‪ 20-‬שאלות‪ ,‬או המחשב שמאזן מקל על מנוע המדפסת‪.‬‬
‫מהו קלאסטרינג?‬
‫הקלט של קלאסטרינג הוא סט של דוגמאות‪ ,‬ועל מנת לעשות‬
‫קלאסטרינג יש להגדיר מרחק בין הדוגמאות או את מיקומן‬
‫במרחב כלשהו‪ .‬הפלט הוא קבוצה של מקבצים‪ .‬הבעיה‬
‫בתחום זה היא בהגדרה של הקלאסטרינג‪ :‬לרוב לא מצליחים‬
‫להגדיר היטב מהי התוצאה המבוקשת‪ ,‬מהי הפונקציה‬
‫שמנסים למזער או למקסם בשאלת הקלאסטרינג‪.‬‬
‫הקלאסטרינג הוא סוג של למידה לא‪-‬מבוקרת‪ ,‬למרות שיש וריאנטים שמכניסים סט של תיוג נתונים‬
‫)‪ (data labeling‬שמאפשר בקרה מסויימת‪ .‬כמו כן בשיטה עולה שאלת משמעות הדמיון – מהו דמיון בין‬
‫דוגמאות‪ ,‬האם יש ייצוג בקלאסטר‪ ,‬איך מגדירים משהו כזה וכדומה‪.‬‬
‫האלגוריתם ‪ UPGMA‬של בניית עץ הוא למעשה קלאסטרינג‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :10‬למידה של מכונות‪– Machine Learning‬‬
‫‪63‬‬
‫קלאסטרינג של נתוני ביטוי‬
‫הגדרות אפשריות לפרופילים של קלאסטרינג‪:‬‬
‫•‬
‫בקלאסטרינג של דגימות‪ ,‬לכל דגימה ניתן‬
‫להגדיר פרופיל ביטוי של כל הגנים בדגימה‪.‬‬
‫עמודה שמתארת צ'יפ אנושי עם ‪ 20,000‬גנים‬
‫יכולה להיות מתוארת כנקודה יחידה במרחב‬
‫בעל ‪ 20,000‬מימדים‪.‬‬
‫•‬
‫בעיה אחרת היא קיבוץ גנים כדי למצוא גנים‬
‫קו‪-‬פונקציונאלים או קו‪-‬רוגלטורים‪ .‬במקרה כזה‬
‫יש לקבץ גנים לא לפי דגימות כי אם לפי גנים‪:‬‬
‫אם יש ארבעה צ'יפים כל גן הוא נקודה במרחב‬
‫ארבעה‪-‬מימדי‪.‬‬
‫•‬
‫נניח הצגה של קיבוץ גנים בשני מימדים כדי‬
‫למצוא גנים בעלי פרופיל ביטוי דומה‪ .‬כל נקודה‬
‫במרחב היא גן המסומן על ידי שתי קואורדינטות‬
‫הניתנות לפי עוצמת הביטוי של הגן בתנאי ‪1‬‬
‫ובתנאי ‪ .2‬תוצאה של קלאסטרינג יכולה‬
‫להיראות כמו באיור‪ ,‬כאשר הגנים בכל קבוצה‬
‫עשויים להיות מבוקרים יחד‪.‬‬
‫מרחק בין שני פרופילי ביטוי‬
‫בסוגי קלאסטרים מסויימים יש להגדיר מידת מרחק‬
‫או דמיון‪ .‬מידת המרחק המקובלת היא המרחק‬
‫האאוקלידי‪ ,‬שעובדת בכל כמות של מרחבים‬
‫)נוסחה באיור(‪ ,‬ומחושבת על פי הקואורדינטות של‬
‫כל נקודה‪.‬המרחק הזה יכול להיות דמיון או מרחק‬
‫פיזי במרחב הרב‪-‬מימדי‪.‬‬
‫תחילה יש לחשב את המרחקים בין כל זוגות הגנים‪.‬‬
‫החישוב מפיק מטריצת מרחקים‪ .12‬בבניית עץ‬
‫מהמטריצה יש לזכור כי הנקודות הן עלים ולכן‬
‫מאחדים את שני העלים הקרובים ביותר ויוצרים גן‬
‫קדום – ‪.g56‬‬
‫‪ 12‬כעת מתחילים להבין מה הקשר לבניית עצים לפי ‪.UPGMA‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪64‬‬
‫מה המרחק של הגן הזה מהגנים האחרים? אחת הגישות היא שהמרחק שלו מכל גן היא ממוצע המרחקים‬
‫של הגנים שהרכיבו אותו מהגן החדש שאנחנו מכניסים למשוואה – המרחק של ‪ g56‬מ‪ g1-‬הוא ממוצע‬
‫המרחקים של ‪ g6‬ו‪ g5-‬מ‪ .g1-‬בצורה כזו ממשיכים ומחברים תמיד את ה‪ Nodes-‬בעלי המרחק הקצר‬
‫ביותר עד שמחברים "אבות קדומים" ולבסוף מצטצמצמים לשורשו של העץ‪.‬‬
‫זוהי שיטת ה‪ Neighbor joining-‬תוך שימוש במרחק אאוקלידי‪ .‬התוצאה היא עץ‪.‬‬
‫אך מדוע העץ הזה הוא קלאסטרינג? קלאסטרינג‬
‫הוא לא בעיה מוגדרת – אפשר לחלק תוצאות ל‪2-‬‬
‫קלאסטרים וגם ל‪ 30-‬קלאסטרים‪ .‬ככל שיהיו יותר‬
‫קלאסטרים ניתן לצפות שכל קלאסטר יהיה קטן‬
‫יותר והדוק יותר‪ ,‬המרחקים קטנים יותר ומידת‬
‫הדמיון בין הגנים גבוהה יותר )כאשר הקיצוניות‬
‫הגבוהה ביותר היא הגדרה כל גן כקלאסטר – ואז‬
‫מידת הדמיון היא ‪ ,100%‬המרחק הוא אפסי וכמות‬
‫החברים בקלאסטר היא ‪.(1‬‬
‫כיצד ניתן לחלק את העץ?‬
‫•‬
‫שני קלאסטרים – בין שני ענפים‪ ,‬קבוצה של‬
‫‪ g8‬וקבוצה של כל ‪ 7‬הגנים האחרים‪.‬‬
‫•‬
‫שלושה קלאסטרים – יורדים עוד רמה בעץ‪,‬‬
‫עושים חתך העובר דרך שלושה ענפים‪,‬‬
‫מקבלים קלאסטר של ‪ ,g8‬שני של ‪ g7‬ועוד‬
‫אחת של ששת הגנים הנותרים‪.‬‬
‫ככל שיורדים ברמות העץ וחותכים יותר ענפים‪ ,‬מקבלים יותר קלאסטרים‪ .‬אפשר גם להגדיר‬
‫חלוקות של חתך שאינו בגובה שווה אלא מבוססות על קריטריונים אחרים‪.‬‬
‫קלאסטר היררכי ‪ -‬סיכום‬
‫נתונה טבלת ביטוי עם נתונים; מחשבים מתוכה מטריצת מרחקים או מטריצת דמיון‪ ,‬באותו האלגוריתם;‬
‫מתוכה בונים מבנה עץ היררכי בזיווג שכנים‪ .‬ניתן להפעיל זאת על הגנים ועל הדגימות‪ ,‬ואפילו בו זמנית‬
‫לשניהם – האחד לא מפריע לשני‪ .‬זה משפיע על מידת המרחק אבל הרי מרחק אאוקלידי לא מושפע‬
‫מהסדר – הגדרת המרחק בין שתי דגימות אינו תלוי בסדר בו בנויים הגנים‪ ,‬וההיפך‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :11‬למידת מכונות‪ ,‬קלאסטרים‪ ,‬קלאסיפיקציה‬
‫‪65‬‬
‫שיעור ‪ :11‬למידת מכונות‪ ,‬קלאסטרים‪ ,‬קלאסיפיקציה‬
‫קלאסטרים לפי ממוצע‪K-‬‬
‫במקרה זה הנתונים ממלאים שני תנאים ולכן כל גן מצויין‬
‫לפי שתי קואורדינטות; בוחרים שתי נקודות רנדומליות‬
‫ומכיילים את המיקום שלהן לפי הקלאסטרים של קבוצות‬
‫הגנים הקרובות אליהן ביותר‪ .‬כל פעם שעושים כיול‬
‫מזיזים את שתי הנקודות בצורה סימטרית‪.‬‬
‫כאשר אין יותר שינוי בשיוכים ולכן אין יותר שנוי‬
‫בסנטרואידים )נקודות המרכז( ניתן לקבוע שהמיקום הוא‬
‫המיטבי והנכון‪ .‬יש תכונות שונות לאלגוריתם ‪:K-means‬‬
‫•‬
‫הקלאסטרינג מתחיל בצורה רנדומלית‪ ,‬והאלגוריתם לא מתכנס בהכרח לאותו פתרון סופי‪ .‬ככל‬
‫שמספר הקלאסטרים וכמות הנתונים עולים ניתן להגיע ליותר ויותר אפשרויות‪.‬‬
‫•‬
‫על מנת למנוע מצבים פתולוגיים של קלאסטרינג לא הגיוני‪ ,‬ניתן לעשות מספר התחלות רנדומליות‬
‫ולסווג אותן לפי שכיחות ולפי מרחקים ממוצעים‪.‬‬
‫•‬
‫למרות שהאלגוריתם בכל צד משפר את הניקוד שלו‪ ,‬יש לוודא שהפתרון הוא לא מינימום לוקאלי –‬
‫מספר התחלות מאפשר לוודא שהמינימום הנמצא הוא גלובאלי ולא לוקאלי‪.‬‬
‫קלאסטרינג היררכי אינו ממקסם מידה גלובאלית לגבי הקלאסטרינג‪ ,‬אבל הוא דטרמיניסטי – התקדמותו‬
‫מוגדרת באופן מוחלט ומדוייק ולכן אין טעם להריץ שוב את הקלאסטרינג על אותם נתונים‪ .‬היתרון‪:‬‬
‫מקבלים מבנה ולא רק את הקלאסטר – מבנה פנימי המעיד על מידת הדמיון במבנה שבין נקודות שונות‬
‫השייכות לאותו קלאסטר‪.‬‬
‫לא נרחיב הרבה על סוגי קלאסטרינג אחרים אבל יש לציין כי הקלאסטרים מתייחסים לבעיה כללית‪ ,‬שאינה‬
‫מוגדרת היטב‪ ,‬כי קלאסטרים שונים מנסים למקסם נקודות שונות‪ .‬ניתן לעסוק לא רק במיקסום של אדיקות‬
‫בין נקודות אלא גם הומוגניות ביניהן‪ ,‬דמיון או מרחק בין מרכז קלאסטרים שונים‪ .‬כמו כן יש אלגוריתמים‬
‫"רכים" – בהם ההשמה היא רכה‪ ,‬הנקודה אינה משוייכת באופן אבסולוטי אלא באחוזים מסויימים ניתנת‬
‫השייכות של הנקודה לסנטרואידים שונים‪.‬‬
‫קלאסיפיקציה‬
‫קלאסיפיקציה היא סיווג המשמש בקלאסטרים בדברים שונים‪:‬‬
‫•‬
‫סיווג דוגמאות סרטן שונות‬
‫•‬
‫סיווג גנים לקבוצות קלאסטרים שונות‬
‫בקלאסיפיקציה יש כבר את הסיווג‪ ,‬סט הדוגמאות הראשוני כבר מסווגות – שלילי וחיובי‪ ,‬סרטני ובריא‪,‬‬
‫וכו'‪ .‬לעיתים זו מכונה קלאסיפיקציה בינארית‪ ,‬לעיתים מתעסקים ביותר משתי קבוצות‪ .‬לתוך מערך זה‬
‫מתקבלת דוגמית נטולת תווית שיש לגלות לאן היא משוייכת‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫‪66‬‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫כעת צריך ‪ classifier‬אשר יוכל לתייג את‬
‫הדוגמאות החדשות במאגר‪ .‬במרחב דוגמאות גנים‬
‫דו‪-‬מימדי‪ ,‬כל מיקרואראי מוצג כנקודה לפי רמת‬
‫הביטוי של הגן הראשון ורמת הביטוי של הגן השני‪.‬‬
‫כמו כן הדגימות מתוייגות כבר – אדום‪ ,‬לבן וכחול‪.‬‬
‫חולה חדש שנבדק בו הביטוי גנטי יש לסווג לכאן‬
‫או לכאן‪.‬‬
‫גישה אחת לקלאסיפיקציה היא לצייר קו מפריד בין‬
‫הדוגמאות‪ :‬נתונות שלוש נקודות )מרובעים‬
‫כחולים( לסיווג‪ .‬הנתונים הקיימים מאפשרים‬
‫להעביר קו מפריד ביתר קלות‪ .‬ריבוי נתונים משפר‬
‫את התוצאות‪ ,‬ברוב המקרים; זאת למרות‬
‫שלפעמים ריבוי נתונים עשוי לבלבל‪.‬‬
‫יכולות להיות אפילו ‪ ,outlayers‬נקדות שתוייגו‬
‫במקום שאינו אופייני או שתוייגו באופן שגוי‪.‬‬
‫לפעמים זה גם נראה כמו בתמונה הבאה‪:‬‬
‫כמו כן יש לזכור כי בביטוי גנים מתקבלים מאות‬
‫ואלפי גנים מעשרות או מאות נבדקים‪ ,‬כלומר מאות‬
‫דגימות – מכאן שיש יותר ויותר נקודות‪ ,‬סטיות‬
‫ובלבול‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :11‬למידת מכונות‪ ,‬קלאסטרים‪ ,‬קלאסיפיקציה‬
‫‪67‬‬
‫השיטות לקלאסיפיקציה‬
‫עצי החלטה‬
‫במצב הזה‪ ,‬המוגדר לכאורה כחסר תקווה‪ ,‬נראה שניתן דווקא ליישם שיטה זו‪ :‬ניתן לשאול שאלה אחת‬
‫לגבי הגן על ציר ‪ – Y‬מעל או מתחת לקו ‪) 36‬שהאלגוריתם מצא כיעילה למתן תוצאה מיטבית(‪ .‬אם‬
‫הערך קטן מ‪ ,36-‬עוברים הלאה לסף הבא‪ .‬האלגוריתם המוצא את הסף הקטן ביותר התקבל על ידי‬
‫מציאת הסף בעל נתוני האימון הקרובים ביותר‪ .‬לאחר מכן קובעים הגבלה מסויימת על ציר ‪ ,X‬ותוחמים‬
‫את המקומות בהן נמצאים גנים אדומים מול גנים ירוקים‪.‬‬
‫עץ החלטה יכול להיות כלי נחמד אולם לא יעיל במיוחד שכן ברביע האחרון הוא מסוגל להרבה טעויות‪.‬‬
‫אפילו בשני מימדים‪ ,‬עץ החלטה מסוגל להתמודד עם החלטות יותר מורכבות מאשר מסווג לינארי‪ .‬חלוקת‬
‫המרחב שלו יותר מורכבת מהעברת קו או מישור פשוט‪ .‬יחד עם זאת הוא שואל שאלות על המאפיינים‬
‫בנפרד ולכן לא מתייחס לקשרים ביניהם‪.‬‬
‫הרשימה הבאה מציגה רשימת מאפייני מטופלים שנכנסו למרפאה והאם הם נותחו בהצלחה; כך ניתן יהיה‬
‫לדעת הא לנתח חולה חדש בהתאם לנתונים שלו‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪68‬‬
‫שימו לב שבצמתים יש החלטה בינארית – כן‪/‬לא‪ ,‬נמוך‪/‬גבוה‬
‫וכדומה‪ .‬בדוגמה הזו נעשתה גם ‪– feature selection‬‬
‫שימוש רק בשני המאפיינים האינפורמטיביים ביותר‪ .‬זו‬
‫יכולה להיות הפרדה בין שני שלבים או חלק אינטגרלי‬
‫מלמידת המסווג‪ .‬מצב זה אומר שלא בכל מסווג יופיעו‬
‫בהכרח כל המאפיינים‪.‬‬
‫‪) SVM‬כלי תמיכה וקטוראלי(‬
‫ישנם כל מיני סוגים של ‪ .SVM‬שיטה זו מחליטה על קו מפריד‬
‫בין שתי דוגמאות‪ .‬ה‪ SVM-‬המתוחכמים יכולים ללמוד גם מישורי‬
‫הפרדה שאינם לינארים‪ .‬בנקודות מסויימות שיש לדעת מה יהיה‬
‫הסיווג שלהן ייקבע הסיווג בהתאם לצד בו הן נמצאות ביחס לקו‪.‬‬
‫ה‪ SVM-‬מסווג בהתאם לקו המסווג כמה שיותר דוגמאות עם‬
‫תיוג נכון‪ .‬אם יש דוגמאות מעבר לקו הוא מתחשב בהן ומנסה‬
‫למזער אותן‪ ,‬וכן למקסם את המרחק של הנקודות הקרובות ביותר אל המישור המפריד ממנו )כלומר בין‬
‫הנקודות למישור יהיה המרחק המקסימלי(‪ .‬ה‪ SVM-‬יוצר שני וקטורים מקבילים למישור החלוקה‬
‫המשמשים מעין "פיגומים" שמרחיקים את נקודות המדגם ממישור‬
‫החלוקה‪.‬‬
‫הגדולה של ‪ SVM‬היא בכך שהוא מאפשר מיפוי שאינו לינארי‪,‬‬
‫דוגמאות שאין ביניהן מרחב לינארי דו‪-‬מימדי ממופות למרחב תלת‬
‫מימדי‪ ,‬המאפשר להגדיר מישור שיחתוך בין הדוגמאות בצורה‬
‫שתבצע הפרדה יעילה‪.‬‬
‫‪ SVM‬יכול לעשות הפרדה לינארית וגם הפרדה לא לינארית על ידי מיפוי למימד יותר גבוה‪ ,‬כל‬
‫זאת במרחב רב‪-‬מימדי לא מוגבל‪.‬‬
‫הביטחון של הסיווג יכול להיות מדורג גם הוא‪ ,‬כאשר מה שקובע את הדירוג הוא המרחק ממישור‬
‫החלוקה – ככל שהנקודה רחוקה יותר כך הביטחון בסיווג שלה גובר‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :11‬למידת מכונות‪ ,‬קלאסטרים‪ ,‬קלאסיפיקציה‬
‫‪69‬‬
‫‪KNN = K nearest neighbors‬‬
‫משתמש באותה מטריצה של ‪ :K-Means‬מסתכל על‬
‫השכנים הקרובים ביותר ולפיהם קובע מה הפרמטר‬
‫החדש )"אמור לי חבריך ואומר לך מי אתה"(‪ .‬למשל‬
‫בדוגמה‪ ,‬הנקודה הלבנה עם סימן השאלה קרוב‬
‫לשתי נקודות אדומות ורק אחת לבנה ולכן היא תסווג‬
‫כנקודה אדומה‪.‬‬
‫התוכנה אינה יוצרת מבנה מסווג ולכן אינה מספקת נתונים על מבנה מאגר הנתונים‪ ,‬מבנה הבעיה‪.‬‬
‫האלגוריתם מסתכל תמיד בסביבה לוקאלית ואינו מסתכל על התמונה הגדולה‪ .‬הוא יעיל לטיפול‬
‫בדוגמאות מורכבות שאין להן קווי הפרדה פשוטים‪.‬‬
‫טריינינג לעומת טסט דאטה‬
‫ככל שיש טריינינג דאטה )"נתוני אימון"( יותר גודל‪ ,‬הסיווג יותר אמין‪ .‬אבל לא ניתן לדעת כמה‬
‫הטריינינג טוב אם הוא לא נוסה על דאטה נעלם – זה לא בעיה להגדיר מסווג שיודע לסווג את הטריינינג‬
‫דאטה‪ ,‬ואפשר אפילו לעשות מסווג מומחה לטריינינג דאטה מסויים‪ ,‬אבל כשינתן לו טסט דאטה הוא לא‬
‫יעבוד היטב‪ .‬רק בגלל שהציון לטריינינג דאטה יותר טוב לא אומר שסיווג הדאטה החדש‪ ,‬טסט‬
‫דאטה‪ ,‬יהיה אמין יותר‪.‬‬
‫כיצד להעריך את הביצועים?‬
‫ניתן לקחת את הטריינינג דאטה ולחלק אותו‪ :‬רובו ישמש בתור טריינינג וחלקו בתור טסט )היות וידוע‬
‫כבר כיצד הוא מסווג‪ ,‬ידוע מה המסווג הטוב ביותר צריך לעשות עם הדאטה חדשים שסיווגם ידוע(‪.‬‬
‫בתהליך זה משתמשים בקרוס‪-‬ולידציה‪ :‬בוחרים מקטעים מסויימים של הדאטה בתור טריינינג סט ומקטע‬
‫קטן יהיה טסט סט‪ .‬כל פעם משנים את המקטעים שמשמשים לטסט‪ .‬בסוף ניתן לקבוע איזו שיטת‬
‫קלאסיפיקציה סיוווגה נכונה כמות האחוזים הגבוהה ביותר מתוך הטסט סט‪ ,‬ושיטה זו תיבחר בתור הטובה‬
‫ביותר‪ .‬אחרי שבוחרים מסווג אפשר להשתמש בכל הדאטה‪ ,‬ליצור את המסווג המיטבי ביותר עם מלוא‬
‫הנתונים‪ ,‬ולהתחיל להשתמש בו לנתונים חדשים שטרם נראו‪.‬‬
‫נניח מחלה נדירה הפוגעת ב‪ 1-‬מ‪ 100,000-‬אנשים; נניח שהטריינינג סט היה של ‪ 100,000‬אנשים בהם‬
‫היה חולה אחד‪ ,‬והמסווג שלנו תמיד אומר "לא"‪ .‬טכנית‪ ,‬למסווג הזה יש ‪ 99.9%‬הצלחה‪ .‬אבל בפועל זה‬
‫מסווג גרוע‪ .‬כאשר מחליטים בין מה למה מסווגים צריך לדאוג לייצוג מאוזן של הדוגמאות‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪70‬‬
‫שיעור ‪ :12‬למידת מכונות – המשך‬
‫‪ROC Curve‬‬
‫עקומת ‪ ROC‬היא כלי שנמצא בשימוש הולך וגובר בתחומי למידת מכונות ואנאליזה ביורפואית המשמש‬
‫להשוואה בין ביצועי נתונים שונים‪ .‬עקומת ‪ ROC‬משמשת להשוואה בין מסווגים שונים על מנתל בדוק‬
‫מי מהם עובד יותר טוב‪ .‬המצב יכול להיות מורכב יותר מהכלים הפשוטים שהודגמו לעיל ואז צריך את‬
‫הכלי הזה‪.‬‬
‫בדוגמה הקודמת‪ ,‬בגלל התפלגות פתולוגית של הנתונים‪ ,‬ניתן היה להשתמש במסווג מאוד טיפשי שיהיה‬
‫צודק לפי הנתונים – אם המיוחד מופיע ‪ 1:100,000‬והמסווג אומר תמיד "לא" תשובתו תהיה נכונה ב‪-‬‬
‫‪ 99.99%‬מהפעמים‪ .‬המונחים הבאים מגדירים יחסים בהקשר תצפיות ‪True-Positive/ True-‬‬
‫‪:Negative‬‬
‫•‬
‫‪ – TPR‬יחס הנתונים הצודקים החיוביים‪ ,‬מחלק את הנתונים שהיו ‪ TP‬בסך הנתונים החיוביים )‪.(P‬‬
‫שימו לב שסך הנתונים החיוביים הם גם ‪ TP‬וגם ‪ .FN‬המדד הוא מספר בין ‪.0.0-1.0‬‬
‫•‬
‫‪ – FPR‬יחס הנתונים השגויים החיוביים‪ ,‬מחלק את הנתונים שהיו ‪ FP‬בסך הנתונים שהיו שליליים‬
‫)‪ .(N‬שימו לב שסך הנתונים השליליים הם גם ‪ FP‬וגם ‪ .TN‬המדד הוא מספר בין ‪.0.0-1.0‬‬
‫ניתן להגדיר כל מסווג על ידי שני מספרים אלו‪.‬‬
‫אפשר לשרטט מערכת צירים של שת תכונות אלו‬
‫ואז לצייר עקומות ‪ ROC‬עבור מסווגים בהם יש‬
‫פרמטר רציף‪ .‬הפרמטר הרציף חשוב כי הוא מספק‬
‫שולי בטחון המקטינים את הסיכוי לשגיאה החמורה‬
‫יותר‪ .‬במסווג עם פרמטר רציף אפשר לראות מה‬
‫יהיו ערכי הפרמטר הרציף ואז לתת סימן לפי‬
‫הפרמטר הרציף‪ .‬אם הפרמרטר לא היה רציף‪ ,‬לא‬
‫ניתן היה לתייג באופן יעיל‪.‬‬
‫בעקרון‪ ,‬יש ‪ cutoff‬בין הנתונים – ככל שרוצים‬
‫לאפשר פחות סיכוי לטעות מסויימת ניתן לשנות את ה‪ cutoff-‬בהתאם‪ .‬לפיכך‪ ,‬בכל נקודה בעלת תיוג‬
‫כלשהו ניתן היה להעלות את ערך ה‪ cutoff-‬עד אליה ולקבל עקומה מחיבור כל הנקודות האלו‪ .‬ככל‬
‫שהמסווג מקבל תוצאות חיוביות יותר הוא עולה למעלה; תוצאות שליליות גורמות לנטייה הצידה‪ .‬מכיוון‬
‫שכך‪ ,‬מסווג מושלם יעלה עד למעלה לינארית ואז ייפנה ימינה‪ .‬השטח )אינטגרל( של עקומת ‪ ROC‬כזו‬
‫יהיה ‪ .1‬ככל שהשטח קרוב יותר ל‪ 1-‬המסווג יותר טוב‪ .‬אם המסווג אקראי השטח יהיה שווה ל‪.0.5-‬‬
‫שימו לב שהמדד הזה מתייחס לטעויות מסוג ‪ 1‬וטעויות מסוג ‪.2‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :12‬למידת מכונות – המשך‬
‫‪71‬‬
‫‪Voting‬‬
‫זהו "טריק מלוכלך"‪ :‬נניח שיש לבחור‬
‫מבין שלושה מסווגים כלשהם מיהו‬
‫המסווג היעיל ביותר; לוקחים את שלושת‬
‫המסווגים ונותנים להם לבדוק נתונים‬
‫חדשים )”‪ .(“raw‬דעת הרוב היא הדעה‬
‫המתקבלת‪ ,‬והמסווג בעל אחוזי ההצלחה‬
‫הגדולים ביותר הוא היעיל ביותר‪.‬‬
‫שימושים שלא בביואינפורמטיקה‬
‫השיטות לבדיקת היעילות של המסווג אינן קיימות‬
‫רק בביואינפורמטיקה; הן משמשות גם לזיהוי‬
‫ממוחשב של אותיות בעזרת ‪ KNN‬למשל‪ ,‬כאשר‬
‫סט כתבי היד משמאל הוא טריינינג סט והשרבוט של‬
‫ה‪ 5-‬הוא הטסט‪ .‬על ידי זיהוי ה"שכנים" הדומים ביותר לטסט המשחב מזהה מהי הספרה שנכתבה‪.‬‬
‫השיטה פותחה על ידי האמריקנים לאחר פרל הארבור וסייעהלבדוק מהי המהירות שלהם‪ ,‬כיצד להבדיל‬
‫בין מטוסים שלהם למטוסים שאינם אויב וכו'‪.‬‬
‫דוגמה‬
‫הבעיה העיקרית באבחון עם מיקרואראי היא שמקור הגן איננו ידוע )בתא גידול שהתגלה בגרורה(‪.‬‬
‫כשנותנים תרופות ספציפות לפי מאפיינים גנטיים של הגידול תוחלת החיים עולה‪ ,‬ולכן המטופלות ייזכו‬
‫לטיפול טוב יותר אם יכירו את הפריימרים של הגנים הרלוונטים‪.‬‬
‫כאשר מקבלים ‪ DNA‬מביופסיה של‬
‫חולה‪ ,‬עושים אימונוהיסטוכימיה כנגד ‪5-‬‬
‫‪ 6‬מרקרים‪ .‬דיאגנוזה טובה תצליח לקבוע‬
‫באיזה סרטן מדובר וקובעים טיפול‪.‬‬
‫אם לא‪ ,‬משלימים עוד רצף אימונו‪-‬‬
‫היסטוכימיה‪.‬‬
‫אם‬
‫הדבר‬
‫שיפר‬
‫את‬
‫הדיאגנוזה אפשר להמשיך לטיפול‪.‬‬
‫הבעיה היא שלרוב הליך זה מוסיף רק‬
‫‪ 25%‬הצלחה‪ ,‬מכאן שיש צורך חמור‬
‫בשיטת קלאסיפיקציה משופרת‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪72‬‬
‫המחקר‬
‫את המחקר הוביל טרי גולוב – העבודה הראשונה לקחה ‪ ALL‬ו‪-‬‬
‫‪ ,AML‬שני סוגי לוקמיה אקוטיות ממקורות שונים )‪ 38‬דגימות‬
‫סה"כ(‪ ,‬וביצעה פרופילים במיקרואראי‪ .‬לאחר הוצאת ‪ 50‬גנים‬
‫מסווגים‪ ,‬הריצו טסט סט‪ .‬בדיקה של המיקרואראי מראה ‪100%‬‬
‫דיוק קלאספיקציה של הטסט – זאת לעומת בעיית זיהוי קלה‬
‫שמאפשרת זיהוי גם על ידי יותר מהסובסטרבט‪.‬‬
‫בשלב הבא לקחו ‪ 14‬סוגי גידולים שונים‪ .‬בתהליך זה הגדירו ולמדו‬
‫‪ SVM 14‬שונים אחד מול השני – סרטן המעי מול כל האחרים‪,‬‬
‫וכן הלאה‪ .‬כעת מריצים דגימות חדשות מ‪ 14-‬ה‪ SVM-‬שנוצרו‬
‫ובודקים מה נותן את התשובה הטובה ביותר מכחינת הסרטן והגן‪.‬‬
‫מה הרעיון הביולוגי?‬
‫תבנית ביטוי הגנים נקבעת על פי סוג‬
‫הריקמה‪ .‬סרטנים ממקורות שונים נגזרים‬
‫מתאים שנבעו מתהליכי התפתחות שונים‪,‬‬
‫ולכן לכל תא סרטני ביטוי גנים מובחן‬
‫וייחודי הנובע מתהליכי ההתפתחות שלו‪.‬‬
‫מסיבה זו יש לזהות את מאפייני הגידול‬
‫של מטופל‪/‬ת חדש‪/‬ה על מנת לדעת מהו‬
‫הטיפול המתאים לפרופיל הגידול‪.‬‬
‫הכנסת הליך סיווג מולקולארי של הסרטן‬
‫עשוי להיות החוליה בחסרה בארסנל הכלים לזיהוי הגידול‪ ,‬ולחסוך תהליכים רבים של אימונוהיסטוכימיה‬
‫שגם כך אחוזי ההצלחה שלהם נמוכים יחסית‪.‬‬
‫דוגמה שנייה‪ :‬ליגיונלה‬
‫ליגיונלה הוא חיידק פתוגני )המחלה קרויה על שם החיידק( שהתגלה לפני כ‪ 30-‬שנה‪ ,‬בחגיגות המאתיים‬
‫לארה"ב‪ :‬גדוד הליגיונרים‪ ,‬ותיקי הצבא ההאמריקאי‪ ,‬ערכו כנס במלון וכותרות העיתונים הזדעקו כי ‪20‬‬
‫מהם מתו ואחרים חלו‪ .‬לאחר ‪ 26‬שנים זה התפרץ שוב‪ .‬אחרי בדיקה נמצא קשר למחלה שתפרצה‬
‫בלגיונרים וקשר לחיידק‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :12‬למידת מכונות – המשך‬
‫‪73‬‬
‫החיידק מתרבה בגוף אמבות‪ .‬הוא נמצא במקווי מים עומדים‪ ,‬וחודר לאדם דרך רסס מים עומדים‪ ,‬כמו‬
‫שקיים במזגנים‪ .‬מאקרופאגים שמנסים לבלוע אותו מכווינים את הפאגוזום לליזוזום‪ ,‬אולם החיידק מפעיל‬
‫לוחמת נגד‪ ,‬עוטף את עצמו בוזיקולה מגנה‪ ,‬וכך‬
‫מתרבה בוזיקולה‪ .‬לאחר כמה מחזורי שיכפול הוא‬
‫מפתח שוטונים‪ ,‬מפוצץ את הבועה ואת התא ויוצא‬
‫החוצה‪.‬‬
‫מיהם האפקטורים של המנגנון? בעזרת למידת‬
‫מכונה ביצעו זיהוי לגנים כאפקטורים ולא אפקטורים‪ ,‬נתנו למכונה סט גנים לא ידועים והניחו לה ללמוד‬
‫אותם‪ .‬אלו שהיא חזתה כחיוביים לקחו למעבדה‪ ,‬השתמשו בשלל מאפיינים‪ ,‬הומולוגיה לרצפים אחרים‬
‫שקשורים ללמידת מכונות‪ ,‬קירבה לגנום‪ ,‬פרומוטור‪ ,‬פפטיד הפרשה שעוזר לחיידק לצאת מהמעטפת‬
‫שיצר‪ ,‬הומולגיה לחלבונים‪ ,‬אחוז ‪ G:C‬וכדומה‪.‬‬
‫אלו שסווגו לאחר בדיקות אלו כחיוביים נבדקו במעבדה‪ .‬לאחר שאושררה החיוביות שלהם הם נכנסו‬
‫לשימוש במערכת הדיאגנוסטית‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪74‬‬
‫שיעור ‪:12‬ביולוגיה של מערכות‬
‫שיטה זו מסתכלת על מערכות ביולוגיות באופן כולל‪ ,‬ללא התמקדות בפרט יחיד‪ .‬הפרספקטיבה בוחנת‬
‫מערכות ומנגנונים ביולוגים בהקשר המערכת השלמה ומחפשת תכונות הנגזרות מהמערכת כולה ולא‬
‫מפרטים ספציפיים‪.‬‬
‫מהי מערכת?‬
‫•‬
‫תא שלם‪.‬‬
‫•‬
‫המערכת הרגולטורית‪ ,‬הסיגנלינג‪ ,‬הנוירונים‪.‬‬
‫•‬
‫מעגל הבקרה של כימוטקסיס – המורכב במשלושה או ארבעה גנים‪.‬‬
‫הביולוגיה המסורתית היתה רדוקציוניסטית – ירידה מאורגניזמים למערכות‪ ,‬איברים‪ ,‬תאים וגנים‪ .‬הדבר‬
‫משול לחקר הפעילות של רדיו דרך נגד מסויים ומבלי להבין איך המערכת כולה עובדת‪ .‬את ההשלמה הזו‬
‫זה ביולוגיה של מערכות מנסה לספק‪ .‬אחד מהטריגרים לפריחת המדע הזה היא התפתחות ה‪– Omics-‬‬
‫מחקרים בתחומים הנוגעים להרבה מאוד פרוטאינים‪ ,‬אנזימים‪ ,‬גנומים וכדומה‪ .‬לרוב מנסים לעשות‬
‫אינטגרציה של נתונים‪.‬‬
‫השיטה מסתכלת על מערכות קטנות יחסית ומנסה לנתח אותן כמותית‪ ,‬כמו שאולי היה עושה מהנדס‬
‫אלקטרוניקה או פיזיקאי‪ .‬ניתן לבצע מדידות ברמה מאוד מפורטת ולעשות עימוד דינמי‪.‬‬
‫דוגמה‪ :‬התא האלקטרוני‬
‫להגיע לרמה של הבנת התא כך שניתן יהיה לבצע סימולציה מלאה של תא שלם וחי בעזרת מחשב‪ .‬זוהי‬
‫הממטרה הסופית כרגע )למרות שאחרי זה אפשר להמשיך לאיבר שלם או אורגניזם שלם(‪.‬‬
‫הרשת‬
‫רכיב חשוב בביולוגיה של מערכות‪ ,‬לפחות מהסוג הראשון‪,‬‬
‫הוא הרשת‪ .‬רשת מוגדרת מתמטית על ידי גרף‪ ,‬שהוא‬
‫אוסף של שני דברים‪ :‬קודקודים‬
‫)‪ (nodes‬וקשתות )‪ .(edges‬כל קשת‬
‫מחברת בין שני קודקודים‪.‬‬
‫גרף מתמטי הוא אוסף הקודקודים‬
‫ואוסף הקשתות כאשר כל קשת מוגדרת לאילו שני‬
‫קודקודים היא מחברת‪ .‬ניתן ללמוד את מבנה הרשת ואת הדינמיקה של הרשת – איך דברים משתנים עם‬
‫הזמן‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪:12‬ביולוגיה של מערכות‬
‫‪75‬‬
‫דוגמאות לרשתות המוגדרות בגרפים‪:‬‬
‫•‬
‫רשתות חברתיות – הקודקודים הם בני אדם‪ ,‬הקשתות הן אמצעי ההכרה או אינטראקציה ביניהם‪,‬‬
‫למשל האם הם שלחו אי מייל‪ ,‬קיימו מגע מיני‪ ,‬מכירים‪ ,‬חברים בפייסבוק וכו'‪ .‬עניין המגע המיני‬
‫מעניין בתחום מחקר מחלות מועברות במין‪.‬‬
‫•‬
‫רשתות מולקולאריות תאיות – הקודקודים הם מולקולות והקשתות הן אינטראקציות‪ ,‬דוגמת‬
‫מטאבוליטים שעוברים ממצב מטאבוליט אחד לאחר דרך אינטראקציה המתווכת לרוב על ידי אנזים‪.‬‬
‫•‬
‫מסלול העברת אותות – באיור‬
‫מופיעה רשת של ארבעת ה‪Map--‬‬
‫‪ Kinase‬של השמר‪ ,‬החל מרמת‬
‫הרצפטור ועד הגרעין והטרנס‪-‬‬
‫אקטיבציה‪ .‬קשתות אלו מסמלות‬
‫אקטיבציה או אינהיביציה‪ ,‬והסימון‬
‫שלהם הוא די קבוע – ראש חץ‬
‫וראש ישר‪ ,‬בהתאמה‪.‬‬
‫•‬
‫רשת בקרת הטרנסקריפציה – כל‬
‫גן שמבקר גן אחר על ידי התיישבות על הפרומוטור שלו הם שני גנים שיש ביניהם קשת‪ .‬גם כאן יש‬
‫כיווניות לקשתות – מי משפיע על מי‪ .‬מכאן שגרפים יכולים להיות מכוונים ולא מכוונים‪.‬‬
‫•‬
‫רשת אינטראקציות חלבון‪-‬חלבון – אינטראקציה פיזית בין חלבונים‪ ,‬כמו קינאז לחלבון שהוא‬
‫מזרחן או שני חלבונים מאותו קומפלקס‪.‬‬
‫•‬
‫ה‪ – WWW-‬רשת בה כל עמוד אינטרנט הוא קודקוד וכל לינק הוא קשת‪ .‬זוהי רשת מוכוונת – כי‬
‫לא בהכרח יש לינקים דו כיוונים‪.‬‬
‫•‬
‫האינטרנט – זוהי רשת מחשבים המחוברים פיזית‪ ,‬זאת לעומת ה‪ .WWW-‬כאן כל מחשב הוא‬
‫קודקוד וכל חיבור בין מחשבים הוא קשת‪ .‬הפרוטוקול של האינטרנט מחייב תקשורת דו כיוונית ולכן‬
‫אין כיווניות לקשתות‪.‬‬
‫•‬
‫רשת הקולבורציות האקדמית – כל חוקר הוא קודקוד ואם שני חוקרים כתבו יחד או עבדו יחד‬
‫‪13‬‬
‫בפרויקט עשו ביניהם קשת‪ .‬אין כיווניות ‪.‬‬
‫‪ 13‬בתמונה )שקף ‪ (15‬מופיע ארדש נאמבר‪ ,‬המתמטיקאי שפיתח במידה רבה את כל ענף הרשתות הרנדומליות‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪76‬‬
‫הגדרת תכונות הגרף‬
‫•‬
‫קשת יכולה להיות מכוונת ולא מכוונת‪.‬‬
‫•‬
‫ניתן להגדיר משקולות על קשתות – בהם לא‬
‫מתייחסים לכל הקשתות במידה שווה‪ ,‬יש‬
‫אינטראקציות חזקו פחות וחזקות יותק‪.‬‬
‫•‬
‫דרגת הקודקוד – מספר הקשתות שנכנסות‬
‫ויוצאות מהקודקוד‪ .‬בגרף לא מכוון אין הבדל‪,‬‬
‫בגרף מכוון מדברים גם על דרגת הכניסה‬
‫והיציאה של הקודקוד‪.‬‬
‫רשתות אקראיות‬
‫ארדש התחיל לפתח תחום זה בסוף שנות ה‪ 50-‬והגדיר גרף רנדומלי באופן הבא‪ :‬מתוך אוסף קודקודים‬
‫יש להגריל מספר קשתות בצורה רנדומלית לכל אחד מהם ולקשר אותן‪ .‬החשוב הוא שבגרף כזה‬
‫התפלגות מספר הקשתות בכל קודקוד המתקבלת קרובה לנורמלית‪ .‬דרגת הקישוריות של הקודקודים‪,‬‬
‫לפיכך‪ ,‬דומה בטווח מסויים‪.‬‬
‫רשתות חסרות‪-‬סקאלה‬
‫אולם‪ ,‬כאשר מסתכלים כמעט על כל הרשתות המוכרות מהעולם האמיתי‪ ,‬רואים מבנה לגמרי אחר – הן‬
‫לא נראות בכלל כמו הגרפים האקראים של ארדש אלא גרפים מסוג אחר – רשתות חסרות סקאלה‬
‫)‪ .(Scale-Free Networks‬רשתות כאלה מאופיינות במספר קטן של קודקודים )‪ (hubs‬המרכזים‬
‫קשתות ממספר גדול של קודקודים‪ ,‬בעוד שלרוב הקודקודים ברשת יש מספר קטן של חיבורים‪.‬‬
‫לרוב הקודקודים מספר קטן של חיבורים; למיעוטם יש רוב החיבורים‪ .‬זהו עקרון פארטו המוכר גם‬
‫בתור עקרון ‪ ,80-20‬כלומר ‪ 80%‬מהפעולה של מערכת מורכבת נעשה על ידי ‪ 20%‬מהשחקנים‬
‫הקיימים בה‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪:12‬ביולוגיה של מערכות‬
‫‪77‬‬
‫רוב הרשתות האמיתיות הן רשתות חסרות סקאלה‬
‫כמעט בכל הדוגמאות הטבעיות רואים את המבנה הזה ולא מבנה אקראי‪ .‬מדוע זה כך?‬
‫לפני כעשור באראבשי ואלברט הציעו מודל פשוט שמסביר מדוע הרשתות נראות כפי שהן נראות‪ :‬זהו‬
‫מודל בנייה המציע שאם רשת נבנית על בסיס שני כללים פשוטים היא תראה חסרת סקאלה‪ .‬הכללים הם‪:‬‬
‫•‬
‫גדילה בשלבים – הרשת יכולה להתחיל במספר קטן של קודקודים וקודקודים נוספים ייתווספו עם‬
‫הזמן‪.‬‬
‫•‬
‫חיבור קודקודים חדשים – ‪ – Preferential Attachment‬קודקוד חדש שנכנס בעל סיכוי טוב‬
‫יותר להיקשר לקודקוד ‪ Hub‬מאשר קודקוד עם מעט חיבורים )עקרון "‪.("the rich get richer‬‬
‫בסימולציה במחשב לפי שני עקרונות אלו מתקבלת הרשת באיור‪ ,‬וזה בדיוק המבנה של רשת חסרת‪-‬‬
‫סקאלה‪ .‬אבל לא כל הרשתות בטבע נוצרו כך; הרי ה‪ Yahoo ,WWW-‬או ‪ Google‬אינן עובדות כך –‬
‫הן לא הקודקודים הכי וותיקים ברשת ועדיין הם מאוד מקושרים‪ .‬גם כאשר משווים בין יצורים קדומים‬
‫למאוחרים יש יותר גנים בהתקדמות ההאבולוציונית ויש יותר קודקודים‪.‬‬
‫אם חלבונים נוצרים בדופליקציה‪ ,‬בזמן הדופליקציה לשני הדופליקטים יש אותם לינקים לחלבונים שלפני‬
‫הדופליקציה העותק היחיד היה מחובר אליהם‪ .‬אם היה קודקוד אחד שהיה מרכזי והקישורים שלו‬
‫משתכפלים‪ ,‬הקישורים גדלים‪ ,‬ואז אולי זה מנגנון לעקרון ‪.rich get richer‬‬
‫תכונות של רשתות חסרות‪-‬סקאלה‬
‫מה קורה כשפוגעים )משמידים( בקודקוד מסויים ברשת כזו? רוב הסיכויים שהקודקוד לא הכיל חיבורים‬
‫רבים ולכן הקישוריות של הרשת לא תיפגע משמעותית; אך אם הפגיעה הייתה ב‪ ,hub-‬לדבר תהיה‬
‫השפעה הרסנית על הרשת‪ .‬מתוך מחשבה זו‪ ,‬ברבאשי הסתכל על ה‪ PPI-‬שראינו קודם‪.‬‬
‫הקודקודים‬
‫האדומים‬
‫ליתאליים‬
‫בנוקאאוט‪ .‬הירוקים אינם ליתאליים‪ .‬ניתן‬
‫לראות שרוב ה‪ hubs-‬מכילים קודקוד‬
‫אדום במרכזם בעוד שקצוות ה‪hub-‬‬
‫לרוב ירוקים‪ .‬בין הרבה קודקודים עומד‬
‫גן חיוני‪ .‬זה מאוד הגיוני‪ :‬גן חיוני מקיים‬
‫אינטראקצייות גנטיות רבות ולכן פגיעה‬
‫בו תביא להשפעה יותר הרסנית מפגיעה‬
‫בגנים עליהם הוא משפיע‪.‬‬
‫כמו כן כמותה העמידות של רשת חסרת‪-‬‬
‫סקאלה לעומת רשת אקראית‪ ,‬ונראה‬
‫שניתן לפגוע אקראית בקודקודים בלי‬
‫לפגוע ממש ברשת‪ .‬זה מסביר למה אורגניזמים יכולים לשרוד גם לאחר שמספר גנים עברו מוטציות‪.‬‬
‫המוטציות הן רנדומליות ולכן הם יוכלו לשרוד אותן‪ .‬לעומת זאת‪ ,‬פגיעה מכוונת ב‪ hub-‬יכולה להיות‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪78‬‬
‫קטלנית‪ .‬ברשת עובדה זו תנוצל‪ :‬האקרים באינטרנט‪ ,‬פאראזיטים במאחסן או תאים סרטניים יתקפו‬
‫אתרים‪/‬חלבונים שהם ‪) hubs‬כמו ‪ p53‬המותקף בסרטן(‪ ,‬כך שנוצר ‪ – cascading failure effect‬הם‬
‫גורמים לכשל מתגלגל‪.‬‬
‫אורך מסלול ממוצע‬
‫אורך מסלול בין שני קודקודים הוא מספר הקשתות שצריך לעבור על מסלול כלשהו בין שני הקודקודים‬
‫האלה‪ .‬האורך הזה יכול להיות מסלול מינימלי או כל מסלול אחר בין שני הקודקודים‪ .‬המסלול המינימלי‬
‫לרוב מתואר בתור המרחק בין שני הקודקודים‪ .‬המרחק הממוצע‬
‫הוא הממוצע בין כל המרחקים שבין זוגות הקודקודים ברשת‪.‬‬
‫המרחק הממוצע לרוב קטן בין שני ‪.scale-nodes‬‬
‫עקרון העולם הקטן אומר שניתן למצוא עד שישה אנשים כדי‬
‫למצוא קשר בין כל שני אנשים בעולם‪.‬‬
‫ברשת של ריאקציות מטאבוליות‪ ,‬בין כל זוג מטאבולים אפשר‬
‫להגיע אחד לשני דרך מספר קטן של ריאקציות‪.‬‬
‫מאפייני הרשת – ‪Network Motifs‬‬
‫המוטיבציה‬
‫בעזרת כלים שונים ניתן ללמוד מבנים של רשתות ביולוגיות גדולות מאוד – למשל ‪ PPI‬של כל חלבוני‬
‫השמר או הרשת הרגולטורית בכל ‪ 1500‬הגנים של הקולי; אולם במערכות אחרות חוקרים כבר ‪150‬‬
‫שנה אינטראקציות קטנות בין סוג גנים‪ .‬האם יש רמת ביניים של ארגון שיכולה לתווך בין שני קצוות אלו‬
‫של הסקאלה‪ ,‬בין הגן הבודד לרשת כולה? האם יש עקרונות תכנון אבולוציוני לפיהם הרשת הביולוגית‬
‫מתוכננת?‬
‫רשתות גדולות המכילות מאות ואלפי ‪ nodes‬ועל התכונות שלהן; אך נראה שחסרה רמת ביניים של‬
‫ארגון שתעזור להבין איך הרשתות עובדות – בין מבנה הרשת לבין האינטראקציות של חלבון בודד או‬
‫בין זוג חלבונים‪.‬‬
‫באלקטרוניקה בונים מעגלים עם פונקציה מסויימת; בביולוגיה המעגלים עוצבו מכוח האבולוציה ולכן‬
‫נדרשה עבודה רבה על מנת לנסות לאפיין אותם ולהבין את התפקוד של תתי מעגלים קטנים‪.‬‬
‫תתי מעגלים פונקציונאלים קטנים‬
‫מעגלי משוב חיובי ושלילי ומשובי איניהיביציה הדדית יהיו המודל הראשון‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪:12‬ביולוגיה של מערכות‬
‫‪79‬‬
‫משוב חיובי‬
‫בין שני גנים‪ ,‬האחד מפעיל את השני והשני מפעיל‬
‫את הראשון‪ .‬בצורה זו הפעלה של אחד הגנים תגרום‬
‫להגברה משמעותית של שניהם‪ .‬למערכת כזו יש שני‬
‫מצבים יציבים‪ :‬שני הגנים מופעלים או שני הגנים‬
‫כבויים‪.‬‬
‫מתמטית‪ ,‬מצב הפעילות של שני הגנים ללא שום מגבלות אינו מצב יציב – כל הפעלה תגרום לעלייה עד‬
‫אינסוף; אולם מערכות ביולוגיות לא בנויות על הפעלה לינארית אחידה ולכן נראה מצב גבוה יציב‪ ,‬שרק‬
‫נראה כאילו הוא קרוב להתפוצצות או הגעה לאינסוף‪.‬‬
‫יכול להיות גם משוב עצמי של גן יחיד‪ ,‬שכאשר הוא מופעל התוצר שלו גורם להפעלה נוספת של ביטוי‬
‫אותו הגן‪.‬‬
‫על פי רוב‪ ,‬על מנת שמערכות יוכלו לעבור ממצב למצב נדרש סיגנל חיצוני – בין אם חלקיק סיגנל או‬
‫פקטור שיעתוק נוסף שמפעיל את המערכת‪ .‬כאשר הסיגנל מפעיל את המערכת‪ ,‬יש להגיע לסף מסויים‬
‫של הפעלת ‪ X‬על מנת לגרום להצטברות של הגורם השני ‪ ,Y‬ולכן העלייה הגרפית תהיה איטית; בשלב‬
‫מסויים המשוב החיובי נכנס לפעולה‪ ,‬שני הגנים מגבירים אחד את השני ויש מעבר למצב אחר – מופעל‪.‬‬
‫כעת ניתן להחליש את הסיגנל הראשוני מבלי לפגוע במערכת – כי הגנים כבר מתחזקים אחד את השני‪.‬‬
‫במצב זה יש ביטוי לשני המצבים היציבים – ‪ – bistability‬כי גם אם יוחלש הסיגנל לאט לאט הירידה‬
‫תיעשה במסלול השונה מזה של העלייה‪.‬‬
‫המערכת זו יכולה להתנהג כמו מתג הפעלה‪/‬כיבוי‪ .‬זהו מצב דומה ל"נתיך"‪ .‬מוות תאי הוא דוגמה לכך‪:‬‬
‫כאשר מסלול האפופטוזיס המיטוכונדריאלי ביונקים עובר סף אקטיבציה מסויים‪ ,‬הוא גורם להתפרקות‬
‫של המיטוכונדריה והרס מערכות התא עד שהתא גוסס ומת‪ .‬משום כך כאשר מגיעים לשיא ההפעלה של‬
‫המערכת לא ניתן לחזור משם )כמו נתיך שרוף‪ ,‬שאפשר להחליף אולם אי אפשר לתקן(‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪80‬‬
‫אינהיביציה הדדית‬
‫במצב זה שני הגנים מעכבים אחד את השני‪ ,‬כך שכאשר האחד פעיל השני‬
‫מעוכב‪ .‬גם דבר זה גורם לבי‪-‬סטאביליות‪ .‬בביולוגיה‪ ,‬גם המצב בו שני‬
‫הגנים יהיו כבויים יהיה מצב יציב; מכיוון שבביולוגיה תמיד יש ביטוי זולג‪,‬‬
‫יש אפילו מצבי אוטו‪-‬אקטיבציה מאוזנת אשר בה אם אחד עולה יותר הוא‬
‫מתחיל במסלול עיכוב של השני וההיפך‪ .‬מצב זה דוחף את התא לאחד ה‪ ,fates-‬לאחד הגורלות שקובעים‬
‫מה תהיה השלכת הפעילות של הגנים על התא‪ .‬מסיבה זו המסלול פעיל במיוחד בתוכניות התפתחותיות‪.‬‬
‫משוב שלילי‬
‫מצב שבו מרכיב אחד מפעיל את השני‬
‫והשני מדכא את הראשון‪ .‬במצב הזה אין‬
‫בי‪-‬סטאביליות‪ ,‬אבל בתלות בערכי‬
‫פרמטרי‬
‫וקבועי‬
‫האקטיבציה‪,‬‬
‫האינהיביציה‬
‫שלהם‬
‫לקבל‬
‫הזמן‬
‫ניתן‬
‫התנהגויות שונות אפשריות‪.‬‬
‫אחת ההתנהגיות האפשריות היא אוסילציה‪ ,‬דוגמת השעון הצירקאדי )יומי( המבקר פעילויות בהתאם‬
‫לאורך היום; אם משנים את הפרמטרים אפשר לקבל אטנואציה‪ ,‬אוסילציות שהולכות ויורדות עם הזמן;‬
‫שינוי אחר יביא להיעלמות האוסילציות בכלל ורילקסציה מהירה לאחר הגעה לערך כלשהו – במקום‬
‫רוויה של ‪ X‬המייצר את ‪ ,Y‬הוספת ‪ Y‬תביא רוויה בערך נמוך יותר ומהר יותר‪ .‬בצורה זו התגובה מואצת‬
‫ומיוצבת בו זמנית‪.‬‬
‫מוטיבים של רשתות‬
‫האם יש ארגון שדרכו ניתן להסביר את הרשתות המוכרות‪ ,‬האם יש מוטיבים שחוזרים על עצמם יותר‬
‫מאשר בצורה אקראית‪ ,‬המופיעים הרבה ברשתות וייתכן שיש להם משמעות פונקציונאלית?‬
‫נניח שאין מוטיבים פונקציונאלים שהטבע למד ומשתמש בהם שוב ושוב; משמעות הדבר היא שמוטיבים‬
‫קטנים של שלושה‪-‬ארבעה חלבונים ברשת יכולים להופיע באותה השכיחות של מוטיבים אחרים – אף‬
‫מוטיב לא יעבור סלקציה חיובית עם האבולוציה‪ .‬לעומת זאת מוטיבים בעלי יתרון פונקציונאלי‪ ,‬ניתן‬
‫לצפות שהאבולוציה "תלמד" לחזור עליהם בצורה שכיחה יותר במערכת‪.‬‬
‫איך מגדירים מוטיבים שכיחים יותר? תחילה קבוצת‬
‫המחקר שהתמודדה עם שאלה זו התרכזה במוטיבים‬
‫של ‪ 3-4‬קודקודים‪ .‬ברשת מכוונת יש ‪ 13‬מוטיבים‬
‫אפשריים של חיבוריות בין שלושה נודים‪ .‬בין‬
‫ארבעה קודקודים יש ‪ 199‬מוטיבים‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪:12‬ביולוגיה של מערכות‬
‫‪81‬‬
‫לאחר הרכבת סוגי המוטיבים האפשריים ניתן לבדוק בקבוצה של רשת רנדומית כמה פעמים כל מוטיב‬
‫מופיע )תוך שמוודאים שהרשת אכן רנדומית(; לאחר יש לעבור לרשת האמיתית ולבדוק האם תבנית‬
‫השכיחות מתאימה לתבנית של הרשת הרנדומית או לא‪ .‬אם מוטיב מסויים מופיע יותר מהשכיחות‬
‫הצפוייה שלו‪ ,‬נאמר שהרשת מועשרת )‪ (enriched‬עבור אותו מוטיב‪.‬‬
‫ברשת השיעתוק של ‪ E.coli‬נמצאו‬
‫המוטיבים משמאל בתור המוטיבים‬
‫השכיחים ביותר‪ .‬הללו היו היחידים‬
‫שהיו מועשרים בצורה מובהקת מעבר‬
‫למצב האקראי‪ .‬ניתן אולי לומר שזה יד המקרה‪ ,‬אולם גם כשבדקו את רשת שמר האפייה מצאו את אותם‬
‫מוטיבים בתור המועשרים – והמועשרים היחידים‪ .14‬גם בתולעת ‪ C.elegans‬שני המוטיבים האלה עולים‬
‫בצורה מובהקת‪ .‬מה שיותר מפתיע הוא שגם ברשתות אלקטרוניות מסוג מסויים ראו את אותם‬
‫המוטיבים‪.‬‬
‫כאשר סקרו רשתות שונות של החיים‪ ,‬נמצא כי יש מוטיבים ספציפיים שהם המועשרים האקסקלוסיבים‬
‫כמעט תמיד‪ .‬אפשר לסווג את הרשתות לרשתות העברת אינפורמציה‪ ,‬העברת אנרגיה )כמו טורף‪/‬נטרף(‬
‫וזרימת אינפורמציה שלא במובן עיבוד אינפורמציה )כמו ה‪ .(WWW-‬בכל רשתות האינפורמציה –‬
‫אלקטרונית או ביולוגית – רואים אותם מוטיבים חוזרים‪.‬‬
‫‪ 14‬שימו לב שאין כאן חלוקה לפי כיווניות החצים‪ ,‬אקטיבציה או אינהיביציה‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪82‬‬
‫מבנה המוטיב של שלושת הקודקודים נחקר על ידי הקבוצה‪ ,‬וכונה ‪Feed-‬‬
‫‪ .forward loop‬המבנה מכיל שני גורמי שיעתוק‪ X ,‬ו‪ ,Y-‬כאשר ‪ X‬מפעיל‬
‫את ‪ ,Y‬וכל אחד מהם יכול להפעיל את ‪ .Z‬הסוג הזה של ‪Feed-Forward‬‬
‫‪ Loop‬הוא מסוג ‪ .Coherent feed-forward loop15‬הסיבה לכך היא‬
‫ששני המסלולים – הישיר והעקיף – מסכימים )קוהרנטיים( זה עם זה‪.‬‬
‫מבחינת השפעה של ‪ X‬ו‪ Y-‬על ‪,Z‬‬
‫אפשר לחשוב על שתי אפשרויות‬
‫פשוטות‪ :‬מעגל ‪ AND‬ומעגל ‪:OR‬‬
‫•‬
‫‪ – X AND Y‬צריך שגם ‪ X‬וגם ‪Y‬‬
‫ייפעלו על מנת להפעיל את ‪,Z‬‬
‫למשל שני פקטורי שיעתוק היוצרים‬
‫הטרודימר שמפעיל את גן ‪ .Z‬במצב‬
‫זה ההפעלה תהיה איטית והכיבוי‬
‫יהיה מהיר‪.‬‬
‫ההפעלה איטית משום שנדרשת‬
‫כמות מספקת משני הפקטורים‪ :‬יש‬
‫לחכות ש‪ X-‬יצטבר‪ ,‬יגיע לסף בו‬
‫הוא מתחיל להפעיל את ‪ Y‬ואז‬
‫להמתין עד ש‪ Y-‬יגיע לסף בו הוא‬
‫מפעיל את ‪.Z‬‬
‫לעומת זאת בכיבוי‪ X ,‬מתחיל לרדת בתום הסיגנל וכאשר הוא מגיע לסף מסויים מתחילה ירידה ב‪Y-‬‬
‫)עם עיכוב קטן מסוף הסיגנל‪ ,‬למרות שיכול להיות שזה מקוזז על ידי קצבי ירידה אחרים(‪ .‬אולם‪,‬‬
‫מכיוון ש‪ Z-‬זקוק לשני הפקטורים הוא יהיה רגיש לירידה של הראשון ולא השני – ולכן הגורם‬
‫המשפיע על הירידה של ‪ Z‬יהיה הירידה של ‪.X‬‬
‫המסלול הזה יעיל בסינון רעשים – אם יש סיגנל "רעש" שגורם להתחלה של ההפעלה של ‪ X‬אבל‬
‫זהו אינו סיגנל אמיתי באורך הדרוש‪ X ,‬לא יספיק להפעיל את ‪ Y‬או שהוא יתחיל להפעיל אותו אבל‬
‫‪ Y‬לא יגיע למצב שהוא יכול להפעיל את ‪ ;Z‬מתקבל מצב ש‪ X-‬ו‪ Y-‬אינם מגיעים למצב המאפשר‬
‫הפעלה של ‪ Z‬והרעש הזה‪ ,‬שמשפיע על ‪ X‬ואולי על ‪ ,Y‬אינו משפיע על ‪.Z‬‬
‫אם יש רעש בכיבוי‪ ,‬הרעש לא יסונן מכיוון ש‪ Z-‬רגיש לפקטור הראשון שיושפע מהירידה בסיגנל‪,‬‬
‫גם אם הירידה היא רגעית עקב רעש )אבל ארוכה דיה לרדת מתחת לסף הדרוש(‪.‬‬
‫‪ 15‬סוג נוסף של לופ קוהרנטי יכול להיות מצב בו ‪ X‬הוא איהיביטורי של ‪ X ,Z‬הוא מפעיל של ‪ Y‬שהוא איהיביטורי של ‪X ;Z‬‬
‫אינהיביטורי של ‪ Z‬ואינהיביטורי של ‪ Y‬שהוא אקטיבטור של ‪ ;Z‬ו‪ X-‬הוא אקטיבטור של ‪ Z‬ומפעיל של ‪ Y‬שהוא אקטיבטור‬
‫של ‪.Z‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪:12‬ביולוגיה של מערכות‬
‫•‬
‫‪83‬‬
‫‪ – X OR Y‬מבטא מצב של‬
‫‪ ,redundancy‬למשל שני פקטורי‬
‫שיעתוק‬
‫הומולוגים‬
‫שנקשרים‬
‫במקומות דומים‪ ,‬ומספיק שאחד‬
‫מהם יהיה קשור כדי לעורר ביטוי‬
‫של ‪.Z‬‬
‫במצב זה הסיגנל אינו תלוי; ההתנהגות של ‪ X‬ו‪ Y-‬תהיה כמו קודם )הפעלה איטית של ‪ Y‬על ידי ‪(X‬‬
‫אולם כעת ‪ Z‬יתחיל לפעול כאשר הראשון מביניהם יעבור את סף ההפעלה של ‪ Z‬ויתחיל לרדת‬
‫כאשר האחרון מביניהם יעבור את סף הכיבוי של ‪ .Z‬כתוצאה תתקבל הפעלה מוקדמת יותר ועיכוב‬
‫בכיבוי‪.‬‬
‫במקרה הזה הרגישות לרעשים תהיה הפוכה – לא יסונן רעש לש הפעלה אבל כן יהיה סינון של‬
‫רעשי כיבוי‪.‬‬
‫לופ אינקוהרנטי‬
‫יש ארבעה סוגים של הפעלה קוהרנטית; אך יותר‬
‫מכך יש התנהגויות אינקוהרנטיות‪ .‬תגובות אלו‬
‫יכולות להאיץ תגובה התחלתית‪ ,‬לייצר פולסים‬
‫ולגלות שינויי‪-‬קיפול )‪ ,(fold change‬כלומר להגיב‬
‫באותה צורה לשינוי בסיגנל שהוא שינוי ב‪ – fold change-‬אם הסיגנל עולה מ‪ 2-‬ל‪ 4-‬הוא יגיב באופן‬
‫מסויים ואם יעלה מ‪ 20-‬ל‪ 40-‬הוא יגיב באופן אחר – הוא יודע לחשב בכמה עלה הסיגנל ולהגיב‬
‫בהתאם‪ ,‬מה שלא ניתן לומר על הסוגים הקוהרנטים‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪84‬‬
‫שיעור ‪ :13‬החלטות גורל התא‬
‫מוטיבציה‬
‫ללא שיטת דימות )‪ (imaging‬ישירה לתאים בודדים לא ניתן היה להעריך את אורך הזמן והדינמיקה של‬
‫תופעות רבות‪ .‬הבעיה היא שרוב השיטות המוכרות – מיקרואראי‪ ,‬ג'לים‪ ,‬בלוטינג – מרסקות תאים‬
‫וממצעות את האוכלוסיה‪ .‬הדימות מאפשר מעקב ברמת התא הבודד אחר תופעות דינמיות‪.‬‬
‫גם במקרים בהם שולטים בצורה מדוייקת בתנאים החיצוניים‪ ,‬כך שכל התאים יראו אותם תנאים ולא יהיו‬
‫מושפעים משינויים עקב השכנים או המדיום‪ ,‬עדיין רואים שונות בתגובות – בכל מערכות החיים‪ ,‬בכל‬
‫מיני סוגי תהליכים – בין אם ספורולציה בשמרים‪ ,‬פילמנטציה בפטריות‪ ,‬אפופטוזיס כתגובה לתרופה או‬
‫התמיינות של תאים בצלחת‪.‬‬
‫כל השיטות המסורתיות עושות מיצוע ולכן צריך שיטת דימות להסתכלות ברמת התאים הבודדים‪.‬‬
‫מעקב אחר תאים ברמת התא הבודד‬
‫המהפכה העיקרית בתחום זה נעשתה על ידי ‪ ,GFP‬חלבון המאפשר סימון ופיקוח על חלבונים ספציפיים‬
‫בתנאי ‪ .in vivo‬חוקרים שונים עובדים כל חייהם בפיתוח צבעים שונים של חלבונים ממשפחת ‪.GFP‬‬
‫דוגמה‪ :‬מיוזה בשמרים‬
‫שמרים בתנאי עקה יעברו מיוזה‪ ,‬וזוהי עובדה; אולם השאלה הגדולה היא‬
‫מתי הם מחליטים לעבור חלוקה זו‪ .,‬כל עוד יש להם אוכל‪ ,‬שמרים מתחלקים‬
‫מיטוטית; רק בתנאי עקה הם יעברו מיוזה וספורולציה ליצירת נבגים עטופים‬
‫באסקוס קשיח שעמיד בפני מרבית תנאי העקה לפרקי זמן ממושכים מאוד‪.‬‬
‫מצבים כאלה הם דוגמה לחשיבות של סינון רעשים ב‪ :input-‬כל עוד השמר מתחלק מיטוטית יש לו יתרון‬
‫על אלו שמתחלקים מיוטית ולכן חשוב יתחיל ספורולציה בכל ירידה קטנה ונקודתית בגלוקוז‪ .‬משום כך‬
‫הרגולציה על מיוזה עוברת מבנה קלאסי של רשתות ביולוגיות – הסיגנלים מתקבלים על ידי רצפטורים‬
‫מסויימים‪ ,‬המקשיבים לריכוז של נוטריינטים שונים; האותות מתרכזים בגורמי שיעתוק המפזרים את‬
‫המידע מלמעלה כלפי מטה – לחלבונים ולגנים‬
‫שצריכים להוציא לפועל את השינוי במחזור חיי‬
‫התא‪.‬‬
‫בגישת ‪ ,Life Cell Imaging‬ניתן לסמן את אחד‬
‫הגנים המוקדמים של המיוזה בזן של ‪ ,GFP‬לגדל‬
‫את השמר בתנאים טובים ואז לתת פולס הרעבה‪.‬‬
‫כעת מצלמים את הצלחת במיקרוסקופ ממונע‪,‬‬
‫שיכול לצלם ‪ 50‬שדות שונים על הצלחת ולהפיק‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :13‬החלטות גורל התא‬
‫‪85‬‬
‫‪ 50‬סרטים‪ .‬בתחילת הסרט לא רואים כלום כי הגן‬
‫של המיוזה עוד לא הצטבר‪ ,‬אבל בהמשך ניתן‬
‫לראות הצטברות כמו גם את החלוקה המיוטית של‬
‫התאים לשני גרעינים ואז לארבעה‪ .‬בסרט ניתן לראות וריאביליות בתזמון הכניסה למיוזה או בקצב‬
‫ההתקדמות בין שלבי המיוזה השונים‪.‬‬
‫‪Image Analysis‬‬
‫כדי להפיק ולנתח את הנתונים‪ ,‬יש למלא אחר כמה שלבים‪:‬‬
‫•‬
‫סגמנטציה – המחשב צריך לזהות את התאים ולסמן אותם‪ .‬בשמרים זה די פשוט‪ ,‬כי הם עגולים‬
‫יחסית ולכן ניתן לזהות אותם‪ .‬בתאים הומאניים או תאי יונקים אחרים יש שונות הרבה יותר גבוהה‬
‫בין סוגי התאים ולכן זה נחשב‪ ,‬באופן טיפוסי‪ ,‬השלב הקשה‪.‬‬
‫•‬
‫מיפוי התאים על פני הזמן – לדעת לשרשר בין זמנים שונים‪.‬‬
‫•‬
‫זיהוי נקודות זוהרות של ‪.YFP‬‬
‫•‬
‫מיפוי של הנקודות הזוהרות לתא שהכיל אותן‪.‬‬
‫לאחר שמתגברים על מכשולים אלו בדרך לאנאליזה ניתן לקבל את רמות ה‪ YFP-‬בתא שמר בודד וכיצד‬
‫הרמה הזו משתנה כפוקנציה של הזמן‪ .‬חשיבות הדבר היא בתזמון התרחשות נקודת ההחלטה‪.‬‬
‫בסרט ניתן לראות דינמיקה קבועה יחסית‪ ,‬אחידה‪ ,‬של הזמן בו הבלובים נפרדים אלו מאלו ולכן ניתן לזהות‬
‫מתי מתרחשת המיוזה הראשונה ומתי השנייה‪.‬‬
‫דימות תאים חיים‬
‫האנליזה מציגה את כמות החלבון בתא‬
‫בודד במיקום מסויים‪ ,‬למשל בגרעין;‬
‫המחשב גם יודע לזהות מיוזות ראשונה‬
‫ושנייה‪ ,‬ומפיק גרף דוגמת זה שמשמאל‬
‫עבור כל אחד מהתאים‪ .‬מסוג כזה של‬
‫נתונים‬
‫ניתן‬
‫להוציא‬
‫מספר‬
‫סוגי‬
‫סטטיסטיקות )שקף ‪:(15‬‬
‫•‬
‫זמני מאורעות – למשל‪ ,‬התפלגות זמן ההחלטה להתחייב לחלוקה‪ ,‬שהוא נקודת חלוקת המיוזה‬
‫הראשונה‪ .‬ניתן לנתח את המידע שהתקבל לפי נתון זה ולקבל היסטוגרמה של התפלגות הזמנית‪,‬‬
‫המראה שהתאים מתחילים להתחייב בין ‪ 7-24‬שעות לאחר תחילת ההרעבה‪.‬‬
‫•‬
‫פירוק מקטעי הזמן – ניתן לבדוק מתי רמת הגן עולה בקצב מקסימלי‪ ,‬להגדיר זאת כאירוע הדלקה‬
‫מירבית ולציין את התזמון של זה‪.‬‬
‫•‬
‫קורלציה בין מאורעות – התאמה בין שני מרווחי זמן לא אפשרית באף שיטה אחרת‪ FACS .‬יכול‬
‫לחלק תאים ולהראות תבנית של גודל לעומת רמות פלורסנציה‪ ,‬אבל חסר לנו נתון של מימד הזמן –‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬
‫ביואינפורמטיקה ‪ -‬שיעור‬
‫‪86‬‬
‫מתקבלת תמונה בודדת של התרבית ולא ניתן לעקוב אחר תאים ספציפיים לאורך הזמן‪ .‬בשיטה זו‬
‫מתקבלת גם אינפורמציה על ההיסטוריה של התאים וניתן לראות מה ההתאמה בין ההסטוריה של‬
‫אירועים איטיים ומהירים – האם תאים שהיו איטיים במרווח זמן אחד יהיו איטיים גם במרווח הזמן‬
‫השני )התשובה שלא‪ ,‬אין התאמה(‪.‬‬
‫•‬
‫קורלציה בין מאורעות בעזרת פלואורפור נוסף – ניתן להוסיף למערכת עוד פלואורופור ולבדוק‬
‫קורלציה בין גורמים נוספים –‬
‫למשל האם זמן המיוזה נמצא‬
‫בקורלציה לשלב מחזור התא בו היה‬
‫השמר‪ .‬מכיוון שרואים שהשונות בין‬
‫הזמנים דומה ניתן להבין שאין‬
‫קורלציה בין זמן המיטוזה האחרונה‬
‫למיוזה הראשונה‪.‬‬
‫•‬
‫קורלציה בין רמות מולקולאריות‬
‫לבין תזמונים – ניתן לבחון פעילות‬
‫פרומוטור מסויים‪ ,‬ולראות לפי‬
‫הגרפים של תאים בודדים האם‬
‫השונות מספקת אינפורמציה לגבי‬
‫תיזמון זמן הכניסה לתהליך‪ .‬במקרה‬
‫שבאיור רואים קורלציה שלילית –‬
‫ככל שזמן פעילות הפרומוטור קצר‬
‫יותר הזמן עד הכניסה לתהליך היה‬
‫קצר יותר‪.‬‬
‫התרשים התחתון מסכם את תהליך‬
‫הכניסה של מיוזה בשמר‪ .‬ניתן גם למדוד‬
‫דברים נוספים כמו גודל התא‪ ,‬צורה‪,‬‬
‫רמות‬
‫מולקולאריות‬
‫שונות‬
‫וכימות‬
‫סטטיסטי ברמת התאים הבודדים‪ .‬כל זה‬
‫מתאפשר תודות למדגמים גדולים של‬
‫תאים ומעקב טמפורלי אחר התאים‬
‫המודד רמות מולקולאריות שונות‪.‬‬
‫בסרט התא שנכנס למצב ‪ competence‬לזמן מסויים ומפסיק )תחילת המצגת(‪ ,‬הקבוצה שעשתה את‬
‫המחקר ניסתה להסביר מדוע התופעה נדירה וטרנסגנטית‪ .‬הם הציעו מודל המבוסס על הרבה קשרים ידועים‬
‫ומעגלים של משובים חיוביים ושליליים‪ .‬הם יכלו לבדוק את ההתנהגויות החזויות במודל בעזרת דימות תאים‬
‫חיים‪ .‬כל גרף מראה מעקב באותו התא אחר גנים שונים‪ ,‬והצליחו להראות שיש אנטי‪-‬קורלציה מושלמת בין‬
‫שני הגנים – דבר שחזה המודל שלהם‪.‬‬
‫חמוטל בן דב‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫שיעור ‪ :13‬החלטות גורל התא‬
‫‪87‬‬
‫סיכום‬
‫אחת המוטיבציות הייתה שתאים שונים‪ ,‬גם באוכלוסיה שמתחילה באותו מצב‪ ,‬מגיבים שונה – תאי סרטן‬
‫מגיבים לטיפול או לא; התמיינות מתרחשת או לא; מיקרוסקופיה של תאים בודדים יכולה לכמת את‬
‫ההבדלים האלה‪ ,‬תזמון המאורעות לאורך זמן ותזמון המאורעות בתא‪.‬‬
‫החוג לביולוגיה‪ ,‬אוניברסיטת תל אביב‪2011 ,‬‬
‫חמוטל בן דב‬