שם המציע: ניר אילון 1. יסודות אלגוריתמיים למידע מאסיבי שם

‫‪ .1‬שם המציע‪ :‬ניר אילון‬
‫‪ .2‬שם הקורס‪ :‬יסודות אלגוריתמיים למידע מאסיבי‬
‫‪Foundations of Algorithms for Massive Datasets‬‬
‫‪( .3‬מבוא להסתברות מ ‪ 094412‬ו‪ 234218-‬מבני נתונים ‪ 1‬ו‪ 104167 -‬אלגברה א') או (מבוא להסתברות‬
‫ח ‪ 104034‬ו‪ 234218 -‬ו‪) 104167 -‬‬
‫‪ .4‬קורסים צמודים‪ :‬אין‬
‫‪ .5‬קורסים ללא זיכוי נוסף‪ :‬אין‬
‫‪ .6‬ניקוד מוצע‪ 2 :‬נק‬
‫‪ .7‬מספר שעות הרצאה‪ ,2 :‬עבודת בית‪4 :‬‬
‫‪ .8‬הקורס יועבר בסמסטר א בדרך כלל‬
‫‪ .9‬סוג הציון‪ :‬מאוני‬
‫‪ .10‬צורת קביעת הציון‪( 5 :‬מעקב ‪ +‬עבודה)‬
‫‪ .11‬הקורס מיועד הן למוסמכים והן להסמכה (רצוי שנים ‪ 3‬או ‪)4‬‬
‫‪ .12‬סילבוס באנגלית ובעברית‪:‬‬
‫‪Algorithmic techniques for handling large, high-dimensional datasets for which we can only afford linear‬‬
‫‪or even sub-linear time and space resources. The course begins with laying important mathematical‬‬
‫‪foundations (large deviation bounds, normed spaces). Topics include streaming, lower bounds for‬‬
‫‪streaming using communication complexity, dimensionality reduction and the Johnson-Lindenstrauss‬‬
‫‪lemma, Locality Sensitive Hashing (LST), large scale numerical linear algebra, the matrix completion‬‬
‫‪problem, convex relaxations of low-rank, the MapReduce distributed computation paradigm‬‬
‫‪Learning Outcomes: At the end of the course, the students will understand important mathematical‬‬
‫‪principles for data intensive algorithms, and learn how to use these principles in modern algorithm‬‬
‫‪design.‬‬
‫שיטות אלגוריתמיות לטיפול במידע מאסיבי‪ ,‬רב‪-‬מימדי שמאפשר הקצאה של משאבי זמן ומקום לינאריים או תת‪-‬‬
‫לינאריים בלבד‪ .‬הקורס מתחיל בהנחת יסודות מתמטיים (חסמים על זנבות של התפלגויות‪ ,‬מרחבים נורמים)‬
‫נושאים‪ :‬סטרימינג )‪ ,(streaming‬חסמים תחתונים לסטרימינג דרך סיבוכיות תקשורת‪ ,‬הורדת מימד ולמת ג'ונסון‪-‬‬
‫לינדנשטראוס‪ ,Locality Sensitive Hashing (LSH) ,‬שיטות נומריות לאלגברה לינארית בקנה מידה גדול‪ ,‬בעיית‬
‫השלמת המטריצה‪ ,‬רלקסציות קמורות למימד נמוך‪ ,‬פרדיגמת ה‪ MapReduce -‬לחישוב מבוזר‪.‬‬
‫תוצאות למידה‪:‬‬
‫בתום הקורס‪ ,‬הסטודנטים יבינו עקרונות מתמטיים חשובים של אלגוריתמים על מידע מאסיבי‪ ,‬וילמדו כיצד‬
‫להשתמש בעקרונות אלה בפיתוח אלגוריתמים מודרניים‪.‬‬
‫‪ .13‬תוצאות למידה‪ :‬מופיעות בסוף הסילבוס‬
‫‪ .14‬הצהרת כוונות‪ :‬אלגוריתמים על מידע מאסיבי דורשים שימוש בשיטות אלגוריתמיות שלא נלמדות‬
‫במסגרת קורסי אלגוריתמים רגילים (שבאופן טיפוסי פותרים בעיות על קלטים שניתן לשמור בקלות‬
‫בזיכרון)‪ .‬שיטות אלה כוללות דגימת קלט חכמה וגישה תת‪-‬לינארית למידע‪ sketching ,‬והורדת מימדיות‪.‬‬
‫הקורס יחשוף את הסטודנטים למבחר של שיטות כאלה עם דוגמאות אלגוריתמיות‪.‬‬
‫‪ .15‬הקורס נוגע במבחר נושאים שנלמדים בקורסים אחרים (למשל ‪ SVD‬של ‪ ,234107‬דלילות של ‪)236862‬‬
‫אבל רוב החומר אינו נלמד בקורסים אחרים‪.‬‬
‫‪ .16‬הקורס יכול לעניין תלמידים מכל המסלולים‬
‫‪ .17‬הקורס הועבר עד כה ‪ 3‬פעמים (עם שינויים בין שנה לשנה)‬
.‫ שמעבירים קורסים הקשורים לקורס זה‬,‫ ספי נאור והדס שכנאי‬,‫ הקורס זכה לברכתם של מיקי אלעד‬.18
:‫ תוכן הקורס לפי שבועות בסמסטר האחרון‬.19
Large deviation (Chernoff, Hoeffding, Hanson-Wright) bounds
.i
Sketching I (Morris’s algorithm, Frequency moment estimation)
.ii
Sketching II (CountSketch, MinSketch, Computational complexity bounds)
.iii
The Johnson-Lindenstrauss (JL) Lemma with applications in dimensionality reduction
.iv
The Fast JL Transform
.v
Sparsity and its relation to JL, LSH (Locality Sensitive Hashing)
.vi
Matrices: SVD, linear regression, column sampling for large matrices
.vii
Subspace approximation and its use in large matrix approximation
.viii
Streaming for matrices (online PCA, the frequent directions algorithm)
.ix
Matrix completion and trace norm relaxations
.x
The Singular Value Thresholding (SVT) algorithm
.xi
MapReduce I (definition, examples)
.xii
MapReduce II (more examples)
.xiii
‫ אבל רוב‬Mining of Massive Datasets (Leskovec, Rajaraman, Ullman) ‫ חלק מהנושאים נמצאים ב‬.20
.‫החומר הא מאוסף מאמרים‬