הוצאת הוד-עמי לספרי מחשבים 1 www.hod-ami .co.il מחסני נתונים עקרונות ,ארכיטקטורה, עיצוב ויישום רז הייפרמן הוצאת הוד-עמי לספרי מחשבים 09-9564716 www.hod-ami.co.il הוצאת הוד-עמי לספרי מחשבים מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים www.hod-ami .co.il 2 עורך רא שי :יצחק עמיהוד עריכה :צור לוין כל הזכויות שמורות הוצאת הוד-עמי לספרי מחשבים בע"מ ת.ד 6108 .הרצליה 46160 טלפון09-9564716 : פקס09-9571582 : דואר אלקטרוני[email protected] : אתר באינטרנטhttp://www.hod-ami.co.il : www.hod-ami.co.il מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים 3 www.hod-ami .co.il הקדמה מחסני הנתונים ) ( data warehouseהפך ב ש נים האחרו נות לאחד ה נו שאים החמים ביותר בתחום טכ נולוגיות המידע .על פי סקרים שו נים עולה שמספר הארגו נים שעוסקים בצורה כל שהי בהקמת מחס ני נתו נים צמח במהירות מ10% - ב ש נת 1994עד ל 90% -ב ש נת .1998תוך פרק זמן קצר יחסית הפכו מחס ני ה נתו נים לפתרון המועדף לב ניית סביבת מיח שוב ייעודית ל ניהול ואספקת המידע הדרו ש ל ניתוח נתו נים ולתמיכה בתהליכי קבלת החלטות עסקיות .ההתפתחות המהירה של תפיסת מחסן ה נתו נים באה לאחר ש נים רבות בהם ארגו נים פיתחו ויי שמו מערכות תומכות החלטה ) ( DSSלצד המערכות התפעוליות ,אולם ללא הצלחה מ שמעותית ועם הרבה בעיות וק שיים .רק ב ש נים האחרו נות הב שילו הת נאים להצלחת מערכות תומכות החלטה :הלחצים הבלתי פוסקים על הארגון לקבל החלטות מורכבות ומהירות מחד ,ומאידך -ההתפתחויות בטכ נולוגיות המידע בכל הק שור לחומרה ,תוכ נה וכלים מתקדמים ל ניתוח ה נתו נים .ת נאים אלה הביאו להתפתחות תפיסה כוללת לפיתוח ויי שום סביבת מיח שוב ייעודית לאספקת מידע לתהליכי קבלת החלטות −תפיסת מיחסון הנתונים .Data Warehousing - הגדרת המו שג "מחסן נתו נים" עמומה במידת מה .זו סביבת מיח שוב ייעודית ל ניתוח ולעיבוד א נליטי של ה נתו נים והפיכתם למידע תומך לקבלת החלטות .מחסן ה נתו נים מורכב מ שלו שה רכיבים עיקריים :רכיב העוסק בתהליכי אחסון ה נתו נים ממערכות המקור ,רכיב העוסק ב ניהול ה נתו נים ורכיב העוסק באספקת ה נתו נים ובביצוע ניתוח המידע .רק לאחר שמתחילים לעכל את מ שמעות המו שג מיחסון נתו נים ,להעמיק ול נתח את מלוא מ שמעות תפיסת מחסן ה נתו נים ,מתחילה להתבהר התמו נה האמיתית .לפ ני נו, www.hod-ami.co.il ! סביבה עתירת טכ נולוגיות מידע שו נות, ! סביבה שצריכה לע נות לדרי שות מ שת נות שק שה להגדירן מרא ש באופן מפור ש, ! סביבה שצריכה ל נהל היקף נתו נים גדול, ! סביבה שמכ ניסה מימד בלתי ידוע עד כה של כפילות נתו נים אל הארגון, ! סביבה העוסקת במיגוון רחב של תהליכים העוסקים בגזירת נתו נים ,טיוב ה נתו נים וטעי נתם ,ועוד. כמו כל להיט ומגמה טכ נולוגית חד ש נית ,גם מיחסון ה נתו נים מלווה בסיסמאות רבות ובציפיות שחלקן אי נן ברות ה שגה .י ש ח שיבות רבה בהב נת המציאות והאתגרים האמיתיים שהארגון יצטרך להתמודד אייתם כ שיצטרך ליי שם מחסן נתו נים וללמוד את התועלות שהוא צופה לה שיג .יחד עם התלהבות הארגו נים באימוץ תפיסת מחסן ה נתו נים ,שסוף כל סוף מאפ שרת להפוך את ה נתו נים האגורים במערכות המידע ה שו נות של הארגון למידע תומך החלטות ,באה המציאות ומוכיחה שתפיסת מחסן ה נתו נים היא תפיסה מורכבת ויי שומה דור ש מ שאבים רבים .לארגו נים התבררו מספר עובדות: ! מחסן נתו נים לא קו נים אלא בו נים, ! מעט מאוד ספקים מסוגלים לספק את הק שת הרחבה של המוצרים הדרו שים להקמת מחסן ה נתו נים, ! תהליך הקמת מחסן נתו נים הוא תהליך מורכב יחסית של שילוב מערכות, מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים www.hod-ami .co.il 4 ! ה נתו נים במערכות התפעוליות אי נם במב נה וברמת ניקיון מתאימה לתמיכה בהחלטות, ! הקמת מחסן נתו נים הוא פרויקט ארגו ני ש נמ שך זמן, ! הפרויקט צורך מ שאבים רבים והוא בעל מאפיי נים שו נים מתהליך הקמת מערכת מידע חד שה. במקביל לסיפורי ההצלחה החלו להי שמע גם לא מעט סיפורים על כי שלו נות ופרויקטים ש נ נט שו לאחר שהו שקעו מ שאבים רבים בהקמתם .בדיעבד הסתבר שחלק מהארגו נים קפצו על העגלה במהירות רבה מדי והתייחסו אל פרויקט מחסן נתו נים כאל עוד פרויקט פיתוח מערכת מידע .הם לא טרחו ללמוד ול נסות להבין את מלוא המ שמעויות של הקמת מחסן נתו נים ובסופו של דבר נכ שלו ביי שום נו שא ח שוב זה והפסידו הרבה זמן וכסף. למרות האתגרים והק שיים בהקמת מחסן ה נתו נים ,ארגו נים צריכים ללמוד את התועלות שבתפיסת מחסן ה נתו נים ואת המ שמעויות האמיתיות של הקמת סביבת מיח שוב מודר נית לתמיכה בקבלת החלטות .ארגו נים אלה יצליחו להמ שיך לתפקד ולהצליח בסביבה העסקית המודר נית ,התחרותית והדי נמית כל כך .י ש ארגו נים שעלולים להיבהל מהאתגרים ולהתמקד בעיקר במערכות התפעוליות ,ולא במערכות תומכות החלטה .גי שה כזו מוליכה לסיכון של איבוד אחד היתרו נות התחרותיים הח שובים ביותר :היכולת ל נצל את ה נתו נים והמידע כמ שאב תחרותי. כא שר מסתכלים על ה נתו נים כמ שאב תחרותי ,אפ שר להבין טוב יותר ומהר יותר מה קורה לארגון ,מה קורה למוצרים שהוא מוכר ,מה לקוחותיו באמת רוצים וכיצד ניתן להגביר את נאמ נותם למוצרי החברה ,מה קורה ל שוק שבו הארגון פועל ובסופו של דבר -כיצד לקבל החלטות עסקיות טובות יותר. מטרת ספר זה להציג ולסקור את תפיסת מחסן ה נתו נים על כל היבטיה :מדוע המערכות התפעוליות ומערכות לתמיכה בהחלטות שו נות זו מזו וי ש צורך להקים סביבת מיח שוב ייעודית למיחסון ה נתו נים .הקמת סביבת עיבוד חד שה זו מחייבת: www.hod-ami.co.il ! להכיר את הארכיטקטורות ה שו נות של מחס ני ה נתו נים, ! להכיר את מיגוון ה שיטות ה שו נות ל ניתוח נתו נים והכלים הא נליטיים הפועלים בסביבה זו, ! להכיר את טכ ניקות העיצוב של בסיסי ה נתו נים המ שרתים את מחסן ה נתו נים, ! לבחון את התמו נה הכוללת של התהליכים הקיימים בסביבת מחסן ה נתו נים, ! ללמוד על החלופות ה שו נות לפיתוח מחס ני נתו נים ואת מתודולוגיות היי שום שלהם. הכרת מכלול נו שאים מקיף זה תאפ שר לכל ארגון להבין בצורה טובה את מלוא המ שמעויות של פרויקט מחסן ה נתו נים ,ולקבל את ההחלטות בהתבסס על הב נה מוצקה הן של התועלות והן של הק שיים. הגי שה של הספר היא מע שית ולא תיאורטית .ה נו שאים מוצגים בל שון פ שוטה ולא טכ נית או מתמטית ,הטקסט מלווה במספר רב של דוגמאות ו של תר שימים .נקודת המוצא היא שהעקרו נות והארכיטקטורה של מחסן ה נתו נים ח שובים בהרבה ממוצרים ספציפיים שו נים .על כן ,חלק מהמוצרים מוזכרים באופן כללי וכמעט ללא פירוט של מוצר מסוים כל שהו .טכ נולוגיית מחס ני ה נתו נים חד שה יחסית ומורכבת מאוסף גדול של מוצרים שו נים המ שת נים כל הזמן .לכן י ש ח שיבות רבה יותר להב נת העקרו נות ,התמו נה הכוללת והמקום של כל מוצר במסגרת הארכיטקטורה ,מא שר לאופן הפעולה הספציפי של מוצר מסוים .ב נוסף ,ככל שהזמן שעובר והספר יהיה מו נח על שולחן עבודתך הפרטים לגבי מוצר זה או אחר כבר לא יהיו תקפים ,ב שעה שהעקרו נות י שארו אית נו זמן רב .ה נקודה העיקרית המודג שת בספר היא הח שיבות בב ניית מחסן נתו נים גמי ש המסתגל בקלות יחסית ל שי נויים שהארגון עובר ,לדרי שות המידע החד שות ,לטיפול ב נפחי מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים 5 www.hod-ami .co.il נתו נים הולכים וגדלים ולמוצרים החד שים .חוסר הב נה של התהליכים העיקריים של סביבת מחסן ה נתו נים והתבססות על ארכיטקטורה שלא הו שקעה בה המח שבה ה נדר שת ,עלולים לגרום לכי שלון התפיסה ולעוגמת נפ ש ,גם אם ב שלב ההקמה הארגון ה שתמ ש במוצרים מה שורה הרא שו נה. הספר התגב ש כתוצאה מפעילותי בתחום טכ נולוגיות המידע ,ובעיקר ב נו שאי בסיסי נתו נים ,טכ נולוגיות שרת/לקוח ומערכות מוכוו נות אובייקטים .ב ש נים האחרו נות נח שפתי ל נו שא מחס ני נתו נים ,נתתי מספר רב של הרצאות במסגרות שו נות של מוסדות הוראה וימי עיון מקצועיים שו נים ועסקתי בייעוץ להקמת מערכות כאלו .זו אחת מטכ נולוגיות המידע הח שובות ביותר ויחד עם זאת אחת המורכבות למימו ש ויי שום ,ולכן א ני מאמין בח שיבות ספר ב שפה העברית שיפרוס בפ ני הקורא את כל רוחב היריעה של ה נו שא. מבנה הספר נסקור בקצרה את תוכן הפרקים ה שו נים של הספר ,כדי לאפ שר לקורא לקבל התר שמות רא שו נית ומהירה של תכולת הספר. •פרק - 1רקע ומושגי יסוד פרק זה מציג את הרקע להתפתחות תפיסת מחסן ה נתו נים תוך הדג שת שתי המגמות העיקריות .מצד אחד ,ה שי נויים בסביבה העסקית שהביאה ללחצים מתמידים לקבלת החלטות מהירות ומבוססות; ומצד ש ני ,ההתפתחויות המהירות בטכ נולוגיית המידע עם הופעת המח שבים האי שיים ,ה שרתים המקביליים רבי העצמה והזולים יחסית ,בסיסי ה נתו נים היחסיים המסוגלים לטפל בהיקפי נתו נים גדולים והופעת ר שתות התק שורת המהירות .הפרק מפרט את ההבדלים המהותיים בין היי שומים התפעוליים של הארגון התומכים בתהליכי העבודה ה שוטפים לבין היי שומים הא נליטיים העוסקים ב ניתוח מידע ותמיכה בתהליכי קבלת ההחלטות .לסיום ,מוצגת ההתפתחות רבת ה ש נים של המערכות לקבלת החלטות ,שהחלה ב ש נים הרא שו נות של המיח שוב וה שתכללה עם הזמן עד להגדרת התפיסה המודר נית של מחסן ה נתו נים. www.hod-ami.co.il •פרק - 2ארכיטקטורת מחסן הנתונים ) ( Data Warehouse Architecture פרק זה סוקר את הארכיטקטורות ה שו נות למימו ש מחסן ה נתו נים :מחסן ה נתו נים הארגו ני; מרכול ה נתו נים; מחסן ה נתו נים הרב -שכבתי המ שלב את היתרו נות של המחסן הארגו ני עם היתרו נות של מרכולי ה נתו נים; ומאגר ה נתו נים התפעולי שהוא סוג מסוים של מחסן נתו נים המתאים לאספקת מידע לתהליכים תפעוליים. •פרק - 3סקירת מרחב הטכנולוגיות לניתוח מידע ) ( Analytical Processing Technology Space פרק זה מציג את כל המרחב של נו שא ניתוח המידע והעיבודים הא נליטיים לתמיכה בקבלת החלטות .כדי להבהיר את תהליך ניתוח המידע ,מוצגת שר שרת הפעילויות ההופכת נתו נים למידע ,את המידע לידע ואת הידע להחלטות עסקיות. המרחב המלא של שיטות ניתוח מידע שו נות מוצג גם הוא :מחוללי שאילתות ודוחות המ שמ שים ל ניתוחים פ שוטים יחסית ,כלי OLAPהמורכבים יותר והמאפ שרים ניתוח רב מימדי והכלים לכריית נתו נים המאפ שרים לבצע ניתוחי מידע מורכבים מאוד ולגלות חוקיות ותב ניות בלתי ידועות ב נתו נים .הפרק מסתיים בהצגת מפה של מרחב הטכ נולוגיות ה שו נות ל ניתוח מידע על פי דרי שות המידע וסוגי מ שימות ה ניתוח ה נדר שים. •פרק - 4ניתוח מידע רב מימדי ) ( Multi Dimensional Analysis פרק זה מעמיק ומסביר את הדרכים ל ניתוח רב-מימדי של מידע ,אחת מפעילויות ה ניתוח והעיבוד הא נליטי ה נפוצות ביותר .הפרק עוסק בסקירת מו שגי היסוד ב ניתוח רב מימדי :מה זה מימד ,מה זו עובדה ,מהן ההיררכיות בתוך המימדים, מהן הפעולות העיקריות ב ניתוח רב-מימדי ,מהי הקוביה הרב-מימדית ועוד. מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים www.hod-ami .co.il 6 •פרק - 5ארכיטקטורות של מוצרים לניתוח רב-מימדי ) ( OLAP Architectures הפופולריות הרבה של שיטת ה ניתוח הרב-מימדי תרמה לפיתוח מספר רב של מוצרים התומכים בה .פרק זה סוקר את הארכיטקטורות ה שו נות למימו ש ה ניתוח הרב-מימדי ובאופן מיוחד את שתי הארכיטקטורות העיקריות :ארכיטקטורת MOLAPהמבוססת על בסיס נתו נים רב-מימדי ייעודי ,וארכיטקטורת ROLAP המבוססת על מ נוע רב-מימדי המבצע את מירב העיבודים הדרו שים אולם מ נהל את ה נתו נים בבסיס נתו נים טבלאי רגיל .הפרק סוקר את ההבדלים בצורת המימו ש של ארכיטקטורות אלו ומדגי ש שלמע שה הן אי נן נוגדות ,כמו שלעיתים יצר נים היו רוצים לגרום ל נו לח שוב ,אלא מ שלימות. •פרק - 6עיצוב רב מימדי של בסיסי נתונים יחסיים ) ( Multi Dimensional Design of Relational Databases פרק זה סוקר את שיטת העיצוב המיוחדת של בסיסי ה נתו נים היחסיים הפועלים בסביבת מחסן ה נתו נים .חלק גדול מתפיסות העיצוב הרגילות של בסיסי נתו נים טבלאיים המבוססות על ניתוח קל ופ שוט של המידע על ידי המ שתמ שים אי נו מתאים לתפי שת הייעוד של מחסן ה נתו נים .פרק זה מציג את תפיסת העיצוב המיוחדת של בסיסי נתו נים המ שרתים מחסן נתו נים תוך הצגת מו שגי היסוד: טבלת עובדות ,טבלת מימד ,טבלאות לא מ נורמלות ,סכמות כוכב ,סכמות פתיתי שלג ,טבלאות סיכומים ,שיטות ל ניהול שי נויים במימדים ועוד. •פרק - 7כריית נתונים )( Data Mining פרק זה מציג את אחד ה נו שאים ה'חמים' ביותר כיום במסגרת תפיסת מחסן ה נתו נים .לרבים נו שא זה נ שמע כמו מדע בדיו ני שרלוו נטי בעיקר לחוקרים ומדע נים .המציאות כמובן שו נה מאוד .כריית ה נתו נים מורכבת ממספר טכ נולוגיות מיח שוב ומוצרי תוכ נה שו נים המאפ שרים לארגון ל נתח את ה נתו נים ,לגלות חוקיות פ נימית ובלתי ידועה מרא ש ,לגלות תב ניות ולבצע תחזיות מבוססות .לכריית נתו נים מ שתמ שים במספר טכ ניקות סטטיסטיות וטכ ניקות הלקוחות מתחומי מחקר מתקדמים כמו אי נטליג נציה מלאכותית ,מערכות לומדות וכד' .הפרק סוקר את מיגוון היי שומים האפ שריים ,את הטכ ניקות ה נפוצות לכריית נתו נים ואת מקומו של תהליך כריית ה נתו נים במסגרת תפיסת מחסן ה נתו נים. www.hod-ami.co.il •פרק - 8הטכנולוגיה המקבילית בשירות מחסן הנתונים ) ( Parallel Technology in Data Warehouses ההתפתחויות המהירות ב ש נים האחרו נות בכל הק שור לארכיטקטורות חומרה מרובות המעבדים ה שפיעו רבות על תפיסת מחסן ה נתו נים .התברר ש ניתן ל נהל ולעבד באופן יעיל נפחי נתו נים עצומים וגם לע שות זאת בעלויות סבירות. לטכ נולוגיה המקבילית הייתה ה שפעה על מספר רב מאוד של תחומים הק שורים למחסן ה נתו נים :ניהול בסיס נתו נים ,אופטימיזציה של גי שה לבסיס נתו נים, טעי נה מהירה של נתו נים ועוד .הפרק סוקר את הארכיטקטורות העיקריות של ריבוי מעבדים ,את ה שיטות לעיבוד מקבילי של שאילתות ואת שיטת חלוקת בסיס ה נתו נים למחיצות כ שיטה ל ניהול יעיל של נפחי נתו נים גדולים. •פרק - 9סקירת התהליכים העיקריים במחסן הנתונים ) ( Main Processes in Data Warehouses מחסן ה נתו נים הי נו עתיר תהליכי עבודה :תהליכי גזירת ה נתו נים מהמערכות התפעוליות ,תהליכי סיכום נתו נים לייעול ניתוח ה נתו נים ,תהליכי אספקת ה נתו נים לכלי ה ניתוח ה שו נים ותהליכי גיבוי והעברת ה נתו נים למדיה זולה יותר .המציאות היא ,שארגון מ שקיע א נרגיה רבה בהקמת ותחזוקה שוטפת של תהליכים אלה. פרק זה סוקר את מכלול התהליכים תוך מתן דג ש מיוחד לתהליכים המורכבים לגזירה ,לטיוב ולהמרה של ה נתו נים ,ש נע שים לרוב באמצעות תוכ נה ייעודית. •פרק - 10מידע על נתונים ) ( Meta Data מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים 7 www.hod-ami .co.il פרק זה מציג את תחום המידע על ה נתו נים .נו שא זה הי נו בעל ח שיבות רבה להצלחת מחסן ה נתו נים ,אולם בגלל מורכבות והעדר כלים מספיק טובים ומקיפים, הוא אי נו זוכה לת שומת הלב המתאימה מצד מפתחי מחסן ה נתו נים .הפרק סוקר את הסוגים הרבים והמגוו נים של מידע על ה נתו נים שי ש ל נהל בסביבת מחסן נתו נים :מ שמעות ה נתו נים ,מב נה ה נתו נים ,היכן הם מאוחס נים ,למתי הם נכו נים, מה מקורם ועוד. •פרק - 11מרכולי נתונים )( Data Mining מרכול ה נתו נים הפך ב ש נים האחרו נות לאחד ה נו שאים הח שובים והבולטים ביותר במסגרת תפיסת מחסן ה נתו נים .למע שה ,זהו מחסן נתו נים ממוקד במחלקה מסוימת ,ב נו שא מסוים או במטרה מסוימת .תפיסה זו התפתחה על רקע הק שיים בהקמת ומימו ש תפיסת מחסן ה נתו נים הארגו ני ,שהי נה מקיפה ורחבה. מרכול ה נתו נים אי נו מתיימר לתת פתרון מקיף לארגון בתחום התמיכה בקבלת החלטות .זהו גם מקור ההתלהבות והע ניין בו :קל יחסית להקימו ,עלות ההקמה זולה יותר ,הבעלות עליו ברורה ,קל יותר להצדיקו מבחי נת עלות/תועלת .אך בצד התועלות הברורות של תפיסת מרכול ה נתו נים ,י ש לא מעט סיכו נים בתפיסה זו. פרק זה סוקר את תפיסת מרכול ה נתו נים ,מה הרקע לפופולריות שלו ,מהם הסיכו נים במרכולי נתו נים ,מה הארכיטקטורה שלהם ומהם המודלים ה שו נים להקמת מרכולי נתו נים. •פרק - 12מתודולוגיה ליישום מחסן הנתונים )( Data Warehouse Implementation Methodology הפרק האחרון של הספר מוקד ש למתודולוגיות היי שום של מחס ני נתו נים .הפרק בוחן מדוע י ש צורך במתודולוגיה ייחודית ומותאמת ,מהם עקרו נות המתודולוגיה, הוא מפרט את ה שלבים ה שו נים בתהליך הקמת מחסן ה נתו נים ,מהם בעלי התפקידים ה שו נים הפועלים בסביבת מחסן ה נתו נים .לסיכום נית נות מספר עצות מע שיות לב ניית מחסן ה נתו נים. www.hod-ami.co.il קהל היעד של הספר הספר מיועד לקהל קוראים מגוון ,ובי ניהם: ! מ נהלים ומ שתמ שים עתידיים של מחסן ה נתו נים .ח שוב שציפיותיהם ממחסן ה נתו נים תהיי נה מע שיות ו נית נות למימו ש ,ורצוי שיהיו מסוגלים להגדיר את דרי שותיהם מתוך הב נת התהליך הכולל לב ניית מחסן ה נתו נים. ! מ נהלי מיח שוב המבק שים להקים מחסן נתו נים בארגון .אלה מבק שים להבין טוב יותר את מלוא המ שמעויות של פרויקט ההקמה והיי שום ובכלל זה :מהו מחזור החיים של הפרויקט ובמה הוא שו נה ממחזור חיים של מערכת מידע רגילה ,מה המתודולוגיה להקמה ויי שום ,איזה סוגי עובדים צריך להקצות ,מה האתגרים הטכ נולוגיים שהם צפויים להתמודד איתם ,ועוד. ! מ נתחי מערכות המבק שים להבין את הטכ נולוגיה החד שה ולהצטרף לפרויקט מחסן נתו נים .עליהם ללמוד על תהליכי ההקמה ,המו שגים העיקריים ,שיטת העבודה ל ניתוח המערכת והערכתה ,הכלים הדרו שים ועוד. ! מעצבי בסיס נתו נים הרגילים לעצב בסיסי נתו נים למערכות עיבוד ת נועות רגילות ומבק שים להבין מה ההבדל בין טכ ניקות העיצוב הרגילות לבין טכ ניקות העיצוב המיוחדות לסביבת מחסן ה נתו נים. ! ארכיטקטים של מערכות מידע המבק שים ל שלב את תפיסת מחסן ה נתו נים במסגרת הארכיטקטורה הכוללת של מערכות המידע בארגו נם. מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים www.hod-ami .co.il 8 הטבלה הבאה מציגה את הפרקים ה שו נים המומלצים ביותר לסוגי הקוראים ה שו נים. שם פרק רקע ומושגי יסוד ארכיטקטורה של מחסן נתונים סקירת מרחב הטכנולוגיות לניתוח מידע ניתוח מידע רב-מימדי ארכיטקטורות מוצרים לניתוח רב-מימדי עיצוב רב-מימדי של בסיסי נתונים טבלאיים כריית נתונים הטכנולוגיה המקבילית סקירת התהליכים העיקריים מידע על נתונים מרכולי נתונים מתודולוגיה ליישום מחסן נתונים מנהלים/ משתמשים מנהלי מיחשוב מנתחי מערכו ת " " " " " " " " " " " " " " " " " " " " " " " " " מעצבי בסיסי נתונים מעצבי מערכות מידע " " " " " " " " " " " " " " " www.hod-ami.co.il מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים www.hod-ami .co.il 9 פרק :2 ארכיטקטורת מחסן הנתונים כללי בפרק זה נגדיר את תפיסת מחסן ה נתו נים ,נציג את הארכיטקטורה הכוללת שלו ו נפרט את מכלול הטכ נולוגיות והכלים המרכיבים אותו. ב ש נים האחרו נות החלה להתגב ש תפיסה חד שה לפיתוח ו ניהול יי שומים לאספקת מידע לתמיכה בקבלת החלטות .תפיסה זו מבוססת על אוסף טכ נולוגיות וכלי תוכ נה חדי שים ש נקראת מחסן נתונים ) .( Data Warehouseתפיסת מחסן ה נתו נים מספקת מסגרת כוללת ל ניהול נתו נים המיועדים לתמיכה בקבלת החלטות ומתן דג ש על היעילות ,העקביות וה נוחות .מחסן ה נתו נים מבוסס על בסיס נתו נים ייעודי ו נפרד ,המכיל נתו נים אודות פעילות הארגון וסביבתו .הוא מ שמ ש באופן בלעדי את תהליכי ניתוח ה נתו נים ותמיכה בקבלת ההחלטות .בסיס נתו נים ייעודי זה מכיל נתו נים ה נ שלפים ממקורות שו נים ,תוך ביצוע תהליכי גזירה ,שיפור ו שילוב מיוחדים .מטרתו אחת ויחידה -לספק את צרכי המידע של קהיליית מ שתמ שים ח שובה -מקבלי ההחלטות בארגון .בסיס נתו נים זה חייב להיות זמין, עדכ ני ,אמין ומאורגן באופן התואם את הי שויות העסקיות העיקריות ואת תהליכי קבלת ההחלטות .ח שוב להבין שבסיס נתו נים ,שמטרתו לתמוך בתהליכי קבלת החלטות מורכבות ודי נמיות ,חייב להיות מעוצב ומאורגן באופן מיוחד ,התואם את מטרותיו .ארגון זה שו נה באופן מהותי למדי מהדרך בה מאורג נים ה נתו נים המ שמ שים ומ שרתים את המערכות התפעוליות. www.hod-ami.co.il מן הראוי לציין שתחום מחס ני נתו נים הוא תחום צעיר יחסית ,ולכן הוא עדיין בתהליך התגב שות .המו שגים עדיין אי נם מוגדרים עד הסוף ,הטכ נולוגיה ממ שיכה לה שת נות ,הארגו נים עדיין נמצאים בתהליך יי שום והפקת לקחים ולכן גם מתודולוגיות היי שום הן עדיין בחיתוליהן .מכיון שתחום זה מתפתח בקצב מהיר, י ש לצפות לכך שדברים י שת נו ,הגדרות מדויקות יותר תתגב ש נה וטכ נולוגיות חד שות תופע נה ותחלפ נה טכ נולוגיות קיימות .אם זו ח שיפתו הרא שו נה של הקורא לתחום מחסן ה נתו נים ,א ני מקווה שדי נמיות וחוסר ההתגב שות הסופית של התפיסה לא תרפה את ידיו .זהו אך תהליך טבעי בהתפתחותה של תפיסה הצומחת ותופסת פופולריות עצומה. מהו מחסן נתונים? ברמה הבסיסית ביותר ,מחסן נתונים היא תפיסה כוללת העוסקת באיסוף ,אחסון, הפצה ו שיתוף של נתו נים למטרת תמיכה בקבלת החלטות .ניתן לומר שזו תפיסת קצה לקצה המטפלת בכל מיגוון התהליכים והפעילויות הדרו שות כדי לספק את ה נתו נים הדרו שים לתמיכה בקבלת החלטות עסקיות .מחסן ה נתו נים שואב את הפו נקציו נליות שלו מתוך העובדה שה נתו נים נגזרים ממקורות שו נים ,עוברים תהליכי שיפור ומיטוב ומ שולבים יחדיו .מחסן ה נתו נים שואב את עוצמתו מהקלות בה מוצגים נתו נים אלה ומ נותחים על ידי המ שתמ שים בו. מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים 10 www.hod-ami .co.il אחת ההגדרות המצוטטת ביותר שייכת למי ש נח שב לאבי התפיסה,Bill Inmon , שבמאמר מ ש נת 1992הציג את ההגדרה הבאה: מחסן הנתונים מוגדר כאוסף נתו נים ייעודים ומ שולבים ,מאורג נים לפי נו שא, בעלי עומק היסטורי ו שאי נם מתעדכ נים -א שר מיועדים לתמוך בתהליכי קבלת החלטות. נתעכב בקצרה על כל אחד ממרכיבי ההגדרה הזו: ! אוסף נתונים ייעודי ) :( Dedicated Data Baseבסיס ה נתו נים המ שמ ש את מחסן ה נתו נים נפרד מבסיסי ה נתו נים התפעוליים של הארגון .הח שיבות בהפרדה זו כבר נדון בפרק הרא שון בספר זה ,בו הוסברה האבח נה בין יי שומים תפעוליים לבין יי שומים לאספקת מידע .העובדה שזהו בסיס נתו נים נפרד וייעודי מאפ שרת לארגן ולעצב אותו במב נה מיוחד ותואם למטרות נגי שות י שירה של המ שתמ שים .כלומר ,שימת דג ש מיוחדת על מב נה קל ו נוח להב נה מצד אחד ,ויעיל -לצורך קבלת זמ ני תגובה טובים ,מצד ש ני. בסיס נתו נים נפרד זה יפעל ב שרת ייעודי כדי שלא להעמיס את המערכות התפעוליות ,וכדי לאפ שר זמ ני תגובה טובים למ שתמ שי מחסן ה נתו נים. ! אוסף נתונים משולב ) :( Integrated Dataה נתו נים של מחסן ה נתו נים נמצאים בבסיס נתונים משולב שבו כל ה נתו נים הדרו שים ליי שומים ה שו נים המספקים מידע ,ללא תלות במקורם .סביר לה ניח שבארגון יהיו מספר בסיסי נתו נים שו נים הפועלים על פלטפורמות חומרה ותוכ נה שו נות .על כן ,היכולת ל שלב את כולם לסביבה מ שולבת אחת היא בעלת ח שיבות רבה .שילוב זה יבטיח אחידות מ נקודת מבט המ שתמ ש ,ויאפ שר לעבוד ב נוחות וקלות יחסיים מול כמה בסיסי נתו נים שו נים .לעיתים ,בסיסי ה נתו נים פועלים על פלטפורמות חומרה שו נות ומ נהלים נתו נים במב ני נתו נים שו נים ולא תואמים. www.hod-ami.co.il ! ארגון לפי נושא ) :( Subj ect Orientedה נתו נים במחסן ה נתו נים מאורג נים לפי נו שא ,ולא לפי היי שום המייצר אותם .בדרך כלל ,ה נתו נים במערכות התפעוליות מאורג נים לפי צרכי היי שום ,לפי דרי שות הביצועים ולפי אופי הת נועות של היי שום .סביר לה ניח ש נתו נים הק שורים ליי שות עסקית אחת, למ של לקוח ,יהיו מפוזרים במספר יי שומים תפעוליים שו נים ,שכל אחד מהם פותח בזמן שו נה ולעיתים גם על פלטפורמה שו נה .המ שתמ ש הטיפוסי של מחסן ה נתו נים זקוק ל נתו נים אודות היי שויות העסקיות לרוחב הארגון ,כמו למ של כל ה נתו נים על לקוח מסוים .הדוגמה ה נפוצה ביותר היא נתו ני לקוח במערכת ב נקאית .אלה מפוזרים ביי שומים שו נים )עובר ו שב ,חסכו נות, ה שקעות ,מ שכ נתאות וכדומה( .דרי שה בסיסית של מ שתמ ש במחסן ה נתו נים היא להיות מסוגל ל נתח את נתו ני הלקוח ה שו נים ואת פעילותו בב נק .כפי ש נראה בהמ שך ,ארגון ה נתו נים לפי נו שא מציב אתגר מיוחד, מכיון שהוא דור ש עיצוב מיוחד וגזירת ה נתו נים ו שילובם לקראת הכ נסתם למחסן ה נתו נים. ! בעל עומק היסטורי ) :( Time Variantמחסן ה נתו נים מאופיין בעומק היסטורי נרחב יותר מא שר המערכות התפעוליות .חלק ניכר מה ניתוחים המתבצעים דור שים ניתוח מגמות ,ולכן י ש ח שיבות מרובה לעומק ההיסטורי .ככל ש נעמיק בהיסטוריה ,בסיס ה נתו נים של מחסן ה נתו נים ילך ויגדל וידרו ש מ שאבי אחסון ו ניהול גדולים יותר .ח שוב להבין שגם במחסן ה נתו נים רצוי להעריך מהו העומק ההיסטורי ה נדר ש ,כדי שלא לסבך יתר על המידה את תהליכי ה ניהול ולהאריך את זמ ני העיבוד ומ שאבי המח שב ה נדר שים. ! לא מתעדכן ) :( Nonv olatileלהבדיל מבסיס ה נתו נים התפעולי ) שצריך ל שקף בכל זמן את התמו נה העדכ נית ביותר ,ולכן הוא מתעדכן על ידי ת נועות באופן שוטף( ,מחסן ה נתו נים אי נו מתעדכן על ידי ת נועות .הדרך המקובלת לעדכון מחסן ה נתו נים היא על ידי עדכון במ נות תקופתיות )יומיות ,שבועיות, מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים 11 www.hod-ami .co.il חוד שיות וכדומה( .עדכון מ נות זה מתבצע בדרך של טעינה מסיבית )Bulk ,( Loadתוך שימו ש בתוכ ניות שירות של בסיס ה נתו נים ,או על ידי הפעלת תוכ ניות עדכון מיוחדות .רצוי לא לאפ שר עדכון י שיר של ה נתו נים במחסן ה נתו נים באמצעות ת נועות ,למעט במקרים קיצו ניים מיוחדים. ! תמיכה בקבלת החלטות ) :( Decision Supportתמיכה בקבלת החלטות היא מטרת העל של מחסן ה נתו נים .המאמץ הכרוך בב ניית מחסן ה נתו נים, שיקולי העיצוב ,כלי התוכ נה המ שמ שים אותו והארגון התומך והמזין אותו - כולם נועדו למימו ש הגי שה הקלה וה נוחה של מ שתמ שים לסיוע בתהליכי קבלת ההחלטות .מחסן ה נתו נים מבוסס על אוסף כלי תוכ נה מתוחכמים המיועדים להצגה ול ניתוח נתו נים .כלים אלה מאפ שרים גי שה י שירה לבסיס ה נתו נים או ב נייה של יי שומים מותאמים לתמיכה בתהליכי קבלת ההחלטות. למרות שהגדרה זו ממצה למדי ,ח שוב ש נדגי ש גם מה חסר בה :המימד הדינמי. ההגדרה ממוקדת בעיקר בהיבט הסטטי של מחסן ה נתו נים ומתעלמת מההיבט הדי נמי ,שהוא אוסף התהליכים והפעילויות הק שורים בפיתוח ,תפעול ,ניהול, תמיכה ותחזוקת מחסן ה נתו נים .על רקע זה מצאתי ל נכון להביא הגדרה נוספת למחסן ה נתו נים ,המתייחסת אל מחסן ה נתו נים כאל תהליך ,ולא כאל מקום: מחסן ה נתו נים הוא תהליך קצה לקצה ) ( End-to-Endהמארגן נתו נים שמקורם במספר יי שומים תפעוליים שו נים ,בהתאם למימד הזמן ובהתאם ל נו שאים בעלי מ שמעות למקבלי ההחלטות. כפי ש נראה בהמ שך ,חלק ניכר מהא נרגיה שמ שקיע הארגון בהקמת ובתפעול מחסן ה נתו נים מו שקעת בעבודה היומיומית להכ נסת ה נתו נים למחסן ה נתו נים ובתפעולו ה שוטף .לכן ,מן הראוי שהגדרת מחסן ה נתו נים תדגי ש גם את ההיבט התהליכי ,ולא רק את ההיבט הסטטי. www.hod-ami.co.il בפרק הקודם סקר נו את ההבדלים העיקריים בין המערכות התפעוליות לבין מחסן ה נתו נים .להבדיל ממערכות תפעוליות ,שהן בדרך כלל בעלות רמת יציבות גבוהה יחסית ,מחסן ה נתו נים מתפתח כל הזמן ומתאים את עצמו באופן שוטף לדרי שות המידע המ שת נות של הארגון .מ שמעות הדבר היא שעיצוב מחסן ה נתו נים חייב לקחת בח שבון את האופי הדי נמי -הדרי שות של היום בוודאי שלא תהיי נה הדרי שות של מחר .הבעיה היא שלא ניתן אפילו לחזות מה תהיי נה הדרי שות העתידיות .ובכל זאת ,כפי ש נראה בהמ שך ,ניתן לעצב את מחסן ה נתו נים כך שתהיה בו מידה רבה של יכולת הסתגלות ל שי נויים ולדרי שות בלתי צפויות. עובדה זו באה לעיתים כהלם למעצבי מערכות ,שכל חי נוכם בא מתחום המערכות התפעוליות :הם למדו שי ש להקדי ש זמן ניכר ל ניתוח הבעיה לפ ני ב ניית המערכת, מכיון ש שי נוי מערכת תפעולית הוא תהליך מורכב ויקר .כא שר הם עוסקים בהקמת מחס ני נתו נים ,הם מ נסים לה שקיע זמן רב מדי ב ניתוח וב ניסיון לחיזוי הצרכים העתידיים ולעיתים -עד כדי שיתוק ) .( Paralysis by Analysisלבסוף ,כ שהם לומדים ומבי נים את הדרי שות של היום ומ נסים ליי שם אותן ,הדרי שות מ שת נות ולכן מתפתחת אצלם תחו שה של מרדף בלתי פוסק אחר דבר שאין לה שיגו .כפי ש נראה בהמ שך ,חלק מהת שובה לתכו נה זו של מחס ני ה נתו נים טמו נה במתודולוגיית הב נייה ,העיצוב והיי שום. ארכיטקטורת מחסן הנתונים )(Data Warehouse Architecture כל מי ש נח שף ל נו שא מחס ני נתו נים יוצא מבולבל מהאוסף הגדול של ה שמות ה שו נים :מחסן נתו נים ארגו ני ,מחסן נתו נים מחלקתי ,מרכול נתו נים ,מאגר מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים www.hod-ami .co.il 12 נתו נים תפעולי וכדומה .נ נסה לע שות סדר באוסף מו שגים זה ,ו נראה שההבדלים בי ניהם נובעים מהעו שר הרב של ארכיטקטורות ו של היעדים של מחס ני ה נתו נים. אם נתבו נן במחס ני ה נתו נים שהוקמו על ידי הארגו נים ה שו נים ,סביר לה ניח שלא נמצא ש ניים זהים לחלוטין .הסיבה לכך היא שכל מחסן נתו נים מותאם לסביבת המיח שוב המיוחדת של הארגון ,לסביבת החומרה ולכלי התוכ נה בהם בחר הארגון לה שתמ ש ,ולמיגוון הייחודי של היי שומים התפעוליים הפועלים בו .עם זאת ,ניתן לומר שקיימים מספר קווי דמיון בולטים בין רוב מחס ני ה נתו נים ורובם כוללים, בצורה זו או אחרת ,מספר מרכיבים בסיסי. מקובל להתייחס למספר ארכיטקטורות עקרו ניות של מחס ני נתו נים ,שההבדלים בי ניהם )בין מחס ני ה נתו נים( נובעים מיעדיהם ומקהל המ שתמ שים שהם צריכים ל שרת: ! מחסן נתו נים כלל ארגו ני ) ( Enterprise Data Warehouse ! מרכול נתו נים )( Data Mart ! מחסן נתו נים רב -שכבתי ) ( Multi Tiered Data Warehouse ! מאגר נתו נים תפעולי ) ( Operational Data Store ! מחסן נתו נים מדומה ) ( Virtual Data Warehouse נסקור כל אחת מארכיטקטורות אלו בפירוט. ארכיטקטורת מחסן נתונים ארגוני )(Enterprise Data Warehouse Architecture www.hod-ami.co.il ארכיטקטורת מחסן ה נתו נים ארגו ני היא המקיפה ביותר מבין ארכיטקטורות מחס ני ה נתו נים .נתחיל בהגדרתה. הגדרה :מחסן הנתונים הארגוני הוא מחסן נתו נים מרכזי המיועד ל שרת את כל המ שתמ שים בארגון ,ולכן הוא מ שלב בבסיס נתו נים אחד את כל ה נתו נים ה נדר שים עבור כל יי שומי התמיכה בקבלת החלטות. באופן טבעי ,מחסן נתו נים כזה הוא גדול ,מקיף ומ שרת מספר רב של מ שתמ שים, ולכן תהליך הקמתו מורכב וארוך יחסית .בדרך כלל ,יי שום מחסן נתו נים ארגו ני מתבצע ב שלבים ולא בבת אחת ,ובסופו של תהליך ההקמה והיי שום יעמוד לר שות הארגון מחסן נתו נים מרכזי אחד. תר שים 1מציג את הארכיטקטורה של מחסן ה נתו נים הארגו ני. שכבת מילו& נתוני! Meta Data נתוני! תפעוליי! Managed Queries גישה לנתוני! נתוני! חיצוניי! שכבת הגישה לנתוני! גזירה ניקוי קודי! התאמות הפצה שכפול שכבת גזירת הנתוני! שכבת אחסו& ביניי! EIS שכבת מחס& הנתוני! הארגוני Multi Dimen sional Analysis Statistical Packag es Data Mining שכבת מקורות הנתוני! שכבת הצגת המידע שכבת ניהול ותפעול תהליכי! Process Management תר שים :1ארכיטקטורה של מחסן נתו נים ארגו ני מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים 13 www.hod-ami .co.il כפי ש ניתן לראות מתר שים ,XX.XXהארכיטקטורה הכללית של מחסן ה נתו נים הארגו ני מורכבת ממספר שכבות .נציג אותן ב שלב זה ובהמ שך הפרק נקדי ש לחלק מהן הסבר מעמיק יותר. ! שכבת מקורות הנתונים ) :( Data Source Layerאת שכבת מקורות ה נתו נים ניתן לחלק ל שתי קטגוריות עיקריות -מקורות נתו נים פ נימיים ומקורות נתו נים חיצו ניים .המקורות הפ נימיים הם אוסף כל ה נתו נים שמ נהל הארגון במסגרת היי שומים התפעוליים; המקורות החיצו ניים הם אוסף ה נתו נים ה נדר שים לתהליכי קבלת החלטות ו נאספים מחוץ לארגון .ה נתו נים החיצו ניים ע שויים לכלול סטטיסטיקות המתפרסמות על ידי גופים ר שמיים )כגון הל שכה המרכזית לסטטיסטיקה או ב נק י שראל( ,מאגרי מידע של חברות המ נתחות שווקים שו נים )כגון ,( Dun&Breadsteetנתו נים דמוגרפיים ועוד .מכיון שאלה הם נתו נים חיצו ניים לארגון ,הם אי נם מ נוהלים במסגרת המערכות התפעוליות שלו .מקורות ה נתו נים יכולים להיות מגוו נים מאוד. למרות העו שר של המקורות החיצו ניים ,מקור ה נתו נים העיקרי למחסן ה נתו נים ,אם כי לא הבלעדי ,הוא הקבצים ובסיסי ה נתו נים המ שמ שים את מערכות המידע התפעוליות .הבעיה העיקרית היא שמערכות אלו ע שויות להיות י ש נות מאוד ,ולהימצא על פלטפורמות מיח שוב מסוגים שו נים ,שאי נם בהכרח תואמים. ! שכבת הגישה לנתונים ) :( Data Access Layerשכבה זו עוסקת בגי שה למקורות ה נתו נים ,הן במערכות התפעוליות והן ל נתו נים החיצו ניים .מכיון שמקורות ה נתו נים יכולים להיות מגוו נים מאוד ,קיים לעיתים קו שי לג שת אליהם לצורכי גזיר ה נתו נים .ב ש נים האחרו נות התפתחו כלי גי שה שו נים ל נתו נים ,כגון EDA/SQLשל חברת ,IBIמוצרים מבוססי תקן ODBCוכדומה. מוצרים אלה מאפ שרים גי שה שקופה למיגוון המקורות המבוססים על מב ני נתו נים שו נים )קבצי ;VSAMבסיסי נתו נים המבוססים על IMSאו ;IDMS בסיסי נתו נים טבלאיים המבוססים על SQL ,Sybase ,Informix ,Oracle Serverואחרים( .מעבר לתמיכתם במב ני נתו נים שו נים ,תומכים כלים אלה בפרוטוקולי תק שורת רבים ,במערכות הפעלה וחומרות שו נות. www.hod-ami.co.il ! שכבת גזירה ,מיטוב והמרה של הנתונים )Data Transformation and :( Enhancement Layerשכבה זו עוסקת בתהליך הגזירה וההכ נה של ה נתו נים שצריך לאחסן במחסן ה נתו נים .מכיון שה נתו נים המאוחס נים בבסיסי ה נתו נים התפעוליים אי נם מתאימים למטרות תמיכה במידע לקבלת החלטות ,י ש לבצע בהם מספר פעולות מקדימות .בדרך כלל ,בסיום שלב זה נמצאים ה נתו נים במב נה מתאים לטעי נה למחסן ה נתו נים. ! שכבת אחסון ביניים והעברה ) :( Staging Data Layerשכבה זו מאחס נת לתקופת בי ניים את ה נתו נים המוכ נים לטעי נה .לעיתים נוח לטפל ב נתו נים מרא ש ולצבור אותם לפ ני טעי נתם .סיבה עיקרית לכך היא נפחי ה נתו נים ו/או ניצול חלון זמן מתאים .ה נתו נים נ שמרים ב שכבת בי ניים זו עד להכ נסתם למחסן ה נתו נים והיא גם יכולה להפיץ אותם לאחר מכן .מ שכבה זו מועברים ה נתו נים אל מחסן ה נתו נים ,ל שם טעי נתם לבסיס ה נתו נים .שכבת פעילות זו אי נה דרו שה בכל מימו ש של מחסן נתו נים. ! שכבת בסיס הנתונים ) :( Data Base Layerשכבה זו מ נהלת את בסיס ה נתו נים המרכזי של מחסן ה נתו נים .ברוב יי שומי מחסן נתו נים מפעילים בסיס נתו נים טבלאי .ה נתו נים נטע נים אל בסיס ה נתו נים באמצעות תוכ ניות שרות או יי שומים מיוחדים המעדכ נים אותו .בדרך כלל ,עם תום שלב הטעי נה נב נים האי נדקסים ,מחו שבים סיכומים שו נים ועוד פעולות ניהול ,כ נדר ש. ! שכבת הצגת המידע ) :( Information Presentation Layerשכבה זו עוסקת בהצגת המידע המ נוהל במחסן ה נתו נים ,וכוללת אוסף של כלי תוכ נה ויי שומים המיועדים למ שתמ שי מחסן ה נתו נים .בדרך כלל ,אין ב נמצא כלי אחד ויחיד המתאים לצורכי כל המ שתמ שים .על כן ,מקובל לראות ב שכבה זו מספר כלים שו נים המיועדים לצרכים שו נים :מחוללי שאילתות ודוחות ,כלים מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים 14 www.hod-ami .co.il ל ניתוח רב-מימדי ,כלים ל ניתוחים סטטיסטיים ,כלים לב ניית מודלים פי נ נסיים ,גיליו נות אלקטרו ניים ,כלי כריית נתו נים ) ( Data Miningוכדומה. בחלק מהמקרים המ שתמ שים עובדים באופן י שיר עם כלים אלה ובמקרים אחרים נב נים עבורם יי שומים ייחודיים .הכל בהתאם ליכולות המ שתמ ש וצרכי המידע שלו .קיימים מצבים בהם המ שתמ שים זקוקים לאותו מב נה מידע באופן תקופתי .לכן ,מקובל להריץ אוסף דוחות מול מחסן ה נתו נים ולהעמיד את התוצאות לר שות אותם מ שתמ שים .כך ,המ שתמ שים אי נם צריכים ל נסח את המב נה מחד ש בכל פעם ואי נם צריכים לזכור כיצד להפעילו .טכ נולוגיית האי נטר נט הפכה לטכ נולוגיה נפוצה מאוד לצורך הפצת המידע המופק ממחסן ה נתו נים למ שתמ שים ה שו נים. ! שכבת קטלוג הנתונים ) :( Meta Data Layerשכבה זו מ שמ שת כקטלוג מרכזי המאפ שר למ שתמ ש להתמצא ב נבכי מחסן ה נתו נים ,במ שמעות ה נתו נים ובעדכ ניותם .קטלוג ה נתו נים מכיל את ההסבר לכל הטבלאות ,את ההסבר לעמודות שבכל טבלה ,כיצד חו שבו ה נתו נים ,מה המקור ממ נו נגזרו או חו שבו ה נתו נים ,למתי הם מעודכ נים וכדומה .ללא שכבה זו י ש למ שתמ שים קו שי ניכר בהתמצאות במחסן ה נתו נים ובהב נת מ שמעות ה נתו נים האגורים בו. ! שכבת ניהול ותפעול תהליכים ) :( Process Management Layerשכבה זו עוסקת בהפעלת התהליכים ה שו נים הפועלים בסביבת מחסן ה נתו נים ,בתזמון שלהם ,בבדיקה שהסתיימו בהצלחה וכדומה. מכיון שמבחי נת ניהול ה נתו נים בארגון קיימת אבח נה ברורה בין שתי שכבות נתו נים -נתו נים תפעוליים ו נתו נים לתמיכה בקבלת החלטות -מקובל גם לקרוא לארכיטקטורה זו ,מבחי נת ה נתו נים ,ארכיטקטורה דו-שכבתית )Two Tier .( Architecture www.hod-ami.co.il שכבת המערכות התפעוליות שכבת מחס& הנתוני! תר שים :2שתי שכבות של ניהול נתו נים היתרון הגדול בגי שת מחסן ה נתו נים הארגו ני היא ,כמובן ,מעצם היותו מאגר מרכזי המ נהל נתו נים אודות כלל היי שויות העסקיות המע ניי נות את הארגון והמ שמ ש את כלל המ שתמ שים .מכיון שזהו בסיס נתו נים מרכזי ,ניתן לקבל ממ נו חתכי מידע רוחביים ח שובים ,מע ניי נים ומגוו נים. הבעיה העיקרית בגי שת מחסן ה נתו נים הארגו ני הוא הזמן הארוך הדרו ש להקמתו ,תהליך שיכול להימ שך לפעמים מספר ש נים .ה ניסיון להקים מחסן נתו נים ארגו ני דור ש להגיע להסכמה בין מספר רב של מ שתמ שים ומחלקות בארגון בא שר להגדרת ומ שמעות ה נתו נים ,ובא שר לעדיפויות ה נו שאים ה שו נים שי ש ל נהל בו .הארגון צריך לה שקיע מאמץ וזמן רב ב שלב העיצוב והב ניה של מודל ה נתו נים .לעיתים מגיעים לסתירות בין הדרכים ה שו נות בהן מ שתמ שים שו נים רוצים ל נהל ולהסתכל ב נתו נים .לרוב הארגו נים והמ שתמ שים אין את הזמן ואת הסבל נות ה נדר שים להקמת מחסן נתו נים ארגו ני ,כי הלחצים לקבלת מידע גבוהים ואין אפ שרות לה שקיע את המ שאבים .ב נוסף ,הת נאים והדרי שות מ שת נים כל הזמן ,נפח ה נתו נים של המחסן הארגו ני עצומים וכל זה -מרפה את ידי המתחילים לעסוק ב נו שא .לפעמים מגיעים למסק נה שאין זה מע שי לב נות מחסן מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים www.hod-ami .co.il 15 נתו נים ארגו ני עבור ארגו נים גדולים שבהם י ש שו נות גדולה של מוצרים ו שירותים. בגלל ק שיים אלה נט שו ,לפחות באופן זמ ני ,חלק מהארגו נים את הגי שה הזו והגדירו מטרה צ נועה יותר :מחסן נתו נים מחלקתי ,או מחסן נתו נים נו שאי ובפ שטות -מרכול נתו נים. ארכיטקטורת מרכול הנתונים )(Data Mart Architecture מרכול ה נתו נים הוא הרחבה של תפיסת מחסן ה נתו נים הארגו ני לרמה המחלקתית ,ולכן הוא ממוקד ב נו שא או בתחום מסוים ומוגדר .באופן טבעי ,הוא קטן יותר ממחסן ה נתו נים הארגו ני. הגדרה :מרכול הנתונים הוא מחסן נתו נים ש נועד ל שרת ,בדרך כלל ,מחלקה אחת )או מספר מצומצם של מחלקות( וממוקד ב נו שא אחד בלבד. מבחי נת תכולת ה נתו נים מרכול ה נתו נים הוא נגזרת חלקית כל שהי של המחסן הארגו ני .הוא מיועד ל שימו ש מחלקה אחת או מספר מצומצם של מחלקות ק שורות ולרוב הוא ממוקד ב נו שא אחד .אחד מפרקי הספר מוקד ש ל נו שא זה. ארכיטקטורת מרכול ה נתו נים דומה לארכיטקטורת מחסן ה נתו נים הארגו ני, בהבדל אחד מהותי :בעוד שמחסן נתו נים ארגו ני י ש רק אחד ,מרכולי נתו נים יכולים להיות רבים. שכבת מילו& נתוני! Meta Data www.hod-ami.co.il נתוני! תפעוליי! Managed Queries גישה לנתוני! גזירה ניקוי קודי! התאמות הפצה שכפול שכבת גזירת הנתוני! שכבת אחסו& ביניי! נושא א‘ נושא ב‘ נתוני! חיצוניי! שכבת הגישה לנתוני! שכבת מרכול הנתוני! EIS Multi Dimen sional Analysis Statistical Packag es Data Mining שכבת מקורות הנתוני! שכבת הצגת המידע שכבת ניהול ותפעול תהליכי! Process Management תר שים :3ארכיטקטורה מרכול נתו נים כפי ש ניתן לראות מתר שים ,4כל ה שכבות שקיימות במחסן הארגו ני קיימות גם כאן .מכיון שגם בארכיטקטורה זו קיימת אבח נה בין שכבת ה נתו נים התפעוליים לבין שכבת ה נתו נים המיועדים לתמיכה בקבלת החלטות ,ארכיטקטורת מרכול ה נתו נים היא ארכיטקטורה דו -שכבתית מבחי נת ה נתו נים. שכבת המערכות התפעוליות שכבת מרכולי נתוני! כוח אד! פיננסי שיווק תר שים :4שכבות בארכיטקטורה של מרכולי ה נתו נים מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים www.hod-ami .co.il 16 מחסן נתונים רב-שכבתי )( Multi Tier Data Warehouse שתי הארכיטקטורות שהצג נו -המחסן הארגו ני ומרכול ה נתו נים -אי נן מיועדות להחליף זו את זו .הו ארכיטקטורות מ שלימות ומ שולבות. הגדרה :מחסן נתונים רב-שכבתי מ שלב בתוך ארכיטקטורה אחת מחסן נתו נים ארגו ני יחד עם מספר בלתי מוגבל של מרכולי נתו נים. להבדיל מהארכיטקטורה הדו -שכבתית של מרכולי ה נתו נים ה שואבים את ה נתו נים באופן י שיר מהמערכות התפעוליות ,בארכיטקטורה הרב -שכבתית שואבים מרכולי ה נתו נים את ה נתו נים ממחסן ה נתו נים הארגו ני .כל מרכול נתו נים מכיל חלק מסוים מבסיס ה נתו נים של המחסן הארגו ני .תהליכי הגזירה ליצירת המרכול מתבססים ,בדרך כלל ,על טכ נולוגיות שכפול נתונים ) ,( Data Replication ה נתמכות כיום על ידי רוב בסיסי ה נתו נים היחסיים המודר ניים. ארכיטקטורת מרכולי ה נתו נים היא המומלצת ביותר .מצד אחד היא מבוססת על מחסן נתו נים ארגו ני ומצד ש ני היא נות נת פתרו נות למחלקות ול נו שאים ומספקת כלים מיוחדים כגון כלי ניתוח רב מימדיים ) ( OLAPאו כלי כריית נתונים ) Data .( Miningחלק מכלים אלה אי נם פועלים באופן י שיר על בסיס ה נתו נים הטבלאי. עבור כלי OLAPדרו ש מב נה קוביה רב-ממדית ,ב שעה שכלי כריה אחרים יכולים להסתפק במב נה של קובץ שטוח. שכבת המערכות התפעוליות www.hod-ami.co.il שכבת מחס& הנתוני! הארגוני שכבת מרכולי הנתוני! מחלקתיי! כוח אד! שיווק פיננסי תר שים :5ארכיטקטורה מחסן נתו נים רב -שכבתי ארכיטקטורת מחסן ה נתו נים הרב -שכבתי מ שלבת את היתרו נות שבקיום מחסן נתו נים כלל ארגו ני ואת היתרו נות שברמת עצמאות והתאמה לדרי שות ייחודיות של מחלקות שו נות .הבעיה היא בקו שי שבב ניית המחסן הארגו ני ובתפעול שוטף של ארכיטקטורה מבוזרת ומורכבת יחסית. לפעמים ניתן לב נות גם מחסן נתו נים המבוסס על שכבה נוספת :שכבת ה נתו נים המ נוהלים במח שב האי שי של מ שתמ ש מסוים .בארגון קיימים מספר מועט של מ שתמ שים המבצעים ניתוחי מידע מורכבים ומאוד ייחודיים ומסיבות שו נות ,כגון סודיות או שימו ש בכלי ניתוח מאוד ייחודיים ,עדיף לגזור את ה נתו נים ממרכול מחלקתי )או לפעמים י שירות מהמחסן הארגו ני( ולהעבירם לתח נת העבודה האי שית. מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים www.hod-ami .co.il 17 שכבת המערכות התפעוליות שכבת מחס& הנתוני! הארגוני שכבת מרכולי הנתוני! מחלקתיי! כוח אד! שכבת מחס& הנתוני! האישי שיווק פיננסי נתוני! חיצוניי! לקוחות גדולי! תר שים :6מחסן נתו נים ארבע שכבתי תר שים 6מציג דוגמה של שכבה נוספת המופעלת במח שב אי שי של מ שתמ ש מסוים .שכבה זו מקבלת נתו נים ממרכול ה נתו נים ה שיווקי על ידי גזירת הלקוחות הגדולים בלבד וביצוע ניתוחים מיוחדים המ שלבים גם נתו נים חיצו ניים. ארכיטקטורת מאגר נתונים תפעולי )(ODS - Operational Data Store ב נוסף לדרי שות ניתוח מידע עבור דרג מקבלי ההחלטות ,הארגון צריך לספק מידע באופן שוטף גם לדרג התפעולי .אחת האפ שרויות היא לספק מידע זה י שירות מתוך המערכות התפעוליות .אפ שרות אחרת היא להקים ליד המערכת התפעולית מאגר נתו נים ייעודי לאספקת מידע לדרגים התפעוליים .ברמת הארכיטקטורה קיים דמיון רב בין מחסן ה נתו נים לבין מאגר ה נתו נים התפעולי ,אולם כפי ש נראה מיד, האופי ,עדכ ניות ה נתו נים המ נוהלים בו וכלי הדיווח -שו נים. www.hod-ami.co.il הגדרה :מאגר נתונים תפעולי הוא מחסן נתו נים המיועד ל שרת את הדרג התפעולי בארגון בכל הק שור לדיווחים ול ניתוחי מידע שוטפים. מאגר ה נתו נים התפעולי מיועד להפקת דיווחים ו ניתוחי מידע עבור הדרג התפעולי, ואולי גם טקטי ,אבל עם דג ש חזק על הפעילות ה שוטפת בארגון .נסקור את נקודות הדמיון וה שו ני בין מחסן ה נתו נים לבין מאגר ה נתו נים התפעולי. ! ארגון לפי נושאים -בדומה למחסן ה נתו נים ,גם במאגר ה נתו נים התפעולי ה נתו נים מאורג נים לפי נו שאים ,ולא לפי תהליכים עסקיים ,כמקובל במערכות תפעוליות. ! מאגר אינטגרטיבי -המאגר אוגר נתו נים ממערכות תפעוליות שו נות ופותר סתירות שו נות. ! מתעדכן -להבדיל ממחסן נתו נים המתעדכן רק דרך תהליכי טעי נה ,מקובל לעדכן את מאגר ה נתו נים התפעולי גם באמצעות ת נועות המערכת התפעולית, במידת הצורך .מכיון שמאגר ה נתו נים התפעולי צריך להיות ברמת עדכ ניות גבוהה ,לא תמיד תהליכי טעי נה באצווה מספקים את דרי שות הדרג התפעולי. יחד עם זאת ,רצוי לב נות מאגר נתו נים תפעולי המתעדכן באופן דומה למחסן ה נתו נים ,במידה ורמת העדכ ניות מאפ שרת. ! שוטף וקרוב לשוטף -להבדיל ממחסן ה נתו נים המ נהל נתו נים מפורטים לפרקי זמן ארוכים ,העומק ההיסטורי של מאגר קצר יותר ,כי הוא מ שרת בעיקר את הדרג התפעולי ..בדרך כלל מ נוהלים בו ה נתו נים ה שוטפים והקרובים ל שוטף ).( Near Current מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים www.hod-ami .co.il 18 מאגר נתוני! תפעולי Operational Data Store בסיסי נתוני! תפעוליי! Operational Data Bases • • • • לפי נושא אינטגרטיבי מתעדכ& שוט 9וקרוב לשוט9 מחס& נתוני! Data Warehouse • • • • לפי נושא אינטגרטיבי לא מתעדכ& היסטורי תר שים :7ארכיטקטורה של מאגר נתו נים תפעולי ליד מחסן נתו נים כפי ש ניתן לראות מתר שים ,7מאגר ה נתו נים התפעולי יכול ל שמ ש כמאגר בי ניים לפ ני העברת ה נתו נים אל מחסן ה נתו נים ,אם כי זה אי נ נו ת נאי הכרחי .יתרון ה שימו ש במאגר ה נתו נים התפעולי כמאגר בי ניים הוא בכך שתהליכי הגזירה ומיטוב ה נתו נים מתבצעים בעת הכ נסת ה נתו נים אליו ,ולכן אין צורך לחזור על פעולה זו בעת העברתם למחסן ה נתו נים. להבדיל ממחסן ה נתו נים ,שצריך להכיל כלי ניתוח מידע מתוחכמים מאוד המיועדים ל שימו שם של מ שתמ שים מתמחים ,מאגר ה נתו נים התפעולי מכיל בדרך כלל מחוללי דוחות ו שאילתות ,מכיון שדרי שות ניתוח המידע צ נועות בהרבה. www.hod-ami.co.il מחסן נתונים מדומה )(Virtual Data Warehouse למרות ההבדלים בין מערכות תפעוליות לבין מערכות לאספקת מידע ,עדיין י ש ארגו נים המ נסים ליי שם תפיסה של מחסן נתו נים מדומה. הגדרה :מחסן נתונים מדומה הוא אוסף של כלי גי שה ותוכ נות קי שור, המאפ שרים גי שה נוחה ל נתו נים תפעוליים מתוך כלי הצגת ו ניתוח מידע פ שוטים יחסית. הרעיון הבסיסי עליו מבוסס מחסן הנתונים המדומה הוא לאפ שר גי שה נוחה וקלה של המ שתמ שים לבסיסי ה נתו נים התפעוליים בארגון. מערכות תפעוליות שכבת תוכנה Middleware מבנה לוגי מדומה של נתוני! משתמשי קצה תר שים :8ארכיטקטורה של מחסן מדומה. בארכיטקטורה זו ניתן דג ש רב על ב ניית שכבת ביניים ) ( Middlewareהמאפ שרת קי שור בין אוסף כלי קצה לבסיסי ה נתו נים התפעוליים בארגון .שכבת בי ניים זו, הפועלת לפעמים על שרת ייעודי ,מבוססת על תק נים כגון ,DRDA ,ODBCאו על מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716 הוצאת הוד-עמי לספרי מחשבים 19 www.hod-ami .co.il תוכ נות בי ניים מיוחדות המאפ שרות גי שה לבסיסי נתו נים לא טבלאיים כמו ,IMS ,IDMSעל קבצי VSAMואחרים. כפי ש ניתן לה ניח ,ארכיטקטורה זו מפתה מאוד ,מפ ני שאין צורך בגזירת נתו נים ו ניהול בסיסי נתו נים נפרדים עבור מערכות אספקת המידע .מתקי נים אוסף של כלי קצה ותוכ נות קי שור מסוימות ,והרי ל נו מחסן נתו נים .איך בכלל ניתן לעמוד בפ ני פיתוי שכזה? הבעיה היא שתפיסה זו פ שוט "לא עובדת" ,וי ש לכך סיבות רבות: הבדלים במב נה ה נתו נים ,סתירות בין ה נתו נים ,עומס על מח שבי הייצור ,חוסר יכולת לבצע אי נטגרציה בין נתו נים המ נוהלים במערכות מיח שוב שו נות ורמת הסיבוכיות שהמ שתמ ש נח שף לה .כל אלו הן רק חלק מהבעיות שארגון המ נסה לאמץ תפיסה זו עלול להיתקל בהן. ניתן לומר שארכיטקטורה המוצגת כאן מתאימה כפתרון בי ניים בלבד לארגו נים ה נתקלים בק שיים בב ניית מחסן נתו נים אמיתי והמבק שים להקל ,לפחות באופן זמ ני ,על חלק מהמ שתמ שים על ידי מתן אפ שרות קלה יותר של גי שה ל נתו נים. "ארכיטקטורה" פ שט נית זו קיימת רק בעלו ני ה שיווק של ספקים מסוימים, המבק שים למכור את הא שליה ש ניתן לב נות מחסן נתו נים במהירות ובקלות. זהו חלק מפרק 2מתוך הספר מחסני נתונים -עקרונות ,ארכיטקטורות ,עיצוב ויישום בהוצאת הוד-עמי. www.hod-ami.co.il מתוך הספר :מחסני נתונים ,עקרונות ,ארכיטקטורה ,עיצוב ויישום צלצל עכשיו! 09-9564716
© Copyright 2024