פיתוח שיטת ניפוח לקבלת אמד נכון של מספר הנפגעים קשה בתאונות הדרכים

‫הטכניון מכון טכנולוגי לישראל‬
‫הפקולטה להנדסת תעשיה וניהול‬
‫‪TECHNION -ISRAEL INSTITUTE OF TECHNOLOGY‬‬
‫‪Faculty of Industrial Engineering and Management‬‬
‫קריית הטכניון ‪ -‬חיפה ‪00333‬‬
‫‪Technion City - Haifa 32000 – Israel‬‬
‫‪Statistics Laboratory‬‬
‫‪04-8292333, Fax: 04-8288699‬‬
‫פיתוח שיטת ניפוח לקבלת אמד נכון של מספר הנפגעים‬
‫קשה בתאונות הדרכים בישראל מתוך המספרים המדווחים‬
‫מאת‪ :‬פרופ‪/‬ח אילה כהן‪ ,‬ד"ר אטי דובא וד"ר ויקטוריה גיטלמן‬
‫המחקר ממומן על ידי‬
‫קרן המחקרים בענייני ביטוח ליד אגוד חברות הביטוח בישראל‬
‫אוגוסט ‪0300‬‬
‫‪Tel‬‬
‫כל הזכויות שמורות לחוקר‪/‬ים ולמוסד הטכניון למחקר ופיתוח בע"מ‪ .‬כל המידע הכלול במסמך זה‬
‫הוא קניינו הרוחני הבלעדי של מוסד הטכניון למו"פ בע"מ ואין להשתמש בו‪ ,‬באופן חלקי או מלא‪ ,‬אלא‬
‫לאחר קבלת אישור בכתב מאת החוקר ו‪/‬או מוסד הטכניון למחקר ופיתוח בע"מ‪.‬‬
‫למען הסר ספק מודגש בזאת כי החוקר‪ ,‬מוסד הטכניון למחקר ופיתוח בע"מ והטכניון המכון‬
‫הטכנולוגי לישראל ‪ -‬אינם ולא יהיו אחראים לכל פגיעה ו‪/‬או נזק ו‪/‬או הוצאות ו‪/‬או הפסד‪ ,‬מכל סוג ומין‪,‬‬
‫שנגרם א ו עלול להיגרם לרכוש ו‪/‬או לגוף‪ ,‬כתוצאה ישירה או עקיפה‪ ,‬למקבל הדו"ח או לצד ג' כלשהו‪,‬‬
‫עקב דו"ח זה או בהקשר אליו‪ ,‬לרבות בשל יישום האמור בו‪.‬‬
‫‪2‬‬
‫תוכן עניינים‬
‫הקדמה ‪4........................ ................................ ................................ ................................‬‬
‫‪ .0‬סקר ספרות ‪8.............. ................................ ................................ ................................‬‬
‫‪ .1.1‬על הדיווח בישראל ‪8............................... ................................ ................................‬‬
‫‪ .1.2‬מחקרים בארצות שונות על רמות תת הדיווח ‪6............................. ................................‬‬
‫‪ .1.3‬שיטות תיקון שיושמו ‪9............................. ................................ ................................‬‬
‫‪ .0‬בסיס נתוני המחקר ‪8.................................... ................................ ................................‬‬
‫‪ .0‬הצגת מתודולוגית ה‪ Capture-Recapture-‬ויישומה במחקר קודם לניפוח נתוני המשטרה ‪11‬‬
‫‪ .4‬שיטת האמידה במחקר הנוכחי ‪16.................. ................................ ................................‬‬
‫‪ .5‬אמידת מספר הנפגעים בשיטה של מחקר זה והשוואת הממצאים שהתקבלו בשתי השיטות‬
‫‪22................................ ................................ ................................ ................................‬‬
‫‪ .8.1‬הנתונים ‪22........... ................................ ................................ ................................‬‬
‫‪ .8.2‬משתני המודל ‪23................................... ................................ ................................‬‬
‫‪ .8.3‬תוצאות הרצת המודל ‪24......................... ................................ ................................‬‬
‫‪ .8.4‬מודל מסביר להערכת הסתברות הלכידה ע"י המשטרה ‪22............. ................................‬‬
‫‪ .8.8‬השוואת הסתברויות לכידה בשתי השיטות עבור נתוני ‪28...................................... 2119‬‬
‫‪ .8.6‬יצירת אמד למספר כולל של נפגעים קשה על סמך דיווח המשטרה‪ ,‬עבור נתוני ‪31...... 2119‬‬
‫‪ .8.2‬אמידת הנפגעים קשה כאשר מנפחים נתוני טראומה במקום נתוני משטרה‪ ,‬או כאשר‬
‫משתמשים לניפוח גם בנתוני המשטרה וגם בנתוני הטראומה ‪32............ ................................‬‬
‫‪ .6‬סיכום ודיון ‪38.............. ................................ ................................ ................................‬‬
‫‪ .6.1‬תועלות המחקר הנוכחי ‪38....................... ................................ ................................‬‬
‫‪ .6.2‬הצעה להמשך מחקר‪ :‬רווח סמך עבור המספר הכולל של נפגעים ‪38.................................‬‬
‫מראי מקום ‪38................. ................................ ................................ ................................‬‬
‫נספח‪ :‬תוכנת ‪41...................................... ................................ ................................ SAS‬‬
‫‪3‬‬
‫הקדמה‬
‫ברישומים של נפגעים קשה בתאונות הדרכים יש חסר הנובע מסיבות שונות‪ .‬לדיווח מוטעה על‬
‫המספרים הנכונים של הנפגעים קשה יש השלכות שליליות‪ .‬שכן‪ ,‬תת‪-‬אמידה של המספרים עלולה‬
‫להביא לאי‪-‬נקיטת אמצעים הנדרשים להקטנת היקף התאונות‪ .‬משגה כזה עלול להביא גם להגדלת‬
‫מספר התאונות‪ .‬התוצאה היא לא רק נזקים אישיים בנפש וברכוש‪ ,‬אלא גם עלות גדולה יותר לכיסוי‬
‫נזקי התאונות‪ .‬לפיכך‪ ,‬יש חשיבות בהערכה נכונה של מספר הנפגעים‪ .‬המחקר המתואר בדו"ח זה‬
‫עונה על השאלה כיצד ניתן לאמוד את המספר הנכון של נפגעים קשה‪.‬‬
‫בדו"ח תוצג שיטה אשר יישמנו לניפוח מספרי הנפגעים קשה בתאונות הדרכים בישראל המדווחים‬
‫על‪-‬ידי המשטרה‪ .‬הפיתוח התבסס על שלשה קבצי נתונים‪ :‬קובץ "משטרה בלבד"‪" ,‬טראומה בלבד"‪,‬‬
‫ו‪"-‬משטרה וטראומה" ‪ .‬הקובץ השלישי כולל רישום נפגעים המופיעים הן בקובץ המשטרה והן בקובץ‬
‫הטראומה‪ .‬קבצים אלה (המתייחסים לשנת ‪ ,)2119‬הועמדו לרשותנו מהלמ"ס‪ .‬השיטה מתבססת על‬
‫פיתוחים שנעשו לאחרונה בתחום הסטטיסטיקה לפי עקרונות הידועים בשם‪.Capture-Recapture :‬‬
‫השיטות פותחו במקור עבור מחקרים ביולוגיים שמטרתם הייתה לאמוד גודל אוכלוסייה‪ ,‬כמו למשל‪,‬‬
‫מספר דגים באגם‪ .‬תהליך איסוף הנתונים נעשה בדרך הבאה‪" :‬לוכדים" בשלב ראשון דגים מהאגם‬
‫ברשת‪ ,‬רושמים את מספרם ומחזירים אותם לאגם לאחר שסומנו‪ .‬בשלב שני‪ ,‬שוב לוכדים ברשת‬
‫מהאגם‪ ,‬ורושמים הן את מספר הדגים שעתה נלכדו ולא נכללו בלכידה הראשונה‪ ,‬והן את מספר אלה‬
‫שנלכדו שוב‪ .‬על בסיס שלושת המספרים אומדים את מספר הדגים הכולל המצוי באגם‪ .‬לכן השיטה‬
‫נקראת "לכידה ולכידה חוזרת" (‪.)Capture-Recapture‬‬
‫שימוש בשיטה של ‪ Capture-Recapture‬בוצע בעבר לאמידת המספר הנכון של תאונות‪/‬נפגעים‬
‫מסוגים שונים‪ ,‬כאשר ישנם מספר מקורות לנתוני התאונות‪ ,‬למשל‪ :‬תאונות דרכים‪ ,‬תאונות עבודה‪,‬‬
‫תאונות של ילדים‪ ,‬פציעה עקב נשיכות של כלבים‪ ,‬ועוד ( ;‪Sacks et al.,1989; Chiu et al., 1993‬‬
‫‪Rossignol, 1994; Johnson et al.,1997; Chang et al,1997; Roberts & Scragg, 1994).‬‬
‫במחקר מקדים על בסיס נתוני שלושת הקבצים של שנת ‪ - 2119‬גיטלמן ודובא (‪ ,)2119‬בוצע ניתוח‬
‫של הנתונים‪ ,‬גם כן בדרך המבוססת על השיטה של ‪ .Capture-Recapture‬במחקר הנוכחי נעשתה‬
‫הרחבה המהווה שיפור לשיטה הקודמת‪ .‬אמנם‪ ,‬לנתוני המחקר שתי השיטות מניבות כמעט אותה‬
‫תוצאה‪ .‬אולם‪ ,‬מטרת מחקר זה לא הייתה מצומצמת אך ורק לקבלת אמד נכון לנתוני ‪ ,2119‬אלא‬
‫לפתח שיטה שתשמש ליישומים אחרים‪ .‬לתוכנה שנבנתה וההסבר של השיטות יש תועלת לתחומים‬
‫שונים שבהם יש אפשרות שקיים חסר ברישום ויש צורך באמידה נכונה של מספר המקרים הרלבנטי‪.‬‬
‫התוכנה אשר מובאת בנספח לדו"ח זה נכתבה אמנם ליישום השיטה על נתוני ‪ .2119‬אבל‪ ,‬ללא‬
‫קושי‪ ,‬ניתן לבצע שינויים קטנים כך שניתן יהיה ליישמה לבעיה אחרת הדורשת ניפוח לקבלת אמד‬
‫נכון‪.‬‬
‫בסוף הדו"ח יצוין היתרון שהושג בהרחבה‪ ,‬כמו גם הצעה להמשך מחקר זה‪.‬‬
‫‪4‬‬
‫‪ .0‬סקר ספרות‬
‫‪ .0.0‬על הדיווח בישראל‬
‫בישראל כמו בארצות אחרות הסטטיסטיקה הרשמית על מספרי הנפגעים בתאונות הדרכים מבוססת‬
‫על רישומים של המשטרה‪ .‬בעשור האחרון גדלה המודעות של החסר בדיווח זה ובעקבות זאת פותחו‬
‫שיטות שונות לאמידה נכונה של מספרים אלה‪.‬‬
‫כאמור‪ ,‬בעיה זו אינה ייחודית לישראל‪ .‬כבר ב‪ Elvik & Mysen (1999) ,1888-‬הציגו את אחוזי‬
‫הדיווחים של נפגעים בתאונות דרכים שנזקקו לאשפוז כפי שדווחו ב‪ 48-‬מחקרים אשר בוצעו ב‪13-‬‬
‫ארצות‪ .‬אחוזים אלה נעו בין ‪ 21%‬עד ‪ ,99%‬כאשר ממוצע משוקלל של אחוזים אלה היה ‪.38%‬‬
‫אחוזים אלה חושבו על‪-‬ידי השוואת המספרים בהתאם לרישומי המשטרה‪ ,‬לעומת הדיווח על בסיס‬
‫מקורות מידע אחרים‪ .‬המקורות האחרים אליהם התייחסו ב‪ 48-‬המחקרים לא היו בהכרח מאותו סוג‪.‬‬
‫במחקרים שונים‪ ,‬כמו לדוגמה )‪ Amoros et al (2006) ,Elvik & Vaa (2004‬נמצא שבדרך כלל‬
‫אחוז הדיווח היה גבוה יותר עבור נפגעים בתאונות של כלי רכב‪ ,‬מעט נמוך עבור הולכי הרגל‪ ,‬נמוך‬
‫יותר לרוכבי אופנוע‪ ,‬והכי נמוך לרוכבי אופניים‪ .‬באופן כללי נמצא שרמת הדיווח נמוכה יותר כאשר‬
‫משווים תאונות של רכב יחיד לעומת תאונות עם מספר כלי רכב מעורבים‪ ,‬ובפרט כאשר מדובר ברכב‬
‫על שני גלגלים‪.‬‬
‫הבעיה העיקרית הנובעת מתת הדיווח ולכן יש צורך בתיקונה‪ ,‬היא שהמספרים המדווחים משמשים‬
‫בסיס לנקיטת פעולות בטיחות בדרכים‪ .‬על חיזוק הצורך הגדול בדיווח מדויק נכתב בדוחות של‬
‫האיחוד האירופי ב‪ 2112-‬ולאחרונה‪ ,‬גם ב‪ .)ETSC, 2007; OECD/ITF, 2011) 2111-‬כל‬
‫המאמרים המתייחסים לנושא מציינים כי האפשרות להשתמש בכמה מקורות מידע מגדילה את‬
‫האפשרות לקבל אמידה מדויקת יותר‪.‬‬
‫כהן במחקר מ‪ )Cohen, 2004( 2114-‬השווה נתוני תאונות של הלשכה המרכזית לסטטיסטיקה עם‬
‫נתוני חברת הביטוח "אבנר" שברישומיה תועדו כל כלי הרכב עם ביטוח חובה עד לשנת ‪ .2112‬נתוני‬
‫הלשכה היו מהסוג הידוע בשם "תו דלת"‪ .‬אלו כוללים רק רישום תאונות של המשטרה שבהן היו‬
‫נפגעים ושבהן התקיימו תנאים מסוימים לגבי סוג העבירה בתאונה‪ ,‬פער הזמן בין האירוע של‬
‫התאונה והדיווח למשטרה‪ ,‬מספר הנפגעים‪ ,‬מספר כלי הרכב המעורבים בתאונה וכו'‪ .‬בעקבות הפער‬
‫בין שני מקורות המידע הועלו מספר תהיות לגבי טיב הרישומים הרשמיים אשר מפרסמת הלשכה‪.‬‬
‫במחקרם ב‪ 2114-‬פלג ואהרונסון‪-‬דניאל זיהו פערים משמעותיים בין המספרים שדווחו על‪-‬ידי‬
‫המשטרה על מספר המאושפזים עקב תאונות דרכים לעומת הרישום של מרכז הטראומה ורפואה‬
‫דחופה המנוהל במכון גרטנר ובו תיעוד של נפגעים שאושפזו ונפגעים אשר נפטרו בחדרי המיון‪ .‬עד‬
‫לשנת ‪ 2116‬נתוני מרכז זה כללו רישום על נפגעים שאושפזו מעשרה מרכזי טראומה‪ ,‬אשר לפי‬
‫אומדנים‪ ,‬כללו קרוב ל‪ 98%-‬מכל המקרים בארץ‪ .‬המחקר הראה שלמשל בשנים ‪1889-2111‬‬
‫המספרים אשר דווחו על‪-‬ידי מרכז זה על בסיס דיווחים של ‪ 9‬בתי חולים בלבד מתוך ‪ 24‬בתי החולים‬
‫בארץ‪ ,‬היו גבוהים מאלו של המשטרה‪ .‬זאת‪ ,‬למרות שדיווחי המשטרה כללו את כל הארץ‪ .‬לא‬
‫מפליאה מסקנת מחברי המחקר שהחלטות על בטיחות חייבות להתבסס על נתונים ממספר מקורות‪.‬‬
‫‪8‬‬
‫בעקבות מחקרם של פלג ואהרונסון‪-‬דניאל‪ ,‬בוצעה על‪-‬ידי הלשכה המרכזית לסטטיסטיקה ב‪2118-‬‬
‫השוואה מפורטת של נתוני המרכז לטראומה והנתונים המשולבים של המשטרה (נתוני "תו דלת"‬
‫וקובץ נוסף הקרוי "כללי עם נפגעים")‪ .‬נתוני מרכז הטראומה לא כוללים זיהוי אישי ואלו הושלמו‬
‫מהתיעוד של מסמכי בתי החולים‪ .‬לאחר מכן התאימו בעזרת הזיהוי את הנתונים של מרכז הטראומה‬
‫עם נתוני המשטרה‪ .‬כך התקבלו שלושה קבצים‪ :‬האחד שכלל ‪ 1341‬רשומות היה של מרכז‬
‫הטראומה‪ ,‬הקובץ המשולב כלל ‪ 4123‬רשומות וזה של המשטרה בלבד כלל ‪ 122621‬רשומות‪.‬‬
‫במחקרם הביאו החוקרים פירוט סטטיסטי על כל קובץ מה תרם לתת‪-‬דיווח בקובץ זה‪ .‬בין השאר‬
‫מצאו החוקרים שמעל ‪ 911‬נפגעים שדווחו כפצועים קל ע"י המשטרה אושפזו למעלה מ‪ 3-‬ימים‪.‬‬
‫הלשכה המרכזית דווחה על ‪ 2826‬פצועים קשה‪ ,‬בעוד כאשר נערכה אמידה של מספר זה על בסיס‬
‫רישומי מרכז הטראומה שכללו ‪ 8‬בתי חולים ולקיחה בחשבון של בתי החולים הנוספים בארץ‪ ,‬הוערך‬
‫מספר זה כבין ‪ 3211‬ל‪ .4611-‬החוקרים במאמר הגיעו למסקנה הברורה שברשומות המשטרה יש‬
‫תת‪-‬דיווח של הנפגעים‪.‬‬
‫דוח מפורט של קבוצת עבודה מהארגון הבינלאומי בראשות פרופסור ‪International - Wegman‬‬
‫)‪ - Traffic Safety Data and Analysis Group (IRTAD‬אשר הוגש ב‪ 2111-‬סקר את נושא דיווח‬
‫הנפגעים ב‪ 23-‬ארצות שונות שהשתתפו בסקר‪ .‬אלו היו ארצות מתוך ארגון ה‪ OECD-‬שכולן‬
‫משתמשות בשיטות שונות לניצול מספר מקורות מידע על מנת לקבל אומדנים יותר נכונים על מספרי‬
‫הנפגעים‪ .‬ישראל היא בין הארצות הללו‪.‬‬
‫אחת השאלות לגבי דיוק הדיווח קשורה בהגדרת סוג הפגיעה‪ .‬כפי שהוצג בדו"ח‪ ,‬קיימים הבדלים‬
‫בהגדרות בין הארצות השונות‪ ,‬כמו גם הבדלים במקורות הדיווח‪ .‬כמצופה‪ ,‬דוחות המשטרה היוו את‬
‫מקור הנתונים העיקרי לדיווח על מספרי הנפגעים קשה בכל הארצות שהשתתפו בסקר‪ .‬ברובן‪,‬‬
‫הנתונים דווחו ברמה הארצית פרט לארצות גדולות במיוחד כמו אוסטרליה‪ ,‬קנדה וארה"ב שדיווחן‬
‫היה ברמה של אזור או מדינה‪ .‬רק ‪ 18‬מתוך ‪ 23‬הארצות השתמשו בנתוני אשפוזים בבתי חולים‬
‫כמקור מידע נוסף על נפגעים קשה‪ .‬במספר ארצות כגון‪ :‬אוסטרליה‪ ,‬פינלנד‪ ,‬גרמניה‪ ,‬יפן‪ ,‬צוין שלא‬
‫הייתה נגישות לנתונים אלה‪ .‬לעומת זאת‪ ,‬ישראל צוינה בין הארצות עם גישה ושימוש בנתונים של‬
‫בתי חולים לדיווח על פגיעות חמורות‪ .‬כמו כן‪ ,‬צוין שסה"כ רק ‪ 4‬ארצות‪ ,‬מתוכן ישראל וכן הולנד‪,‬‬
‫פינלנד ושוויץ‪ ,‬משתמשות בנתונ ים מחברות ביטוח כמקור מידע נוסף‪ .‬אולם‪ ,‬כולן ציינו שנתונים אלה‬
‫אינם בעלי אמינות גבוהה‪ .‬רק ישראל והולנד צוינו בדו"ח על שימוש בתיעודי תמותה כמקור נוסף‬
‫לתיקון דיווחי המשטרה‪ .‬על השימוש בנתוני שירותי פינוי והצלה (מד"א בישראל) כמקור מידע נוסף‬
‫על נפגעים בתאונות צוין שבעוד במספר ארצות נתונים אלה זמינים וכבר בשימוש לדיווח‪ ,‬הרי ישראל‬
‫רק מתכננת שימוש בעתיד במקור זה‪ .‬לגבי ניסיון בשימוש משולב של נתוני בתי חולים ומשטרה עבור‬
‫דיווח‪ ,‬צוינו ‪ 16‬ארצות כבעלות ניסיון וביניהן ישראל‪.‬‬
‫‪ .0.0‬מחקרים בארצות שונות על רמות תת הדיווח‬
‫לפי סקר שבוצע על ידי )‪ Derriks & Mak (2007‬על מדינות ה‪ OECD‬לגבי תת הדיווח של נפגעי‬
‫תאונות דרכים‪ ,‬התאמת רשומות של נתוני משטרה עם רשומות בתי החולים מתבצעת באוסטריה‪,‬‬
‫בריטניה‪ ,‬שוודיה והולנד‪.‬‬
‫‪6‬‬
‫מחקר בקנדה בוצע בפרובינציה אחת בלבד ובו נמצאה התאמה בין רשומות המשטרה לבין בתי‬
‫החולים ב ‪ 21%‬מהמקרים (‪.)Gutoskie ,2003‬‬
‫דוגמה לשימוש בשיטה הלא הסתברותית היא עבודתו של )‪ Stone (1984‬על נתונים מסקוטלנד‪.‬‬
‫הקישור שנעשה בעבודה זו היה עבור שנת ‪ 1891‬בין נתוני ‪ 18‬תחנות משטרה לבין בתי חולים‪.‬‬
‫הקישור בין הקבצים נעשה על בסיס אזור גיאוגרפי‪ ,‬מין וגיל הנפגע‪ ,‬סיווגו (נהג למשל)‪ ,‬חומרת‬
‫הפציעה‪ ,‬יום ושעת הקבלה בבית החולים‪ .‬לכל משתנה הוגדר תחום ערכים מתאים המצדיק את‬
‫החיבור‪ .‬לפי )‪ Stone (1984‬ל ‪ 21%‬מנתוני בתי החולים נמצאו רשומות שניתן היה להתאים לנתוני‬
‫המשטרה‪ .‬שימוש בשיטה אשר פיתח )‪ Stone (1984‬בוצע על ידי )‪ . Simpson (1996‬הוא התאים‬
‫נתוני מדגם של ‪ 16‬בתי חולים בבריטניה על נפגעי תאונות דרכים עם נתוני המשטרה‪ .‬עבור כמחצית‬
‫מהנפגעים שהגיעו לבתי החולים נמצאו גם רשומות בדוחות המשטרה‪ .‬לאותם מקרים הייתה הסכמה‬
‫באבחנה הרפואית רק ב ‪ .26%‬הערכת המחבר על ידי השוואות של מאפייני הפגיעות והנפגעים‬
‫שכדי לקבל מספרים נכונים יותר על המספר הארצי של הפגיעות החמורות יש להכפיל את המספר‬
‫המדווח בפקטור של ‪ 2.26‬ואת מספר הפגיעות הקלות בפקטור של ‪.1.2‬‬
‫בהולנד האמידה של נפגעים מבוצעת על‪-‬ידי התאמת רשומות המשטרה ובתי החולים‪ .‬בגלל שמירת‬
‫פרטיות החולים אין מידע על השמות‪ .‬ההתאמות מתבצעות על ידי התאמת פרטים כמן תאריך לידה‪,‬‬
‫מין‪ ,‬ומועד התאונה‪ .‬התאמות אילו מבוצעות כל חמש שנים והממצאים משמשים לאמידה עבור כל‬
‫שנה (‪ .)Gutoskie ,2003‬על בסיס ההתאמות שבוצעו בין השנים ‪ 1882‬לבין ‪ 2113‬פתחו ‪Reurings‬‬
‫)‪ et al (2007‬שיטת תיקון לחישוב האמד השנתי המתוקן עבור השנים שבהן לא בוצעה התאמה בין‬
‫רישומי שני המקורות‪.‬‬
‫במחקר שנעשה על‪-‬ידי )‪ Rosman (1995‬על התאמות בין רישומי בתי החולים והמשטרה במערב‬
‫אוסטרליה זוהו ‪ 81%‬מקרים כאשר השתמשו בזיהוי הנפגע על ידי קוד פונטי של שם משפחתו‪ ,‬כמו‬
‫גם הגיל‪ ,‬מין‪ ,‬תאריך התאונה וסוג הדרך‪ .‬לולי השימוש בשמות ניתן היה לזהות רק ‪ .81%‬במחקר‬
‫מאוחר יותר )‪ Lopez et al (2000‬בדקו באותו אזור את העקביות בדיווח של המשטרה לעומת‬
‫הרישום במרכזי הטראומה לגבי תוצאות התאונה ‪ .‬מתוך ‪ 482‬מקרים של פגיעות ברישומי טראומה‬
‫של שני בתי חולים רק ‪ 92%‬תאמו את רשומות המשטרה‪ .‬המחקר אושש את ההשערות המקובלות‬
‫על תת דיווח גדול יותר עבור פגיעות הולכי רגל (רק ‪ 29%‬היה מתועד במשטרה)‪.‬‬
‫)‪ Alshop & Langley (2001‬בדקו במחקרם על נתונים בניו‪-‬זילנד של שנת ‪ 1888‬את תת הדיווח‬
‫של המשטרה ובפרט‪ ,‬את הקשר בין מאפייני הפגיעות לבין רמת התת דיווח‪ .‬לפי מחקרם‪ ,‬עבור‬
‫פחות משני שלישים מהנפגעים אשר אושפזו היה רישום בדוחות המשטרה‪ ,‬ואחוזי הדיווח היו שונים‬
‫כאשר השוו נפגעים לפי סיווגים כמו חומרת הפגיעה‪ ,‬משך אשפוז‪ ,‬גיל הנפגע ואזור גיאוגרפי של‬
‫התאונה‪.‬‬
‫במחקר על נתונים בצרפת )‪ Amoros et al (2006, 2007‬ביצעו בעזרת שיטה חצי אוטומטית‬
‫התאמה בין נתוני משטרה לנתוני רישום טראומה באזור ‪ .Rhone‬המשתנים שהיוו בסיס לקישור היו‬
‫יום וזמן התאונה‪ ,‬מיקומה‪ ,‬סוג הדרך‪ ,‬מין ותאריך לידת הנפגע‪.‬‬
‫‪2‬‬
‫על נתונים בהונג‪-‬קונג בוצע מחקר על‪-‬ידי )‪ .Tsui et al (2009‬החוקרים העריכו את ההתאמה בין‬
‫רישומי המשטרה על חומרת פגיעות ואורך האשפוז‪ ,‬כאשר השוו את דוחות המשטרה עם אלו של‬
‫בית החולים האזורי‪ .‬לפי ממצאיהם היה הבדל משמעותי בין שני מקורות הדיווח‪ ,‬כאשר במשטרה‬
‫העריכו באופן יותר חמור את הפגיעה‪ .‬כמו כן‪ ,‬הם מצאו שהדיווח השגוי היה קשור במאפיינים שונים‬
‫כמו למשל גיל הנפגע‪.‬‬
‫‪ .0.0‬שיטות תיקון שיושמו‬
‫מקובלות כיום מספר שיטות לשימוש בכמה מקורות מידע כדי לקבל דיווח יותר נכון‪ .‬מקובל להשתמש‬
‫במונח ‪ ,LINKAGE‬כאשר המקור למונח זה היה המאמר של )‪ .Newcombe (1959‬מאמרו שימש‬
‫בסיס לשימוש במספר מקורות מידע במחקרים רבים באפידמיולוגיה‪.‬‬
‫מסווגים את השיטות לשיטה ידנית‪ ,‬דטרמיניסטית והסתברותית‪ .‬בשיטה הידנית מתבוננים ברשומות‬
‫השונות ומחפשים התאמות ביניהן‪ .‬זו שיטה גרועה שכן היא איטית ויש בה סיכוי גדול יחסית לטעויות‪.‬‬
‫היא מעשית רק כאשר מדובר במספר רשומות קטן יחסית‪.‬‬
‫גם לשיטה הדטרמיניסטית יש מגבלות‪ .‬בשיטה זו‪ ,‬הנעזרת במחשב‪ ,‬מקשרים על‪-‬ידי התאמה בין‬
‫רשומות‪ ,‬כאשר ההתאמה מבוצעת לפי משתנה מסוים המתועד בשני המקורות (כמו מספר תעודת‬
‫הזיהוי)‪ .‬שיטה זו תלויה מאד באיכות התיעוד של המשתנה המתועד בשני המקורות‪ ,‬ולעתים רחוקות‬
‫היא ישימה‪ .‬לכן‪ ,‬יש עדיפות ליישם שיטות הסתברותיות‪.‬‬
‫בשיטה ההסתברותית‪ ,‬שתי הגישות לתיקון הן השיטה ‪ )CR( Capture Recapture‬וניתוח רב‬
‫משתני‪.‬‬
‫את השיטה הראשונה מיישמים כאשר קיימים מספר מקורות מידע על אותה אוכלוסייה‪ .‬התאמה בין‬
‫המקורות מזהה רשומות משותפות‪ ,‬וגם רשומות המופיעות במקור אחד אך לא באחרים‪ .‬שיטה זו‬
‫מקובלת ושימשה במחקרים רבים בעבר בתחומים אחרים כמו ביולוגיה ואפידמיולוגיה‪ .‬בעשור‬
‫האחרון החלו ליישמה גם במחקרים בתחום התחבורה לאמידת מספרי נפגעים‪ .‬החיסרון בשיטה זו‬
‫לגבי יישומה לנתוני תאונות הדרכים הוא שההנחות הבסיסיות בשיטה זו אינן תמיד תקפות עבור‬
‫נתונים אלה‪ .‬למשל‪ :‬ההנחה שלכל פגיעה יש אותה הסתברות להיות מדווחת‪ .‬דוגמא לכך ניתנה‬
‫במחקרם של )‪ Javis et al (2000‬אשר ניתחו נתוני משטרה ובתי חולים עבור ילדים שנפגעו מכלי‬
‫רכב‪ .‬הם הראו הטרוגניות במובן זה שעבור גילים שונים של נפגעים היו הסתברויות שונות שידווחו‬
‫כמו גם לסוגי פגיעה וסוגי דרך שונים‪ .‬בדומה לכך‪ ,‬גם )‪ Morrison & Stone (2000‬דנו שיש לנקוט‬
‫בזהירות בשיטת תיקון זו‪.‬‬
‫דרכים להתגבר על הבעייתיות ביישום השיטה של ‪ CR‬הוצעו על ידי ‪Tersero & Andersson‬‬
‫)‪ (2004‬וכן על‪-‬ידי )‪ .Amoros et al (2007‬הם יישמו את שיטת ה‪ CR‬על נתוני משטרה שחוברו‬
‫לנתוני בית חולים‪ ,‬דנו בכל הנחה שבבסיס השיטה‪ ,‬והציעו דרכים מעשיות לטפל בנתונים כדי‬
‫שיתאימו ליישום שיטת ה‪ . CR‬למשל‪ ,‬כדי להתגבר על בעיית הנחת שוויון ההסתברויות ‪Amoros et‬‬
‫)‪ al (2007‬יישמו את השיטה על תת קבוצות שהוגדרו לפי חומרת פגיעה‪ ,‬סוג הדרך‪ ,‬ומעורבות צד‬
‫שלישי‪ .‬כמו כן‪ ,‬הם ביצעו ניתוח רגישות ע"י יישום שלוש שיטות התאמה בין הקבצים‪.‬‬
‫‪9‬‬
‫לאחרונה‪ Reurings & Stipdonk (2011) ,‬גם כן הציעו גרסה מתקנת לשיטת ה‪ CR‬ויישמו אותה‬
‫לנתוני נפגעים בהולנד של השנים ‪ .1883-2119‬הם ביצעו ניתוח מעמיק על ההבדלים בין הרישום‬
‫במשטרה לבין דוחות בתי החולים‪ .‬לגבי ‪ 2119‬מסקנתם הייתה שהמספר החסר של פגיעות חמורות‬
‫ברישום בתי החולים היה שולי יחסית למספר הכולל שהיה בערך ‪ .19111‬התוצאה של אי התחשבות‬
‫בערכים חסרים אלה מביאה לטעות נמוכה יחסית למה שהיה מתקבל לו היו מוסיפים את המקרים‬
‫אשר בדיווח המשטרה ולא היו ברישום בתי החולים‪.‬‬
‫יישום השיטה של ניתוח רב משתני נעשה לדוגמה על ידי )‪ Amoros et al (2006‬עבור נתוני השנים‬
‫‪ 1882-2111‬באזור ‪ Rhone‬אשר בצרפת‪ .‬הם אמדו כפונקציה של מאפייני התאונה והפגיעה את‬
‫ההסתברות שנפגע אשר נרשם ברישומי הטראומה יופיע גם בדוחות המשטרה‪ .‬מסקנתם הייתה‬
‫שבאופן כלל‪ ,‬אחוז הדיווח של המשטרה היה ‪ 32.2%‬בלבד‪ .‬הבדלים מובהקים באחוזים נמצאו כאשר‬
‫בוצעו השוואות בהתאם לסוג הפגיעה ומאפייני התאונה‪ .‬על ההבדלים הללו דווחו בעבר במחקריהם‬
‫של )‪.Elvik & Mysen (1999) ,Hauer & Hakkert (1988‬‬
‫‪ .0‬בסיס נתוני המחקר‬
‫קבצי הנתונים למחקר זה הם אותם הנתונים ששימשו במחקר קודם של גיטלמן ודובא (‪.)2111‬‬
‫הקבצים התבססו על עבודה מקדימה של הלמ"ס ‪ -‬שילוב מידע מבתי חולים (רישום הטראומה) עם‬
‫קובץ נתוני תאונות הדרכים של המשטרה‪ ,‬בשנת ‪ . 2119‬הקבצים כוללים שלשה סוגי נתונים שהם‪:‬‬
‫נתוני הקובץ המשולב "משטרה וטראומה"‪ ,‬נתוני קובץ "טראומה בלבד"‪ ,‬ונתוני קובץ "משטרה‬
‫בלבד"‪.‬‬
‫קובץ ‪"( A‬משטרה וטראומה") ‪ 8,343 -‬רשומות נפגעים הנכללים בקובץ המשטרה וגם בקובץ‬
‫הטראומה;‬
‫קובץ ‪"( B‬טראומה בלבד") ‪ 2,364 -‬רשומות נפגעים שמופיעים רק בקובץ הטראומה ולא נמצאו להן‬
‫רשומות מקבילות בקובץ המשטרה;‬
‫קובץ ‪"( C‬משטרה בלבד") ‪ 829 -‬רשומות של פצועים קשה שנמצאו רק בקובץ המשטרה ולא נמצאו‬
‫להן רשומות מקבילות בקובץ הטראומה‪.‬‬
‫בנוסף‪ ,‬היה נתון קובץ ‪ D‬המכיל ‪ 148‬רשומות של הרוגים שנמצאו רק בקובץ המשטרה ולא נמצאו‬
‫להן רשומות מקבילות בקובץ הטראומה‪.‬‬
‫הנתונים מקובץ הטראומה מתייחסים ל‪ 12-‬בתי החולים בלבד (מתוך ‪ 23‬בתי החולים במדינה)‪ .‬ע"פ‬
‫הערכות‪ ,‬קובץ זה מכסה יותר מ‪ 91%-‬מהפצועים בתאונות הדרכים‪.‬‬
‫הקבצים כוללים נפגעים מכל הארץ‪ ,‬לרבות במחוזות יו"ש‪.‬‬
‫‪8‬‬
‫‪ .0‬הצגת מתודולוגית ה‪ Capture-Recapture-‬ויישומה במחקר קודם‬
‫לניפוח נתוני המשטרה‬
‫הבסיס לפתרון הבעיה של אמידת המספר הנכון של נפגעים הוא שימוש ברעיון של שיטת ה ‪-CR‬‬
‫‪ .Capture Re-capture‬נתאר בקצרה את השיטה כדי להסביר את המחקר הנוכחי‪.‬‬
‫השיטה מבוססת על שתי הנחות‪ .‬ההנחה הראשונה היא שההסתברות ללכידה (‪ )Capture‬ע"י מקור‬
‫מסוים שווה עבור כל פרט באוכלוסייה‪ .‬ההנחה השנייה היא ההומוגניות‪ .‬אותה ניתן להסביר במספר‬
‫דרכים‪ ,‬שאותן נביא‪( .‬אם הנחה זו לא מתקיימת‪ ,‬מחלקים את הנתונים לתת‪-‬קבוצות הומוגניות ועליהן‬
‫מפעילים את השיטה)‪.‬‬
‫נגדיר‪:‬‬
‫‪ = P‬נתוני משטרה (צהוב)‬
‫‪ = H‬נתוני טראומה (כתום)‬
‫‪ = P‬נתוני לא משטרה‬
‫‪ = H‬נתוני לא טראומה‬
‫מכאן‪:‬‬
‫‪ = PH‬נתונים שגם במשטרה וגם בטראומה (הקובץ המשולב)‬
‫‪ = PH‬נתונים שבטראומה בלבד‬
‫‪ = PH‬נתונים שבמשטרה בלבד‬
‫‪ = PH‬נתונים שלא במשטרה ולא בטראומה‬
‫את הנתונים ניתן לתאר באופן הבא‪:‬‬
‫‪PH‬‬
‫‪PH‬‬
‫‪PH‬‬
‫‪PH‬‬
‫דרך הצגה נוספת‪:‬‬
‫‪P‬‬
‫‪H‬‬
‫‪H‬‬
‫דרישת ההומוגניות הבסיסית היא שההסתברות ללכידה (‪ )Capture‬ע"י מקור מסוים שווה עבור כל‬
‫פרט באוכלוסייה‪ ,‬ובנוסף פרופורציית הנפגעים (מתוך הקובץ המשולב) המדווחים גם ע"י המשטרה‬
‫‪11‬‬
‫מקרב הנפגעים המדווחים בקובץ טראומה‪ ,‬שווה לפרופורציית הנפגעים המדווחים ע"י המשטרה מסך‬
‫‪PH‬‬
‫‪P‬‬
‫כל התאונות‪ .‬כלומר ‪:‬‬
‫‪‬‬
‫‪H‬‬
‫‪Total‬‬
‫‪PH PH‬‬
‫לעיתים‪ ,‬הנחת ההומוגניות מנוסחת כ‪-‬‬
‫‪‬‬
‫‪P H PH‬‬
‫‪.‬‬
‫כלומר‪ :‬היחס בין הנפגעים שלא מדווחים הן ע"י המשטרה והן ע"י טראומה ("התא החסר")‪ ,‬לאלה‬
‫שמדווחים ע"י המשטרה אך לא ע"י טראומה ("משטרה בלבד")‪ ,‬שווה ליחס בין אלה שמדווחים ע"י‬
‫טראומה אך לא ע"י המשטרה ("טראומה בלבד") לאלה שמדווחים ע"י טראומה ומשטרה (נתוני קובץ‬
‫משולב)‪.‬‬
‫בניסוח זה מוגדרים ארבעה מקטעים זרים של הנתונים‪ ,‬והקשרים ביניהם‪.‬‬
‫נראה ששתי הנחות אלה אקוויוולנטיות‪.‬‬
‫‪PH‬‬
‫‪P‬‬
‫‪‬‬
‫‪H‬‬
‫‪Total‬‬
‫‪Total  PH  PH  PH  PH‬‬
‫‪P  PH  PH ; H  PH  PH ‬‬
‫‪PH *  PH  PH  PH  PH    PH  PH  *  PH  PH  ‬‬
‫‪PH PH‬‬
‫‪‬‬
‫‪PH PH‬‬
‫דרך אחרת להציג ולהבין את הנחת ה‪ CR-‬היא‪:‬‬
‫‪PH‬‬
‫‪P‬‬
‫‪‬‬
‫;‬
‫‪H‬‬
‫‪Total‬‬
‫ˆ ) ‪PH Total Pˆ r( P  H‬‬
‫‪‬‬
‫;) ‪ Pr( P / H‬‬
‫‪H Total‬‬
‫) ‪Pˆ r( H‬‬
‫‪P‬‬
‫) ‪ Pˆ r( P‬‬
‫‪Total‬‬
‫) ‪CR  Pˆ r( P / H )  Pˆ r( P‬‬
‫הסיכוי לכך שנפגע כלשהו מתוך כל הנפגעים יופיע בקובץ הנפגעים של המשטרה‪ ,‬נקרא גם הסיכוי‬
‫שנפגע כלשהו מתוך כל הנפגעים יילכד ע"י המשטרה מתוך כל הנפגעים ( ‪the police capture‬‬
‫‪.)probability‬‬
‫הסיכוי לכך שנפגע כלשהו מתוך כל הנפגעים יופיע בקובץ הנפגעים של הטראומה‪ ,‬נקרא גם הסיכוי‬
‫שנפגע כלשהו מתוך כל הנפגעים יילכד ע"י הטראומה מתוך כל הנפגעים ( ‪the trauma capture‬‬
‫‪.)probability‬‬
‫הסיכוי לכך שבהינתן שנפגע כלשהו מופיע בין הנפגעים שנרשמו בקובץ טראומה (= נתון שנתפס‬
‫תפיסה ראשונה) הוא יופיע גם בקובץ הנפגעים של המשטרה‪ ,‬נקרא גם הסיכוי להילכד מחדש ע"י‬
‫המשטרה (‪.)the police re-capture probability‬‬
‫‪11‬‬
‫הנחת ההומוגניות‪ ,‬המכונה במסמך זה גם כהנחת ה‪ )Capture-Recapture( RC-‬אומרת שהסיכוי‬
‫לכך שנפגע כלשהו מתוך כל הנפגעים יילכד ע"י המשטרה‪ ,‬שווה לסיכוי שאם נפגע כלשהו נלכד ע"י‬
‫טראומה הוא יילכד גם ע"י המשטרה‪.‬‬
‫מהנחת ה‪ CR-‬נובע גם‪:‬‬
‫‪PH‬‬
‫‪P‬‬
‫‪‬‬
‫‪‬‬
‫‪H‬‬
‫‪Total‬‬
‫‪1‬‬
‫* ‪Total  P‬‬
‫‪ P * CF‬‬
‫‪ PH ‬‬
‫‪‬‬
‫‪‬‬
‫‪ H ‬‬
‫‪where‬‬
‫‪1‬‬
‫‪1‬‬
‫‪‬‬
‫ˆ‬
‫‪PH‬‬
‫‪‬‬
‫) ‪ Pr( P / H‬‬
‫‪‬‬
‫‪‬‬
‫‪H‬‬
‫‪‬‬
‫‪‬‬
‫‪CF ‬‬
‫כאשר‪CF = Correction Factor :‬‬
‫כלומר‪ ,‬מקדם התיקון לנתוני המשטרה‪ ,‬אם מתקיימת הנחת ה‪ ,RC-‬הוא ‪ 1‬חלקי פרופורציית‬
‫הנפגעים בקובץ המשולב מתוך סך הנפגעים המדווחים ע"י רישום הטראומה‪ ,‬שזה שווה בעצם ל‪1-‬‬
‫חלקי ההסתברות המותנית של נפגע להיות מדווח ע"י המשטרה בהינתן שהוא דווח ע"י טראומה‪.‬‬
‫(‪ Pr‬מחושב באמצעות מודל‪ ,‬משמש ) ‪ˆ P / H‬‬
‫כאשר ) ‪ˆ P / H‬‬
‫(‪ 1/ Pr‬כגורם תיקון לנתוני המשטרה‪.‬‬
‫דרך נוספת להבנת הנחת ה‪:CR-‬‬
‫)‪ˆ P H‬‬
‫(‪Pr‬‬
‫;) ‪ˆ P / H‬‬
‫(‪ Pr‬‬
‫)‪ˆ H‬‬
‫(‪Pr‬‬
‫(‪ˆ P / H )  Pr‬‬
‫)‪ˆ P‬‬
‫(‪CR  Pr‬‬
‫(‪ˆ P  H )  Pr‬‬
‫(‪ˆ P) * Pr‬‬
‫)‪ˆ H‬‬
‫(‪ Pr‬‬
‫כלומר‪ ,‬הנחת ה‪ CR-‬שקולה להנחת אי‪-‬תלות המקורות‪ ,‬המשטרה והטראומה ‪ -‬ראה‪ ,‬לדוגמה‪,‬‬
‫‪ .)1888( Tilling & Sterne‬בשל הנחה זאת ניתן לחשב את )‪ˆ P‬‬
‫(‪ , Pr‬כלומר‪ ,‬את ההסתברות של‬
‫נפגע להילכד ע"י המשטרה‪ ,‬תוך שימוש בנתוני שלושת סוגי הנתונים (משטרה בלבד‪ ,‬טראומה בלבד‬
‫וחיתוך המשטרה והטראומה)‪ ,‬ואז להשתמש ב‪ˆ P) -‬‬
‫(‪ 1/ Pr‬כגורם תיקון לנתוני המשטרה‪.‬‬
‫כל אחת משתי הדרכים להבנת הנחת ה‪ CR-‬מובילה לחישוב שונה של גורם התיקון לנתוני‬
‫המשטרה‪:‬‬
‫דרך א' ‪ -‬מובילה לפיתוח מודל לקביעת ) ‪ˆ P / H‬‬
‫(‪ , Pr‬תוך שימוש בנתוני הטראומה‪ ,‬ואז ניפוח נתוני‬
‫המשטרה ע"י ) ‪ˆ P / H‬‬
‫(‪; 1/ Pr‬‬
‫‪12‬‬
‫דרך ב' ‪ -‬משתמשת בנתוני משטרה וטראומה לפיתוח מודל לקביעת )‪ˆ P‬‬
‫(‪ , Pr‬ואז ניפוח נתוני משטרה‬
‫על ידי )‪ˆ P‬‬
‫(‪. 1/ Pr‬‬
‫בדרך א'‪ ,‬משתמשים בנתוני הטראומה‪ ,‬הן מהקובץ המשולב והן מקובץ הטראומה בלבד‪ ,‬לשם פיתוח‬
‫מודל לקביעת ההסתברות ללכידת נפגע קשה ע"י המשטרה‪.‬‬
‫בעבודה קודמת של גיטלמן ודובא )‪ (2011‬יושמה דרך א'‪ .‬כלומר‪ ,‬נתוני הטראומה ונתוני החיתוך של‬
‫טראומה ומשטרה שימשו להערכת ההסתברות לדיווח על‪-‬ידי המשטרה‪ ,‬כאשר ההנחה היא‬
‫שההסתברות המותנית של דיווח על‪-‬ידי משטרה‪ ,‬מותנה בכך שהיה דיווח על‪-‬ידי טראומה שווה‬
‫להסתברות לדיווח על‪-‬ידי משטרה‪ .‬לא נעשה שימוש בנתונים שדווחו על‪-‬ידי המשטרה בלבד (ולא‬
‫דווחו על‪-‬ידי טראומה)‪ ,‬אלא הם רק נופחו‪.‬‬
‫בעבודה הנוכחית נוצלו שלושת חלקי המידע שיש‪ :‬נתונים שדווחו על‪-‬ידי המשטרה והטראומה‪,‬‬
‫נתונים שדווחו על‪-‬ידי הטראומה בלבד ונתונים שדווחו על‪-‬ידי המשטרה בלבד‪.‬‬
‫על בסיס העיקרון של שיטה א'‪ ,‬גיטלמן ודובא )‪ (2011‬פיתחו שני כלים אותם יישמו עבור הנתונים‬
‫שתיארנו‪ ,‬להערכת מספר נפגעים קשה בתנאי הארץ‪:‬‬
‫(א) מודל ‪ False-Positive‬המחשב הסתברות לדיווח שגוי על נפגע קשה ע"י המשטרה והמאפשר‬
‫ניכוי של מספר נפגעים קשה שזוהו ע"י המשטרה ולא אומתו ע"י רישום הטראומה (הנפגעים קל‬
‫שבטעות זוהו כנפגעים קשה ע"י המשטרה);‬
‫(ב) מודל להערכת ההסתברות להיות מזוהה כנפגע קשה ע"י המשטרה‪ ,‬בהינתן שנפגע קשה נמצא‬
‫ברישום הטראומה‪.‬‬
‫מודל א'‪ :‬מודל זה נעזר בארבעה משתנים מסבירים‪ ,‬לפי הקטגוריות של סוג רכב‪ ,‬סוג תאונה‪ ,‬יום‬
‫בשבוע ויחידת המשטרה‪.‬‬
‫מודל ב'‪ :‬להערכת ההסתברות להיות מזוהה כנפגע קשה ע"י המשטרה‪ ,‬בהינתן שנפגע קשה נמצא‬
‫בקבצי הטראומה‪ .‬מודל זה מאפשר תיקון של תת‪-‬הדיווח בנתוני המשטרה ‪ -‬ניפוח מספר הנפגעים‬
‫קשה שדווחו ע"י המשטרה בעזרת הנתונים מרישום הטראומה‪.‬‬
‫לפיתוח מודל זה היה צורך לאתר גורמים המשפיעים על ההסתברות של נפגע קשה הנמצא בקובץ‬
‫טראומה‪ ,‬להיות מזוהה כנפגע קשה ע"י המשטרה‪ .‬זו ההסתברות המותנית של תפיסה ע"י המשטרה‬
‫בתנאי שהייתה תפיסה ע"י טראומה‪ ,‬ומכונה כ"הסתברות תפיסה מחדש" ע"י המשטרה ( ‪Recapture‬‬
‫‪ .)probability‬הגורמים המשפיעים עליה אותרו באמצעות מודל הקושר בין הגורמים להסתברות‪.‬‬
‫ומתבסס על תצפיות מקבצי הטראומה‪ .‬בסוף התהליך המודל אמור היה לפעול על נתוני המשטרה‪.‬‬
‫לכן היה צורך באיתור מאפייני הנפגעים המשותפים לשני סוגי הקבצים‪ .‬פיתוח המודל היה דו‪-‬שלבי‪.‬‬
‫בשלב הראשון‪ ,‬נבחנו קשרים בין מאפייני הנפגעים קשה בטראומה ובמשטרה ונמצאו משתנים כאלה‬
‫שעשויים להיות משמעותיים בקביעת ההסתברות ללכידה (חוזרת) ע"י המשטרה‪ ,‬כאשר הם ניתנים‬
‫לשחזור מלא בנתוני הטראומה על סמך הנתונים בקובץ המשטרה‪ .‬בשלב השני‪ ,‬משתנים מלאכותיים‬
‫כאלה (הקבצות קטגוריות של מאפייני הנפגעים) שנמצאו בשלב הראשון שימשו לצורך בחירת המודל‬
‫‪13‬‬
‫שעל‪-‬פיו נאמדו הסתברויות הלכידה ע"י המשטרה‪ .‬לבחינת הקשרים בין מאפייני הנפגעים בטראומה‬
‫ובמשטרה שימש הקובץ המשולב; לפיתוח מודל מסביר להסתברות להיות מדווח כנפגע קשה ע"י‬
‫המשטרה שימשו נתונים משני קבצים‪ :‬הקובץ המשולב וקובץ טראומה בלבד (סה"כ ‪ 8183‬רשומות‬
‫על נפגעים קשה לפי הטראומה)‪.‬‬
‫להערכת הסתברות הלכידה ע"י המשטרה שימשו בסוף מאפיינים אלה‪ :‬מגדר הנפגע‪ ,‬קבוצת גיל‬
‫הנפגע‪ ,‬י חידת המשטרה‪ ,‬סוג דרך‪ ,‬סוג תאונה‪ ,‬סוג נפגע‪ ,‬וקטגוריות נפגע המשקפות בעיקר את סוג‬
‫הרכב בו נסע הנפגע‪.‬‬
‫שני המודלים במחקר היו של רגרסיה לוגיסטית‪.‬‬
‫יצירת אמד למספר כולל של נפגעים קשה על סמך דיווח המשטרה‪:‬‬
‫שתי פעולות בוצעו במחקר של גיטלמן ודובא )‪ (2011‬לאמידת המספר הכולל של נפגעים קשה‪ ,‬על‬
‫סמך קובץ המשטרה‪,‬‬
‫(א) תוקנו מקרי ה‪ - False Positive-‬מקרים של דיווח שגוי ע"י המשטרה‪ ,‬בעזרת מודל א';‬
‫(ב) נופחו מספר המקרים שנותר על סמך הסתברויות הלכידה ע"י המשטרה‪ ,‬בעזרת מודל ב'‪.‬‬
‫לכל רשומה של נפגע קשה שדווח ע"י המשטרה‪ ,‬חושב ערך ‪ p_final‬המהווה "מספר כולל" (או‬
‫אמיתי) של נפגעים קשה עם מאפיינים אלה שאמור להיות בקובץ המשטרה‪ .‬ערך זה נאמד באופן‬
‫הבא‪:‬‬
‫)‪p_final = p_TP * (1/p_catch‬‬
‫‪p_TP = 1 - p_FP‬‬
‫כאשר‬
‫‪ - p_TP‬הסתברות לדיווח נכון ע"י המשטרה (‪;)TP - true-positive‬‬
‫‪ - p_FP‬הסתברות לדיווח שגוי ע"י המשטרה (‪ ,)FP - False Positive‬לפי מודל א';‬
‫‪ - p_catch‬הסתברות לכידה ע"י המשטרה‪ ,‬לפי מודל ב'‪.‬‬
‫הגדלים הללו (‪ ) p_final‬סוכמו על פני כל הנפגעים קשה שבקובץ המשטרה וכך התקבל אמד למספר‬
‫הכולל של נפגעים קשה‪ ,‬בשנה מסוימת‪.‬‬
‫נצטט את הדוגמה שהובאה במחקר של גיטלמן ודובא (‪ )2111‬לגבי ההיגיון שבשיטה הנ"ל‪ .‬הדוגמה‬
‫נבנתה למקרה פשוט בו לכל הנפגעים יש אותה ההסתברות להיות מדווח נכון ולכולם אותה‬
‫הסתברות הלכידה‪ .‬נניח שבקובץ נפגעים קשה של המשטרה היה דיווח על ‪ 111‬נפגעים‪ ,‬והסיכוי ל‪-‬‬
‫‪ true-positive‬לכל נפגע היה ‪ ,1.8‬אזי מצפים ל‪ 81-‬נפגעים קשה שדווחו נכון‪ .‬אם מניחים גם למשל‬
‫שהסתברות הלכידה של נפגע קשה אמיתי ע"י המשטרה היא ‪ ,1/3‬הרי שכל אחד מ‪ 81-‬הנפגעים של‬
‫המשטרה מייצג ‪ 3‬נפגעים אמיתיים‪ .‬מכאן מנבאים שסה"כ יש ‪ 221‬נפגעים קשה‪ .‬לכן‪ ,‬ניתן לומר שכל‬
‫נפגע הוא בעצם ‪ 1.8‬לפי הסתברות ה‪ ,TP‬ושה‪ 1.8-‬נפגע מיצג )‪ 2.2 =0.9*1/(1/3‬נפגעים; חיבור‬
‫גודל זה על פני כל ‪ 111‬הנפגעים מקובץ המשטרה‪ ,‬נותן את האומדן של ‪ 221‬נפגעים כמספר כולל‪.‬‬
‫‪14‬‬
‫למעשה‪ ,‬ערך ה‪ p_TP-‬מהווה מקדם תיקון‪ ,‬בעוד שערך ה‪ (1/p_catch)-‬מהווה מקדם ניפוח ‪ -‬לכל‬
‫רשומה של נפגעים קשה בקובץ המשטרה‪.‬‬
‫בשיטה זו בוצעה הערכה של המספר הכולל של נפגעים קשה בשנת ‪ 2119‬והתקבלו תוצאות כלהלן‪:‬‬
‫מספר הנפגעים קשה שדווח ע"י המשטרה היה ‪;2211=N‬‬
‫בעקבות הפעלת מודל א' והסתברויות ה‪ ,TP‬מספר הנפגעים קשה תוקן ל‪;2111= NTP -‬‬
‫בעקבות הפעלת מודל ב' של הסתברות הלכידה ע"י המשטרה המספר הכולל של נפגעים קשה עלה‬
‫ל‪.6709= Nfinal -‬‬
‫לפי הערכת החוקרות באותו מחקר בממוצע‪ 86% ,‬מהנפגעים קשה של המשטרה היו מדווחים נכון‪,‬‬
‫כאשר המספר האמתי של נפגעים קשה בתאונות היה גבוה פי ‪ 3.18‬לעומת דיווח המשטרה‪.‬‬
‫מחקרן גם הראה שהחסרים בדיווחי המשטרה אינם אחידים‪ .‬בעוד המספר הכולל של נפגעים קשה‬
‫היה‪ ,‬בממוצע‪ ,‬גבוה פי ‪ 3‬לעומת דיווח המשטרה‪ ,‬הרי‪ ,‬לדוגמא‪ ,‬המספר האמיתי של נפגעים קשה‬
‫הולכי רגל היה‪ ,‬לפי הערכתן‪ ,‬גבוה פי ‪ 2.8‬לעומת דיווח המשטרה‪ ,‬בעוד שהמספר הכולל של נפגעים‬
‫קשה רוכבי אופניים גבוה פי ‪.8.8‬‬
‫בין נפגעים קשה הולכי רגל‪ ,‬תת‪-‬דיווח מרבי נמצא בקרב הנפגעים בצומת עירוני (המספר האמיתי של‬
‫נפגעים קשה גבוה פי ‪ 2.9‬לעומת המספר המדווח ע"י המשטרה) ובקרב ילדים עד גיל ‪( 14‬המספר‬
‫האמיתי של נפגעים קשה גבוה פי ‪ 3‬לעומת המספר המדווח ע"י המשטרה)‪.‬‬
‫‪18‬‬
‫‪ .4‬שיטת האמידה במחקר הנוכחי‬
‫כפי שצוין‪ ,‬בעבודה זאת ניצלנו את שלושת חלקי המידע שיש‪ .‬כלומר‪ :‬נתונים שדווחו גם על‪-‬ידי‬
‫המשטרה וגם על‪-‬ידי הטראומה‪ ,‬נתונים שדווחו על‪-‬ידי הטראומה בלבד ונתונים שדווחו על‪-‬ידי‬
‫המשטרה בלבד‪.‬‬
‫השיטה לאמידת המספר הנכון מבוססת על המודל המולטינומי )‪ .(Alho,1990; Tilling, 1999‬בסעיף‬
‫זה נפרט את השיטה ‪.‬‬
‫ניתן להציג את הנתונים בצורה הבאה‪:‬‬
‫משטרה‬
‫טראומה‬
‫אין נתונים‬
‫יש נתונים‬
‫סה"כ‬
‫אין נתונים‬
‫‪N0‬‬
‫‪N1‬‬
‫‪N0+N1‬‬
‫יש נתונים‬
‫‪N2‬‬
‫‪N3‬‬
‫‪N2+N3‬‬
‫סה"כ‬
‫‪N0+N2‬‬
‫‪N1+N3‬‬
‫‪N0+N1+N2+N3‬‬
‫נסמן ב‪ i1 -‬את ההסתברות שנבדק ‪i‬‬
‫יופיע ברשומת הטראומה‪ ,‬ב‪i2 -‬‬
‫את ההסתברות שנבדק ‪i‬‬
‫יופיע ברשומת המשטרה‪ ,‬ב‪ i3 -‬את ההסתברות שנבדק ‪ i‬יופיע הן ברשומת הטראומה והן ברשומת‬
‫המשטרה וב‪ i0 -‬את ההסתברות שנבדק ‪ i‬לא יופיע באף אחת משתי הרשומות‪ .‬כל אחת‬
‫מההסתברויות הללו תלויה בקבוצת משתנים מסבירים‪ .‬את וקטור ערכי המסבירים לנבדק ‪ i‬נסמן ב‪-‬‬
‫‪ . x i‬סביר להניח בהינתן וקטור המסבירים‪ ,‬שיש אי‪-‬תלות בין ההסתברות לנבדק להיות רשום‬
‫ברשומה האחת‪ ,‬לבין ההסתברות להיות כלול ברשומה השנייה‪ .‬לכן‪:‬‬
‫]) ‪i0 (x i )  [1  i1 (x i )][1  i2 (x i‬‬
‫) ‪i3 (x i )  i1 (x i )i2 (x i‬‬
‫להתפלגות של משתנה קטגורי מקובל השימוש במודל הלוגיסטי‪ .‬לפי זה‪:‬‬
‫‪j=1,2‬‬
‫) ‪exp( j  k 'j x i‬‬
‫) ‪1  exp( j  k 'j x i‬‬
‫‪ij (x i ) ‬‬
‫ולכן‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪1‬‬
‫‪1‬‬
‫‪i0 (x i )  ‬‬
‫‪‬‬
‫‪‬‬
‫'‬
‫'‬
‫‪ 1  exp( 1  k1x i )  1  exp( 2  k 2 x i ) ‬‬
‫‪16‬‬
‫‪ exp( 1  k1' x i )  exp( 2  k 2' x i ) ‬‬
‫‪i3 (x i )  ‬‬
‫‪‬‬
‫‪‬‬
‫'‬
‫'‬
‫‪1‬‬
‫‪‬‬
‫(‪exp‬‬
‫‪‬‬
‫‪k‬‬
‫‪x‬‬
‫)‬
‫‪1‬‬
‫‪‬‬
‫(‪exp‬‬
‫‪‬‬
‫‪k‬‬
‫‪x‬‬
‫)‬
‫‪‬‬
‫‪1‬‬
‫‪1 i ‬‬
‫‪2‬‬
‫‪2 i ‬‬
‫‪   k1'  k 2'  x i ‬‬
‫‪ k 2' x i ) ‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪1‬‬
‫(‪ k1' x i ) 1  exp‬‬
‫‪‬‬
‫‪1‬‬
‫‪exp‬‬
‫(‪1  exp‬‬
‫אין בידינו את הנתון ‪ .N0‬כלומר‪ ,‬הידע על מספר הנבדקים שאינם מופיעים באף רשומה‪ .‬אולם‬
‫אמידת הפרמטרים המבוקשים מתאפשרת על‪-‬ידי שימוש ב‪conditional maximum likelihood-‬‬
‫שהיא הנראות המותנית בכך שנבדק מופיע ברשומה כלשהי‪ .‬כפי שהוכח במאמר ‪Sanathanan‬‬
‫)‪ ,(1972‬אמדי הפרמטרים שמתקבלים שווים אסימפטוטית לאלה המתקבלים על‪-‬ידי שימוש ב‪-‬‬
‫‪ .maximum likelihood‬מעשית פרושו שמשתמשים בנתונים רק של נבדקים המופיעים ברשומות‬
‫ונבדקים אלה מחולקים לשלוש קטגוריות‪.‬‬
‫פונקצית הנראות המולטינומית לוגיסטית המותנית כוללת הסתברויות מותנות בלבד של שלוש‬
‫הקטגוריות‪ .‬בגלל ההתנייה‪ ,‬נבדק יכול להיות שייך לאחת משלוש קטגוריות‪ :‬או שהוא אך ורק כלול‬
‫ברשומת הטראומה ולא במשטרה‪ ,‬או שהוא כלול אך ורק ברשומת המשטרה ולא בטראומה‪ ,‬או‬
‫שהוא כלול בשתי הרשומות‪.‬‬
‫ב‪ p i1 -‬את ההסתברות המותנית שנבדק ‪ i‬יופיע ברשומת הטראומה בלבד‪,‬‬
‫נסמן‬
‫ההסתברות המותנית שנבדק ‪ i‬יופיע ברשומת המשטרה בלבד‪,‬‬
‫וב‪pi3 -‬‬
‫ב‪p i 2 -‬‬
‫את‬
‫את ההסתברות המותנית‬
‫שנבדק ‪ i‬יופיע בשתי הרשומות ‪ .‬לכן‪:‬‬
‫‪3‬‬
‫‪ p (x )  1‬‬
‫‪i‬‬
‫‪ij‬‬
‫‪j1‬‬
‫לפי הגדרות אלה‪:‬‬
‫]) ‪i1 (x i )[1  i2 (x i‬‬
‫) ‪i1 (x i )[1  i2 (x i )]  i2 (x i )[1  i1 (x i )]  i1 (x i )i2 (x i‬‬
‫]) ‪)  (k1' x i  k '2 x i‬‬
‫‪2‬‬
‫]) ‪)  (k1' x i  k '2 x i‬‬
‫‪2‬‬
‫‪pi1 (x i ) ‬‬
‫) ‪exp( 1  k1' x i‬‬
‫‪‬‬
‫‪exp( 1  k1' x i )  exp( 2  k '2 x i )  exp[( 1 ‬‬
‫‪‬‬
‫‪1‬‬
‫) ‪exp( 2  k '2 x i‬‬
‫‪pi2 (x i ) ‬‬
‫([‪exp( 1  k1' x i )  exp( 2  k '2 x i )  exp‬‬
‫‪12‬‬
‫]) ‪exp[( 1  2 )  (k1' x i  k '2 x i‬‬
‫‪pi3 (x i ) ‬‬
‫]) ‪exp( 1  k1' x i )  exp( 2  k '2 x i )  exp[( 1  2 )  (k1' x i  k '2 x i‬‬
‫נפרט‪ ,‬כמו במאמר של )‪ Tilling (1999‬את דרך האמידה על‪-‬ידי שימוש בשיטת האמידה של מודל‬
‫מולטינומי לוגיסטי‪.‬‬
‫נחלק את המונה והמכנה של כל אחד מהביטויים שלמעלה בביטוי‪ k1' x i ) :‬‬
‫‪1‬‬
‫‪ k '2 x i ‬‬
‫‪2‬‬
‫‪ k '2 x i ‬‬
‫‪2‬‬
‫‪ k '2 x i ‬‬
‫‪2‬‬
‫‪   k '2  k1'  x i   exp ‬‬
‫‪   k '2  k1'  x i ‬‬
‫‪‬‬
‫‪1‬‬
‫‪2‬‬
‫‪ k '2 x i ‬‬
‫‪1‬‬
‫‪‬‬
‫‪   k '2  k1'  x i   exp ‬‬
‫‪2‬‬
‫‪‬‬
‫‪1‬‬
‫‪2‬‬
‫‪exp‬‬
‫‪‬‬
‫‪2‬‬
‫‪exp ‬‬
‫‪   k '2  k1'  x i   exp ‬‬
‫‪1‬‬
‫‪‬‬
‫‪1  exp‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪1  exp‬‬
‫‪1  exp‬‬
‫‪ . exp( 1‬מתקבל‪:‬‬
‫‪pi1 (x i ) ‬‬
‫‪pi2 (x i ) ‬‬
‫‪pi3 (x i ) ‬‬
‫במחקר זה בוצעה האמידה של המודל ‪ generalized logit model -‬בעזרת הפרוצדורה‬
‫‪ LOGISTIC‬של ‪ ,SAS‬על‪-‬ידי שימוש באופציה ‪ link=glogit‬ב‪ .model statement-‬המודל הוא‬
‫לוגיסטי מוכלל (‪ ,)generalized logit model‬עם שלוש קטגוריות‪ ,‬כאשר אחת מהן‪ ,‬הינה קטגורית‬
‫הייחוס‪ .‬אם נבחר כקטגורית הייחוס את קטגוריה ‪( ,1‬קובץ טראומה) נקבל שההסתברויות לקבלת‬
‫קטגוריה ‪ j‬הן‪:‬‬
‫‪j=1‬‬
‫‪j=2,3‬‬
‫‪1‬‬
‫‪‬‬
‫'‬
‫) ‪1  exp(   x )  exp(   ' x‬‬
‫‪2‬‬
‫‪2 i‬‬
‫‪3‬‬
‫‪3 i‬‬
‫‪‬‬
‫‪pij (x i )  ‬‬
‫'‬
‫) ‪exp( j   j x i‬‬
‫‪‬‬
‫) ‪1  exp(2  2' x i )  exp(3  3' x i‬‬
‫השוואת הביטויים להסתברויות ‪j=1,2,3‬‬
‫‪1‬‬
‫‪‬‬
‫‪2‬‬
‫) ‪ pij (x i‬מראה ש‪:‬‬
‫‪2 ‬‬
‫‪2  k 2  k1‬‬
‫‪2‬‬
‫‪3 ‬‬
‫‪3  k 2‬‬
‫ראינו ש‪:‬‬
‫‪19‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪1‬‬
‫‪1‬‬
‫‪i0 (x i )  ‬‬
‫‪‬‬
‫‪‬‬
‫'‬
‫'‬
‫‪ 1  exp( 1  k1x i )  1  exp( 2  k 2 x i ) ‬‬
‫‪j=1,2‬‬
‫ניתן גם לכתוב ביטוי זה ‪:‬‬
‫=‬
‫]) ‪ k 2' x i‬‬
‫‪2‬‬
‫] ‪exp[( 2  1 )  (k 2'  k1' )x i‬‬
‫‪i0 (x i ) ‬‬
‫(‪{exp[( 2  1 )  (k 2'  k1' )x i ]  exp( 2  k 2' x i )}[1  exp‬‬
‫) ‪exp(2  2' x i‬‬
‫‪‬‬
‫]) ‪ 2' x i   exp(3  3' x i ) [1  exp(3  3' x i‬‬
‫‪2‬‬
‫‪exp ‬‬
‫בהתאם לסימון שלנו‪ ,‬ההסתברות להיכלל ברשומת המשטרה היא‪:‬‬
‫) ‪exp( 2  k 2' x i‬‬
‫‪i2 (x i ) ‬‬
‫) ‪1  exp( 2  k 2' x i‬‬
‫ולכן בסימון לפי המודל המולטינומי לוגיסטי‪:‬‬
‫) ‪exp(3  3' x i‬‬
‫‪i2 (x i ) ‬‬
‫) ‪1  exp(3  3' x i‬‬
‫לכן‪ ,‬לכל נבדק ברשומת המשטרה‪ ,‬ניתן לאמוד את ההסתברות להיכלל ברשומה זו‪:‬‬
‫) ‪exp(ˆ 3  ˆ 3' x i‬‬
‫‪ˆ i2 (x i ) ‬‬
‫) ‪1  exp(ˆ  ˆ ' x‬‬
‫‪i‬‬
‫‪3‬‬
‫‪3‬‬
‫בהתאם לכך‪ ,‬ייאמד מספר הנפגעים המבוסס על רשומת המשטרה על ידי‪:‬‬
‫‪1‬‬
‫) ‪ˆ i2 (x i‬‬
‫‪N2 N3‬‬
‫‪‬‬
‫‪ˆ ‬‬
‫‪N‬‬
‫‪i 1‬‬
‫לסיכום‪:‬‬
‫במודל המולטינומי‪ ,‬שנאמוד כאשר טראומה היא קטגורית הייחוס‪ ,‬אזי‪:‬‬
‫הקטגוריה '‪ 'S_trau‬היא קטגורית הייחוס (קטגוריה ‪ 1‬לפי הסימון הקודם)‪,‬‬
‫הקטגוריה '‪ 'S_poli‬היא הקטגוריה השניה (קטגוריה ‪ 2‬לפי הסימון הקודם)‪,‬‬
‫הקטגוריה '‪ 'S_both‬היא הקטגוריה השלישית (קטגוריה ‪ 3‬לפי הסימון הקודם)‪.‬‬
‫החותך ומקדמי הרגרסיה של המשתנים המתאימים לקטגוריה '‪ 'S_both‬ב‪generalized logit -‬‬
‫‪ model‬הם ‪ ˆ 3‬ו‪ , ˆ 3 -‬בהתאמה‪.‬‬
‫למעשה ‪ SAS‬מסדר את הנתונים בסדר הבא‪:‬‬
‫‪18‬‬
‫=‬
Response Profile
Ordered
Value
y_multi
1
2
3
Total
Frequency
S_both
S_poli
S_trau
1607
528
3546
Logits modeled use y_multi='S_trau' as the reference category.
‫ אם המטרה היא לאמוד את מספר הנפגעים‬.‫' היא קטגורית הייחוס כנדרש‬S_trau' ‫הקטגוריה‬
:‫ אזי נשתמש בנוסחה‬.‫ידי השלמת המספרים החסרים בקובץ המשטרה‬-‫הכללי על‬
ˆ 
N
N2 N3

i 1
'S_both' ‫משתמשים בחותך ומקדמי המשתנים של הקטגוריה‬
1
ˆ i2 (x i )
ˆ i2 (x i ) ‫לאמידת ההסתברויות‬
:‫ בנוסחה‬ˆ 3 -‫ ו‬ˆ 3 -‫(בעלת הערך המסודר הראשון) שהם‬
ˆ i2 (x i ) 
exp(ˆ 3  ˆ 3' x i )
1  exp(ˆ  ˆ ' x )
3
3
i
:‫' היא קטגורית הייחוס‬S_trau' ‫ במודל המולטינומי שבו הקטגוריה‬,‫כלומר‬
exp(ˆ s _ both  ˆ s' _ both x i )
ˆ i _ police (x i ) 
1  exp(ˆ s _ both  ˆ s' _ both x i )
:‫מכאן‬
 exp(ˆ s _ both  ˆ s' _ both x i ) 


'
ˆ
ˆ
1

exp(



x
)


s _ both
s _ both i
logit  ˆ i _ police (x i )   log 
=
'
ˆ
ˆ
exp(



x
)
s
_
both
s
_
both
i
1

'
ˆ
 1  exp(ˆ

s _ both  s _ both x i ) 

 exp(ˆ s _ both  ˆ s' _ both x i ) 


'
 1  exp(ˆ s _ both  ˆ s _ both x i ) 
ˆ
ˆ'
log 
 = log exp(s _ both  s _ both x i ) =
1


'
 1  exp(ˆ s _ both  ˆ s _ both x i ) 


ˆ
 ˆ '
x

s _ both
s _ both

i
‫נדגיש את ההבדל בין הגישה הנוכחית (המשופרת) לבין הגישה אשר בעבודתן של גיטלמן ודובא‬
‫) ומשטרה וטראומה‬S_trau( ‫ טראומה‬:‫ במודל שלהן הן התייחסו למעשה לשתי קבוצות‬.)2111(
21
‫(‪ .)S_both‬לכן‪ ,‬המודל היה בינומי‪ ,‬ובו הצלחה הוגדרה כהופעת תצפית בקטגורית ‪ ,S_both‬וכישלון‬
‫הוא הופעת תצפית בקטגורית ‪ .S_trau‬הסתברות הופעה בקובץ המשטרה הייתה ההסתברות‬
‫להופעת התצפית בקטגורית ‪( S_both‬זה מקרה פרטי של מודל מולטינומי עם שתי קטגוריות בלבד‪:‬‬
‫קטגוריית יחוס ‪ ,S_trau‬וקטגוריה ‪ S_both‬שאת ההסתברויות שלו ממדלים על ידי ‪generalized -‬‬
‫‪ .)logit model‬במקרה זה‪ ,‬שבו יש רק שתי קטגוריות‪ ,‬המודל מתלכד עם המודל הלוגיסטי הפשוט‪.‬‬
‫‪21‬‬
‫‪ .5‬אמידת מספר הנפגעים בשיטה של מחקר זה והשוואת הממצאים‬
‫שהתקבלו בשתי השיטות‬
‫‪ .5.0‬הנתונים‬
‫בשלב ראשון נבנה מודל מסביר להסתברות להיות מדווח כנפגע קשה ע"י המשטרה‪ .‬כלומר‪ ,‬סוננו‬
‫מקובץ פוטנציאלי של משתנים מסבירים אותם משתנים שתרומתם לאמידת ההסתברות הייתה‬
‫מובהקת סטטיסטית‪ .‬לבניית המודל שימשו נתונים משני קבצים‪ :‬הקובץ המשולב וקובץ טראומה‬
‫בלבד (סה"כ ‪ 5050‬רשומות על נפגעים קשה לפי הטראומה)‪.‬‬
‫נעשה שימוש בכל נתוני הנפגעים קשה שדווחו ע"י רישום הטראומה‪ ,‬כולל יו"ש‪ .‬הסיבה לכך היא‬
‫שהתפלגות ערכי המשתנה ‪ HUMRAT_PGIA_LMS‬דומה מאד כאשר משווים את הנתונים עם ובלי יו"ש‪.‬‬
‫לכן התוצאות עם ובלי נתונים אלה אמורות להיות מאד דומות‪ ,‬ופירוש הדבר שלא קיים סיכון של אי‪-‬‬
‫דיוק משמעותי עקב אי‪-‬ההפרדה של הנתונים‪.‬‬
‫מהקובץ המשולב ‪ A‬שימשו לפיתוח המודל ‪ )161281839( 0545 -‬רשומות‪ .‬מתוכן‪:‬‬
‫‪ 1612‬נפגעים קשה שהמשטרה זיהתה נכון;‬
‫‪ 1839‬נפגעים קשה שלא הופיעו בקובץ המשטרה כנפגעים קשה אך הופיעו בקובץ הטראומה‬
‫כנפגעים קשה‪.‬‬
‫מכיוון שסיווג הפציעה הינו לפי קובץ הטראומה‪ ,‬הרי שתצפיות אלה‪ ,‬למרות שהן מופיעות בקובץ‬
‫המשולב‪ ,‬הן בעצם שייכות לקבוצת התצפיות שיש לסווג כרשומות בקובץ הטראומה בלבד‪.‬‬
‫המשמעות המעשית היא‪ ,‬שכאשר השלמנו משתנים מסבירים מקבצי הטראומה והמשטרה אזי‬
‫תצפיות אלה נחשבו כתצפיות המופיעות הן בנתוני המשטרה והן בנתוני הטראומה‪ .‬אולם‪ ,‬בחישוב‬
‫הסיכוי לתפיסה כפצוע קשה על‪-‬ידי המשטרה‪ ,‬התייחסנו אליהן כתצפיות השייכות לקובץ "טראומה‬
‫בלבד"‪.‬‬
‫בקובץ טראומה בלבד (‪ )B‬היו ‪ 0631‬תצפיות שהתאימו להגדרה האדמיניסטרטיבית של "נפגע‬
‫קשה"‪ .‬לכן‪ ,‬סך הכול‪.8183 = 1619 8 0545 :‬‬
‫לנתונים אלה‪ ,‬נוספו למחקר ‪ 829‬נתוני המשטרה בלבד‪.‬‬
‫לכן‪ ,‬סך הכול במחקר הנוכחי בסיס המחקר כלל‪ .8691= 829 8 8183 :‬כאשר החלוקה היא‪:‬‬
‫‪ – 829‬נתוני "משטרה בלבד";‬
‫‪ – )3846( 1839 8 1619‬נתוני "טראומה בלבד";‬
‫‪ – 1612‬נתוני "טראומה ומשטרה"‪.‬‬
‫נעיר שהמשטרה דיווחה על ‪ 2211=16238829‬נפגעים קשה‪ .‬אבל מתוך ‪ 1623‬הנפגעים שבקובץ‬
‫המשולב נמצא שרק ‪ 1612‬הם נפגעים קשה ו‪ 66 -‬הם ‪ ,false positive‬כלומר פצועים שדווחו כקשים‬
‫על‪-‬ידי המשטרה אבל למעשה היו קלים‪.‬‬
‫‪22‬‬
‫ניתן לסווג את הנתונים לפי ארבעה סוגים‪:‬‬
‫‪‬‬
‫נתוני "נפגעים קשה משטרה בלבד" מקובץ משטרה בלבד;‬
‫‪‬‬
‫נתוני "נפגעים קשה טראומה בלבד" מקובץ טראומה בלבד;‬
‫‪‬‬
‫נתוני "נפגעים קשה משטרה וטראומה מהקובץ המשולב" שהם למעשה נתונים שהמשטרה‬
‫והטראומה דווחו עליהם והסכימו לגבי כך שהנפגע הוא קשה;‬
‫‪‬‬
‫נתוני "נפגעים קשה טראומה בלבד" נוספים שהם נתונים שמצויים הן ברשומות הטראומה‬
‫והן ברשומות המשטרה אבל ברשומות הטראומה הם מופיעים כקשה וברשומות המשטרה‬
‫הם לא מוגדרים כנפגעים קשה‪ .‬מכיוון שהסיווג הקובע של פציעה של נפגע הוא לפי‬
‫הטראומה הרי שנפגעים אלה הם נפגעים קשה שמופיעים ברשימת הנפגעים קשה של‬
‫טראומה אך לא של משטרה‪.‬‬
‫מאחר ונפגעים אלה לא מופיעים ברשימת המשטרה של נפגעים קשה‪ ,‬אזי למעשה יש‬
‫להתייחס לנתונים אלה כשייכים לנפגעי טראומה בלבד‪.‬‬
‫‪ .5.0‬משתני המודל‬
‫א‪ .‬המשתנה התלוי‬
‫זהו משתנה מולטינומי‪ ,‬כאשר שלוש הקטגוריות הן‪:‬‬
‫משטרה ‪ 829( S_poli -‬תצפיות)‪,‬‬
‫טראומה ‪ 1619( S_trau -‬תצפיות)‪,‬‬
‫משולב ‪ 1612( S_both -‬תצפיות)‪.‬‬
‫ב‪ .‬משתנים מסבירים‬
‫בוצעה השלמה של ערכים חסרים במאפייני הנפגעים‪ .‬להלן פרוט המשתנים‪:‬‬
‫‪ )1‬מגדר ‪T_Gender -‬‬
‫‪ )2‬קבוצות גיל ‪T_age_c -‬‬
‫‪ - 1‬בני ‪1-14‬‬
‫‪ - 2‬בני ‪18-24‬‬
‫‪ - 3‬בני ‪28-84‬‬
‫‪ - 4‬בני ‪88-64‬‬
‫‪ - 5‬בני ‪868‬‬
‫‪ )3‬הרבעון שבו ארעה התאונה ‪T_month_4 -‬‬
‫‪ )4‬בית חולים‪-‬יחידה ‪Yehida_2‬‬
‫‪ )8‬סוג דרך ‪T_sug_derehA -‬‬
‫‪ - 0‬עירונית‬
‫‪ - 1‬לא עירונית‬
‫‪23‬‬
‫‪ )6‬סוג תאונה ‪Sug_p3 -‬‬
‫‪ - 1‬פגיעה בהולך רגל‬
‫‪ - 4‬רכב יחיד‬
‫‪ - 235‬התנגשויות בין כלי רכב או אחר‬
‫‪ )2‬סוג נפגע ‪T_Sug_nifga_A -‬‬
‫‪ - 1‬הולך רגל‬
‫‪ - 2‬נהג רכב‬
‫‪ - 3‬נוסע ברכב‬
‫‪ - 6‬נהג אופניים‬
‫‪ - 45‬נהג‪/‬נוסע אופנוע‬
‫‪ - 789‬אחר‬
‫‪ )9‬סוג רכב בו נסע הנפגע ‪T_SUG_REHEV_A -‬‬
‫‪ - I_cat )8‬קטגוריות נפגע המשקפות בעיקר את סוג הרכב בו נסע הנפגע‪ .‬המשמעויות לקטגוריות‬
‫נפגע (‪ )I_cat‬הן‪:‬‬
‫‪ - 1‬כאשר סוג רכב ‪( B‬רכב משא מעל ‪ 11‬טון)‪( D ,‬אוטובוס)‪( E ,‬אופניים) או ‪( H‬רכב עבודה‪,‬‬
‫טרקטור‪ ,‬רכבת או אחר);‬
‫‪ - 2‬כאשר סוג רכב ‪( A‬רכב פרטי‪ ,‬או מסחרי‪ ,‬או משא עד ‪ 11‬טון‪ ,‬או אוטובוס זעיר)‪( C ,‬אופנוע‪,‬‬
‫לסוגיו)‪( F ,‬פגיעה בהולך רגל‪ ,‬אין סוג רכב בו היה הנפגע) או ‪( G‬מונית) ויחידת המשטרה‪,21 ,12 :‬‬
‫‪ 82 ,81 ,39 ,34‬או ‪;61‬‬
‫‪ - 3‬כאשר סוג דרך "עירונית"‪ ,‬או סוג דרך לא ידוע וסוג רכב ‪ C‬או ‪;F‬‬
‫‪ - 4‬ביתר המקרים‪.‬‬
‫‪ .5.0‬תוצאות הרצת המודל‬
‫‪The LOGISTIC Procedure‬‬
‫‪BIT.FOR_MULTI‬‬
‫‪y_multi‬‬
‫‪3‬‬
‫‪generalized logit‬‬
‫‪Newton-Raphson‬‬
‫‪5681‬‬
‫‪5681‬‬
‫‪Model Information‬‬
‫‪Data Set‬‬
‫‪Response Variable‬‬
‫‪Number of Response Levels‬‬
‫‪Model‬‬
‫‪Optimization Technique‬‬
‫‪Number of Observations Read‬‬
‫‪Number of Observations Used‬‬
‫‪Response Profile‬‬
‫‪Total‬‬
‫‪y_multi Frequency‬‬
‫‪S_both 1607‬‬
‫‪S_poli 528‬‬
‫‪S_trau 3546‬‬
‫‪24‬‬
‫‪Ordered‬‬
‫‪Value‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
Logits modeled use y_multi='S_trau' as the reference category.
R-Square
0.1595
Max-rescaled R-Square
Type 3 Analysis of Effects
Wald
Effect DF
Chi-Square
T_age_c 8
48.3296
T_month_4 6
30.2984
YEHIDA_2 2
75.3306
T_sug_derehA 2
93.7598
YEHIDA_2*T_sug_dereh 2
42.4923
T_Sug_p3 4
14.0380
T_Sug_nifga_A 10
41.4975
I_cat 6
80.1995
0.1932
Pr > ChiSq
<.0001
<.0001
<.0001
<.0001
<.0001
0.0072
<.0001
<.0001
Analysis of Maximum Likelihood Estimates
Parameter
Intercept
Intercept
T_age_c
T_age_c
T_age_c
T_age_c
T_age_c
T_age_c
T_age_c
T_age_c
T_age_c
T_age_c
T_month_4
T_month_4
T_month_4
T_month_4
T_month_4
T_month_4
T_month_4
T_month_4
YEHIDA_2
YEHIDA_2
YEHIDA_2
YEHIDA_2
T_sug_derehA
T_sug_derehA
T_sug_derehA
T_sug_derehA
YEHIDA_2*T_sug_dereh
YEHIDA_2*T_sug_dereh
YEHIDA_2*T_sug_dereh
YEHIDA_2*T_sug_dereh
YEHIDA_2*T_sug_dereh
YEHIDA_2*T_sug_dereh
YEHIDA_2*T_sug_dereh
YEHIDA_2*T_sug_dereh
T_Sug_p3
T_Sug_p3
T_Sug_p3
T_Sug_p3
T_Sug_p3
T_Sug_p3
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
1
1
2
2
3
3
4
4
5
5
1
1
2
2
3
3
4
4
0
0
1
1
0
0
1
1
0
0
0
0
1
1
1
1
1
1
4
4
235
235
1
1
2
2
3
3
6
6
45
45
0
0
1
1
0
0
1
1
y_multi
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
28
DF
1
1
1
1
1
1
1
1
1
1
0
0
1
1
1
1
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
0
0
0
0
1
1
1
1
0
0
1
1
1
1
1
1
1
1
1
1
Estimate
0.4567
-1.9653
-0.4685
-1.0171
-0.0286
-0.1404
-0.2611
-0.2748
-0.0228
-0.4689
0
0
0.2086
0.4917
0.1230
-0.1836
0.0682
-0.0222
0
0
2.4401
3.6809
0
0
-0.7089
-0.4607
0
0
-2.0464
-2.7566
0
0
0
0
0
0
0.6451
0.9172
0.0728
-0.2277
0
0
-2.0033
-2.1467
-2.0688
-1.6981
-2.1785
-1.6180
-2.0084
-1.5640
-1.6939
-1.3595
Standard
Error
0.6223
0.8600
0.1252
0.2028
0.1200
0.1733
0.1139
0.1634
0.1435
0.2251
.
.
0.0963
0.1356
0.0898
0.1419
0.0907
0.1382
.
.
0.3703
0.4305
.
.
0.0896
0.1426
.
.
0.3984
0.4685
.
.
.
.
.
.
0.2635
0.4160
0.0839
0.1290
.
.
0.5659
0.8513
0.5034
0.7444
0.5045
0.7440
0.4992
0.7464
0.5108
0.7559
Wald
Chi-Square
0.5385
5.2220
14.0069
25.1557
0.0566
0.6557
5.2586
2.8298
0.0252
4.3381
.
.
4.6936
13.1400
1.8759
1.6742
0.5651
0.0257
.
.
43.4279
73.0949
.
.
62.5987
10.4349
.
.
26.3789
34.6134
.
.
.
.
.
.
5.9917
4.8618
0.7529
3.1159
.
.
12.5310
6.3590
16.8893
5.2036
18.6454
4.7297
16.1896
4.3908
10.9976
3.2347
Analysis of Maximum Likelihood Estimates
Parameter
T_Sug_nifga_A
T_Sug_nifga_A
I_cat
I_cat
I_cat
I_cat
I_cat
I_cat
I_cat
I_cat
789
789
1
1
2
2
3
3
4
4
y_multi
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
S_both
S_poli
DF
0
0
1
1
1
1
1
1
0
0
Estimate
0
0
0.00844
0.9431
1.0711
2.0200
1.4083
1.8659
0
0
Standard
Error
.
.
0.3566
0.3849
0.3812
0.4436
0.4110
0.4836
.
.
Analysis of Maximum Likelihood Estimates
Parameter
y_multi Pr > ChiSq
Intercept
S_both 0.4631
Intercept
S_poli 0.0223
T_age_c
1
S_both 0.0002
T_age_c
1
S_poli <.0001
T_age_c
2
S_both 0.8119
T_age_c
2
S_poli 0.4181
T_age_c
3
S_both 0.0218
T_age_c
3
S_poli 0.0925
T_age_c
4
S_both 0.8738
T_age_c
4
S_poli 0.0373
T_age_c
5
S_both .
T_age_c
5
S_poli .
T_month_4
1
S_both 0.0303
T_month_4
1
S_poli 0.0003
T_month_4
2
S_both 0.1708
T_month_4
2
S_poli 0.1957
T_month_4
3
S_both 0.4522
T_month_4
3
S_poli 0.8726
T_month_4
4
S_both .
T_month_4
4
S_poli .
YEHIDA_2
0
S_both <.0001
YEHIDA_2
0
S_poli <.0001
YEHIDA_2
1
S_both .
YEHIDA_2
1
S_poli .
T_sug_derehA
0
S_both <.0001
T_sug_derehA
0
S_poli 0.0012
T_sug_derehA
1
S_both .
T_sug_derehA
1
S_poli .
YEHIDA_2*T_sug_dereh
0 0
S_both <.0001
YEHIDA_2*T_sug_dereh
0 0
S_poli <.0001
YEHIDA_2*T_sug_dereh
0 1
S_both .
YEHIDA_2*T_sug_dereh
0 1
S_poli .
YEHIDA_2*T_sug_dereh
1 0
S_both .
YEHIDA_2*T_sug_dereh
1 0
S_poli .
YEHIDA_2*T_sug_dereh
1 1
S_both .
YEHIDA_2*T_sug_dereh
1 1
S_poli .
T_Sug_p3
1
S_both 0.0144
T_Sug_p3
1
S_poli 0.0275
T_Sug_p3
4
S_both 0.3856
T_Sug_p3
4
S_poli 0.0775
T_Sug_p3
235
S_both .
T_Sug_p3
235
S_poli .
T_Sug_nifga_A
1
S_both 0.0004
T_Sug_nifga_A
1
S_poli 0.0117
T_Sug_nifga_A
2
S_both <.0001
T_Sug_nifga_A
2
S_poli 0.0225
T_Sug_nifga_A
3
S_both <.0001
T_Sug_nifga_A
3
S_poli 0.0296
T_Sug_nifga_A
6
S_both <.0001
T_Sug_nifga_A
6
S_poli 0.0361
T_Sug_nifga_A
45
S_both 0.0009
T_Sug_nifga_A
45
S_poli 0.0721
T_Sug_nifga_A
789
S_both .
T_Sug_nifga_A
789
S_poli .
I_cat
1
S_both 0.9811
I_cat
1
S_poli 0.0143
26
Wald
Chi-Square
.
.
0.0006
6.0044
7.8963
20.7347
11.7427
14.8853
.
.
‫‪Analysis of Maximum Likelihood Estimates‬‬
‫‪Parameter‬‬
‫‪y_multi Pr > ChiSq‬‬
‫‪I_cat‬‬
‫‪2‬‬
‫‪S_both 0.0050‬‬
‫‪I_cat‬‬
‫‪2‬‬
‫‪S_poli <.0001‬‬
‫‪I_cat‬‬
‫‪3‬‬
‫‪S_both 0.0006‬‬
‫‪I_cat‬‬
‫‪3‬‬
‫‪S_poli 0.0001‬‬
‫‪I_cat‬‬
‫‪4‬‬
‫‪S_both .‬‬
‫‪I_cat‬‬
‫‪4‬‬
‫‪S_poli .‬‬
‫‪ .5.4‬מודל מסביר להערכת הסתברות הלכידה ע"י המשטרה‬
‫להלן מקדמי המודל שישמשו לחישוב מקדמי ניפוח לנתוני משטרה (לפני תיקון ל‪.)False positive -‬‬
‫‪- Parameter‬‬
‫משתנה מסביר‬
‫‪Analysis of Maximum Likelihood Estimates‬‬
‫‪Standard‬‬
‫‪- Estimate‬‬
‫‪DF‬‬
‫ערך המשתנה‪-‬‬
‫‪Error‬‬
‫מקדם המודל‬
‫משמעותו‬
‫‪Intercept‬‬
‫‪ - T_age_c‬קבוצת‬
‫גיל הנפגע‬
‫‪ - T_age_c‬קבוצת‬
‫גיל הנפגע‬
‫‪ - T_age_c‬קבוצת‬
‫גיל הנפגע‬
‫‪ - T_age_c‬קבוצת‬
‫גיל הנפגע‬
‫‪ - T_age_c‬קבוצת‬
‫גיל הנפגע‬
‫‪– T_month_4‬‬
‫רבעון תאונה‬
‫‪– T_month_4‬‬
‫רבעון תאונה‬
‫‪– T_month_4‬‬
‫רבעון תאונה‬
‫‪– T_month_4‬‬
‫רבעון תאונה‬
‫‪- YEHIDA_2‬‬
‫יחידת משטרה‬
‫‪- YEHIDA_2‬‬
‫יחידת משטרה‬
‫‪- T_sug_derehA‬‬
‫סוג דרך‬
‫‪- T_sug_derehA‬‬
‫סוג דרך‬
‫‪YEHIDA_2*T_su‬‬
‫‪g_dereh‬‬
‫ שילוב יחידת‬‫משטרה וסוג דרך‬
‫‪YEHIDA_2*T_su‬‬
‫‪g_dereh‬‬
‫ שילוב יחידת‬‫משטרה וסוג דרך‬
‫‪YEHIDA_2*T_su‬‬
‫‪g_dereh‬‬
‫ שילוב יחידת‬‫משטרה וסוג דרך‬
‫‪YEHIDA_2*T_su‬‬
‫‪g_dereh‬‬
‫ שילוב יחידת‬‫משטרה וסוג דרך‬
‫‪ - T_Sug_p3‬סוג‬
‫תאונה‬
‫‪Pr > Chi‬‬
‫‪Sq‬‬
‫‪Wald‬‬
‫‪Chi‬‬‫‪Square‬‬
‫‪0.538‬‬
‫‪0.4631‬‬
‫‪0.0002‬‬
‫‪1‬‬
‫‪0.4567‬‬
‫‪0.6223‬‬
‫‪ - 1‬בני ‪1-14‬‬
‫‪1‬‬
‫‪-0.4685‬‬
‫‪0.1252‬‬
‫‪14.007‬‬
‫‪ - 2‬בני ‪18-24‬‬
‫‪1‬‬
‫‪-0.0286‬‬
‫‪0.1200‬‬
‫‪0.057‬‬
‫‪0.8119‬‬
‫‪ - 3‬בני ‪28-84‬‬
‫‪1‬‬
‫‪-0.2611‬‬
‫‪0.1139‬‬
‫‪5.26‬‬
‫‪0.0218‬‬
‫‪ - 4‬בני ‪88-64‬‬
‫‪1‬‬
‫‪-0.0228‬‬
‫‪0.1435‬‬
‫‪0.025‬‬
‫‪0.8738‬‬
‫‪ - 5‬בני ‪868‬‬
‫‪0‬‬
‫‪0‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪ -1‬רבעון ראשון‬
‫‪1‬‬
‫‪0.2086‬‬
‫‪0.0963‬‬
‫‪4.69‬‬
‫‪0.0303‬‬
‫‪ -2‬רבעון שני‬
‫‪1‬‬
‫‪0.1230‬‬
‫‪0.0898‬‬
‫‪61.87‬‬
‫‪0.1708‬‬
‫‪ -3‬רבעון שלישי‬
‫‪1‬‬
‫‪0.0682‬‬
‫‪0.0907‬‬
‫‪0.565‬‬
‫‪0.4522‬‬
‫‪ -4‬רבעון רביעי‬
‫‪0‬‬
‫‪0‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪ - 0‬יתר‬
‫היחידות‬
‫‪ - 1‬אם יחידה‬
‫‪12 20 34 38‬‬
‫‪51 52 61‬‬
‫‪ - 0‬עירונית‬
‫‪1‬‬
‫‪2.4401‬‬
‫‪0.3703‬‬
‫‪43.428‬‬
‫‪<.0001‬‬
‫‪0‬‬
‫‪0‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪1‬‬
‫‪-0.7089‬‬
‫‪0.0896‬‬
‫‪62.599‬‬
‫‪<.0001‬‬
‫‪ - 1‬לא עירונית‬
‫‪0‬‬
‫‪0‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪ -0‬יתר‬
‫היחידות‬
‫‪ - 0‬עירונית‬
‫‪1‬‬
‫‪-2.0464‬‬
‫‪0.3984‬‬
‫‪26.379‬‬
‫‪<.0001‬‬
‫‪ -0‬יתר‬
‫היחידות‬
‫‪ - 1‬לא‬
‫עירונית‬
‫‪0‬‬
‫‪0‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪ - 1‬אם יחידה‬
‫‪12 20 34 38‬‬
‫‪51 52‬‬
‫‪ - 0‬עירונית‬
‫‪0‬‬
‫‪0‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪ - 1‬אם יחידה‬
‫‪12 20 34 38‬‬
‫‪51 52‬‬
‫‪ - 1‬לא‬
‫עירונית‬
‫‪0‬‬
‫‪0‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪1‬‬
‫‪0.6451‬‬
‫‪0.2635‬‬
‫‪5.992‬‬
‫‪0.0144‬‬
‫‪ - 1‬פגיעה‬
‫בהולך רגל‬
‫‪22‬‬
‫‪- Parameter‬‬
‫משתנה מסביר‬
‫‪ - T_Sug_p3‬סוג‬
‫תאונה‬
‫‪ - T_Sug_p3‬סוג‬
‫תאונה‬
‫‪- T_Sug_nifga_A‬‬
‫סוג נפגע‬
‫‪- T_Sug_nifga_A‬‬
‫סוג נפגע‬
‫‪- T_Sug_nifga_A‬‬
‫סוג נפגע‬
‫‪- T_Sug_nifga_A‬‬
‫סוג נפגע‬
‫‪- T_Sug_nifga_A‬‬
‫סוג נפגע‬
‫‪- T_Sug_nifga_A‬‬
‫סוג נפגע‬
‫‪ - I_cat‬קטגורית‬
‫נפגע*‬
‫‪ - I_cat‬קטגורית‬
‫נפגע‬
‫‪ - I_cat‬קטגורית‬
‫נפגע‬
‫‪ - I_cat‬קטגורית‬
‫נפגע‬
‫‪Analysis of Maximum Likelihood Estimates‬‬
‫‪Standard‬‬
‫‪- Estimate‬‬
‫‪DF‬‬
‫ערך המשתנה‪-‬‬
‫‪Error‬‬
‫מקדם המודל‬
‫משמעותו‬
‫‪Pr > Chi‬‬
‫‪Sq‬‬
‫‪Wald‬‬
‫‪Chi‬‬‫‪Square‬‬
‫‪0.753‬‬
‫‪0.3856‬‬
‫‪.‬‬
‫‪ - 4‬רכב יחיד‬
‫‪1‬‬
‫‪0.0728‬‬
‫‪0.0839‬‬
‫‪- 235‬‬
‫התנגשויות בין‬
‫כלי רכב או‬
‫אחר‬
‫‪ - 1‬הולך רגל‬
‫‪0‬‬
‫‪0‬‬
‫‪.‬‬
‫‪.‬‬
‫‪1‬‬
‫‪-2.0033‬‬
‫‪0.5659‬‬
‫‪12.531‬‬
‫‪0.0004‬‬
‫‪ - 2‬נהג רכב‬
‫‪1‬‬
‫‪-2.0688‬‬
‫‪0.5034‬‬
‫‪16.889‬‬
‫‪<.0001‬‬
‫‪ - 3‬נוסע ברכב‬
‫‪1‬‬
‫‪-2.1785‬‬
‫‪0.5045‬‬
‫‪18.645‬‬
‫‪<.0001‬‬
‫‪ - 6‬נהג אופניים‬
‫‪1‬‬
‫‪-2.0084‬‬
‫‪0.4992‬‬
‫‪16.190‬‬
‫‪<.0001‬‬
‫‪ - 45‬נהג‪/‬נוסע‬
‫אופנוע‬
‫‪ - 789‬אחר‬
‫‪1‬‬
‫‪-1.6939‬‬
‫‪0.5108‬‬
‫‪10.998‬‬
‫‪0.0009‬‬
‫‪0‬‬
‫‪0‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪1‬‬
‫‪1‬‬
‫‪0.00844‬‬
‫‪0.3566‬‬
‫‪0.0006‬‬
‫‪0.9811‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1.0711‬‬
‫‪0.3812‬‬
‫‪7.896‬‬
‫‪0.0050‬‬
‫‪3‬‬
‫‪1‬‬
‫‪1.4083‬‬
‫‪0.4110‬‬
‫‪11.743‬‬
‫‪0.0006‬‬
‫‪4‬‬
‫‪0‬‬
‫‪0‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫להלן השוואת המקדמים שהתקבלו בשיטה של מחקר זה לעומת מחקר קודם‪.‬‬
‫‪- Estimate‬‬
‫מקדם המודל לפי‬
‫מודל מולטינומי –‬
‫שיטה חדשה‬
‫‪0.4567‬‬
‫‪- Estimate‬‬
‫מקדם המודל לפי‬
‫נתוני טראומה –‬
‫שיטה קודמת‬
‫‪0.5560‬‬
‫‪ – Parameter‬משתנה מסביר‬
‫ערך המשתנה‪-‬‬
‫משמעותו‬
‫‪ - T_gender‬מגדר הנפגע‬
‫‪ - 0‬זכר‬
‫לא במודל‬
‫‪0.1849‬‬
‫‪ - T_gender‬מגדר הנפגע‬
‫‪ - 1‬נקבה‬
‫לא במודל‬
‫‪0‬‬
‫‪ - T_age_c‬קבוצת גיל הנפגע‬
‫‪ - 1‬בני ‪1-14‬‬
‫‪-0.4685‬‬
‫‪-0.4970‬‬
‫‪ - T_age_c‬קבוצת גיל הנפגע‬
‫‪ - 2‬בני ‪18-24‬‬
‫‪-0.0286‬‬
‫‪-0.0751‬‬
‫‪ - T_age_c‬קבוצת גיל הנפגע‬
‫‪ - 3‬בני ‪28-84‬‬
‫‪-0.2611‬‬
‫‪-0.2711‬‬
‫‪ - T_age_c‬קבוצת גיל הנפגע‬
‫‪ - 4‬בני ‪88-64‬‬
‫‪-0.0228‬‬
‫‪-0.0129‬‬
‫‪ - T_age_c‬קבוצת גיל הנפגע‬
‫‪ - 5‬בני ‪868‬‬
‫‪0‬‬
‫‪0‬‬
‫‪ – T_month_4‬רבעון תאונה‬
‫‪ -1‬רבעון ראשון‬
‫‪0.2086‬‬
‫לא במודל‬
‫‪ – T_month_4‬רבעון תאונה‬
‫‪ -2‬רבעון שני‬
‫‪0.1230‬‬
‫לא במודל‬
‫‪ – T_month_4‬רבעון תאונה‬
‫‪ -3‬רבעון שלישי‬
‫‪0.0682‬‬
‫לא במודל‬
‫‪ – T_month_4‬רבעון תאונה‬
‫‪ -4‬רבעון רביעי‬
‫‪0‬‬
‫לא במודל‬
‫‪ - YEHIDA_2‬יחידת משטרה‬
‫‪ - 0‬יתר היחידות‬
‫‪2.4401‬‬
‫‪2.3967‬‬
‫‪ - YEHIDA_2‬יחידת משטרה‬
‫‪ - 1‬אם יחידה‬
‫‪12 20 34 38 51‬‬
‫‪52 61‬‬
‫‪0‬‬
‫‪0‬‬
‫‪-0.7089‬‬
‫‪-0.7001‬‬
‫‪0‬‬
‫‪0‬‬
‫‪Intercept‬‬
‫‪ - T_sug_derehA‬סוג דרך‬
‫‪ - 0‬עירונית‬
‫‪ - T_sug_derehA‬סוג דרך‬
‫‪ - 1‬לא עירונית‬
‫‪29‬‬
‫ערך המשתנה‪-‬‬
‫משמעותו‬
‫‪ – Parameter‬משתנה מסביר‬
‫‪- Estimate‬‬
‫מקדם המודל לפי‬
‫מודל מולטינומי –‬
‫שיטה חדשה‬
‫‪- Estimate‬‬
‫מקדם המודל לפי‬
‫נתוני טראומה –‬
‫שיטה קודמת‬
‫‪-2.0464‬‬
‫‪-2.0044‬‬
‫‪0‬‬
‫‪YEHIDA_2*T_sug_dereh‬‬
‫‪ -‬שילוב יחידת משטרה וסוג דרך‬
‫‪ -0‬יתר היחידות‬
‫‪ - 0‬עירונית‬
‫‪YEHIDA_2*T_sug_dereh‬‬
‫‪ -‬שילוב יחידת משטרה וסוג דרך‬
‫‪ -0‬יתר היחידות‬
‫‪ - 1‬לא‬
‫עירונית‬
‫‪0‬‬
‫‪ - 0‬עירונית‬
‫‪0‬‬
‫‪0‬‬
‫‪ - 1‬לא‬
‫עירונית‬
‫‪0‬‬
‫‪0‬‬
‫‪0.6451‬‬
‫‪0.6275‬‬
‫‪0.0728‬‬
‫‪0.0740‬‬
‫‪YEHIDA_2*T_sug_dereh‬‬
‫ שילוב יחידת משטרה וסוג דרך‬‫‪YEHIDA_2*T_sug_dereh‬‬
‫ שילוב יחידת משטרה וסוג דרך‬‫‪ - T_Sug_p3‬סוג תאונה‬
‫‪ - 1‬אם יחידה‬
‫‪12 20 34 38 51‬‬
‫‪52‬‬
‫‪ - 1‬אם יחידה‬
‫‪12 20 34 38 51‬‬
‫‪52‬‬
‫‪ - 1‬פגיעה בהולך‬
‫רגל‬
‫‪ - T_Sug_p3‬סוג תאונה‬
‫‪ - 4‬רכב יחיד‬
‫‪ - T_Sug_p3‬סוג תאונה‬
‫‪ - 235‬התנגשויות‬
‫בין כלי רכב או‬
‫אחר‬
‫‪0‬‬
‫‪0‬‬
‫‪ - T_Sug_nifga_A‬סוג נפגע‬
‫‪ - 1‬הולך רגל‬
‫‪-2.0033‬‬
‫‪-2.0692‬‬
‫‪ - T_Sug_nifga_A‬סוג נפגע‬
‫‪ - 2‬נהג רכב‬
‫‪-2.0688‬‬
‫‪-2.1577‬‬
‫‪ - T_Sug_nifga_A‬סוג נפגע‬
‫‪ - 3‬נוסע ברכב‬
‫‪-2.1785‬‬
‫‪-2.2075‬‬
‫‪ - T_Sug_nifga_A‬סוג נפגע‬
‫‪ - 6‬נהג אופניים‬
‫‪-2.0084‬‬
‫‪-2.1218‬‬
‫‪ - T_Sug_nifga_A‬סוג נפגע‬
‫‪ - 45‬נהג‪/‬נוסע‬
‫אופנוע‬
‫‪-1.6939‬‬
‫‪-1.8450‬‬
‫‪ - T_Sug_nifga_A‬סוג נפגע‬
‫‪ - 789‬אחר‬
‫‪0‬‬
‫‪0‬‬
‫‪ - I_cat‬קטגורית נפגע*‬
‫‪1‬‬
‫‪0.00844‬‬
‫‪-0.0409‬‬
‫‪ - I_cat‬קטגורית נפגע‬
‫‪2‬‬
‫‪1.0711‬‬
‫‪1.0454‬‬
‫‪ - I_cat‬קטגורית נפגע‬
‫‪3‬‬
‫‪1.4083‬‬
‫‪1.3891‬‬
‫‪ - I_cat‬קטגורית נפגע‬
‫‪4‬‬
‫‪0‬‬
‫‪0‬‬
‫‪ .5.5‬השוואת הסתברויות לכידה בשתי השיטות עבור נתוני ‪0331‬‬
‫לכל תצפית מנתוני המשטרה חושבו הסתברויות לכידה לנתוני ‪ 2119‬לפי שתי השיטות‪ ,‬דהיינו לפי‬
‫השיטה במחקר הקודם של גיטלמן ודובא (‪ )2111‬ולפי השיטה של המודל המולטינומי אשר במחקר‬
‫הנוכחי‪.‬‬
‫נסמן‪:‬‬
‫‪ – P_tr‬אמד להסתברות הלכידה בשיטה הקודמת‪,‬‬
‫‪ – P_mu‬אמד להסתברות הלכידה על פי המודל המולטינומי‪.‬‬
‫טבלה להלן מציגה סטטיסטיקה תיאורית של שת ההסתברויות‪:‬‬
‫‪N‬‬
‫‪Mean‬‬
‫‪Std Dev‬‬
‫‪Sum‬‬
‫‪Minimum‬‬
‫‪Maximum‬‬
‫‪Variable‬‬
‫‪p_tr‬‬
‫‪2201‬‬
‫‪0.41041‬‬
‫‪0.17706‬‬
‫‪903.30772‬‬
‫‪0.05712‬‬
‫‪0.95972‬‬
‫‪p_mu‬‬
‫‪2201‬‬
‫‪0.41121‬‬
‫‪0.17726‬‬
‫‪905.07738‬‬
‫‪0.05909‬‬
‫‪0.95693‬‬
‫‪28‬‬
‫הקורלציה בין ההסתברויות בשתי השיטות‪:‬‬
‫‪Pearson Correlation Coefficients, N = 2201‬‬
‫‪Prob > |r| under H0: Rho=0‬‬
‫‪p_mu‬‬
‫‪p_tr‬‬
‫‪0.99095‬‬
‫‪<.0001‬‬
‫‪1.00000‬‬
‫‪p_tr‬‬
‫‪1.00000‬‬
‫‪0.99095‬‬
‫‪<.0001‬‬
‫‪p_mu‬‬
‫להלן גרף המתאר את התוצאות בשתי השיטות‪:‬‬
‫‪p_tr‬‬
‫‪1.0‬‬
‫‪0.9‬‬
‫‪0.8‬‬
‫‪0.7‬‬
‫‪0.6‬‬
‫‪0.5‬‬
‫‪0.4‬‬
‫‪0.3‬‬
‫‪0.2‬‬
‫‪0.1‬‬
‫‪0.0‬‬
‫‪1.0‬‬
‫‪0.9‬‬
‫‪0.8‬‬
‫‪0.7‬‬
‫‪0.6‬‬
‫‪0.5‬‬
‫‪0.4‬‬
‫‪0.3‬‬
‫‪0.2‬‬
‫‪0.1‬‬
‫‪0.0‬‬
‫‪p_mu‬‬
‫ע"פ הממצאים לנתוני ‪ ,2119‬ניתן לראות התאמה קרובה מאוד בין שתי השיטות‪.‬‬
‫‪ .5.6‬יצירת אמד למספר כולל של נפגעים קשה על סמך דיווח המשטרה‪ ,‬עבור נתוני‬
‫‪0331‬‬
‫לקבלת אמד למספר הכולל של נפגעים קשה‪ ,‬על סמך קובץ המשטרה‪ ,‬בוצעו שתי הפעולות‪:‬‬
‫(א) תוקנו מקרי ה‪ - False Positive-‬מקרים של דיווח שגוי ע"י המשטרה‪ ,‬בעזרת המודל ל‪False -‬‬
‫‪.Positive‬‬
‫מאחר ומתוך ‪ 1623‬הפצועים קשה אשר דווחו על‪-‬ידי המשטרה‪ 66 ,‬היו למעשה פצועים קל (‪False -‬‬
‫‪ ,)Positive‬למעשה קובץ המשטרה כולל ‪ 1612‬נפגעים קשה‪.‬‬
‫‪31‬‬
‫(ב) נופחו מספר המקרים שנותרו בקובץ לאחר התיקון‪ ,‬על סמך הסתברויות הלכידה ע"י המשטרה‪.‬‬
‫להלן מובא המודל שהתקבל עבור ההסתברות ‪ TP‬במחקר של גיטלמן ודובא (‪:)2111‬‬
‫‪The LOGISTIC Procedure‬‬
‫‪false_p‬‬
‫‪2‬‬
‫‪binary logit‬‬
‫‪Fisher's scoring‬‬
‫‪1673‬‬
‫‪1673‬‬
‫‪Model Information‬‬
‫‪Response Variable‬‬
‫‪Number of Response Levels‬‬
‫‪Model‬‬
‫‪Optimization Technique‬‬
‫‪Number of Observations Read‬‬
‫‪Number of Observations Used‬‬
‫‪Probability modeled is false_p=1.‬‬
‫‪0.1055‬‬
‫‪Pr > ChiSq‬‬
‫‪<.0001‬‬
‫‪0.0002‬‬
‫‪0.0384‬‬
‫‪0.0009‬‬
‫‪0.0109‬‬
‫‪Max-rescaled R-Square‬‬
‫‪0.0298‬‬
‫‪R-Square‬‬
‫‪Analysis of Maximum Likelihood Estimates‬‬
‫‪Standard‬‬
‫‪Wald‬‬
‫‪Parameter DF‬‬
‫‪Estimate‬‬
‫‪Error‬‬
‫‪Chi-Square‬‬
‫‪Intercept 1‬‬
‫‪-1.9273‬‬
‫‪0.2002‬‬
‫‪92.7024‬‬
‫‪I_SUG_REHEV_LMS 1‬‬
‫‪-1.2314‬‬
‫‪0.3341‬‬
‫‪13.5812‬‬
‫‪I_SUG_TEUNA 1‬‬
‫‪-0.6511‬‬
‫‪0.3144‬‬
‫‪4.2875‬‬
‫‪I_YOM_BASHAVUA 1‬‬
‫‪-0.8600‬‬
‫‪0.2590‬‬
‫‪11.0300‬‬
‫‪I_YEHIDA 1‬‬
‫‪-1.5244‬‬
‫‪0.5985‬‬
‫‪6.4870‬‬
‫כאמור‪:‬‬
‫לכל רשומה של נפגע קשה שדווח ע"י המשטרה‪ ,‬חושב ערך ‪ p_final‬המהווה מספר מייצג נכון של‬
‫נפגעים קשה עם מאפיינים אלה שאמור להיות בקובץ המשטרה‪.‬‬
‫)‪p_final = p_TP * (1/p_catch‬‬
‫‪p_TP = 1 - p_FP‬‬
‫כאשר‬
‫‪ - p_TP‬הסתברות לדיווח נכון ע"י המשטרה (‪;)TP - true-positive‬‬
‫‪ - p_FP‬הסתברות לדיווח שגוי ע"י המשטרה (‪ ,)FP - False Positive‬לפי המודל שהוצג לעיל;‬
‫‪ - p_catch‬הסתברות לכידה ע"י המשטרה‬
‫אנו נציג שני אמדים למספר הכולל של נפגעים קשה על סמך דיווח המשטרה‪ ,‬עבור נתוני ‪,2119‬‬
‫כאשר‪:‬‬
‫ בשני האמדים ‪ p_TP‬יהיה זהה‪ ,‬מכיוון שמודל ה‪ FP-‬זהה בשתי האפשרויות;‬‫ ‪ p_catch‬יסומן כ‪ p_tr -‬ו‪ p_mu-‬עבור האמד להסתברות התפיסה על‪-‬פי נתוני טראומה והאמד‬‫על‪-‬פי המודל המולטינומי בהתאמה;‬
‫ ‪ p_final‬יסומן כ‪ p_final _tr -‬ו‪ p _final_mu-‬עבור ערך ‪"( p_final‬המספר הכולל") על‪-‬פי נתוני‬‫טראומה והאמד על‪-‬פי המודל המולטי נומי‪.‬‬
‫‪31‬‬
‫להלן תוצאות החישובים עבור נתוני ‪:2119‬‬
‫‪Variable‬‬
‫‪p_tr‬‬
‫‪p_mu‬‬
‫‪p_TP‬‬
‫‪p_final_tr‬‬
‫‪p_final_mu‬‬
‫‪N‬‬
‫‪Mean‬‬
‫‪Std Dev‬‬
‫‪Minimum‬‬
‫‪Maximum‬‬
‫‪2201‬‬
‫‪2201‬‬
‫‪2201‬‬
‫‪2201‬‬
‫‪2201‬‬
‫‪0.4104079‬‬
‫‪0.4112119‬‬
‫‪0.9587903‬‬
‫‪3.0361119‬‬
‫‪3.0293062‬‬
‫‪0.1770579‬‬
‫‪0.1772553‬‬
‫‪0.0369921‬‬
‫‪2.1422323‬‬
‫‪2.1361418‬‬
‫‪0.0571181‬‬
‫‪0.0590862‬‬
‫‪0.8729510‬‬
‫‪1.0302047‬‬
‫‪1.0353030‬‬
‫‪0.9597154‬‬
‫‪0.9569306‬‬
‫‪0.9979629‬‬
‫‪17.4393303‬‬
‫‪16.1277786‬‬
‫והערכים המסכמים הם‪:‬‬
‫‪Variable‬‬
‫‪p_final_tr‬‬
‫‪p_final_mu‬‬
‫‪Sum‬‬
‫‪6682.48‬‬
‫‪6667.50‬‬
‫ניתן לראות שההערכות למספר הנפגעים קשה בשנת ‪ 2119‬כמעט זהות בשתי השיטות‪ 6692 :‬מול‬
‫‪.6662‬‬
‫‪ .5.5‬אמידת הנפגעים קשה כאשר מנפחים נתוני טראומה במקום נתוני משטרה‪ ,‬או‬
‫כאשר משתמשים לניפוח גם בנתוני המשטרה וגם בנתוני הטראומה‬
‫בסעיף הקודם‪ ,‬כמו גם במחקר של גיטלמן ודובא (‪ ,)2111‬נאמד המספר הנכון של נפגעים קשה על‪-‬‬
‫ידי ניפוח נתוני המשטרה‪ .‬אולם‪ ,‬אמידת המספר הנכון יכולה להתבצע גם על‪-‬ידי ניפוח נתוני רשומות‬
‫קובץ הטראומה‪ ,‬או על‪-‬ידי ניפוח שבו מנצלים את המידע של כל הקבצים‪.‬‬
‫בקטעים הבאים נדווח על הממצאים על‪-‬ידי ניפוח בדרכים אלה‪.‬‬
‫א‪ .‬ניפוח נתוני הטראומה‬
‫כדי לבצע את האמידה של מספר הנפגעים כאשר מנפחים את נתוני הטראומה (טראומה בלבד ‪8‬‬
‫חיתוך טראומה ומשטרה) במקום את נתוני המשטרה‪ ,‬הורץ מודל בו הקטגוריה של משטרה בלבד‬
‫(‪ )S_poli‬הייתה קטגוריית הייחוס‪ .‬לחישוב בדרך זו‪ ,‬המקדמים המשמשים לחישוב הסתברות‬
‫התפיסה על‪-‬ידי טראומה הם המקדמים של קבוצת החיתוך‪.‬‬
‫להלן המקדמים שהתקבלו על ידי הרצת המודל המולטינומי‪:‬‬
‫‪32‬‬
Prob
ChiSq
0.003
0.010
0.535
0.936
0.054
.
0.046
0.038
0.532
.
0.002
.
0.101
.
0.123
Wald
ChiSq
8.78
6.68
0.38
0.01
3.71
.
3.97
4.31
0.39
.
9.72
.
2.69
.
2.38
StdErr
Estimate
D
F
Response
ClassVal
1
ClassV
al0
0.82
0.21
0.18
0.17
0.23
.
0.14
0.15
0.14
.
0.40
.
0.15
.
0.46
2.42
0.55
0.11
0.01
0.45
0.00
-0.28
0.31
0.09
0.00
-1.24
0.00
-0.25
0.00
0.71
1
1
1
1
1
0
1
1
1
0
1
0
1
0
1
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
0
1
2
3
4
5
1
2
3
4
0
1
0
1
0
.
.
.
0.00
0
S_both
1
0
.
.
.
0.00
0
S_both
0
1
.
.
.
0.00
0
S_both
1
1
0.532
0.025
.
0.863
0.601
0.428
0.534
0.643
.
0.004
0.020
0.332
.
0.39
5.00
.
0.03
0.27
0.63
0.39
0.22
.
8.10
5.40
0.94
.
0.44
0.13
.
0.83
0.71
0.71
0.71
0.72
.
0.33
0.41
0.47
.
-0.27
0.30
0.00
0.14
-0.37
-0.56
-0.44
-0.33
0.00
-0.93
-0.95
-0.46
0.00
1
1
0
1
1
1
1
1
0
1
1
1
0
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
S_both
1
4
235
1
2
3
6
45
789
1
2
3
4
Variable
Intercept
T_age_c
T_age_c
T_age_c
T_age_c
T_age_c
T_month_4
T_month_4
T_month_4
T_month_4
YEHIDA_2
YEHIDA_2
T_sug_derehA
T_sug_derehA
YEHIDA_2*T_su
g_dereh
YEHIDA_2*T_su
g_dereh
YEHIDA_2*T_su
g_dereh
YEHIDA_2*T_su
g_dereh
T_Sug_p3
T_Sug_p3
T_Sug_p3
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
T_Sug_nifga_A
I_cat
I_cat
I_cat
I_cat
Obs
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
47
49
51
53
55
57
59
61
:‫ תצפיות) הוא‬5153 ‫פי ניפוח נתוני הטראומה (ניפוח של‬-‫האמד המתקבל לסך כל הנפגעים קשה על‬
.‫ נפגעים קשה‬6849
)‫ ניפוח לפי טראומה ומשטרה (= כל הנתונים‬.‫ב‬
:‫ כלומר לא להופיע בקובץ הטראומה ולא בקובץ המשטרה היא‬,‫ההסתברות לא להילכד כלל‬
i0 (x i )  1  i1 (x i ) 1  i2 (x i ) 
‫כאשר‬
;‫ ההסתברות לא להופיע באף קובץ‬- i0 (x i )
;‫ ההסתברות להופיע בקובץ המשטרה‬- i1 (x i )
.‫ ההסתברות לא להופיע בקובץ הטראומה‬- i2 (x i )
33
‫ההסתברויות ) ‪i1 (x i‬‬
‫ו‪ i2 (x i ) -‬חושבו בשני הסעיפים הראשונים בחלק זה‪.‬‬
‫אמד לסך כל הנפגעים קשה על‪-‬פי טראומה בלבד ‪ 8‬חיתוך טראומה ומשטרה ‪ 8‬משטרה בלבד‪:‬‬
‫‪1‬‬
‫) ) ‪ii _ observed 1  (1  i1 (x i ) )(1  i2 (x i‬‬
‫‪‬‬
‫‪‬‬
‫‪1‬‬
‫) ‪1  i0 (x i‬‬
‫‪‬‬
‫‪ii _ observed‬‬
‫האמד המתקבל לסך כל הנפגעים קשה על‪-‬פי ניפוח טראומה ומשטרה (ניפוח ‪ 3691‬תצפיות) הוא‪:‬‬
‫‪.6848‬‬
‫ג‪ .‬סיכום תוצאות הניפוחים (לפני תיקון ל‪)False Positive-‬‬
‫בעזרת הערכות לעיל התקבלו‪:‬‬
‫‪ = final_poli‬אמד לסך כל הנפגעים קשה על‪-‬פי ניפוח נתוני המשטרה (ניפוח של ‪ 2135‬תצפיות);‬
‫‪ = final_ tr‬אמד לסך כל הנפגעים קשה על‪-‬פי ניפוח נתוני הטראומה (ניפוח של ‪ 5153‬תצפיות);‬
‫‪ = final_ trpo‬אמד לסך כל הנפגעים קשה על‪-‬פי ניפוח נתוני המשטרה והטראומה (ניפוח של ‪5681‬‬
‫תצפיות)‪.‬‬
‫הערכים המסכמים של מספרי הנפגעים קשה בשנת ‪( 2119‬לפי תיקון ל‪ )False Positive-‬היו כלהלן‪:‬‬
‫‪Variable‬‬
‫‪Sum‬‬
‫‪final_poli‬‬
‫‪final_tr‬‬
‫‪final_trpo‬‬
‫‪6756.33‬‬
‫‪6848.67‬‬
‫‪6848.31‬‬
‫כלומר‪ ,‬בשלוש ההערכות לא מתקבלות תוצאות זהות (אם כי‪ ,‬הן קרובות למדי)‪.‬‬
‫אינטואיטיבית נראה שהאמדים היותר סבירים הם אלה שמבוססים על ניפוח הקבצים היותר גדולים‪.‬‬
‫מחקר מקיף עם סימולציות יכול לתת תשובה לשאלה האם אמנם האמד המבוסס על הקטגוריה שבה‬
‫פחות תצפיות הוא הפחות מדויק‪.‬‬
‫שאלת דיוק האמד קשורה לנושא הבא המוצע למחקר והוא חישוב רווח סמך לפרמטר שאותו יש‬
‫לאמוד‪.‬‬
‫‪34‬‬
‫‪ .6‬סיכום ודיון‬
‫‪ .6.0‬תועלות המחקר הנוכחי‬
‫התועלת בעבודה זו אינה מצטמצמת רק לממצאי המחקר עבור הנתונים על נפגעים קשה בתאונות‬
‫הדרכים של שנת ‪ .2119‬תרומת המחקר היא גם בפיתוח תוכנה ליישום השיטה ובהסבר המפורט של‬
‫השיטה‪ .‬הנושא עשוי להיות רלבנטי לא רק לתאונות דרכים אלא גם לתחומים נוספים שבהם יש‬
‫אפשרות שקיים חסר ברישום ויש צורך באמידה נכונה של מספר המקרים הרלבנטי‪.‬‬
‫השיטה שבמחקר זה מהווה שיפור (הרחבה) לשיטה שהוצעה ושיושמה על אותם נתונים בעבודתן‬
‫של גיטלמן ודובא (‪ .)2111‬בשיטה של מחקר זה נעשה שימוש במודל המולטינומי‪ .‬דרך זו מאפשרת‬
‫לבחור משתנים מסבירים בצורה נכונה יותר מאשר בדרך שיושמה בעבר ובה המשתנים נבחרו רק‬
‫על בסיס קובץ נתוני הטראומה והקובץ המשולב‪.‬‬
‫יתר על כן‪ ,‬המודל המולטינומי מאפשר לחשב אמד למספר נפגעים לא רק על‪-‬ידי ניפוח נתוני‬
‫משטרה‪ ,‬אלא גם על‪-‬ידי ניפוח נתוני הטראומה כמו שניפחנו את נתוני המשטרה (זאת כאשר‬
‫משטרה מהווה רמת יחוס)‪ .‬כפי שראינו‪ ,‬לא מתקבל אמד זהה כאשר מנפחים את נתוני המשטרה‬
‫בהשוואה לאמד המתקבל על‪-‬ידי ניפוח כל הנתונים‪.‬‬
‫יתרון נוסף וחשוב הוא כאשר נרצה להציג רווחי סמך למספר הנכון‪ .‬הדרך המוצעת לבצע זאת‬
‫מפורטת בהמשך כהצעה למחקר עתידי‪ .‬במודל המולטינומי מגרילים מכל הקטגוריות‪.‬‬
‫נדגיש שוב שיש להפריד בין שני מצבים ולכל אחד מהם מוצע פתרון שונה על בסיס המחקר הנוכחי‪.‬‬
‫מצב ראשון הוא כאשר המטרה היא לנפח נתוני משטרה‪ ,‬ונתונים אלה אינם מאותה שנה שעבורה יש‬
‫את נתוני הטראומה (טראומה בלבד וקובץ משולב)‪ .‬זה המקרה שעליו בלבד ענה מחקרן של גיטלמן‬
‫ודובא (‪ ,)2111‬וגם אנו ענינו במחקר זה שבו נעשה שיפור לשיטתן‪ .‬בחלק הראשון של הממצאים‬
‫דיווחנו על התוצאות של שתי הגישות והשווינו בין התוצאות‪ .‬אם בידי החוקר שלושת הקבצים עם‬
‫נתונים לאותה שנה‪ ,‬אזי יש לנצל לאמידה טובה יותר את המידע בשלושת הקבצים (המצב השני)‪.‬‬
‫לשם כך יש ליישם את השיטה של מחקר זה המבוססת על המודל המולטינומי‪ ,‬כפי שהדגמנו בחלק‬
‫השני של הדיווח על הממצאים‪.‬‬
‫‪ .6.0‬הצעה להמשך מחקר‪ :‬רווח סמך עבור המספר הכולל של נפגעים‬
‫בשתי השיטות‪ ,‬של מחקרנו זה והמחקר הקודם של גיטלמן ודובא (‪ ,)2111‬התקבל אמד נקודתי‪ .‬בכל‬
‫שיטת אמידה יש חשיבות לבניית רווח סמך לפרמטר הנאמד‪.‬‬
‫השיטות הסטנדרטיות שבהן משתמשים בדרך כלל בסטטיסטיקה לבנית רווחי סמך אינן ישימות‬
‫כאשר הפרמטר הנאמד הוא גודל אוכלוסייה והשיטה הנדרשת היא השיטה של ‪ .CR‬הסיבה לכך‬
‫שהוכרה ונדונה בעבר היא שרווח סמך סימטרי אינו מתאים לפרמטר זה כי התפלגותו של הסטטיסטי‬
‫אינה סימטרית‪ .‬דיון על אי‪-‬התאמה זו הוצג למשל ב‪International Working Group for , 1888( :‬‬
‫‪ .)Disease Monitoring and Forecasting‬כדי לפתור את הבעיה הוצעו מספר שיטות‪ .‬תחילה‪,‬‬
‫‪38‬‬
‫הוצע לבצע טרנספורמציה (כמו לוג)‪ ,‬כך שהתפלגות האמד תהיה בקירוב נורמלית )‪.(Chao, 1989‬‬
‫אולם‪ ,‬נמצא שלא ניתן למצוא טרנספורמציה אשר מתאימה לכל המקרים‪.‬‬
‫החל משנות ה‪ 81‬נכתבו מספר מאמרים בהם הציגו שיטות שונות וכולן מבוססות על ‪.Bootstrap‬‬
‫אלה השיטות הנחשבות כטובות ובשיטה מסוג זה השתמשנו במחקר הנוכחי‪ .‬יש לציין שבחלק‬
‫מהשיטות שהוצגו נעשה שימוש ב‪Bootstrap -‬‬
‫‪Bootstrap‬‬
‫‪ ,Parametric‬ובחלקן נעשה שימוש ב‪-‬‬
‫‪ .Nonparametric‬במאמרם של )‪ Buckland & Garthwaite (1991‬הוצגו שיטות‬
‫המבוססות על שני הסוגים‪ .‬הרחבות לשיטות שהציגו )‪ Buckland & Garthwaite (1991‬כללו‬
‫שימוש במשתנים מסבירים (‪ .)covariates‬למשל‪Huggins (1998), Tilling & Sterne (1999), ,‬‬
‫)‪ Tilling et al (2001‬השתמשו ב‪ Nonparametric Bootstrap-‬עבור מסבירים רציפים‪ .‬אולם‪,‬‬
‫באותן העבודות‪ ,‬כפי שהראו )‪ ,Norris & Pollock (1996‬השתמשו בנראות מותנית‪ .‬לכן‪ ,‬בשיטה זו‬
‫מקבלים אמד לשונות שהוא מוטה כלפי מטה ורווח הסמך צר ממה שהוא אמור לכסות‪.‬‬
‫במחקר עתידי אנו מציעים להשתמש בשיטה שהוצגה במאמר של ‪Zwane & van der Heijden‬‬
‫)‪ .(2003‬בשיטה זו יש שימוש ב‪ ,Parametric Bootstrap-‬לאמידת השונות‪ ,‬כאשר ההטרוגניות בין‬
‫התצפיות הנדגמות מבוטאת על‪-‬ידי מסבירים רציפים‪.‬‬
‫להלן הסבר השיטה‪:‬‬
‫נסמן ב‪ N -‬את גודל האוכלוסייה מתוכה ‪ n‬נדגמו ויש ביניהם אי תלות‪ .‬את וקטור המשתנים‬
‫המסבירים לתצפית ה‪ i-‬נסמן ב‪x i -‬‬
‫ואת הפרופיל המתאר את נוכחות התצפית בתהליך הלכידה‬
‫נסמן ב‪ . w i -‬פרופיל זה שווה ל‪ )1,1(-‬כאשר התצפית מופיעה ברשומה ראשונה (משטרה) ולא‬
‫בשנייה (טראומה)‪ ,‬שווה ל‪ )1,1) -‬כאשר התצפית מופיעה ברשומה שנייה (טראומה) ולא בראשונה‪,‬‬
‫(משטרה)‪ ,‬שווה ל‪ )1,1(-‬כאשר התצפית מופיעה בשתי הרשומות‪ ,‬והוא שווה ל‪ )1,1)-‬כאשר התצפית‬
‫אינה מופיעה כלל‪.‬‬
‫נסמן את ההסתברות של התצפית ה‪ i-‬להיכלל ברשומה כלשהי ב‪i -‬‬
‫ואת האמד שלה ב‪ˆ i -‬‬
‫‪.‬‬
‫הסתברות זו תלויה במשתנים מסבירים ואותה אומדים‪ .‬האמד של גודל האוכלוסייה ‪ N‬הוא‪:‬‬
‫‪n‬‬
‫‪n‬‬
‫‪1‬‬
‫ˆ‬
‫‪N‬‬
‫‪‬‬
‫ˆ‪ i  ‬‬
‫‪i 1‬‬
‫‪i 1 i‬‬
‫‪ˆ ‬‬
‫‪.N‬‬
‫את ה‪ bootstrap-‬אנו מבצעים כדי לקבל רווח סמך לפרמטר ‪ N‬שהאמד הנקודתי שלו הוא ˆ‬
‫‪.N‬‬
‫נסמן ב‪-‬‬
‫‪i1‬‬
‫את ההסתברות שנבדק ‪ i‬יופיע ברשומת הטראומה וב‪-‬‬
‫‪i2‬‬
‫את ההסתברות שנבדק ‪i‬‬
‫יופיע ברשומת המשטרה‪ .‬הסתברויות אלו תלויות במשתנים מסבירים ואומדים אותן בעזרת המודל‬
‫המולטינומי‪ .‬כך מקבלים כפונקציה של המסבירים את האמדים‪ ˆ i1  ˆ 1  x i  :‬ו‪ˆ i2  ˆ 2  x i  -‬‬
‫להסתברות שנבדק ‪ i‬יופיע ברשומת הטראומה ולהסתברות שנבדק יופיע ברשומת המשטרה‪,‬‬
‫בהתאמה‪.‬‬
‫‪36‬‬
‫בהינתן האמדים להסתברויות‬
‫‪ ˆ 1  x i ‬ו‪ˆ 2  x i  -‬‬
‫ניתן להגדיר התפלגות מולטינומית עם ארבע‬
‫אפשרויות‪:‬‬
‫‪,‬‬
‫‪ -‬להופיע רק ברשומת הטראומה ולא במשטרה‪ ,‬אמד ההסתברות לכך הוא ]‪ˆ 1  xi [1  ˆ 2  x i ‬‬
‫ להופיע רק ברשומת המשטרה ולא בטראומה‪ ,‬אמד ההסתברות לכך הוא ]‪ˆ 2  xi [1  ˆ 1  x i ‬‬‫‪,‬‬
‫ להופיע גם ברשומת הטראומה וגם במשטרה‪ ,‬אמד ההסתברות לכך הוא ‪ˆ 1  x i  ˆ 2  x i ‬‬‫‪, ‬‬
‫ לא להופיע באף רשומה‪ ,‬אמד ההסתברות לכך הוא ]‪ˆ 1  xi ][1  ˆ 2  xi ‬‬‫‪. [1  ‬‬
‫עבור נבדק ‪ i‬האמד שהוא יופיע במדגם ברשומה כלשהי שווה ל‪:‬‬
‫‪ˆ i  ˆ (x i )  ˆ 1  x i [1  ˆ 2  x i ]  ˆ 2  x i [1  ˆ 1  x i ]  ˆ 1  x i  ˆ 2  x i  ‬‬
‫‪ˆ 1  x i   ˆ 2  x i   ˆ 1  x i  ˆ 2  x i ‬‬
‫בכל דגימה של ה‪ B( Bootstrap-‬דגימות)‪ ,‬מבצעים דגימה באופן הבא‪:‬‬
‫את מספר התצפיות המייצגות את הנבדק ‪ i‬אנו אומדים לפי‪:‬‬
‫‪1‬‬
‫) ‪ˆ (x i‬‬
‫‪.N‬‬
‫‪ˆ ‬‬
‫‪i‬‬
‫הבעיה היא שמספר זה אינו בהכרח מספר שלם‪ .‬לכן‪ ,‬הציעו )‪Zwane & van der Heijden (2003‬‬
‫את הפתרון הבא‪ :‬מניחים שהפרמטר הנכון ‪N i‬‬
‫‪ , INT[N‬או ל‪ˆ  1] -‬‬
‫שווה או ל‪ˆ ] -‬‬
‫‪ , INT[N‬כאשר‬
‫‪i‬‬
‫‪i‬‬
‫‪ INT[N‬מסמן את החלק השלם של ˆ‬
‫] ˆ‬
‫‪ . N‬על ידי "הגרלה" מחליטים בין שתי האפשרויות‪ ,‬כאשר‬
‫‪i‬‬
‫‪i‬‬
‫בהגרלה נותנים הסתברות גבוהה יותר למספר השלם הקרוב ל‪ˆ -‬‬
‫‪.N‬‬
‫‪i‬‬
‫‪ˆ  INT[N‬‬
‫עושים זאת באופן הבא‪ :‬נגדיר ] ˆ‬
‫‪ . di  N‬עתה נותנים ההסתברות השווה ל‪1  di -‬‬
‫‪i‬‬
‫‪i‬‬
‫למאורע שהערך הנכון של ‪ N i‬הוא ] ‪ INT[Nˆ i‬ואת ההסתברות ‪ d i‬לאירוע שהערך הנכון של ‪N i‬‬
‫הוא ]‪ˆ  1‬‬
‫‪. INT[N‬‬
‫‪i‬‬
‫אחרי שנקבע המספר המתאים שהוא עתה שלם עבור גודל המדגם המתאים לתצפית ה‪ i-‬במדגם ה‪-‬‬
‫‪ ,Bootstrap‬יוצרים מדגם בגודל זה מההתפלגות המולטינומית המתאימה לווקטור המסבירים של‬
‫תצפית זו‪ .‬כך נעשה לכל תצפית ‪ .i‬חלק מהתצפיות שנוצרות בסימולציה מההתפלגות המולטינומית‬
‫יפלו בקטגוריה שהפרופיל שלה )‪ .(0,0‬כלומר שבמדגם אשר נוצר הן משחקות תפקיד של נבדקים‬
‫שלא מופיעים באף רשומה‪.‬‬
‫מדגם ה‪ Bootstrap-‬שמקבלים בדגימה האחת (נסמן אותה כדגימה ה‪ )b-‬יהיה בגודל ‪n b‬‬
‫(‪ )b=1,…,B‬ועל בסיסו כמו מהמדגם המקורי אומדים את ההסתברויות‬
‫ואת ‪ N‬לפי הנוסחה‪:‬‬
‫‪32‬‬
‫]‪ˆ 1*[b] (xi ), ˆ *[b‬‬
‫) ‪2 (x i‬‬
‫‪n‬‬
‫‪1‬‬
‫) ‪ˆ *[b] (x i‬‬
‫‪i 1 ‬‬
‫‪nb‬‬
‫‪ˆ *[b]   N‬‬
‫‪ˆ *[b]  ‬‬
‫‪N‬‬
‫‪i‬‬
‫‪i1‬‬
‫על בסיס כל ‪ B‬האמדים של ‪ N‬בונים את רווח הסמך‪.‬‬
‫כאשר המטרה היא לנפח נתוני משטרה‪ ,‬לא מאותה שנה שעבורה יש את נתוני הטראומה (טראומה‬
‫בלבד וקובץ משולב)‪ ,‬אזי נשתמש ב‪ B -‬אמדי מקדמי המודל המולטינומי שהתקבלו עבור ‪ B‬מדגמי ה‪-‬‬
‫‪ ,Bootstrap‬כדי ליצור ‪ B‬ניפוחים לנתוני המשטרה‪ ,‬ועל סמך ‪ B‬ניפוחים אלה ניצור את רווח הסמך‬
‫למספר הנפגעים קשה‪.‬‬
‫‪39‬‬
‫מראי מקום‬
‫ פיתוח כלים סטטיסטיים להערכת מספרי הנפגעים קשה בתאונות הדרכים‬.(2011( .‫ א‬,‫דובא‬, .‫גיטלמן ו‬
.‫מיסודה של עמותת אור ירוק‬, ‫ דו"ח מחקר שהוגש לקרן רן נאור לקידום מחקר בטיחות בדרכים‬,‫בישראל‬
‫ קבלת החלטות על בסיס נתונים‬.‫ פצועים במצב קשה‬- ‫ תאונות דרכים‬.)2114( .‫דניאל ל‬-‫ אהרונסון‬,.‫פלג ק‬
.111-118 '‫ עמ‬,'‫ חוב' ב‬,143 ‫ כרך‬,‫ הרפואה‬.‫חלקיים‬
Alho, J. (1990). Logistic regression in capture–recapture models. Biometrics 46, 623-635.
Alsop, J., Langley, J. (2001). Under-reporting of motor vehicle traffic crash victims in New
Zealand. Accident Analysis and Prevention, 33, 353-359.
Amoros, E., Martin, J.L., Laumon, B. (2006). Under-reporting of road crash casualties in
France. Accident Analysis and Prevention, 38, 627-635.
Amoros, E., Martin, J.L., Laumon B. (2007). Estimating non-fatal road casualties in a large
French county, using capture-recapture method. Accident Analysis and Prevention, 39, 483490.
Buckland,S.T. Garthwaite, P.H. (1991) . Quantifying precision of mark-recapture estimates
using the bootstrap and related methods. Biometrics, 47,255-268
Chang ,Y.F., McMahon, J.E., Hennon, D.L., LaPorte ,R.E., Coben ,J.H. (1997)Dog bite
incidence in the city of Pittsburgh - a capture-recapture approach. Am J Public Health
.87(10),1703-1705.
Chao, A.(1989) Estimating population size from sparse data in capyure-recapture
experiments. Biometrics,45,427-438.
Chiu, W.T., Dearwater ,S.R., McCarty, D.J., Songer, T.J. LaPorte, R.E.(1993) Establishment
of accurate incidence rates for head and spinal cord injuries in developing and developed
countries: a capture-recapture approach. J Trauma ,35,206-211.
Cohen, J. (2004). Road accidents in Israel: scope, characteristics and estimate of costs for
national economy. MATAT, Ministry of Transport – Economic and Planning department (in
Hebrew).
Derriks, H.M. and Mak, P.M. (2007). Underreporting of road traffic casualties. IRTAD special
report. The International Transport Forum, OECD.
Elvik, R., Mysen, A.B. (1999). Incomplete accident reporting: meta-analysis of studies made
in 13 countries. Transportation Research Record, 1665, 133-140.
Elvik, R., Vaa, T. (2004). The handbook of road safety measures. Elsevier.
ETSC (2007). Socail and economic consequences of road traffic injury in Europe. European
Transport Safety Council, Brussels.
Gutoskie, P. (2003). The availability of hospitalized road user data in OECD member
countries (2001). IRTAD Operational Committee.
Hauer, E., & Hakkert, A.S. (1988). Extent and some implications of incomplete accident
reporting. Transportation Research Record, 1185, 1-10.
Huggins, R. (1989). On the statistical analysis of capture experiments. Biometrika,76,133140.
International Working Group for Disease Monitoring and Forecasting )1995). Capture –
recapture and multiple record system estimation: history and theoretical development.
American Journal of Epidemiology, 142,1047-1058.
Jarvis, S.N., Lowe, P.J., Avery, A., Levene, S., Cormack, R. (2000). Children are not goldfish
– mark/recapture techniques and their application to injury data. Injury Prevention, 6, 46-50.
Johnson, R.L., Gabella, B.A., Gerhart ,K.A., McCray, J., Menconi ,J.C., Whiteneck, G.G.
(1997) Evaluating sources of traumatic spinal cord injury surveillance data in Colorado. Am J
Epidemiol ,146(3),266-72.
38
Lopez, D.G., Rosman, D.L., Jelinek, G.A., Wilkes, G.J., & Sprivulis, P.C. (2000).
Complementing police road-crash records with trauma registry data - an initial evaluation.
Accident Analysis and Prevention, 32, 771-777.
Morrison, A., Stone, D.H. (2000). Capture-recapture: a useful methodological tool for counting
traffic related injuries? Injury Prevention, 6, 299-304.
Newcombe ,H.B.,Kennedy ,J.M., Axford ,S.J.., James, A.P. (1959). Automatic linkage of vital
records. Science,130, 954-959.
Noris,J. , Pollock,K. (1996). Including model uncertainty in estimating variances in multiple
capture studies. Environmental and Ecological Statistics,3, 235-244.
OECD/ITF (2011). Reporting on Serious Road Traffic Casualties: Combining and using
different data sources to improve understanding of non-fatal road traffic crashes. Organisation
for Economic Co-operation and Development/ International Transport Forum.
Peleg, K., Aharonson-Daniel, L. (2004). Road traffic accidents - severe injuries. How missing
data can impair decision making? Harefuah, 143 (2), 111-115 (in Hebrew).
Reurings, M.C.B., Bos, N.M., van Kampen, L.T.B. (2007). Calculation of the real number of
traffic in-patients, in 1997-2003; methods and results. SWOV report R-2007-8.
Reurings, M.C.B., Stipdonk, H.L. (2011). Estimating the number of seriously road injuries in
the Netherlands. AEP,27(9), 648-653.
Roberts, I., Scragg, R. (1994). Application of capture-recapture methodology to estimate the
completeness of child injury surveillance. Journal of Pediatrics & Child Health ,30(6):513-4.
Rosman, D.L. (1995). The feasibility of linking hospital and police road crash casualty records
without names. Accident Analysis and Prevention, 28, 271-274.
Rossignol, M. (1994). Completeness of provincial workers' compensation files to identify fatal
occupational injuries. Canadian Journal of Public Health,85(4),244-7.
Sacks, J.J., Sattin, R.W., Bonzo, S.E. (1989). Dog bite-related fatalities from 1979 through
1988. JAMA, 262,1489-1492.
Sanathanan, L. (1972). Estimating the Size of a Multinomial Population.The Annals of
Mathematical Statistics, 43, 142-152.
Simpson, H.F. (1996). Comparison of hospital and police casualty data: a national study. TRL
Report 173.
Stone, R.D. (1984). Computer linkage of transport and health data. TRRL laboratory Report
1130.
Tersero, F., Andersson, R. (2004). Measuring transport injuries in a developing country: an
application of the capture-recapture method. Accident Analysis and Prevention, 36, 13-20.
Tilling, K., Sterne, J. (1999). Capture-recapture models including covariate eLects. Amer. J.
Epidemiology 149, 2, 392-400.
Tilling, K., Sterne, J., Wolfe, C. (2001). Estimation of incidence of stroke using a capturerecapture model including covariates. International Journal of Epidemiology,30,1351-1359.
Tsui, K.L., Soa, F.L., Szeb, N.N., Wong, S.C., Leung, T.F. (2009). Misclassification of injury
severity among road casualties in police reports. Accident Analysis and Prevention, 41, 8489.
41
SAS ‫ תוכנת‬:‫נספח‬
Sas Program
%let path=C:\Etti2011\trans_nifgaim_hatzaa_bituach;*path for current project;
%let path2=C:\Etti2011\trans_nifgaim_2011;*path for A-D files;
options
options
options
options
nolabel;
ls=100 ps=71;
mprint date dtreset;
ls=71 ps=71 nodate nonumber;
libname Bit "&path\SasData";
libname Nif "&path2\SasData";
*==================================================================================;
*==================================================================================;
* create data for multinomial analysis - begin
;
*==================================================================================;
*==================================================================================;
*A: keep appropriate observations from each file;
data selectA;*observations to select from NIF.rawApolice & trauma-(3545 =1607+1938) );
set NIF.rawA ;
y_origin='G_both'; *indicator for observations being samples by police and trauma;
where (HUMRAT_PGIA_LMS=2) or(HUMRAT_PGIA=2 and HUMRAT_PGIA_LMS=.);
run;
data selectB;*observations to select from NIF.rawB- trauma only - (1608) );
set NIF.rawB ;
y_origin='G_trau'; *indicator for observations being samples by trauma only;
where Hospital_stay>1;
run;
data selectC;*observations to select from NIF.rawC-police only - (528) );
set NIF.rawC ;
y_origin='G_poli'; *indicator for observations being samples by police only;
run;
data all;
set selectA selectB selectC;
run;
*B: Create extra variables for multinomial analysis;
data bit.for_multi;
set all;
if Hospital_cod=1602 then Hospital_cod=1401;*correct data;
*==== define y_multi (dependent variable ==================;
if y_origin='G_poli' then y_multi='S_poli';*severe - police only;
if y_origin='G_trau' then y_multi='S_trau';*severe - trauma only from file of trauma
only;
if y_origin='G_both' and (HUMRAT_PGIA=2 and HUMRAT_PGIA_LMS=.)
then y_multi='S_both';*severe - trauma +police from file meshulav;
if y_origin='G_both' and (HUMRAT_PGIA_LMS=2)
then y_multi='S_trau';*severe - trauma +police from file meshulav;
*==define gender====;
if y_origin='G_both' or y_origin='G_trau' then do;
if Sex_cod=1 then gender=0;
if Sex_cod=2 then gender=1;
if Sex_cod=9 and min='‫ 'ז‬then gender=0;
if Sex_cod=9 and min='‫ 'נ‬then gender=1;
end;
if y_origin='G_poli' then do;
if min='‫ 'ז‬then gender=0;
if min='‫ 'נ‬then gender=1;
41
end ;
T_gender=gender;
if gender=. then T_gender=0;*complete missing values;
*==define age====;
if y_origin='G_poli' then do;
age=2008-shnat_leda;
police_age_c=.;*categorical age;
if age>=0 and age<=14 then police_age_c=1;
if age>=15 and age<=24 then police_age_c=2;
if age>=25 and age<=54 then police_age_c=3;
if age>=55 and age<=64 then police_age_c=4;
if age>=65
then police_age_c=5;
age_c= police_age_c;*categorical age;
end ;
if y_origin='G_both' then do;
old_age=age;
age=2008-shnat_leda;
if age=. then age=old_age;
police_age_c=.;*categorical age;
if age>=0 and age<=14 then police_age_c=1;
if age>=15 and age<=24 then police_age_c=2;
if age>=25 and age<=54 then police_age_c=3;
if age>=55 and age<=64 then police_age_c=4;
if age>=65
then police_age_c=5;
trauma_age_c=.;
if old_age>=0
if old_age>=15
if old_age>=25
if old_age>=55
if old_age>=65
and
and
and
and
old_age<=14
old_age<=24
old_age<=54
old_age<=64
then
then
then
then
then
trauma_age_c=1;
trauma_age_c=2;
trauma_age_c=3;
trauma_age_c=4;
trauma_age_c=5;
age_c= police_age_c;*categorical age;
end ;
if y_origin='G_trau' then do;
police_age_c=.;*categorical age;
if age>=0 and age<=14 then police_age_c=1;
if age>=15 and age<=24 then police_age_c=2;
if age>=25 and age<=54 then police_age_c=3;
if age>=55 and age<=64 then police_age_c=4;
if age>=65
then police_age_c=5;
age_c= police_age_c;*categorical age;
end ;
T_age_c=age_c;
if age_c=. then T_age_c=3;*complete missing values;
*==define month====;
if y_origin='G_both' or y_origin='G_trau' then do;
Injury_Month=Injury_Month;
end;
if y_origin='G_poli' then do;
Injury_Month=HodeshTeuna;
end ;
T_Injury_Month=Injury_Month;
if Injury_Month=. then T_Injury_Month=5;*complete missing values;
T_month_4=ceil(T_Injury_Month/3);
*==define YEHIDA and YEHIDA_2====;
*create yehida definition for trauma only data;
if y_origin='G_trau' then do;
if Hospital_cod=1102 then YEHIDA=11;
if Hospital_cod=1106 then YEHIDA=11;
42
if
if
if
if
if
if
if
if
if
if
if
if
if
if
if
end;
Hospital_cod=1105
Hospital_cod=1107
Hospital_cod=1109
Hospital_cod=1501
Hospital_cod=1503
Hospital_cod=1101
Hospital_cod=1104
Hospital_cod=1201
Hospital_cod=1302
Hospital_cod=1108
Hospital_cod=1301
Hospital_cod=1103
Hospital_cod=1304
Hospital_cod=1401
Hospital_cod=1601
then
then
then
then
then
then
then
then
then
then
then
then
then
then
then
YEHIDA=12;
YEHIDA=12;
YEHIDA=14;
YEHIDA=14;
YEHIDA=14;
YEHIDA=20;
YEHIDA=20;
YEHIDA=20;
YEHIDA=34;
YEHIDA=38;
YEHIDA=51;
YEHIDA=52;
YEHIDA=52;
YEHIDA=61;
YEHIDA=61;
YEHIDA_2=0;
if YEHIDA in (12 20 34 38 51 52 61) then YEHIDA_2=1;
*==define sug_derehA====;
if y_origin='G_trau' then do;
sug_dereh_trauma=0*Site_sub_type;
if Site_sub_type=1 then sug_dereh_trauma=1;
if Site_sub_type in (2 3 4 5 6 7 88 99) then
sug_derehA= sug_dereh_trauma;
end;
if y_origin='G_poli' then do;
sug_dereh2=0*sug_dereh ;
if sug_dereh>2 then sug_dereh2=1;*ironi
sug_derehA=sug_dereh2;
end ;
sug_dereh_trauma=0;
vs non-ironi;
if y_origin='G_both' then do;
sug_dereh2=0*sug_dereh ;
if sug_dereh>2 then sug_dereh2=1;*ironi vs non ironi;
sug_derehA=sug_dereh2;
end ;
T_sug_derehA=sug_derehA;
if sug_derehA=. then T_sug_derehA=0;*complete missing values;
*==define Sug_p3 ====;
if y_origin='G_trau' then do;
Sug_t1 = Car_accident_type1*0;
if Car_accident_type1=1 then Sug_t1 = 1;
if Car_accident_type1=2 then Sug_t1 = 2;
if Car_accident_type1=3 then Sug_t1 = 2;
if Car_accident_type1=4 then Sug_t1 = 2;
if Car_accident_type1=5 then Sug_t1 = 3;
if Car_accident_type1=6 then Sug_t1 = 4;
if Car_accident_type1=7 then Sug_t1 = 4;
if Car_accident_type1=8 then Sug_t1 = 4;
if Car_accident_type1=9 then Sug_t1 = 4;
if Car_accident_type1=10 then Sug_t1 = 4;
if Car_accident_type1=11 then Sug_t1 = 4;
if Car_accident_type1>=12 then Sug_t1 = 5;
Sug_t1_3=Sug_t1;
if Sug_t1 in (2 3 5) then Sug_t1_3=235;
Sug_p3= Sug_t1_3;
end ;
if y_origin='G_both' or
Sug_p = SUG_TEUNA*0;
if SUG_TEUNA=1 then
if SUG_TEUNA=2 then
if SUG_TEUNA=3 then
if SUG_TEUNA=4 then
if SUG_TEUNA=5 then
if SUG_TEUNA=6 then
if SUG_TEUNA=7 then
if SUG_TEUNA=8 then
if SUG_TEUNA=9 then
y_origin='G_poli' then do;
Sug_p
Sug_p
Sug_p
Sug_p
Sug_p
Sug_p
Sug_p
Sug_p
Sug_p
=
=
=
=
=
=
=
=
=
1;
2;
2;
2;
3;
4;
4;
4;
4;
43
if SUG_TEUNA=10 then Sug_p =
4;
if SUG_TEUNA=11 then Sug_p =
4;
if SUG_TEUNA>=12 then Sug_p =
5;
Sug_p3=Sug_p;
if Sug_p in (2 3 5) then Sug_p3=235;
end ;
T_Sug_p3 =Sug_p3 ;*complete missing values;
if Sug_p3 =. then T_Sug_p3 =235;
*==define Sug_nifga_A ====;
if y_origin='G_trau' then do;
Sug_nifga_byT_F=.;*final variable for predict police sug nifga by trauma;
if Ecode_sec_sub_type=1 then Sug_nifga_byT_F= 2;
if Ecode_sec_sub_type=2 then Sug_nifga_byT_F= 3;
if Ecode_sec_sub_type in (3 4) then Sug_nifga_byT_F= 45;
if Ecode_sec_sub_type=5 then Sug_nifga_byT_F= 6;
if Ecode_sec_sub_type=7 then Sug_nifga_byT_F= 1;
if Ecode_sec_sub_type in (6 8 9 10 11) then Sug_nifga_byT_F = 2;
Sug_nifga_A= Sug_nifga_byT_F;
end ;
if y_origin='G_both' or y_origin='G_poli' then do;
*define sug_nifga with combined categories;
SUG_NIFGA_P=SUG_NIFGA_LMS;
if SUG_NIFGA_LMS in (7 8 9) then SUG_NIFGA_P=789;
if SUG_NIFGA_LMS in (4 5 ) then SUG_NIFGA_P=45;
Sug_nifga_A= SUG_NIFGA_P;
end ;
T_Sug_nifga_A=Sug_nifga_A;*complete missing values;
if Sug_nifga_A=. then T_Sug_nifga_A=1;
*==define SUG_REHEV_A ====;
if y_origin='G_trau' then do;
if Injury_car_type_cod in (11 12 13) then Injury_car_8=
if Injury_car_type_cod= 14 then Injury_car_8= "B";
if Injury_car_type_cod= 15 then Injury_car_8= "C";
if Injury_car_type_cod= 16 then Injury_car_8= "D";
if Injury_car_type_cod= 17 then Injury_car_8= "G";
if Injury_car_type_cod= 18 then Injury_car_8= "D";
if Injury_car_type_cod= 19 then Injury_car_8= "A";
if Injury_car_type_cod= 20 then Injury_car_8= "H";
if Injury_car_type_cod= 21 then Injury_car_8= "H";
if Injury_car_type_cod= 22 then Injury_car_8= "E";
if Injury_car_type_cod= 23 then Injury_car_8= "H";
if Injury_car_type_cod= 24 then Injury_car_8= "H";
if Injury_car_type_cod= 25 then Injury_car_8= "H";
if Injury_car_type_cod= 26 then Injury_car_8= "F";
if Injury_car_type_cod= 27 then Injury_car_8= "H";
if Injury_car_type_cod= 98 then Injury_car_8= "H";
if Injury_car_type_cod= 99 then Injury_car_8= "I";
"A";
*predict categorised police by categorised trauma;
SUG_REHEV_pred_8=Injury_car_8;
if Injury_car_8="I" then SUG_REHEV_pred_8="A";
SUG_REHEV_A= SUG_REHEV_pred_8;
end ;
if y_origin='G_both' or y_origin='G_poli' then do;
if SUG_REHEV_LMS=. and sug_nifga_lms=1 then SUG_REHEV_LMS=26;
*complete pedestrians into SUG_REHEV_LMS;
*categorise police;
if SUG_REHEV_LMS=1 then SUG_REHEV_p8="A";
if SUG_REHEV_LMS=2 then SUG_REHEV_p8="A";
if SUG_REHEV_LMS=3 then SUG_REHEV_p8="A";
if SUG_REHEV_LMS=4 then SUG_REHEV_p8="A";
if SUG_REHEV_LMS=5 then SUG_REHEV_p8="B";
if SUG_REHEV_LMS=6 then SUG_REHEV_p8="B";
if SUG_REHEV_LMS=7 then SUG_REHEV_p8="B";
if SUG_REHEV_LMS=8 then SUG_REHEV_p8="C";
if SUG_REHEV_LMS=9 then SUG_REHEV_p8="C";
if SUG_REHEV_LMS=10 then SUG_REHEV_p8="C";
if SUG_REHEV_LMS=11 then SUG_REHEV_p8="D";
44
if
if
if
if
if
if
if
if
if
SUG_REHEV_LMS=12
SUG_REHEV_LMS=13
SUG_REHEV_LMS=14
SUG_REHEV_LMS=15
SUG_REHEV_LMS=16
SUG_REHEV_LMS=17
SUG_REHEV_LMS=18
SUG_REHEV_LMS=19
SUG_REHEV_LMS=26
then
then
then
then
then
then
then
then
then
SUG_REHEV_p8="G";
SUG_REHEV_p8="H";
SUG_REHEV_p8="H";
SUG_REHEV_p8="E";
SUG_REHEV_p8="H";
SUG_REHEV_p8="H";
SUG_REHEV_p8="A";
SUG_REHEV_p8="C";
SUG_REHEV_p8="F";
SUG_REHEV_A= SUG_REHEV_p8;
end ;
T_SUG_REHEV_A=SUG_REHEV_A;*complete missing values;
if SUG_REHEV_A ="" then T_SUG_REHEV_A ="A" ;
*==define I_cat ====;
if SUG_REHEV_A ="" then I_cat=1;
else if SUG_REHEV_A in ("B" "D" "E" "H" ) then I_cat=1;
else if SUG_REHEV_A in ("A" "C" "F" "G" ) and YEHIDA in (12 20 34 38 51 52 61) then
I_cat=2;
else if sug_derehA=0 or (sug_derehA=. and SUG_REHEV_A in ("C" "F") ) then I_cat=3;
else I_cat=4;
run;
*==================================================================================;
*==================================================================================;
* create data for multinomial analysis - end
;
*==================================================================================;
*==================================================================================;
*==================create extended data for trauma based model (previous way)======;
data bit.all_trauma_ext;*extended nif.all_trauma;
set nif.all_trauma;
*define I_cat;
if SUG_REHEV_A ="" then I_cat=1;
else if SUG_REHEV_A in ("B" "D" "E" "H" ) then I_cat=1;
else if SUG_REHEV_A in ("A" "C" "F" "G" ) and YEHIDA in (12 20 34 38 51 52 61) then
I_cat=2;
else if sug_derehA=0 or (sug_derehA=. and SUG_REHEV_A in ("C" "F") ) then I_cat=3;
else I_cat=4;
*complete missing values according to most probable category;
T_SUG_REHEV_A=SUG_REHEV_A;
if SUG_REHEV_A ="" then T_SUG_REHEV_A ="A" ;
T_sug_derehA=sug_derehA;
if sug_derehA=. then T_sug_derehA=0;
T_gender=gender;
if gender=. then T_gender=0;
T_age_c=age_c;
if age_c=. then T_age_c=3;
T_Injury_Month=Injury_Month;
if Injury_Month=. then T_Injury_Month=5;
T_month_4=ceil(T_Injury_Month/3);
T_Sug_p3 =Sug_p3 ;
if Sug_p3 =. then T_Sug_p3 =235;
T_Sug_nifga_A=Sug_nifga_A;
if Sug_nifga_A=. then T_Sug_nifga_A=1;
*categories according to lsmeans;
age_4=age_c;
if age_c in ( 4 5) then age_4=45;
YEHIDA_2=0;
if YEHIDA in (12 20 34 38 51 52 61) then YEHIDA_2=1;
run;
*==================================================================================;
*==================================================================================;
* Models of trauma and multinomial analysis
;
*==================================================================================;
48
*==================================================================================;
title "selected model - model based on trauma data";
proc logistic data=bit.For_multi;
class T_gender T_age_c T_month_4 yehida_2 T_sug_derehA T_Sug_p3 T_Sug_nifga_A
T_SUG_REHEV_A I_cat/param=glm;
model y_multi= T_gender T_age_c yehida_2| T_sug_derehA T_Sug_p3 T_Sug_nifga_A I_cat
/ link=glogit rsquare;
where y_origin^='G_poli';
run;
title "selected model - model based on all data";
ods trace on;
ods output ParameterEstimates=ParameterEstimates;
proc logistic data=bit.For_multi;
class T_gender T_age_c T_month_4 yehida_2 T_sug_derehA T_Sug_p3 T_Sug_nifga_A
T_SUG_REHEV_A I_cat/param=glm;
model y_multi= T_age_c T_month_4 yehida_2| T_sug_derehA T_Sug_p3 T_Sug_nifga_A
/ rsquare link=glogit;
run;
*print only relevant parameters;
proc print data=ParameterEstimates; where Response='S_both';run;
I_cat
*==================================================================================;
*==================================================================================;
* estimate nifgaim by the two methods
;
*==================================================================================;
*==================================================================================;
*A: create police data;
data police_kashe_A;
set NIF.rawA;
y_origin='G_both';
false_p=.;
where HUMRAT_PGIA=2;
run;
data police_kashe_C;
set NIF.rawC;
y_origin='G_poli';
false_p=.;
run;
data police_kashe_AC;
set police_kashe_A police_kashe_C;
run;
data bit.police_kashe_AC;set police_kashe_AC;run;
*B: create data for FP model;
data police_FP;
set NIF.rawA;
false_p=0;
if HUMRAT_PGIA_LMS=3 then false_p=1;
where HUMRAT_PGIA=2;
run;
*C: model false positive and create FP_probabilities ;
data for_fp;
set police_kashe_AC police_FP;
I_SUG_REHEV_LMS = SUG_REHEV_LMS *0;
if SUG_REHEV_LMS in (4 5 6 7 10 12 14 15 17 19) then I_SUG_REHEV_LMS=1;
if SUG_REHEV_LMS=. and SUG_NIFGA_LMS in (2 3) then I_SUG_REHEV_LMS=0;
if SUG_REHEV_LMS=. and SUG_NIFGA_LMS in (1 4 5 6 7 8 9) then I_SUG_REHEV_LMS=1;
I_SUG_TEUNA = SUG_TEUNA *0;
if SUG_TEUNA in (1 3 6 9 10 12 15 18 19 ) then I_SUG_TEUNA=1;
I_YOM_BASHAVUA = YOM_BASHAVUA *0;
if YOM_BASHAVUA in (1 5 6 7 ) then I_YOM_BASHAVUA=1;
I_YEHIDA = YEHIDA *0;
if YEHIDA in (34 38 43 ) then I_YEHIDA=1;
run;
proc logistic data=for_fp;
model false_p(event='1')= I_SUG_REHEV_LMS I_SUG_TEUNA I_YOM_BASHAVUA I_YEHIDA;
46
output out=out_fp p=p_fp ;
run;
data out_fp;
set out_fp;
where false_p=.;*keep only police data!;
run;
*D: add catching probabilities;
data out_fp_p;*add variables for catching probabilities;
set out_fp;
for_calc=1;
if Hospital_cod=1602 then Hospital_cod=1401;*correct data;
*==define gender====;
if y_origin='G_both' then do;
if Sex_cod=1 then gender=0;
if Sex_cod=2 then gender=1;
if Sex_cod=9 and min='‫ 'ז‬then gender=0;
if Sex_cod=9 and min='‫ 'נ‬then gender=1;
end;
if y_origin='G_poli' then do;
if min='‫ 'ז‬then gender=0;
if min='‫ 'נ‬then gender=1;
end ;
T_gender=gender;
if gender=. then T_gender=0;*complete missing values;
*==define age====;
if y_origin='G_poli' then do;
age=2008-shnat_leda;
police_age_c=.;*categorical age;
if age>=0 and age<=14 then police_age_c=1;
if age>=15 and age<=24 then police_age_c=2;
if age>=25 and age<=54 then police_age_c=3;
if age>=55 and age<=64 then police_age_c=4;
if age>=65
then police_age_c=5;
age_c= police_age_c;*categorical age;
end ;
if y_origin='G_both' then do;
old_age=age;
age=2008-shnat_leda;
if age=. then age=old_age;
police_age_c=.;*categorical age;
if age>=0 and age<=14 then police_age_c=1;
if age>=15 and age<=24 then police_age_c=2;
if age>=25 and age<=54 then police_age_c=3;
if age>=55 and age<=64 then police_age_c=4;
if age>=65
then police_age_c=5;
trauma_age_c=.;
if old_age>=0
if old_age>=15
if old_age>=25
if old_age>=55
if old_age>=65
and
and
and
and
old_age<=14
old_age<=24
old_age<=54
old_age<=64
then
then
then
then
then
trauma_age_c=1;
trauma_age_c=2;
trauma_age_c=3;
trauma_age_c=4;
trauma_age_c=5;
age_c= police_age_c;*categorical age;
end ;
T_age_c=age_c;
if age_c=. then T_age_c=3;*complete missing values;
*==define month====;
if y_origin='G_both' then do;
Injury_Month=Injury_Month;
42
end;
if y_origin='G_poli' then do;
Injury_Month=HodeshTeuna;
end ;
T_Injury_Month=Injury_Month;
if Injury_Month=. then T_Injury_Month=5;*complete missing values;
T_month_4=ceil(T_Injury_Month/3);
*==define YEHIDA and YEHIDA_2====;
*create yehida definition for trauma only data;
YEHIDA_2=0;
if YEHIDA in (12 20 34 38 51 52 61) then YEHIDA_2=1;
*==define sug_derehA====;
if y_origin='G_poli' then do;
sug_dereh2=0*sug_dereh ;
if sug_dereh>2 then sug_dereh2=1;*ironi
sug_derehA=sug_dereh2;
end ;
vs non-ironi;
if y_origin='G_both' then do;
sug_dereh2=0*sug_dereh ;
if sug_dereh>2 then sug_dereh2=1;*ironi vs non ironi;
sug_derehA=sug_dereh2;
end ;
T_sug_derehA=sug_derehA;
if sug_derehA=. then T_sug_derehA=0;*complete missing values;
*==define Sug_p3 ====;
if y_origin='G_both' or y_origin='G_poli' then do;
Sug_p = SUG_TEUNA*0;
if SUG_TEUNA=1 then Sug_p =
1;
if SUG_TEUNA=2 then Sug_p =
2;
if SUG_TEUNA=3 then Sug_p =
2;
if SUG_TEUNA=4 then Sug_p =
2;
if SUG_TEUNA=5 then Sug_p =
3;
if SUG_TEUNA=6 then Sug_p =
4;
if SUG_TEUNA=7 then Sug_p =
4;
if SUG_TEUNA=8 then Sug_p =
4;
if SUG_TEUNA=9 then Sug_p =
4;
if SUG_TEUNA=10 then Sug_p =
4;
if SUG_TEUNA=11 then Sug_p =
4;
if SUG_TEUNA>=12 then Sug_p =
5;
Sug_p3=Sug_p;
if Sug_p in (2 3 5) then Sug_p3=235;
end ;
T_Sug_p3 =Sug_p3 ;*complete missing values;
if Sug_p3 =. then T_Sug_p3 =235;
*==define Sug_nifga_A ====;
if y_origin='G_both' or y_origin='G_poli' then do;
*define sug_nifga with combined categories;
SUG_NIFGA_P=SUG_NIFGA_LMS;
if SUG_NIFGA_LMS in (7 8 9) then SUG_NIFGA_P=789;
if SUG_NIFGA_LMS in (4 5 ) then SUG_NIFGA_P=45;
Sug_nifga_A= SUG_NIFGA_P;
end ;
T_Sug_nifga_A=Sug_nifga_A;*complete missing values;
if Sug_nifga_A=. then T_Sug_nifga_A=1;
*==define SUG_REHEV_A ====;
if y_origin='G_both' or y_origin='G_poli' then do;
if SUG_REHEV_LMS=. and sug_nifga_lms=1 then SUG_REHEV_LMS=26;
*complete pedestrians into SUG_REHEV_LMS;
*categorise police;
if SUG_REHEV_LMS=1 then SUG_REHEV_p8="A";
if SUG_REHEV_LMS=2 then SUG_REHEV_p8="A";
if SUG_REHEV_LMS=3 then SUG_REHEV_p8="A";
49
if
if
if
if
if
if
if
if
if
if
if
if
if
if
if
if
if
SUG_REHEV_LMS=4 then SUG_REHEV_p8="A";
SUG_REHEV_LMS=5 then SUG_REHEV_p8="B";
SUG_REHEV_LMS=6 then SUG_REHEV_p8="B";
SUG_REHEV_LMS=7 then SUG_REHEV_p8="B";
SUG_REHEV_LMS=8 then SUG_REHEV_p8="C";
SUG_REHEV_LMS=9 then SUG_REHEV_p8="C";
SUG_REHEV_LMS=10 then SUG_REHEV_p8="C";
SUG_REHEV_LMS=11 then SUG_REHEV_p8="D";
SUG_REHEV_LMS=12 then SUG_REHEV_p8="G";
SUG_REHEV_LMS=13 then SUG_REHEV_p8="H";
SUG_REHEV_LMS=14 then SUG_REHEV_p8="H";
SUG_REHEV_LMS=15 then SUG_REHEV_p8="E";
SUG_REHEV_LMS=16 then SUG_REHEV_p8="H";
SUG_REHEV_LMS=17 then SUG_REHEV_p8="H";
SUG_REHEV_LMS=18 then SUG_REHEV_p8="A";
SUG_REHEV_LMS=19 then SUG_REHEV_p8="C";
SUG_REHEV_LMS=26 then SUG_REHEV_p8="F";
SUG_REHEV_A= SUG_REHEV_p8;
end ;
T_SUG_REHEV_A=SUG_REHEV_A;*complete missing values;
if SUG_REHEV_A ="" then T_SUG_REHEV_A ="A" ;
*==define I_cat ====;
if SUG_REHEV_A ="" then I_cat=1;
else if SUG_REHEV_A in ("B" "D" "E" "H" ) then I_cat=1;
else if SUG_REHEV_A in ("A" "C" "F" "G" ) and YEHIDA in (12 20 34 38 51 52 61) then
I_cat=2;
else if sug_derehA=0 or (sug_derehA=. and SUG_REHEV_A in ("C" "F") ) then I_cat=3;
else I_cat=4;
*define I_cat;
if SUG_REHEV_A ="" then I_cat=1;
else if SUG_REHEV_A in ("B" "D" "E" "H" ) then I_cat=1;
else if SUG_REHEV_A in ("A" "C" "F" "G" ) and YEHIDA in (12 20 34 38 51 52 61) then
I_cat=2;
else if sug_derehA=0 or (sug_derehA=. and SUG_REHEV_A in ("C" "F") ) then I_cat=3;
else I_cat=4;
*complete missing values according to most probable category;
T_SUG_REHEV_A=SUG_REHEV_A;
if SUG_REHEV_A ="" then T_SUG_REHEV_A ="A" ;
T_sug_derehA=sug_derehA;
if sug_derehA=. then T_sug_derehA=0;
T_gender=gender;
if gender=. then T_gender=0;
T_age_c=age_c;
if age_c=. then T_age_c=3;
T_Injury_Month=Injury_Month;
if Injury_Month=. then T_Injury_Month=5;
T_month_4=ceil(T_Injury_Month/3);
T_Sug_p3 =Sug_p3 ;
if Sug_p3 =. then T_Sug_p3 =235;
T_Sug_nifga_A=Sug_nifga_A;
if Sug_nifga_A=. then T_Sug_nifga_A=1;
*categories according to lsmeans;
age_4=age_c;
if age_c in ( 4 5) then age_4=45;
YEHIDA_2=0;
if YEHIDA in (12 20 34 38 51 52 61) then YEHIDA_2=1;
run;
data for_comp;
set bit.For_multi out_fp_p;
run;
*run multinomial model and create xbeta for catching probabilities;
proc logistic data=for_comp;
class T_gender T_age_c T_month_4 yehida_2 T_sug_derehA T_Sug_p3 T_Sug_nifga_A
T_SUG_REHEV_A I_cat/param=glm;
48
model y_multi= T_age_c T_month_4 yehida_2| T_sug_derehA T_Sug_p3 T_Sug_nifga_A
/ rsquare link=glogit;
* where y_origin^='G_poli';
output out=out_p_mu xbeta=xbeta_mu;
run;
data out_p_mu;
set out_p_mu;
p_mu = exp(xbeta_mu)/(1+exp(xbeta_mu));
where _LEVEL_2='S_both' and for_calc=1;*keep only police data;
run;
I_cat
data for_comp2;
set bit.For_multi(where= (y_origin^='G_poli')) out_p_mu;
run;
*run trauma data model and create catching probabilities;
proc logistic data=for_comp2;
class T_gender T_age_c T_month_4 yehida_2 T_sug_derehA T_Sug_p3 T_Sug_nifga_A
T_SUG_REHEV_A I_cat/param=glm;
model y_multi= T_gender T_age_c yehida_2| T_sug_derehA T_Sug_p3 T_Sug_nifga_A
/ rsquare link=glogit;
output out=out_p_tr p=p_tr;
run;
data results;
set out_p_tr;
where for_calc=1;*keep only police data;
run;
%bg;
*Calculate mekadmei nipuach;
data nif;
set results;
p_TP=1-p_FP;
p_final_tr=p_TP/p_tr;
p_final_mu=p_TP/p_mu;
run;
*Calculate nifgaim estimates (sum = the yearly estimate of severe casualties;
title "final estimators";
proc means data=nif sum;
var p_final_tr p_final_mu;
run;
81
I_cat