הטכניון מכון טכנולוגי לישראל הפקולטה להנדסת תעשיה וניהול TECHNION -ISRAEL INSTITUTE OF TECHNOLOGY Faculty of Industrial Engineering and Management קריית הטכניון -חיפה 00333 Technion City - Haifa 32000 – Israel Statistics Laboratory 04-8292333, Fax: 04-8288699 פיתוח שיטת ניפוח לקבלת אמד נכון של מספר הנפגעים קשה בתאונות הדרכים בישראל מתוך המספרים המדווחים מאת :פרופ/ח אילה כהן ,ד"ר אטי דובא וד"ר ויקטוריה גיטלמן המחקר ממומן על ידי קרן המחקרים בענייני ביטוח ליד אגוד חברות הביטוח בישראל אוגוסט 0300 Tel כל הזכויות שמורות לחוקר/ים ולמוסד הטכניון למחקר ופיתוח בע"מ .כל המידע הכלול במסמך זה הוא קניינו הרוחני הבלעדי של מוסד הטכניון למו"פ בע"מ ואין להשתמש בו ,באופן חלקי או מלא ,אלא לאחר קבלת אישור בכתב מאת החוקר ו/או מוסד הטכניון למחקר ופיתוח בע"מ. למען הסר ספק מודגש בזאת כי החוקר ,מוסד הטכניון למחקר ופיתוח בע"מ והטכניון המכון הטכנולוגי לישראל -אינם ולא יהיו אחראים לכל פגיעה ו/או נזק ו/או הוצאות ו/או הפסד ,מכל סוג ומין, שנגרם א ו עלול להיגרם לרכוש ו/או לגוף ,כתוצאה ישירה או עקיפה ,למקבל הדו"ח או לצד ג' כלשהו, עקב דו"ח זה או בהקשר אליו ,לרבות בשל יישום האמור בו. 2 תוכן עניינים הקדמה 4........................ ................................ ................................ ................................ .0סקר ספרות 8.............. ................................ ................................ ................................ .1.1על הדיווח בישראל 8............................... ................................ ................................ .1.2מחקרים בארצות שונות על רמות תת הדיווח 6............................. ................................ .1.3שיטות תיקון שיושמו 9............................. ................................ ................................ .0בסיס נתוני המחקר 8.................................... ................................ ................................ .0הצגת מתודולוגית ה Capture-Recapture-ויישומה במחקר קודם לניפוח נתוני המשטרה 11 .4שיטת האמידה במחקר הנוכחי 16.................. ................................ ................................ .5אמידת מספר הנפגעים בשיטה של מחקר זה והשוואת הממצאים שהתקבלו בשתי השיטות 22................................ ................................ ................................ ................................ .8.1הנתונים 22........... ................................ ................................ ................................ .8.2משתני המודל 23................................... ................................ ................................ .8.3תוצאות הרצת המודל 24......................... ................................ ................................ .8.4מודל מסביר להערכת הסתברות הלכידה ע"י המשטרה 22............. ................................ .8.8השוואת הסתברויות לכידה בשתי השיטות עבור נתוני 28...................................... 2119 .8.6יצירת אמד למספר כולל של נפגעים קשה על סמך דיווח המשטרה ,עבור נתוני 31...... 2119 .8.2אמידת הנפגעים קשה כאשר מנפחים נתוני טראומה במקום נתוני משטרה ,או כאשר משתמשים לניפוח גם בנתוני המשטרה וגם בנתוני הטראומה 32............ ................................ .6סיכום ודיון 38.............. ................................ ................................ ................................ .6.1תועלות המחקר הנוכחי 38....................... ................................ ................................ .6.2הצעה להמשך מחקר :רווח סמך עבור המספר הכולל של נפגעים 38................................. מראי מקום 38................. ................................ ................................ ................................ נספח :תוכנת 41...................................... ................................ ................................ SAS 3 הקדמה ברישומים של נפגעים קשה בתאונות הדרכים יש חסר הנובע מסיבות שונות .לדיווח מוטעה על המספרים הנכונים של הנפגעים קשה יש השלכות שליליות .שכן ,תת-אמידה של המספרים עלולה להביא לאי-נקיטת אמצעים הנדרשים להקטנת היקף התאונות .משגה כזה עלול להביא גם להגדלת מספר התאונות .התוצאה היא לא רק נזקים אישיים בנפש וברכוש ,אלא גם עלות גדולה יותר לכיסוי נזקי התאונות .לפיכך ,יש חשיבות בהערכה נכונה של מספר הנפגעים .המחקר המתואר בדו"ח זה עונה על השאלה כיצד ניתן לאמוד את המספר הנכון של נפגעים קשה. בדו"ח תוצג שיטה אשר יישמנו לניפוח מספרי הנפגעים קשה בתאונות הדרכים בישראל המדווחים על-ידי המשטרה .הפיתוח התבסס על שלשה קבצי נתונים :קובץ "משטרה בלבד"" ,טראומה בלבד", ו"-משטרה וטראומה" .הקובץ השלישי כולל רישום נפגעים המופיעים הן בקובץ המשטרה והן בקובץ הטראומה .קבצים אלה (המתייחסים לשנת ,)2119הועמדו לרשותנו מהלמ"ס .השיטה מתבססת על פיתוחים שנעשו לאחרונה בתחום הסטטיסטיקה לפי עקרונות הידועים בשם.Capture-Recapture : השיטות פותחו במקור עבור מחקרים ביולוגיים שמטרתם הייתה לאמוד גודל אוכלוסייה ,כמו למשל, מספר דגים באגם .תהליך איסוף הנתונים נעשה בדרך הבאה" :לוכדים" בשלב ראשון דגים מהאגם ברשת ,רושמים את מספרם ומחזירים אותם לאגם לאחר שסומנו .בשלב שני ,שוב לוכדים ברשת מהאגם ,ורושמים הן את מספר הדגים שעתה נלכדו ולא נכללו בלכידה הראשונה ,והן את מספר אלה שנלכדו שוב .על בסיס שלושת המספרים אומדים את מספר הדגים הכולל המצוי באגם .לכן השיטה נקראת "לכידה ולכידה חוזרת" (.)Capture-Recapture שימוש בשיטה של Capture-Recaptureבוצע בעבר לאמידת המספר הנכון של תאונות/נפגעים מסוגים שונים ,כאשר ישנם מספר מקורות לנתוני התאונות ,למשל :תאונות דרכים ,תאונות עבודה, תאונות של ילדים ,פציעה עקב נשיכות של כלבים ,ועוד ( ;Sacks et al.,1989; Chiu et al., 1993 Rossignol, 1994; Johnson et al.,1997; Chang et al,1997; Roberts & Scragg, 1994). במחקר מקדים על בסיס נתוני שלושת הקבצים של שנת - 2119גיטלמן ודובא ( ,)2119בוצע ניתוח של הנתונים ,גם כן בדרך המבוססת על השיטה של .Capture-Recaptureבמחקר הנוכחי נעשתה הרחבה המהווה שיפור לשיטה הקודמת .אמנם ,לנתוני המחקר שתי השיטות מניבות כמעט אותה תוצאה .אולם ,מטרת מחקר זה לא הייתה מצומצמת אך ורק לקבלת אמד נכון לנתוני ,2119אלא לפתח שיטה שתשמש ליישומים אחרים .לתוכנה שנבנתה וההסבר של השיטות יש תועלת לתחומים שונים שבהם יש אפשרות שקיים חסר ברישום ויש צורך באמידה נכונה של מספר המקרים הרלבנטי. התוכנה אשר מובאת בנספח לדו"ח זה נכתבה אמנם ליישום השיטה על נתוני .2119אבל ,ללא קושי ,ניתן לבצע שינויים קטנים כך שניתן יהיה ליישמה לבעיה אחרת הדורשת ניפוח לקבלת אמד נכון. בסוף הדו"ח יצוין היתרון שהושג בהרחבה ,כמו גם הצעה להמשך מחקר זה. 4 .0סקר ספרות .0.0על הדיווח בישראל בישראל כמו בארצות אחרות הסטטיסטיקה הרשמית על מספרי הנפגעים בתאונות הדרכים מבוססת על רישומים של המשטרה .בעשור האחרון גדלה המודעות של החסר בדיווח זה ובעקבות זאת פותחו שיטות שונות לאמידה נכונה של מספרים אלה. כאמור ,בעיה זו אינה ייחודית לישראל .כבר ב Elvik & Mysen (1999) ,1888-הציגו את אחוזי הדיווחים של נפגעים בתאונות דרכים שנזקקו לאשפוז כפי שדווחו ב 48-מחקרים אשר בוצעו ב13- ארצות .אחוזים אלה נעו בין 21%עד ,99%כאשר ממוצע משוקלל של אחוזים אלה היה .38% אחוזים אלה חושבו על-ידי השוואת המספרים בהתאם לרישומי המשטרה ,לעומת הדיווח על בסיס מקורות מידע אחרים .המקורות האחרים אליהם התייחסו ב 48-המחקרים לא היו בהכרח מאותו סוג. במחקרים שונים ,כמו לדוגמה ) Amoros et al (2006) ,Elvik & Vaa (2004נמצא שבדרך כלל אחוז הדיווח היה גבוה יותר עבור נפגעים בתאונות של כלי רכב ,מעט נמוך עבור הולכי הרגל ,נמוך יותר לרוכבי אופנוע ,והכי נמוך לרוכבי אופניים .באופן כללי נמצא שרמת הדיווח נמוכה יותר כאשר משווים תאונות של רכב יחיד לעומת תאונות עם מספר כלי רכב מעורבים ,ובפרט כאשר מדובר ברכב על שני גלגלים. הבעיה העיקרית הנובעת מתת הדיווח ולכן יש צורך בתיקונה ,היא שהמספרים המדווחים משמשים בסיס לנקיטת פעולות בטיחות בדרכים .על חיזוק הצורך הגדול בדיווח מדויק נכתב בדוחות של האיחוד האירופי ב 2112-ולאחרונה ,גם ב .)ETSC, 2007; OECD/ITF, 2011) 2111-כל המאמרים המתייחסים לנושא מציינים כי האפשרות להשתמש בכמה מקורות מידע מגדילה את האפשרות לקבל אמידה מדויקת יותר. כהן במחקר מ )Cohen, 2004( 2114-השווה נתוני תאונות של הלשכה המרכזית לסטטיסטיקה עם נתוני חברת הביטוח "אבנר" שברישומיה תועדו כל כלי הרכב עם ביטוח חובה עד לשנת .2112נתוני הלשכה היו מהסוג הידוע בשם "תו דלת" .אלו כוללים רק רישום תאונות של המשטרה שבהן היו נפגעים ושבהן התקיימו תנאים מסוימים לגבי סוג העבירה בתאונה ,פער הזמן בין האירוע של התאונה והדיווח למשטרה ,מספר הנפגעים ,מספר כלי הרכב המעורבים בתאונה וכו' .בעקבות הפער בין שני מקורות המידע הועלו מספר תהיות לגבי טיב הרישומים הרשמיים אשר מפרסמת הלשכה. במחקרם ב 2114-פלג ואהרונסון-דניאל זיהו פערים משמעותיים בין המספרים שדווחו על-ידי המשטרה על מספר המאושפזים עקב תאונות דרכים לעומת הרישום של מרכז הטראומה ורפואה דחופה המנוהל במכון גרטנר ובו תיעוד של נפגעים שאושפזו ונפגעים אשר נפטרו בחדרי המיון .עד לשנת 2116נתוני מרכז זה כללו רישום על נפגעים שאושפזו מעשרה מרכזי טראומה ,אשר לפי אומדנים ,כללו קרוב ל 98%-מכל המקרים בארץ .המחקר הראה שלמשל בשנים 1889-2111 המספרים אשר דווחו על-ידי מרכז זה על בסיס דיווחים של 9בתי חולים בלבד מתוך 24בתי החולים בארץ ,היו גבוהים מאלו של המשטרה .זאת ,למרות שדיווחי המשטרה כללו את כל הארץ .לא מפליאה מסקנת מחברי המחקר שהחלטות על בטיחות חייבות להתבסס על נתונים ממספר מקורות. 8 בעקבות מחקרם של פלג ואהרונסון-דניאל ,בוצעה על-ידי הלשכה המרכזית לסטטיסטיקה ב2118- השוואה מפורטת של נתוני המרכז לטראומה והנתונים המשולבים של המשטרה (נתוני "תו דלת" וקובץ נוסף הקרוי "כללי עם נפגעים") .נתוני מרכז הטראומה לא כוללים זיהוי אישי ואלו הושלמו מהתיעוד של מסמכי בתי החולים .לאחר מכן התאימו בעזרת הזיהוי את הנתונים של מרכז הטראומה עם נתוני המשטרה .כך התקבלו שלושה קבצים :האחד שכלל 1341רשומות היה של מרכז הטראומה ,הקובץ המשולב כלל 4123רשומות וזה של המשטרה בלבד כלל 122621רשומות. במחקרם הביאו החוקרים פירוט סטטיסטי על כל קובץ מה תרם לתת-דיווח בקובץ זה .בין השאר מצאו החוקרים שמעל 911נפגעים שדווחו כפצועים קל ע"י המשטרה אושפזו למעלה מ 3-ימים. הלשכה המרכזית דווחה על 2826פצועים קשה ,בעוד כאשר נערכה אמידה של מספר זה על בסיס רישומי מרכז הטראומה שכללו 8בתי חולים ולקיחה בחשבון של בתי החולים הנוספים בארץ ,הוערך מספר זה כבין 3211ל .4611-החוקרים במאמר הגיעו למסקנה הברורה שברשומות המשטרה יש תת-דיווח של הנפגעים. דוח מפורט של קבוצת עבודה מהארגון הבינלאומי בראשות פרופסור International - Wegman ) - Traffic Safety Data and Analysis Group (IRTADאשר הוגש ב 2111-סקר את נושא דיווח הנפגעים ב 23-ארצות שונות שהשתתפו בסקר .אלו היו ארצות מתוך ארגון ה OECD-שכולן משתמשות בשיטות שונות לניצול מספר מקורות מידע על מנת לקבל אומדנים יותר נכונים על מספרי הנפגעים .ישראל היא בין הארצות הללו. אחת השאלות לגבי דיוק הדיווח קשורה בהגדרת סוג הפגיעה .כפי שהוצג בדו"ח ,קיימים הבדלים בהגדרות בין הארצות השונות ,כמו גם הבדלים במקורות הדיווח .כמצופה ,דוחות המשטרה היוו את מקור הנתונים העיקרי לדיווח על מספרי הנפגעים קשה בכל הארצות שהשתתפו בסקר .ברובן, הנתונים דווחו ברמה הארצית פרט לארצות גדולות במיוחד כמו אוסטרליה ,קנדה וארה"ב שדיווחן היה ברמה של אזור או מדינה .רק 18מתוך 23הארצות השתמשו בנתוני אשפוזים בבתי חולים כמקור מידע נוסף על נפגעים קשה .במספר ארצות כגון :אוסטרליה ,פינלנד ,גרמניה ,יפן ,צוין שלא הייתה נגישות לנתונים אלה .לעומת זאת ,ישראל צוינה בין הארצות עם גישה ושימוש בנתונים של בתי חולים לדיווח על פגיעות חמורות .כמו כן ,צוין שסה"כ רק 4ארצות ,מתוכן ישראל וכן הולנד, פינלנד ושוויץ ,משתמשות בנתונ ים מחברות ביטוח כמקור מידע נוסף .אולם ,כולן ציינו שנתונים אלה אינם בעלי אמינות גבוהה .רק ישראל והולנד צוינו בדו"ח על שימוש בתיעודי תמותה כמקור נוסף לתיקון דיווחי המשטרה .על השימוש בנתוני שירותי פינוי והצלה (מד"א בישראל) כמקור מידע נוסף על נפגעים בתאונות צוין שבעוד במספר ארצות נתונים אלה זמינים וכבר בשימוש לדיווח ,הרי ישראל רק מתכננת שימוש בעתיד במקור זה .לגבי ניסיון בשימוש משולב של נתוני בתי חולים ומשטרה עבור דיווח ,צוינו 16ארצות כבעלות ניסיון וביניהן ישראל. .0.0מחקרים בארצות שונות על רמות תת הדיווח לפי סקר שבוצע על ידי ) Derriks & Mak (2007על מדינות ה OECDלגבי תת הדיווח של נפגעי תאונות דרכים ,התאמת רשומות של נתוני משטרה עם רשומות בתי החולים מתבצעת באוסטריה, בריטניה ,שוודיה והולנד. 6 מחקר בקנדה בוצע בפרובינציה אחת בלבד ובו נמצאה התאמה בין רשומות המשטרה לבין בתי החולים ב 21%מהמקרים (.)Gutoskie ,2003 דוגמה לשימוש בשיטה הלא הסתברותית היא עבודתו של ) Stone (1984על נתונים מסקוטלנד. הקישור שנעשה בעבודה זו היה עבור שנת 1891בין נתוני 18תחנות משטרה לבין בתי חולים. הקישור בין הקבצים נעשה על בסיס אזור גיאוגרפי ,מין וגיל הנפגע ,סיווגו (נהג למשל) ,חומרת הפציעה ,יום ושעת הקבלה בבית החולים .לכל משתנה הוגדר תחום ערכים מתאים המצדיק את החיבור .לפי ) Stone (1984ל 21%מנתוני בתי החולים נמצאו רשומות שניתן היה להתאים לנתוני המשטרה .שימוש בשיטה אשר פיתח ) Stone (1984בוצע על ידי ) . Simpson (1996הוא התאים נתוני מדגם של 16בתי חולים בבריטניה על נפגעי תאונות דרכים עם נתוני המשטרה .עבור כמחצית מהנפגעים שהגיעו לבתי החולים נמצאו גם רשומות בדוחות המשטרה .לאותם מקרים הייתה הסכמה באבחנה הרפואית רק ב .26%הערכת המחבר על ידי השוואות של מאפייני הפגיעות והנפגעים שכדי לקבל מספרים נכונים יותר על המספר הארצי של הפגיעות החמורות יש להכפיל את המספר המדווח בפקטור של 2.26ואת מספר הפגיעות הקלות בפקטור של .1.2 בהולנד האמידה של נפגעים מבוצעת על-ידי התאמת רשומות המשטרה ובתי החולים .בגלל שמירת פרטיות החולים אין מידע על השמות .ההתאמות מתבצעות על ידי התאמת פרטים כמן תאריך לידה, מין ,ומועד התאונה .התאמות אילו מבוצעות כל חמש שנים והממצאים משמשים לאמידה עבור כל שנה ( .)Gutoskie ,2003על בסיס ההתאמות שבוצעו בין השנים 1882לבין 2113פתחו Reurings ) et al (2007שיטת תיקון לחישוב האמד השנתי המתוקן עבור השנים שבהן לא בוצעה התאמה בין רישומי שני המקורות. במחקר שנעשה על-ידי ) Rosman (1995על התאמות בין רישומי בתי החולים והמשטרה במערב אוסטרליה זוהו 81%מקרים כאשר השתמשו בזיהוי הנפגע על ידי קוד פונטי של שם משפחתו ,כמו גם הגיל ,מין ,תאריך התאונה וסוג הדרך .לולי השימוש בשמות ניתן היה לזהות רק .81%במחקר מאוחר יותר ) Lopez et al (2000בדקו באותו אזור את העקביות בדיווח של המשטרה לעומת הרישום במרכזי הטראומה לגבי תוצאות התאונה .מתוך 482מקרים של פגיעות ברישומי טראומה של שני בתי חולים רק 92%תאמו את רשומות המשטרה .המחקר אושש את ההשערות המקובלות על תת דיווח גדול יותר עבור פגיעות הולכי רגל (רק 29%היה מתועד במשטרה). ) Alshop & Langley (2001בדקו במחקרם על נתונים בניו-זילנד של שנת 1888את תת הדיווח של המשטרה ובפרט ,את הקשר בין מאפייני הפגיעות לבין רמת התת דיווח .לפי מחקרם ,עבור פחות משני שלישים מהנפגעים אשר אושפזו היה רישום בדוחות המשטרה ,ואחוזי הדיווח היו שונים כאשר השוו נפגעים לפי סיווגים כמו חומרת הפגיעה ,משך אשפוז ,גיל הנפגע ואזור גיאוגרפי של התאונה. במחקר על נתונים בצרפת ) Amoros et al (2006, 2007ביצעו בעזרת שיטה חצי אוטומטית התאמה בין נתוני משטרה לנתוני רישום טראומה באזור .Rhoneהמשתנים שהיוו בסיס לקישור היו יום וזמן התאונה ,מיקומה ,סוג הדרך ,מין ותאריך לידת הנפגע. 2 על נתונים בהונג-קונג בוצע מחקר על-ידי ) .Tsui et al (2009החוקרים העריכו את ההתאמה בין רישומי המשטרה על חומרת פגיעות ואורך האשפוז ,כאשר השוו את דוחות המשטרה עם אלו של בית החולים האזורי .לפי ממצאיהם היה הבדל משמעותי בין שני מקורות הדיווח ,כאשר במשטרה העריכו באופן יותר חמור את הפגיעה .כמו כן ,הם מצאו שהדיווח השגוי היה קשור במאפיינים שונים כמו למשל גיל הנפגע. .0.0שיטות תיקון שיושמו מקובלות כיום מספר שיטות לשימוש בכמה מקורות מידע כדי לקבל דיווח יותר נכון .מקובל להשתמש במונח ,LINKAGEכאשר המקור למונח זה היה המאמר של ) .Newcombe (1959מאמרו שימש בסיס לשימוש במספר מקורות מידע במחקרים רבים באפידמיולוגיה. מסווגים את השיטות לשיטה ידנית ,דטרמיניסטית והסתברותית .בשיטה הידנית מתבוננים ברשומות השונות ומחפשים התאמות ביניהן .זו שיטה גרועה שכן היא איטית ויש בה סיכוי גדול יחסית לטעויות. היא מעשית רק כאשר מדובר במספר רשומות קטן יחסית. גם לשיטה הדטרמיניסטית יש מגבלות .בשיטה זו ,הנעזרת במחשב ,מקשרים על-ידי התאמה בין רשומות ,כאשר ההתאמה מבוצעת לפי משתנה מסוים המתועד בשני המקורות (כמו מספר תעודת הזיהוי) .שיטה זו תלויה מאד באיכות התיעוד של המשתנה המתועד בשני המקורות ,ולעתים רחוקות היא ישימה .לכן ,יש עדיפות ליישם שיטות הסתברותיות. בשיטה ההסתברותית ,שתי הגישות לתיקון הן השיטה )CR( Capture Recaptureוניתוח רב משתני. את השיטה הראשונה מיישמים כאשר קיימים מספר מקורות מידע על אותה אוכלוסייה .התאמה בין המקורות מזהה רשומות משותפות ,וגם רשומות המופיעות במקור אחד אך לא באחרים .שיטה זו מקובלת ושימשה במחקרים רבים בעבר בתחומים אחרים כמו ביולוגיה ואפידמיולוגיה .בעשור האחרון החלו ליישמה גם במחקרים בתחום התחבורה לאמידת מספרי נפגעים .החיסרון בשיטה זו לגבי יישומה לנתוני תאונות הדרכים הוא שההנחות הבסיסיות בשיטה זו אינן תמיד תקפות עבור נתונים אלה .למשל :ההנחה שלכל פגיעה יש אותה הסתברות להיות מדווחת .דוגמא לכך ניתנה במחקרם של ) Javis et al (2000אשר ניתחו נתוני משטרה ובתי חולים עבור ילדים שנפגעו מכלי רכב .הם הראו הטרוגניות במובן זה שעבור גילים שונים של נפגעים היו הסתברויות שונות שידווחו כמו גם לסוגי פגיעה וסוגי דרך שונים .בדומה לכך ,גם ) Morrison & Stone (2000דנו שיש לנקוט בזהירות בשיטת תיקון זו. דרכים להתגבר על הבעייתיות ביישום השיטה של CRהוצעו על ידי Tersero & Andersson ) (2004וכן על-ידי ) .Amoros et al (2007הם יישמו את שיטת ה CRעל נתוני משטרה שחוברו לנתוני בית חולים ,דנו בכל הנחה שבבסיס השיטה ,והציעו דרכים מעשיות לטפל בנתונים כדי שיתאימו ליישום שיטת ה . CRלמשל ,כדי להתגבר על בעיית הנחת שוויון ההסתברויות Amoros et ) al (2007יישמו את השיטה על תת קבוצות שהוגדרו לפי חומרת פגיעה ,סוג הדרך ,ומעורבות צד שלישי .כמו כן ,הם ביצעו ניתוח רגישות ע"י יישום שלוש שיטות התאמה בין הקבצים. 9 לאחרונה Reurings & Stipdonk (2011) ,גם כן הציעו גרסה מתקנת לשיטת ה CRויישמו אותה לנתוני נפגעים בהולנד של השנים .1883-2119הם ביצעו ניתוח מעמיק על ההבדלים בין הרישום במשטרה לבין דוחות בתי החולים .לגבי 2119מסקנתם הייתה שהמספר החסר של פגיעות חמורות ברישום בתי החולים היה שולי יחסית למספר הכולל שהיה בערך .19111התוצאה של אי התחשבות בערכים חסרים אלה מביאה לטעות נמוכה יחסית למה שהיה מתקבל לו היו מוסיפים את המקרים אשר בדיווח המשטרה ולא היו ברישום בתי החולים. יישום השיטה של ניתוח רב משתני נעשה לדוגמה על ידי ) Amoros et al (2006עבור נתוני השנים 1882-2111באזור Rhoneאשר בצרפת .הם אמדו כפונקציה של מאפייני התאונה והפגיעה את ההסתברות שנפגע אשר נרשם ברישומי הטראומה יופיע גם בדוחות המשטרה .מסקנתם הייתה שבאופן כלל ,אחוז הדיווח של המשטרה היה 32.2%בלבד .הבדלים מובהקים באחוזים נמצאו כאשר בוצעו השוואות בהתאם לסוג הפגיעה ומאפייני התאונה .על ההבדלים הללו דווחו בעבר במחקריהם של ).Elvik & Mysen (1999) ,Hauer & Hakkert (1988 .0בסיס נתוני המחקר קבצי הנתונים למחקר זה הם אותם הנתונים ששימשו במחקר קודם של גיטלמן ודובא (.)2111 הקבצים התבססו על עבודה מקדימה של הלמ"ס -שילוב מידע מבתי חולים (רישום הטראומה) עם קובץ נתוני תאונות הדרכים של המשטרה ,בשנת . 2119הקבצים כוללים שלשה סוגי נתונים שהם: נתוני הקובץ המשולב "משטרה וטראומה" ,נתוני קובץ "טראומה בלבד" ,ונתוני קובץ "משטרה בלבד". קובץ "( Aמשטרה וטראומה") 8,343 -רשומות נפגעים הנכללים בקובץ המשטרה וגם בקובץ הטראומה; קובץ "( Bטראומה בלבד") 2,364 -רשומות נפגעים שמופיעים רק בקובץ הטראומה ולא נמצאו להן רשומות מקבילות בקובץ המשטרה; קובץ "( Cמשטרה בלבד") 829 -רשומות של פצועים קשה שנמצאו רק בקובץ המשטרה ולא נמצאו להן רשומות מקבילות בקובץ הטראומה. בנוסף ,היה נתון קובץ Dהמכיל 148רשומות של הרוגים שנמצאו רק בקובץ המשטרה ולא נמצאו להן רשומות מקבילות בקובץ הטראומה. הנתונים מקובץ הטראומה מתייחסים ל 12-בתי החולים בלבד (מתוך 23בתי החולים במדינה) .ע"פ הערכות ,קובץ זה מכסה יותר מ 91%-מהפצועים בתאונות הדרכים. הקבצים כוללים נפגעים מכל הארץ ,לרבות במחוזות יו"ש. 8 .0הצגת מתודולוגית ה Capture-Recapture-ויישומה במחקר קודם לניפוח נתוני המשטרה הבסיס לפתרון הבעיה של אמידת המספר הנכון של נפגעים הוא שימוש ברעיון של שיטת ה -CR .Capture Re-captureנתאר בקצרה את השיטה כדי להסביר את המחקר הנוכחי. השיטה מבוססת על שתי הנחות .ההנחה הראשונה היא שההסתברות ללכידה ( )Captureע"י מקור מסוים שווה עבור כל פרט באוכלוסייה .ההנחה השנייה היא ההומוגניות .אותה ניתן להסביר במספר דרכים ,שאותן נביא( .אם הנחה זו לא מתקיימת ,מחלקים את הנתונים לתת-קבוצות הומוגניות ועליהן מפעילים את השיטה). נגדיר: = Pנתוני משטרה (צהוב) = Hנתוני טראומה (כתום) = Pנתוני לא משטרה = Hנתוני לא טראומה מכאן: = PHנתונים שגם במשטרה וגם בטראומה (הקובץ המשולב) = PHנתונים שבטראומה בלבד = PHנתונים שבמשטרה בלבד = PHנתונים שלא במשטרה ולא בטראומה את הנתונים ניתן לתאר באופן הבא: PH PH PH PH דרך הצגה נוספת: P H H דרישת ההומוגניות הבסיסית היא שההסתברות ללכידה ( )Captureע"י מקור מסוים שווה עבור כל פרט באוכלוסייה ,ובנוסף פרופורציית הנפגעים (מתוך הקובץ המשולב) המדווחים גם ע"י המשטרה 11 מקרב הנפגעים המדווחים בקובץ טראומה ,שווה לפרופורציית הנפגעים המדווחים ע"י המשטרה מסך PH P כל התאונות .כלומר : H Total PH PH לעיתים ,הנחת ההומוגניות מנוסחת כ- P H PH . כלומר :היחס בין הנפגעים שלא מדווחים הן ע"י המשטרה והן ע"י טראומה ("התא החסר") ,לאלה שמדווחים ע"י המשטרה אך לא ע"י טראומה ("משטרה בלבד") ,שווה ליחס בין אלה שמדווחים ע"י טראומה אך לא ע"י המשטרה ("טראומה בלבד") לאלה שמדווחים ע"י טראומה ומשטרה (נתוני קובץ משולב). בניסוח זה מוגדרים ארבעה מקטעים זרים של הנתונים ,והקשרים ביניהם. נראה ששתי הנחות אלה אקוויוולנטיות. PH P H Total Total PH PH PH PH P PH PH ; H PH PH PH * PH PH PH PH PH PH * PH PH PH PH PH PH דרך אחרת להציג ולהבין את הנחת ה CR-היא: PH P ; H Total ˆ ) PH Total Pˆ r( P H ;) Pr( P / H H Total ) Pˆ r( H P ) Pˆ r( P Total ) CR Pˆ r( P / H ) Pˆ r( P הסיכוי לכך שנפגע כלשהו מתוך כל הנפגעים יופיע בקובץ הנפגעים של המשטרה ,נקרא גם הסיכוי שנפגע כלשהו מתוך כל הנפגעים יילכד ע"י המשטרה מתוך כל הנפגעים ( the police capture .)probability הסיכוי לכך שנפגע כלשהו מתוך כל הנפגעים יופיע בקובץ הנפגעים של הטראומה ,נקרא גם הסיכוי שנפגע כלשהו מתוך כל הנפגעים יילכד ע"י הטראומה מתוך כל הנפגעים ( the trauma capture .)probability הסיכוי לכך שבהינתן שנפגע כלשהו מופיע בין הנפגעים שנרשמו בקובץ טראומה (= נתון שנתפס תפיסה ראשונה) הוא יופיע גם בקובץ הנפגעים של המשטרה ,נקרא גם הסיכוי להילכד מחדש ע"י המשטרה (.)the police re-capture probability 11 הנחת ההומוגניות ,המכונה במסמך זה גם כהנחת ה )Capture-Recapture( RC-אומרת שהסיכוי לכך שנפגע כלשהו מתוך כל הנפגעים יילכד ע"י המשטרה ,שווה לסיכוי שאם נפגע כלשהו נלכד ע"י טראומה הוא יילכד גם ע"י המשטרה. מהנחת ה CR-נובע גם: PH P H Total 1 * Total P P * CF PH H where 1 1 ˆ PH ) Pr( P / H H CF כאשרCF = Correction Factor : כלומר ,מקדם התיקון לנתוני המשטרה ,אם מתקיימת הנחת ה ,RC-הוא 1חלקי פרופורציית הנפגעים בקובץ המשולב מתוך סך הנפגעים המדווחים ע"י רישום הטראומה ,שזה שווה בעצם ל1- חלקי ההסתברות המותנית של נפגע להיות מדווח ע"י המשטרה בהינתן שהוא דווח ע"י טראומה. ( Prמחושב באמצעות מודל ,משמש ) ˆ P / H כאשר ) ˆ P / H ( 1/ Prכגורם תיקון לנתוני המשטרה. דרך נוספת להבנת הנחת ה:CR- )ˆ P H (Pr ;) ˆ P / H ( Pr )ˆ H (Pr (ˆ P / H ) Pr )ˆ P (CR Pr (ˆ P H ) Pr (ˆ P) * Pr )ˆ H ( Pr כלומר ,הנחת ה CR-שקולה להנחת אי-תלות המקורות ,המשטרה והטראומה -ראה ,לדוגמה, .)1888( Tilling & Sterneבשל הנחה זאת ניתן לחשב את )ˆ P ( , Prכלומר ,את ההסתברות של נפגע להילכד ע"י המשטרה ,תוך שימוש בנתוני שלושת סוגי הנתונים (משטרה בלבד ,טראומה בלבד וחיתוך המשטרה והטראומה) ,ואז להשתמש בˆ P) - ( 1/ Prכגורם תיקון לנתוני המשטרה. כל אחת משתי הדרכים להבנת הנחת ה CR-מובילה לחישוב שונה של גורם התיקון לנתוני המשטרה: דרך א' -מובילה לפיתוח מודל לקביעת ) ˆ P / H ( , Prתוך שימוש בנתוני הטראומה ,ואז ניפוח נתוני המשטרה ע"י ) ˆ P / H (; 1/ Pr 12 דרך ב' -משתמשת בנתוני משטרה וטראומה לפיתוח מודל לקביעת )ˆ P ( , Prואז ניפוח נתוני משטרה על ידי )ˆ P (. 1/ Pr בדרך א' ,משתמשים בנתוני הטראומה ,הן מהקובץ המשולב והן מקובץ הטראומה בלבד ,לשם פיתוח מודל לקביעת ההסתברות ללכידת נפגע קשה ע"י המשטרה. בעבודה קודמת של גיטלמן ודובא ) (2011יושמה דרך א' .כלומר ,נתוני הטראומה ונתוני החיתוך של טראומה ומשטרה שימשו להערכת ההסתברות לדיווח על-ידי המשטרה ,כאשר ההנחה היא שההסתברות המותנית של דיווח על-ידי משטרה ,מותנה בכך שהיה דיווח על-ידי טראומה שווה להסתברות לדיווח על-ידי משטרה .לא נעשה שימוש בנתונים שדווחו על-ידי המשטרה בלבד (ולא דווחו על-ידי טראומה) ,אלא הם רק נופחו. בעבודה הנוכחית נוצלו שלושת חלקי המידע שיש :נתונים שדווחו על-ידי המשטרה והטראומה, נתונים שדווחו על-ידי הטראומה בלבד ונתונים שדווחו על-ידי המשטרה בלבד. על בסיס העיקרון של שיטה א' ,גיטלמן ודובא ) (2011פיתחו שני כלים אותם יישמו עבור הנתונים שתיארנו ,להערכת מספר נפגעים קשה בתנאי הארץ: (א) מודל False-Positiveהמחשב הסתברות לדיווח שגוי על נפגע קשה ע"י המשטרה והמאפשר ניכוי של מספר נפגעים קשה שזוהו ע"י המשטרה ולא אומתו ע"י רישום הטראומה (הנפגעים קל שבטעות זוהו כנפגעים קשה ע"י המשטרה); (ב) מודל להערכת ההסתברות להיות מזוהה כנפגע קשה ע"י המשטרה ,בהינתן שנפגע קשה נמצא ברישום הטראומה. מודל א' :מודל זה נעזר בארבעה משתנים מסבירים ,לפי הקטגוריות של סוג רכב ,סוג תאונה ,יום בשבוע ויחידת המשטרה. מודל ב' :להערכת ההסתברות להיות מזוהה כנפגע קשה ע"י המשטרה ,בהינתן שנפגע קשה נמצא בקבצי הטראומה .מודל זה מאפשר תיקון של תת-הדיווח בנתוני המשטרה -ניפוח מספר הנפגעים קשה שדווחו ע"י המשטרה בעזרת הנתונים מרישום הטראומה. לפיתוח מודל זה היה צורך לאתר גורמים המשפיעים על ההסתברות של נפגע קשה הנמצא בקובץ טראומה ,להיות מזוהה כנפגע קשה ע"י המשטרה .זו ההסתברות המותנית של תפיסה ע"י המשטרה בתנאי שהייתה תפיסה ע"י טראומה ,ומכונה כ"הסתברות תפיסה מחדש" ע"י המשטרה ( Recapture .)probabilityהגורמים המשפיעים עליה אותרו באמצעות מודל הקושר בין הגורמים להסתברות. ומתבסס על תצפיות מקבצי הטראומה .בסוף התהליך המודל אמור היה לפעול על נתוני המשטרה. לכן היה צורך באיתור מאפייני הנפגעים המשותפים לשני סוגי הקבצים .פיתוח המודל היה דו-שלבי. בשלב הראשון ,נבחנו קשרים בין מאפייני הנפגעים קשה בטראומה ובמשטרה ונמצאו משתנים כאלה שעשויים להיות משמעותיים בקביעת ההסתברות ללכידה (חוזרת) ע"י המשטרה ,כאשר הם ניתנים לשחזור מלא בנתוני הטראומה על סמך הנתונים בקובץ המשטרה .בשלב השני ,משתנים מלאכותיים כאלה (הקבצות קטגוריות של מאפייני הנפגעים) שנמצאו בשלב הראשון שימשו לצורך בחירת המודל 13 שעל-פיו נאמדו הסתברויות הלכידה ע"י המשטרה .לבחינת הקשרים בין מאפייני הנפגעים בטראומה ובמשטרה שימש הקובץ המשולב; לפיתוח מודל מסביר להסתברות להיות מדווח כנפגע קשה ע"י המשטרה שימשו נתונים משני קבצים :הקובץ המשולב וקובץ טראומה בלבד (סה"כ 8183רשומות על נפגעים קשה לפי הטראומה). להערכת הסתברות הלכידה ע"י המשטרה שימשו בסוף מאפיינים אלה :מגדר הנפגע ,קבוצת גיל הנפגע ,י חידת המשטרה ,סוג דרך ,סוג תאונה ,סוג נפגע ,וקטגוריות נפגע המשקפות בעיקר את סוג הרכב בו נסע הנפגע. שני המודלים במחקר היו של רגרסיה לוגיסטית. יצירת אמד למספר כולל של נפגעים קשה על סמך דיווח המשטרה: שתי פעולות בוצעו במחקר של גיטלמן ודובא ) (2011לאמידת המספר הכולל של נפגעים קשה ,על סמך קובץ המשטרה, (א) תוקנו מקרי ה - False Positive-מקרים של דיווח שגוי ע"י המשטרה ,בעזרת מודל א'; (ב) נופחו מספר המקרים שנותר על סמך הסתברויות הלכידה ע"י המשטרה ,בעזרת מודל ב'. לכל רשומה של נפגע קשה שדווח ע"י המשטרה ,חושב ערך p_finalהמהווה "מספר כולל" (או אמיתי) של נפגעים קשה עם מאפיינים אלה שאמור להיות בקובץ המשטרה .ערך זה נאמד באופן הבא: )p_final = p_TP * (1/p_catch p_TP = 1 - p_FP כאשר - p_TPהסתברות לדיווח נכון ע"י המשטרה (;)TP - true-positive - p_FPהסתברות לדיווח שגוי ע"י המשטרה ( ,)FP - False Positiveלפי מודל א'; - p_catchהסתברות לכידה ע"י המשטרה ,לפי מודל ב'. הגדלים הללו ( ) p_finalסוכמו על פני כל הנפגעים קשה שבקובץ המשטרה וכך התקבל אמד למספר הכולל של נפגעים קשה ,בשנה מסוימת. נצטט את הדוגמה שהובאה במחקר של גיטלמן ודובא ( )2111לגבי ההיגיון שבשיטה הנ"ל .הדוגמה נבנתה למקרה פשוט בו לכל הנפגעים יש אותה ההסתברות להיות מדווח נכון ולכולם אותה הסתברות הלכידה .נניח שבקובץ נפגעים קשה של המשטרה היה דיווח על 111נפגעים ,והסיכוי ל- true-positiveלכל נפגע היה ,1.8אזי מצפים ל 81-נפגעים קשה שדווחו נכון .אם מניחים גם למשל שהסתברות הלכידה של נפגע קשה אמיתי ע"י המשטרה היא ,1/3הרי שכל אחד מ 81-הנפגעים של המשטרה מייצג 3נפגעים אמיתיים .מכאן מנבאים שסה"כ יש 221נפגעים קשה .לכן ,ניתן לומר שכל נפגע הוא בעצם 1.8לפי הסתברות ה ,TPושה 1.8-נפגע מיצג ) 2.2 =0.9*1/(1/3נפגעים; חיבור גודל זה על פני כל 111הנפגעים מקובץ המשטרה ,נותן את האומדן של 221נפגעים כמספר כולל. 14 למעשה ,ערך ה p_TP-מהווה מקדם תיקון ,בעוד שערך ה (1/p_catch)-מהווה מקדם ניפוח -לכל רשומה של נפגעים קשה בקובץ המשטרה. בשיטה זו בוצעה הערכה של המספר הכולל של נפגעים קשה בשנת 2119והתקבלו תוצאות כלהלן: מספר הנפגעים קשה שדווח ע"י המשטרה היה ;2211=N בעקבות הפעלת מודל א' והסתברויות ה ,TPמספר הנפגעים קשה תוקן ל;2111= NTP - בעקבות הפעלת מודל ב' של הסתברות הלכידה ע"י המשטרה המספר הכולל של נפגעים קשה עלה ל.6709= Nfinal - לפי הערכת החוקרות באותו מחקר בממוצע 86% ,מהנפגעים קשה של המשטרה היו מדווחים נכון, כאשר המספר האמתי של נפגעים קשה בתאונות היה גבוה פי 3.18לעומת דיווח המשטרה. מחקרן גם הראה שהחסרים בדיווחי המשטרה אינם אחידים .בעוד המספר הכולל של נפגעים קשה היה ,בממוצע ,גבוה פי 3לעומת דיווח המשטרה ,הרי ,לדוגמא ,המספר האמיתי של נפגעים קשה הולכי רגל היה ,לפי הערכתן ,גבוה פי 2.8לעומת דיווח המשטרה ,בעוד שהמספר הכולל של נפגעים קשה רוכבי אופניים גבוה פי .8.8 בין נפגעים קשה הולכי רגל ,תת-דיווח מרבי נמצא בקרב הנפגעים בצומת עירוני (המספר האמיתי של נפגעים קשה גבוה פי 2.9לעומת המספר המדווח ע"י המשטרה) ובקרב ילדים עד גיל ( 14המספר האמיתי של נפגעים קשה גבוה פי 3לעומת המספר המדווח ע"י המשטרה). 18 .4שיטת האמידה במחקר הנוכחי כפי שצוין ,בעבודה זאת ניצלנו את שלושת חלקי המידע שיש .כלומר :נתונים שדווחו גם על-ידי המשטרה וגם על-ידי הטראומה ,נתונים שדווחו על-ידי הטראומה בלבד ונתונים שדווחו על-ידי המשטרה בלבד. השיטה לאמידת המספר הנכון מבוססת על המודל המולטינומי ) .(Alho,1990; Tilling, 1999בסעיף זה נפרט את השיטה . ניתן להציג את הנתונים בצורה הבאה: משטרה טראומה אין נתונים יש נתונים סה"כ אין נתונים N0 N1 N0+N1 יש נתונים N2 N3 N2+N3 סה"כ N0+N2 N1+N3 N0+N1+N2+N3 נסמן ב i1 -את ההסתברות שנבדק i יופיע ברשומת הטראומה ,בi2 - את ההסתברות שנבדק i יופיע ברשומת המשטרה ,ב i3 -את ההסתברות שנבדק iיופיע הן ברשומת הטראומה והן ברשומת המשטרה וב i0 -את ההסתברות שנבדק iלא יופיע באף אחת משתי הרשומות .כל אחת מההסתברויות הללו תלויה בקבוצת משתנים מסבירים .את וקטור ערכי המסבירים לנבדק iנסמן ב- . x iסביר להניח בהינתן וקטור המסבירים ,שיש אי-תלות בין ההסתברות לנבדק להיות רשום ברשומה האחת ,לבין ההסתברות להיות כלול ברשומה השנייה .לכן: ]) i0 (x i ) [1 i1 (x i )][1 i2 (x i ) i3 (x i ) i1 (x i )i2 (x i להתפלגות של משתנה קטגורי מקובל השימוש במודל הלוגיסטי .לפי זה: j=1,2 ) exp( j k 'j x i ) 1 exp( j k 'j x i ij (x i ) ולכן: 1 1 i0 (x i ) ' ' 1 exp( 1 k1x i ) 1 exp( 2 k 2 x i ) 16 exp( 1 k1' x i ) exp( 2 k 2' x i ) i3 (x i ) ' ' 1 (exp k x ) 1 (exp k x ) 1 1 i 2 2 i k1' k 2' x i k 2' x i ) 2 2 1 ( k1' x i ) 1 exp 1 exp (1 exp אין בידינו את הנתון .N0כלומר ,הידע על מספר הנבדקים שאינם מופיעים באף רשומה .אולם אמידת הפרמטרים המבוקשים מתאפשרת על-ידי שימוש בconditional maximum likelihood- שהיא הנראות המותנית בכך שנבדק מופיע ברשומה כלשהי .כפי שהוכח במאמר Sanathanan ) ,(1972אמדי הפרמטרים שמתקבלים שווים אסימפטוטית לאלה המתקבלים על-ידי שימוש ב- .maximum likelihoodמעשית פרושו שמשתמשים בנתונים רק של נבדקים המופיעים ברשומות ונבדקים אלה מחולקים לשלוש קטגוריות. פונקצית הנראות המולטינומית לוגיסטית המותנית כוללת הסתברויות מותנות בלבד של שלוש הקטגוריות .בגלל ההתנייה ,נבדק יכול להיות שייך לאחת משלוש קטגוריות :או שהוא אך ורק כלול ברשומת הטראומה ולא במשטרה ,או שהוא כלול אך ורק ברשומת המשטרה ולא בטראומה ,או שהוא כלול בשתי הרשומות. ב p i1 -את ההסתברות המותנית שנבדק iיופיע ברשומת הטראומה בלבד, נסמן ההסתברות המותנית שנבדק iיופיע ברשומת המשטרה בלבד, ובpi3 - בp i 2 - את את ההסתברות המותנית שנבדק iיופיע בשתי הרשומות .לכן: 3 p (x ) 1 i ij j1 לפי הגדרות אלה: ]) i1 (x i )[1 i2 (x i ) i1 (x i )[1 i2 (x i )] i2 (x i )[1 i1 (x i )] i1 (x i )i2 (x i ]) ) (k1' x i k '2 x i 2 ]) ) (k1' x i k '2 x i 2 pi1 (x i ) ) exp( 1 k1' x i exp( 1 k1' x i ) exp( 2 k '2 x i ) exp[( 1 1 ) exp( 2 k '2 x i pi2 (x i ) ([exp( 1 k1' x i ) exp( 2 k '2 x i ) exp 12 ]) exp[( 1 2 ) (k1' x i k '2 x i pi3 (x i ) ]) exp( 1 k1' x i ) exp( 2 k '2 x i ) exp[( 1 2 ) (k1' x i k '2 x i נפרט ,כמו במאמר של ) Tilling (1999את דרך האמידה על-ידי שימוש בשיטת האמידה של מודל מולטינומי לוגיסטי. נחלק את המונה והמכנה של כל אחד מהביטויים שלמעלה בביטוי k1' x i ) : 1 k '2 x i 2 k '2 x i 2 k '2 x i 2 k '2 k1' x i exp k '2 k1' x i 1 2 k '2 x i 1 k '2 k1' x i exp 2 1 2 exp 2 exp k '2 k1' x i exp 1 1 exp 2 1 exp 1 exp . exp( 1מתקבל: pi1 (x i ) pi2 (x i ) pi3 (x i ) במחקר זה בוצעה האמידה של המודל generalized logit model -בעזרת הפרוצדורה LOGISTICשל ,SASעל-ידי שימוש באופציה link=glogitב .model statement-המודל הוא לוגיסטי מוכלל ( ,)generalized logit modelעם שלוש קטגוריות ,כאשר אחת מהן ,הינה קטגורית הייחוס .אם נבחר כקטגורית הייחוס את קטגוריה ( ,1קובץ טראומה) נקבל שההסתברויות לקבלת קטגוריה jהן: j=1 j=2,3 1 ' ) 1 exp( x ) exp( ' x 2 2 i 3 3 i pij (x i ) ' ) exp( j j x i ) 1 exp(2 2' x i ) exp(3 3' x i השוואת הביטויים להסתברויות j=1,2,3 1 2 ) pij (x iמראה ש: 2 2 k 2 k1 2 3 3 k 2 ראינו ש: 19 1 1 i0 (x i ) ' ' 1 exp( 1 k1x i ) 1 exp( 2 k 2 x i ) j=1,2 ניתן גם לכתוב ביטוי זה : = ]) k 2' x i 2 ] exp[( 2 1 ) (k 2' k1' )x i i0 (x i ) ({exp[( 2 1 ) (k 2' k1' )x i ] exp( 2 k 2' x i )}[1 exp ) exp(2 2' x i ]) 2' x i exp(3 3' x i ) [1 exp(3 3' x i 2 exp בהתאם לסימון שלנו ,ההסתברות להיכלל ברשומת המשטרה היא: ) exp( 2 k 2' x i i2 (x i ) ) 1 exp( 2 k 2' x i ולכן בסימון לפי המודל המולטינומי לוגיסטי: ) exp(3 3' x i i2 (x i ) ) 1 exp(3 3' x i לכן ,לכל נבדק ברשומת המשטרה ,ניתן לאמוד את ההסתברות להיכלל ברשומה זו: ) exp(ˆ 3 ˆ 3' x i ˆ i2 (x i ) ) 1 exp(ˆ ˆ ' x i 3 3 בהתאם לכך ,ייאמד מספר הנפגעים המבוסס על רשומת המשטרה על ידי: 1 ) ˆ i2 (x i N2 N3 ˆ N i 1 לסיכום: במודל המולטינומי ,שנאמוד כאשר טראומה היא קטגורית הייחוס ,אזי: הקטגוריה ' 'S_trauהיא קטגורית הייחוס (קטגוריה 1לפי הסימון הקודם), הקטגוריה ' 'S_poliהיא הקטגוריה השניה (קטגוריה 2לפי הסימון הקודם), הקטגוריה ' 'S_bothהיא הקטגוריה השלישית (קטגוריה 3לפי הסימון הקודם). החותך ומקדמי הרגרסיה של המשתנים המתאימים לקטגוריה ' 'S_bothבgeneralized logit - modelהם ˆ 3ו , ˆ 3 -בהתאמה. למעשה SASמסדר את הנתונים בסדר הבא: 18 = Response Profile Ordered Value y_multi 1 2 3 Total Frequency S_both S_poli S_trau 1607 528 3546 Logits modeled use y_multi='S_trau' as the reference category. אם המטרה היא לאמוד את מספר הנפגעים.' היא קטגורית הייחוס כנדרשS_trau' הקטגוריה : אזי נשתמש בנוסחה.ידי השלמת המספרים החסרים בקובץ המשטרה-הכללי על ˆ N N2 N3 i 1 'S_both' משתמשים בחותך ומקדמי המשתנים של הקטגוריה 1 ˆ i2 (x i ) ˆ i2 (x i ) לאמידת ההסתברויות : בנוסחהˆ 3 - וˆ 3 -(בעלת הערך המסודר הראשון) שהם ˆ i2 (x i ) exp(ˆ 3 ˆ 3' x i ) 1 exp(ˆ ˆ ' x ) 3 3 i :' היא קטגורית הייחוסS_trau' במודל המולטינומי שבו הקטגוריה,כלומר exp(ˆ s _ both ˆ s' _ both x i ) ˆ i _ police (x i ) 1 exp(ˆ s _ both ˆ s' _ both x i ) :מכאן exp(ˆ s _ both ˆ s' _ both x i ) ' ˆ ˆ 1 exp( x ) s _ both s _ both i logit ˆ i _ police (x i ) log = ' ˆ ˆ exp( x ) s _ both s _ both i 1 ' ˆ 1 exp(ˆ s _ both s _ both x i ) exp(ˆ s _ both ˆ s' _ both x i ) ' 1 exp(ˆ s _ both ˆ s _ both x i ) ˆ ˆ' log = log exp(s _ both s _ both x i ) = 1 ' 1 exp(ˆ s _ both ˆ s _ both x i ) ˆ ˆ ' x s _ both s _ both i נדגיש את ההבדל בין הגישה הנוכחית (המשופרת) לבין הגישה אשר בעבודתן של גיטלמן ודובא ) ומשטרה וטראומהS_trau( טראומה: במודל שלהן הן התייחסו למעשה לשתי קבוצות.)2111( 21 ( .)S_bothלכן ,המודל היה בינומי ,ובו הצלחה הוגדרה כהופעת תצפית בקטגורית ,S_bothוכישלון הוא הופעת תצפית בקטגורית .S_trauהסתברות הופעה בקובץ המשטרה הייתה ההסתברות להופעת התצפית בקטגורית ( S_bothזה מקרה פרטי של מודל מולטינומי עם שתי קטגוריות בלבד: קטגוריית יחוס ,S_trauוקטגוריה S_bothשאת ההסתברויות שלו ממדלים על ידי generalized - .)logit modelבמקרה זה ,שבו יש רק שתי קטגוריות ,המודל מתלכד עם המודל הלוגיסטי הפשוט. 21 .5אמידת מספר הנפגעים בשיטה של מחקר זה והשוואת הממצאים שהתקבלו בשתי השיטות .5.0הנתונים בשלב ראשון נבנה מודל מסביר להסתברות להיות מדווח כנפגע קשה ע"י המשטרה .כלומר ,סוננו מקובץ פוטנציאלי של משתנים מסבירים אותם משתנים שתרומתם לאמידת ההסתברות הייתה מובהקת סטטיסטית .לבניית המודל שימשו נתונים משני קבצים :הקובץ המשולב וקובץ טראומה בלבד (סה"כ 5050רשומות על נפגעים קשה לפי הטראומה). נעשה שימוש בכל נתוני הנפגעים קשה שדווחו ע"י רישום הטראומה ,כולל יו"ש .הסיבה לכך היא שהתפלגות ערכי המשתנה HUMRAT_PGIA_LMSדומה מאד כאשר משווים את הנתונים עם ובלי יו"ש. לכן התוצאות עם ובלי נתונים אלה אמורות להיות מאד דומות ,ופירוש הדבר שלא קיים סיכון של אי- דיוק משמעותי עקב אי-ההפרדה של הנתונים. מהקובץ המשולב Aשימשו לפיתוח המודל )161281839( 0545 -רשומות .מתוכן: 1612נפגעים קשה שהמשטרה זיהתה נכון; 1839נפגעים קשה שלא הופיעו בקובץ המשטרה כנפגעים קשה אך הופיעו בקובץ הטראומה כנפגעים קשה. מכיוון שסיווג הפציעה הינו לפי קובץ הטראומה ,הרי שתצפיות אלה ,למרות שהן מופיעות בקובץ המשולב ,הן בעצם שייכות לקבוצת התצפיות שיש לסווג כרשומות בקובץ הטראומה בלבד. המשמעות המעשית היא ,שכאשר השלמנו משתנים מסבירים מקבצי הטראומה והמשטרה אזי תצפיות אלה נחשבו כתצפיות המופיעות הן בנתוני המשטרה והן בנתוני הטראומה .אולם ,בחישוב הסיכוי לתפיסה כפצוע קשה על-ידי המשטרה ,התייחסנו אליהן כתצפיות השייכות לקובץ "טראומה בלבד". בקובץ טראומה בלבד ( )Bהיו 0631תצפיות שהתאימו להגדרה האדמיניסטרטיבית של "נפגע קשה" .לכן ,סך הכול.8183 = 1619 8 0545 : לנתונים אלה ,נוספו למחקר 829נתוני המשטרה בלבד. לכן ,סך הכול במחקר הנוכחי בסיס המחקר כלל .8691= 829 8 8183 :כאשר החלוקה היא: – 829נתוני "משטרה בלבד"; – )3846( 1839 8 1619נתוני "טראומה בלבד"; – 1612נתוני "טראומה ומשטרה". נעיר שהמשטרה דיווחה על 2211=16238829נפגעים קשה .אבל מתוך 1623הנפגעים שבקובץ המשולב נמצא שרק 1612הם נפגעים קשה ו 66 -הם ,false positiveכלומר פצועים שדווחו כקשים על-ידי המשטרה אבל למעשה היו קלים. 22 ניתן לסווג את הנתונים לפי ארבעה סוגים: נתוני "נפגעים קשה משטרה בלבד" מקובץ משטרה בלבד; נתוני "נפגעים קשה טראומה בלבד" מקובץ טראומה בלבד; נתוני "נפגעים קשה משטרה וטראומה מהקובץ המשולב" שהם למעשה נתונים שהמשטרה והטראומה דווחו עליהם והסכימו לגבי כך שהנפגע הוא קשה; נתוני "נפגעים קשה טראומה בלבד" נוספים שהם נתונים שמצויים הן ברשומות הטראומה והן ברשומות המשטרה אבל ברשומות הטראומה הם מופיעים כקשה וברשומות המשטרה הם לא מוגדרים כנפגעים קשה .מכיוון שהסיווג הקובע של פציעה של נפגע הוא לפי הטראומה הרי שנפגעים אלה הם נפגעים קשה שמופיעים ברשימת הנפגעים קשה של טראומה אך לא של משטרה. מאחר ונפגעים אלה לא מופיעים ברשימת המשטרה של נפגעים קשה ,אזי למעשה יש להתייחס לנתונים אלה כשייכים לנפגעי טראומה בלבד. .5.0משתני המודל א .המשתנה התלוי זהו משתנה מולטינומי ,כאשר שלוש הקטגוריות הן: משטרה 829( S_poli -תצפיות), טראומה 1619( S_trau -תצפיות), משולב 1612( S_both -תצפיות). ב .משתנים מסבירים בוצעה השלמה של ערכים חסרים במאפייני הנפגעים .להלן פרוט המשתנים: )1מגדר T_Gender - )2קבוצות גיל T_age_c - - 1בני 1-14 - 2בני 18-24 - 3בני 28-84 - 4בני 88-64 - 5בני 868 )3הרבעון שבו ארעה התאונה T_month_4 - )4בית חולים-יחידה Yehida_2 )8סוג דרך T_sug_derehA - - 0עירונית - 1לא עירונית 23 )6סוג תאונה Sug_p3 - - 1פגיעה בהולך רגל - 4רכב יחיד - 235התנגשויות בין כלי רכב או אחר )2סוג נפגע T_Sug_nifga_A - - 1הולך רגל - 2נהג רכב - 3נוסע ברכב - 6נהג אופניים - 45נהג/נוסע אופנוע - 789אחר )9סוג רכב בו נסע הנפגע T_SUG_REHEV_A - - I_cat )8קטגוריות נפגע המשקפות בעיקר את סוג הרכב בו נסע הנפגע .המשמעויות לקטגוריות נפגע ( )I_catהן: - 1כאשר סוג רכב ( Bרכב משא מעל 11טון)( D ,אוטובוס)( E ,אופניים) או ( Hרכב עבודה, טרקטור ,רכבת או אחר); - 2כאשר סוג רכב ( Aרכב פרטי ,או מסחרי ,או משא עד 11טון ,או אוטובוס זעיר)( C ,אופנוע, לסוגיו)( F ,פגיעה בהולך רגל ,אין סוג רכב בו היה הנפגע) או ( Gמונית) ויחידת המשטרה,21 ,12 : 82 ,81 ,39 ,34או ;61 - 3כאשר סוג דרך "עירונית" ,או סוג דרך לא ידוע וסוג רכב Cאו ;F - 4ביתר המקרים. .5.0תוצאות הרצת המודל The LOGISTIC Procedure BIT.FOR_MULTI y_multi 3 generalized logit Newton-Raphson 5681 5681 Model Information Data Set Response Variable Number of Response Levels Model Optimization Technique Number of Observations Read Number of Observations Used Response Profile Total y_multi Frequency S_both 1607 S_poli 528 S_trau 3546 24 Ordered Value 1 2 3 Logits modeled use y_multi='S_trau' as the reference category. R-Square 0.1595 Max-rescaled R-Square Type 3 Analysis of Effects Wald Effect DF Chi-Square T_age_c 8 48.3296 T_month_4 6 30.2984 YEHIDA_2 2 75.3306 T_sug_derehA 2 93.7598 YEHIDA_2*T_sug_dereh 2 42.4923 T_Sug_p3 4 14.0380 T_Sug_nifga_A 10 41.4975 I_cat 6 80.1995 0.1932 Pr > ChiSq <.0001 <.0001 <.0001 <.0001 <.0001 0.0072 <.0001 <.0001 Analysis of Maximum Likelihood Estimates Parameter Intercept Intercept T_age_c T_age_c T_age_c T_age_c T_age_c T_age_c T_age_c T_age_c T_age_c T_age_c T_month_4 T_month_4 T_month_4 T_month_4 T_month_4 T_month_4 T_month_4 T_month_4 YEHIDA_2 YEHIDA_2 YEHIDA_2 YEHIDA_2 T_sug_derehA T_sug_derehA T_sug_derehA T_sug_derehA YEHIDA_2*T_sug_dereh YEHIDA_2*T_sug_dereh YEHIDA_2*T_sug_dereh YEHIDA_2*T_sug_dereh YEHIDA_2*T_sug_dereh YEHIDA_2*T_sug_dereh YEHIDA_2*T_sug_dereh YEHIDA_2*T_sug_dereh T_Sug_p3 T_Sug_p3 T_Sug_p3 T_Sug_p3 T_Sug_p3 T_Sug_p3 T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A 1 1 2 2 3 3 4 4 5 5 1 1 2 2 3 3 4 4 0 0 1 1 0 0 1 1 0 0 0 0 1 1 1 1 1 1 4 4 235 235 1 1 2 2 3 3 6 6 45 45 0 0 1 1 0 0 1 1 y_multi S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli 28 DF 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0 0 0 0 0 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 Estimate 0.4567 -1.9653 -0.4685 -1.0171 -0.0286 -0.1404 -0.2611 -0.2748 -0.0228 -0.4689 0 0 0.2086 0.4917 0.1230 -0.1836 0.0682 -0.0222 0 0 2.4401 3.6809 0 0 -0.7089 -0.4607 0 0 -2.0464 -2.7566 0 0 0 0 0 0 0.6451 0.9172 0.0728 -0.2277 0 0 -2.0033 -2.1467 -2.0688 -1.6981 -2.1785 -1.6180 -2.0084 -1.5640 -1.6939 -1.3595 Standard Error 0.6223 0.8600 0.1252 0.2028 0.1200 0.1733 0.1139 0.1634 0.1435 0.2251 . . 0.0963 0.1356 0.0898 0.1419 0.0907 0.1382 . . 0.3703 0.4305 . . 0.0896 0.1426 . . 0.3984 0.4685 . . . . . . 0.2635 0.4160 0.0839 0.1290 . . 0.5659 0.8513 0.5034 0.7444 0.5045 0.7440 0.4992 0.7464 0.5108 0.7559 Wald Chi-Square 0.5385 5.2220 14.0069 25.1557 0.0566 0.6557 5.2586 2.8298 0.0252 4.3381 . . 4.6936 13.1400 1.8759 1.6742 0.5651 0.0257 . . 43.4279 73.0949 . . 62.5987 10.4349 . . 26.3789 34.6134 . . . . . . 5.9917 4.8618 0.7529 3.1159 . . 12.5310 6.3590 16.8893 5.2036 18.6454 4.7297 16.1896 4.3908 10.9976 3.2347 Analysis of Maximum Likelihood Estimates Parameter T_Sug_nifga_A T_Sug_nifga_A I_cat I_cat I_cat I_cat I_cat I_cat I_cat I_cat 789 789 1 1 2 2 3 3 4 4 y_multi S_both S_poli S_both S_poli S_both S_poli S_both S_poli S_both S_poli DF 0 0 1 1 1 1 1 1 0 0 Estimate 0 0 0.00844 0.9431 1.0711 2.0200 1.4083 1.8659 0 0 Standard Error . . 0.3566 0.3849 0.3812 0.4436 0.4110 0.4836 . . Analysis of Maximum Likelihood Estimates Parameter y_multi Pr > ChiSq Intercept S_both 0.4631 Intercept S_poli 0.0223 T_age_c 1 S_both 0.0002 T_age_c 1 S_poli <.0001 T_age_c 2 S_both 0.8119 T_age_c 2 S_poli 0.4181 T_age_c 3 S_both 0.0218 T_age_c 3 S_poli 0.0925 T_age_c 4 S_both 0.8738 T_age_c 4 S_poli 0.0373 T_age_c 5 S_both . T_age_c 5 S_poli . T_month_4 1 S_both 0.0303 T_month_4 1 S_poli 0.0003 T_month_4 2 S_both 0.1708 T_month_4 2 S_poli 0.1957 T_month_4 3 S_both 0.4522 T_month_4 3 S_poli 0.8726 T_month_4 4 S_both . T_month_4 4 S_poli . YEHIDA_2 0 S_both <.0001 YEHIDA_2 0 S_poli <.0001 YEHIDA_2 1 S_both . YEHIDA_2 1 S_poli . T_sug_derehA 0 S_both <.0001 T_sug_derehA 0 S_poli 0.0012 T_sug_derehA 1 S_both . T_sug_derehA 1 S_poli . YEHIDA_2*T_sug_dereh 0 0 S_both <.0001 YEHIDA_2*T_sug_dereh 0 0 S_poli <.0001 YEHIDA_2*T_sug_dereh 0 1 S_both . YEHIDA_2*T_sug_dereh 0 1 S_poli . YEHIDA_2*T_sug_dereh 1 0 S_both . YEHIDA_2*T_sug_dereh 1 0 S_poli . YEHIDA_2*T_sug_dereh 1 1 S_both . YEHIDA_2*T_sug_dereh 1 1 S_poli . T_Sug_p3 1 S_both 0.0144 T_Sug_p3 1 S_poli 0.0275 T_Sug_p3 4 S_both 0.3856 T_Sug_p3 4 S_poli 0.0775 T_Sug_p3 235 S_both . T_Sug_p3 235 S_poli . T_Sug_nifga_A 1 S_both 0.0004 T_Sug_nifga_A 1 S_poli 0.0117 T_Sug_nifga_A 2 S_both <.0001 T_Sug_nifga_A 2 S_poli 0.0225 T_Sug_nifga_A 3 S_both <.0001 T_Sug_nifga_A 3 S_poli 0.0296 T_Sug_nifga_A 6 S_both <.0001 T_Sug_nifga_A 6 S_poli 0.0361 T_Sug_nifga_A 45 S_both 0.0009 T_Sug_nifga_A 45 S_poli 0.0721 T_Sug_nifga_A 789 S_both . T_Sug_nifga_A 789 S_poli . I_cat 1 S_both 0.9811 I_cat 1 S_poli 0.0143 26 Wald Chi-Square . . 0.0006 6.0044 7.8963 20.7347 11.7427 14.8853 . . Analysis of Maximum Likelihood Estimates Parameter y_multi Pr > ChiSq I_cat 2 S_both 0.0050 I_cat 2 S_poli <.0001 I_cat 3 S_both 0.0006 I_cat 3 S_poli 0.0001 I_cat 4 S_both . I_cat 4 S_poli . .5.4מודל מסביר להערכת הסתברות הלכידה ע"י המשטרה להלן מקדמי המודל שישמשו לחישוב מקדמי ניפוח לנתוני משטרה (לפני תיקון ל.)False positive - - Parameter משתנה מסביר Analysis of Maximum Likelihood Estimates Standard - Estimate DF ערך המשתנה- Error מקדם המודל משמעותו Intercept - T_age_cקבוצת גיל הנפגע - T_age_cקבוצת גיל הנפגע - T_age_cקבוצת גיל הנפגע - T_age_cקבוצת גיל הנפגע - T_age_cקבוצת גיל הנפגע – T_month_4 רבעון תאונה – T_month_4 רבעון תאונה – T_month_4 רבעון תאונה – T_month_4 רבעון תאונה - YEHIDA_2 יחידת משטרה - YEHIDA_2 יחידת משטרה - T_sug_derehA סוג דרך - T_sug_derehA סוג דרך YEHIDA_2*T_su g_dereh שילוב יחידתמשטרה וסוג דרך YEHIDA_2*T_su g_dereh שילוב יחידתמשטרה וסוג דרך YEHIDA_2*T_su g_dereh שילוב יחידתמשטרה וסוג דרך YEHIDA_2*T_su g_dereh שילוב יחידתמשטרה וסוג דרך - T_Sug_p3סוג תאונה Pr > Chi Sq Wald ChiSquare 0.538 0.4631 0.0002 1 0.4567 0.6223 - 1בני 1-14 1 -0.4685 0.1252 14.007 - 2בני 18-24 1 -0.0286 0.1200 0.057 0.8119 - 3בני 28-84 1 -0.2611 0.1139 5.26 0.0218 - 4בני 88-64 1 -0.0228 0.1435 0.025 0.8738 - 5בני 868 0 0 . . . -1רבעון ראשון 1 0.2086 0.0963 4.69 0.0303 -2רבעון שני 1 0.1230 0.0898 61.87 0.1708 -3רבעון שלישי 1 0.0682 0.0907 0.565 0.4522 -4רבעון רביעי 0 0 . . . - 0יתר היחידות - 1אם יחידה 12 20 34 38 51 52 61 - 0עירונית 1 2.4401 0.3703 43.428 <.0001 0 0 . . . 1 -0.7089 0.0896 62.599 <.0001 - 1לא עירונית 0 0 . . . -0יתר היחידות - 0עירונית 1 -2.0464 0.3984 26.379 <.0001 -0יתר היחידות - 1לא עירונית 0 0 . . . - 1אם יחידה 12 20 34 38 51 52 - 0עירונית 0 0 . . . - 1אם יחידה 12 20 34 38 51 52 - 1לא עירונית 0 0 . . . 1 0.6451 0.2635 5.992 0.0144 - 1פגיעה בהולך רגל 22 - Parameter משתנה מסביר - T_Sug_p3סוג תאונה - T_Sug_p3סוג תאונה - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - T_Sug_nifga_A סוג נפגע - I_catקטגורית נפגע* - I_catקטגורית נפגע - I_catקטגורית נפגע - I_catקטגורית נפגע Analysis of Maximum Likelihood Estimates Standard - Estimate DF ערך המשתנה- Error מקדם המודל משמעותו Pr > Chi Sq Wald ChiSquare 0.753 0.3856 . - 4רכב יחיד 1 0.0728 0.0839 - 235 התנגשויות בין כלי רכב או אחר - 1הולך רגל 0 0 . . 1 -2.0033 0.5659 12.531 0.0004 - 2נהג רכב 1 -2.0688 0.5034 16.889 <.0001 - 3נוסע ברכב 1 -2.1785 0.5045 18.645 <.0001 - 6נהג אופניים 1 -2.0084 0.4992 16.190 <.0001 - 45נהג/נוסע אופנוע - 789אחר 1 -1.6939 0.5108 10.998 0.0009 0 0 . . . 1 1 0.00844 0.3566 0.0006 0.9811 2 1 1.0711 0.3812 7.896 0.0050 3 1 1.4083 0.4110 11.743 0.0006 4 0 0 . . . להלן השוואת המקדמים שהתקבלו בשיטה של מחקר זה לעומת מחקר קודם. - Estimate מקדם המודל לפי מודל מולטינומי – שיטה חדשה 0.4567 - Estimate מקדם המודל לפי נתוני טראומה – שיטה קודמת 0.5560 – Parameterמשתנה מסביר ערך המשתנה- משמעותו - T_genderמגדר הנפגע - 0זכר לא במודל 0.1849 - T_genderמגדר הנפגע - 1נקבה לא במודל 0 - T_age_cקבוצת גיל הנפגע - 1בני 1-14 -0.4685 -0.4970 - T_age_cקבוצת גיל הנפגע - 2בני 18-24 -0.0286 -0.0751 - T_age_cקבוצת גיל הנפגע - 3בני 28-84 -0.2611 -0.2711 - T_age_cקבוצת גיל הנפגע - 4בני 88-64 -0.0228 -0.0129 - T_age_cקבוצת גיל הנפגע - 5בני 868 0 0 – T_month_4רבעון תאונה -1רבעון ראשון 0.2086 לא במודל – T_month_4רבעון תאונה -2רבעון שני 0.1230 לא במודל – T_month_4רבעון תאונה -3רבעון שלישי 0.0682 לא במודל – T_month_4רבעון תאונה -4רבעון רביעי 0 לא במודל - YEHIDA_2יחידת משטרה - 0יתר היחידות 2.4401 2.3967 - YEHIDA_2יחידת משטרה - 1אם יחידה 12 20 34 38 51 52 61 0 0 -0.7089 -0.7001 0 0 Intercept - T_sug_derehAסוג דרך - 0עירונית - T_sug_derehAסוג דרך - 1לא עירונית 29 ערך המשתנה- משמעותו – Parameterמשתנה מסביר - Estimate מקדם המודל לפי מודל מולטינומי – שיטה חדשה - Estimate מקדם המודל לפי נתוני טראומה – שיטה קודמת -2.0464 -2.0044 0 YEHIDA_2*T_sug_dereh -שילוב יחידת משטרה וסוג דרך -0יתר היחידות - 0עירונית YEHIDA_2*T_sug_dereh -שילוב יחידת משטרה וסוג דרך -0יתר היחידות - 1לא עירונית 0 - 0עירונית 0 0 - 1לא עירונית 0 0 0.6451 0.6275 0.0728 0.0740 YEHIDA_2*T_sug_dereh שילוב יחידת משטרה וסוג דרךYEHIDA_2*T_sug_dereh שילוב יחידת משטרה וסוג דרך - T_Sug_p3סוג תאונה - 1אם יחידה 12 20 34 38 51 52 - 1אם יחידה 12 20 34 38 51 52 - 1פגיעה בהולך רגל - T_Sug_p3סוג תאונה - 4רכב יחיד - T_Sug_p3סוג תאונה - 235התנגשויות בין כלי רכב או אחר 0 0 - T_Sug_nifga_Aסוג נפגע - 1הולך רגל -2.0033 -2.0692 - T_Sug_nifga_Aסוג נפגע - 2נהג רכב -2.0688 -2.1577 - T_Sug_nifga_Aסוג נפגע - 3נוסע ברכב -2.1785 -2.2075 - T_Sug_nifga_Aסוג נפגע - 6נהג אופניים -2.0084 -2.1218 - T_Sug_nifga_Aסוג נפגע - 45נהג/נוסע אופנוע -1.6939 -1.8450 - T_Sug_nifga_Aסוג נפגע - 789אחר 0 0 - I_catקטגורית נפגע* 1 0.00844 -0.0409 - I_catקטגורית נפגע 2 1.0711 1.0454 - I_catקטגורית נפגע 3 1.4083 1.3891 - I_catקטגורית נפגע 4 0 0 .5.5השוואת הסתברויות לכידה בשתי השיטות עבור נתוני 0331 לכל תצפית מנתוני המשטרה חושבו הסתברויות לכידה לנתוני 2119לפי שתי השיטות ,דהיינו לפי השיטה במחקר הקודם של גיטלמן ודובא ( )2111ולפי השיטה של המודל המולטינומי אשר במחקר הנוכחי. נסמן: – P_trאמד להסתברות הלכידה בשיטה הקודמת, – P_muאמד להסתברות הלכידה על פי המודל המולטינומי. טבלה להלן מציגה סטטיסטיקה תיאורית של שת ההסתברויות: N Mean Std Dev Sum Minimum Maximum Variable p_tr 2201 0.41041 0.17706 903.30772 0.05712 0.95972 p_mu 2201 0.41121 0.17726 905.07738 0.05909 0.95693 28 הקורלציה בין ההסתברויות בשתי השיטות: Pearson Correlation Coefficients, N = 2201 Prob > |r| under H0: Rho=0 p_mu p_tr 0.99095 <.0001 1.00000 p_tr 1.00000 0.99095 <.0001 p_mu להלן גרף המתאר את התוצאות בשתי השיטות: p_tr 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 p_mu ע"פ הממצאים לנתוני ,2119ניתן לראות התאמה קרובה מאוד בין שתי השיטות. .5.6יצירת אמד למספר כולל של נפגעים קשה על סמך דיווח המשטרה ,עבור נתוני 0331 לקבלת אמד למספר הכולל של נפגעים קשה ,על סמך קובץ המשטרה ,בוצעו שתי הפעולות: (א) תוקנו מקרי ה - False Positive-מקרים של דיווח שגוי ע"י המשטרה ,בעזרת המודל לFalse - .Positive מאחר ומתוך 1623הפצועים קשה אשר דווחו על-ידי המשטרה 66 ,היו למעשה פצועים קל (False - ,)Positiveלמעשה קובץ המשטרה כולל 1612נפגעים קשה. 31 (ב) נופחו מספר המקרים שנותרו בקובץ לאחר התיקון ,על סמך הסתברויות הלכידה ע"י המשטרה. להלן מובא המודל שהתקבל עבור ההסתברות TPבמחקר של גיטלמן ודובא (:)2111 The LOGISTIC Procedure false_p 2 binary logit Fisher's scoring 1673 1673 Model Information Response Variable Number of Response Levels Model Optimization Technique Number of Observations Read Number of Observations Used Probability modeled is false_p=1. 0.1055 Pr > ChiSq <.0001 0.0002 0.0384 0.0009 0.0109 Max-rescaled R-Square 0.0298 R-Square Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Intercept 1 -1.9273 0.2002 92.7024 I_SUG_REHEV_LMS 1 -1.2314 0.3341 13.5812 I_SUG_TEUNA 1 -0.6511 0.3144 4.2875 I_YOM_BASHAVUA 1 -0.8600 0.2590 11.0300 I_YEHIDA 1 -1.5244 0.5985 6.4870 כאמור: לכל רשומה של נפגע קשה שדווח ע"י המשטרה ,חושב ערך p_finalהמהווה מספר מייצג נכון של נפגעים קשה עם מאפיינים אלה שאמור להיות בקובץ המשטרה. )p_final = p_TP * (1/p_catch p_TP = 1 - p_FP כאשר - p_TPהסתברות לדיווח נכון ע"י המשטרה (;)TP - true-positive - p_FPהסתברות לדיווח שגוי ע"י המשטרה ( ,)FP - False Positiveלפי המודל שהוצג לעיל; - p_catchהסתברות לכידה ע"י המשטרה אנו נציג שני אמדים למספר הכולל של נפגעים קשה על סמך דיווח המשטרה ,עבור נתוני ,2119 כאשר: בשני האמדים p_TPיהיה זהה ,מכיוון שמודל ה FP-זהה בשתי האפשרויות; p_catchיסומן כ p_tr -ו p_mu-עבור האמד להסתברות התפיסה על-פי נתוני טראומה והאמדעל-פי המודל המולטינומי בהתאמה; p_finalיסומן כ p_final _tr -ו p _final_mu-עבור ערך "( p_finalהמספר הכולל") על-פי נתוניטראומה והאמד על-פי המודל המולטי נומי. 31 להלן תוצאות החישובים עבור נתוני :2119 Variable p_tr p_mu p_TP p_final_tr p_final_mu N Mean Std Dev Minimum Maximum 2201 2201 2201 2201 2201 0.4104079 0.4112119 0.9587903 3.0361119 3.0293062 0.1770579 0.1772553 0.0369921 2.1422323 2.1361418 0.0571181 0.0590862 0.8729510 1.0302047 1.0353030 0.9597154 0.9569306 0.9979629 17.4393303 16.1277786 והערכים המסכמים הם: Variable p_final_tr p_final_mu Sum 6682.48 6667.50 ניתן לראות שההערכות למספר הנפגעים קשה בשנת 2119כמעט זהות בשתי השיטות 6692 :מול .6662 .5.5אמידת הנפגעים קשה כאשר מנפחים נתוני טראומה במקום נתוני משטרה ,או כאשר משתמשים לניפוח גם בנתוני המשטרה וגם בנתוני הטראומה בסעיף הקודם ,כמו גם במחקר של גיטלמן ודובא ( ,)2111נאמד המספר הנכון של נפגעים קשה על- ידי ניפוח נתוני המשטרה .אולם ,אמידת המספר הנכון יכולה להתבצע גם על-ידי ניפוח נתוני רשומות קובץ הטראומה ,או על-ידי ניפוח שבו מנצלים את המידע של כל הקבצים. בקטעים הבאים נדווח על הממצאים על-ידי ניפוח בדרכים אלה. א .ניפוח נתוני הטראומה כדי לבצע את האמידה של מספר הנפגעים כאשר מנפחים את נתוני הטראומה (טראומה בלבד 8 חיתוך טראומה ומשטרה) במקום את נתוני המשטרה ,הורץ מודל בו הקטגוריה של משטרה בלבד ( )S_poliהייתה קטגוריית הייחוס .לחישוב בדרך זו ,המקדמים המשמשים לחישוב הסתברות התפיסה על-ידי טראומה הם המקדמים של קבוצת החיתוך. להלן המקדמים שהתקבלו על ידי הרצת המודל המולטינומי: 32 Prob ChiSq 0.003 0.010 0.535 0.936 0.054 . 0.046 0.038 0.532 . 0.002 . 0.101 . 0.123 Wald ChiSq 8.78 6.68 0.38 0.01 3.71 . 3.97 4.31 0.39 . 9.72 . 2.69 . 2.38 StdErr Estimate D F Response ClassVal 1 ClassV al0 0.82 0.21 0.18 0.17 0.23 . 0.14 0.15 0.14 . 0.40 . 0.15 . 0.46 2.42 0.55 0.11 0.01 0.45 0.00 -0.28 0.31 0.09 0.00 -1.24 0.00 -0.25 0.00 0.71 1 1 1 1 1 0 1 1 1 0 1 0 1 0 1 S_both S_both S_both S_both S_both S_both S_both S_both S_both S_both S_both S_both S_both S_both S_both 0 1 2 3 4 5 1 2 3 4 0 1 0 1 0 . . . 0.00 0 S_both 1 0 . . . 0.00 0 S_both 0 1 . . . 0.00 0 S_both 1 1 0.532 0.025 . 0.863 0.601 0.428 0.534 0.643 . 0.004 0.020 0.332 . 0.39 5.00 . 0.03 0.27 0.63 0.39 0.22 . 8.10 5.40 0.94 . 0.44 0.13 . 0.83 0.71 0.71 0.71 0.72 . 0.33 0.41 0.47 . -0.27 0.30 0.00 0.14 -0.37 -0.56 -0.44 -0.33 0.00 -0.93 -0.95 -0.46 0.00 1 1 0 1 1 1 1 1 0 1 1 1 0 S_both S_both S_both S_both S_both S_both S_both S_both S_both S_both S_both S_both S_both 1 4 235 1 2 3 6 45 789 1 2 3 4 Variable Intercept T_age_c T_age_c T_age_c T_age_c T_age_c T_month_4 T_month_4 T_month_4 T_month_4 YEHIDA_2 YEHIDA_2 T_sug_derehA T_sug_derehA YEHIDA_2*T_su g_dereh YEHIDA_2*T_su g_dereh YEHIDA_2*T_su g_dereh YEHIDA_2*T_su g_dereh T_Sug_p3 T_Sug_p3 T_Sug_p3 T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A T_Sug_nifga_A I_cat I_cat I_cat I_cat Obs 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 : תצפיות) הוא5153 פי ניפוח נתוני הטראומה (ניפוח של-האמד המתקבל לסך כל הנפגעים קשה על . נפגעים קשה6849 ) ניפוח לפי טראומה ומשטרה (= כל הנתונים.ב : כלומר לא להופיע בקובץ הטראומה ולא בקובץ המשטרה היא,ההסתברות לא להילכד כלל i0 (x i ) 1 i1 (x i ) 1 i2 (x i ) כאשר ; ההסתברות לא להופיע באף קובץ- i0 (x i ) ; ההסתברות להופיע בקובץ המשטרה- i1 (x i ) . ההסתברות לא להופיע בקובץ הטראומה- i2 (x i ) 33 ההסתברויות ) i1 (x i ו i2 (x i ) -חושבו בשני הסעיפים הראשונים בחלק זה. אמד לסך כל הנפגעים קשה על-פי טראומה בלבד 8חיתוך טראומה ומשטרה 8משטרה בלבד: 1 ) ) ii _ observed 1 (1 i1 (x i ) )(1 i2 (x i 1 ) 1 i0 (x i ii _ observed האמד המתקבל לסך כל הנפגעים קשה על-פי ניפוח טראומה ומשטרה (ניפוח 3691תצפיות) הוא: .6848 ג .סיכום תוצאות הניפוחים (לפני תיקון ל)False Positive- בעזרת הערכות לעיל התקבלו: = final_poliאמד לסך כל הנפגעים קשה על-פי ניפוח נתוני המשטרה (ניפוח של 2135תצפיות); = final_ trאמד לסך כל הנפגעים קשה על-פי ניפוח נתוני הטראומה (ניפוח של 5153תצפיות); = final_ trpoאמד לסך כל הנפגעים קשה על-פי ניפוח נתוני המשטרה והטראומה (ניפוח של 5681 תצפיות). הערכים המסכמים של מספרי הנפגעים קשה בשנת ( 2119לפי תיקון ל )False Positive-היו כלהלן: Variable Sum final_poli final_tr final_trpo 6756.33 6848.67 6848.31 כלומר ,בשלוש ההערכות לא מתקבלות תוצאות זהות (אם כי ,הן קרובות למדי). אינטואיטיבית נראה שהאמדים היותר סבירים הם אלה שמבוססים על ניפוח הקבצים היותר גדולים. מחקר מקיף עם סימולציות יכול לתת תשובה לשאלה האם אמנם האמד המבוסס על הקטגוריה שבה פחות תצפיות הוא הפחות מדויק. שאלת דיוק האמד קשורה לנושא הבא המוצע למחקר והוא חישוב רווח סמך לפרמטר שאותו יש לאמוד. 34 .6סיכום ודיון .6.0תועלות המחקר הנוכחי התועלת בעבודה זו אינה מצטמצמת רק לממצאי המחקר עבור הנתונים על נפגעים קשה בתאונות הדרכים של שנת .2119תרומת המחקר היא גם בפיתוח תוכנה ליישום השיטה ובהסבר המפורט של השיטה .הנושא עשוי להיות רלבנטי לא רק לתאונות דרכים אלא גם לתחומים נוספים שבהם יש אפשרות שקיים חסר ברישום ויש צורך באמידה נכונה של מספר המקרים הרלבנטי. השיטה שבמחקר זה מהווה שיפור (הרחבה) לשיטה שהוצעה ושיושמה על אותם נתונים בעבודתן של גיטלמן ודובא ( .)2111בשיטה של מחקר זה נעשה שימוש במודל המולטינומי .דרך זו מאפשרת לבחור משתנים מסבירים בצורה נכונה יותר מאשר בדרך שיושמה בעבר ובה המשתנים נבחרו רק על בסיס קובץ נתוני הטראומה והקובץ המשולב. יתר על כן ,המודל המולטינומי מאפשר לחשב אמד למספר נפגעים לא רק על-ידי ניפוח נתוני משטרה ,אלא גם על-ידי ניפוח נתוני הטראומה כמו שניפחנו את נתוני המשטרה (זאת כאשר משטרה מהווה רמת יחוס) .כפי שראינו ,לא מתקבל אמד זהה כאשר מנפחים את נתוני המשטרה בהשוואה לאמד המתקבל על-ידי ניפוח כל הנתונים. יתרון נוסף וחשוב הוא כאשר נרצה להציג רווחי סמך למספר הנכון .הדרך המוצעת לבצע זאת מפורטת בהמשך כהצעה למחקר עתידי .במודל המולטינומי מגרילים מכל הקטגוריות. נדגיש שוב שיש להפריד בין שני מצבים ולכל אחד מהם מוצע פתרון שונה על בסיס המחקר הנוכחי. מצב ראשון הוא כאשר המטרה היא לנפח נתוני משטרה ,ונתונים אלה אינם מאותה שנה שעבורה יש את נתוני הטראומה (טראומה בלבד וקובץ משולב) .זה המקרה שעליו בלבד ענה מחקרן של גיטלמן ודובא ( ,)2111וגם אנו ענינו במחקר זה שבו נעשה שיפור לשיטתן .בחלק הראשון של הממצאים דיווחנו על התוצאות של שתי הגישות והשווינו בין התוצאות .אם בידי החוקר שלושת הקבצים עם נתונים לאותה שנה ,אזי יש לנצל לאמידה טובה יותר את המידע בשלושת הקבצים (המצב השני). לשם כך יש ליישם את השיטה של מחקר זה המבוססת על המודל המולטינומי ,כפי שהדגמנו בחלק השני של הדיווח על הממצאים. .6.0הצעה להמשך מחקר :רווח סמך עבור המספר הכולל של נפגעים בשתי השיטות ,של מחקרנו זה והמחקר הקודם של גיטלמן ודובא ( ,)2111התקבל אמד נקודתי .בכל שיטת אמידה יש חשיבות לבניית רווח סמך לפרמטר הנאמד. השיטות הסטנדרטיות שבהן משתמשים בדרך כלל בסטטיסטיקה לבנית רווחי סמך אינן ישימות כאשר הפרמטר הנאמד הוא גודל אוכלוסייה והשיטה הנדרשת היא השיטה של .CRהסיבה לכך שהוכרה ונדונה בעבר היא שרווח סמך סימטרי אינו מתאים לפרמטר זה כי התפלגותו של הסטטיסטי אינה סימטרית .דיון על אי-התאמה זו הוצג למשל בInternational Working Group for , 1888( : .)Disease Monitoring and Forecastingכדי לפתור את הבעיה הוצעו מספר שיטות .תחילה, 38 הוצע לבצע טרנספורמציה (כמו לוג) ,כך שהתפלגות האמד תהיה בקירוב נורמלית ).(Chao, 1989 אולם ,נמצא שלא ניתן למצוא טרנספורמציה אשר מתאימה לכל המקרים. החל משנות ה 81נכתבו מספר מאמרים בהם הציגו שיטות שונות וכולן מבוססות על .Bootstrap אלה השיטות הנחשבות כטובות ובשיטה מסוג זה השתמשנו במחקר הנוכחי .יש לציין שבחלק מהשיטות שהוצגו נעשה שימוש בBootstrap - Bootstrap ,Parametricובחלקן נעשה שימוש ב- .Nonparametricבמאמרם של ) Buckland & Garthwaite (1991הוצגו שיטות המבוססות על שני הסוגים .הרחבות לשיטות שהציגו ) Buckland & Garthwaite (1991כללו שימוש במשתנים מסבירים ( .)covariatesלמשלHuggins (1998), Tilling & Sterne (1999), , ) Tilling et al (2001השתמשו ב Nonparametric Bootstrap-עבור מסבירים רציפים .אולם, באותן העבודות ,כפי שהראו ) ,Norris & Pollock (1996השתמשו בנראות מותנית .לכן ,בשיטה זו מקבלים אמד לשונות שהוא מוטה כלפי מטה ורווח הסמך צר ממה שהוא אמור לכסות. במחקר עתידי אנו מציעים להשתמש בשיטה שהוצגה במאמר של Zwane & van der Heijden ) .(2003בשיטה זו יש שימוש ב ,Parametric Bootstrap-לאמידת השונות ,כאשר ההטרוגניות בין התצפיות הנדגמות מבוטאת על-ידי מסבירים רציפים. להלן הסבר השיטה: נסמן ב N -את גודל האוכלוסייה מתוכה nנדגמו ויש ביניהם אי תלות .את וקטור המשתנים המסבירים לתצפית ה i-נסמן בx i - ואת הפרופיל המתאר את נוכחות התצפית בתהליך הלכידה נסמן ב . w i -פרופיל זה שווה ל )1,1(-כאשר התצפית מופיעה ברשומה ראשונה (משטרה) ולא בשנייה (טראומה) ,שווה ל )1,1) -כאשר התצפית מופיעה ברשומה שנייה (טראומה) ולא בראשונה, (משטרה) ,שווה ל )1,1(-כאשר התצפית מופיעה בשתי הרשומות ,והוא שווה ל )1,1)-כאשר התצפית אינה מופיעה כלל. נסמן את ההסתברות של התצפית ה i-להיכלל ברשומה כלשהי בi - ואת האמד שלה בˆ i - . הסתברות זו תלויה במשתנים מסבירים ואותה אומדים .האמד של גודל האוכלוסייה Nהוא: n n 1 ˆ N ˆ i i 1 i 1 i ˆ .N את ה bootstrap-אנו מבצעים כדי לקבל רווח סמך לפרמטר Nשהאמד הנקודתי שלו הוא ˆ .N נסמן ב- i1 את ההסתברות שנבדק iיופיע ברשומת הטראומה וב- i2 את ההסתברות שנבדק i יופיע ברשומת המשטרה .הסתברויות אלו תלויות במשתנים מסבירים ואומדים אותן בעזרת המודל המולטינומי .כך מקבלים כפונקציה של המסבירים את האמדים ˆ i1 ˆ 1 x i :וˆ i2 ˆ 2 x i - להסתברות שנבדק iיופיע ברשומת הטראומה ולהסתברות שנבדק יופיע ברשומת המשטרה, בהתאמה. 36 בהינתן האמדים להסתברויות ˆ 1 x i וˆ 2 x i - ניתן להגדיר התפלגות מולטינומית עם ארבע אפשרויות: , -להופיע רק ברשומת הטראומה ולא במשטרה ,אמד ההסתברות לכך הוא ]ˆ 1 xi [1 ˆ 2 x i להופיע רק ברשומת המשטרה ולא בטראומה ,אמד ההסתברות לכך הוא ]ˆ 2 xi [1 ˆ 1 x i , להופיע גם ברשומת הטראומה וגם במשטרה ,אמד ההסתברות לכך הוא ˆ 1 x i ˆ 2 x i , לא להופיע באף רשומה ,אמד ההסתברות לכך הוא ]ˆ 1 xi ][1 ˆ 2 xi . [1 עבור נבדק iהאמד שהוא יופיע במדגם ברשומה כלשהי שווה ל: ˆ i ˆ (x i ) ˆ 1 x i [1 ˆ 2 x i ] ˆ 2 x i [1 ˆ 1 x i ] ˆ 1 x i ˆ 2 x i ˆ 1 x i ˆ 2 x i ˆ 1 x i ˆ 2 x i בכל דגימה של ה B( Bootstrap-דגימות) ,מבצעים דגימה באופן הבא: את מספר התצפיות המייצגות את הנבדק iאנו אומדים לפי: 1 ) ˆ (x i .N ˆ i הבעיה היא שמספר זה אינו בהכרח מספר שלם .לכן ,הציעו )Zwane & van der Heijden (2003 את הפתרון הבא :מניחים שהפרמטר הנכון N i , INT[Nאו לˆ 1] - שווה או לˆ ] - , INT[Nכאשר i i INT[Nמסמן את החלק השלם של ˆ ] ˆ . Nעל ידי "הגרלה" מחליטים בין שתי האפשרויות ,כאשר i i בהגרלה נותנים הסתברות גבוהה יותר למספר השלם הקרוב לˆ - .N i ˆ INT[N עושים זאת באופן הבא :נגדיר ] ˆ . di Nעתה נותנים ההסתברות השווה ל1 di - i i למאורע שהערך הנכון של N iהוא ] INT[Nˆ iואת ההסתברות d iלאירוע שהערך הנכון של N i הוא ]ˆ 1 . INT[N i אחרי שנקבע המספר המתאים שהוא עתה שלם עבור גודל המדגם המתאים לתצפית ה i-במדגם ה- ,Bootstrapיוצרים מדגם בגודל זה מההתפלגות המולטינומית המתאימה לווקטור המסבירים של תצפית זו .כך נעשה לכל תצפית .iחלק מהתצפיות שנוצרות בסימולציה מההתפלגות המולטינומית יפלו בקטגוריה שהפרופיל שלה ) .(0,0כלומר שבמדגם אשר נוצר הן משחקות תפקיד של נבדקים שלא מופיעים באף רשומה. מדגם ה Bootstrap-שמקבלים בדגימה האחת (נסמן אותה כדגימה ה )b-יהיה בגודל n b ( )b=1,…,Bועל בסיסו כמו מהמדגם המקורי אומדים את ההסתברויות ואת Nלפי הנוסחה: 32 ]ˆ 1*[b] (xi ), ˆ *[b ) 2 (x i n 1 ) ˆ *[b] (x i i 1 nb ˆ *[b] N ˆ *[b] N i i1 על בסיס כל Bהאמדים של Nבונים את רווח הסמך. כאשר המטרה היא לנפח נתוני משטרה ,לא מאותה שנה שעבורה יש את נתוני הטראומה (טראומה בלבד וקובץ משולב) ,אזי נשתמש ב B -אמדי מקדמי המודל המולטינומי שהתקבלו עבור Bמדגמי ה- ,Bootstrapכדי ליצור Bניפוחים לנתוני המשטרה ,ועל סמך Bניפוחים אלה ניצור את רווח הסמך למספר הנפגעים קשה. 39 מראי מקום פיתוח כלים סטטיסטיים להערכת מספרי הנפגעים קשה בתאונות הדרכים.(2011( . א,דובא, .גיטלמן ו .מיסודה של עמותת אור ירוק, דו"ח מחקר שהוגש לקרן רן נאור לקידום מחקר בטיחות בדרכים,בישראל קבלת החלטות על בסיס נתונים. פצועים במצב קשה- תאונות דרכים.)2114( .דניאל ל- אהרונסון,.פלג ק .111-118 ' עמ,' חוב' ב,143 כרך, הרפואה.חלקיים Alho, J. (1990). Logistic regression in capture–recapture models. Biometrics 46, 623-635. Alsop, J., Langley, J. (2001). Under-reporting of motor vehicle traffic crash victims in New Zealand. Accident Analysis and Prevention, 33, 353-359. Amoros, E., Martin, J.L., Laumon, B. (2006). Under-reporting of road crash casualties in France. Accident Analysis and Prevention, 38, 627-635. Amoros, E., Martin, J.L., Laumon B. (2007). Estimating non-fatal road casualties in a large French county, using capture-recapture method. Accident Analysis and Prevention, 39, 483490. Buckland,S.T. Garthwaite, P.H. (1991) . Quantifying precision of mark-recapture estimates using the bootstrap and related methods. Biometrics, 47,255-268 Chang ,Y.F., McMahon, J.E., Hennon, D.L., LaPorte ,R.E., Coben ,J.H. (1997)Dog bite incidence in the city of Pittsburgh - a capture-recapture approach. Am J Public Health .87(10),1703-1705. Chao, A.(1989) Estimating population size from sparse data in capyure-recapture experiments. Biometrics,45,427-438. Chiu, W.T., Dearwater ,S.R., McCarty, D.J., Songer, T.J. LaPorte, R.E.(1993) Establishment of accurate incidence rates for head and spinal cord injuries in developing and developed countries: a capture-recapture approach. J Trauma ,35,206-211. Cohen, J. (2004). Road accidents in Israel: scope, characteristics and estimate of costs for national economy. MATAT, Ministry of Transport – Economic and Planning department (in Hebrew). Derriks, H.M. and Mak, P.M. (2007). Underreporting of road traffic casualties. IRTAD special report. The International Transport Forum, OECD. Elvik, R., Mysen, A.B. (1999). Incomplete accident reporting: meta-analysis of studies made in 13 countries. Transportation Research Record, 1665, 133-140. Elvik, R., Vaa, T. (2004). The handbook of road safety measures. Elsevier. ETSC (2007). Socail and economic consequences of road traffic injury in Europe. European Transport Safety Council, Brussels. Gutoskie, P. (2003). The availability of hospitalized road user data in OECD member countries (2001). IRTAD Operational Committee. Hauer, E., & Hakkert, A.S. (1988). Extent and some implications of incomplete accident reporting. Transportation Research Record, 1185, 1-10. Huggins, R. (1989). On the statistical analysis of capture experiments. Biometrika,76,133140. International Working Group for Disease Monitoring and Forecasting )1995). Capture – recapture and multiple record system estimation: history and theoretical development. American Journal of Epidemiology, 142,1047-1058. Jarvis, S.N., Lowe, P.J., Avery, A., Levene, S., Cormack, R. (2000). Children are not goldfish – mark/recapture techniques and their application to injury data. Injury Prevention, 6, 46-50. Johnson, R.L., Gabella, B.A., Gerhart ,K.A., McCray, J., Menconi ,J.C., Whiteneck, G.G. (1997) Evaluating sources of traumatic spinal cord injury surveillance data in Colorado. Am J Epidemiol ,146(3),266-72. 38 Lopez, D.G., Rosman, D.L., Jelinek, G.A., Wilkes, G.J., & Sprivulis, P.C. (2000). Complementing police road-crash records with trauma registry data - an initial evaluation. Accident Analysis and Prevention, 32, 771-777. Morrison, A., Stone, D.H. (2000). Capture-recapture: a useful methodological tool for counting traffic related injuries? Injury Prevention, 6, 299-304. Newcombe ,H.B.,Kennedy ,J.M., Axford ,S.J.., James, A.P. (1959). Automatic linkage of vital records. Science,130, 954-959. Noris,J. , Pollock,K. (1996). Including model uncertainty in estimating variances in multiple capture studies. Environmental and Ecological Statistics,3, 235-244. OECD/ITF (2011). Reporting on Serious Road Traffic Casualties: Combining and using different data sources to improve understanding of non-fatal road traffic crashes. Organisation for Economic Co-operation and Development/ International Transport Forum. Peleg, K., Aharonson-Daniel, L. (2004). Road traffic accidents - severe injuries. How missing data can impair decision making? Harefuah, 143 (2), 111-115 (in Hebrew). Reurings, M.C.B., Bos, N.M., van Kampen, L.T.B. (2007). Calculation of the real number of traffic in-patients, in 1997-2003; methods and results. SWOV report R-2007-8. Reurings, M.C.B., Stipdonk, H.L. (2011). Estimating the number of seriously road injuries in the Netherlands. AEP,27(9), 648-653. Roberts, I., Scragg, R. (1994). Application of capture-recapture methodology to estimate the completeness of child injury surveillance. Journal of Pediatrics & Child Health ,30(6):513-4. Rosman, D.L. (1995). The feasibility of linking hospital and police road crash casualty records without names. Accident Analysis and Prevention, 28, 271-274. Rossignol, M. (1994). Completeness of provincial workers' compensation files to identify fatal occupational injuries. Canadian Journal of Public Health,85(4),244-7. Sacks, J.J., Sattin, R.W., Bonzo, S.E. (1989). Dog bite-related fatalities from 1979 through 1988. JAMA, 262,1489-1492. Sanathanan, L. (1972). Estimating the Size of a Multinomial Population.The Annals of Mathematical Statistics, 43, 142-152. Simpson, H.F. (1996). Comparison of hospital and police casualty data: a national study. TRL Report 173. Stone, R.D. (1984). Computer linkage of transport and health data. TRRL laboratory Report 1130. Tersero, F., Andersson, R. (2004). Measuring transport injuries in a developing country: an application of the capture-recapture method. Accident Analysis and Prevention, 36, 13-20. Tilling, K., Sterne, J. (1999). Capture-recapture models including covariate eLects. Amer. J. Epidemiology 149, 2, 392-400. Tilling, K., Sterne, J., Wolfe, C. (2001). Estimation of incidence of stroke using a capturerecapture model including covariates. International Journal of Epidemiology,30,1351-1359. Tsui, K.L., Soa, F.L., Szeb, N.N., Wong, S.C., Leung, T.F. (2009). Misclassification of injury severity among road casualties in police reports. Accident Analysis and Prevention, 41, 8489. 41 SAS תוכנת:נספח Sas Program %let path=C:\Etti2011\trans_nifgaim_hatzaa_bituach;*path for current project; %let path2=C:\Etti2011\trans_nifgaim_2011;*path for A-D files; options options options options nolabel; ls=100 ps=71; mprint date dtreset; ls=71 ps=71 nodate nonumber; libname Bit "&path\SasData"; libname Nif "&path2\SasData"; *==================================================================================; *==================================================================================; * create data for multinomial analysis - begin ; *==================================================================================; *==================================================================================; *A: keep appropriate observations from each file; data selectA;*observations to select from NIF.rawApolice & trauma-(3545 =1607+1938) ); set NIF.rawA ; y_origin='G_both'; *indicator for observations being samples by police and trauma; where (HUMRAT_PGIA_LMS=2) or(HUMRAT_PGIA=2 and HUMRAT_PGIA_LMS=.); run; data selectB;*observations to select from NIF.rawB- trauma only - (1608) ); set NIF.rawB ; y_origin='G_trau'; *indicator for observations being samples by trauma only; where Hospital_stay>1; run; data selectC;*observations to select from NIF.rawC-police only - (528) ); set NIF.rawC ; y_origin='G_poli'; *indicator for observations being samples by police only; run; data all; set selectA selectB selectC; run; *B: Create extra variables for multinomial analysis; data bit.for_multi; set all; if Hospital_cod=1602 then Hospital_cod=1401;*correct data; *==== define y_multi (dependent variable ==================; if y_origin='G_poli' then y_multi='S_poli';*severe - police only; if y_origin='G_trau' then y_multi='S_trau';*severe - trauma only from file of trauma only; if y_origin='G_both' and (HUMRAT_PGIA=2 and HUMRAT_PGIA_LMS=.) then y_multi='S_both';*severe - trauma +police from file meshulav; if y_origin='G_both' and (HUMRAT_PGIA_LMS=2) then y_multi='S_trau';*severe - trauma +police from file meshulav; *==define gender====; if y_origin='G_both' or y_origin='G_trau' then do; if Sex_cod=1 then gender=0; if Sex_cod=2 then gender=1; if Sex_cod=9 and min=' 'זthen gender=0; if Sex_cod=9 and min=' 'נthen gender=1; end; if y_origin='G_poli' then do; if min=' 'זthen gender=0; if min=' 'נthen gender=1; 41 end ; T_gender=gender; if gender=. then T_gender=0;*complete missing values; *==define age====; if y_origin='G_poli' then do; age=2008-shnat_leda; police_age_c=.;*categorical age; if age>=0 and age<=14 then police_age_c=1; if age>=15 and age<=24 then police_age_c=2; if age>=25 and age<=54 then police_age_c=3; if age>=55 and age<=64 then police_age_c=4; if age>=65 then police_age_c=5; age_c= police_age_c;*categorical age; end ; if y_origin='G_both' then do; old_age=age; age=2008-shnat_leda; if age=. then age=old_age; police_age_c=.;*categorical age; if age>=0 and age<=14 then police_age_c=1; if age>=15 and age<=24 then police_age_c=2; if age>=25 and age<=54 then police_age_c=3; if age>=55 and age<=64 then police_age_c=4; if age>=65 then police_age_c=5; trauma_age_c=.; if old_age>=0 if old_age>=15 if old_age>=25 if old_age>=55 if old_age>=65 and and and and old_age<=14 old_age<=24 old_age<=54 old_age<=64 then then then then then trauma_age_c=1; trauma_age_c=2; trauma_age_c=3; trauma_age_c=4; trauma_age_c=5; age_c= police_age_c;*categorical age; end ; if y_origin='G_trau' then do; police_age_c=.;*categorical age; if age>=0 and age<=14 then police_age_c=1; if age>=15 and age<=24 then police_age_c=2; if age>=25 and age<=54 then police_age_c=3; if age>=55 and age<=64 then police_age_c=4; if age>=65 then police_age_c=5; age_c= police_age_c;*categorical age; end ; T_age_c=age_c; if age_c=. then T_age_c=3;*complete missing values; *==define month====; if y_origin='G_both' or y_origin='G_trau' then do; Injury_Month=Injury_Month; end; if y_origin='G_poli' then do; Injury_Month=HodeshTeuna; end ; T_Injury_Month=Injury_Month; if Injury_Month=. then T_Injury_Month=5;*complete missing values; T_month_4=ceil(T_Injury_Month/3); *==define YEHIDA and YEHIDA_2====; *create yehida definition for trauma only data; if y_origin='G_trau' then do; if Hospital_cod=1102 then YEHIDA=11; if Hospital_cod=1106 then YEHIDA=11; 42 if if if if if if if if if if if if if if if end; Hospital_cod=1105 Hospital_cod=1107 Hospital_cod=1109 Hospital_cod=1501 Hospital_cod=1503 Hospital_cod=1101 Hospital_cod=1104 Hospital_cod=1201 Hospital_cod=1302 Hospital_cod=1108 Hospital_cod=1301 Hospital_cod=1103 Hospital_cod=1304 Hospital_cod=1401 Hospital_cod=1601 then then then then then then then then then then then then then then then YEHIDA=12; YEHIDA=12; YEHIDA=14; YEHIDA=14; YEHIDA=14; YEHIDA=20; YEHIDA=20; YEHIDA=20; YEHIDA=34; YEHIDA=38; YEHIDA=51; YEHIDA=52; YEHIDA=52; YEHIDA=61; YEHIDA=61; YEHIDA_2=0; if YEHIDA in (12 20 34 38 51 52 61) then YEHIDA_2=1; *==define sug_derehA====; if y_origin='G_trau' then do; sug_dereh_trauma=0*Site_sub_type; if Site_sub_type=1 then sug_dereh_trauma=1; if Site_sub_type in (2 3 4 5 6 7 88 99) then sug_derehA= sug_dereh_trauma; end; if y_origin='G_poli' then do; sug_dereh2=0*sug_dereh ; if sug_dereh>2 then sug_dereh2=1;*ironi sug_derehA=sug_dereh2; end ; sug_dereh_trauma=0; vs non-ironi; if y_origin='G_both' then do; sug_dereh2=0*sug_dereh ; if sug_dereh>2 then sug_dereh2=1;*ironi vs non ironi; sug_derehA=sug_dereh2; end ; T_sug_derehA=sug_derehA; if sug_derehA=. then T_sug_derehA=0;*complete missing values; *==define Sug_p3 ====; if y_origin='G_trau' then do; Sug_t1 = Car_accident_type1*0; if Car_accident_type1=1 then Sug_t1 = 1; if Car_accident_type1=2 then Sug_t1 = 2; if Car_accident_type1=3 then Sug_t1 = 2; if Car_accident_type1=4 then Sug_t1 = 2; if Car_accident_type1=5 then Sug_t1 = 3; if Car_accident_type1=6 then Sug_t1 = 4; if Car_accident_type1=7 then Sug_t1 = 4; if Car_accident_type1=8 then Sug_t1 = 4; if Car_accident_type1=9 then Sug_t1 = 4; if Car_accident_type1=10 then Sug_t1 = 4; if Car_accident_type1=11 then Sug_t1 = 4; if Car_accident_type1>=12 then Sug_t1 = 5; Sug_t1_3=Sug_t1; if Sug_t1 in (2 3 5) then Sug_t1_3=235; Sug_p3= Sug_t1_3; end ; if y_origin='G_both' or Sug_p = SUG_TEUNA*0; if SUG_TEUNA=1 then if SUG_TEUNA=2 then if SUG_TEUNA=3 then if SUG_TEUNA=4 then if SUG_TEUNA=5 then if SUG_TEUNA=6 then if SUG_TEUNA=7 then if SUG_TEUNA=8 then if SUG_TEUNA=9 then y_origin='G_poli' then do; Sug_p Sug_p Sug_p Sug_p Sug_p Sug_p Sug_p Sug_p Sug_p = = = = = = = = = 1; 2; 2; 2; 3; 4; 4; 4; 4; 43 if SUG_TEUNA=10 then Sug_p = 4; if SUG_TEUNA=11 then Sug_p = 4; if SUG_TEUNA>=12 then Sug_p = 5; Sug_p3=Sug_p; if Sug_p in (2 3 5) then Sug_p3=235; end ; T_Sug_p3 =Sug_p3 ;*complete missing values; if Sug_p3 =. then T_Sug_p3 =235; *==define Sug_nifga_A ====; if y_origin='G_trau' then do; Sug_nifga_byT_F=.;*final variable for predict police sug nifga by trauma; if Ecode_sec_sub_type=1 then Sug_nifga_byT_F= 2; if Ecode_sec_sub_type=2 then Sug_nifga_byT_F= 3; if Ecode_sec_sub_type in (3 4) then Sug_nifga_byT_F= 45; if Ecode_sec_sub_type=5 then Sug_nifga_byT_F= 6; if Ecode_sec_sub_type=7 then Sug_nifga_byT_F= 1; if Ecode_sec_sub_type in (6 8 9 10 11) then Sug_nifga_byT_F = 2; Sug_nifga_A= Sug_nifga_byT_F; end ; if y_origin='G_both' or y_origin='G_poli' then do; *define sug_nifga with combined categories; SUG_NIFGA_P=SUG_NIFGA_LMS; if SUG_NIFGA_LMS in (7 8 9) then SUG_NIFGA_P=789; if SUG_NIFGA_LMS in (4 5 ) then SUG_NIFGA_P=45; Sug_nifga_A= SUG_NIFGA_P; end ; T_Sug_nifga_A=Sug_nifga_A;*complete missing values; if Sug_nifga_A=. then T_Sug_nifga_A=1; *==define SUG_REHEV_A ====; if y_origin='G_trau' then do; if Injury_car_type_cod in (11 12 13) then Injury_car_8= if Injury_car_type_cod= 14 then Injury_car_8= "B"; if Injury_car_type_cod= 15 then Injury_car_8= "C"; if Injury_car_type_cod= 16 then Injury_car_8= "D"; if Injury_car_type_cod= 17 then Injury_car_8= "G"; if Injury_car_type_cod= 18 then Injury_car_8= "D"; if Injury_car_type_cod= 19 then Injury_car_8= "A"; if Injury_car_type_cod= 20 then Injury_car_8= "H"; if Injury_car_type_cod= 21 then Injury_car_8= "H"; if Injury_car_type_cod= 22 then Injury_car_8= "E"; if Injury_car_type_cod= 23 then Injury_car_8= "H"; if Injury_car_type_cod= 24 then Injury_car_8= "H"; if Injury_car_type_cod= 25 then Injury_car_8= "H"; if Injury_car_type_cod= 26 then Injury_car_8= "F"; if Injury_car_type_cod= 27 then Injury_car_8= "H"; if Injury_car_type_cod= 98 then Injury_car_8= "H"; if Injury_car_type_cod= 99 then Injury_car_8= "I"; "A"; *predict categorised police by categorised trauma; SUG_REHEV_pred_8=Injury_car_8; if Injury_car_8="I" then SUG_REHEV_pred_8="A"; SUG_REHEV_A= SUG_REHEV_pred_8; end ; if y_origin='G_both' or y_origin='G_poli' then do; if SUG_REHEV_LMS=. and sug_nifga_lms=1 then SUG_REHEV_LMS=26; *complete pedestrians into SUG_REHEV_LMS; *categorise police; if SUG_REHEV_LMS=1 then SUG_REHEV_p8="A"; if SUG_REHEV_LMS=2 then SUG_REHEV_p8="A"; if SUG_REHEV_LMS=3 then SUG_REHEV_p8="A"; if SUG_REHEV_LMS=4 then SUG_REHEV_p8="A"; if SUG_REHEV_LMS=5 then SUG_REHEV_p8="B"; if SUG_REHEV_LMS=6 then SUG_REHEV_p8="B"; if SUG_REHEV_LMS=7 then SUG_REHEV_p8="B"; if SUG_REHEV_LMS=8 then SUG_REHEV_p8="C"; if SUG_REHEV_LMS=9 then SUG_REHEV_p8="C"; if SUG_REHEV_LMS=10 then SUG_REHEV_p8="C"; if SUG_REHEV_LMS=11 then SUG_REHEV_p8="D"; 44 if if if if if if if if if SUG_REHEV_LMS=12 SUG_REHEV_LMS=13 SUG_REHEV_LMS=14 SUG_REHEV_LMS=15 SUG_REHEV_LMS=16 SUG_REHEV_LMS=17 SUG_REHEV_LMS=18 SUG_REHEV_LMS=19 SUG_REHEV_LMS=26 then then then then then then then then then SUG_REHEV_p8="G"; SUG_REHEV_p8="H"; SUG_REHEV_p8="H"; SUG_REHEV_p8="E"; SUG_REHEV_p8="H"; SUG_REHEV_p8="H"; SUG_REHEV_p8="A"; SUG_REHEV_p8="C"; SUG_REHEV_p8="F"; SUG_REHEV_A= SUG_REHEV_p8; end ; T_SUG_REHEV_A=SUG_REHEV_A;*complete missing values; if SUG_REHEV_A ="" then T_SUG_REHEV_A ="A" ; *==define I_cat ====; if SUG_REHEV_A ="" then I_cat=1; else if SUG_REHEV_A in ("B" "D" "E" "H" ) then I_cat=1; else if SUG_REHEV_A in ("A" "C" "F" "G" ) and YEHIDA in (12 20 34 38 51 52 61) then I_cat=2; else if sug_derehA=0 or (sug_derehA=. and SUG_REHEV_A in ("C" "F") ) then I_cat=3; else I_cat=4; run; *==================================================================================; *==================================================================================; * create data for multinomial analysis - end ; *==================================================================================; *==================================================================================; *==================create extended data for trauma based model (previous way)======; data bit.all_trauma_ext;*extended nif.all_trauma; set nif.all_trauma; *define I_cat; if SUG_REHEV_A ="" then I_cat=1; else if SUG_REHEV_A in ("B" "D" "E" "H" ) then I_cat=1; else if SUG_REHEV_A in ("A" "C" "F" "G" ) and YEHIDA in (12 20 34 38 51 52 61) then I_cat=2; else if sug_derehA=0 or (sug_derehA=. and SUG_REHEV_A in ("C" "F") ) then I_cat=3; else I_cat=4; *complete missing values according to most probable category; T_SUG_REHEV_A=SUG_REHEV_A; if SUG_REHEV_A ="" then T_SUG_REHEV_A ="A" ; T_sug_derehA=sug_derehA; if sug_derehA=. then T_sug_derehA=0; T_gender=gender; if gender=. then T_gender=0; T_age_c=age_c; if age_c=. then T_age_c=3; T_Injury_Month=Injury_Month; if Injury_Month=. then T_Injury_Month=5; T_month_4=ceil(T_Injury_Month/3); T_Sug_p3 =Sug_p3 ; if Sug_p3 =. then T_Sug_p3 =235; T_Sug_nifga_A=Sug_nifga_A; if Sug_nifga_A=. then T_Sug_nifga_A=1; *categories according to lsmeans; age_4=age_c; if age_c in ( 4 5) then age_4=45; YEHIDA_2=0; if YEHIDA in (12 20 34 38 51 52 61) then YEHIDA_2=1; run; *==================================================================================; *==================================================================================; * Models of trauma and multinomial analysis ; *==================================================================================; 48 *==================================================================================; title "selected model - model based on trauma data"; proc logistic data=bit.For_multi; class T_gender T_age_c T_month_4 yehida_2 T_sug_derehA T_Sug_p3 T_Sug_nifga_A T_SUG_REHEV_A I_cat/param=glm; model y_multi= T_gender T_age_c yehida_2| T_sug_derehA T_Sug_p3 T_Sug_nifga_A I_cat / link=glogit rsquare; where y_origin^='G_poli'; run; title "selected model - model based on all data"; ods trace on; ods output ParameterEstimates=ParameterEstimates; proc logistic data=bit.For_multi; class T_gender T_age_c T_month_4 yehida_2 T_sug_derehA T_Sug_p3 T_Sug_nifga_A T_SUG_REHEV_A I_cat/param=glm; model y_multi= T_age_c T_month_4 yehida_2| T_sug_derehA T_Sug_p3 T_Sug_nifga_A / rsquare link=glogit; run; *print only relevant parameters; proc print data=ParameterEstimates; where Response='S_both';run; I_cat *==================================================================================; *==================================================================================; * estimate nifgaim by the two methods ; *==================================================================================; *==================================================================================; *A: create police data; data police_kashe_A; set NIF.rawA; y_origin='G_both'; false_p=.; where HUMRAT_PGIA=2; run; data police_kashe_C; set NIF.rawC; y_origin='G_poli'; false_p=.; run; data police_kashe_AC; set police_kashe_A police_kashe_C; run; data bit.police_kashe_AC;set police_kashe_AC;run; *B: create data for FP model; data police_FP; set NIF.rawA; false_p=0; if HUMRAT_PGIA_LMS=3 then false_p=1; where HUMRAT_PGIA=2; run; *C: model false positive and create FP_probabilities ; data for_fp; set police_kashe_AC police_FP; I_SUG_REHEV_LMS = SUG_REHEV_LMS *0; if SUG_REHEV_LMS in (4 5 6 7 10 12 14 15 17 19) then I_SUG_REHEV_LMS=1; if SUG_REHEV_LMS=. and SUG_NIFGA_LMS in (2 3) then I_SUG_REHEV_LMS=0; if SUG_REHEV_LMS=. and SUG_NIFGA_LMS in (1 4 5 6 7 8 9) then I_SUG_REHEV_LMS=1; I_SUG_TEUNA = SUG_TEUNA *0; if SUG_TEUNA in (1 3 6 9 10 12 15 18 19 ) then I_SUG_TEUNA=1; I_YOM_BASHAVUA = YOM_BASHAVUA *0; if YOM_BASHAVUA in (1 5 6 7 ) then I_YOM_BASHAVUA=1; I_YEHIDA = YEHIDA *0; if YEHIDA in (34 38 43 ) then I_YEHIDA=1; run; proc logistic data=for_fp; model false_p(event='1')= I_SUG_REHEV_LMS I_SUG_TEUNA I_YOM_BASHAVUA I_YEHIDA; 46 output out=out_fp p=p_fp ; run; data out_fp; set out_fp; where false_p=.;*keep only police data!; run; *D: add catching probabilities; data out_fp_p;*add variables for catching probabilities; set out_fp; for_calc=1; if Hospital_cod=1602 then Hospital_cod=1401;*correct data; *==define gender====; if y_origin='G_both' then do; if Sex_cod=1 then gender=0; if Sex_cod=2 then gender=1; if Sex_cod=9 and min=' 'זthen gender=0; if Sex_cod=9 and min=' 'נthen gender=1; end; if y_origin='G_poli' then do; if min=' 'זthen gender=0; if min=' 'נthen gender=1; end ; T_gender=gender; if gender=. then T_gender=0;*complete missing values; *==define age====; if y_origin='G_poli' then do; age=2008-shnat_leda; police_age_c=.;*categorical age; if age>=0 and age<=14 then police_age_c=1; if age>=15 and age<=24 then police_age_c=2; if age>=25 and age<=54 then police_age_c=3; if age>=55 and age<=64 then police_age_c=4; if age>=65 then police_age_c=5; age_c= police_age_c;*categorical age; end ; if y_origin='G_both' then do; old_age=age; age=2008-shnat_leda; if age=. then age=old_age; police_age_c=.;*categorical age; if age>=0 and age<=14 then police_age_c=1; if age>=15 and age<=24 then police_age_c=2; if age>=25 and age<=54 then police_age_c=3; if age>=55 and age<=64 then police_age_c=4; if age>=65 then police_age_c=5; trauma_age_c=.; if old_age>=0 if old_age>=15 if old_age>=25 if old_age>=55 if old_age>=65 and and and and old_age<=14 old_age<=24 old_age<=54 old_age<=64 then then then then then trauma_age_c=1; trauma_age_c=2; trauma_age_c=3; trauma_age_c=4; trauma_age_c=5; age_c= police_age_c;*categorical age; end ; T_age_c=age_c; if age_c=. then T_age_c=3;*complete missing values; *==define month====; if y_origin='G_both' then do; Injury_Month=Injury_Month; 42 end; if y_origin='G_poli' then do; Injury_Month=HodeshTeuna; end ; T_Injury_Month=Injury_Month; if Injury_Month=. then T_Injury_Month=5;*complete missing values; T_month_4=ceil(T_Injury_Month/3); *==define YEHIDA and YEHIDA_2====; *create yehida definition for trauma only data; YEHIDA_2=0; if YEHIDA in (12 20 34 38 51 52 61) then YEHIDA_2=1; *==define sug_derehA====; if y_origin='G_poli' then do; sug_dereh2=0*sug_dereh ; if sug_dereh>2 then sug_dereh2=1;*ironi sug_derehA=sug_dereh2; end ; vs non-ironi; if y_origin='G_both' then do; sug_dereh2=0*sug_dereh ; if sug_dereh>2 then sug_dereh2=1;*ironi vs non ironi; sug_derehA=sug_dereh2; end ; T_sug_derehA=sug_derehA; if sug_derehA=. then T_sug_derehA=0;*complete missing values; *==define Sug_p3 ====; if y_origin='G_both' or y_origin='G_poli' then do; Sug_p = SUG_TEUNA*0; if SUG_TEUNA=1 then Sug_p = 1; if SUG_TEUNA=2 then Sug_p = 2; if SUG_TEUNA=3 then Sug_p = 2; if SUG_TEUNA=4 then Sug_p = 2; if SUG_TEUNA=5 then Sug_p = 3; if SUG_TEUNA=6 then Sug_p = 4; if SUG_TEUNA=7 then Sug_p = 4; if SUG_TEUNA=8 then Sug_p = 4; if SUG_TEUNA=9 then Sug_p = 4; if SUG_TEUNA=10 then Sug_p = 4; if SUG_TEUNA=11 then Sug_p = 4; if SUG_TEUNA>=12 then Sug_p = 5; Sug_p3=Sug_p; if Sug_p in (2 3 5) then Sug_p3=235; end ; T_Sug_p3 =Sug_p3 ;*complete missing values; if Sug_p3 =. then T_Sug_p3 =235; *==define Sug_nifga_A ====; if y_origin='G_both' or y_origin='G_poli' then do; *define sug_nifga with combined categories; SUG_NIFGA_P=SUG_NIFGA_LMS; if SUG_NIFGA_LMS in (7 8 9) then SUG_NIFGA_P=789; if SUG_NIFGA_LMS in (4 5 ) then SUG_NIFGA_P=45; Sug_nifga_A= SUG_NIFGA_P; end ; T_Sug_nifga_A=Sug_nifga_A;*complete missing values; if Sug_nifga_A=. then T_Sug_nifga_A=1; *==define SUG_REHEV_A ====; if y_origin='G_both' or y_origin='G_poli' then do; if SUG_REHEV_LMS=. and sug_nifga_lms=1 then SUG_REHEV_LMS=26; *complete pedestrians into SUG_REHEV_LMS; *categorise police; if SUG_REHEV_LMS=1 then SUG_REHEV_p8="A"; if SUG_REHEV_LMS=2 then SUG_REHEV_p8="A"; if SUG_REHEV_LMS=3 then SUG_REHEV_p8="A"; 49 if if if if if if if if if if if if if if if if if SUG_REHEV_LMS=4 then SUG_REHEV_p8="A"; SUG_REHEV_LMS=5 then SUG_REHEV_p8="B"; SUG_REHEV_LMS=6 then SUG_REHEV_p8="B"; SUG_REHEV_LMS=7 then SUG_REHEV_p8="B"; SUG_REHEV_LMS=8 then SUG_REHEV_p8="C"; SUG_REHEV_LMS=9 then SUG_REHEV_p8="C"; SUG_REHEV_LMS=10 then SUG_REHEV_p8="C"; SUG_REHEV_LMS=11 then SUG_REHEV_p8="D"; SUG_REHEV_LMS=12 then SUG_REHEV_p8="G"; SUG_REHEV_LMS=13 then SUG_REHEV_p8="H"; SUG_REHEV_LMS=14 then SUG_REHEV_p8="H"; SUG_REHEV_LMS=15 then SUG_REHEV_p8="E"; SUG_REHEV_LMS=16 then SUG_REHEV_p8="H"; SUG_REHEV_LMS=17 then SUG_REHEV_p8="H"; SUG_REHEV_LMS=18 then SUG_REHEV_p8="A"; SUG_REHEV_LMS=19 then SUG_REHEV_p8="C"; SUG_REHEV_LMS=26 then SUG_REHEV_p8="F"; SUG_REHEV_A= SUG_REHEV_p8; end ; T_SUG_REHEV_A=SUG_REHEV_A;*complete missing values; if SUG_REHEV_A ="" then T_SUG_REHEV_A ="A" ; *==define I_cat ====; if SUG_REHEV_A ="" then I_cat=1; else if SUG_REHEV_A in ("B" "D" "E" "H" ) then I_cat=1; else if SUG_REHEV_A in ("A" "C" "F" "G" ) and YEHIDA in (12 20 34 38 51 52 61) then I_cat=2; else if sug_derehA=0 or (sug_derehA=. and SUG_REHEV_A in ("C" "F") ) then I_cat=3; else I_cat=4; *define I_cat; if SUG_REHEV_A ="" then I_cat=1; else if SUG_REHEV_A in ("B" "D" "E" "H" ) then I_cat=1; else if SUG_REHEV_A in ("A" "C" "F" "G" ) and YEHIDA in (12 20 34 38 51 52 61) then I_cat=2; else if sug_derehA=0 or (sug_derehA=. and SUG_REHEV_A in ("C" "F") ) then I_cat=3; else I_cat=4; *complete missing values according to most probable category; T_SUG_REHEV_A=SUG_REHEV_A; if SUG_REHEV_A ="" then T_SUG_REHEV_A ="A" ; T_sug_derehA=sug_derehA; if sug_derehA=. then T_sug_derehA=0; T_gender=gender; if gender=. then T_gender=0; T_age_c=age_c; if age_c=. then T_age_c=3; T_Injury_Month=Injury_Month; if Injury_Month=. then T_Injury_Month=5; T_month_4=ceil(T_Injury_Month/3); T_Sug_p3 =Sug_p3 ; if Sug_p3 =. then T_Sug_p3 =235; T_Sug_nifga_A=Sug_nifga_A; if Sug_nifga_A=. then T_Sug_nifga_A=1; *categories according to lsmeans; age_4=age_c; if age_c in ( 4 5) then age_4=45; YEHIDA_2=0; if YEHIDA in (12 20 34 38 51 52 61) then YEHIDA_2=1; run; data for_comp; set bit.For_multi out_fp_p; run; *run multinomial model and create xbeta for catching probabilities; proc logistic data=for_comp; class T_gender T_age_c T_month_4 yehida_2 T_sug_derehA T_Sug_p3 T_Sug_nifga_A T_SUG_REHEV_A I_cat/param=glm; 48 model y_multi= T_age_c T_month_4 yehida_2| T_sug_derehA T_Sug_p3 T_Sug_nifga_A / rsquare link=glogit; * where y_origin^='G_poli'; output out=out_p_mu xbeta=xbeta_mu; run; data out_p_mu; set out_p_mu; p_mu = exp(xbeta_mu)/(1+exp(xbeta_mu)); where _LEVEL_2='S_both' and for_calc=1;*keep only police data; run; I_cat data for_comp2; set bit.For_multi(where= (y_origin^='G_poli')) out_p_mu; run; *run trauma data model and create catching probabilities; proc logistic data=for_comp2; class T_gender T_age_c T_month_4 yehida_2 T_sug_derehA T_Sug_p3 T_Sug_nifga_A T_SUG_REHEV_A I_cat/param=glm; model y_multi= T_gender T_age_c yehida_2| T_sug_derehA T_Sug_p3 T_Sug_nifga_A / rsquare link=glogit; output out=out_p_tr p=p_tr; run; data results; set out_p_tr; where for_calc=1;*keep only police data; run; %bg; *Calculate mekadmei nipuach; data nif; set results; p_TP=1-p_FP; p_final_tr=p_TP/p_tr; p_final_mu=p_TP/p_mu; run; *Calculate nifgaim estimates (sum = the yearly estimate of severe casualties; title "final estimators"; proc means data=nif sum; var p_final_tr p_final_mu; run; 81 I_cat
© Copyright 2024