סיוע בפירוש של מדדי הסכמה בין מעריכים

‫סיוע בפירוש של מדדי הסכמה‬
‫בין מעריכים‬
‫צור קרליץ‬
‫דוד בודסקו‬
‫הסכמה בין מעריכים‬
‫‪‬‬
‫שני שופטים )או יותר( מעריכים אובייקטים ע"י שיוכם‬
‫לקטגוריות‪.‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫ציינון על פי מחוון של תשובה לשאלה פתוחה‬
‫הערכת ביצוע )פרוייקט גמר‪ ,‬מטלת כתיבה(‬
‫אבחון קליני‬
‫קידוד תוכני של טקסט‬
‫‪...‬‬
‫‪2‬‬
‫טבלת שכיחויות‬
‫שופט ב'‬
‫נמוך‬
‫שופט א'‬
‫בינוני‬
‫גבוה‬
‫סה"כ‬
‫נמוך‬
‫‪15‬‬
‫‪2‬‬
‫‪0‬‬
‫‪17‬‬
‫בינוני‬
‫‪5‬‬
‫‪20‬‬
‫‪4‬‬
‫‪29‬‬
‫גבוה‬
‫‪0‬‬
‫‪2‬‬
‫‪16‬‬
‫‪18‬‬
‫סה"כ‬
‫‪20‬‬
‫‪24‬‬
‫‪20‬‬
‫‪64‬‬
‫‪23%‬‬
‫‪3%‬‬
‫‪0%‬‬
‫‪27%‬‬
‫‪8%‬‬
‫‪31%‬‬
‫‪6%‬‬
‫‪45%‬‬
‫‪0%‬‬
‫‪3%‬‬
‫‪25%‬‬
‫‪28%‬‬
‫‪31%‬‬
‫‪38%‬‬
‫‪31%‬‬
‫‪100%‬‬
‫‪3‬‬
‫טבלת שכיחויות‬
‫שופט ב'‬
‫שופט א'‬
‫נמוך‬
‫בינוני‬
‫גבוה‬
‫סה"כ‬
‫נמוך‬
‫‪n11‬‬
‫‪n12‬‬
‫‪n13‬‬
‫‪n1+‬‬
‫בינוני‬
‫‪n21‬‬
‫גבוה‬
‫‪n31‬‬
‫סה"כ‬
‫‪n+1‬‬
‫‪N‬‬
‫‪4‬‬
‫טבלת שכיחויות‬
‫שופט ב'‬
‫שופט א'‬
‫נמוך‬
‫בינוני‬
‫גבוה‬
‫סה"כ‬
‫נמוך‬
‫‪n11‬‬
‫‪n12‬‬
‫‪n13‬‬
‫‪n1+‬‬
‫בינוני‬
‫‪n21‬‬
‫‪n22‬‬
‫‪n23‬‬
‫‪n2+‬‬
‫גבוה‬
‫‪n31‬‬
‫‪n32‬‬
‫‪n33‬‬
‫‪n3+‬‬
‫סה"כ‬
‫‪n+1‬‬
‫‪n+2‬‬
‫‪n+3‬‬
‫‪N‬‬
‫‪5‬‬
‫טבלת שכיחויות‬
‫שופט ב'‬
‫שופט א'‬
‫נמוך‬
‫בינוני‬
‫גבוה‬
‫סה"כ‬
‫נמוך‬
‫‪n11‬‬
‫‪n12‬‬
‫‪n13‬‬
‫‪n1+‬‬
‫בינוני‬
‫‪n21‬‬
‫‪n22‬‬
‫‪n23‬‬
‫‪n2+‬‬
‫גבוה‬
‫‪n31‬‬
‫‪n32‬‬
‫‪n33‬‬
‫‪n3+‬‬
‫סה"כ‬
‫‪n+1‬‬
‫‪n+2‬‬
‫‪n+3‬‬
‫‪N‬‬
‫התפלגות שולית של שופט א'‬
‫‪6‬‬
‫טבלת שכיחויות‬
‫שופט ב'‬
‫שופט א'‬
‫נמוך‬
‫בינוני‬
‫גבוה‬
‫סה"כ‬
‫נמוך‬
‫‪n11‬‬
‫‪n12‬‬
‫‪n13‬‬
‫‪n1+‬‬
‫בינוני‬
‫‪n21‬‬
‫‪n22‬‬
‫‪n23‬‬
‫‪n2+‬‬
‫גבוה‬
‫‪n31‬‬
‫‪n32‬‬
‫‪n33‬‬
‫‪n3+‬‬
‫סה"כ‬
‫‪n+1‬‬
‫‪n+2‬‬
‫‪n+3‬‬
‫‪N‬‬
‫התפלגות שולית של שופט א'‬
‫התפלגות שולית של שופט ב'‬
‫‪7‬‬
‫טבלת שכיחויות‬
‫שופט ב'‬
‫שופט א'‬
‫נמוך‬
‫בינוני‬
‫גבוה‬
‫סה"כ‬
‫נמוך‬
‫‪n11‬‬
‫‪n12‬‬
‫‪n13‬‬
‫‪n1+‬‬
‫בינוני‬
‫‪n21‬‬
‫‪n22‬‬
‫‪n23‬‬
‫‪n2+‬‬
‫גבוה‬
‫‪n31‬‬
‫‪n32‬‬
‫‪n33‬‬
‫‪n3+‬‬
‫סה"כ‬
‫‪n+1‬‬
‫‪n+2‬‬
‫‪n+3‬‬
‫‪N‬‬
‫התפלגות שולית של שופט א'‬
‫התפלגות שולית של שופט ב'‬
‫התפלגות משותפת = הסכמה‬
‫‪8‬‬
‫אחוז ההסכמה הנצפית‬
‫‪Proportion Observed Agreement‬‬
‫‪Proportion Raw Agreement‬‬
‫שופט ב'‬
‫נמוך‬
‫נמוך‬
‫שופט א'‬
‫בינוני‬
‫גבוה‬
‫סה"כ‬
‫בינוני‬
‫גבוה‬
‫סה"כ‬
‫‪n11‬‬
‫‪n22‬‬
‫‪n33‬‬
‫‪N‬‬
‫‪ = A‬אחוז ההסכמה הנצפית = ‪(n11+n22+n33)/N‬‬
‫‪9‬‬
‫אחוז ההסכמה הצפויה )אקראית(‬
‫‪Proportion Expected Agreement‬‬
‫מהו שיעור ההסכמה הצפויה‬
‫באופן מקרי בלבד?‬
‫שופט ב'‬
‫נמוך‬
‫נמוך‬
‫שופט א'‬
‫בינוני‬
‫‪E11‬‬
‫בינוני‬
‫‪n1+‬‬
‫‪E22‬‬
‫גבוה‬
‫סה"כ‬
‫גבוה‬
‫‪n+1‬‬
‫סה"כ‬
‫‪n+2‬‬
‫‪n2+‬‬
‫‪E33‬‬
‫‪n3+‬‬
‫‪n+3‬‬
‫‪N‬‬
‫‪E11= (n1+×n+1)/N‬‬
‫‪ =E‬אחוז ההסכמה הצפויה = ‪(E11+E22+E33)/N‬‬
‫‪10‬‬
‫מדד הקאפה של כהן‬
‫‪=100%‬‬
‫סה"כ‬
‫)‪(Cohen, 1960‬‬
‫קאפה מייצג את מידת ההסכמה מעבר‬
‫להסכמה הצפויה באופן מקרי‬
‫הסה"כ‬
‫המתוקן‬
‫‪=A‬‬
‫‪ %‬נצפה‬
‫‪A E‬‬
‫‪‬‬
‫‪1 E‬‬
‫מרכיב ההסכמה‬
‫המתוקן‬
‫‪=E‬‬
‫‪ %‬אקראי‬
‫מהו גודלו של מרכיב ההסכמה המתוקן‬
‫)‪ (chance corrected‬מתוך הסה"כ המתוקן?‬
‫‪11‬‬
‫מדד הקאפה של כהן‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫)‪(Cohen, 1960‬‬
‫‪ κ=1‬אך ורק כאשר ישנה הסכמה מלאה‪,‬‬
‫כלומר ‪.A=1‬‬
‫‪A E‬‬
‫‪‬‬
‫‪ κ=0‬אך ורק כאשר ההסכמה הנצפית‬
‫‪1 E‬‬
‫זהה להסכמה הצפויה‪ ,‬כלומר ‪.A=E‬‬
‫‪ κ‬יכול להיות שלילי אבל מצב זה הוא‬
‫נדיר‪.‬‬
‫‪‬‬
‫‪12‬‬
‫קושי במתן פרשנות לקאפה‬
‫‪70‬‬
‫‪4‬‬
‫‪3‬‬
‫‪77‬‬
‫‪26‬‬
‫‪4‬‬
‫‪3‬‬
‫‪33‬‬
‫‪22‬‬
‫‪0‬‬
‫‪0‬‬
‫‪22‬‬
‫‪4‬‬
‫‪4‬‬
‫‪4‬‬
‫‪12‬‬
‫‪4‬‬
‫‪26‬‬
‫‪4‬‬
‫‪34‬‬
‫‪0‬‬
‫‪34‬‬
‫‪0‬‬
‫‪34‬‬
‫‪3‬‬
‫‪4‬‬
‫‪4‬‬
‫‪11‬‬
‫‪3‬‬
‫‪4‬‬
‫‪26‬‬
‫‪33‬‬
‫‪22‬‬
‫‪0‬‬
‫‪22‬‬
‫‪44‬‬
‫‪77‬‬
‫‪12‬‬
‫‪11‬‬
‫‪100‬‬
‫‪33‬‬
‫‪34‬‬
‫‪33‬‬
‫‪100‬‬
‫‪44‬‬
‫‪34‬‬
‫‪22‬‬
‫‪100‬‬
‫‪78%‬‬
‫‪A‬‬
‫‪78%‬‬
‫‪A‬‬
‫‪78%‬‬
‫‪A‬‬
‫‪62%‬‬
‫‪E‬‬
‫‪33%‬‬
‫‪E‬‬
‫‪31%‬‬
‫‪E‬‬
‫‪0.42‬‬
‫‪κ‬‬
‫‪0.67‬‬
‫‪κ‬‬
‫‪0.68‬‬
‫‪κ‬‬
‫התפלגויות שוליות‬
‫דומות ומוטות )ייצוג יתר(‬
‫התפלגויות שוליות‬
‫דומות ואחידות‬
‫התפלגויות שוליות שונות‬
‫‪13‬‬
‫קאפה מושפעת מההתפלגויות השוליות‬
‫‪‬‬
‫‪‬‬
‫אחוז ההסכמה הצפויה‪ ,E ,‬מחושב על פי ההתפלגויות השוליות‪.‬‬
‫השוליים מגבילים את הטווח האפשרי של אחוז ההסכמה הנצפית‪.‬‬
‫‪ =U‬אחוז הסכמה מקסימלי‬
‫‪70‬‬
‫‪20‬‬
‫‪10‬‬
‫‪80‬‬
‫‪15‬‬
‫‪5‬‬
‫‪100‬‬
‫‪14‬‬
‫קאפה מושפעת מההתפלגויות השוליות‬
‫‪‬‬
‫‪‬‬
‫אחוז ההסכמה הצפויה‪ ,E ,‬מחושב על פי ההתפלגויות השוליות‪.‬‬
‫השוליים מגבילים את הטווח האפשרי של אחוז ההסכמה הנצפית‪.‬‬
‫‪ =U‬אחוז הסכמה מקסימלי‬
‫‪70‬‬
‫‪70‬‬
‫‪15‬‬
‫‪80‬‬
‫‪50‬‬
‫‪5‬‬
‫‪10‬‬
‫‪5‬‬
‫‪100‬‬
‫‪ minn‬‬
‫‪1‬‬
‫‪1‬‬
‫‪N‬‬
‫‪U‬‬
‫‪70‬‬
‫‪0‬‬
‫‪20‬‬
‫‪15‬‬
‫‪, n1   90%‬‬
‫‪ =L‬אחוז הסכמה מינימלי‬
‫‪80‬‬
‫‪15‬‬
‫‪20‬‬
‫‪0‬‬
‫‪10‬‬
‫‪5‬‬
‫‪100‬‬
‫‪ max0, n1  n1  N   50%‬‬
‫‪1‬‬
‫‪N‬‬
‫‪L‬‬
‫‪15‬‬
‫מה משפיע על טווח ההסכמה האמפירי?‬
‫‪‬‬
‫‪‬‬
‫כאשר השוליים זהים‪ U ,‬שווה ל ‪.100%‬‬
‫‪ U‬קטן ככל שהמרחק בין ההתפלגויות השוליות גדל‪.‬‬
‫‪ ni ‬‬
‫‪‬‬
‫‪‬‬
‫‪i‬‬
‫‪n‬‬
‫‪1‬‬
‫‪distance ‬‬
‫‪N‬‬
‫‪ L‬בד"כ שווה לאפס‪.‬‬
‫‪ L‬גדול מאפס רק כאשר מרבית השיפוטים נופלים‬
‫בקטגוריה אחת‪.‬‬
‫‪16‬‬
‫מהו השלם?‬
‫‪100%‬‬
‫‪=U‬‬
‫‪ %‬מקסימלי‬
‫‪=U-L‬‬
‫הטווח האמפירי של‬
‫אחוז ההסכמה‬
‫‪=100%‬‬
‫סה"כ‬
‫‪=A‬‬
‫‪ %‬נצפה‬
‫‪=E‬‬
‫‪ %‬אקראי‬
‫הטווח התיאורטי‬
‫של אחוז ההסכמה‬
‫‪=L‬‬
‫‪ %‬מינימלי‬
‫‪17‬‬
‫סילום מחדש של אחוזי הסכמה‬
‫‪100%‬‬
‫‪=U‬‬
‫‪ %‬מקסימלי‬
‫‪=A‬‬
‫‪ %‬נצפה‬
‫‪=E‬‬
‫‪ %‬אקראי‬
‫‪=U-L‬‬
‫הטווח האמפירי של‬
‫אחוז ההסכמה‬
‫‪A L‬‬
‫‪U L‬‬
‫‪A ‬‬
‫‪EL‬‬
‫‪E ‬‬
‫‪U L‬‬
‫מהו שיעור ההסכמה מתוך טווח‬
‫הערכים האפשרי בהינתן‬
‫ההתפלגויות השוליות?‬
‫‪ %‬הסכמה נצפית מותנת‪-‬שוליים‬
‫‪ %‬הסכמה צפויה מותנת‪-‬שוליים‬
‫‪=L‬‬
‫‪ %‬מינימלי‬
‫‪18‬‬
‫מדד קאפה מותנה‪-‬שוליים‬
‫‪A L E  L‬‬
‫‪A L  E  L‬‬
‫‪‬‬
‫‪U L‬‬
‫‪ U L U L ‬‬
‫‪‬‬
‫‪EL‬‬
‫‪U LEL‬‬
‫‪1‬‬
‫‪U L‬‬
‫‪U L‬‬
‫‪A E‬‬
‫‪ ‬‬
‫‪U E‬‬
‫‪A  E ‬‬
‫‪ ‬‬
‫‪‬‬
‫‪1  E‬‬
‫מודד את ההסכמה מעבר לצפוי באופן מקרי‬
‫ובהינתן ההסכמה המקסימלית האפשרית‬
‫‪ κ′‬תלוי באחוז‬
‫ההסכמה המקסימלי‬
‫‪19‬‬
‫דוגמה לשימוש ב ‪κ′‬‬
‫דוגמה א'‬
‫‪28‬‬
‫‪8‬‬
‫‪2‬‬
‫‪38‬‬
‫‪8‬‬
‫‪20‬‬
‫‪8‬‬
‫‪36‬‬
‫‪64% =A‬‬
‫‪34% =E‬‬
‫‪2‬‬
‫‪8‬‬
‫‪16‬‬
‫‪26‬‬
‫דוגמה ב'‬
‫‪38‬‬
‫‪36‬‬
‫‪26‬‬
‫‪100‬‬
‫‪0% =L‬‬
‫‪100% =U‬‬
‫‪0.45 =κ‬‬
‫‪28‬‬
‫‪14‬‬
‫‪6‬‬
‫‪48‬‬
‫‪4‬‬
‫‪20‬‬
‫‪8‬‬
‫‪32‬‬
‫‪64% =A‬‬
‫‪34% =E‬‬
‫‪0‬‬
‫‪4‬‬
‫‪16‬‬
‫‪20‬‬
‫‪32‬‬
‫‪38‬‬
‫‪30‬‬
‫‪100‬‬
‫‪0% =L‬‬
‫‪84% =U‬‬
‫‪0.46 =κ‬‬
‫‪20‬‬
‫דוגמה לשימוש ב ‪κ′‬‬
‫דוגמה א'‬
‫‪28‬‬
‫‪8‬‬
‫‪2‬‬
‫‪38‬‬
‫‪=A‬‬
‫‪=E‬‬
‫‪=A′‬‬
‫‪=E′‬‬
‫‪8‬‬
‫‪20‬‬
‫‪8‬‬
‫‪36‬‬
‫‪64%‬‬
‫‪34%‬‬
‫‪64%‬‬
‫‪34%‬‬
‫‪2‬‬
‫‪8‬‬
‫‪16‬‬
‫‪26‬‬
‫‪=L‬‬
‫‪=U‬‬
‫‪=κ‬‬
‫‪=κ′‬‬
‫דוגמה ב'‬
‫‪38‬‬
‫‪36‬‬
‫‪26‬‬
‫‪100‬‬
‫‪0%‬‬
‫‪100%‬‬
‫‪0.45‬‬
‫‪0.45‬‬
‫‪28‬‬
‫‪14‬‬
‫‪6‬‬
‫‪48‬‬
‫‪=A‬‬
‫‪=E‬‬
‫‪=A′‬‬
‫‪=E′‬‬
‫‪4‬‬
‫‪20‬‬
‫‪8‬‬
‫‪32‬‬
‫‪64%‬‬
‫‪34%‬‬
‫‪76%‬‬
‫‪40%‬‬
‫‪0‬‬
‫‪4‬‬
‫‪16‬‬
‫‪20‬‬
‫‪=L‬‬
‫‪=U‬‬
‫‪=κ‬‬
‫‪=κ′‬‬
‫‪32‬‬
‫‪38‬‬
‫‪30‬‬
‫‪100‬‬
‫‪0%‬‬
‫‪84%‬‬
‫‪0.46‬‬
‫‪0.60‬‬
‫‪ κ′‬מראה שמידת ההסכמה הנצפית היא מפתיעה )לטובה(‬
‫בהינתן ההבדלים בין השופטים‬
‫‪21‬‬
‫פרשנות ל‪κ′ -‬‬
‫‪‬‬
‫‪ κ′‬מייצג את אחוז ההסכמה מעבר למקריות בהינתן‬
‫שהשופטים אינם מסכימים על ההתפלגות השולית‪.‬‬
‫‪‬‬
‫‪‬‬
‫‪ κ′=1‬אפשרי גם אם לא כל המקרים נמצאים על האלכסון‪.‬‬
‫‪ κ′‬מייצג את מדד הקאפה שהיה מתקבל אם הטווח‬
‫האמפירי היה ‪.100%‬‬
‫‪‬‬
‫‪‬‬
‫'‪ A‬ו '‪ E‬מייצגים את הערכים המקבילים בטבלה ב ‪ L=0‬ו ‪.U=1‬‬
‫ניתן להשוות מדדי הסכמה מטבלאות עם שוליים שונים‪.‬‬
‫‪22‬‬
‫סיכום והמלצות‬
‫‪‬‬
‫כדאי לדווח על מידת הדימיון בין ההתפלגויות השוליות‪.‬‬
‫‪n‬‬
‫‪1‬‬
‫‪N‬‬
‫‪‬‬
‫לדוגמה‪ ,‬מרחק אבסולוטי‬
‫‪‬‬
‫אפשר לדווח את ‪ L‬ו ‪ U‬ולאפיין את השפעתם על ‪ A‬ו ‪.E‬‬
‫‪ ni ‬‬
‫‪i‬‬
‫‪‬‬
‫אם ‪ L=0‬ו ‪ ,U=1‬הפרשנות של קאפה אינה בעייתית‪.‬‬
‫‪‬‬
‫בכל מקרה בו ‪ U<1‬מומלץ לדווח את ‪ κ′‬ולהשוות את‬
‫המסקנות המתקבלות על בסיס מדד זה לעומת קאפה‪.‬‬
‫‪23‬‬
24