המבנה הגורמי של מאפייני טקסט בשפה העברית הכתובה

‫המבנה הגורמי של שפה עברית כתובה‬
‫יעל שפרן‪ ,‬ענת בר‪-‬סימן‪-‬טוב‬
‫פרויקט השפה העברית )‪ ,(HLP‬מאל"ו‬
‫הכנס השביעי של אפי‪ ,2011 ,‬ירושלים‬
‫‪1‬‬
‫מה ההבדל בין שני הטקסטים?‬
‫‪.1‬‬
‫ציון גבוה‬
‫‪...‬לסיכום‪ ,‬אני מאמינה שבעניין‬
‫הזיופים יש להתחשב באינטרסים‬
‫של החברות הבינלאומיות אשר הן‬
‫הנפגעות הישירות מתרבות זו‪ .‬יש‬
‫לצמצם את האפשרות לזיופים ע"י‬
‫דרכים שונות כמו הגשת תביעות‬
‫נגד המזייפים או להוריד באופן‬
‫ניכר את מחירי המוצרים‬
‫המקוריים‪ .‬בשיטה זו‪ ,‬יהנו גם‬
‫היצרנים וגם הצרכנים מן המוצרים‬
‫בצורה היעילה ביותר‪.‬‬
‫‪.2‬‬
‫ציון נמוך‬
‫‪...‬במאמר זה יש הבטים שונים‬
‫בנושא תופעת הזיופים בארץ‬
‫מצד אחד תופעת הזיופים טובה‬
‫כי זה יותר זול להוריד שירים‬
‫מהאינטרנט מאשר לקנות דיסק‬
‫מכורי וזה הרבה יותר זול לקנות‬
‫גי'נס מזויף של דיזל מאשר‬
‫לקנות את המקורי ב‪!!! ₪ 900 -‬‬
‫וזה גם יותר זול לקנות סרט צרוב‬
‫מאשר מקורי‬
‫* מתוך קורפוס חיבורים שכתבו תלמידי יב' דוברי עברית‬
‫‪2‬‬
‫מטקסט לאפיון כמותי‬
‫טקסט‬
‫‪.1‬‬
‫מאפייני טקסט כמותיים‬
‫ציון גבוה‬
‫‪...‬לסיכום‪ ,‬אני מאמינה שבעניין‬
‫הזיופים יש להתחשב באינטרסים‬
‫של החברות הבינלאומיות אשר הן‬
‫הנפגעות הישירות מתרבות זו‪ .‬יש‬
‫לצמצם את האפשרות לזיופים ע"י‬
‫דרכים שונות כמו הגשת תביעות‬
‫נגד המזייפים או להוריד באופן‬
‫ניכר את מחירי המוצרים‬
‫המקוריים‪2.‬ב‪.‬שיטה זו‪ ,‬יהנו גםציון נמוך‬
‫היצרנים וגם הצרכנים מן המוצרים‬
‫תר‪.‬זה יש הבטים שונים‬
‫במאמר‬
‫בצורה היעי‪...‬לה ביו‬
‫בנושא תופעת הזיופים בארץ‬
‫מצד אחד תופעת הזיופים‬
‫טובה כי זה יותר זול להוריד‬
‫שירים מהאינטרנט מאשר‬
‫לקנות דיסק מכורי וזה הרבה‬
‫יותר זול לקנות גי'נס מזויף של‬
‫דיזל מאשר לקנות את המקורי‬
‫ב‪ !!! ₪ 900 -‬וזה גם יותר זול‬
‫לקנות סרט צרוב מאשר מקורי‬
‫ממוצע‬
‫מילות‬
‫קישור‬
‫במשפט‬
‫גיוון‬
‫לקסמות‬
‫‪7.3‬‬
‫‪5.8‬‬
‫‪%‬‬
‫מילים‬
‫נדירות‬
‫אורך‬
‫ממוצע‬
‫של‬
‫משפט‬
‫‪%‬מילים ‪%‬‬
‫באורך ‪ 6‬פעלים‬
‫בסביל‬
‫ומעלה‬
‫ציון גבוה ‪0.37‬‬
‫‪14.7‬‬
‫‪0.33‬‬
‫‪0.05‬‬
‫‪2.5‬‬
‫ציון נמוך ‪0.28‬‬
‫‪17.4‬‬
‫‪0.21‬‬
‫‪0‬‬
‫‪1.2‬‬
‫‪3‬‬
‫קיימים מאות מדדים כמותיים שניתן‬
‫להשתמש בהם לאפיון טקסט‬
‫‪4‬‬
‫דוגמאות למאפיינים כמותיים של טקסט‬
‫משתני‬
‫שטח*‬
‫ƒ ‪ #‬מילים‬
‫ƒ ממוצע‬
‫אורכי‬
‫משפט‬
‫ƒ ממוצע‬
‫אורכי מילים‬
‫לקסיקליים‬
‫מורפולוגיים‬
‫ƒ ‪%‬המילים‬
‫הנדירות‬
‫בטקסט‬
‫ƒ ‪ %‬חלק‬
‫דיבר‬
‫מסוים )‪(19‬‬
‫ƒ ממוצע‬
‫השכיחויות‬
‫של מילים‬
‫בטקסט‬
‫ƒ ‪%‬בניינים‬
‫שונים )‪(8‬‬
‫ƒ ‪ %‬מילים‬
‫מקטגוריית‬
‫תוכן נתונה‬
‫ƒ ‪ #‬שעבודים‬
‫ממוצע‬
‫למשפט‬
‫ƒ ‪%‬שגיאות‬
‫הכתיב‬
‫ƒ ‪%‬שגיאות‬
‫התאם מין‬
‫ומספר‬
‫ƒ ‪%‬פעלים‬
‫בסביל‬
‫עד כה הגדרנו ‪133‬‬
‫*‬
‫תוכניים‬
‫תחביריים‬
‫דקדוקיים‬
‫מאפיינים‬
‫משתני שטח‪ -‬מאפיינים סטטיסטיים שאינם מצריכים ידע לשוני‪ ,‬ויכולים להעיד בעקיפין על ממדים לשוניים‬
‫‪5‬‬
‫כיצד עוברים מאוסף גדול של מאפיינים‬
‫למבנה קוהרנטי ומצומצם?‬
‫משתנים כמותיים‬
‫שטח‬
‫לקסיקליים‬
‫לקסיקליילם‬
‫מורפולוגיים‬
‫תוכןתוכן‬
‫תוכניים‬
‫תחבירי‬
‫תחבירי‬
‫תחביריים‬
‫לשוןלשון‬
‫דקדוקיים‬
‫שטח‬
‫שטח‬
‫מבנים תיאורטיים‬
‫בשפה )גורמים(‬
‫עושר לשוני‬
‫מורכבות‬
‫תחבירית‬
‫‪.‬‬
‫‪.‬‬
‫‪6‬‬
‫התרשמות לא שיטתית מקשרים בין מאפיינים‬
‫ממוצע מילות‬
‫קישור במשפט‬
‫‪2.5‬‬
‫‪1.2‬‬
‫אורך משפט‬
‫ממוצע‬
‫‪14.7‬‬
‫‪17.4‬‬
‫גיוון‬
‫סימני פיסוק‬
‫‪1.4‬‬
‫‪2.1‬‬
‫‪ %‬מילות תואר‬
‫‪0.14‬‬
‫‪0.12‬‬
‫‪%‬בנין פעל‬
‫‪0.47‬‬
‫‪0.57‬‬
‫‪%‬בנין נפעל‬
‫‪0.05‬‬
‫‪0.03‬‬
‫שם מאפיין‬
‫ערך בחיבור צ' גבוה‬
‫ערך בחיבור צ' נמוך‬
‫גיוון לקסמות‬
‫‪7.3‬‬
‫‪5.8‬‬
‫‪7‬‬
‫בחינה שיטתית של הקשרים בין מאפיינים‪:‬‬
‫ניתוח גורמים בשיטה לא אורתוגונאלית‬
‫המשתנים‪ 133 :‬מאפיינים כמותיים )לכל טקסט(‬
‫המדגם‪ 3 :‬קורפוסים של טקסטים‬
‫‪N‬‬
‫קורפוס ‪M1‬‬
‫חיבורים‪ :‬תלמידי י"ב‬
‫חיבורים‪ :‬מבחן יע"ל‬
‫טקסטים ערוכים‬
‫ממקורות שונים‬
‫דוברי עברית כשפת אם‬
‫דוברי עברית כשפה שנייה‬
‫‪639‬‬
‫‪668‬‬
‫‪985‬‬
‫‪8‬‬
‫מהלך העבודה‪ :‬ניתוח גורמים דו שלבי‬
‫שלב א'‬
‫ניתוח גורמים של ‪ 133‬מאפיינים ב‪ 3-‬קורפוסים‬
‫חקירת 'ההתנהגות' של כל מאפיין‬
‫אילו מאפיינים מתקבצים יחד על אותו גורם‬
‫מה ההתפלגות של כל מאפיין‬
‫מה המתאם של כל מאפיין עם רמת קושי של טקסט או עם‬
‫איכות כתיבה‬
‫)הטעינות על הגורמים(‬
‫צמצום וטיוב המאפיינים‬
‫שלב ב'‬
‫ניתוח גורמים מחודש של ‪ 72‬מאפיינים ב‪ 3-‬קורפוסים‬
‫הגדרה סופית של גורמים ותתי‪-‬גורמים‬
‫‪9‬‬
‫שלב א' ‪ :‬ניתוח גורמים‬
‫מתאמים עם ציון‬
‫הגורם עליו טעון המשתנה‬
‫המטען של המשתנה‬
‫יע"ל‬
‫יע"ל‬
‫‪M1‬‬
‫חיבורי יב'‬
‫‪M1‬‬
‫חיבורי יב'‬
‫מלא מדגם מדגם מלא מדגם מדגם מלא מלא מדגם מדגם מלא מדגם מדגם מלא חיבורי חיבורי‬
‫יב'‬
‫יע"ל‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2‬‬
‫משתנה )‪ 14‬משתנים(‬
‫‪M1‬‬
‫מס' מילים )תמניות(‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0.69 0.64 0.66‬‬
‫‪1 0.9‬‬
‫‪3 0.9‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫מספר מחרוזות )מילים‪ ,‬מספרים‬
‫‪ 0.69 0.64 0.68‬וסימני פיסוק (‬
‫מספר מילים שונות )תבניות(‬
‫‪1‬‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0.71 0.67 0.72‬‬
‫‪4 0.7 0.8 0.7 0.7 0.76 0.71 -0.37‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0.60 0.56 0.35‬‬
‫‪3 -0.4 -0.3 -0.4 -0.8 -0.6 -0.7 -0.33‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪-0.45 -0.39 -0.10‬‬
‫‪3 -0.4 -0.5 -0.5 -0.9 -0.7 -0.8 -0.55‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪-0.49 -0.48 -0.27‬‬
‫‪0.88‬‬
‫‪0.8 0.74‬‬
‫‪3 0.9 0.9 0.9 0.7‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0.79 0.73 0.74‬‬
‫‪0.8‬‬
‫‪3 0.9 0.9 0.8 0.6 0.66 0.61‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0.79 0.72 0.74‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪0.99‬‬
‫‪1 0.99 0.99‬‬
‫‪0.92‬‬
‫‪1 0.9 0.91 0.92‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫מס' משפטים‬
‫יחס תבניות לתמניות ‪-‬מחרוזות‬
‫יחס תבניות לתמניות ‪ -‬לקסמות‬
‫גיוון מחרוזות‬
‫גיוון לקסמות‬
‫‪10‬‬
‫שלב א' ‪ :1‬ניפוי מאפיינים‬
‫קריטריונים לניפוי מאפיין‪:‬‬
‫דמיון בדפוס המשקולות‬
‫דמיון בדפוס המתאמים עם הציון‬
‫עקביות במדדים בתוך קורפוסים ומעבר לקורפוסים‬
‫ייצוג של ישות לשונית דומה‬
‫מתאמים עם ציון‬
‫הגורם עליו טעון המשתנה‬
‫המטען של המשתנה‬
‫יע"ל‬
‫יע"ל‬
‫‪M1‬‬
‫חיבורי יב'‬
‫‪M1‬‬
‫חיבורי יב'‬
‫מלא מדגם מדגם מלא מדגם מדגם מלא מלא מדגם מדגם מלא מדגם מדגם מלא חיבורי חיבורי‬
‫יב'‬
‫יע"ל‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2‬‬
‫משתנה )‪ 14‬משתנים(‬
‫‪M1‬‬
‫מס' מילים )תמניות(‬
‫‪ 14‬מאפיינים‬
‫‪ 8‬מאפיינים‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0.69 0.64 0.66‬‬
‫‪1 0.9‬‬
‫‪3 0.9‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫מספר מחרוזות )מילים‪ ,‬מספרים‬
‫‪ 0.69 0.64 0.68‬וסימני פיסוק (‬
‫מספר מילים שונות )תבניות(‬
‫‪1‬‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0.71 0.67 0.72‬‬
‫‪4 0.7 0.8 0.7 0.7 0.76 0.71 -0.37‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0.60 0.56 0.35‬‬
‫‪3 -0.4 -0.3 -0.4 -0.8 -0.6 -0.7 -0.33‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪-0.45 -0.39 -0.10‬‬
‫‪3 -0.4 -0.5 -0.5 -0.9 -0.7 -0.8 -0.55‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪-0.49 -0.48 -0.27‬‬
‫‪0.88‬‬
‫‪0.8 0.74‬‬
‫‪3 0.9 0.9 0.9 0.7‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0.79 0.73 0.74‬‬
‫‪0.8‬‬
‫‪3 0.9 0.9 0.8 0.6 0.66 0.61‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0.79 0.72 0.74‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪0.99‬‬
‫‪1 0.99 0.99‬‬
‫‪0.92‬‬
‫‪1 0.9 0.91 0.92‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫מס' משפטים‬
‫יחס תבניות לתמניות ‪-‬מחרוזות‬
‫יחס תבניות לתמניות ‪ -‬לקסמות‬
‫גיוון מחרוזות‬
‫גיוון לקסמות‬
‫‪11‬‬
‫שלב א' ‪ :2‬בדיקת שונות המאפיינים‬
‫איחוד וניפוי‬
‫מאפיינים בעלי שונות נמוכה אוחדו עם מאפיינים‬
‫דומים מבחינת תפקיד לשוני‪ .‬למשל‪:‬‬
‫אוחדו סימני פיסוק ייחודיים בסוף משפט )!‪(?+‬‬
‫אוחדו סימני פיסוק באמצע משפט )‪.( : + ; + ,‬‬
‫שיעור סימני שאלה‬
‫‪8,‬‬
‫שיעור סימני קריאה‬
‫‪8‬‬
‫‪,‬‬
‫איחוד סימני שאלה וקריאה‬
‫‪9,‬‬
‫‪12‬‬
‫שלב א' ‪ :3‬טיפול בערכים חריגים‬
‫קיים ערך חריג‬
‫‪R=0.42‬‬
‫תיקון לערך חריג‬
‫‪R=0.86‬‬
‫מקורות לערכים חריגים‪ :‬שונות נמוכה של המאפיין או‬
‫טקסט קצר מאוד‪.‬‬
‫פתרון‪ :‬הגבלה של טווח ההשתנות של ציוני התקן של‬
‫כל מאפייני הטקסט ל‪ ± 3 -‬סטיות תקן‬
‫‪13‬‬
‫סיכום שלב א'‬
‫הוסרו ‪ 73‬מאפיינים מתוך ‪133‬‬
‫נוספו ‪ 12‬משתנים )שופצו או אוחדו(‬
‫סה"כ התקבלו ‪ 72‬משתנים‬
‫‪14‬‬
‫שלב ב'‪ :‬ניתוח גורמים של ‪ 72‬מאפיינים‬
‫כמה גורמים משמעותיים קיימים?‬
‫‪ 15‬גורמים מסבירים ‪ 72%-61%‬מהשונות בשלושת‬
‫הקורפוסים‬
‫‪EV‬‬
‫‪Eigenvalue‬‬
‫‪) Eigenvalues‬קורפוס ‪( M1‬‬
‫‪18‬‬
‫‪16‬‬
‫‪14‬‬
‫‪12‬‬
‫‪8‬‬
‫‪EV‬‬
‫‪10‬‬
‫‪6‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪80‬‬
‫‪70‬‬
‫‪60‬‬
‫‪50‬‬
‫‪40‬‬
‫‪30‬‬
‫‪20‬‬
‫‪10‬‬
‫‪0‬‬
‫מס' גורם‬
‫מס' גורם‬
‫‪15‬‬
‫שלב ב'‪ :‬ניתוח גורמים של ‪ 72‬מאפיינים‬
‫אילו גורמים הם יציבים )בין ובתוך קורפוס(?‬
‫תיקוף צולב של הגורמים )בין ובתוך קורפוסים(‬
‫תוצאות‪ 3-4 :‬הגורמים הראשונים יציבים ועקביים‬
‫מתאם בין משקולת בתוך כל קורפוס‬
‫מתאם בין משקלות בתוך קורפוס‬
‫‪R‬‬
‫מתאם בין משקולת בין קורפוסים‬
‫מתאם בין משקלות בין קורפוסים‬
‫‪1.00‬‬
‫‪1.00‬‬
‫‪0.90‬‬
‫‪0.90‬‬
‫‪0.80‬‬
‫‪0.80‬‬
‫‪0.70‬‬
‫‪0.70‬‬
‫‪0.60‬‬
‫‪0.60‬‬
‫‪0.50‬‬
‫מס'‬
‫גורם ‪15‬‬
‫חיבורי יב'‬
‫יע"ל‬
‫‪0.10‬‬
‫‪0.00‬‬
‫‪10 11 12 13 14‬‬
‫‪9‬‬
‫‪8‬‬
‫‪7‬‬
‫‪6‬‬
‫‪5‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪ 4‬גורמים ראשונים )‪(r= 0.79 - 0.97‬‬
‫‪0‬‬
‫‪0.40‬‬
‫‪0.30‬‬
‫חיבורי יב ‪M1-‬‬
‫‪0.30‬‬
‫‪0.20‬‬
‫‪0.50‬‬
‫חיבורי יב‪ -‬יע"ל‬
‫‪0.40‬‬
‫‪M1‬‬
‫‪R‬‬
‫‪0.20‬‬
‫יע"ל ‪M1-‬‬
‫מס'‬
‫גורם‬
‫‪0.10‬‬
‫‪0.00‬‬
‫‪3‬‬
‫‪2‬‬
‫‪0‬‬
‫‪1‬‬
‫‪16‬‬
‫‪ 3‬גורמים ראשונים )‪(r= 0.52 - 0.9‬‬
‫גורם ‪ :1‬שכיחות מילים ודחיסות תוכנית‬
‫תת‪-‬גורם‬
‫גורם‬
‫‪ .1‬שיעור ‪ 1.1‬שיעור מילים‬
‫שכיחות‬
‫מילים‬
‫שכיחות‬
‫ודחיסות‬
‫תוכנית‬
‫משתנה‬
‫שכיחות ממוצעת של מחרוזת‬
‫שכיחות ממוצעת של לקסמה‬
‫אורך ממוצע של מחרוזת‬
‫שיעור מחרוזות באורך ‪ 10‬ומעלה‬
‫שיעור מחרוזות באורך ‪ 6‬ומעלה‬
‫‪ 1.2‬דחיסות תוכנית שיעור מילות פונקציה‬
‫‪ 1.3‬שמות תואר‬
‫‪ 1.4‬מילים עם‬
‫תחיליות‬
‫שיעור מילות תוכן‬
‫שיעור שמות תואר‬
‫שיעור מילים עם תחילית‬
‫‪ 1.5‬כינוי רומז‬
‫שיעור כינויים רומזים‬
‫‪ 1.6‬כינוי גוף‬
‫שיעור כינוי גוף‬
‫‪ 1.7‬כמתים‬
‫שיעור כמתים‬
‫‪ 1.8‬זאנר ספרותי‬
‫לילדים‪ -‬פועל‬
‫בתחילת משפט‬
‫שיעור משפטים הפותחים בפועל‬
‫‪17‬‬
‫‪19‬‬
‫ל‬
‫ל‬
‫ל‬
‫גורם ‪ :1‬הקשר בין שכיחות מילים לאורך מילים‬
‫תת‪-‬גורם‬
‫‪ 1.1‬שיעור מילים‬
‫שכיחות‬
‫משתנה‬
‫שכיחות ממוצעת של מחרוזת‬
‫שכיחות ממוצעת של לקסמה‬
‫אורך ממוצע של מחרוזת‬
‫שיעור מחרוזות באורך ‪ 6‬ומעלה‬
‫משקל‬
‫‪0.87‬‬
‫‪0.91‬‬
‫‪-0.89‬‬
‫‪-0.8‬‬
‫מאפיינים לקסיקליים‬
‫מאפייני שטח‬
‫תת הגורם תואם את חוק ‪ :Zipf‬ככל שמילה קצרה יותר כך היא שכיחה יותר‬
‫חוק ‪Zipf‬‬
‫שכיחות מילה‬
‫אורך מילה‬
‫‪18‬‬
‫גורם ‪ :2‬כמות הטקסט וגיוונו‬
‫גורם‬
‫תת‪-‬גורם‬
‫משתנה‬
‫‪ .2‬כמות‬
‫הטקסט‬
‫וגיוונו‬
‫‪ 2.1‬כמות‬
‫מחרוזת‬
‫לוגריתם של מס' המילים‬
‫‪ 2.2‬גיוון‬
‫לקסיקלי‬
‫מס' מילים שונות‬
‫גיוון מחרוזות‬
‫גיוון לקסמות‬
‫‪ 2.3‬הכרת‬
‫מילים‬
‫נדירות שונות שיעור לקסמות נדירות )תבנית(‬
‫שיעור מחרוזות נדירות )תבנית(‬
‫שכיחות ממוצעת של מחרוזות )תבנית(‬
‫שכיחות ממוצעת של לקסמה )תבנית(‬
‫גיוון לשוני מדד ‪Z‬‬
‫‪ 2.4‬גיוון‬
‫לשוני מדד ‪Z‬‬
‫גיוון לשוני מדד ‪D‬‬
‫‪ 2.5‬גיוון‬
‫לשוני מדד ‪D‬‬
‫גיוון מילות יחס‬
‫‪ 2.6‬גיוון‬
‫מילות יחס‬
‫‪S_LETTER_S‬‬
‫_‪TRING_LOG‬‬
‫‪S_LETTER_S‬‬
‫‪TRING_TYPE‬‬
‫‪S_STRING_DI‬‬
‫‪VIRSITY‬‬
‫_‪M_LEXEME‬‬
‫‪DIVIRSITY‬‬
‫‪S_TYPE_FRE‬‬
‫‪Q_AVG‬‬
‫‪S_TYPE_FRE‬‬
‫‪Q_LOW‬‬
‫‪M_LEXEME_T‬‬
‫_‪YPE_FREQ‬‬
‫‪AVG‬‬
‫‪S_FREQ_CU‬‬
‫‪RVE_ZIPF‬‬
‫‪S_TTR_CURV‬‬
‫‪E_D‬‬
‫‪M_PREPOSIT‬‬
‫‪ION_DIVIRSIT‬‬
‫‪Y‬‬
‫‪19‬‬
‫גורם ‪ :3‬משפטים ארוכים ‪/‬‬
‫מורכבות תחבירית בטקסטים תקניים‬
‫גורם‬
‫תת‪-‬גורם‬
‫משתנה‬
‫‪ .3‬משפטים‬
‫ארוכים ‪/‬‬
‫מורכבות‬
‫תחבירית‬
‫בטקסטים‬
‫תקניים‬
‫‪ 3.1‬משפטים‬
‫ארוכים‬
‫אורך משפט ממוצע‬
‫שיעור המשפטים הארוכים‬
‫במיוחד‬
‫שיעור המשפטים הקצרים‬
‫במיוחד‬
‫סטית התקן של אורכי‬
‫המשפטים‬
‫‪ 3.2‬מורכבות‬
‫תחבירית‬
‫בטקסטים תקניים‬
‫‪ 3-3‬מס'‬
‫שלילות גבוהה‬
‫במשפט‬
‫ממוצע מילות חיבור ושיעבוד‬
‫במשפט‬
‫ממוצע מילות יחס במשפט‬
‫שיעור המשפטים בעלי מס'‬
‫שלילות גדול מ‪1-‬‬
‫‪20‬‬
‫גורם ‪ :3‬הבדל בין טקסט ערוך לחיבור‬
‫מתאמים בין ציון חיבור ‪ /‬גיל קורא של טקסט למאפיינים‬
‫‪ 3.1‬משפטים ארוכים‬
‫אורך משפט ממוצע שיעור המשפטים‬
‫הארוכים במיוחד‬
‫‪ 3.2‬מורכבות תחבירית‬
‫ממוצע מילות חיבור‬
‫ושיעבוד במשפט‬
‫גיוון סימני פיסוק‬
‫ממוצע מילות יחס‬
‫במשפט‬
‫מתאם עם ציון‬
‫טקסט ערוך נרטיבי ‪M1‬‬
‫‪0.40‬‬
‫‪0.46‬‬
‫‪0.32‬‬
‫‪0.40‬‬
‫‪-0.22‬‬
‫חיבורי יב'‬
‫‪-0.04‬‬
‫‪-0.25‬‬
‫‪-0.05‬‬
‫‪0.02‬‬
‫‪0.17‬‬
‫משפטים ארוכים‬
‫חיבורים‪ :‬חוסר פיסוק‬
‫טקסט ערוך‪ :‬משפט מורכב‬
‫‪21‬‬
‫ולסיום‪..‬מעבר לתת גורמים‬
‫טקסט‬
‫‪.1‬‬
‫מאפייני טקסט כמותיים‪ :‬תת גורמים‬
‫ציון גבוה‬
‫‪...‬לסיכום‪ ,‬אני מאמינה שבעניין‬
‫הזיופים יש להתחשב באינטרסים‬
‫של החברות הבינלאומיות אשר הן‬
‫הנפגעות הישירות מתרבות זו‪ .‬יש‬
‫לצמצם את האפשרות לזיופים ע"י‬
‫דרכים שונות כמו הגשת תביעות‬
‫נגד המזייפים או להוריד באופן‬
‫ניכר את מחירי המוצרים‬
‫המקוריים‪2.‬ב‪.‬שיטה זו‪ ,‬יהנו גםציון נמוך‬
‫היצרנים וגם הצרכנים מן המוצרים‬
‫תר‪.‬זה יש הבטים שונים‬
‫במאמר‬
‫בצורה היעי‪...‬לה ביו‬
‫בנושא תופעת הזיופים בארץ‬
‫מצד אחד תופעת הזיופים‬
‫טובה כי זה יותר זול להוריד‬
‫שירים מהאינטרנט מאשר‬
‫לקנות דיסק מכורי וזה הרבה‬
‫יותר זול לקנות גי'נס מזויף של‬
‫דיזל מאשר לקנות את המקורי‬
‫ב‪ !!! ₪ 900 -‬וזה גם יותר זול‬
‫לקנות סרט צרוב מאשר מקורי‬
‫‪1.1‬‬
‫שיעור‬
‫מילים‬
‫שכיחות‬
‫‪3.2‬‬
‫‪2.2‬‬
‫מורכבות‬
‫גיוון‬
‫לקסיקלי תחבירית‬
‫ציון גבוה ‪2.3 - 1.17‬‬
‫ציון נמוך ‪0.2‬‬
‫‪- 3.1‬‬
‫‪- 0.7‬‬
‫‪- 1.83‬‬
‫‪22‬‬
‫סיכום‬
‫המבנה הגורמי של שפה עברית כתובה‬
‫או‬
‫איך מאפיינים טקסט?‬
‫ניתוח גורמים‪ -‬נושאים מתודולוגים‬
‫ניפוי מאפיינים‬
‫בדיקת התפלגות המאפיינים ואיחוד מאפיינים‬
‫טיפול במקרים חריגים‬
‫גורמים בשפה העברית‪:‬‬
‫סה"כ ‪ 15‬גורמים‪ ,‬שחולקו ל‪ 12 :‬תת גורמים ‪ 26 +‬מאפיינים בדידים‪.‬‬
‫שלושת הגורמים הראשוניים הם היציבים ביותר‬
‫תת גורם‬
‫‪1.1‬‬
‫‪1.2‬‬
‫‪2.1‬‬
‫‪2.2‬‬
‫‪2.3‬‬
‫‪3.1‬‬
‫‪3.2‬‬
‫שם הגורם‬
‫שיעור מילים שכיחות‬
‫דחיסות תוכנית‬
‫כמות מחרוזת‬
‫גיוון לקסיקלי‬
‫הכרת מילים נדירות שונות‬
‫משפטים ארוכים‬
‫מורכבות תחבירית בטקסטים תקניים‬
‫‪23‬‬
‫תודה‬