!Adapted with permission from Brett Keller. Thank you Brett
השבוע הייתי צריכה להעביר הרצאה קצרה על סטטיסטיקה עבור כמה מחברי הרופאים. כידוע, רופאים הם אנשים טובים, יפי נפש ועוזרים לזולת, אבל רובם לא מבינים מהי התפלגות נורמלית או איך מזווגים שני מדגמים.
ההרצאה היתה בסדר, ואפילו הצלחתי להעביר אותה בעזרת לוח מחיק ושני טושים צבעוניים, הוכחה לכך שבמתמטיקה לא צריך מצגות מפונפנות אלא רק סבלנות. מה שהעציב אותי היה שלא יכולתי להשתמש בדוגמאות ז'אנריות, דוקא בשבוע שבו פורסמה רשומה מצוינת שמדגימה איך ניתן ליישם שיטות סטטיסטיות מתקדמות על מנת לשרוד במשחקי הרעב.
למי שלא מכיר, "משחקי הרעב" היא סדרת ספרים שעובדה לקולנוע. באופן אישי אני מאד אוהבת את הספרים, ואף כתבתי על כך במקומות אחרים (כרך 1, כרך 2, כרך 3).הספרים עוקבים אחרי קטניס אוורדין, נערה בת 16 שנבחרת להשתתף במשחק ריאליטי אכזרי במסגרתו נערים ונערות צריכים להאבק אחד בשני עד המוות, כשהאחרון ששורד הוא המנצח. בסך הכל משתתפים בכל שנה 24 בני נוער, כשהסיכויים שלהם לנצח משתנים על פי גילם, הכשרתם, המקום ממנו הם הגיעו והמודעות שלהם לשימוש באמצעי התקשורת שמסקרים את המשחקים. בדיוק כמו בכל תוכנית ריאליטי.
ברט קלר הוא אפידמיולוג בהתהוות בעל בלוג חמוד מאד, שהחליט להחיל שיטות סטטיסטיות מתקדמות על מנת לנבא את היכולת לשרוד במשחקי הרעב. למה? כי הוא חובב מדע בדיוני וחובב אפידמיולוגיה שחושב שראוי להפיץ את בשורת הסטטיסטיקה ושימושיה ברחבי העולם. בדיוק כמוני!
לכן, לאחר קבלת רשות מברט, להלן הדברים שרציתי להציג לחברי הרופאים אך לא יכולתי בשל מוסכמות חברתיות.
מבחן ראשון – מי מרמה ומי לא?
ראשית יש להגדיר את מרחב המדגם. הנתונים בספר הראשון מתייחסים ל-24 המועמדים בשנה ה-74 שבה נערכים משחקי הרעב. לגבי כל המועמדים ידוע המקום ממנו הגיעו, גילם, מינם, וכמובן – האם הם ניצחו במשחקים או לא. ברט השווה בין הנתונים בסרט לבין הנתונים בספר, והזין את כל הנתונים האלה לטבלה נחמדה שאפשר לראות כאן.
השאלה הראשונה שברט שאל היא האם ההגרלה שבוחרת את המתנדבים למשחקי הרעב אכן שווה עבור כך המשתתפים, או שמא מנהלי המשחק מתמרנים אותה בצורה כלשהי. אם ההגרלה שווה אז צריך להיות מספר שווה פחות או יותר של משתתפים מכל שכבת גיל. אבל ההגרלה לא באמת שווה (לא מתפלגת בצורה אחידה, כפי שתיקן יוסי לוי) – ככל שמשתתף מבוגר יותר כך שמו מוכנס פעמים רבות יותר להגרלה, כחלק מחוקי המשחק. כמו כן חלק מהמשתתפים קונים מנות מזון בתמורה להכנסת שמם להגרלה במקום אחרים, וחלקם בכלל מתנדבים למשחקים, כך שנוצרת הטיה לכוון שחקנים מבוגרים יותר שצריכים לדאוג למשפחה שלהם (או כאלה שרודפים אחרי התהילה שבלהופיע בתוכנית ריאליטי).
כך נוצר הגרף הבא:
בגרף ניתן לראות בירוק את המתנדבים להשתתף במשחקים ובאדום את אלה שהוגרלו להשתתף בהם. הקו הכחול הוא ניבוי של מה שהיה אמור לקרות אילו ההגרלה היתה אקראית לחלוטין ללא התערבויות.
כמו שניתן לראות – יש שוני ברור בין מה שצפוי לקרות לבין המציאות בסבב של משחקי הרעב המתואר בספר. יש יותר משתתפים בגילאי 15-17 מהצפוי ופחות בשאר הגילאים האחרים.
"אה-הה!" יגיד לעצמו הקורא הנבון, "יש כאן בעיה!"
וברט ואני נשיב – "נכון, אבל מדגם של 24 אנשים הוא קטן, ויש לבדוק האם ההבדל מובהק מבחינה סטטיסטית (כלומר – ברמת בטחון של 95% יש הבדל בין הקבוצות), או שמדובר בשונות שנובעת מצורת הדגימה".
אבל אנחנו לא נגיד את זה באמת כי אנחנו מנסים לבנות כאן מודל סטטיסטי מגניב ולא לבלבל את כולם עם משפטים מורכבים.
המבחן הסטטיסטי שמיועד להשוות בין המספרים הצפויים לבין מה שמתקבל במציאות נקרא חי בריבוע. כאשר מזינים את הנתונים מתברר שההבדל איננו מובהק. כלומר, בבטחון של 95% ניתן להגיד שמנהלי המשחק לא היטו את התוצאות ובני הנוער שהשתתפו בסבב המשחקים ה-74 היו בהתאם למה שהיה צפוי להתקבל בצורה אקראית, בלי קשר להתנדבות. כמובן שיש בעיה מובנית במחקר הזה מכיוון שאין לנו נתונים לגבי כל המשתתפים בכל המשחקים, ומדובר במדגם מאד קטן.
יאי! הצלחנו להוכיח שאין רמאות בחלק של בחירת המשתתפים!
לא שזה עוזר לנו במיוחד כי אנחנו יודעים שלאחר מכן המנהלים מרמים בלי סוף ומשנים את חוקי המשחק על מנת להרוויח רייטינג. אבל הי – לפחות בשלב הזה העולם עדיין הוגן יחסית.
מבחן שני – האם תשרוד במשחקים?
אחד השימושים הנפוצים ביותר בכלים סטטיסטיים ברפואה קשור ליכולת הניבוי של השרדות. ליתר דיוק – כמה זמן אדם עם נתונים מסוימים יחיה. למשל, כמה זמן מהאבחנה ישרוד אדם שחלה בצהבת C (מחלה חסרת מרפא שהורסת את הכבד וגורמת לסרטן בשיעורים ניכרים). או, כמה זמן מהתחלת הטיפול נגד שחפת צפוי שאדם יחלים.
ברט הזין את נתוני השחקנים ובדק כמה זמן מהכניסה למשחק שרדו המשתתפים. הבדיקה הראשונה מאד פשוטה, והיא "סופרת" כמה אנשים חיים בכל רגע נתון במשחק. כל "מדרגה" היא אדם שנעלם (או שנרצח באכזריות על ידי המשתתפים האחרים).
הפס האדום הוא הקרייריסטים – אלה שהתנדבו להשתתף במשחקים כדי לזכות בתהילה ועושר. הפס הכחול הוא בני הנוער הרגילים, אלה שהוגרלו למשחקים ומבלים את רוב הזמן בבריחה ו/או להטבח על ידי הקרייריסטים. אפשר לראות את המדרגה הברורה ביום הראשון שבו המוני אנשים רגילים נעלמים מהגרף, ואילו הקרייריסטים מחזיקים מעמד היטב. רק מהיום העשירי הסיפור מתאזן.
השאלה האחרונה – מה המנהלים יודעים?
הגרף האחרון של ברט שואל שאלה מעניינת, שנובעת ממבנה המשחק.
בימים שלפני התחלת המשחק בצורה רשמית המועמדים מדגימים את היכולת שלהם בפני מנהלי המשחק. ההדגמה נערכת בדלתיים סגורות, ואף אחד לא יודע מה בדיוק נעשה שם. מה שכן יודעים הוא הניקוד שהמנהלים מעניקים לכל משתתף. הניקוד הזה קריטי שכן משתתף שקיבל ניקוד גבוה יוכל לקבל עזרה חיצונית במהלך המשחק, מה שישפיע באופן ישיר על היכולת שלו לשרוד בזירה.
השאלה של ברט היא האם יש קשר בין הניקוד שהמשתתפים מקבלים לבין השרדותם במשחק? הרי ההחלטה על הניקוד היא שקלול של דעות כל המנהלים, של יכולת המשתתף להציג את יכולתיו היטב, וכמובן, אפשרות לרמאות מבחינת המשחק. המנהלים יכולים להעניק ניקוד גבוה למישהו חלש כדי לסמן אותו כמטרה מבחינת שאר המשתתפים, או לסמן מישהו חזק כחלש על מנת להגן עליו.
ובכן, הגרף של ברט נראה כך:
הו הו הו! המספרים אינם משקרים! שימו לב כיצד הקווים מתכנסים להם ביחד.
הקו האדום הוא של המשתתפים שקיבלו ניקוד גבוה. הקו הכחול הוא של המשתתפים שקיבלו ניקוד נמוך. שימו לב איך הקו הכחול צונח כבר בפתיחת המשחקים, מה שמותיר את הזירה מלאה באנשים בעלי ניקוד גבוה ורייטינג מצוין. הידד למנהלי המשחק! אמנם הם יצרו זוועה שלא-תתואר, אבל לפחות הם מבינים את העבודה שלהם והניקוד שלהם נאמן למציאות!
ולסיכום…
יש שוברי קופות רבים בקולנוע. יש ספרי נוער רבים על המדפים. אבל יש רק שובר קופות אחד שהוא גם ספר נוער שהשתמשו בו במודלים סטטיסטים! יום חג לחובבי הז'אנר הסטטיסטיקאים שביננו!
—-
להמשך הקריאה:
- הרשומה המצוינת של ברט קלר לגבי הסטטיסטיקה במשחקי הרעב. כדאי לקרוא אותה במלואה, היא מכילה עוד ניתוחים לגבי השיטה הכלכלית בעולם המוצג בספרים והפניות לרשומות נוספות בנושא.
- הרשומה המצוינת לא פחות של אהוד מימון לגבי העולם הפוליטי המוצג בספרים ואפשרות השרידה שלו נוכח דוגמאות היסטוריות.
- מהבלוג של אביב אור פורטרטים מקוריים למשחק הפייסבוק של משחקי הרעב. הם יפהפים ובגלל זכויות יוצרים לא יכולתי להכניס אותם לרשומה זו.
- התמונה בראש הרשומה לקוחה מפרויקט משחקי הרעב – חבורה מוכשרת להפליא של שחקנים ישראלים הפיקה סרט חובבים קצר המבוסס על משחקי הרעב. שווה לצפות.
קודם כל – ראשונה שולטתתט!1
דבר שני, אז… לקרוא את משחקי הרעב? לראות את הסרט? לקרוא ואז לראות? לוותר כי האמפריה הרומית הייתה הרבה יותר מאגניבה? (אמר אהוד, אם אני זוכרת נכון)
לקרוא, בהחלט לקרוא. יופי של ספרים.
ולפי מה שכתבת בלינק – אז באנגלית? אני בד"כ מתעצלת אבל זה נשמע כדאי…
אני מניחה שלראות את הסרט קודם יהרוס לי…? (מה שהניתוח הסטטיסטי פה לא הרס. אולי היה כדאי להוסיף אזהרת ספויילר?)
מה? למה? להפך – התרגום של יעל אכמון מצוין.
לגבי אזהרת ספוילר… אני לא חושבת שהניתוח הסטטיסטי כאן קשור לפריטי מידע קריטים מהעלילה. כל מה שנמסר ידוע כבר בסוף הפרק הראשון פחות או יותר.
לא שהתרגום לא מצויין כמו שדיבור בהווה יותר טבעי באנגלית (מצטטת אותך)
הספויילר – אם מסתכלים על הסוף של הגרפים…
לגבי הסרט: במשחקי הכס (קראת? אני מקווה שקראת) ראיתי את הסדרה קודם וקראתי אח"כ. למרות הספויילר המטורף זה היה שווה את זה מבחינתי, כי אחרת לא הייתי קוראת את זה בחיים (זה כבד וקשה להתחיל. יותר מידי דמויות. בעיקר – יש לי רשימה אינסופית של ספרים לקריאה, ומשהו היה צריך לקדם את זה בתור)
השאלה אם פה זה דומה – סרט לפני יעזור או יהרוס?
פפפט…. אין לי מושג.
אני בעד ספר לפני. בניגוד למשחקי הכס – כאן מדובר בסדרה מהירה, זורמת ו*גמורה*.
כמובן שאחרי שהצלחתי לקלקל לעצמי עם ספויילרים קיבלתי את הספר היום. כן כן. מהאגודה (היתה הגרלה בין מצביעי פרס גפן באייקון האחרון. זכינו. הספרים הגיעו היום)
מגניב! גם שקיבלת את הספרים וגם שהצבעת לגפן.
לגמרי 🙂
רק חבל שבאותו אייקון קניתי את אחד הספרים שקיבלתי מהם…
זה תמיד כיף לקבל ספרים. ולקנות. ולהריח. ולהסתכל. טוב, הבנו את הרעיון 🙂
done.
ועדיין לא הסתדר לי חלק מהניתוח הסטטיסטי…אבל זה לא לעכשיו…
גם אשתי מתעקשת שהם ספרים נהדרים אבל עדיין מציק לי מה שאהוד אמר על העולם מלא החורים. כי לי זה מאוד מפריע.
רגע, אתה אומר את זה על בסיס מה שאהוד אמר או על מה שאתה קראת? כי אפילו אהוד התלהב מהספרים באופן כללי, ולדעתי חבל לפסול את הספרים האלה רק בגלל כמה חורים פוליטים.
זאת התחושה שקיבלתי מהביקורת שהוא פירסם. ואם האמינות לא מספיק טובה, זה מאוד מפריע לי.
הייתי מנסה בכל מקרה. הספר, כאמור, טוב.
הערה בקשר להגרלה: ההגרלה היא דווקא כן אקראית – לא ניתן בספר (הראשון לפחות, אותו קראתי) שום רמז לכך שהיא לא. מה שהתכוונת לומר היא שהסיכויים אינם שוים, כלומר ההתפלגות אינה אחידה.
צודק, כבר מתקנת.
טוב, אם אני אמשיך לכתוב כאן תגובות זה יהפוך לפוסט, אבל הניתוח הסטטיסטי הזה הוא מאוד מאוד בעייתי.
יש כמה וכמה בעיות עם הניתוח. קודם כל – זו לא יכולה להיות התפלגות נורמלית עם מדגם של 24 משתתפים, ולכן חי לא מתאים כאן.
דבר שני, כמות אדירה של הנתונים מבוססת על ממוצעים משוערים. הרי לא ידוע הניקוד שכל מועמד קיבל, למשל, מה שמפריע לניתוח האחרון.
ועדיין – רעיון מגניב.
ואם את הדמות הראשית בספר הראשון בטרילוגיה, הסיכויים שלך לשרוד עולים פלאים. 🙂
כן, טוב… את זה אי אפשר להכניס למבחנים סטטיסטים 🙂 .
סליחה על החזרה לסטטיסטיקה, אבל כתבת
"כלומר, בבטחון של 95% ניתן להגיד שמנהלי המשחק לא היטו את התוצאות ובני הנוער שהשתתפו בסבב המשחקים ה-74 היו בהתאם למה שהיה צפוי להתקבל בצורה אקראית, בלי קשר להתנדבות. "
האם לא היה נכון ש"אי אפשר לאמר בבטחון של 95% אחוזים כי…."? ההבדל כמובן חשוב – במקרה הראשון אנחנו די בטוחים כי לא הטו את התוצאות. בשני אנחנו פשוט לא יודעים בבטחון גבוה כי הטו אותן.
בהחלט כפי שכתבתי – אנחנו בודקים האם התוצאות הוטו ולדעתנו הן כנראה בסדר.