לפני חודשיים היה לי רעיון - לבדוק האם אפשר לחזות את תוצאות הבחירות על ידי 2 שאלות בלבד (ומספיק אנשים שיענו עליהם). מחשבות ומסקנות על הסקר הפתוח ובסוף מה יצא כשהרצתי מודל על כל ההצבעות (לא הייתי מתיימר לקרוא לזה תוצאות סקר).

בסוף גם הוספתי שאלה שלישית, הסבר למה - אחר כך.

בסקר הפתוח השתתפו מעל 1000 אנשים.

שאלתי 2 שאלות (ושאלת בונוס):

  1. מה תהיה הצבעתך בבחירות?
  2. מה הצבעת בבחירות הקודמות?
  3. מה הצבעת בבחירות 2015?

כל הניתוחים פה הם על פי שתי השאלות האלה בלבד. השאלה השלישית נוספה בשביל  וידוא על המדגם.

ככה זה נראה למי שפספס:

הסתייגויות!

קטונתי. יש אנשים רציניים, משכילים ומנוסים שעושים סקרים המון שנים. יש להם ידע נרחב ממני בסטטיסטיקה, נסיון רב ומשאבים. אני לא מתיימר להציג ״תוצאות סקר״, יותר כמו ניסוי אינטרנט מעניין ובדיקה מה אפשר לעשות באמצעים דלים.

בכל זאת, איך עושים ניתוח?

בונים מודל שלוקח בחשבון את השאלה השניה - מה הצבעת בבחירות הקודם. זה מה שעוזר ״לנרמל״ את המידע ככה שלא יהיה מוטה בצורה קיצונית למי שנחשף לסקר. עשיתי כמה מודלים, פשוטים יותר ומתוחכמים יותר (רשת נוירונים) ובחנתי כל מיני שילובים בינהם. היו לי עוד הרבה רעיונות אבל לא הגעתי להכל.

מגמות מעניינות

ראיתי כל מיני מגמות מעניינת (פרסמתי חלק בטוויטר). אחת מהן שאני לא ידעתי עליה (אחר כך הבנתי שדובר גם בתקשורת) - מצביעי יהדות התורה של הבחירות הקודמות אומרים שיצביעו סמוטריץ׳-בן-גביר במספרים משמעותיים

באופן כללי לאן הולכים מצביעי 2020 נראה משהו כזה. היציבים ביותר הם מצביעי שס.

רעשים והטיות - יש כמה סוגים

הטיה מובנית - רוב ההצבעות היו דרך אנשים שנחשפו לסקר בטוויטר ולכן המדגם מוטה למעגלים שקרובים אלי. עם זאת, יש גם הצבעות שהגיעו גם ממקורות אחרים וגם כאלו שלא קשורים למעגלים שלי בכלל (למשל קצת פרסום בגוגל על מלת מפתח ״סקרים״) ונסיון שהצליח באופן בינוני לטרגט מצביעים חרדים.

אז יש לנו בעיה שהמדגם אינו רנדומלי, מנסים לקחת את זה בחשבון בחישוב אבל בכל זאת זו בעיה. בנסיונות להעריך את שגיאת המדגם בצורה סטטיסטית (על פי תוצאות הבחירות ב2015) קיבלתי שגיאה מקסימלית של 6.7% ושגיאה ממוצעת של 2.5 אחוז. לא מעט, מצד שני יפה בשביל סקר פתוח שפרסמתי בטוויטר ורק לפי שתי שאלות.

שקרים - כנראה אין באמת דרך לדעת אם אנשים משקרים בסקר. אחת הדרכים שחשבתי עליה היא לבקש מאנשים שיענו על הסקר שוב ושוב תוך תקווה ששקרנים הם פחות עקביים ואפשר לנטרל אותם. שווה בדיקה אבל לא הגעתי למספרים מספיק גבוהים ומספיק זמן לנתח את הנקודה הזאת. אולי בבחירות הבאות, בטח לא עוד הרבה זמן...

היו דיבורים בתקשורת על הטיות של מצביעי ימין שרוצים לזייף מצב שכחול לבן עוברת את אחוז החסימה. קשה לי לשפוט ואין לי מכונת פוליגרף, החל מנקודה מסויימת לפני כחודש, כחול לבן פה בהצבעות התחילו לעלות בצורה משמעותית ולעבור בבירור את אחוז החסימה ואף יותר מכך. שיפטו בעצמכם לגבי מהימנות הנתונים.

מניפולציות - יש דברים ברורים כמו מישהו שמצביע 20 פעמים ב5 דקות. היו כמה נסיונות למניפולציות ויש פה גם שאלות פילוסופיות מה היא מניפולציה בסקר כזה (לא מדובר על שקר). את מה שהוא מניפולציה ברורה, קל לזהות ולנקות. למשל התארגנות בקבוצת וואטסאפ של מפלגה מסויימת לנסות להשפיע בצורה ממוקדת על הסקר, שהוא פרוץ לזה מעצם זה שהוא פתוח. ברור שמניפולציות מתוחכמות, קשה לעלות עליהם במיוחד בזמן ומשאבים מוגבלים.

הנה למשל מצביעי הכלכלית של ירון זליכה לפי תאריך ונסיון השפעה נקודתי די בולט.

ראיתי טענות כולל של ירון זליכה בעצמו שהסקרים מוטים למפלגות ותיקות ולכן הוא לא עובר. בסקר הפתוח יצא די בעקביות שהוא בסביבות 1% ורחוק מאוד מאחוז החסימה, גם עם מה שנראה כמו נסיונות של תומכיו לענות בצורה מאורגנת (את הרעשים הברורים הוצאתי).

באופן כללי, האמונה שלי היתה (ועודנה) שאם סקר מסוג זה יופץ למספיק אנשים, רוב מכריע לא משקרים או עושים מניפולציות ואת הרעשים אפשר לנקות בכל מיני דרכים.

אחוז החסימה

אחוז החסימה הוא אחת הנקודות החשובות של הבחירות האלה. סקרים באופן כללי הם עניין בעייתי אבל הפעם יש כמה מפלגות שקרובות לאחוז החסימה והמשמעות של הבדל קטן הוא שינוי משמעותי בתוצאות. המצב הפעם כל כך קיצוני שיש סבירות לא קטנה ש10% מהקולות לא ייחשבו בגלל אחוז החסימה, עניין מעורר מחשבה מבחינת כללי הדמוקרטיה בישראל ומציג באור בעייתי את נושא אחוז החסימה הגבוה באופן יחסי.

כחול לבן, כבר ראינו קודם. מרצ לפי המודל פה עוברים יותר בקושי אבל בעקביות.

הכלכלית של זליכה - נראה מאוד רחוק.

רעם? קשה לדעת, מתחזקים אבל לא נראה מבטיח.

תוצאות

הנה תוצאה שהיא שילוב המודלים שעשיתי. הסטורית, הסקרים בתקשורת בישראל לא טועים בהרבה. בסקר האחרון בבחירות הקודמות, הסוקרים הרציניים קלעו לתוצאות בטעות של+/- מנדט או שניים. מרשים. פה למטה זה מה שיצא במודלים, מוטים ובעייתיים. יפה לדעתי שזה הרבה יותר טוב מתוצאות אקראיות ובכיוון של משהו אמיתי, רק משתי שאלות וכמה ציוצים בטוויטר. מעבר לכך, ברור שסקרים הם גם משפיעים בעצמם ולא רק מציגים תמונת מציאות. לכן, אני גם חושב שבדמוקרטיה יש משמעות למידע פתוח ויכולה להיות משמעות לסקר פתוח מעבר לניסוי טוויטר. אבל לא נבנה פה יותר מדי מגדלים כרגע. להדגיש שוב, זה לא סקר מנדטים רציני ויש אנשים מאוד רציניים ומנוסים שעושים סקרים והם לרוב מאוד קרובים לאמת.

תוצאות מודל נסיוני הסקר הפתוח:

נציין פה ממוצע סקרים אחרונים בתקשורת, הסטורית, זה די קרוב למה שיוצא בסוף

תודה לכל מי שהשתתף וגם למי שעזר והתעניין.