מה שמדעי החברה יודעים, ומה שלא

איך יכול להיות שכלכלנים זוכי נובל חלוקים ביניהם בשאלות יסוד של התחום, ולמה לא כדאי לסמוך על המלצות מדיניות של מחקרים חברתיים. מאמר מרתק בתרגום בלעדי למידה

מדעי החברה לא יכולים לעמוד בסטנדרטים מדעיים קפדניים; מעבדה. צילום: נתי שוחט, פלאש 90

מאנגלית: צור ארליך

בתחילת שנת 2009 הייתה ארצות-הברית שקועה בוויכוח ציבורי על הצעת חוק לתמרוץ הפעילות הכלכלית, באמצעות מלווים והוצאות ממשלתיות בגובה 800 מיליארד דולר. ג’יימס ביוקנן, אדוארד פרסקוט, ורנון סמית וגארי בקר, כולם זוכי פרס נובל בכלכלה, טענו שהתמרוץ הוא אולי צעד חירום חשוב, אך הוא לא ישפר את הביצועים הכלכליים. צמד חתני נובל אחרים, פול קרוגמן וג’וזף שטיגליץ, טענו מנגד שהתמרוץ ישפר את הכלכלה, ושכדאי אפילו להגדילו. ויכוחים עזים ניטשים באזורי הספר של כל המדעים, כמובן, אך כאן עסק הוויכוח בלב לבו של מדע הכלכלה: דומה הדבר לכך שלילה לפני שיגור חללית אפולו אל הירח, מחצית מחתני פרס נובל בפיזיקה הייתה טוענת שרקטות אינן יכולות להגיע אל הירח, ומחציתם האחרת הייתה טוענת שכן. עם השקת תכנית התמרוץ, הדבר היחיד שאפשר היה להסכים עליו בוודאות היה שיש כמה חתני פרס נובל שטועים פה.

המצב היה גרוע אפילו יותר, שכן ברור היה שגם לאחר מעשה לא נוכל לדעת אילו מהכלכלנים צדקו. נניח שב-1 בפברואר 2009 היה הכלכלן המפורסם X מנבא כי “בתוך שנתיים שיעור האבטלה יעמוד על 8 אחוזים אם חוק התמרוץ יתקבל, ו-10 אחוזים אם לא”. מה לדעתכם יקרה אם החוק היה מתקבל, שנת 2011 הייתה מגיעה, ושיעור האבטלה עדיין היה 10 אחוזים? ברור למדי שפרופ’ X היה אומר משהו כמו “כן, אבל משתנים אחרים הידרדרו במהירות רבה מן הצפוי, כך שאם לא היינו מעבירים את החוק, האבטלה הייתה עומדת עכשיו על 12 אחוזים. אז צדקתי: החוק הפחית את האבטלה בכ-2 אחוזים”.

בניסוח אחר של הבעיה: אין לנו שום דרך מהימנה למדוד תרחישי-נגד – כלומר לדעת מה היה קורה אלמלא ביצענו מדיניות מסוימת – מפני שיש גורמים רבים נוספים המשפיעים על התוצאה. הבעיה אולי נראית נקודתית, אבל היא גורם מרכזי לחוסר-היכולת המתמשך שלנו להפוך את מדעי החברה למדעים של ממש. להבדיל מפיזיקה או ביולוגיה, מדעי החברה אינם מפגינים יכולת להנפיק גוף משמעותי של חוקים-מנבאים שימושיים, אמינים ולא מתבקשים-מאליהם באשר לתחום עיסוקם – היינו ההתנהגות החברתית של בני האדם, ובכלל זה השפעתן של תכניות ממשלתיות מוצעות.

הרָכיב החסר הוא נסיינות מבוקרת. היא המאפשרת למדע להכריע בוודאות במחלוקות מסוגים מסוימים. איך אנחנו יודעים שהתיאוריות הפיזיקליות שלנו לגבי הכנף בכלי הטיס נכונות? בסופו של דבר, אנו יודעים זאת לא בגלל משוואות כתובות בגיר, ולא בזכות נאומים משכנעים מפי פיזיקאים נודעים לתהילה, אלא מפני שמטוסים נשארים באוויר. מדעני החברה עשויים להשמיע טענות מרתקות ונוגדות-אינטואיציה לא פחות מן ההיגד שמכונה כבדה יכולה לעופף, אך טענות אלו בדרך כלל אינן נבדקות בניסוי, ופירוש הדבר הוא שמחלוקות נוסח זו של 2009 לא תיושבנה לעולם. בעשורים הבאים עלינו לטובה ימשיכו להרצות בפנינו את משנותיהם בשאלה זו שני צדדים שהם, למעשה, כלכלנים קיינסיאנים וכלכלנים שאינם קיינסיאנים.

זה עשורים רבים שמדעי החברה מגששים את דרכם לקראת יישום המתודה הניסויית להערכת תיאוריות השיפור החברתי שלהם. התפתחויות שאירעו לאחרונה הפכו את העניין למעשי הרבה יותר, והמהפכה הניסויית מגיעה סוף סוף אל מדעי החברה. הלקח היסודי ביותר העולה מנסיינות זו עד כה הוא שבורותנו המדעית באשר למצבו של האדם נותרת עמוקה כשהייתה. למרות ניתוחים אמפיריים המוגשים בביטחון עצמי, רטוריקה משכנעת ויומרה למומחיות, בודדות הן תכניות ההתערבות החברתיות שאפשר להראות בניסויים מבוקרים כי הן יצרו שיפור ממשי בַּתחום המבוקש.

אין תחליף לניסוי

כדי להבין את תפקידם של הניסויים בהקשר זה, עלינו לחזור אל ראשיתם של המדעיים הניסוייים. סיפור הניסוי של גלילאו גליליי במגדל הנטוי בפיזה הוא מן הידועים בתולדות המדע, אף שכנראה לא אירע כלל.  גלילאו שמט מראש המגדל שני כדורים בעלי משקל שונה, וראה כיצד שניהם מגיעים לאדמה ביחד. כאלפיים שנה קודם לכן טען אריסטו כי עצמים כבדים אמורים ליפול מהר יותר מעצמים קלים. אין חולק על כך שאריסטו היה אחד הגאונים הגדולים ביותר בהיסטוריה המתועדת. טענתו זו הייתה פרי היסק שנראה בנוי לתלפיות. יתרה מכך, כמעט כולנו מרגישים באופן אינטואיטיבי שכדור עשוי פלוטוניום שמשקלו חצי טון ייפול מהר יותר מגולה השוקלת כמה גרמים. בחיי היומיום עצמים קלים אכן נופלים לאט יותר מעצמים כבדים, בגלל הבדלים בהתנגדות האוויר וגורמים נוספים. התיאוריה של אריסטו שילבה אם כן סמכות, היגיון, אינטואיציה וראיה אמפירית. אולם כאשר היא נבדקה בניסוי מבוקר למדי, הכדורים נפלו באותו קצב. לדידו של אדם מודרני, המצב ברור. השיטה הניסויית הפריכה את התיאוריה של אריסטו – התיק סגור.

מובן שאריסטו, כמוהו כהוגים קדם-מדעיים אחרים, נשען רבות על תצפיות אמפיריות. ההבדל המהותי בין תצפית מסוג זה לבין ניסויים הוא בקרה. ניסוי הוא הניסיון (שאף פעם אינו מושלם) להציג יחסי סיבה-תוצאה על-ידי (א) שמירה על כל הגורמים העשויים להשפיע על התוצאה כקבועים, (ב) שינוי מכוון של הגורם הפוטנציאלי המעניין אותנו, ושלו בלבד, ו-(ג) תצפית הבוחנת אם התוצאה השתנתה. מדענים מנסים למצוא תבניות בנתונים התצפיתיים כדי לפתח תיאוריות. אולם הקפדנות הנדרשת בבדיקת תיאוריות אלו לפני קבלתן כמהימנות, קפדנות המתבטאת בניסויים מבוקרים היטב, היא רכיב מכריע בשיטה המדעית. אפילו בתחומי מדע שאי אפשר לערוך בהם ניסויים, הידע שלנו על יחסי סיבתיות מושתת על ניסויים מבוקרים מסורתיים. האסטרופיזיקה, למשל, נשענת בחלקה על חוקי פיזיקה שאומתו באמצעות ניסויים על פני כדור הארץ.

כלכלנים בעלי שם עולמי חלוקים בשאלות יסודיות; פרופ' ישראל אומן. צילום: הדס פרוש, פלאש 90
כלכלנים בעלי שם עולמי חלוקים בשאלות יסודיות; פרופ’ ישראל אומן. צילום: הדס פרוש, פלאש 90

הודות למדענים כגון גלילאו ולאנשי מתודולוגיה כגון פרנסיס בייקון, השיטה הניסויית נָפוֹצה בתחומי הפיזיקה והכימיה. בהמשך היא גלשה אל עולם הרפואה. השוואות שנועדו לקבוע את השפעתם של טיפולים רפואיים נעשו פעמים רבות, בכל העולם, במשך אלפי שנים – אך מקובל לראות בג’יימס לינד את ראשון מבַצעי הניסויים הקליניים במובן המודרני של המונח. בשנת 1747 הוא חילק תריסר אנשי-צוות מוכי צפדינה באונייה הבריטית ‘סאליסברי’ לשש קבוצות טיפול, שני מַלחים בכל קבוצה. לכל קבוצה הוא סיפק טיפול רפואי אחר. הוא ניסה לשמור את כל גורמי השינוי האפשריים קבועים ככל האפשר. על פי תצפיתו, מצבם של שני החולים שטופלו בשתיית מיץ הדרים השתפר במידה ניכרת לאין ערוך מזו של יתר החולים.

הרעיון הבסיסי של הניסוי הקליני לא השתנה בשתי המאות ומחצית המאה שחלפו מאז. מדענים מנסים למצוא שתי קבוצות אנשים דומים בכל המדדים האפשריים, מיישמים טיפול בקבוצה אחת (קבוצת הניסוי) אך לא בשנייה (קבוצת הביקורת), ואם יש הבדל בין התוצאות בשתי הקבוצות הם מסיקים שהוא נובע מהטיפול. כוחה של גישה זו בכך שהנסיין אינו צריך הבנה מפורטת של מנגנון הפעולה של הטיפול; לינד, למשל, לא צריך היה לדעת דבר על ויטמין סי ועל הביוכימיה של האדם כדי להגיע למסקנה שמיץ הדרים נלחם איכשהו בצפדינה.

ואולם, ניסויים קליניים מעמידים דרישה קשה אחרת: לוודא שהטיפול הנבדק הוא ההבדל היחיד בין שתי הקבוצות. וכאשר החלו הניסויים לעבור מתחומים כגון פיזיקה קלסית לתחומים כמו ביולוגיה רפואית, גדלו עד מאוד מספרם ומורכבותם של הגורמים העשויים להשפיע על התוצאה הנבדקת; את התופעה הזו אני מכנה “צפיפות סיבתית”. כאן כבר קשה לזהות את הגורמים – ועל אחת כמה וכמה קשה לנטרל אותם. למשל, איך יכול נסיין בשנת 1800, לפני היות מדע הגנטיקה המודרני, להבטיח שהנבדקים בקבוצת הניסוי שלו ובקבוצת הביקורת שלו הם בעלי אותה מידה של נטייה-מוקדמת תורשתית למחלה שהוא חוקר?

ב-1884 מצא את הפתרון איש האשכולות האמריקני המבריק אך הבלתי-יציב צ’רלס סנדרס פֶּרְס. הוא הקצה באקראי את משתתפי הניסוי לקבוצת הניסוי ולקבוצת הביקורת. הקצאה אקראית מאפשרת לנסיין הרפואי להסיק במידה רבה של מהימנות כי הבדלים בתוצאה נגרמו בשל הבדלים בטיפול. זאת משום שאפילו הבדלים בין-אישיים הגורמים לשוני בתוצאה, ושהנסיין אינו מודע להם – נטייה-מוקדמת גנטית, למשל – צפויים להתפזר באופן אקראי בין קבוצת הניסוי לקבוצת הביקורת, ועל כן לא יטו את התוצאות.

תיאורטית, גם מדעני-החברה יכולים לנקוט גישה זו כדי לאמוד את השפעתן של תכניות ממשלתיות מוצעות. ניסויים כאלה מכונים בעולם מדעי החברה “ניסויי שדה בהקצאה אקראית” (randomized field trials, RFT). למעשה, פֶּרְס ואחרים בעולם מדעי החברה המציאו את ה-RFT עשרות שנים לפני שהטכניקה נכנסה לשימוש נרחב במדעים הטיפוליים. בשנות השלושים של המאה העשרים, עשרות אוניברסיטאות אמריקניות הציעו קורסים בסוציולוגיה ניסויית, ועד מהרה ידע העולם דובר האנגלית פריחה של ניסויים חברתיים אקראיים רחבי היקף, ואמונה גוברת כי ניסויים אלה עתידים להכריע בוויכוחים על מדיניות ציבורית. משנות השישים המאוחרות עד שנות השמונים המוקדמות נעשו ניסיונות רבים להעריך באמצעות RFT תכניות חדשות או שינויים רחבי היקף בתכניות קיימות, בנושאים כגון מס הכנסה שלילי, תכניות תעסוקה, דיור ציבורי וביטוח בריאות.

אלא שלפני כרבע מאה התחוור לנסיינים מביני-דבר כי הרעיון שאפשר להכריע בוויכוח על מדיניות כלשהי בעזרת ניסוי מבוסס די צורכו הוא רעיון נאיבי. הסיבה לכך נוגעת להכללה, שהיא עקב אכילס של כל ניסוי, בהקצאה אקראית או לא. ברפואה, למשל, מה שאנחנו באמת יודעים מניסוי קליני מסוים הוא שברשימה פרטיקולרית זו של חולים שקיבלו טיפול מדויק זה במרפאות אלו בתאריכים זה וזה בידי הרופאים המסוימים האלה התקבלו תוצאות כך וכך בהשוואה לקבוצת ביקורת ספציפית. אך אם רצוננו להשתמש בתוצאות כדי לכוון פעולה עתידית, חובתנו להכליל אותן כחוק שיספק ניבוי מהימן למצבים שעוד לא נוצרו. הקושי עולה אפילו כאשר הניסוי בוצע כראוי: איך נוכל לדעת שההכללה שלנו נכונה?

פיזיקאים יענו על כך, בדרך כלל, שהם מניחים כי חוקים מנבאים כגון חוק הכבידה חלים בכל מקום, גם באזורים של היקום שטרם נערכו בהם ניסויים, ושהכבידה לא תפסיק פתאום לפעול בעוד שנייה. אלו הן הנחות הכרחיות, שתישארנה הכרחיות גם אם נחזור על ניסויים מיליוני פעמים. אפילו בניסויים תרפויטיים קלאסיים, ההנחה בדבר אחידות התגובה הביולוגית היא בדרך כלל קירוב נסבל המאפשר לחוקרים לטעון, למשל, שהחיסון מפני פוליו שהצליח בקרב אוכלוסיית מבחן יצליח גם אצל בני אדם אחרים. לעומת זאת, איננו יכולים להניח בבטחה שתכנית לשיפור האוריינות שהצליחה בבית ספר אחד תצליח בכל בתי הספר. כשם שצפיפות סיבתית בביולוגיה מחייבת הקצאה אקראית, כך הצפיפות הסיבתית הגבוהה אף יותר שיש במדעי החברה מחייבת העלאה של רף הזהירות בבואנו להכליל תוצאות של ניסוי.

חיי החברה מורכבים מדי

המחשה מצוינת להתמודדותם של הנסיינים עם צפיפות סיבתית גבוהה מאוד מספקת לנו הקרימינולוגיה. כמו לכל התנהגות אנושית חברתית, לפשע יש סיבות מורכבות ועל כן קשה לנבאו במהימנות. קרימינולוגים השתמשו שוב ושוב בשיטה סטטיסטית הקרויה ניתוח רגרסיה כדי לנסות להבין את הסיבות לפשע. הרגרסיה אינה מפגינה אפילו מתאם טוב עם הנתונים ההיסטוריים, שלא לדבר על יכולת לנבא תוצאות עתידיות במהימנות. סקירה מפורטת של כל המחקרים שהציעו מודל רגרסיה שפורסמו בין השנים 1968 ו-2005 ב”קרימינולוג’י”, כתב-עת שָפיט מוביל, הראתה שמודלים אלה הצליחו להסביר רק 10 עד 20 אחוז מהפשיעה. גרוע מכך, מודלי רגרסיה שנבנו בשנים האחרונות אינם טובים כלל מאלה שנבנו לפני שלושים שנה.

המחקרים בקרימינולוגיה לא הוכיחו את עצמם; בית סוהר. צילום: משה שי, פלאש 90
המחקרים בקרימינולוגיה לא הוכיחו את עצמם; בית סוהר. צילום: משה שי, פלאש 90

וכך, מראשית שנות השמונים ואילך, יותר ויותר קרימינולוגים פונים לניסויים בהקצאה אקראית. אחד מהם, שזכה לפרסום רחב היקף, ניסה לקבוע את הדרך הטובה ביותר להתמודדות קציני משטרה עם אלימות במשפחה. פרופ’ לורנס שרמן, קרימינולוג בעל שם מאוניברסיטת קיימברידג’, ערך ניסוי בקרב שוטרים במיניאפוליס הנקראים לטפל באירועים פליליים של אלימות במשפחה. בכל קריאה הוא הורה לפעול באחת משלוש דרכים, שנבחרה באקראי: לעצור את התוקפן, לייעץ לשני הצדדים, או להרחיק את התוקפן מביתו לשמונה שעות. נמצא כי בקבוצת המעצר נרשם שיעור נמוך באופן מובהק של קריאות חוזרות. התקשורת ופוליטיקאים רבים קפצו על המציאה, שנראתה כניצחונו של הידע המדעי – וחובת מעצר של בני משפחה אלימים נעשתה עד מהרה נפוצה במערכות המשפט בארצות-הברית.

ואולם, המתוחכמים מבין הנסיינים הבינו שבגלל הצפיפות הסיבתית הגבוהה, ייתכנו התניות נסתרות לחוק הפשוט לפיו “מדיניות חובת מעצר מפחיתה אלימות במשפחה”. הדרך היחידה לעקרן היא לשחזר את הניסוי המקורי בתנאים מגוונים. שרמן עצמו קרא במחקרו לערוך שחזורים כגון אלה. כך עשו אפוא חוקרים בשש ערים שונות. בשלושה מבין מחקרי ה-RFT הללו, בקבוצות הניסוי שבהן נערכו מעצרים אכן נרשמו פחות קריאות חוזרות. אולם בשלושת המחקרים האחרים, בקבוצות הניסוי שיעור הקריאות החוזרות היה גבוה יותר.

למה? בשנת 1992 סקר שרמן את השחזורים. הוא הגיע למסקנה שבקהילות יציבות, עם שיעורי אבטלה נמוכים, המעצר בייש את התוקפנים, ועל כן הם נטו פחות לחזור לסורם. לעומת זאת, בקהילות יציבות פחות, עם שיעורי אבטלה גבוהים, המעצרים נטו לעורר את חמתם של התוקפנים ולגרום להם להיות אלימים עוד יותר. הבעיה בסוג זה של היסק היא שהיות שהוא עצמו אינו תוצאה של ניסוי, הוא נתון לאותה אי-ודאות שתצפיות אריסטו סבלו ממנה. איך נדע אם המסקנה נכונה? רק אם נריץ ניסוי שיבחן אותה – כלומר, אם נעשה עוד ניסויי RFT בקהילות משני הסוגים ונראה אם המסקנה עומדת במבחן שלהם. אם כך יקרה נוכל לעצור את המעגל האינסופי-לכאורה של הניסויים המולידים ניסויים. ואפילו אז, הצפיפויות הסיבתיות העצומות המאפיינות את החברה האנושית הן ערובה לכך שגם אם נחדד את חוקי הניבוי שלנו כתער, עדיין יישארו התניות שלא יתגלו. השאלה היא, אפוא, אם החוקים-המנבאים במתכונתם הקיימת יכולים לשפר את פעולת הרשויות, ואם המחיר שיידרש להשיג עידון נוסף שלהם יהיה נמוך מהתועלת שתושג.

כמובן, לפעמים אנחנו נתקלים במדיניות חדשנית המתגלה באופן עקבי כמצליחה (או, לעתים קרובות הרבה יותר, ככושלת). למשל, מגוון צורות של השגחה אינטנסיבית – שבהן העבריין נתון לפיקוח צמוד אך אינו נכלא – נוסו במחקרי RFT לפחות תריסר פעמים מאז שנת 2004, וכשלו בכל הניסויים.

קרימינולוגים מאוניברסיטת קיימברידג’ התיישבו לעבודת נמלים: הם קטלגו את כל 122 מחקרי ה-RFT מתחום הקרימינולוגיה שנערכו בין השנים 1957 ו-2004 והגיעו לידיעתם, ואשר כללו יותר מ-100 נבדקים. על פי הספירה שלי, בעשרים אחוזים מהם נמצאה תוצאה חיובית, קרי הפחתה מובהקת-סטטיסטית בפשיעה בקבוצת הניסוי. במבט ראשון, הדבר אולי נראה מעודד. אלא שרק ארבע מן התכניות שנמצאו בהן תוצאות מעודדות במחקר RFT אחד נבדקו במחקר עצמאי נוסף ששחזר אותו. ובכל ארבעת המקרים הללו לא נמצאו תוצאות חיוביות עקביות.

אמנם, 12 מן התכניות נוסו ב-“RFT רב-אֲתָרִי”: ניסויים המבוצעים בכמה ערים, כמה בתי סוהר או כמה מערכות משפט. אין זה שחזור מלא, אך זו דרך טובה יותר מניסויים חד-אתריים לחשוף רגישויות הקשריות. אולם גם כאן, 11 מתוך ה-12 לא הצליחו להשיג תוצאות חיוביות; והתועלת הקטנה שהפיקה התוכנית המוצלחת הבודדה (שעלתה סכום עצום, 16 אלף דולר לכל משתתף) התפוגגה בתוך שנים ספורות. בקיצור, שום תכנית שנוסתה ביקום הניסויי הזה לא נתגלתה כיעילה בניסויי הקצאה-אקראית חוזרים, לא חד-אתריים ולא רב-אתריים. זה אמור להיות מביך למדי.

מסקנה זו נשארת על כנה גם אם מוותרים על שחזורים פורמליים, ומסתפקים בבחינתן של תכניות דומות שנוסו בזמנים שונים, למרות הבדלים מהותיים ברמת הפירוט וברמת הביצוע. מתוך 122 הניסויים הקרימינולוגיים המקוטלגים, נטלתי את ה-103 שנערכו בארצות-הברית ומיינתי אותם לארבעים “קונספטים”: הקונספט של חובת מעצרים באלימות במשפחה, הקונספט של השגחה צמודה וכן הלאה. מקרב ארבעים קונספטים אלה, ל-22 היה יותר מניסוי אחד שבחן אותם. מבין 22 אלה, רק אחד הצליח בכל הפעמים שנוסה: קונספט “סילוק המטרדים”, כלומר עידוד אנשים שרכושם הושחת בידי עבריינים לשקם את ההריסות. אלא שקונספט זה נוסה פעמיים בלבד.

מה, אם כן, אנחנו יודעים על הפחתת פשע בהתבסס על סדרה זו של ניסויים? ראשית, שהרעיונות המבטיחים ביותר לא נתגלו כרעיונות שהצלחתם עקבית. שנית, שסילוק המטרדים – שהוא ליבת מה שקרוי לפעמים “מדיניות החלונות השבורים” – נראה נכון לעכשיו כקונספט מצליח. אך גם מסקנה זו מצריכה חידוד: אפשר לומר במידה רבה של ודאות שבמדינות ארצות-הברית תימצא מערכת-שיפוט שבה אפילו מדיניות החלונות השבורים תיכשל. שומה עלינו לשמור על פתיחות כלפי אותו מנתץ-אלילים שיגלה את הגבולות של מסקנותינו – ממש כשם שאנשי המדעים המדויקים מקצים תמיד משאבים כלשהם למישהו שינסה להפריך את החכמה המקובלת. רצה לומר, הנסיינות איננה יוצרת ידע מוחלט, אלא מעבירה את נטל ההוכחה למי שחולק על ממצאיה ומכבידה נטל זה.

האינטרנט יפתור את הבעיה?

באותה שעה שמדעי החברה החלו להיאבק בבעיית הצפיפויות הסיבתיות הגבוהות-מאוד, החלה להתמודד עם בעיה זו ישות שונה לחלוטין: עולם העסקים. בעשרות השנים הקודמות נמצאו בספֵרה זו איים של תוצאות חיוביות בניסויים בהקצאה אקראית, כגון מחקרי שיווק של יצרני מוצרי צריכה באשר למוצרים חדשים, ומשווקי קטלוג שניסו הצעות חדשות. בהמשך יצרה מהפכה טכנולוגיית המידע אפשרות לניסויים רחבים הרבה יותר.

חברות נסייניות בנשמתן; גוגל. צילום: גילי יערי, פלאש 90
חברות נסייניות בנשמתן; גוגל. צילום: גילי יערי, פלאש 90

מאורע מַפתח התרחש בשנת 1988, כאשר ריץ’ פיירבנק ונייג’ל מוריס עזבו חברה קטנה לייעוץ אסטרטגי, ששלושתנו עבדנו בה, והקימו את חברת כרטיסי האשראי “קפיטל וואן”. הם בנו אותה על פי הגישה הניסויית לעסקים, ושיטה זו חלחלה בחברה במהירות, במידה שטרם נראתה כמוה. נניח שמשווקים השולחים חוברת הטבות של כרטיס אשראי רוצים לדעת אם הסיכויים לזכות בחסדיו של הצרכן גדולים יותר כשהחוברת נשלחת במעטפה כחולה – או כשהיא נשלחת במעטפה לבנה. במקום להתווכח, החברה יכולה פשוט לשלוח, נאמר, ל-50 אלף משקי-בית אקראיים חוברות במעטפה כחולה, ולעוד 50 אלף במעטפה לבנה – ולהשוות בין  הרווחים שהושגו מכל קבוצת לקוחות. הצלחתה של “קפיטל וואן”, סיפר פיירבנק למגזין “פאסט קומפני”, הושתתה על “היכולת שלה להפוך עסק למעבדה מדעית שבה כל החלטה על עיצוב מוצר, שיווק, ערוצי תקשורת, קווי אשראי, בחירת לקוחות, מדיניות איסוף או מכירה צולבת תהיה כפופה לניסוי שיטתי הכולל אלפי ניסויים”. בשנת 2000, החברה קיימה לדבריה יותר מ-60 אלף מבדקים בשנה. עד שנת 2009 היא כבר הפכה מרעיון בחדר ישיבות לתאגיד ציבורי ששוויו 35 מיליארד דולר.

באמצעות לחץ תחרותי ופעפוע מקצועי, “קפיטל וואן” שינתה לא רק את תעשיית כרטיסי האשראי אלא את רוב השירותים הפיננסיים המשווקים בערוצים ישירים. נסיינות אקראית היא כיום יכולת-ליבה שיווקית בכל המנעד שבין כרטיסי אשראי לחשבונות עו”ש. גם חברות לא פיננסיות ייבאו את המודל הניסויי. חברת “הארא’ס אנטרטיינמנט” עורכת מבדקי הקצאה אקראית קפדניים למגוון השערות בנושאי שיווק. למשל, היא מזהה מספר רב של אנשים המתגוררים בדרום קליפורניה ופוקדים את לאס-וגאס בסופי שבוע, שולחת לקבוצה מתוכם, הנבחרת באקראי, הצעות אטרקטיביות לאירוח במלונות בעיר הימורים זו באמצע השבוע, ומשווה בין היענותה של קבוצה זו (קבוצת הניסוי) לבין ההיענות של שאר המדגם (קבוצת הביקורת). “זה אצלנו כלל. כמו שלא מטרידים אישה ולא גונבים, כך גם לא עורכים מחקר בלי קבוצת ביקורת”, מצוטט מנכ”ל החברה במחקר-מקרה שנערך בבית הספר למנהל עסקים בסטנפורד. “אי-הקצאת קבוצת ביקורת היא אצלנו עילה לפיטורין”.

האינטרנט מועיל לנסיינות אפילו יותר מהדיוור הישיר והשיווק הטלפוני, הערוצים ש”קפיטל וואן” פעלה בהם תחילה. בפלטפורמת השיווק הדיגיטלית, מחקר בהקצאה אקראית – נניח, מחקר הבודק אם מוטב לשבץ פרסומת קופצת בפינה הימנית העליונה של דף האינטרנט או בפינתו השמאלית העליונה – כמעט שאינו עולה כסף. החברות המובילות במגזר זה, כגון גוגל, אמזון ואי-ביי, הן נסייניות בנשמתן. בימינו, נסיינות היא ציפייה בסיסית מכל חברה מסחרית מקוונת מצליחה.

כל החברות הללו, מקפיטל וואן עד גוגל, יכולות בהוצאה כספית זעומה ליצור קבוצות מבחן ענקיות של לקוחות – רבבות ואפילו יותר – וליישם את התובנות העולות מן הניסויים בהתנהלותן עם מיליוני לקוחות. ב-1999, אחרי שנים של התבוננות בדוגמה של פיירבנק ומוריס, הקמתי חברת תוכנה שיישמה את השיטה הניסויית במקומות שאי-אפשר להשיג בהם קבוצות מדגם כה גדולות – למשל רשת חנויות קמעוניות הרוצה לבדוק איזה משני חלונות ראווה יגדיל יותר את המכירות. החברה מספקת תשתית תוכנה לניסויים לעשרות תאגידים מן הגדולים בעולם.

מה שגילו החברות העסקיות הוא, בעצם, שהן יכולות להתמודד עם בעיית הצפיפות הסיבתית באמצעות העלאת סדר הגודל של התהליך הניסויי. הֲריצו מספיק מבדקים, ותוכלו למצוא חוקים מנבאים מכוילים במידה המאפשרת שימוש מעשי בסביבה הסבוכה הזו: קבלת החלטות אנושית בעולם הממשי. גישה זו שמה דגש חזק בביצוע רצוף ומואץ של צעדים רבים, מהירים וזולים, ולא במיזם ענק וחד-פעמי נוסח הנחיתה על הירח. לעתים מזכיר הדבר את המעבר מעבודת אוּמנים בסדנאותיהם לייצור המוני. הצעד המכריע פה הוא הפחתת העלוּת והמֶשך של כל מבדק: אין זה רק ייעול של תהליך נתון, כי אם שיפור ההליך עצמו על-ידי העלאה דרמטית של מספר החזרות על המבדק, המאפשרת הפקת לקחים מהירה ושימושית יותר.

לשנות תמריצים, לא אנשים

רבות מהטכניקות המשמשות את החברות העסקיות להפחתת העלות פר נבדק –  אינטגרציה עם מערכות נתונים זמינות להפעלה, האחדת מַערכי הניסוי וכן הלאה  – ניתנות ליישום גם בניסויים של מדיניות חברתית. כך אכן נעשה, אמנם באופן מוגבל, בימי המחלוקת הגדולה על מדיניות הרווחה בשנות התשעים, בִּדמוּת שלושים ומשהו ניסויים בהקצאה אקראית. זה היה אחד ממִקְבְּצֵי הניסויים הפוריים ביותר אי-פעם בתחום המדיניות החברתית. המגזר העסקי הוא שלימד את מדעני החברה כמה יעילים יכולים להיות ניסויי שדה מרובי-חזרות; הרבה יותר מכפי שהללו שיערו.

אך מה למדנו מהניסויים במדעי החברה שכבר ביצענו? סקרתי את הניסויים הללו, לא רק בתחום הקרימינולוגיה אלא גם את אלה שעסקו בתוכניות רווחה, בחינוך ובתחומים נוספים, ונראה לי כי עולים מהם שלושה לקחים עקביים.

ראשית, רק תוכניות בודדות מתגלות כמוצלחות בניסויים שיש בהם הקפדה נאותה על הקצאה אקראית ועל שחזור. למרות טענות אמפיריות מורכבות ומרשימות למשמע-אוזן המועלות בפי תומכי-תוכניות שכאלו ופרשנים, עלינו להיות ספקנים מאוד כלפי טענות בדבר יעילותן של תוכניות ומדינויות חדשות נוגדות אינטואיציה, ולא לשכוח שתחומים כגון כלכלה ומדיניות חברתית נתונים לתהליכי הנסייה-וטעייה של ההתפתחות החברתית הטבעית.

הראשון שביצע ניסוי מבוקר; ג'יימס לינד. באדיבות ויקימדיה
הראשון שביצע ניסוי מבוקר; ג’יימס לינד. באדיבות ויקימדיה

שנית, אפילו בתוך עולם זה של תכניות שבדרך כלל נכשלות, יש סוג מסוים של תכניות שכישלונו כמעט מובטח: תכניות המנסות לשנות אנשים, להבדיל מתכניות המנסות לשנות תמריצים. בתקופת הוויכוח על רפורמת הרווחה, שלל תכניות להכנסת נתמכי-רווחה למעגל העבודה לא צלחו את מבחנם של הניסויים בהקצאה מקרית; היחידות שעמדו במבחן היו אלה שכללו דרישות מחייבות לעבודה. או בתחום אחר – מכל השפע הכמעט אינסופי של הניסיונות לשנות אנשים ולצמצם את נטייתם לבצע פשעים – ייעוץ לאסירים, סיוע זמני לאסירים, השגחה צמודה, מחנות טירונים לנוער – הקונספט היחיד שנתגלה בניסויי RFT חוזרים ככזה שממלא את הציפיות ומפחית את שיעורי הפשע, לפחות לזמן מה, הוא כאמור קונספט “סילוק המטרדים”: זה המשנה את הסביבה שהפושעים פועלים בה. (אין בכך כדי לומר שתכניות ישירות לשיפור התנהגות אינן יכולות להצליח אף פעם; תכנית מפורסמת אחת, השולחת אחיות לבקר אצל נשים בהריון ראשון או לאחר לידה ראשונה, נבדקה בסדרה של מחקרי RFT בלתי תלויים זה בזה, ונמצא בהם שהיא מניבה שיפורים בכמה ממדים חברתיים).

ושלישית, אין קסמים. גם באותן תכניות מעטות שאכן מצליחות, בדרך כלל השיפור צנוע למדי יחסית לגודל הבעיות שהן מנסות לפתור ויחסית לחלומות של המטיפים להן.

אין ספק: הניסויים משנים את פני המחקר במדעי החברה. מספר הניסויים המדווחים בכתבי העת המרכזיים של מדעי החברה עולה בהתמדה, בכל התחומים: חינוך, קרימינולוגיה, מדע המדינה, כלכלה ואחרים. כמה פרסי נובל בכלכלה ניתנו לאחרונה לנסיינים מעבדתיים, ובין המועמדים הבולטים לזכות בפרס זה בעתיד רבים החוקרים המתמקדים ב-RTF.

מפתה לטעון שאנו עומדים בראשיתה של מהפכה מדעית במדע החברה, מהפכה שעתידה להוליד תגליות בל ישוערו. אבל עלינו לשמור כאן על ספקנות בריאה. המהפכה הניסויית דומה לגל ענק, וכמוהו היא מאבדת מכוחה ככל שהיא עוברת על פני שרטונים גבוהים יותר – קרי נושאים מורכבים יותר. את הפיזיקה שינתה המהפכה הניסויית מכף רגל ועד ראש. בביולוגיה הרפואית יש צפיפות גורמים רבה יותר, אך גם שם אפשר לסמוך בדרך כלל על ההנחה בדבר תגובה ביולוגית אחידה ולהכליל ממצאים מניסויים בהקצאה אקראית. במדעי החברה הצפיפות הסיבתית רבה אף יותר, וכאן ההכללה של תוצאות ניסויים מסוכנת, גם אם אלה הם ניסויים שנעשתה בהם הקצאה אקראית נאותה. כדי להגיע למהפכה אמתית בהבנת החברה האנושית תידרש רדוקציה של מדע החברה לכדי ביולוגיה – והדבר, נכון לעכשיו, רחוק מלהיות בהישג ידו של המדע.

כרגע ברור שאפילו לא התחלנו להתקרב להבנה מדעית של החברה האנושית, וששיטות המחקר של מדע החברה הניסויי לא יביאונו לידי כך בעתיד הנראה לעין. ביום מן הימים יצליח אולי המדע לחזות את ההתנהגות האנושית באופן מקיף ומהימן. עד אז נצטרך להמשיך לגשש את דרכנו, למעוד וליפול ולקום, ולהשתדל מאוד.

ג’ים מאנזי הוא המייסד והיו”ר של חברת תוכנה המפתחת אינטליגנציה מלאכותית יישומית. הוא עמית בכיר במכון מנהטן, ומחברו של הספר “Uncontrolled” העוסק בניסוי-וטעייה בעסקים, בפוליטיקה ובחברה. אנו מודים לאתר סיטי ג’ורנל על הרשות לתרגם את המאמר.

מאמרים נוספים

כתיבת תגובה

האימייל לא יוצג באתר.

15 תגובות למאמר

 1. לא הבנתי מה המאמר מנסה לטעון. הבנתי שהמאמר טוען שכלכלה זה עדיין לא מדע מדויק, שלא ניתן לשנות אנשים, ושהאינטרנט מוסיף קצת כח לניתוחים סטטיסטיים.

  מה פספסתי? באמת שואל

  1. ואם המאמר שכנע אותך בשלושת אלה, בעזרת דוגמאות מציאותיות והסברים בהירים, האם זה לא הרבה?

  2. הרבה מאוד. אבל האמיתות האלה די עמוק בקונצנזוס. קשה לי להאמין שמאמר שלם יוקדש רק לעוד אשרור שלהן. אולי יש הקשר שהחמצתי

  3. השואל:

   המאמר לא רק טוען, אלא נותן תימוכין נרחבים לטענות אלו, על ידי ניתוח-על של המון מחקרים במדעי החברה. אם כל מה שמעניין אותך הוא השורה התחתונה, אולי כל הטרחה הזו מיותרת בשבילך. לעומת זאת, מי שמעוניין להגיע למסקנה נכונה, מתעניין מאוד בבדיקה מקיפה של הטענות.

   יש לי תחושה שיותר מדיי חוקרים מתחומים אלו מתייחסים למדע כמוך, ולא כמו הכתבה.

  4. בעז: צודק. אכן יש עולם שלם מעבר לשורה התחתונה. אני בוש ונכלם. ואפילו לא ידעתי שאני כזה…

   נראה לי שאיישם מה שלמדתי ואלך גם לכתוב מאמר ברוח הביקורת שנתת. המאמר יהיה על כך שאכילת תפוח אחד ביום לא מעלה משמעותית את הסיכון למחלות לב. אתן תימוכים נרחבים לטענה על ידי ניתוח של המון מחקרים (כמה שנכנס בפיתה) ואבדוק את הטענות באופן מקיף.

   אגב, אני עדיין נותן קרדיט לכותב המאמר שייתכן מאוד שיש שם יותר מתיקוף של כמה אמיתות עבשות. אני לא פוסל את האפשרות שאין שם כלום אמנם, אבל בהחלט לא אופתע אם יש שם גם משהו מעבר לזה שאותו לא הבנתי.

 2. נקודה חשובה השמה לאל את כל הניסויים החברתיים היא שהעובדות ניתנות לפרשנויות שונות וגם הנחות היסוד ניתנות להפרכה

 3. א. נראה כי חסר קישור בין כל המאמר לפסקה האחרונה.
  ב. נקודה משעשעת: רק היום שמעתי פרופ’ לתזונה שסיפרה שכל מה שידוע על קפאין עד היום התברר כלא נכון מכיוון שלא הפרידו בין צריכת קפאין לעישון בקבוצות הביקורת… המראיין שאל אותה איך דבר כזה בסיסי לא נלקח בחשבון ושהוא פשוט לא מאמין שעות כזו גדולה נעשתה היא ענתה: ככה זה מדע..

 4. אין דבר כזה מדעי החברה. לא מדובר במדע כלשהו אלא בהחלפת דעות ותו לא. יש להפסיק את השימוש היומרני האידיוטי לחלוטין במילה מדע כשמדובר בהחלפת דעות של כמה שמאלנים בנושאים שיש להם אינטרס לבצע בהם שטיפת מוח לאומה על מנת לעוות את המציאות. הציבור בורח מהפקולטות להחלפת דעות מטופשות ולכן לימודי החברה הללו קורסים בזה אחר זה. .

  1. מדעי החברה זה לא רק מגדר וסוציולוגיה. הם כוללים גם את התחומים הבאים: כלכלה, סטטיסטיקה, פסיכולוגיה,חשבונאות ועוד (ברבים מתחומים אלה, אגב, ההטייה השמאלנית הנפוצה ביתר התחומים דווקא איננה נפוצה). האם נראה לך סביר לוותר על כל אלה? האם באמת כדאי לוותר על תחומי ידע שלמים רק כיוון שהמחקר בהם מורכב ומסובך?

  2. נוטה להסכים איתך בנוגע למדעי הרוח. במדעי החברה יש בכל זאת נסיון להבין את החברתיות באמצעות תצפיות וניתוח. במידה מסויימת מדעי החברה של היום נמצאים במקום שבו היו המדעים המדוייקים בימיו של אריסטו, כך שבאמת אפשר להתייחס לכל ‘אמירה’ שבאה משם בסלחנות מעורבת בגיחוך. יוצאת דופן היא הכלכלה, שם יש נסיון אמיתי למדל באופן מתמטי פעילות כלכלית. גם כאן המדע עוד בחיתוליו אבל כבר לא מדובר רק בהחלפת דעות

 5. בתור סטודנט לכלכלה אני חייב לציין שבמדינות שונות (וגם בערים שונות ואפילו בשכונות שונות) יש שוני רב בהתנהגות של אנשים וגם אלה משתנים אם הזמן. למצוא חוקים אחידים לאוכלוסיות שונות היה כמעט בלתי אפשרי. בתור מדע שעוסק בהתנהגות אנושית, יכולת החיזוי של כלכלה תגדל בעזרת הרבה מחקרים אזוריים (כל כמה שנים בכל אזור)ולכל אזור היו “חוקים” משלו.