דף הבית / מאמרים / ייצוג לאומי, חוסר התאמה מקומי: ההטיות של בינה מלאכותית גנרטיבית בתפיסת שכונות

ייצוג לאומי, חוסר התאמה מקומי: ההטיות של בינה מלאכותית גנרטיבית בתפיסת שכונות

מאמרים מובילים במדעי המדינה
18.10.2025

Bollen, P., Higton, J., & Sands, M. (2025). Nationally Representative, Locally Misaligned: The Biases of Generative Artificial Intelligence in Neighborhood Perception. Political Analysis, 1-9.‏

הקדמה

התפתחות הבינה המלאכותית הגנרטיבית (GenAI) יצרה כלים רבי עוצמה לניתוח טקסטים ותמונות ולביצוע משימות הדורשות הבנה סובייקטיבית של מציאות חברתית. השימוש במודלים אלו הולך ומתרחב למחקרי חברה, לפעולות ממשלתיות וליישומים פרטיים. אולם השאלה המרכזית היא עד כמה המודלים הללו מייצגים נאמנה את תפיסות האנשים האמיתיים, ובאילו אוכלוסיות הם משקפים היטב את המציאות ובאילו הם חורגים ממנה.

השימוש בבינה מלאכותית להערכת סביבות עירוניות מעלה קושי מתודולוגי עמוק: תפיסות של ביטחון, עושר או סדר במרחב הציבורי תלויות בהקשר המקומי ובניסיון החיים של התושבים. כאשר מודלים גנרטיביים מנסים לחקות תפיסות אלו, הם עלולים לשעתק דימוי לאומי ממוצע שאינו משקף את הניואנסים המקומיים. מחקר זה בוחן את מידת ההתאמה בין הערכות שמפיקים מודלים חזותיים גנרטיביים (Large Multimodal Models) לבין תפיסות של בני אדם מקבוצות שונות – מדגם מייצג של כלל האוכלוסייה האמריקנית לעומת מדגם מייצג של תושבי העיר דטרויט.

נתונים ושיטות

החוקרים השתמשו במאגר תמונות רחוב פתוח ממקור Mapillary, שממנו נבחרו באקראי 85 תמונות של סביבות עירוניות בדטרויט. לכל תמונה הועברו הערכות בשלושה ממדים עיקריים: ביטחון בשעות היום והלילה, עושר נתפס, ורמת אי-סדר או הזנחה. ההערכות נאספו מחמישה מקורות שונים: שתי קבוצות אנושיות – מדגם לאומי של אמריקנים ומדגם מקומי של תושבי דטרויט – ושלושה מודלים גנרטיביים בעלי יכולות ראייה וטקסט: GPT-4o ו-GPT-4.1 של OpenAI, Gemini 1.5 ו-2.5 של Google, ו-Llama 4 של Meta.

כל מודל הופעל שלושים פעמים עבור כל שילוב של תמונה ושאלה כדי להתמודד עם אופיו הלא-דטרמיניסטי. בסך הכול נאספו 61,200 הערכות ממודלים ו-3,230 הערכות אנושיות. בנוסף להערכות הכלליות נבדקה גם ההשפעה של מגדר המשיבים, מאחר שתפיסות ביטחון במרחב הציבורי נבדלות בין נשים לגברים.

לצורך הניתוח נעשה שימוש בשני מדדים עיקריים. הראשון בחן את מתאם פערי ההערכות בין המודלים לבין דגימות האנשים, על מנת לזהות את מידת הדמיון בדפוסים היחסיים של התפיסות. השני בדק באמצעות מבחני t את ההבדלים המובהקים בין הממוצעים של ההערכות עבור כל תמונה, כדי לזהות את הכיוון והעוצמה של ההטיה במקרים ספציפיים.

תוצאות

המתאם בין הערכות GPT-4o לבין המדגם הלאומי נמצא גבוה ועקבי בכל שלושת הממדים, אך נמוך בהרבה ביחס למדגם המקומי של דטרויט. בתחום הערכת העושר נרשמו מתאמים גבוהים למדי (rUS = 0.83, rDetroit = 0.73), אך בנושאי ביטחון ואי-סדר ניכרה ירידה חדה: מול המדגם הלאומי נמדדו מתאמים של 0.8–0.83, בעוד שבדטרויט ירדו המתאמים ל-0.58–0.6 בביטחון ול-0.16 בלבד באי-סדר.

כאשר המודל התבקש "להעמיד פנים שהוא תושב דטרויט", ההתאמה לא השתפרה ואף הידרדרה בחלק מהמקרים. תוצאות דומות התקבלו במודלים של גוגל ומטא, אם כי ברמת דיוק נמוכה עוד יותר.

בבחינה פרטנית של כל תמונה עלה כי גם כאשר הקורלציה הכללית בין המודל לאנשים גבוהה, קיימות סטיות משמעותיות ברמת התמונות הבודדות. המודלים מצליחים לשחזר את היחסים היחסיים בין תמונות (כלומר אילו נתפסות כעשירות או מסוכנות יותר מאחרות), אך מתקשים לדייק בערכים המוחלטים. כך למשל GPT-4o נטה להמעיט בעושר הנתפס לעומת המדגם האנושי – ב-67% מהתמונות לעומת המדגם הלאומי וב-38% לעומת מדגם דטרויט – והחמרה נרשמה כאשר נדרש לדמות תושב מקומי. בתחום הביטחון, ההבדלים בין הערכות יום ולילה היו הפכפכים, ולעיתים המודל העריך את רמת הביטחון בלילה כגבוהה בהרבה מזו שתושבים דיווחו עליה.

הפערים החריפים ביותר הופיעו בהערכת אי-סדר במרחב העירוני: GPT-4o הציג הבדלים מובהקים סטטיסטית מהמדגם הלאומי בכמחצית מהתמונות, ומהמדגם המקומי בכ-67%. משמעות הדבר היא שהמודלים מתקשים במיוחד לקלוט רמזים חזותיים הקשורים להזנחה, גרפיטי או פסולת – רמזים שמושפעים מהקשר תרבותי ומקומי.

בניתוח לפי מגדר התברר כי המודלים מתואמים יותר עם נשים מאשר עם גברים, בעיקר בנושאי ביטחון. בקרב מדגם דטרויט, ההתאמה לנשים הייתה עקבית גבוהה מזו לגברים, מגמה המצביעה על כך שההטיה של המודלים עשויה לשקף את הדומיננטיות של נקודת מבט מסוימת באוכלוסייה שממנה נוצרו נתוני האימון. ההבדלים בין גזעים לא הסבירו את הפערים: הערכותיהם של תושבים שחורים ולא-שחורים בדטרויט דמו זה לזה יותר מאשר להערכות מקבילות של משיבים שחורים בכלל ארצות הברית.

דיון

התוצאות מצביעות על כך שהמודלים הגנרטיביים מייצגים במידה רבה את "הממוצע האמריקני" אך אינם מצליחים ללכוד את הרגישויות המקומיות של תושבים בערים מסוימות. יכולתם לשחזר דפוסים כלליים של תפיסת ביטחון או עושר ברמה לאומית הופכת אותם לכלים שימושיים במקרים שבהם נדרשת הערכה כוללת של מגמות, אך בעייתיים כאשר הדיוק המקומי הוא תנאי הכרחי.

ביישומים שבהם חשובה ההערכה הספציפית של תמונות בודדות – כמו בזיהוי אוטומטי של סכנות, פשיעה או הזנחה עירונית – ההסתמכות על מודלים כאלו עלולה להטעות. גם ניסיונות להתאים את התשובות למאפייני אוכלוסיות משנה באמצעות הנחיות טקסטואליות (כגון "ענה כתושב מקומי" או "ענה כאישה צעירה") אינם משפרים את הביצועים ולעיתים אף מגדילים את הפערים.

הפערים בין קבוצות אוכלוסייה בדטרויט, במיוחד בין גברים לנשים, מצביעים על מגבלה עמוקה יותר: ככל שהאוכלוסייה הנבדקת נדירה יותר במחקרי סקרים או מיוצגת פחות בנתוני האימון של המודלים, כך יורדת היכולת של הבינה המלאכותית לייצג את תפיסותיה. מצב זה צפוי להימשך, משום שנתונים ממקורות אלו נדירים ואינם עומדים במרכז האינטרסים המסחריים של חברות המפתחות מודלים.

הממצאים מדגישים גם שאלה עקרונית: מהו "אמת מידה" למדידת הטיה במודלים כאשר מדובר בהערכות סובייקטיביות? בתפיסת ביטחון או עושר אין אמת אובייקטיבית אחת, אלא מכלול של שיפוטים אנושיים המעוגנים בהקשר חברתי ותרבותי. הטיה אינה רק סטייה מהמציאות הפיזית, אלא גם מהערכתם הממוצעת של בני אדם רלוונטיים. במקרים כאלה יש להגדיר מראש מי נחשב ל"קבוצת ההתייחסות" הנכונה – כלל הציבור, קבוצת יעד מסוימת או תושבי המקום.

בהקשר יישומי רחב יותר, החוקרים מזהירים מפני שימוש בלתי מבוקר במודלים גנרטיביים לצרכים ציבוריים כמו שיטור עירוני או ניטור ביטחון, שם טעות סובייקטיבית עשויה להוביל להשלכות חברתיות ממשיות. במגזר הפרטי, שימוש במודלים דומים לבדיקת תגובות צרכנים לתמונות מוצר או פרסומות חייב להתחשב בכך שהמודלים מייצגים את "הצרכן הממוצע" ולא בהכרח קבוצת יעד ספציפית.

למרות ההתקדמות המתמדת בבינה מלאכותית, הסיכוי שהמודלים ישקפו בעתיד הקרוב את עמדותיהן של אוכלוסיות מודרות או מקומיות נמוך, שכן היעדר נתוני אימון ממקורות אלו מגביל את יכולת הלמידה. יתר על כן, גרסאות חדשות של מודלים אינן מבטיחות שיפור עקבי: בבדיקות המשך נצפתה לעיתים ירידה בדיוק לעומת גרסאות קודמות.

לסיכום, הממצאים ממחישים כי בינה מלאכותית גנרטיבית מסוגלת להעריך דפוסים כלליים של תפיסות אנושיות אך אינה מחליפה את התצפית האנושית המקומית. כדי להשתמש בה בצורה אחראית יש להכיר במגבלותיה, במיוחד כאשר מדובר בהקשרים שבהם ההתנסות האישית והקול המקומי הם חלק בלתי נפרד מהאמת החברתית.