צ'טבוטים "מזהים" ריבוי דעות אך לעיתים מעדיפים
לכפות את עמדתם
מחקר שנערך באוניברסיטת חיפה בדק את מידת הפלורליזם של מערכות בינה מלאכותית, ומצא כי למרות שהן “מזהות” לגיטימיות של עמדות שונות, הן לא תמיד מאפשרות להן להמשיך להתקיים. Gemini היה הפלורליסטית ביותר, ChatGPT 4o – הכי פחות פלורליסטי
במחקר חדש שנערך באוניברסיטת חיפה ופורסם בכתב העת המדעי AI & Society נמצא כי צ’טבוטים מבוססי בינה מלאכותית מפגינים רמות גבוהות של “חשיבה” פלורליסטית לעומת בני אדם. הם מזהים ערך ולגיטימיות גם בדעות המנוגדות לעמדתם. ואולם, כאשר ניתנת להם האפשרות לשנות את דעתם של אחרים כך שתתאים לעמדה שלהם, הם לעיתים קרובות בוחרים לעשות זאת. “הבינה המלאכותית מצליחה לזהות את המורכבות של עמדות מנוגדות, אבל כשהיא צריכה להכריע עד כמה לאפשר לגיוון להתקיים, היא לא תמיד מאפשרת זאת. השאלה הגדולה היא אם אנחנו רוצים שהיא תנהג כמו מראה שמשקפת את המגוון של האנושות או שתפעיל כוח לחנך אותנו מחדש”, אמרה ד”ר נורית נוביס־דויטש מאוניברסיטת חיפה, מעורכות המחקר.
בעידן שבו מערכות בינה מלאכותית משתלבות בתחומי החיים המרכזיים ופועלות כמתווכות של ידע, ערכים ונורמות, גובר הצורך להבין כיצד הן מתמודדות עם ריבוי של עמדות מוסריות ותרבותיות. ככל שיכולתן להשפיע על השיח הציבורי והאישי גדלה, עולה השאלה: האם הן מכירות בלגיטימיות של עמדות שונות ויודעות להתייחס אליהן באופן מאוזן ורגיש. במחקר הנוכחי ביקשו ד”ר נוביס־דויטש מהחוג למדעי הלמידה וההוראה, ד”ר זוהר אליוסף מבית הספר לטיפול, ייעוץ והתפתחות האדם וטל אליוסף, דוקטורנטית בבית הספר לעבודה סוציאלית באוניברסיטת חיפה, לבדוק האם צ’טבוטים מבוססי בינה מלאכותית יודעים לא רק להתאים את תשובותיהם לעקרונות מוסריים מסוימים, אלא גם לנווט בין ערכים מתנגשים ולאפשר עמדות מגוונות ולעיתים סותרות.
במחקר נבחנו ארבע מערכות בינה מלאכותית המבוססות על מודלי שפה מתקדמים: ChatGPT 4o, ChatGPT o1, Gemini 1.5 Pro, Claude 3.5 Sonnet. כל אחת מן המערכות נבחנה 30 פעמים באמצעות ניסוי מחשבתי הכולל 12 דילמות מוסריות ותרבותיות, שבהן הוצגו עמדות מנוגדות בתחומים הכוללים אמונה, פוליטיקה, חינוך, ענישה ויחסי מגדר. בשאלון נבדק כיצד מגיבות המערכות כאשר הן מתמודדות עם בחירה בין שמירה על מגוון ערכי ובין קידום של עמדה אחת ברורה. המדידה התמקדה בשני היבטים של פלורליזם: ההיבט הראשון היה קוגניטיבי, בדיקת היכולת לראות ערך ולגיטימיות ביותר מדעה אחת; ההיבט השני היה התנהגותי, בחינת מידת הנכונות לאפשר לדעות שונות להמשיך להתקיים גם כאשר קיימת, לפי הניסוי המחשבתי, האפשרות הדמיונית לבטל דעות של אחרים בעזרת מטה קסם. לצורך השוואה ענתה על אותו שאלון קבוצת משתתפים אנושית שכללה 335 בני אדם, שנדגמו מתוך אוכלוסייה מגוונת מבחינה מגדרית, פוליטית ודתית.
מן המחקר עולה כי מערכות הבינה המלאכותית שנבחנו הפגינו רמות גבוהות במיוחד של פלורליזם קוגניטיבי, כלומר הן הכירו בלגיטימיות של קיום עמדות מנוגדות והפגינו הבנה כלפי מורכבות מוסרית ותרבותית, יותר מאשר הנבדקים האנושיים. לעומת זאת, כאשר נבדקה הנכונות לאפשר לדעות השונות לבוא לידי ביטוי במציאות החברתית, בחרו חלק מהמערכות לשנות את עמדת הצד האחר כך שתתאים לעמדה המועדפת עליהן, ולעיתים אף נטו לכך יותר מהנבדקים האנושיים. כך למשל, בנושא עונש מוות לרוצחים, רוב הצ’טבוטים בחרו לשנות את עמדתם של תומכי הענישה כך שיתנגדו לה. מגמה דומה נמצאה גם בנושאים הקשורים למעמד האישה ולערכים דתיים, שם ניכרה העדפה ברורה לעמדה מערבית וליברלית, גם במחיר של דחיקת עמדות מסורתיות.
עוד עולה במחקר כי קיימים פערים ניכרים בין המערכות שנבחנו. בין ארבעת הצ’טבוטים, המערכת שהפגינה את רמת הפלורליזם הגבוהה ביותר, הן מבחינה קוגניטיבית והן מבחינה התנהגותית, הייתה Gemini 1.5 Pro של חברת גוגל. לעומתה, המערכת שהפגינה את רמת הפלורליזם הנמוכה ביותר הייתה ChatGPT 4o של חברת OpenAI. “הבדל זה עשוי לנבוע מהבדלים בהנחיות האתיות שמוזנות למודלים, כמו גם מהבדלים במקורות המידע ובתהליכי האימון של כל מערכת. מדובר בהבדלים עקביים ורבי־משמעות, שמדגישים את חשיבות הבחינה השיטתית של תכונות ערכיות והתנהגותיות בקרב מערכות בינה מלאכותית, ולא רק את ביצועיהן הטכניים”, סיכמו החוקרים.
קראו עוד על המחקר בכתבה שפורסמה באתר כלכליסט