האם הייתם סומכים על בינה מלאכותית שתאבחן את מצב הלב שלכם?

ג'פרי פאולר, כתב הטכנולוגיה הבכיר של ה-Washington Post, החליט לבצע ניסוי נועז, הוא הזין לתוך הפיצ'ר החדש "ChatGPT Health" עשור שלם של נתונים שנאספו בשעון ה-Apple Watch שלו.
התוצאה הייתה מפחידה, שגויה, ומדגימה בדיוק למה אנחנו עדיין רחוקים מאוד מהיום שבו ה-AI יחליף את הרופא האנושי.
הניסוי הגדול: 29 מיליון צעדים לתוך המוח של ה-AI
פאולר ניצל את ההשקה החדשה של OpenAI, המאפשרת אינטגרציה ישירה בין ChatGPT לאפליקציית הבריאות של אפל (Apple Health).
הוא העניק לבוט גישה לנתונים עצומים: 29 מיליון צעדים, 6 מיליון מדידות דופק, ונתוני שינה של עשר שנים. השאלה שלו הייתה פשוטה: "מה מצב בריאות הלב שלי?".
התשובה של ChatGPT הייתה חד משמעית ומבהילה: הוא העניק לפאולר את הציון "נכשל" (F), והזהיר מפני סיכון בריאותי חמור.
האבחנה השגויה שהקפיצה את הדופק
בבהלה, פאולר פנה מיד לקרדיולוג אמיתי ולמומחים רפואיים מובילים כמו ד"ר אריק טופול. הבדיקה הרפואית העלתה את האמת הפשוטה, פאולר בריא לחלוטין, והסיכון שלו להתקף לב נמוך מאוד.
המומחים קבעו כי הניתוח של ChatGPT היה "חסר בסיס" (Baseless). מסתבר שהבינה המלאכותית לא באמת "הבינה" את הנתונים, אלא פשוט ניחשה על בסיס סטטיסטיקות לא רלוונטיות, מה שמוכיח את הסכנה בהסתמכות על בוטים לנושאים של חיים ומוות.
למה ה-AI נכשל? מצעד הטעויות המביכות
התחקיר חשף שורה של כשלים לוגיים באופן שבו ChatGPT ניתח את המידע:
- פרשנות שגויה של VO2 Max: הבוט התייחס להערכות גסות של השעון כאילו היו בדיקות מעבדה מדויקות.
- התעלמות משדרוגי חומרה: כאשר פאולר החליף שעונים במהלך השנים, החיישנים השתנו והנתונים "קפצו". ה-AI פירש זאת כשינוי דרמטי בבריאות הלב, במקום להבין שמדובר במכשיר חדש.
- הזיות וחוסר עקביות: בשיחות חוזרות, הבוט שינה את הציון מ-"F" ל-"B" ללא סיבה נראית לעין, ואף "שכח" פרטים בסיסיים כמו גילו ומינו של המשתמש.
תגובת החברות: "זה רק ניסוי"
בעוד ש-OpenAI טענה כי המוצר נמצא בשלבי בטא ונועד לספק "תובנות כלליות" בלבד, אפל מיהרה להתנער מהאירוע והבהירה כי לא עבדה ישירות עם OpenAI על פיתוח הפיצ'ר הזה, למרות האינטגרציה הקיימת.
המסקנה של הוושינגטון פוסט הייתה ברורה: למרות הפוטנציאל העתידי, כרגע ה-AI הוא "רופא אליל" דיגיטלי שעדיף להתרחק ממנו.





