בשנים האחרונות נכנסו לשימוש רחב כלים שמבטיחים לזהות כתיבה שנוצרה על ידי בינה מלאכותית, והם הפכו במהירות לחלק מהאופן שבו עבודות אקדמיות נבדקות ומוערכות. עבור סטודנטים וכותבים רבים נוצרה בעקבות זאת תחושת חוסר ודאות עמוקה: גם כאשר הם כותבים בעצמם, משקיעים ומקפידים על כללי הכתיבה האקדמית, אין להם דרך לדעת כיצד הטקסט שלהם יתפרש בעיני תוכנות הזיהוי ובעקבותיהן בעיני מי שבודק את עבודתם. במציאות הזו, החשש אינו נובע בהכרח משימוש בבינה מלאכותית אלא מזיהוי שגוי של העבודה שנכתבה כאילו נכתבה על ידי AI. במאמר זה נסביר מדוע כתיבה אקדמית, ודוקא כשהיא במיטבה, תזוהה על ידי רוב התוכנות לזיהוי כתיבה על ידי AI כאילו נכתבו על ידי AI, אפילו אם נכתבו על ידי כותב/ת אנושי/ת, ואפילו אם נכתבו עוד לפני שבינה מלאכותית ג'נרטיבית הומצאה.
איך תוכנות לזיהוי כתיבה של AI עובדות בפועל?
כדי להבין מדוע מתרחש זיהוי שגוי, צריך להתחיל מהאופן שבו תוכנות לזיהוי כתיבה של AI פועלות. בניגוד לאינטואיציה הרווחת, התוכנות אינן יודעות לזהות מי כתב את הטקסט ואינן “מזהות בינה מלאכותית” במובן ישיר. הן אינן ניגשות למסד נתונים של טקסטים שנוצרו על ידי מודלים ואינן משוות את הטקסט הנבדק למקור ידוע. במקום זאת, הן מנתחות מאפיינים סטטיסטיים של השפה עצמה ומנסות להעריך עד כמה הטקסט נראה להן צפוי, אחיד וסדור.
המדד המרכזי בהקשר זה הוא מידת הצפיות של הטקסט, שלעתים מכונה גם perplexity. באופן פשוט, מדובר בשאלה עד כמה המילים במשפט מפתיעות זו ביחס לזו. טקסט שבו כל מילה נראית כהמשך טבעי מאוד של המילה הקודמת נחשב לטקסט בעל צפיות גבוהה. לעומת זאת, טקסט שמכיל חריגות, קפיצות סגנוניות או בחירות לשוניות פחות צפויות נחשב לפחות צפוי.
מודלים גנרטיביים של שפה נוטים לייצר טקסטים עם רמת צפיות גבוהה יחסית. הם מאומנים לבחור בכל שלב את המילה הסבירה ביותר בהינתן ההקשר, ולכן התוצאה היא טקסט זורם, עקבי ולעיתים גם אחיד מאוד. תוכנות הזיהוי נשענות בדיוק על מאפיין זה ומסיקות כי טקסט שנראה צפוי במיוחד עשוי להיות תוצר של בינה מלאכותית.
מעבר לכך, התוכנות בוחנות גם רמת אחידות סגנונית, עקביות תחבירית, שימוש חוזר במבנים דומים, והיעדר חריגות בולטות. טקסטים שבהם כל המשפטים בנויים בצורה דומה, המעברים חלקים במיוחד, ואין כמעט סטיות מהנורמה הלשונית, נוטים לקבל ציון גבוה יותר של הסתברות לכתיבה גנרטיבית.
חשוב להדגיש כי מדובר בהסקה הסתברותית בלבד. התוכנות אינן קובעות עובדה אלא מדרגות עד כמה הטקסט דומה לדפוסים שהן למדו לזהות כמאפיינים של כתיבה גנרטיבית. בנוסף, האימון שלהן מבוסס על קורפוסים מסוימים שאינם מייצגים בהכרח את כל סוגי הכתיבה האנושית, ובפרט לא תמיד כתיבה אקדמית מוקפדת. כתוצאה מכך נוצר מצב שבו מאפיינים כמו תקניות גבוהה, עקביות ואחידות אינם מתפרשים כסימן לאיכות אנושית, אלא דווקא כסימן אפשרי למקור מלאכותי.
המאפיינים המבניים של כתיבה אקדמית תקנית
כתיבה אקדמית איננה רק ביטוי חופשי של רעיונות אלא פרקטיקה בעלת כללים ברורים, ולעיתים אף נוקשים, שמגדירים כיצד יש לנסח, לארגן ולהציג ידע. בניגוד לכתיבה אישית או יצירתית, שבה יש מקום רחב לשונות סגנונית, הכתיבה האקדמית שואפת לאחידות, בהירות ועמידה בנורמות מוסכמות. המשמעות היא שטקסטים אקדמיים רבים, גם כאשר הם עוסקים בנושאים שונים לחלוטין, נוטים להיראות דומים מאוד זה לזה ברמת המבנה והניסוח.
אחד המאפיינים המרכזיים הוא שימוש בתבניות קבועות לכל חלק בעבודה. הצגת מטרת המחקר נעשית בדרך כלל באמצעות נוסחים מוכרים ומצומצמים יחסית. גם ניסוח שאלת המחקר, תיאור שיטת המחקר והצגת מבנה העבודה נכתבים לפי דפוסים רטוריים שחוזרים על עצמם שוב ושוב. אין מדובר רק בהמלצות כלליות אלא בציפייה ממשית לעמידה בנוסח מקובל, לעיתים כמעט בניסוח זהה בין עבודות שונות.
הדבר בולט במיוחד בסקירת הספרות, שבה נהוג להציג מחקרים קודמים באמצעות מבנים חוזרים של הצגה, סיכום והשוואה. גם כאשר התוכן משתנה, האופן שבו הוא מוצג נשאר דומה מאוד. כך גם בהצגת תיאוריות, שבהן יש דרך מקובלת לקשור בין המסגרת התאורטית לבין נושא המחקר.
החזרתיות מגיעה לשיאה בהצגת הממצאים. במחקרים כמותיים יש נוסחים כמעט קבועים להצגת תוצאות סטטיסטיות, כאשר ההבדל בין טקסטים שונים מתמצה לעיתים במספרים עצמם. גם במחקר איכותני, שבו לכאורה יש יותר גמישות, קיימים דפוסים לשוניים חוזרים להצגת קטגוריות, תמות וציטוטים.
התוצאה היא מצב שבו כתיבה אקדמית תקנית מבוססת במידה רבה על חזרתיות, עקביות ושימוש בנוסחאות לשוניות מוכרות. אלו אינם פגמים אלא חלק מהותי מהאופן שבו ידע אקדמי מועבר ומובן. עם זאת, מבחינה צורנית בלבד, המשמעות היא שטקסטים אקדמיים רבים חולקים מאפיינים דומים מאוד של מבנה, סגנון ורמת אחידות.
למה כתיבה אקדמית מזוהה כ AI על ידי התוכנות לזיהוי AI?
כאשר מחברים את אופן הפעולה של תוכנות הזיהוי עם המאפיינים של כתיבה אקדמית, מתקבלת חפיפה כמעט מלאה בין מה שהתוכנות מחפשות לבין מה שהאקדמיה דורשת. התוכנות מחפשות טקסטים צפויים, אחידים ועקביים, ואילו הכתיבה האקדמית שואפת בדיוק לאותם מאפיינים. התוצאה היא שטקסט אקדמי תקני נראה לתוכנה כמו מועמד טבעי לזיהוי כטקסט גנרטיבי.
השימוש בתבניות קבועות ובנוסחים חוזרים מפחית את מידת ההפתעה בטקסט. כאשר יש מספר מוגבל של דרכים מקובלות לנסח מטרת מחקר, להציג שיטה או לדון בממצאים, הבחירה הלשונית נעשית צפויה מאוד. מבחינה סטטיסטית, זהו בדיוק סוג הטקסט שהתוכנות נוטות לזהות כבעל מאפיינים של בינה מלאכותית, משום שהוא מפחית שונות ומייצר רצף לשוני שניתן לחיזוי בקלות יחסית.
גם האחידות הסגנונית משחקת תפקיד מרכזי. בעבודה אקדמית טובה מצופה לשמור על אותו סגנון לאורך כל הטקסט, להימנע מקפיצות לשוניות ולנסח באופן עקבי וברור. אולם עבור אלגוריתם שמחפש דפוסים, אחידות כזו אינה בהכרח סימן לאיכות אלא סימן לכך שהטקסט “מתנהג” באופן דומה לאורך זמן, כלומר בהתאם לדפוס סטטיסטי יציב.
בנוסף, היעדר חריגות בולטות מחזק את הזיהוי השגוי. טקסטים אנושיים רגילים כוללים לעיתים ניסוחים לא צפויים, חוסר עקביות קל או סטיות קטנות מהנורמה. בכתיבה אקדמית מוקפדת חריגות כאלה מצטמצמות למינימום. מבחינת התוכנה, דווקא היעדר החריגות הזה הוא אינדיקציה לכך שהטקסט עשוי להיות מלאכותי.
כלומר, התוכנות אינן בוחנות את כוונת הכותב או את תהליך הכתיבה, אלא רק את התוצר הסופי. כאשר התוצר הזה עומד היטב בכללים של כתיבה אקדמית, הוא מקבל ציון גבוה של צפיות ואחידות, ולכן גם הסתברות גבוהה להיות מזוהה כטקסט שנוצר על ידי AI, גם כאשר מדובר בכתיבה אנושית לחלוטין.
למה התופעה מתגברת דווקא כשהכתיבה האקדמית במיטבה?
ככל שהכתיבה האקדמית מוקפדת יותר, כך היא נוטה להתכנס בצורה מלאה יותר אל הכללים, התבניות והנוסחים המקובלים. הקפדה על ניסוח מדויק, על אחידות סגנונית ועל זרימה חלקה אינה רק משפרת את איכות הטקסט, אלא גם מצמצמת כמעט לחלוטין חריגות לשוניות, ניסויים סגנוניים או בחירות בלתי צפויות. מבחינה אקדמית זו כתיבה טובה יותר, אך מבחינה סטטיסטית מדובר בטקסט צפוי יותר.
כאשר כותבים עבודה ברמה גבוהה, מקפידים בדרך כלל להשתמש בדיוק בנוסחים המקובלים להצגת מטרות, שיטות, תיאוריות וממצאים. במקום לגוון או לנסח מחדש, נצמדים לניסוחים שנחשבים נכונים ומדויקים. כך נוצרת חזרתיות לא רק בין עבודות שונות אלא גם בתוך אותה עבודה. החזרתיות הזו מחזקת דפוסים לשוניים ברורים ומפחיתה שונות, בדיוק אותם מאפיינים שהתוכנות מזהות.
בנוסף, כתיבה טובה מאופיינת בכך שכל חלק בטקסט משתלב בצורה חלקה עם החלקים האחרים. המעברים ברורים, המבנה יציב, ואין קפיצות בסגנון או בטון. אלא שאחידות כזו לאורך טקסט שלם מייצרת פרופיל לשוני עקבי מאוד, שקל יותר לחיזוי. ככל שהטקסט עקבי יותר, כך הוא נראה יותר כמו טקסט שנוצר על פי כללים קבועים.
יש גם אפקט מצטבר. כאשר כל אחד ממרכיבי הכתיבה עומד היטב בכללים, התוצאה הכוללת היא טקסט שמדגים באופן כמעט מלא את הדפוסים שהתוכנות מחפשות. לעומת זאת, טקסט פחות מוקפד יכיל בדרך כלל סטיות קטנות, חוסר אחידות או ניסוחים פחות צפויים, שמפחיתים את הסבירות לזיהוי כטקסט גנרטיבי.
המשמעות היא פרדוקסלית. שיפור הכתיבה לפי הסטנדרטים האקדמיים אינו מרחיק את הטקסט מהזיהוי ככתיבה של AI אלא דווקא מקרב אותו אליו. לכן עבודות טובות במיוחד אינן רק חשופות לזיהוי שגוי, אלא במקרים רבים חשופות לכך יותר מעבודות בינוניות.
סיכום
תוכנות לזיהוי כתיבה של AI אינן בוחנות מי כתב את הטקסט אלא כיצד הוא נראה מבחינה לשונית וסטטיסטית. הן מחפשות צפיות, אחידות ודפוסים חוזרים, ומסיקות על פיהם עד כמה הטקסט דומה למה שהן מכירות ככתיבה גנרטיבית. כתיבה אקדמית תקנית, מצידה, מבוססת בדיוק על אותם עקרונות: שימוש בתבניות קבועות, נוסחים חוזרים, עקביות סגנונית והימנעות מחריגות.
המפגש בין שני הדברים יוצר חפיפה כמעט מלאה. טקסט שעומד היטב בכללים האקדמיים נעשה צפוי יותר, אחיד יותר וקל יותר לחיזוי, ולכן גם נראה לתוכנות כמו טקסט שנוצר על פי דפוסים אלגוריתמיים. ככל שהכתיבה מוקפדת יותר ונצמדת יותר לנוסחים המקובלים, כך ההשפעה הזו מתחזקת.
מכאן נובע שהזיהוי השגוי אינו תוצאה של מקרה חריג אלא של התאמה בין צורת הכתיבה האקדמית לבין אופן הפעולה של התוכנות. כתיבה אנושית איכותית יכולה להיראות, מבחינה סטטיסטית, כמו כתיבה של בינה מלאכותית, גם כאשר אין כל שימוש בכלים כאלה.