המאיירים יכולים לישון בשקט

כמו כולם, גם אני מיהרתי להירשם לשירות החינמי של DALL·E כדי להפיק תמונות מרשימות בעזרת הבינה המלאכותית המהוללת. התוצאות היו קצת פחות מהוללות ממה שרואים – תרתי משמע – בתקשורת. הנה הן לשיפוטכן.

תוצר של DALL·E לשאילתה "An illustrator sleeping in peace"
תוצר של DALL·E לשאילתה "An illustrator sleeping in peace" (לחצו לתמונה גדולה)

קשה להיכנס כיום לאתר חדשות בלי להיתקל בכמה תמונות מרשימות, שהבינה המלאכותית (או איך שלא תקראו לזה) DALL·E יצרה בכוחות עצמה על סמך תיאור מילולי קצר בלבד. אל התמונות האלה, שחלקן נראות יפות ויצירתיות במידה מפחידה כמעט, מצטרפת לעתים קרובות פרשנות שמנבאת את קצו הקרוב של מקצוע האיור. למה שמישהו ישלם לבן אדם – יצור איטי שכמותו – סכומי כסף גדולים תמורת תוצרים, שהמחשב יכול להפיק יפים מהם תוך שניות ספורות, בחינם או כמעט בחינם?

עם זאת, צברתי בחיי מספיק ניסיון כדי לדעת שהכרזות כאלה נוטות להיות מוגזמות, ולהתבסס על דוגמאות קיצוניות ולא מייצגות. לכן, מיד כשקראתי שאפשר להפיק תמונות בחינם (ליתר דיוק, במספר מוגבל ותמורת קצת פרטים אישיים), נרשמתי לאתר של התוכנה המפורסמת והתחלתי לעבוד. לכל משפט תיאור שהקלדתי באנגלית האתר הפיק ארבע תמונות שונות, ואלה הרביעיות שאציג בהמשך. את המשפטים שחוללו את התמונות אביא לכאן בתרגום שלי לעברית, ותצטרכו להאמין לי שגם בשפת המקור הם היו תקניים, ללא שגיאות כתיב שפגמו בתוצאות וכן הלאה.

כמובן, לא הזנתי משפטים טריוויאליים, כמו "כלב יושב על כיסא". קל מדי. התוכנה, שלמדה ממיליוני תמונות קיימות, נחשפה לכל כך הרבה כלבים ולכל כך הרבה כיסאות, שברור שהתוצאה תצא אחלה. יותר מזה, סביר להניח שיש מיליוני תמונות רגילות שמסתובבות ברשת ושזה מה שרואים בהן, כך שממילא אף אחד לא יטרח לשלם למאייר תמורת עוד אחת. ניסיתי לכתוב משפטים יותר מאתגרים מבחינת הנושא, אבל כאלה שמאייר אנושי טוב עדיין יוכל להתמודד איתם בקלות.

המשפט הראשון היה "חתולים בחנות קסמים, בוחרים אביזרים למופע". אני יכול בקלות לדמיין ספר ילדים שיש בו סצנה כזו. הנה מה שקיבלתי מהאתר:

חתולים בוחרים אביזרים למופע בחנות קסמים, על פי DALL·E
חתולים בוחרים אביזרים למופע בחנות קסמים, על פי DALL·E (לחצו לתמונה גדולה)

חתולים יש, בלי ספק (גם אם במבט מקרוב רואים שהפנים שלהם מעוותים לגמרי). בתמונה השנייה משמאל נראה שהם ממש בוחנים משהו, ועם קצת פרשנות אפשר לטעון שכל התמונות מציגות איזושהי חנות. אבל אם הייתי כותב את הספר הנ"ל, אלה לא תמונות שהייתי רוצה לשים בו. אין שום תחושה של חנות קסמים – אם לא הייתי כותב את זה במפורש, בחיים לא הייתם מנחשים – וחסרה אווירה של מטרה, של התכוונוּת הדמויות, שכל מאייר אנושי היה תופס ומבטא באופן טבעי.

בניסיון הבא הלכתי על משהו שנראה לי קל יותר: "מלאך(ית) עם כנפי מטוס יושב יותר מדי זמן על האסלה". חשבתי שה"יותר מדי זמן" זה האתגר היחיד עבור הבינה המלאכותית, אבל הסתבר שגם עניין הכנפיים, שכל ילד היה מבין ומצייר היטב, פוספס כמעט לגמרי:

מלאכים עם כנפי מטוס יושבים יותר מדי זמן על האסלה, על פי DALL·E
מלאכים עם כנפי מטוס יושבים יותר מדי זמן על האסלה, על פי DALL·E (לחצו לתמונה גדולה)

בתמונה השנייה משמאל יש, בנוסף לכנפיים ה"קלאסיות", משהו שאפשר לראות ככנפיים של מטוס נייר, והבעת הפנים בתמונה השנייה מימין רומזת קצת לכיוון ה"יותר מדי זמן". למרות זאת, בחשבון הכללי התוצאה הזו נראית לי גרועה עוד יותר מהחתולים.

האתגר הבא, הפעם משהו שלדעתי הלא-מקצועית יהיה קשה גם למאייר אנושי: "עטלפים חולפים מביטים בהערכה על כור היתוך פונקציונלי לגמרי". בינינו, איך בכלל נראה כור היתוך פונקציונלי? בכל מקרה, אם היו מבקשים ממני לאייר כזה דבר, אני חושב שהייתי מקדיש תשומת לב דווקא למבט מלא ההערכה של העטלפים. הגיוני, לא? בואו נראה מה DALL·E חושבת:

עטלפים מעריכים כור היתוך, על פי DALL·E
עטלפים מעריכים כור היתוך, על פי DALL·E (לחצו לתמונה גדולה)

אם הייתי צריך לנחש, הייתי אומר שכל העטלפים בורחים מהכור – חוץ מהתמונה הימנית, שהיא באמת הזיה פרועה לגמרי. הסגנון מרשים, קצת יותר מדי אחיד בארבע התמונות, אבל שוב – הכוונה העיקרית התפספסה לגמרי. הלאה. איזו שאילתה, לדעתכם, יצרה את התמונות הבאות?

הודעות שגיאה על פי DALL·E
הודעות שגיאה על פי DALL·E (לחצו לתמונה גדולה)

לא, זה לא רק "הודעות שגיאה". השאילתה המלאה הייתה "הודעת שגיאה על גבי מסך מחשב ישן מאוד גורמת למשתמש לבכות כמו תינוק". הודעת שגיאה יש, מסך ישן יש, פחות או יותר, אבל איפה המשתמש? איפה הבכי? אלא אם זו יצירת-מטא שאמורה לגרום לי לבכות, משהו התפספס פה לחלוטין.

לא אלאה אתכם בכל המשפטים שבעזרתם ניסיתי, בתסכול הולך וגובר, לראות שהתוכנה אכן יכולה להבין משפט לא-טריוויאלי בשפה טבעית ולבטא אותו נכון בגרפיקה. הנה סתם דוגמה אחת – "נהנים על החוף בזמן פלישה של חייזרים מיטיבים":

נהנים על החוף בזמן פלישת חייזרים מיטיבים, על פי DALL·E
נהנים על החוף בזמן פלישת חייזרים מיטיבים, על פי DALL·E (לחצו לתמונה גדולה)

בשלב מסוים החלטתי להנמיך ציפיות ולתת ל-DALL·E משפטים קלים. עדיין לא טריוויאליים, אבל כאלה שלא מצריכים יותר מדי הפשטה כדי לבטא אותם גרפית. ככה זכיתי להצלחה המסחררת הבאה, על בסיס המשפט "ילד(ה) צעיר מגלה שיש לו יותר מדי אצבעות":

ילד מגלה שיש לו יותר מדי אצבעות, על פי DALL·E
ילד מגלה שיש לו יותר מדי אצבעות, על פי DALL·E (לחצו לתמונה גדולה)

התמונות הקיצוניות מימין ומשמאל מבוססות על עיוות שקשה לראות במבט ראשון (משמאל זה אולי לא עיוות נכון בכלל), אבל התמונות האמצעיות מצוינות לפי כל קנה מידה. צריך לציין לטובה גם את הפרצוף הטבעי של הילדים. אולי הם נלקחו כמעט כמות שהם מתמונות קיימות – בכל מקרה זה הרבה יותר טוב מהמוטציות הגרפיות שנוצרו לי דווקא בשאילתה שחשבתי שתהיה קלה מאוד לתוכנה – "צעירים מלאי תקווה מביטים בחלליות קרב ממריאות במרחק". ראו הוזהרתם:

צעירים מלאי תקווה מביטים בחלליות קרב ממריאות, על פי DALL·E
צעירים מלאי תקווה מביטים בחלליות קרב ממריאות, על פי DALL·E (לחצו לתמונה גדולה)

נעזוב את הפרצופים, איפה חלליות הקרב ואיפה ההמראה? לבינה המלאכותית הפתרונים. וזה עוד כלום לעומת מה שהופק לשאילתה "שני תלמידים בבית ספר לליצנים מפילים את ניירותיהם בעודם רצים אחרי אוטובוס":

ליצנים מפילים ניירות במרדף אחרי אוטובוס, על פי DALL·E
ליצנים מפילים ניירות במרדף אחרי אוטובוס, על פי DALL·E (לחצו לתמונה גדולה)

ואני מדגיש שוב: צחוק בצד, המטרה שלי לא הייתה להכשיל את הבינה המלאכותית בצורה הכי מביכה שאפשר, אלא פשוט לבדוק עד כמה היא בשלה להחליף מאייר אנושי. חישבו כמה פשוט היה לבן אדם עם טיפה כישרון ציור להבין את הקונספט ולאייר שני ליצנים מפילים ניירות תוך כדי מרדף אחרי אוטובוס. בתמונות שהמחשב יצר כל האלמנטים הנפרדים נמצאים, פלוס מינוס, אבל ה"סיפור", הדבק שמקשר ביניהם, אבד בלי זכר.

רגע של צחוקים עבור החנונים שבחבורה: הנה מה שהתקבל כשהזנתי את השאילתה "רובוט נמוך בתוך חללית מקרין קריאה-לעזרה הולוגרפית שהוקלטה מראש על ידי נסיכה". עם המון רצון טוב אפשר לראות בתמונה השמאלית הדים לסצנה המפורסמת מ"מלחמת הכוכבים" הראשון (יש רק שלושה, כידוע), ועדיין חסרים כאן המון אלמנטים שמופיעים במפורש במשפט עצמו.

רובוט מקרין הולוגרמה בחללית, על פי DALL·E
DALL·E לא מזהה סצנה מפורסמת מ"מלחמת הכוכבים" (לחצו לתמונה גדולה)

ככל שיצרתי עוד תמונות, נדמה היה לי שאני מבין מה DALL·E עושה באמת. אין שם ניתוח ראוי לשמו של שפה טבעית, קל וחומר יכולת למצות את משמעות הטקסט ולהמיר אותו לייצוג גרפי. המחשב מזהה היטב מילות מפתח, בוחר ייצוגים שלהן ומשלב אותם – בכישרון אמנם, אך רק לפי קשרים נפוצים ומוכרים. קחו למשל את התמונות הבאות, שהופקו על בסיס המשפט "קנגרו רפאים מנגן בפסנתר מאובק, באולם קונצרטים נטוש, בפני קהל של קואלות":

קנגרו רפאים מנגן בפסנתר, על פי DALL·E (לחצו לתמונה גדולה)
קנגרו רפאים מנגן בפסנתר, על פי DALL·E (לחצו לתמונה גדולה)

קנגרו, פסנתר והפעולה של נגינה בפסנתר הם כולם אלמנטים מוכרים מאוד, והשילוב שלהם יצא נהדר בשלוש התמונות הימניות. גם המוטיבים של "מאובק" ו"נטוש" זכו לביטוי יפה. אבל מה עם "רפאים"? ואיפה קהל הקואלות? אלה דברים פחות נפוצים, שדורשים קצת יותר ניתוח והבנה, ובהם DALL·E כשלה לגמרי.

כדי להעמיד את ההשערה שלי במבחן, ביקשתי קודם כל תמונות על בסיס משפט, שהייתי בטוח שהתוכנה "תבין" כי האלמנטים ושילובם פשוטים ומוכרים בתרבות הכללית: "טרול משתמש בגשר בתור מחסה מפני ברקים".

טרול מסתתר מברקים מתחת לגשר, על פי DALL·E
טרול מסתתר מברקים מתחת לגשר, על פי DALL·E (לחצו לתמונה גדולה)

התמונה השנייה מימין מפספסת את הפואנטה של מחסה, והחיוך בימנית לא הולם את הסיטואציה כפי שאני, בכל אופן, דמיינתי אותה. אבל שתי התמונות השמאליות הן יצירות מופת לטעמי – את שתיהן הייתי לוקח בלי היסוס כאיורים לספר על… טרולים שמפחדים מברקים, מן הסתם. כעת לקחתי בדיוק את אותו מבנה משפט, אך איכלסתי אותו באלמנטים פחות שגרתיים: "חגב משתמש בטרול בתור מחסה מפני ברקים". אני בטוח שכל מאייר אנושי היה מבין ומסתדר בקלות עם הדרישה המיוחדת הזו. האתר, לעומת זאת, החזיר לי את האכזבה הבאה:

חגב מסתתר מברקים מתחת לטרול, על פי DALL·E
חגב מסתתר מברקים מתחת לטרול, על פי DALL·E (לחצו לתמונה גדולה)

אלה סתם חגבים. שום טרול, שום ברקים ושום מחסה. הבינה המלאכותית לא מבינה שפה טבעית, רק מזהה אלמנטים בודדים, דפוסים וקשרים שהיו נפוצים בחומר שממנו למדה. השילוב הגרפי-נטו ביניהם יכול להיות מקסים, אבל אנחנו עוד רחוקים מאוד מהשלב שבו התוכנה תיצור באמת תמונה טובה לפי כל דרישה. כשהיא מצליחה, זה במשימות הפשוטות והנדושות שבוודאי משעממות את המאיירים בשר-ודם עד כדי כך, שהיו שמחים לוותר עליהן.

עוד דוגמה אחת אחרונה לאי-הבנה בסיסית של שפה טבעית: למטה מוצגים התוצרים עבור "אדם מפחד ממחשבון קטן". אדם יש, פחד יש (נניח), מחשבון יש – אבל "מחשבון קטן", הדבר אולי הכי טריוויאלי עבורנו במשפט, מתהפך לגמרי בשלוש מתוך ארבע התמונות ולא בא לידי ביטוי ברביעית. ומה הקטע עם שיבוש הכיתוב של המקשים? אני יכול להבין שיבוש מכוון של פרצופים וטקסטים בחומרי הלמידה של התוכנה, כדי להגן על פרטיות ולמנוע ניצול לרעה, אבל לשבש ספרות בודדות ופעולות חשבון על מקשים נראה לי קצת מוגזם.

אדם מפחד ממחשבון קטן, על פי DALL·E
אדם מפחד ממחשבון קטן, על פי DALL·E (לחצו לתמונה גדולה)

לסיכום, אף על פי שהיכולות הגרפיות של DALL·E הן מטורפות, מדע בדיוני שהפך למציאות, היא לא באמת חכמה ולא באמת מאיימת על מקצועות האיור והצילום – בוודאי שלא בעולם שבו כבר יש אינספור מאגרי תמונות אונליין שמייתרים ממילא את העבודה על דימויים שחוקים ומוכרים (זוכרים את הילדה עם הסביון?) לעת עתה המאיירים יכולים לישון בשקט, או (כפי ש-DALL·E רואה זאת, מסתבר) סתם להקשיב למוזיקה באוזניות…

להרשמה
הודע לי על
5 תגובות
מהכי חדשה
מהכי ישנה לפי הצבעות
Inline Feedbacks
הראה את כל התגובות

צר לי אבל לא ממש הבנת את הפנאטה..
מה שהתוכנה עושה זה לא להחליף את המאירים אלא פשוט להפוך אתם למיותרים (וזה לא אותו הדבר) בך שבעזרת תיאור מספיק מדויק אפשר ליצור תמונות שנראות אמתיות לגמרי.

אז יותר הקטע שיש תמונות אינטרפולציה באתרי חדשות של כל מיני דברים\אנשים\מצבים התוכנה כבר עכשיו יכולה לדעתי להחליף. שאר הדברים כניראה כפי שאתה אומר יקח קצת זמן עד שיהיה משהו ברמה.

תודה רבה, מעניין! אני חושב שאתה לא עושה צדק עם דאלי 🙂 דאלי היא ביצועיסטית ועדיף לתת לה פרומפטים שמחמיאים לה. היצירתיות שלה לא מתבטאת בפרשנות אלא בביצוע. "נהנים על החוף", "מביטים בהערכה", "בוחרים" – היא לא כל כך יודעת מה לעשות עם זה. להגנתה, גם מאייר אנושי יתקשה לצייר "מבט מלא הערכה", זה לגמרי משהו שנובע מההקשר. אני מקבל את התוצאות הכי טובות (ומפתיעות) כשאני מתאר לדאלי בדיוק איך אני רוצה שהתמונה הסופית תיראה, במקום להסתמך על הפרשנות היצירתית שלה. אם מגדירים את זה כציור של אמן מסויים, בטכניקה מסויימת, זה נהיה עוד יותר ספציפי – לדעתי זה הצד… לקרוא עוד »