מה היה Google אומר על מסמך גלנט

לשאלה מי כתב מסמך מסוים יש היום תשובות אלגוריתמיות לא רעות בכלל. לא בטוח שהן יכולות לספק תשובה גם במקרה הספציפי של מסמך גלנט, אבל זה בעיקר מטעמים טכניים.

את "מסמך גלנט" אין צורך להציג. יש הרבה לומר עליו, במישורים רבים, אבל בפוסט הזה אני רוצה לעסוק בצד ספציפי של הפרשה, שיש לו הקשר טכנולוגי.

מסמך גלנט. הכל עניין של סגנון.בכלי התקשורת דווח, בין השאר, כי משטרת ישראל מפעילה קבלן חיצוני כדי לטפל בצדדים טכניים שונים שקשורים לזיהוי מקור המסמך. למשל, בדיקת הדיסקים הקשיחים במשרדי ארד תקשורת, כנראה כדי לנסות לזהות בהם "אקדח מעשן" (לפי הפרסומים בתקשורת לא נתגלה כזה, יש להזכיר) – עותקים שונים של המסמך שנמחקו, הודעות דואר שבהן נשלח או התקבל, או אפילו טיוטות של המסמך שיסגירו את זהות הכותב.

סוג נוסף של בדיקות שאפשר לעשות, שקרובות יותר לעולם הזיהוי הפלילי המסורתי, קשור למאפיינים הויזואליים של המסמך. אם יש למשטרה עותק מודפס שלו, הוא יכול לספק "טביעת אצבע" של המדפיס; מפלט מודפס ניתן, במקרים מסוימים, להסיק על אילו מערכת הפעלה ומעבד תמלילים הוא נוצר ו/או הודפס ובאיזו מדפסת, באיזה דגם של מכונת צילום הוא שוכפל, וכדומה. הטיפוגרפיה של המסמך יכולה לרמז על הגדרות עיצוב מסמך לא-שגרתיות במעבד התמלילים של המדפיס.

האלגוריתם שיודע מי כתב מה

ישנם עוד הרבה דברים שאפשר לעשות, ולא פורסם מה בדיוק נעשה ומה לא ובאיזו לשכת אלוף או משרד יח"צ. בכל אופן, ישנו אמצעי נוסף בתחום הזה, שניתן לכנות "זיהוי פלילי אלקטרוני" – ניתוח תוכן המסמך באמצעות אלגוריתם סמנטי מתקדם.

לא בטוח שהאמצעי הזה ישים במקרה של מסמך גלנט – מכל מיני סיבות שלא נתעמק בהן. בכל אופן, חשוב לדעת שכבר קיים מזה מספר שנים אלגוריתם שמאפשר לקבוע ברמה גבוהה של וודאות האם מסמך כלשהו נכתב על-ידי פלוני זה או אלמוני ההוא.

פרופ' משה קופל מאוניברסיטת בר-אילן פיתח עבור פרויקט השו"ת אלגוריתם שמסוגל לקבוע "מי כתב את הזוהר הקדוש ומי את מחזות שייקספיר". האלגוריתם מזהה את "סגנון הכותב", טביעת אצבע ייחודית שמורכבת ממספר רב של פרמטרים לשוניים ודקדוקיים פשוטים שניתנים לניסוח כמותי:

המחשב, אומר קופל, נותן בידינו מכשיר לבדיקה סטטיסטית מדוייקת של מאפייני טקסט, שמוח אנושי אינו יכול לעבד. מה שקרוי "סיגנון הכותב" מורכב מפרמטרים לשוניים רבים האופיניים לאותו כותב: מילים ומשפטים. שמות עצם, שמות תואר, שמות גוף, שמות מספר, שמות עצם מופשטים, שמות עצם קיבוציים, פעלים, תארי הפועל, מילות יחס, מילות חיבור, מילות קריאה, מילות שאלה, תחיליות וסיומות. וכמובן הבחנה בין זכר לנקבה, סמיכות, נטיות לרבבותיהן וכו'.

כשבוחנים את מאפייני הטקסט יש לסנן מתוכו את מאפייני התקופה בה נכתב, את הסביבה התרבותית בה חי הכותב, את הטרמינולוגיה המקובלת בנושא אליו מתייחס הטקסט וגורמים רבים אחרים.לאחר סינון מסתבר שלכל כותב יש סימני זיהוי האופייניים רק לו מבחינת שימוש באוצר מילים, באותיות שימוש תחיליות וסיומות, במבנה המשפטים ובמרכיבים רבים אחרים. כל טקסט מכיל טביעת אצבע, מעין DNA של המחבר. השמיים הם הגבול לשימושים האפשריים בגילוי זה.


סיכון ביומטרי חדש

תיאורטית, לפחות, האלגוריתם של משה קופל יכול לקבוע מי כתב את מסמך גלנט. לו יכולנו לרכז די "דוגמאות כתיבה" – מסמכים דומים שכתבו כל החשודים התיאורטיים בזיוף לכאורה של מסמך גלנט – האלגוריתם של פרופ' קופל היה יכול להצביע על האיש בעל סגנון הכתיבה הדומה ביותר.

מסמך גלנט. גוגל יודעאז נכון, אתית וכנראה גם טכנית, זה בלתי אפשרי במקרה המדובר.

בכל אופן, חשוב להבין שאנחנו כבר חיים בעידן שבו מלבד טביעות אצבע, זיהוי פנים ו-DNA, ניתן לזהות אותנו ו/או לדעת עלינו הרבה באמצעות טביעת האצבע הדיגיטלית שמופיעה על כל טקסט שאנחנו כותבים.

אגב, כל מי שעסק בעריכה עיתונאית מספיק זמן, יאמר לכם שהוא יכול לזהות מי כתב טקסט כלשהו כהרף עין – אם ראה מספר טקסטים שלו בעבר. "אין שני נביאים מתנבאים בסגנון אחד" (סנהדרין פט.) ואין שני אנשים שכותבים ומפסקים אותו הדבר.

ואיך Google קשור לזה?

אלגוריתמים סמנטיים הם העתיד הבלתי-מעורער של עולם החיפוש. מדוע? משום שכמו בני אדם, גם בוטים עם בינה מלאכותית, רוצים לא רק לשמוע מה אחרים חושבים על טקסט כלשהו (=לינקים) אלא גם לקרוא בעצמם (=אלגוריתמיקה סמנטית).

היסטורית, האלגוריתם של גוגל התפתח בכיוון הפוך משל מנועי חיפוש אחרים (נגיד, Yahoo!). עד ש-Google הופיע, מנועי חיפוש התבססו על ניתוח תוכן פרימיטיבי כאמצעי העיקרי להערכת הרלוונטיות של אתר או דף לשאילתת חיפוש. צפיפות מילות מפתח, למשל, הייתה בעלת חשיבות מכרעת לפני הופעת PageRank – שזו בדיוק הסיבה לכך שהיא כנראה מעולם לא הייתה, כשלעצמה, סיגנל באלגוריתם של גוגל.

ב-1998 לינקים אכן יכלו להיחשב להצבעות, כי עד אז בעלי אתרים התרגלו לבצע מניפולציות על התוכן בלבד. היום זה כבר לא המצב, כמובן. למעשה, כבר שנים שמספר (ואפילו איכות) הלינקים הנכנסים אינו יכול להוות מדד טוב לאיכות ולפופולריות האמיתית של אתר אינטרנט. אדרבא – כל שינוי שנעשה באלגוריתם במהלך השנים, בא על חשבון הערך הגולמי של לינקים – כל הלינקים או לינקים מסוימים.

מלינקים לסמנטיקה

עם הזמן, למדו גם המתחרות הגדולות והקטנות של גוגל לספור ולהעריך קישורים נכנסים. גוגל עדיין עושה את זה הכי טוב, כנראה, אבל היא יודעת לעשות הרבה דברים אחרים והם אלו שמקנים לאלגוריתם שלה יתרון מוחץ, בינתיים.

אין צורך להציג כאן את כל הדוגמאות לסיגנלים ידועים או אפשריים שאינם קשורים ללינקים. נזכיר כמה סיגנלים וסוגי סיגנלים לצורך ההקשר – ישנם כאלו שקשורים ל-Domain, התנהגות גולשים, Social Metrics (נתונים מנותחים של פעילות במדיה חברתית), Brand Search, וכמובן – לתוכן.

הרבה לפני שילמד "לקרוא" את התוכן, מותר להניח שהאלגוריתם של Google לומד על התוכן שלנו הרבה מהמאפיינים הטיפוגרפיים שלו, מהעושר הלשוני ומהתקינות הדקדוקית, למשל. כמה טוב הוא עושה את זה ואיזה משקל מקבלים הסיגנלים הרלוונטיים באלגוריתם השלם, על כך אפשר כמובן להתווכח.

בפוסט סימני פיסוק ו-SEO, הדגמתי כיצד ניתן להסיק הרבה מסימני פיסוק בלבד – על איכות טקסט, קריאותו, סגנונו וכו'. עלינו להניח שכל הטכניקות מהסוג הזה, שמבוססות על מחקרים ורעיונות שרובם בני 30 שנה ויותר, כבר יושמו אלגוריתמית ונבדקו בהיקף גדול, על-ידי גוגל. משקלם הוא מן הסתם פונקציה של איכות החיזוי של התנהגות הגולש, אותה גוגל בוחנת כל העת בהיקף עצום.

להבין את התוכן

אבל כל זה הוא לא העתיד – זהו העבר. תמיד ישנו פער בין האפשרות ליישם משהו בקוד לבין האפשרות לעשות את זה ב-Realtime, בהיקף גדול. לכן, תוצאות החיפוש שאנחנו רואים היום מתבססות בעיקרן על הישגים טכנולוגיים בני כמה שנים. גוגל כבר נמצאת במקומות אחרים.

עלינו להניח כי מטרת-העל של גוגל בתחום החיפוש היא להגיע לבינה מלאכותית דומה, לכל הפחות, לזו של "הקורא הסביר" – זה שבמבט אחד או אחרי קריאה של כמה שורות, יודע לברוח מאתר ספאמי, עילג במיוחד, או סתם כזה שלא מתאים לרמת הידע שלו.

בכלל, לחשוב במונחים של "איכותי" ו"לא איכותי", גם זה קצת מיושן. לאותה שאלה יש תשובות שונות כשהיא נשאלת על-ידי אנשים שונים; המטרה של גוגל היא לא להתאים את התוצאה הטובה ביותר לכל האנשים, אלא להתאים לכל אחד את תוצאות החיפוש שהכי מתאימות לו. מעבר לשימוש בטכניקות שונות של חיפוש מותאם אישית, דוברי גוגל טורחים להזכיר מדי פעם שהם גם מנסים ללמוד ממבנה ותוכן השאילתות על המחפש.

אז נכון, השאלות שמעניינות את פרופ' קופל או את מהנדסי גוגל הן שונות קצת מאלו שמעניינות את חוקרי משטרת ישראל. מכל מקום, גם בתחום הזיהוי הפלילי וגם בתחום החיפוש, האלגוריתמים הסמנטיים עוד לא אמרו את המילה האחרונה. עזבו, זה יותר מזה – הם עוד לא התחילו לדבר.

תגובה אחת בנושא “מה היה Google אומר על מסמך גלנט

  1. דוראן

    כרגיל
    כתוב… ללקק את האצבעות
     
    צפיפות מעולם לא היה סיגנל בגוגל?
    אני לא בטוח…
     
    העתיד בסמנטיות – אין ספק
    אני חושב שאם גוגל היו מכירים את הבחורצ'יק הזה, או היו שומעים עליו (המנתח של השו"ת), לבטח הוא היה מקבל הצעת מחיר בשנת הרכישות המטורפת הזו שלהם.
    הבעיה – הם מחפשים טכנולוגיה, רק בתחום הטכנולוגי, צריכים לחפש קצת טכנולוגיה בתחומי אלוהים 🙂

השאר תגובה