Google מבין הרבה יותר ממה שנדמה לנו, וכבר שנים שהוא יודע לזהות מילים נרדפות, אבל רק לאחרונה אפשר לראות דפים שמדורגים גבוה על בסיס היכולת הזו בלבד. סימן לבאות?
גוגל מתגאה כבר שנתיים לפחות שהיא יודעת להציג בתוצאות החיפוש שלה דפים שאינם כוללים את מילות המפתח שבשאילתא. או במילים אחרות: לזהות מילים נרדפות ואת הרלוונטיות שלהן, גם אם המחפש השתמש במילים אחרות.
תיאורטית, זה אמור להיות פשוט – במיוחד למי שיש לו כבר טכנולוגיית תרגום בזמן-אמת. Google הרי כבר יודע, מזה זמן, שהמילה האנגלית Tar זהה במשמעותה לזפת, אך גם לעטרן וכופר (הצורה התנ"כית. ואגב, המילה הארמית לזפת היא כופרא. למשל: ההוא גברא דאשכח כופרא בי מעצרתא" וכו', בבא מציעא כ"ג ע"ב).
מעשית, מתברר שזה לא כל-כך פשוט. לדוגמא: "כופר" היא מילה עם מספר משמעויות (כופר באשמה, כופר נפש, וכו'). קל לזהות את ההקשר בו היא מופיעה בטקסטים ארוכים ברשת – הבעיה היא בדרך-כלל עם השאילתות, בהן יש פחות מילים ופחות אפשרות ליצור הקשר.
בהרבה מקרים, הבחירה במילה נרדפת מרמה גבוהה יותר (למשל: חרון אף, עברה או זעם, במקום סתם כעס רגיל), היא עצמה כבר חלק מהקשר. עצם החיפוש אחריה, יכול בכלל להיות במטרה לחפש פירוש שלה – כך שהצגת תוצאות שמכילות מילים נרדפות עשויה להיות סתם מבלבלת.
סימנים ראשונים לשינוי
המגבלות האלה ואחרות גרמו לכך שגוגל זהירה מאד בשימוש שהיא עושה בהיכרות שלה עם מילים נרדפות. אפשר לומר, בלי להגזים, שלעיתים נדירות זוכים לראות בתוצאות דף שלא כולל (או כלל בעבר!) את המילים שמופיעות בשאילתת החיפוש, כולן או לפחות רובן (בשאילתות ארוכות).
אבל בזמן האחרון נראה כאילו זה משתנה במהירות, ואני רואה דוגמאות כמו זו: כשמחפשים עלות זיפות גג מופיע במקום הראשון דף מחירון לאיטום וזיפות באתר המקצוענים. זהו דף שלא כולל את המילה "עלויות" או הטיה כלשהי אחרת של המילה "עלות", בכותרת או בגוף או אפילו בטקסט העוגן של קישורים שמובילים אליו. הכותרת שלו, עם זאת, כוללת את הביטוי "מחירי איטום וזיפות גגות".
להמשיך לקרוא