קידום אתרים » בלוג » צוללים עמוק יותר אל תוך גוגל – חשיפת הדליפה הגדולה חלק #2
צוללים עמוק יותר אל תוך גוגל – חשיפת הדליפה הגדולה חלק #2
בחודש יוני סיפרנו לכם על דליפה גדולה מאוד של מסמכים מגוגל ששפכו קצת אור על האופן בו האלגוריתם שלה עובד.
בינתיים פורסם מידע נוסף לאחר ניתוח של 100 מסמכים לאורך ולרוחב… הניתוח מגלה מידע חדש על מספר מערכות נוספות של גוגל ומרחיב את המידע הקיים בנוגע למערכות שכבר ידענו עליהן, כמו למשל NavBoost.
מריו פישר, שביצע את הניתוח, מדגיש שגם הנתונים החדשים לא באמת מסבירים לנו כיצד האלגוריתם של גוגל עובד: השילוב של AI ולמידת מכונה ביחד עם המורכבויות האחרות שלו, לא מאפשרות גם למהנדסים של גוגל להבין את ההשפעה המלאה שלו על הדירוגים השונים.
חשוב להדגיש: המסמך המקורי טכני וארוך למדי (חצי שעה קריאה) ומכיל לא מעט דיאגרמות. ניסינו לפשט אותו עד כמה שניתן.
ספינת הדיג (Trawler) ולמה "ארגז החול" עדיין קיים
אחד הקונספטים של קידום אתרים הוא “ארגז החול”. ההנחה היא שאתרים חדשים או עמודים ספציפיים לא תמיד מופיעים בתוצאות החיפוש למרות שהם מתאנדקסים מכיוון שגוגל שם אותם ב”ארגז חול”, מטאפורה למקום בו כל הילדים הקטנים נמצאים… רק לאחר שעבר מספיק זמן, הם מגיעים לאינדקס הכללי.
כפי שניתן להבין, “ספינת הדיג” של גוגל אחראית על סריקת תוכן חדש ומחליטה מתי לחזור ולבקר באתר. קיימת מערכת נוספת בשם scheduler (“המתזמן”) שמסננת חלק מהכתובות וזורקת אותן אל תוך ארגז החול.
חשוב לציין שרוב מה שנזרק אל ארגז החול הוא תוכן באיכות נמוכה או ספאם, אם כי סביר להניח שחלק ממנו כן עובר את הסינון על מנת שהאלגוריתם יוכל ללמוד כיצד להעריך תוכן בצורה טובה יותר על דרך השלילה.
מיותר לציין שכבר בעבר גוגל הכחישה את ארגז החול.
מערכת האינדוקס של גוגל: אלכסנדריה
אלכסנדריה, כשם הספרייה הגדולה במצריים העתיקה, היא מערכת האינדקס של גוגל (המושג קפאין כבר לא ממש רלוונטי מבחינת גוגל).
כל מסמך ברשת שגוגל סורק מקבל מספר סידורי בשם DocID. DocID יכול לכלול כמה כתובות URL עם תוכן זהה (קנוניות).
המעניין הוא שאלכסנדריה יכולה לשנות את הגרסה הראשית לאורך הזמן.
עוד נקודה מעניינת היא שעבור כל מסמך נוצרת רשימה של מילות מפתח, ולכל מילת מפתח נוצר ערך “אחזור מידע” (Information Retrieval) שמצביע על מידת הרלוונטית שלה בתוך המסמך.
מכאן המסמכים מתפצלים לכאלו שחשובים יותר וכאלו שחשובים פחות. אלו שחשובים יותר מגיעים אל מערכת נוספת בשם HiveMind ונראה שסיגנלים מתוך מסמכים שנמצאים במערכת הזו בעלי משקל גבוה יותר מאשר של המסמכים האחרים.
בהתאם לכך, ההמלצה של פישר היא לסמן כל דף באתר עם תאריך פרסום ועדכון אחרון רק כאשר יש שינויים גדולים. לא לשנות באופן מלאכותי את תאריך הפרסום כדי שהמסמך יראה “חדש יותר”.
בסופו של דבר, מערכת הדירוג הראשונית של גוגל בשם QBEST עושה שימוש בין היתר במידע שמתקבל מאלכסנדריה ומעבירה אותו למערכות אחרות של גוגל.
Ascorer – הטבעת הירוקה
הטבעת הירוקה מקבלת את 1,000 המסמכים (שמסומנים ב-DocID) ומשתמשת במערכת על נוספת של גוגל אליה היא שייכת בשם Mustang כדי ליצור את עמודי התוצאות שכוללת את 10 הקישורים הכחולים (“הטבעת הכחולה”).
בפועל כל העניין מורכב יותר וקיים מספר גדול של מערכות נוספות שמעורבות בכל התהליך, כולל מערכות AI.
מה שכן ידוע הוא שקיימים גם מרכיבים בשם Twiddlers שהם מעין תוספים שיכולים לבצע סינון נוסף של המסמכים באופן פשוט יחסית, באופן דומה לתוספים במערכות ניהול תוכן שלא משנים את הקוד המקורי בדר”כ (ע”ע וורדפרס).
לדוגמה:
- שינוי של ציון ה-IR
- גיוון בתוצאות באמצעות סינון מסמכים דומים
- סינון שקשור לכוונת רכישה (תוצאות מסחריות)
- קביעת דירוג מקסימלי למסמך עם סיגנלים ברורים של ספאם
אגב, בדליפה הקודמת צוין גם שיש Twiddlers שנוצרים על ידי גוגל לאחר עדכונים גדולים.
הבודקים האנושיים והאלגוריתם של גוגל
כבר מהדליפה הקודמת היה ברור שהאלגוריתם של גוגל “מתאמן” על המשוב של הבודקים האנושיים באיזשהו אופן. עכשיו כבר ברור שהוא כנראה מחפש דפוסים שחוזרים על עצמם בדירוגים עבור אתרים שקיבלו דירוגים נמוכים או גבוהים ועל פיהם נקבע גם מדד “שביעות רצון מהמידע” (information satisfaction).
לעיתים המערכת יכולה לבצע את הפעולה ההפוכה ולשלוח מסמך שהיא לא מצליחה להעריך כמו שצריך אל הבודקים.
NavBoost – מידע חדש
NavBoost היא אולי המערכת הכי מעניינת של גוגל מכיוון שהיא מבצעת ניתוח של קליקים, בעיקר דרך כרום, דבר שגוגל מכחישה באופן גורף. עד עכשיו ידענו שהיא יכולה לזהות “קליקים רעים וטובים” על פי משך הביקור של הגולש באתר אחרי הלחיצה מגוגל.
מהניתוח של המידע הנוסף, נראה ש-NavBoost יכולה לנתח גם את המסלולים שהגולשים עוברים בתוך האתר ולזהות למשל אשכולות של עמודים עם מדדים חיובים שמשפיעים לטובה על הדירוגים. ייתכן גם שבהתחלה גוגל תעקוב בעיקר אחרי עמוד הבית (מעניין שכאן הפונקציה הפנימית מתייחסת עדיין ל-Pagerank…).
כל זה אגב דרך כרום, לא Analytics.
אגב, באופן תיאורטי ייתכן שגוגל יכולה באופן הזה להשוות בין מסמכים שונים שהגולש צופה בהם בשני דומיינים שונים על מנת להבין איזה תוצאה הייתה עדיפה מבחינתו…
עוד פועל יוצא של NavBoot שמוזכר גם במסמכים אחרים הוא ניתוח של אחוז הלחיצות (CTR) הצפוי לעומת אחוז הלחיצות בפועל, מה שעשוי לשנות את דירוג התוצאות לטובת או לרעת אתרים מסוימים. הנתונים האלו רלוונטיים לטווח הארוך וגוגל עשוי לבצע השוואה של שנה מול שנה…
עוד אלמנט של NavBoost הוא זיהוי כוונת הגולש באופן דינאמי, ועל זה למדנו דווקא מהשימוע של אנשי מפתח בגוגל אל מול הקונגרס. הדוגמה שניתנה היא של הביטוי “Stanley Cup”. הוא יכול להתאים גם למותג של כוסות תרמיות, אבל גם למשחקי גביע… גוגל יכול להתאים את התוצאות על פי מה שרוב הגולשים מצפים למצוא ברגע נתון.
על פי כל המידע הזה, נראה שההתאמה האישית של התוצאות היא יחסית מועטה ולמעשה גוגל יודע עלינו כקבוצה הרבה יותר ממה שאנחנו חושבים…
קצת על Google Web Server (GWS)
למרות שכאן אנחנו כבר נכנסים קצת למערך החומרה של גוגל, מה שחשוב להבין בשורה התחתונה הוא שתהליך מיון התוצאות וגם ההצגה שלהן עובר בין הרבה מאוד מערכות שונות של גוגל.
מסיבה זו, לפעמים גם אם נראה לנו שאנחנו עושים SEO “בדיוק על פי הספר”, הדירוגים שאנחנו רואים בפועל מאוד שונים ממה שהיינו מצפים.
מה אפשר לקחת מכאן תכלס?
יכול להיות שעד עכשיו קצת בלבלנו לכם את השכל (מסיבה טובה!), אבל סוף סוף הגענו לחלק הפרקטי ומה שפישר מדגיש:
1.תנועה לא רק מגוגל וקישורים – חשוב לגוון את התנועה שהאתר שלכם מקבל מכיוון שגוגל כנראה יכול לעקוב גם אחרי רשתות חברתיות או אנשים שמקלידים את הכתובת שלכם ישירות בדפדפן.
2.בניית מותג וסמכותיות – כבר מהדליפה הקודמת ידענו שיש חשיבות ל”אוטוריטה של האתר” (סמכותיות), ולכן לא סתם אומרים שהמיתוג כל כך חשוב. אם אתם נותנים לכותבים חיצונים לכתוב עבורכם, בדקו את המוניטין המקוון שלהם ועד כמה הם עצמם נחשבים לסמכותיים (בכמה אתרים הם כתבו, מה ההשכלה שלהם וכו’).
3.מסלול הגולש חשוב לא רק לכם– כפי שהסברנו, גוגל כנראה יכול להבין מאיפה הגולשים שלכם הגיעו ולאן הם גולשים לאחר מכן. נסו לתת לגולשים שלכם את התשובות הכי טובות כדי שלא יצטרכו לחפש בעוד מקומות.
לשם זאת רצוי להתייחס לא רק למבנה האתר, אלא גם למבנה הפנימי של כל עמוד. אפשר גם להשתמש בכלים לניתוח מתחרים כגון Traffic Analytics Traffic Journey Report של SEMRush.
4.אופטימיזציה ל-CTR – עכשיו אנחנו יודעים שחשוב להגיע ל-CTR גבוה גם עבור דירוגים. עברו על ה-Titleים וגם על תגי ה-Meta Description של עמודים עם CTR נמוך ונסחו אותם באופן משכנע. באנגלית אפשר גם להשתמש באותיות גדולות למילות המפתח (רק לא להגזים…).
5.היזהרו מטקסט שאפשר להחביא – הכוונה לכל המקומות בהם לחיצה על חץ פותחת ומציגה עוד פסקה (“אקורדיון”) . גוגל עשוי לנתח גם את הלחיצות האלו ולהסיק שיש הרבה חלקים שהגולשים לא קוראים.
6.היזהרו מ”עשבים שוטים” – עמודים “חלשים” (לא בהכרח ספאם) עשויים להשפיע לרעה על עמודים חזקים יותר ולכן אם הדבר אפשרי, שקלו להסיר אותם או למזג אותם עם עמודים אחרים בצורה אורגנית.
7.לפעמים עדיף לעדכן תוכן קיים ולא ליצור חדש – מכירים את כל האתרים שיש בהם 30 מאמרים על אותו הנושא עם מילות מפתח קצת אחרות? לגוגל יש מדדים שנועדו להעריך כמה “השקעתם” בכל עמוד. בקיצור, זו לא הכמות, זו האיכות.
8.כותרות ביניים – שוב, משהו די צפוי: שימו לב שהכותרות ביניים בעמוד מתאימות למה שכתוב מתחתן, אל תפזרו סתם מילות מפתח…
9.זנב ארוך – קידום של זנב ארוך יכול להשתלם לא רק עבור תנועה, אלא גם עבור שיפור כל המדדים שהתייחסנו אליהם. חשבו אם אתם נותנים פתרון לנושא או מידע שהמתחרים שלכם לא מתייחסים אליו.
10.בניית קישורים – בזכות HiveMind יש לנו חיזוק לטענה שקישורים מעמודים ישנים, או כאלו שבעצמם לא מקבלים הרבה תנועה או סיגנלים חיובים נחשבים הרבה פחות…
ואם כבר קישורים, גם הטקסט מסביב לקישורים חשוב, לא רק ה-Anchor Text.
11.מוטב לשכוח מה-Disavow Tool – כזכור, מדובר בכלי של גוגל שמאפשר לכם ליצור רשימה של קישורים “רעים” שאתם רוצים שגוגל יתעלם מהם: לאחר עדכון “פינגווין”, שפגע בלא מעט אתרים עם קישורים נכנסים באיכות נמוכה, לא היה ברור ממש אם הכלי עובד או לא.
מכיוון שהוא לא מוזכר בשום מסמך, סביר להניח שמלכתחילה הוא לא ממש עבד או שגוגל פשוט החליטה שכבר אין לו חשיבות (למרות שאפשר עדיין לגשת אליו).
12.גוגל אנליטיקס – התייחסו בכובד ראש לנתוני ה-Analytics שלכם ומדדים כמו זמן שהייה באתר, Bounce Rate, עמודי כניסה, יציאה וכו’. המידע החדש מוכיח שגוגל יכולה לשקף את הנתונים האלו די בקלות גם בלי גישה ישירה לאתר.
בהצלחה!