מיהו ומהו גוגל?
גוגל הוקמה על ידי שני סטודנטים יהודים אמריקאים, לארי פייג' וסרגיי מיכאילוביץ ברין, בחודש ספטמבר 1998, המערכת שפותחה על ידם היא מערכת מסוג מנוע חיפוש ולא אינדקס אתרים כפי שהיה עד אותה עת. אינדקס הוא רשימה של אתרים שבדרך כלל מתעדכנת ידנית(דוגמא לאינדקס אתרים: אינדקס נטקס), לעומת האינדקסים, מנועי החיפוש אינם ידניים והאינפורמציה מתעדכנת בהם באמצעים אוטומטיים. השם גוגל נגזר מן המילה גוגול שהוא מספר המורכב מ-100 אפסים. ראשיתו של מנוע החיפוש התבססה על הרעיון שחשיבותו של דף נובעת ממספר הדפים המצביעים עליו. אבל מאז זרמו הרבה מים בנהרות קליפורניה... החברה יושבת במאונטיין ויו בקליפורניה ולה עשרות אלפי עובדים ברחבי העולם(גם בישראל יש לחברה שני סניפים) ומחזור מכירות של עשרות מליארדי דולרים. נפח החיפושים העולמי בגוגל מגיע לכדי 75% ובישראל נפח החיפוש בגוגל הוא מעל 90%. המתחרה העולמי הגדול ביותר הוא YAHOO, ובישראל המתחרה הוא WALLA, מנוע החיפוש BING של מייקרוסופט מבסס את התחרות מול גוגל על כך שהוא לא רק מדרג את האתרים על פי תוכנם והתאמתו לחיפוש המבוצע על ידי הגולשים, אלא שהוא מכניס למשוואה גם פרמטרים המדרגים את איכות המוצר עצמו, כלומר הוא מגדיר את עצמו גם כמנוע חיפוש אבל עם מומחיות(את הדבר הזה צריך לבדוק לאורך זמן היות ואינני בטוח שיכול להתקיים מישהו שהוא מומחה בכל התחומים הקיימים).
מנוע החיפוש גוגל בנוי מחמישה חלקים עיקריים:
- מערכת איסוף(גוגלבוט)
- מערכת איחסון
- מערכת דירוג
- מערכת בקרת איכות
- מערכת פירסום
הרובוט רואה רק את טקסט הקוד של הדף, ולא תמונות או קבצי פלאש או סרטי וידאו, רק טקסט. לאחרונה מסתבר שגוגל מתחילים גם להבין פלאש אבל עדיין הטקסט הוא המלך. תדירות הסריקה של העמודים תלויה ברמת חשיבותו של הדף, ובכמות השינויים המתבצעים בו, כך שעמודים באתרי חדשות, יסרקו יותר בתכיפות מאשר עמודים אחרים, ועמודי בלוגים המתעדכנים תכופות, יסרקו יותר פעמים מאשר עמודים סטטיים באתרים. בתוצאות החיפוש ניתן לראות מתחת לטקסט המתאר את האתר, קישור ל"עותק שמור" ("cashed" באנגלית), שמוביל אותנו לגרסה ה"אחרונה" שנסרקה על ידי גוגלבוט עם תאריך הסריקה. "אחרונה" כי זה איננו מדוייק היות ובהחלט ייתכן מצב שיש באינדקס של גוגל כבר גירסה טריה יותר. לאחרונה הוכנס עדכון במנוע החיפוש הנקרא עידכון "קפאין" שתוצאתו אינדוקס הרבה יותר מהיר של דפים באינטרנט אפילו עד כדי עדכון תוך שניות מרגע עליית הדף.
מערכת האיחסון של גוגל היא בעצם מסד נתונים ענקי, שבו גוגל מחזיק את כל המילים המופיעות בכל דף באינטרנט, כולל את המיקום המדוייק שלהן בתוך הדף, את צורת הופעתן(האם המילה מופיע בכותרת הדף, בכותרת העמוד, בצורה מובלטת בבולד או בצבע, וכד'), היא מאחסנת את קוד הדף ואת רשימת הכתובות המופיעות בו. מערכת האיחסון גם משייכת את הדפים לאינדקס הראשי או לאינדקסים משניים(שאותם ניתן לראות בתחתית דף התוצאות כ-"תוצאות נוספות". מערכת האיחסון היא זו שמאחסנת את ה"עותק השמור".
מערכת הדירוג היא המערכת שאותה אנחנו מנסים לשכנע כי האתר שלנו טוב יותר מאתרים אחרים מבחינת תוכנו וחווית הגולש בו. המערכת מוציאה את סט התוצאות הראשוני הכולל בתוכו 1000 דפים, ואחר כך על ידי שימוש במדדים רבים(למעלה מ-200!) לגבי כל דף ודף, היא מסדרת את התוצאות בהתאם להתאמתן לביטוי החיפוש. זוהי המערכת העיקרית שבה עוסק קידום אתרים. גוגל איננה מפרסמת את המדדים בהם היא משתמשת והיא גם מעדכנת אותם עשרות ואף מאות פעמים בשנה. בחודש ינואר 2010 חרגה גוגל ממנהגה ופרסמה כי אחד המדדים שהיא תתחיל להתייחס אליו ביתר תשומת לב, הוא מהירות עליית העמוד, וזאת בגלל רצונה לגרום לחווית משתמש טובה יותר(כידוע אם דף לא עולה תוך שניות בודדות הגולש עוזב אותו). ולכן גוגל טוענת שדפים איטיים אינם מספקים את רצון הגולש ולכן הם אינם רלוונטיים מבחינתו.
מערכת בקרת האיכות היא המערכת שתפקידה לאתר ולגלות שיטות קידום פסולות שנועדו לרמות את גוגל, להשיג מיקומים גבוהים אבל בלא שום תועלת לגולש. דוגמאות(שהיום כבר לא עובדות עקב שינויים שהכניסו גוגל באלגוריתם שלהם):
חברת BMW החליטה להתמודד מול מתחרותיה על ידי שהכניסה לאתר החברה עמודים שהנושא וכל התוכן בהם היו קשורים לחברה מתחרה כדוגמת מרצדס, וברגע שגולש הגיע לעמוד הוא היה מופנה מיד לעמוד של BMW, כלומר גולש חיפש אינפורמציה על מרצדס הגיע לעמוד שבו טקסט המתאים לביטוי החיפוש אבל מבלי שיספיק לקרוא או יצטרך לעשות משהו, הוא הועבר לאתר של BMW. גוגלבוט קרא את הטקסט ומכיון שהוא היה טקסט איכותי ורלוונטי הדף קיבל מיקום גבוה בתוצאות, וכך כאילו גוגל עוזרים ל-BMW לרמות את הגולש, אבל גוגל גם מגיעה לאתרים כגולש רגיל, וכשגילתה את הרמאות פשוט "העיפה" את BMW מתוצאות החיפוש לחלוטין. הדבר גרם נזק רב לחברת BMW ולקח להם הרבה זמן, הרבה נסיונות שיכנוע, והרבה מאמצים להוכיח שדבר כזה לא יקרה שוב עד שגוגל החזירה אותם לתוצאות.
אחד מהדברים שגוגל אינה מאפשרת היא הצגת תוכן זהה(שכפול תוכן) בכמה אתרים, וזאת מן הטעם הפשוט שאין שום ערך להראות ברשימת התוצאות שתי תוצאות שיתנו לגולש את אותו התוכן בדיוק. אתר יד 2 הוא גם הבעלים של אתר ג'ובנט. יד 2 החליטו שהם יעלו את התוכן של ג'ובנט גם אצלם, מה שקרה הוא שגוגל העיפו את יד 2 מן התוצאות, ושוב הושקעו מאמצים רבים לשוב ולהופיע בתוצאות.
בזמנו פותחו תוכנות שיכולות לכתוב בשפה "גוגלית", כלומר לקחת את ביטוי החיפוש, ולכתוב טקסטים שבהם הוא מופיע בצורה מדוייקת, בצפיפות ובמקומות הנכונים, כפי שנבדקו על ידי אינספור נסיונות. התוצאה היתה טקסט, שמכיל את ביטוי החיפוש בצורה אידאלית, אך איננו קריא לבני אדם(כלומר הוא לא תוכן, אלא גיבוב של מילים), גולש שהיה מגיע לעמוד כזה היה מוצא בו רק דבר אחד קריא, וזו הצעה מושכת(לפעמים גם אוטומטית), לעבור לדף המוכר מוצרים לא חוקיים מבחינת גוגל(כמו ויאגרה למשל). שוב גוגלבוט הולך שולל ואיתו גם הגולש, כיום יש לגוגל אפשרות להבין ממש את התוכן של הדף והאם הטקסט כולו רלוונטי לביטוי החיפוש.
מערכת בקרת האיכות היא זו המפעילה את הסנקציות כנגד אותם אתרים סוררים, ובמידה והעבירה איננה חמורה היא גם מאותתת לבעל האתר על כך, קודם על ידי הורדת ה-pagerank שלו, אחר כך על ידי פגיעה בתוצאות, ולבסוף אף הסרה מהן. המערכת מנהלת תקשורת עם בעלי אתרים לצורך משלוח מייל אזהרה אליהם, וגם על מנת לאפשר לבעלי אתרים להלשין על כאלה שמתחרים בהם בצורה לא חוקית.
המידע הרב הנאסף במערכת בקרת האיכות משמש את גוגל גם לצורך שיפור האלגוריתם שלו.
סיכום:
גוגל מבחינתנו כבעלי אתרים היא כמו השמש, לאורה אנחנו מתגלים לעולם. ובהשוואה לשדה החמניות: לאורך כל הזמן, שלוקח לחמניה להבשיל, היא תמיד מפנה את ראשה ועוקבת אחר תנועת השמש בשמים. כך גם האתר שלנו, כל עוד נדאג שהתוכן בו יהיה מעודכן ורלוונטי לגולשים, ובאותה מידה לגוגל, יהיו פניו מכוונות כלפי כוכב השמש האינטרנטי גוגל. והדבר יתבטא בתנועת גולשים חינמית המגיעה מתוצאות החיפוש.
אשמח לקבל כאן בתגובות את חוות דעתכם על הרעיון של "שמש אינטרנטית", תודה.




0 תגובות:
הוסף רשומת תגובה