|
谷歌算法背后:一次搜索請求平均往返2400公里
3月12日早間消息,谷歌(微博)完成一次搜索請求,時間不足一秒、平均往返距離卻要約2400公里。每天谷歌都有200多項改進算法的在線實驗,一個想法要通過多道考驗才能付諸執行。而在個性化搜索日益重要的今天,谷歌算法改進也面臨著新的挑戰。
來自官方的數據顯示,從2003年到現在谷歌搜索已經接受超過4500億個搜索請求。而用戶每天發出的搜索請求中,有16-20%是全新的關鍵詞。
一個基本的搜索過程分這樣幾步:提交搜索請求->發送->篩選分類->查找索引->選擇網頁->結果排名->結現結果。谷歌給出的解釋說,一個請求會被分發到數千個數據中心,然后根據關鍵詞進行匹配,再根據數百個指標對得到的數據進行排名。
這個復雜的過程通常在一秒內完成,但平均每個谷歌搜索的關鍵詞往返于用戶電腦和數據中心的距離約為2400公里(1500英里)。
“很多人認為谷歌已經解決了搜索的問題,但是在谷歌看來搜索的發展才剛剛起步。如果說搜索是一本書,那谷歌才剛寫完了開篇”,谷歌工程總監斯考特-霍夫曼(Scott Huffman)在談到搜索時說,十多年來谷歌搜索的算法一直在不斷改進。
每年谷歌搜索結果都會改變20-30%左右。霍夫曼的主要工作之一,就是對谷歌搜索質量進行評估,在他看來這個過程遠比外界看到的復雜。
以去年為例,在眾多的搜索算法改進構思中,有41831項進行了必要性評估,這其中又有9250項進行了小規模實驗,進而又有7363項進行了在線實驗,最終有520多項改進被付諸實施?;舴蚵偨Y谷歌改進算法的方式為:數據驅動、實驗評估。
谷歌搜索平均每時每刻都有200多項實驗在進行;而在評估的過程中,既會借助基于統計學搭建的模型,還依靠多種語言的獨立評估員。
霍夫曼表示谷歌搜索算法近期的主要改進,可以歸納為三個方面。
·新鮮度算法調整:在某些情況下,谷歌需要為用戶提供最新搜索結果,比如即時新聞、定期發生的重大事件以及內容頻繁更新的話題等。如果搜索“奧運會”,用戶會得到與即將舉辦的倫敦奧運會相關的最新搜索結果,而非關于1984年奧運會的陳舊信息。
·優質網站算法調整:這對包含原始信息、研究調查、深度報道、精準分析等內容的高質量網站十分有利,提高了它們在搜索結果中的排名。
·頁面布局算法調整:這一改進關注用戶在點擊搜索結果后所看到的網頁布局,提升網頁信息的豐富程度 ,提高信息容易被搜索到的網頁的排名。
除此以外,谷歌還計劃將更多社交、移動、位置等信息元素,更好的與搜索進行整合。這一方面會讓搜索結果更加的個性化,但同時也給谷歌帶來新的難題:如何衡量并提升越來越個性化的搜索結果。此前的實驗方式必須有所調整。
霍夫曼對此解釋說,對于受個性化影響較大的因素,谷歌會采用更多的在線實驗方式進行考察。例如考察一個用戶的跳轉和停留時間,通過統計模型對相關數據進行分析、判斷。此外,還會在得到允許的情況下獲取評估員的個人信息,并據此改進搜索結果。
“新的算法改進想法往往是在解決問題時產生的”,霍夫曼說,目前谷歌在搜索算法開發上投入的時間,已經超過1000人工年。
掃碼二維碼關注周口日報官方微信