文 李萌

斯科特·霍夫曼(Scott Huffman)Google工程總監
斯科特·霍夫曼(Scott Huffman)加入Google已逾5年,專注搜索領域超過15年。現擔任Google工程總監,負責領導搜索質量評估和移動搜索團隊。
在加入Google之前,斯科特在一家硅谷的企業搜索與知識管理公司Knova任工程部副總裁一職。他在卡耐基梅隆大學完成大學學業,擁有密歇根大學計算機科學博士學位。他撰寫了數十篇學術論文,內容涵蓋信息檢索、機器學習和信息提取領域,此外,他還是多項專利的發明人及共同發明人。
十年之前,搜索結果也許只是一個網頁鏈接。而今天,用戶得到的搜索結果內容是非常豐富的,包括網頁鏈接以及相應的圖片、視頻、地圖等各種各樣的內容。隨著互聯網的不斷發展,隨著網絡上信息內容的日漸豐富和無處不在,互聯網搜索正在快速崛起,為了帶給用戶更加重要且準確的信息,讓用戶基于這些重要的信息做出一些重要的決定,Google搜索正在逐步完善,不斷提高搜索質量,讓搜索變得更加科學化,對此,記者專訪了Google工程總監斯科特·霍夫曼,讓他為我們揭開了科學搜索的面紗。
搜索中最基本的一個概念是“索引”,斯科特說,“Google搜索機器人會對幾十億的網頁進行掃描,然后建立一個索引庫,這就好像是每本書的目錄,這是一本龐大的書目錄,它分布在Google全球各地的數據中心里,當用戶提交搜索請求后,這個搜索請求依據具體的地理位置會發送到Google全球各地不同的數據中心。”
斯科特介紹,平均來說,Google的每個搜索請求往返于電腦和數據中心的單程距離是750英里。數據中心接到搜索請求之后,把它散發到存有不同索引的計算機上。然后將用戶提交的搜索請求同目錄進行匹配,找到正確的文件或是網頁。在眾多的網頁或者文件中挑選相關性最高而且是最新的數據和結果,并根據結果的屬性和幾百個指標進行排名,最終呈現給用戶。雖然這看起來比較簡單,但它背后的流程其實很復雜。Google需要通過特定的算法,將這些網頁的內容和用戶的搜索請求相對比,并將最終結果呈現給用戶。盡管搜索過程比較復雜,但是卻可以在不到1秒鐘的時間內完成的。
為了能夠從互聯網豐富的信息海洋中為用戶提供正確的信息,Google搜索會通過對算法的改進,在數十億網頁、圖像、視頻、新聞和更多信息來源中為用戶篩選他們所需要的信息,通過整合各類信息,讓搜索內容更加豐富。同時,搜索形式也會有不同變化,比如現在用戶可以通過按圖搜索、語音搜索等方式來得到自己想要的答案。
Google會用幾百個指標來衡量結果并對其進行排名,最后的目的是給用戶呈現相關度最高且質量最高的搜索結果,在搜索結果頁中,排名越在后,信息的相關度和質量就越低。斯科特表示,“在信息篩選中也有一些衡量信息質量的因素,比如我們會考量這個關鍵詞在文件中出現的頻率以及關鍵詞出現的位置,如果它出現在標題中就比它出現在文章的第十行或者更靠后的地方更重要。還會考慮用戶本身的情況,比如輸入‘北京’,而位置又在北京,它就不會出現‘北’和‘京’分開呈現的結果。另外,還要參考其他的網頁對這份文件的重視程度,如其他網頁對于這個網頁引用的程度、頻率和量有多高,引用的量越大這個網頁的排名就越靠前,質量就越高或者越重要。”
在為用戶提供最相關的結果時,還有很多其他指標需要考慮。比如權威性,如果用戶查醫學方面的問題或者查關于某一個疾病的問題,這時,用戶可能最重視結果的權威性,而不是某個博客里多次談到的這種疾病,在這樣的搜索情況下,網頁權威性的權重是最高的。
斯科特還強調,在搜索過程中還要注意其他幾個方面。“其一,要考慮用戶所在的位置,比如用戶在北京搜索一家餐館,上海的餐館對用戶來說就毫無意義。其二,要考慮信息的新鮮度或及時性。比如用戶要搜索“奧運會”,大家想得到的信息肯定是與倫敦奧運會相關的一些搜索結果,而不是過去一些陳舊的奧運會信息。在過去的幾個月中,我們所做的一個重大的調整就是在新鮮度算法上的調整,以給用戶得到更新、更及時的一些信息,這也能為用戶提供更好的搜索體驗。其三,要注意一些新的指標和判斷的因素。例如用戶在使用手機搜索,就可以基于位置呈現搜索結果。如搜索“披薩”,搜索結果中很可能呈現最近的披薩店的信息,這和搜索領域未來的發展方向是相匹配的,未來會有更多的移動設備,基于位置的搜索會是用戶的新需求之一。”

事實上,Google在呈現搜索結果時要考慮200多個指標,具體到某一個特定的搜索請求,所要考量的指標權重會有所不同,這是依據不同請求而變化的,要依據具體情況來分析。比如輸入一個非常泛泛的搜索請求,可能它的指標和輸入一個特別具體的,比如說某一個程序中的某一個代碼,這樣的搜索請求的指標就完全不一樣,重要程度也完全不一樣。
在斯科特看來,搜索的發展歷程可以歸納為從數據到信息,再從信息到知識,最后從知識發展到智慧的過程。目前的搜索引擎仍處于將信息轉化成知識的初始階段。“就將數據轉化為信息而言,我們已經做得很好了,現在我們想要進一步幫助用戶把信息轉化為知識,因此我們堅持快速創新,使搜索更智能化、個性化,充滿互動性。
Google搜索的改進過程充滿難度和挑戰,斯科特表示,Google每天有超過10億的搜索請求,在處理這些請求的同時,Google仍一直在改進搜索的算法。“大多數時候,在用戶并未察覺到時,搜索已經改進了。”據他介紹,通常Google對算法的改進有3個步驟,首先對每項改進做必要性評估,然后在全球不同地區進行小規模實驗,之后隨機挑選用戶進行在線實時實驗。截至目前,Google在搜索算法開發上投入的時間超過1000人工年,在特定時間,Google針對搜索功能會進行50~200個在線實驗。借助這些精準有序的科學方法,一個好的改進方案從構思到在Google.com上實施操作,最多只需24小時。“去年我們進行了58000多項搜索實驗,并最終做出了520多項改進。”
搜索引擎想要做成智慧引擎尚需時日,斯科特展望,“我們發展知識引擎尚屬起步階段,如果我們能實現這一目標,也許有一天可以接近智慧引擎。這意味著我們的系統需要弄清楚用戶想要什么,然后綜合得出結果,在用戶需要的時候將有用的結果呈現出來。我們需要超越頁面上的意義,進而真正地理解人物、地點和事件,以及它們之間的相互關系。人腦自然擅長于此,但對計算機來說,這是人工智能的問題。”想要成功就必須克服挑戰,目前,Google在數據轉化信息方面已取得了巨大進步,現在正邁著穩健的步伐向知識引擎前行。