科技領域的4個巨頭,微軟、蘋果、Google和Facebook在下一代搜索這件事上撞車了。它們都希望自己的服務能真正理解用戶的搜索意圖,然后盡可能地直接給出可靠答案。作為當前主流搜索引擎的代表,Google和微軟的Bing都小范圍地加入了“知識引擎”的內容,Facebook推出不久的Graph Search的搜索結果不是鏈接而是答案,蘋果的Siri用對話的形式滿足用戶的信息需求。在基于網頁圖譜的關鍵詞搜索時代,Google是大贏家。但在新的背景下,它的對手各具優勢,搜索引擎的格局或許將迎來改變。
2013年7月的最后一天,我們在微軟亞洲研究院的辦公室看到了一個智能問答系統的演示,該項目的內部代號是Light,目前尚未對外發布。在我提出的問題“微軟亞太研發集團何時搬到中關村?”被轉換為英文輸入搜索框后,Light直接給出了正確答案——2011年05月25日,答案后面標注的可信度超過90%,點擊該答案則可以查看Light推斷出是這一天的“證據”,也就是很多英文媒體的報道鏈接。
接下來,研究員韋福如又展示了幾個難度更大的問題。其中一個翻譯成中文是“1917年瓊斯法案給了這個加勒比島嶼的居民美國公民地位”,Light給出了正確答案“波多黎各”;另一個是“如何成為一名足球裁判”,Light給出的最佳答案來自問答社區Answers.com,原問題是“成為足球裁判需要哪些要求?”韋福如向我們強調,“Light真的讀懂了這些復雜的問題。”對于Light的表現,周明不無自豪地稱,Light集合了微軟領先的自然語言處理、信息檢索和機器學習等技術,“如果拿Lgiht去參加智力問答節目Jeopardy!,也可以與人類冠軍一較高下。”
上述同樣的問題,在目前主流的搜索引擎上只能把帶有關鍵詞的網頁搜索出來,然后需要用戶再通過人工找出可能包含具體內容的網頁。這時候我們就能領會到Light的奧妙了。演示結果令我對Light問答系統刮目相看的另一個原因是針對這些冷門的問題,Light并非從知識數據庫中調出答案,而是從相關的Web頁面或問答社區中分析出答案的。
負責該項目的自然語言計算組首席研究員周明告訴CHIP,用戶的搜索意圖很難僅通過一兩個關鍵詞就表達出來,作為一個智能問答系統,Light的首要任務是理解用戶說的話(自然語言),明確搜索意圖,然后在浩如煙海的互聯網中把答案找出來。
問答系統是自然人機交互、搜索引擎和手機個人數字助理等領域的關鍵技術。移動終端的逐漸普及也讓問答系統的重要性日益凸顯——一方面,因為在手機有限的屏幕空間上,用戶希望能恰到好處地直接獲得答案;另一方面,更便捷的語音輸入方式讓用戶漸漸習慣于,通過一句話而不是一個關鍵詞來表達自己的搜索意圖。目前主流的搜索引擎也在發現并適應用戶的需求,但做得還不夠好。
“Light問答系統的目標并不是完全取代基于關鍵詞的、成熟的搜索技術,而是與之互為補充,無縫提升用戶的搜索體驗。”Light項目的負責人周明表示,“針對用戶的問題,如果找到了特別可信的答案,Light就會把它放在搜索結果的最前面給用戶看;如果沒有可信度足夠高的答案,那么就提供普通的搜索結果。”
Light背后的3個引擎
目前主流的搜索引擎都正在向搜索結果中導入更多的“知識圖譜”,在回答用戶一些不需要推理的事實和常識性問題時可以直接給出答案,例如某個國家的國慶日和姚明的身高等。
Light問答引擎并沒有止步于此,而是開發出了更先進的系統。據研發人員介紹,Light背后使用了3個QA引擎,分別是知識庫、Web內容挖掘和各種問答社區的內容整合。Light會根據問題類型的不同將其導入不同的QA引擎——首先在知識庫中查找,因為知識庫中保存的是結構化的數據,機器容易識別;如果知識庫里找不到,就通過Web內容來挖掘;對于一些偏主觀的問題,Light會去雅虎問答和百度知道這樣的問答社區尋找答案,因為這些問題機器太難回答了,必須要有人的參與。
在被問到Light與蘋果Siri、Facebook Graph Search相比的區別和優勢時,周明說,一般的公司可能做了一個QA引擎,很少有公司擁有把3個QA引擎集合在一起的實力。在每個QA引擎都能做出規模的前提下,盡管背后有很復雜的推理和執行邏輯,但Light問答系統的運行速度仍然很快,這方面是他們比較滿意的地方。
但他也清楚地認識到,要想真正讓用戶廣泛地使用Light問答系統,還要投入很多工作,其中最關鍵的任務就是擴大問題的覆蓋面。目前Light可以回答的問題類型主要是“用戶經常問的”,但是在實際運用中,有很多不常出現的“長尾”問題會被人問到。具體到知識庫方面,周明告訴我們,目前Light問答系統的知識庫對“一階”問題掌握比較好,“二階”和“三階”問題的掌握仍需要改進。通俗地解釋,“一階”問題就是只包含一層關系的知識,例如姚明的身高是多少。“二階”和“三階”問題就需要包含2層或3層關系的知識,例如姚明母親的身高是多少以及姚明的母親比妻子高多少。
目前Light主要基于英文語言和內容,但研究人員表示他們具備了漢語處理的關鍵技術,加入另一種語言更多地是與現有的系統進行磨合。目前漢語的知識庫量還比較小,需要花些功夫做儲備。最后整個系統要不斷地磨合、測試、反饋和改進,這個過程要花很長的時間。
突破人類的極限
作為一個研究機構,在周明看來,微軟亞洲研究院的優勢是眼光更遠、更寬。“我們的研究不會局限在一兩個產品上,也不追求非得贏了哪個公司,我們真的想通過突破人類知識和技術的局限性,使我們的研究成果成為人類知識和技術寶庫的一部分。同時我們的研究成果可以為微軟的產品和服務提供動力,或者提高原有產品的水平,最終造福用戶。”