在垂直搜索領域,微軟始終保持著奔跑的姿態:借助英庫(Engkoo),傳統的在線詞典模式被突破。
“毫不夸張地說,我對英庫渴望已久。”微軟亞洲研究院自然計算組副研究員劉曉華在采訪快結束時才對記者說了一句很“私人”的感受。“我是一個中國人,在微軟亞洲研究院,我的日常語言變成了英語,日常口頭交流還好說,但是發郵件、演示PPT、寫研究論文就需要精益求精。這樣特定的角色就要求我像美國人一樣寫出純正、地道的英文來。”
坐在劉曉華身邊的Matthew Scott掛著夏威夷陽光般親切的笑容,這個來自紐約的小伙子是微軟亞洲研究院技術轉化組軟件開發工程師,同時,也是英庫項目的負責人,Matthew Scott現在還聽不懂劉曉華和記者之間的中文對話。對于一個不懂漢語的外國人,卻在負責一個用來幫助中國人寫英文的垂直搜索引擎的疑惑,記者很快釋然了。因為從Matthew Scott的微笑中感受到的是他與這個全球性的跨國企業相似的表情:充滿“親和力”的本地化創新。
微軟作為一名后來新兵在紛繁的在線詞典市場,從幫助國人寫好英文文章的角度,選擇了與谷歌、網易有道詞典、愛詞霸完全不同的開始。
希格瑪的地道英腔
英庫在線英語工具(www.engkoo.com)本質上是一個幫助中國人學習英語的垂直搜索引擎。與微軟亞洲研究院的有些研究成果相似,英庫的誕生是微軟亞洲研究院研究員們的無數次冒險和嘗試之一。“開始的想法也并不在于商業上的應用,而是流傳在研究院內部的一個有用的小工具。”Matthew Scott對記者說。
英庫凝結了包括創新工程組、語音組、用戶界面組、機器學習組等不同領域的研究團隊的集體的智慧,而微軟亞洲研究院的研究員們就成了英庫第一批使用者。
英庫融合了包括微軟Office詞典、電子百科全書等十余部經過授權的專業詞典,通過對整個互聯網的網頁進行分析,抽取、整理獲得數量巨大不斷更新的雙語例句和短語,再利用自然語言計算、統計機器學習等技術對雙語例句做了自動分類、質量分析、相關度排序、語法分析等處理,在此基礎之上構建了基于語言學特征的高維索引,從而提供了超越關鍵詞的新的檢索體驗。
經過了無數次的改進,英庫經受住了希格瑪大廈里這群“最聰明”人的挑剔和“找茬”。在去年11月微軟亞洲研究院“創新日”活動上,英庫和其它展出的四十多項創新成果首次亮相就吸引了眾人目光。
“也許別的在線詞典的搜索功能已經很完善,但是英庫著實為用戶著想,不僅詞庫完整,更注重用戶的體驗以及操作的便捷。我相信英庫一定會在將來成為最受歡迎的在線詞典之一。”北京理工大學微軟技術俱樂部王維堃在看過技術演示后說。
世搜新語
界面友好度和細節上的斟酌往往決定了軟件的生命力,相較于大多數停留在翻譯功能的在線詞典來說,英庫的確是個突破。
“在寫作過程中,常需要找一個詞來搭配另外一個詞來潤色句子表達,英庫的詞性百搭就提供了這樣的功能,輸入句子主干,對于無法確定的單詞,可以使用該詞的詞性縮寫代替,英庫就能自動搜索出符合要求的例句,這對于我寫技術性的英文報告幫助太大了。”劉曉華這樣向記者介紹。
在英庫詞典搜索框中輸入一個單詞,所有相關的信息都匯集于一個頁面。在頁面上端,列出了常用解釋,同時包括音標、詞性、中英文翻譯、詞形變化等。這種基于千萬數量級權威詞典和網上最新詞匯而搜索到的詞匯釋義被Matthew Scott形容為“與時俱進”。
緊接著詞匯釋義的是關于所搜索詞的例句搜索結果,包括英文例句、中文例句和例句的來源。這些例句是從海量的互聯網數據中選擇出來的,通過復雜的機器語言分析和算法,把有拼寫錯誤、語法錯誤、句子特別長、或者包含怪符號、中文翻譯質量差的排除掉,之后再對篩選后的數據進一步算分數。“現在可以呈現出10條例句,就會有一個質量由高到低的排序,以后會呈現更多的例句,通過機器計算來讓用戶自己選擇。”Matthew Scott向記者介紹到。
值得一提的是英庫的例句檢索功能。通過對例句進行進一步的加工,無論是口語的、書面語的,還是技術性詞匯,用戶根據這些檢索條件,選擇對應難度的例句。因此無論是小學生寫作文、還是專業研究者寫論文或者是員工給老板呈報告,都可以找到適合自己文章難度的例句。以“mouse”這個單詞為例,它既有老鼠的意思,同時也是鼠標的意思。
對于相似的詞條,可以把兩個近義詞拖放到一起,在同一個頁面中進行比較,不僅可以比較詞的原型,還可以比較詞的變形和不同的詞性。而點擊頁面中出現的單詞,可以局部刷新,并且能用機器合成的朗讀音來地道的朗讀例句。
起跑之后
“現在的英庫只是一個起點。我們希望它作為一個渠道,未來能不斷把研究院更新的研究成果放在上面,而不僅僅只有垂直搜索的功能。”MatthewScott對記者說道。
從幫助中國人寫地道的英文文章出發,微軟的定位很明確:做在線詞典的第二個層次。因為在線的翻譯結果往往難以達到文章寫作的要求,這個時候就可以通過英庫驗證從而得到地道的英文表達。
說起英庫的未來,Matthew Scott雙眼放出激動的光芒:“接下來,英庫上馬上就會添加一些更有用的功能,比如把英文句子劃出,通過機器的翻譯立刻用中文表達出來;包括英文句子和英文段落的機器翻譯和表達方式,這些都是我們正在研究的課題。”
語言是人們溝通的手段,技術縮短了交流的距離,微軟在這兩個對人類發展最重要領域之間架起了一座橋梁。
微軟在基礎研究階段就定下了產品的基調:面向中國文化和中國用戶的需求。從人立方、對聯搜索到如今的英庫在線英語工具,微軟亞洲研究院在垂直搜索領域保持著奔跑的姿態。