
以前,輸入法技術比拼的主要是詞庫的大小和流行度。可以說借助互聯網搜索引擎了解詞語的流行度,然后增強詞庫的方法,讓中文輸入的效率有了顯而易見的提高。但也不難發現,目前的中文輸入法整句輸入效率還處于比較低的水平,破譯整句輸入的密碼需要更高級別的自然語言處理技術。
微軟亞洲研究院將機器翻譯中用到的自然語言處理技術運用到中文輸入法領域,經過1年左右的研發,搭建了可靈活擴展的新一代云輸入系統,低調地開啟了“云輸入2.0”時代。上一期,我們介紹過微軟英庫拼音輸入法的第一個公開測試版本,了解到它的基本輸入命中率之高和產品功能上的獨家秘籍。本期,我們將進一步揭開這款云輸入法的后窗,看看它究竟是如何做到脫胎換骨的。
機器學習的內核
負責“英庫拼音”底層技術開發的是微軟亞洲研究院的自然語言計算研究組,他們的另一項研究成果是非常受用戶歡迎的必應詞典。而必應詞典實現的機器翻譯功能,主要使用了自然語言處理研究中的基于“多特征融合的對數線性模型”,這種方法同樣采用大規模的訓練語料(corpus)對模型的參數進行自動學習。在做輸入法的過程中,開發人員意識到其實輸入法也是一種“翻譯”,只不過是從拼音“翻譯”為漢字,而基于統計機器翻譯的方法能夠很好地為更豐富的用戶輸入行為進行建模。利用已經得到證明的、基于“多特征融合的對數線性模型”的機器學習技術,英庫拼音開始了破譯中文詞語和整句輸入密碼的征程。
在互聯網還不夠普及的時期,中文輸入法的訓練語料主要來自于報紙、雜志和詞典等公開出版物,數據量比較小,訓練出的語言模型更接近“書面語”。1年的《人民日報》文本量大概為200MB,而如今僅微博上不到1個月的文本量就超過1GB。為了了解最新的中文語言動態,英庫拼音輸入法的訓練語料庫不僅包含來自必應搜索引擎的數據,而且擁有獨立的“爬蟲”進行全天候的工作,集合了來自微博、博客、論壇、新聞和小說等渠道的大規模實時數據。拿到這些數據之后,他們利用微軟先進的云計算服務器,自動學習語言模型的參數。舉個簡單的例子,輸入“ni’xian’zai’gan’shen’me”,得到的每個字都有很多候選,如果要獲得“你現在干什么”的最優選項,首先要利用基本的語法規則進行分詞,然后就需要知道“你”后面出現“現在”的概率要比“先在、西安再”高,而“現在”后面出現“干”字的概率要比“感、敢、趕”字高,以此類推。當然,這只是機器通過語料庫學習語言模型參數的基本原理,真實情況下考慮的因素要復雜得多。據微軟亞洲研究院自然語言組主管研究員李沐博士介紹,“通過基于云計算的大數據模型,該系統成功地將中文轉換錯誤率降低了25%,取得了初步成功。”
另外,這套機器學習的系統還有一項重要的功能,那就是從實時的大數據里面發現新知識。比如說“甄嬛體”是4月28號左右開始在微博上“冒”出來的,最初兩天使用頻率不高,但是到了5月1號,英庫拼音輸入法的后臺就成功地發現大家都在用這個詞,所以系統已經成功地把它加入到英庫拼音輸入法的詞庫中,直接就可以打出“甄嬛體”了。
事實上,這些方法并非最新概念。由于越來越多的用戶參與到互聯網內容的生成活動中,產生了大規模的實時動態數據,而且隨著云計算能力的不斷提高,機器學習算法才逐漸被引入到自然語言處理技術中,從而將中文輸入法帶入了又一個黃金年代。可以說,這是讓大數據研究和云計算技術“落地”的絕佳范例。
重視用戶的體驗
這些年來,隨著互聯網不斷深入人們的生活,用戶的輸入需求發生了明顯的變化。首先,大量英文詞匯漸漸融入漢語,除了口語中夾帶的英文單詞外,最常用到的莫過于一些知名商標和縮寫詞,例如HTML、Kinect、iPhone以及SIM卡、Beta版、UI等;然后,聊天打字變得越來越不拘一格,各種誤拼寫變成了家常便飯;最后,像“傷不起、甄嬛體和你懂的”這樣的新詞匯層出不窮。
英庫拼音考慮到了上述情況,在機器學習系統中,分別加入了中英文混輸、誤拼寫容錯和新詞匯識別等子模型,快速地完善和補充最終的拼音-漢字轉換模型。與這種動態語言模型配套的監測系統,會跟蹤查看加入新的子模型之后,用戶的輸入命中率是否得到了提高,然后根據反饋的數據,不斷地進行修正。另外,英庫拼音的云端和客戶端基本語言模型是一致的,只是云端的模型更完善、詞庫更大。如果本地候選項的“置信度”不高,在聯網情況下它就會請求“云候選項”。最終,使用戶即時獲得更好的輸入體驗。
眾所周知,微軟并不缺中文輸入法,比較早的“智能ABC”和后來的“微軟拼音”都是操作系統內置的輸入法,但是由于更新緩慢,而且表現不佳,它們漸漸被一些互聯網公司的輸入法產品搶去了市場。潛心修煉1年后,英庫拼音輸入法攜從機器翻譯領域演化而來的中文云輸入引擎而出現。與微軟的傳統商業軟件開發模式不同,英庫拼音輸入法也是微軟這艘巨型戰艦向互聯網產品開發模式轉型的一個縮影,它不僅迅速將理念和技術轉化為產品和解決方案,而且通過敏捷開發的模式,不斷根據用戶的真實需求和使用反饋來改進云輸入系統,使產品快速迭代,幾乎每隔一個月就推出一個新客戶端版本。
結論
如果論功能是否豐富,那么初出茅廬的英庫拼音輸入法與當前市場上的主流產品還有一點差距。但是微軟對于未來技術的發展方向有著明確的愿景,現在對英庫拼音輸入法項目的投入將帶來巨大的技術和市場回報。第一,利用輸入法“反哺”必應詞典和必應搜索引擎,在技術上絕非戲言。第二,免費輸入法并非無利可圖。如果想了解用戶的個性化行為,最直接的媒介就是輸入法。在大數據和云計算競爭的年代,這是微軟拿下的又一個戰略高地。而用戶得到的是一款更優秀的中文輸入法,而且它是干凈的,不必忍受各種彈窗等“流氓”行為。
聲音
我們把用戶輸入字符串轉換為漢字的過程也看成一個翻譯的過程,就像英漢翻譯是把英文翻譯成漢語一樣,利用大數據和云計算來驅動音字轉換模型的建立。
李沐
微軟亞洲研究院自然語言組主管研究員項目帶頭人
用戶的任何信號,包括文字、語音或者手勢等移動設備上的多模態輸入方式將會無縫對接,將時間、位置等個性化信息全部匯總之后,再通過數據驅動的模型,將會找到最優的輸入模式,引領輸入法的未來。
周明
微軟亞洲研究院首席研究員
自然計算組負責人
對搜狗輸入法來說,微軟英庫拼音輸入法技術上的一小步,都是對它市場地位威脅的一大步。在用戶體驗為王的時代,一種輸入法僅憑使用習慣的護城河,很難抗拒技術的進步。
“炳叔”
知名IT博主和評論員