語音交互王者歸來

2012-04-29 00:00:00王哲瑋梁菲

計算機世界 2012年7期

“商標侵權案”并沒有影響到業界對于蘋果iPad的熱度。近日，有消息稱蘋果將在3月的第一周內發布iPad 3，其中將會添加Siri語音功能，并在原有的英語、法語、德語基礎上，新增對日語的支持。

另一方面，蘋果的老對手谷歌也已經宣稱正在開發類似Siri的語音控制技術——Majel，用來替代Android系統中現有的Voice Actions。

毫無疑問，以去年10月Siri發布為時間界限，沉寂多年的語音交互技術正在重新回到業界的關注中心。

語音“國戰”來襲

全球市場上，新一代語音交互技術的競爭已經在蘋果的帶動下全面打響。在今年年初的CES展上就可以看到，語音技術已成為各大巨頭爭相投入的重點，智能手機、PC、智能電視、汽車等產品均引入了語音服務功能。

而在國內，從各大廠商爭相推出智能語音服務來看，中文語音市場同樣暗流涌動。“目前類似蘋果Siri的產品還沒推出中文版本。所以，誰能更快開發出支持中文識別的版本，誰就能占據中文語音市場的高地。”艾媒咨詢集團董事長張毅認為。

近日，優視科技推出的最新UC瀏覽器8.2 Android版，已經可以通過語音發出多種控制指令。優視董事長兼CEO俞永福表示：“手機天生就有眼睛(攝像頭)、嘴巴(麥克風)、耳朵(聽筒)、位置(GPS)，圍繞這些特性，手機與人的人機交互模式會發生更多革命性的變化。”

記者在體驗該產品時發現，在瀏覽頁面過程中，只要口頭說出“前進”、“后退”、“加入書簽”即能實現相應操作；所有的語音識別都會被上傳到云端進行智能語義解析，再回到終端執行，識別的成功率相當高。

2月16日，天貓祭出了“新花招”，網友只要對著麥克風發出“喵”的聲音，就有可能獲得5元、1000元的現金紅包。據天貓的工作人員介紹，“喵一聲”的背后其實是“Flash聲紋比對技術”，是一種“娛樂版”的語音識別技術——聲音通過終端麥克風搜集上傳，再通過云端提取聲紋與標準值進行對比，最后反饋給終端用戶。“使用起來非常簡單方便，與以前那些需要手動操作的活動相比，這個形式就省事多了。”一位參加過活動的用戶告訴記者。

此外，騰訊、長虹、TCL、百度等國內廠商也紛紛推出了基于云端語音識別引擎的產品。

“設想一下，如果所有的人機交互操作都可以通過語音完成，這將大大減少文本輸入和功能之間的頻繁切換。隨著產品的更新換代，更多的應用程序會支持語音交互，最終有可能把終端變為智能機器人。”漢語語音技術企業科大訊飛公司董事長劉慶峰認為，隨著消費者對語音技術認識的加深，這個行業正在迎來蓬勃發展的時間窗口。

移動互聯的契機

其實，語音技術在IT界并不是一個新鮮的話題。

早在2000年，比爾.蓋茨就曾提出“未來10年是語音的時代”。而IBM、英特爾和摩托羅拉等巨頭也在語音領域有過多年的技術投入。不過，由于缺乏成熟的應用產品，功能上僅依賴于識別終端上原有的語音指令，因此長期以來都不是消費市場上的重要概念；而在PC時代，人機交互方式被更為精確、快速的鍵盤與鼠標所控制，這同樣導致了識別度低下的語音技術無法獲得市場的青睞。

現在，移動互聯的興起，加之相關技術的逐漸成熟，給語音這種交互方式帶來了全新的契機。

事實上，新一代語音交互技術的崛起，并不是因為在識別技術上實現了多大的突破，更關鍵的是將語音與智能終端以及云端后臺進行了恰到好處的整合。“前端使用了語音識別以及語音合成技術；重點在后臺，集成了網頁搜索、知識計算、資料庫、問答推薦等各種技術，彌補了過去語音技術單純依賴前端命令的局限性。”手機行業資深人士海東分析道。

此外，隨著智能手機的大量普及、群體時間的不斷碎片化，個人計算中心移動化的趨勢已經開始出現。對于移動終端來說，傳統的鍵盤與鼠標并不能很好地滿足用戶的輸入需求；語音則能解放用戶的雙手，交互的方式更加直觀簡便，相對來說能夠獲得更好的體驗。未來，隨著交互技術的不斷演進以及使用者對人機交互的興趣逐漸濃厚，手機、電腦等電子產品也不再僅僅是一種工具，而是逐步轉變為類似科幻電影中的機器人角色——“人類說話，機器理解”，交流協作的人機交流模式正在逐步實現。

喬布斯生前談到對Siri的展望時就曾說：“虛擬個人助理（VPA）代表著下一代互聯網交互方式。它通過分析交互歷史，得出個人偏好，來幫助人們解決具體的事務，并通過經驗積累變得更好。”

由此可見，未來語音服務的準確度和服務質量將取決于和使用者的磨合程度——使用的時間越長，后臺捕捉到的用戶個性化偏好就越多，也就意味著“私人助理”的價值是和使用時間成正比的。

不過，新一代語音交互技術在滿足消費者新鮮感的同時，仍然存在著一些問題。首先，云端智能語音解析技術確實能夠提升識別率，但由于多了“上傳－解析－回饋”的步驟，因而對速度和網絡流量的要求較高。尤其是在Wi-Fi和3G網絡基礎建設尚未成型的國內，這將會大幅削弱用戶體驗，影響到各種應用的實用性。

另一方面，語音交互始終面臨著隱私的問題。在公開場合使用智能手機時，多數人并不愿意將自己的操作步驟或者想做的事情公之于眾，這時語音交互就無法很好地保護個人隱私。

計算機世界2012年7期

計算機世界的其它文章: 紅帽企業虛擬化3.0正式上市等; 高性能交換機推進下一代數據中心網絡; 云計算推動ITSM水平提升; 三維打印技術幫制造業縮短產品設計周期等; 建立社交平臺推動企業社會化; BYOD:便攜設備拓展商業協作

語音交互 王者歸來

語音交互王者歸來