“商標侵權案”并沒有影響到業界對于蘋果iPad的熱度。近日,有消息稱蘋果將在3月的第一周內發布iPad 3,其中將會添加Siri語音功能,并在原有的英語、法語、德語基礎上,新增對日語的支持。
另一方面,蘋果的老對手谷歌也已經宣稱正在開發類似Siri的語音控制技術——Majel,用來替代Android系統中現有的Voice Actions。
毫無疑問,以去年10月Siri發布為時間界限,沉寂多年的語音交互技術正在重新回到業界的關注中心。
語音“國戰”來襲
全球市場上,新一代語音交互技術的競爭已經在蘋果的帶動下全面打響。在今年年初的CES展上就可以看到,語音技術已成為各大巨頭爭相投入的重點,智能手機、PC、智能電視、汽車等產品均引入了語音服務功能。
而在國內,從各大廠商爭相推出智能語音服務來看,中文語音市場同樣暗流涌動。“目前類似蘋果Siri的產品還沒推出中文版本。所以,誰能更快開發出支持中文識別的版本,誰就能占據中文語音市場的高地。”艾媒咨詢集團董事長張毅認為。
近日,優視科技推出的最新UC瀏覽器8.2 Android版,已經可以通過語音發出多種控制指令。優視董事長兼CEO俞永福表示:“手機天生就有眼睛(攝像頭)、嘴巴(麥克風)、耳朵(聽筒)、位置(GPS),圍繞這些特性,手機與人的人機交互模式會發生更多革命性的變化。”
記者在體驗該產品時發現,在瀏覽頁面過程中,只要口頭說出“前進”、“后退”、“加入書簽”即能實現相應操作;所有的語音識別都會被上傳到云端進行智能語義解析,再回到終端執行,識別的成功率相當高。
2月16日,天貓祭出了“新花招”,網友只要對著麥克風發出“喵”的聲音,就有可能獲得5元、1000元的現金紅包。據天貓的工作人員介紹,“喵一聲”的背后其實是“Flash聲紋比對技術”,是一種“娛樂版”的語音識別技術——聲音通過終端麥克風搜集上傳,再通過云端提取聲紋與標準值進行對比,最后反饋給終端用戶。“使用起來非常簡單方便,與以前那些需要手動操作的活動相比,這個形式就省事多了。”一位參加過活動的用戶告訴記者。
此外,騰訊、長虹、TCL、百度等國內廠商也紛紛推出了基于云端語音識別引擎的產品。
“設想一下,如果所有的人機交互操作都可以通過語音完成,這將大大減少文本輸入和功能之間的頻繁切換。隨著產品的更新換代,更多的應用程序會支持語音交互,最終有可能把終端變為智能機器人。”漢語語音技術企業科大訊飛公司董事長劉慶峰認為,隨著消費者對語音技術認識的加深,這個行業正在迎來蓬勃發展的時間窗口。
移動互聯的契機
其實,語音技術在IT界并不是一個新鮮的話題。
早在2000年,比爾.蓋茨就曾提出“未來10年是語音的時代”。而IBM、英特爾和摩托羅拉等巨頭也在語音領域有過多年的技術投入。不過,由于缺乏成熟的應用產品,功能上僅依賴于識別終端上原有的語音指令,因此長期以來都不是消費市場上的重要概念;而在PC時代,人機交互方式被更為精確、快速的鍵盤與鼠標所控制,這同樣導致了識別度低下的語音技術無法獲得市場的青睞。
現在,移動互聯的興起,加之相關技術的逐漸成熟,給語音這種交互方式帶來了全新的契機。
事實上,新一代語音交互技術的崛起,并不是因為在識別技術上實現了多大的突破,更關鍵的是將語音與智能終端以及云端后臺進行了恰到好處的整合。“前端使用了語音識別以及語音合成技術;重點在后臺,集成了網頁搜索、知識計算、資料庫、問答推薦等各種技術,彌補了過去語音技術單純依賴前端命令的局限性。”手機行業資深人士海東分析道。
此外,隨著智能手機的大量普及、群體時間的不斷碎片化,個人計算中心移動化的趨勢已經開始出現。對于移動終端來說,傳統的鍵盤與鼠標并不能很好地滿足用戶的輸入需求;語音則能解放用戶的雙手,交互的方式更加直觀簡便,相對來說能夠獲得更好的體驗。未來,隨著交互技術的不斷演進以及使用者對人機交互的興趣逐漸濃厚,手機、電腦等電子產品也不再僅僅是一種工具,而是逐步轉變為類似科幻電影中的機器人角色——“人類說話,機器理解”,交流協作的人機交流模式正在逐步實現。
喬布斯生前談到對Siri的展望時就曾說:“虛擬個人助理(VPA)代表著下一代互聯網交互方式。它通過分析交互歷史,得出個人偏好,來幫助人們解決具體的事務,并通過經驗積累變得更好。”
由此可見, 未來語音服務的準確度和服務質量將取決于和使用者的磨合程度——使用的時間越長,后臺捕捉到的用戶個性化偏好就越多,也就意味著“私人助理”的價值是和使用時間成正比的。
不過,新一代語音交互技術在滿足消費者新鮮感的同時,仍然存在著一些問題。首先,云端智能語音解析技術確實能夠提升識別率,但由于多了“上傳-解析-回饋”的步驟,因而對速度和網絡流量的要求較高。尤其是在Wi-Fi和3G網絡基礎建設尚未成型的國內,這將會大幅削弱用戶體驗,影響到各種應用的實用性。
另一方面,語音交互始終面臨著隱私的問題。在公開場合使用智能手機時,多數人并不愿意將自己的操作步驟或者想做的事情公之于眾,這時語音交互就無法很好地保護個人隱私。