有人說,Siri拯救了平淡無奇的iPhone4S;也有人說,蘋果拯救了語音搜索技術,讓其從多年的沉寂中蘇醒過來。但是,即便強大如蘋果,也難破語音技術存在的瓶頸。目前來看,Siri、類Siri離它成為神奇魔法師的愿望還很遠,她扮演更多的角色,是被“調戲”的小玩具。
有點蹩腳的小魔法師
Siri,語音助手,近來出鏡率頗高。5月16日,百度放出消息將在年底推類Siri應用,并將此應用整合進百度云手機。幾乎與此同時,蘋果方面也預告,Siri智能語音助理將從Beta版(測試版本)邁入正式版。再往前追溯,5月9日,科大訊飛發布新一代智能語音手機軟件訊飛語點,比3月22日發布的版本新增了語音查詢未來的天氣等功能。
自從iPhone4S以Siri作為亮點推出以來,語音助手便頻繁出現在各科技公司的新產品列表和各大媒體的報道中,而Siri也幾乎成為語音助手產品的代稱。據不完全統計,目前市場上出現的類Siri產品已達十多種,這其中包括國外的iris、Assistant等英文版軟件,也包括國內應用市場上出現的蟲洞、智能360等中文版語音助手。在這些企業的努力下,智能手機里就像是住了個魔法師,你對她說:“幫我撥電話給爸爸。”她就自動打開手機電話薄,給你爸爸打電話;你讓她打開谷歌或者百度搜索美前總統布什的緋聞,打開播音器聽《最炫名族風》,她都能一一照辦。
蘋果總是具備神奇的力量,能讓一種新技術瞬間爆發。早在2009年,谷歌便開始推出基于語音搜索技術的軟件,并推出Voice Actions應用,支持語音命令發短信、設置鬧鐘,或打開網頁等。遺憾的是,谷歌沒有像Siri那樣刮起一陣語音搜索風,因為Voice Actions像一個嚴厲的老師,和她的對話用語,必須具備嚴格的語法結構和格式,否則系統將無法識別。而Siri則和藹很多,你和她對話的時候,不必注意繁瑣的語法結構,甚至還可以偶爾“思維模式混亂一下下”,由他結合上下文結構來領會你的意思。
即使Siri比Voice Actions智能很多,但與蘋果在廣告宣傳中說的“她會讓一個男人陷入與機器人的殊途之戀,她還會在圣誕節變成禮物寄到你的party上”還是相差甚遠。為此,美國有用戶以發布“誤導和欺騙”廣告為由將蘋果告上了法庭。確實,Siri并非神通廣大的魔術師,尤其是對中國用戶而言,給Siri發號施令簡直就像一場噩夢,因為,你會非常頻繁地聽到他用正統的美式英語對你說:“I donot understand……”這無異于告訴你,你的英語很糟糕。
技術瓶頸阻礙其破繭化蝶
“蘋果Siri原來是個蹩腳的小魔法師。”蘋果讓沉寂良久的語音搜索再放異彩,卻拯救不了語音技術早已存在的瓶頸,而這正是語音助手能否破繭成蝶的關鍵。
語音助手最大的特色是實現人機的互動。要讓手機里的小魔法師具備人的情感和思維,以及多出人類N倍的知識面,需要運用許多高深艱澀的技術。比如,讓她和用戶交互,需要把用戶的口語轉化成文字,經過智能處理之后轉化成語音輸出,這少不了語音識別以及語音合成技術。其次,后臺技術更加復雜。有的用戶讓她幫忙打開谷歌搜索,有的要求她幫忙翻譯英語,有的甚至讓她陪著嘮嗑。小魔法師要隨時做好準備,處理那些千奇百怪的用戶請求。這意味著,小魔法師起碼要具備以下幾項技術:網頁搜索技術;知識搜索技術;知識庫技術;問答以及推薦技術。
這些技術,聽上去都讓人頭皮發麻,如果不是在語音識別控制領域摸爬滾打很多年,或者是在財力、人力、物力上非常富有的大公司,還是對Siri敬而遠之的好。創業導師李開復就曾在微博上公開表示,Siri不是誰都能做的,如果實在要做,就必須想好幾個問題,包括語音助手能解決用戶的什么需求和痛處,如何克服后臺海量數據學習技術門檻和寬帶成本等。
李開復的第一個問題就戳到了語音助手的痛處。目前,Siri宣傳的神乎其神,用起來卻差強人意。失望之余,用戶發現了她的另一個價值——被“調戲”。一些熱心的果粉會問Siri:“你的三圍是多少?”還有人纏著Siri回答“喬布斯在哪”、“iPhone在那邊賣得好嗎”諸如此類的問題。甚至還有人效仿《生活大爆炸》中的印度人Raj,在沒有女友的日子里,跟Siri妹妹調調情,排解內心的寂寞。
“蘋果Siri都在被調戲,我們怎么可以不被調戲?而且,一定要努力比蘋果Siri更好地被‘調戲’!”為此,市面上那些模仿蘋果的類Siri產品,學會了耍滑頭和貧嘴。比如,你問她:“你有男朋友嗎?”她會和你打太極:“目前我想的最多的不是個人問題,而是努力工作。”又或者,她干脆借用流行網絡語來回答你:“男朋友?我說有,你信嗎?反正我是不信。”
看,語音助手多么有趣!但問題是,當一個產品的主要功能變成了被“調戲”,那它說白了也就算是個玩具。而玩具的命運是,時間長了,玩膩了,就會被束之高閣,或者干脆扔掉了事。
等待魔法師長大需耐心
即使無論在技術上,還是在體驗上都不盡人意,但Siri還是給我們傳達了兩個趨勢:就像按鍵有可能被觸摸屏逐漸取代那樣,觸摸屏很有可能在未來的某一天被語音控制所取代。另一個可能是,谷歌、百度等搜索形式將被顛覆,用戶可以通過更自然的交互方式直接獲得答案。面對這兩個趨勢,稍有憂患意識的企業都不可能無動于衷。尤其是百度,如果Siri真的巔覆搜索形式,那么,它必須在這個變革來臨之前推出自己的Siri產品,以穩住自身在搜索業的地位。
目前躋身于研究中文版Siri的企業主要有四類:一類是以做語音控制技術的語音公司;第二類是以iPhone客戶端開發、安卓客戶端開發的團隊;第三類是曾經做過機器人、語義分析的一類公司,如小i機器人;第四類是騰訊、百度等互聯網巨頭,以收購語音技術公司或者是組建語音研究團隊的方式切入。
不管誰做,都繞不過前面提到的技術難題。而最難的,是讓語音助手聽得懂中國話。中國的語言環境非常復雜,要讓語音助手聽懂廣東話、上海話、河南話、四川話等五花八門的方言,并弄懂“撒發”其實是“沙發”,“灰機”其實是“飛機”,實在是強人所難。
就算小魔法師能懂得用戶說的這句話,她也不一定能明白這句話的意思。這就是中文Siri的核心難題——語義識別。舉個很簡單的例子,小魔法師真的能弄明白“我想問您個問題,您方便嗎”和“對不起,我去方便一下”各自的含義嗎?
“語音和語義兩部分技術,在Siri中所占的比例,分別是20%和80%。也就是說,要正確理解用戶的意思并作出反應,語義識別實際上更為關鍵。”國內從事了十年智能網絡機器人研究的小i機器人董事長袁輝的心得是,中文Siri要想變成一個真正的神奇魔法師,必須把這個80%給拿下。
要解決這些,李開復的建議是,讓語音助手多練習,就像教小孩子學說話一樣,教的多了,她自然就能記住,湖北話里的“么司”就是“什么”的意思,東北話里的“旮旯”原來就是“角落”。有時,我們必須正視到,一項技術的成熟是需要時間沉淀的。要讓語音助手——這個住在智能手機里的蹩腳小魔法師長大,我們要付出的,除了金錢和科研,還有耐心和時間。