
美劇迷一定不會(huì)忘記《生活大爆炸》里來自印度的Raj購入iPhone 4S后,與Siri“談情說愛”的情節(jié)。自從蘋果在iPhone 4S上推出Siri以來,越來越多的人同智能手機(jī)對話,命令它們發(fā)送電子郵件、短信,查詢路線以及在網(wǎng)上搜索信息。正是語音識(shí)別技術(shù)讓這一切成為可能。
語音識(shí)別技術(shù)是讓機(jī)器通過識(shí)別和理解把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令,也就是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,比如按鍵、二進(jìn)制編碼或者字符序列等。
比爾·蓋茨早在2007年時(shí)就公開表示,用不了多久,電腦鍵盤等外部輸入設(shè)置,將完全讓位給語音識(shí)別軟件。
雖然蓋茨的預(yù)言尚未成真,但無論是國際大牌企業(yè)微軟、蘋果、谷歌,還是本土專注語音識(shí)別技術(shù)的科大訊飛、車音網(wǎng),都積極布局市場,并不斷有新勢力加入。那么,在這場充滿未來感的大戰(zhàn)中,語音識(shí)別技術(shù)面臨著怎樣的瓶頸?這類由語音驅(qū)動(dòng)的業(yè)務(wù)又瞄準(zhǔn)了什么商機(jī)呢?
巨頭環(huán)伺
眾所周知,Siri使用的語音識(shí)別技術(shù)來自于美國的語音技術(shù)公司Nuance。據(jù)資料顯示,這家從上世紀(jì)90年代就從事語音識(shí)別技術(shù)研發(fā)的公司已經(jīng)擁有了近4000項(xiàng)專利及知識(shí)產(chǎn)權(quán),能夠識(shí)別約60種語言及方言,奧迪、寶馬、福特、通用等諸多汽車廠商都采用了Nuance的語音識(shí)別、合成、自然語言理解解決方案。
移動(dòng)互聯(lián)網(wǎng)時(shí)代,語音識(shí)別在人機(jī)交互方面有著獨(dú)特應(yīng)用價(jià)值,越來越多的IT巨頭已經(jīng)把觸角伸向了語音識(shí)別領(lǐng)域。谷歌先后推出Voice Search和語音助手Google Now;微軟推出了Microsoft speech SDK的開發(fā)包,讓新開發(fā)的產(chǎn)品能嵌入語音識(shí)別和合成功能;英特爾的“感知計(jì)算”藍(lán)圖中將語音計(jì)算放在了顯要的位置;移動(dòng)智能設(shè)備領(lǐng)域炙手可熱的三星也早在Galaxy系列設(shè)備中推出了個(gè)人語音控制系統(tǒng)S-Voice。在國內(nèi)的語音市場,既有百度、搜狗這樣的重量級玩家,也有傳統(tǒng)巨頭科大訊飛,同時(shí)還涌現(xiàn)出了一批諸如云知聲、蟲洞、智能360這樣的后來者。
其實(shí)40多年前專家們就曾宣稱,語音識(shí)別將在5~10年內(nèi)發(fā)展為一項(xiàng)成熟的技術(shù)??啥嗄赀^后,為什么他們依然重復(fù)著一模一樣的說辭?其實(shí),提供一個(gè)語音交互界面遠(yuǎn)比理解一打單詞來得復(fù)雜。
語音識(shí)別軟件就如同一個(gè)人的耳朵和嘴巴,但缺少了大腦理解,這條溝通渠道仍然會(huì)受阻。除了語音技術(shù)本身外,人機(jī)語音交流中還有其他因素在作怪:輸出方式、互動(dòng)形式還有語境。服務(wù)器收到文字串以后,要如何分辨用戶真正的意圖?它是要查天氣、看電視,還是購物?這需要語義理解,但不同的領(lǐng)域,語義理解差距太大,而且涉及的詞匯和數(shù)據(jù)庫也不同;接下來是知識(shí)圖譜,如何將所有的知識(shí)通過類似于數(shù)據(jù)庫和圖的方式聯(lián)系?雖然目前匹配的算法已經(jīng)相對成熟,但其準(zhǔn)確性仍然依賴數(shù)據(jù)源的豐富程度,同時(shí)要在不斷產(chǎn)生的“交互數(shù)據(jù)”中動(dòng)態(tài)調(diào)整匹配結(jié)果;至于排除環(huán)境噪音、音色等因素,還要依賴半導(dǎo)體傳感技術(shù)的進(jìn)步。
如同“數(shù)學(xué)是科學(xué)的皇冠”一樣,語音行業(yè)技術(shù)也有一個(gè)“皇冠”,那就是“語音識(shí)別”。為什么語音識(shí)別是“皇冠”?兩點(diǎn)理由:一是技術(shù)上最難,二是實(shí)用前景最大。所以要考察一家語音公司的技術(shù)水平如何,就看它是否能提供高性能的語音識(shí)別產(chǎn)品。
除了Siri, Nuance的另一款智能機(jī)應(yīng)用Dragon提供的語言支持中也包括中國普通話。雖然中文版Dragon和其它多數(shù)語音識(shí)別軟件一樣不能達(dá)到百分之百準(zhǔn)確,但從基本層面來說,還是非常不錯(cuò)的。首先,對于語音識(shí)別來說,中文極具挑戰(zhàn)性,因?yàn)槠胀ㄔ捰?00個(gè)單音節(jié)聲音,根據(jù)聲調(diào)予以區(qū)別。盡管普通話是被官方極力推廣的,但是中國還擁有很多種方言和數(shù)不盡的地方口音, Dragon研發(fā)副總裁Jim·Wu就曾表示:“在中國,每個(gè)人都有不同的口音,其中的一項(xiàng)挑戰(zhàn)就是確保系統(tǒng)能夠用于口音較輕的普通話用戶。”
在中文語音識(shí)別市場,科大訊飛一家就占據(jù)了中文語音市場約80%的市場份額??拼笥嶏w一直說自己的行業(yè)門檻高,主要就是指語音識(shí)別技術(shù)的門檻高。
意在數(shù)據(jù)
今天,幾乎所有手機(jī)廠商和消費(fèi)電子公司都試圖將語音識(shí)別技術(shù)嵌入在其移動(dòng)產(chǎn)品、應(yīng)用和服務(wù)中。然而,語音軟件不具備用戶粘性,無法直接提供服務(wù)和內(nèi)容。“試想,用戶將語音轉(zhuǎn)化成文本之后,下一步要做什么,和訊飛語音識(shí)別應(yīng)用有關(guān)系嗎?目前它只能作為一個(gè)插件、工具服務(wù)于后端的內(nèi)容,例如社交、購物、搜索引擎、智能問答等?!豹?dú)立財(cái)經(jīng)分析師范小明以科大訊飛舉例說道。
2001年就推出了中文語音合成技術(shù)的北京捷通華聲語音技術(shù)有限公司董事長張連毅表示:“從公司2000年成立以來,累計(jì)在語音技術(shù)上的投入至少超過兩億元。前七八年股東沒從有限的利潤中拿過一分錢,全部投入再開發(fā)。但由于市場有限,企業(yè)效益并不能立竿見影。”然而,張連毅口中“沒錢肯定不行,但有錢也不一定就行”的語音識(shí)別技術(shù)為何還能吸引眾多廠商?
他們的目的不單單是為了讓手機(jī)用戶“解放雙手”,抑或是讓已成頹勢的PC借此煥發(fā)青春,他們其實(shí)是瞄準(zhǔn)了搜索的未來——語音搜索和通過其得到的海量數(shù)據(jù)。
當(dāng)你向個(gè)人語音助理如Siri發(fā)號施令時(shí),蘋果的服務(wù)器就能最先得到這個(gè)數(shù)據(jù),也就是用戶的語音樣本。而正是通過采集這些語音樣本,各公司才能進(jìn)一步優(yōu)化他們的語音識(shí)別技術(shù)。不僅如此,你通過Siri搜索,蘋果會(huì)創(chuàng)建一個(gè)關(guān)于搜索條目的新型數(shù)據(jù)庫,這與Google利用用戶在搜索欄的搜索條目建立數(shù)據(jù)庫其實(shí)是一個(gè)道理。而實(shí)際上,蘋果的系統(tǒng)比這還要強(qiáng)大,它可以智能識(shí)別用戶是否在搜索一些硬數(shù)據(jù),即一些易于收集的可量化的事實(shí),這也是最需要收集的理想數(shù)據(jù),包括產(chǎn)出、質(zhì)量、成本和時(shí)間四大類。這類請求蘋果會(huì)傳送給Siri背后的智能搜索引擎Wolfram Alpha,一個(gè)能根據(jù)問題直接給出答案的網(wǎng)站。
雖然技術(shù)的進(jìn)步總是讓人驚嘆,但語音識(shí)別是否真的能夠取代觸控技術(shù)?目前業(yè)界對此的看法也還很不一致。一方面是其技術(shù)難度較大;另一方面,雖然在游戲等領(lǐng)域的應(yīng)用可能會(huì)讓人比較期待,但是在一些涉密問題上是否也能應(yīng)用語音呢?反正我不會(huì)對著電腦說出賬號和密碼登錄網(wǎng)銀。