牛祿青


蘋果手機語音助手Siri的亮相,在全球掀起智能語音產業的發展熱潮,這是人機交互革命,抑或又一輪投資泡沫?為了深入了解智能語音技術和產業的發展背景、市場潛力、未來趨勢以及中國的機遇與挑戰等相關問題,本刊記者專訪了清華大學電子工程系副教授、多媒體信號與智能信息處理實驗室主任吳及。
前所未有的高度
《新經濟導刊》:語音技術自上世紀50年代就出現了,為何最近兩年才開始火爆,是與蘋果的語音助手Siri推出有關嗎?
吳及:清華大學電子工程系多媒體信號與智能信息處理實驗室的前身,是由王作英教授1987年創建的語音識別技術實驗室。這個實驗室是國內語音識別領域最有影響的研究團隊之一,到現在快三十年了。我的博士生導師王作英教授是我國語音識別技術領域的開拓者之一,當時在第一批國家863計劃中就對“語音翻譯”進行了立項,王老師是這個項目的負責人。從那時候起,我們一直在研究語音識別技術,親眼見證了語音技術的起起伏伏,猶如過山車一樣。
如果把應用前景展示給企業和用戶,他們會很興奮,希望馬上開發和應用語音識別技術,產業界也會以很大的熱情投入進來,隨后發現這種技術比想象的難很多,短期內應用的可能性不大,于是就冷卻了。
這樣的起伏歷史上發生過好幾次了,上世紀70年代到80年代是一個高峰期。這時語音識別技術有很大提高,許多企業涌入,例如IBM、蘋果等,后來大部分企業都放棄了,包括蘋果,只有科研院所和少數企業還在繼續研究。上世紀90年代后期到2000年前后,又是一個高峰期,最典型的是IBM開發出聽寫機引擎Viavoice,漢王是這款產品的國內代理,并結合手寫識別技術推出了漢王聽寫大師,雖然紅火了一陣,但大家在電腦上還是習慣于用鍵盤而不是語音輸入,接著又歸于沉寂。
這次的興起與過去不太一樣,超過以往任何一次的高度,商業化應用的規模、普通民眾的接受和認可程度,都遠遠超過了以往。不可否認,蘋果的Siri對語音識別技術的推廣起到了推波助瀾作用,刮起了智能語音風。但我認為,這輪熱潮是從Google開始的。2008年,Google在美國推出英文語音搜索服務Voice Search,剛開始用戶通過免費411電話,就可以獲取搜索結果。2009年,Google在全球范圍正式發布了谷歌中文語音搜索。
2010年,中國的科大訊飛發布了語音云平臺。科大訊飛之所以推出語音云,正是因為看到了互聯網特別是移動互聯網的發展,對智能語音產業的帶動已經表現出來了。2011年,蘋果在iPhone4S的發布會上推出了Siri語音助手。2012年,科大訊飛又發布了第二代語音云,名為“訊飛語點”的中文語音助手可以用中文進行應答。很快,蘋果也推出中文版Siri。
從2012年開始,語音市場迅速升溫,國內的互聯網企業開始涉足,例如百度、騰訊、搜狗,還涌現了許多創業公司,智能360、云知聲等。
我認為,智能語音已經進入到產業化層面,最近5年的產業發展速度超過了過去50年,并且跟以往主要靠技術推動有很大差異。
最近幾年,智能語音產業之所以有突破性發展,有幾個因素起到了關鍵作用:一是移動互聯網的發展,使手機成為重要的客戶端。現在手機數量已經遠遠超過PC和筆記本,導致越來越多的交互行為通過手機來完成。蘋果ios、安卓等智能手機操作系統推出后,手機應用和手機交互逐漸增多,但在手機上靠傳統的鍵盤輸入很不方便,手寫又太慢,而使用語音輸入很方便,這樣用戶的需求就被激發了。
二是云計算的發展。以前語音識別講兩頭,一方面看電信領域能否應用,另一方面盡量挖掘手機的資源潛力,但手機的計算資源和存儲資源很有限。現在隨著移動互聯網和云計算的發展,語音識別不需要在本機做了,可以在云端做。這樣資源條件大為放松,對語音識別引擎不需要非常嚴格的限制了。此外,用戶的語音數據可以存放在云端,就能有大量的真實數據用于模型訓練,語音識別性能得到了迅速地提高,識別率可以達到85%~90%以上,這就達到了用戶使用的最低門檻。有了服務端以后,數據形成了循環,計算資源的要求放松,這是智能語音產業發展的重要條件。
三是語音識別技術一直在進步,最近十年也不斷有新的突破,例如聲學模型的鑒別力訓練和近年來非常熱的深度神經網絡。
《新經濟導刊》:語音技術包括語音合成、語音識別、語義理解、知識圖譜等子技術,為何把語音識別稱作智能語音行業的“皇冠”?
吳及:這是把交互的環節拆解了,好比甲乙兩臺設備對話,甲說話就是語音合成,把文字轉化成聲音,乙聽到后轉化成內容就是語音識別,真正理解了聽到的內容就是語義理解,然后乙再進行應答,又是語音合成,這樣循環往復。
語音合成技術相對容易,成熟最早,比如打電話查詢考試分數;而語音識別技術難度大,雖然過去性能一直在提高,但距離推廣應用總有一段距離。現在國內外企業的語音識別準確率,在某些應用領域超過了90%,比如語音搜索、語音輸入、語音提醒等,但在有些領域還達不到。
知識圖譜是把人的知識結構化、關聯化。比如劉德華是歌手,有哪些特點、愛好等,把更多相關知識呈現給用戶。
《新經濟導刊》:最近聽說一個很流行的IT概念“深度神經網絡”(Deep Neural Network, DNN),這和語音識別有什么關系呢?
吳及:神經網絡也是一個有幾十年歷史的技術了,包括一個輸入層和一個輸出層,當中有很多隱層(不是外部直接可見)。以往方法只能訓練出比較少的層次,更深的層次,訓練算法做不好,數學證明,層次越多,描述能力越強。最近三至五年,深度神經網絡的訓練方法有了突破,深度神經網絡的理論和應用問題有了迅速的發展。于是大家紛紛研究深度神經網絡,最重要的應用成果之一就是語音識別,這既提高了語音識別的性能,也證明了深度神經網絡的價值。所以,這個技術現在很火,學者采用深度神經網絡來研究包括語音識別在內的許多問題。
2006年,加拿大多倫多大學教授Hinton提出了深度神經網絡的學習算法,使得多層神經網絡的有效訓練成為可能,這就是所謂的DNN。
微軟雷德蒙德研究院的研究員鄧力敏銳地捕捉到了神經網絡技術的這一突破性的進展,就把Hinton請到微軟,討論如何把深度神經網絡應用到語音識別技術上。2011年8月份,微軟亞洲研究院發表了一篇學術論文,闡述在這方面取得的成果,通過引入DNN使得在特定語料庫上的語音識別準確率得到了大幅提高,性能的相對改善約為30%。
從這以后,越來越多的企業和研究機構都對深度神經網絡進行研究、開發和應用。深度學習是一個更寬泛的概念,主要指如何把深度神經網絡學得更好、更快,并能在不同場合更好地應用。
市場應用前景巨大
《新經濟導刊》:語音識別技術在移動互聯網、智能電視、車載終端、教育、玩具等方面已經有所應用,您對該技術的發展趨勢怎么看?哪些領域會最先成為爆發點?
吳及:智能語音技術的發展趨勢包括兩個層面,一是在線應用(B2C),與語音工具實時對話,例如普通用戶拿手機語音命令控制、咨詢問題、搜索、獲取信息等;可以讓語音玩具背詩、唱歌、翻跟頭等;打客服電話獲得某項服務,比如自動語音查詢余額等。在線應用主要解決兩個問題:方便性和有效性。
二是離線應用(B2B),離線應用是通過與數據挖掘技術的結合,能夠從海量數據中發現知識、規律,為人們解決問題提供征兆、趨勢和思路。語音數據也是大數據,比如呼叫中心,每天的電話數據非常驚人,中國移動的一個省級呼叫中心,一天的數據就有上萬小時。還有電視、廣播、互聯網等媒體上的語音數據太多了。這些數據如果不能被有效處理,就無法被應用,只能被閑置,實際上可以利用語音識別技術將這些數據轉化成文字等符號性表示,然后再被挖掘、檢索和利用。
離線應用比在線應用確定性更強,語音交互的在線應用需要和其它的交互方式競爭,而離線應用由于面向海量數據,只能選擇語音識別技術,使用人工轉寫,時間和人力成本都太高了。在線應用更貼近老百姓,離線應用服務于企業。
在線應用領域,最先被接受和爆發的是最有價值的、應用條件最好的、企業愿意投入更大精力去優化的、用戶群更大的垂直領域,比如短信、搜索、查詢(天氣預報、航班、火車、音樂、電影)。離線應用由于沒有可替代性,也一定會發展起來。
我們實驗室已經在做離線應用了,與科大訊飛有合作,我們負責離線技術研發,科大訊飛負責應用系統開發和產業推廣。很多運營商已經使用我們的技術,語音識別準確率達到了80%以上。今年會在中國移動的一些分公司進行推廣。
離線應用有兩方面價值,一是監控客服質量,提高企業服務水平。實際還可以推廣到金融、保險等領域。二是語音分析,通過語音識別和數據挖掘技術,可以更全面地了解實際情況,比如哪些業務最受歡迎或最不受歡迎,哪些業務出現了問題等等。
信息技術是滲透性的,它可以改變所有產業的形態,語音技術也是如此。隨著工作和生活節奏的加快,人們需要隨時隨地獲取信息和知識,提高效率,語音交互提供一種最為方便快捷的手段。
目前語音市場規模還不大,但這個領域的想象空間非常大。如果所有手機、電視、汽車、教育、呼叫中心變成語音智能化,每一個細分領域都將是上千億。五年之內,智能語音技術產業將會有一個很大的發展。
躋身主流交互方式
《新經濟導刊》:現在的語音識別技術完全可以支持產業化應用嗎?
吳及:人機交互的可選方式很多,除了語音輸入,還可以選擇手寫輸入、鍵盤輸入等。現在市場上的語音產品只能支持普通話和帶口音的普通話,逐步支持個別方言,大部分的方言還不行。從性能上來講,語音識別技術的對手是人,老百姓容易對語音技術有過高的期望,要能像人一樣聽懂別人說的話,這是十分困難的。
目前,語音技術并沒有成熟到像賣手機一樣可以普及推廣,需要根據不同場景和應用對語音識別引擎、數據、技術進行針對性優化,才能讓用戶接受。這也是語音識別技術大范圍推廣的瓶頸。如果想讓語音識別技術非常成熟,需要一個長期的過程,語音識別和語義理解,實際上已經屬于人工智能的范疇了。
當然,針對不同領域,可以開發相應的語音識別引擎和私有云,這里面就蘊藏著巨大商機,但要選擇用戶規模大的領域。
《新經濟導刊》:我體驗了一下已推向市場的語音助手產品,有些情況下還是聽不懂我說的話?
吳及:語音識別只是解決了一個問題,把語音變成了文字,但通常還需要對識別內容進行理解,即語義理解,這就非常難了。所以語音工具有時候還不錯,有時候很傻,有時候極其愚蠢。人的智能不是目前的機器所能達到的,說話的場合、語氣、手勢、表情等都會影響內容的表達效果。如果僅靠聲音識別就丟失了很多信息,而且還會存在表達歧義、知識背景等問題,所以,通暢無阻的語音識別技術太難了。我雖然說它逐步成熟,但也是在有限場合和范圍得到應用,至少在短期內不要期望它能適用于任何場景。
《新經濟導刊》:對于智能語音技術的興起,現在業內有兩種聲音,有人認為這是一次人機交互革命,還有人認為又是一輪投資泡沫。您怎么看?
吳及:每一種新技術的興起,總會有不同聲音,有人可能很興奮,有人可能會質疑它。我們在語音領域時間較長,相對平靜一些,但我們覺得,這次要超過以往的高度,而且確實在一些領域實現了比較成功的商業化應用。是否能成為特別重要的入口,還存在不確定因素。在若干種交互方式同時發展、都能起作用的情況下,成為惟一的交互方式,不太容易,因為有些場合不適合語音交互,而且技術上也會有一定限制。未來最可能的還是混合的交互方式,成為主流交互方式之一,不同的場景,不同的用戶需要,不同的用戶習慣,都會造成選擇交互方式的多元化。
人類對未來的預測和展望實際上是被人類創造出來的,如果人們越來越覺得語音交互重要,那語音技術就會逐漸趨于成熟,并被廣泛應用。現在幾乎所有互聯網廠商都把語音作為非常重要的入口之一,因為它具有方便快捷的優勢,而且在車載、行走等移動環境下,優勢更明顯。通過技術上的不斷優化和完善,我相信語音交互會成為人機交互的重要組成部分,快則一兩年,慢則三五年。人和語音供應鏈是個相互適應的過程,技術不斷在發展,用戶也在逐步被熏陶和教育,到一個點就平衡了。
產業格局:一專多大?
《新經濟導刊》:如何判斷一家公司的語音識別技術水平?有人說,關鍵看是否推出了語音云平臺。請談一下您的看法?
吳及:實踐是檢驗真理的惟一標準,衡量一家公司的語音識別技術水平,首先要看它的語音識別準確率。要想達到85%以上的語音識別準確率,必須掌握主流的語音識別技術。
實際上,語音識別技術是一個復雜的系統,包括信號處理的前端、特征提取、特征的后處理、模型訓練、解碼等許多環節,后來又加入高鑒別性模型訓練和深度神經網絡。
語音識別技術包括兩個層面,一是研發語音識別系統的能力,語音信號輸入后處理成文字的速度和準確率;二是云架構,是具備提供大規模語音識別服務能力的基礎,要求識別服務是否能同時響應成千上萬人的需求。云平臺需要對大規模的服務器集群進行建設、維護和管理,這也是語音企業的核心競爭力之一。
《新經濟導刊》:清華大學是智能語音研究比較早的機構之一,請介紹一下國內智能語音的學術格局和產業格局?
吳及:國內從事智能語音研究的高校和科研機構比較多,其中研究時間較早、具有自己的語音識別系統、綜合實力較強的單位有清華大學、中國科學技術大學、中科院自動化所、中科院聲學所,此外北京大學、北京郵電大學、北京理工大學等也具備一定實力。
從國際上看,智能語音產業表現為一專多大,即一個專業公司Nuance和幾個大的IT公司,Google、微軟、IBM、蘋果等。目前,國內的產業格局也基本相似,一個專業公司科大訊飛,其他幾個互聯網公司,如百度、騰訊、搜狗等,阿里巴巴和360可能也會逐步加入進來。
除中國以外,國外的語音技術企業基本都被Nuance收購了,誰做得好,Nuance就把它收購。這與語音技術的特點有關系,語音技術投資大,應用面很寬,但單位價值不高,它不是一個暴利的行業,所以一定要形成規模優勢,而小公司的生存和發展就相對困難,國際上語音專業公司已經是Nuance一家獨大。
Google、微軟、IBM、蘋果雖然也做智能語音技術,但它們不指望語音業務本身帶來收入,而是與它的生態系統建設息息相關。比如成為入口,吸引更多用戶,主要靠其他業務獲得收益。
如果不是中國語言和文化的特殊性,有可能全世界都是一專多大的格局。Nuance進入中國,需要解決的問題很多,比如文化融合、語言、技術工程師的支持等。即使Nuance中文識別做得很好,一旦涉及到具體應用就很吃力。
科大訊飛與Nuance雖然都是專業的語音技術公司,但有所差別。由于國外的互聯網企業實力很強,Nuance的定位就是提供語音技術服務,它的主要收入渠道是醫療、律師、運營商,此外還為手機廠商如蘋果、車載等提供語音技術服務。
國內的互聯網企業進入語音技術領域要晚一些,但也在加大投入。科大訊飛的發展目標也不是單純的技術提供商,希望通過推出語音云打造自己的語音技術應用平臺,從而構建自己的生態系統。
百度專注于互聯網模式下的語音技術,是國內互聯網企業做得最早的,引進國內外人才,充分發揮自身優勢,時機抓得很好,進步非常明顯。
需要引起重視的是,智能語音行業人才缺乏,很多企業在專業人才招聘時都遇到了很大的困難。清華大學、中國科技大學、中科院自動化所、中科院聲學所的學生一畢業,馬上被搶走了。頂尖人才那就更稀缺了。
構建語音生態系統
《新經濟導刊》:智能語音行業具有很高的技術壁壘,面對國際巨頭的強勢,國內一些公司也在加大語音識別產品的研發和推廣,與國外企業相比,中國企業有哪些優勢和劣勢?如何縮小差距?
吳及:中國企業最大的優勢就是語言,中文讓中國的互聯網、文化產業等具有很大發展潛力。中國企業經常談國際化,如果是新加坡、以色列的企業就不會有國際化的問題,它一誕生就必須是國際化,因為靠本土市場不足以支撐其發展。中國的企業普遍存在國際化問題,因為國內外的市場差異比較大,同時中國的市場足夠大,不需要走出去同樣可以獲得生存和發展。語言和文化的壁壘有時候無法逾越,這也是國內的互聯網企業雖然技術和商業模式上并不比國外企業先進,但依然活得很好,能夠與國外企業抗衡的一個基本因素。
中國市場環境的成熟化方面,比美國還是有差距的。國內企業在構建自己的生態系統、文化創新、商業化運作、發展模式創新等需要加強。國內的科研院所和企業在語音識別技術上與國際先進水平差距不大,在互聯網環境下技術跟進很快,在漢語語音技術上還有自身的優勢,是一個很有發展前景的產業。工信部副部長楊學山曾表示,智能語音是中國為數不多的具有自主知識產權又能達到國際先進水平的產業。
國際上移動互聯網領域應用最成功的企業是Google和蘋果,蘋果用iPhone終端打造了一個生態系統,而Google用安卓操作系統打造了一個生態系統。這些頂級企業具有很強的創新能力,蘋果重新構建了手機,Google重新定義了開放的手機操作系統。國內企業目前還是有差距的,這與國內企業的競爭實力、創新能力和市場環境有關系。當然,也有不少企業開始了這方面的努力,例如百度、騰訊、科大訊飛等。
《新經濟導刊》:您認為中國推進智能語音產業化,需要解決哪些問題?
吳及:中國人口眾多,市場容量大,有很好的機會。只有加快智能語音產業發展,才能避免受制于人。國家要支持企業建立語音生態系統,但要把握好力度和分寸。美國政府對語音技術和語音產業的支持力度很大,從簡單的任務做起,航空、銀行數據的識別,華爾街日報數據的采集和識別,逐步走向難度更大,更接近真實場景的任務。如電話語音識別、語音翻譯等,剛開始是純技術研究,逐步轉向實際應用,比如不同語言的互譯,可以應用于情報收集和軍事安全需要。
所謂生態系統,是指所有事情非某個人或某個企業包辦,既有企業提供基礎平臺服務,又有大量二次開發產生自己的價值。如果蘋果和安卓上沒有那么多應用,蘋果和安卓平臺也沒有那么大價值。
同樣,如果有越來越多的企業去做語音應用和進行二次開發,用戶就會享有更多更好的語音產品和體驗。這樣平臺企業也會做大做強,整個語音生態系統就形成了,國內語音產業抵御風險的能力就提高了。除了移動互聯網的平臺,還應該推動教育、電視等智能化平臺的建設。
諾基亞手機的質量和用戶體驗一直得到用戶贊許,很早推出基于Symbian的智能手機,但由于沒有建立起良性的生態系統,沒有開發商做應用,也丟掉了用戶,因此在移動互聯網時代很快落伍了。如果國內企業不能建立起自己有生命力的語音生態系統,國外企業遲早會喧賓奪主搶占地盤。