牛祿青


從十九世紀末的打孔卡和紙帶輸入,到盛行了數十年的鍵盤鼠標,再到現在流行的觸摸輸入,人機交互正在變得更直觀、自然和人性化。近幾年,隨著語音識別技術的快速發展,智能語音正成為新的人機交互方式。
“以前我們說鼠標加水泥等于新經濟加傳統經濟,現在鼠標已經不是新經濟,手機的輸入方式已經是手勢、語音甚至圖像。”百度CEO李彥宏說,去年一年語音識別的準確率提升比此前15年提升的總和還要多。智能手機的普及也使得這方面的需求大大激發。
2011年10月4日,iPhone4S對外發布,讓用戶感到新奇的是,智能語音助手Siri被成功植入iPhone4S之中。Siri的橫空出世,在全球引發了語音熱潮,各類語音助手幾乎成為智能手機的必備應用。
相比早期的語音控制系統,Siri將iPhone變成了一個智能機器人,用戶對著手機說話,不僅可以讓手機讀短信和撥號,甚至能夠查詢天氣、餐廳位置、航班等以往不可想象的功能。在Siri身上,人們看到了語音成為手機實用交互方式的可能,而不像以前只能通過鍵盤或手寫輸入文字來傳遞信息。
除了手機內自帶的語音助手,不少第三方語音助手應用也如雨后春筍般涌現,譬如訊飛語點、百度語音助手、搜狗語音助手、蟲洞語音助手、智能360語音助手等。這些語音助手的功能也越來越強,不僅可以通過語音搜索內容、查詢信息,還可以聊天解悶、講故事、唱歌。
最近中關村在線手機事業部針對手機語音功能現狀進行了一項調查,結果顯示,67.68%的受訪者表示使用過語音助手軟件,這足以證明手機語音助手類應用的市場熱度。
不單單是手機,語音技術也逐步應用于PC、平板電腦、家電、車載、玩具、手表、眼鏡等智能終端,以及教育、電信、金融、保險、客服等領域。在2013年英特爾信息技術峰會(IDF)上,英特爾“感知計算”概念的提出,意在建立起一個新的人機交互框架,掀起“重塑PC”的革命,而語音識別就是感知計算的一部分。
實際上,“聽話”的瀏覽器離我們并不遙遠。Google Chrome瀏覽器已經開始嘗試支持聲控命令,或許要不了多久,我們就能通過聲控瀏覽器完成瀏覽網頁、發送郵件等。比如,你可以通過“暗一點”“亮一點”“字體大一號”等語音命令來控制瀏覽器。
結合地圖系統和智能語音識別的打車軟件一經面世便得到消費者的廣泛關注。曾在北上廣風靡的打車叫車軟件“嘀嘀打車”,前不久正式進入武漢運營。據了解,“嘀嘀打車”軟件在武漢市場試運行的14天時間里,召車成功率達88%,遠遠超過武漢官方叫車平臺“電召”的48.5%。
4月10日~12日,第一屆中國電子信息博覽會在深圳舉行。由工業和信息化部指導,19家單位聯合發起成立的中國語音產業聯盟組團參展,將神奇的智能語音體驗帶到了現場,全面展示了智能語音技術在移動互聯網、教育、智能電視、車載終端、玩具等方面的新產品、新應用。
清華大學吳及副教授表示,通過技術上的不斷優化和完善,快則一兩年,慢則三五年,語音識別技術會成為人機交互的重要組成部分。未來最可能還是混合的交互方式,語音成為主流交互方式之一,因為不同的場景、用戶需要和用戶習慣,都會造成選擇交互方式的多元化。
智能語音爆發
世界銀行去年發布報告稱,全球手機數量已經從2000年不到10億部,增長到現在的60億部,其中近50億部都在發展中國家。世界銀行估計,到2015年,世界上將有人口75億,而手機將達到近90億部。
市場調查機構策略分析公司Strategy Analytics公布的調查結果顯示,自智能手機1996年面世以來,截至2012年第三季度,全球智能手機用戶數量突破10億部。也就是說,現在全球七分之一的人擁有某種智能手機。Strategy Analytics預測,全球智能手機用戶數量最遲將于2015年突破20億大關,2013年,僅僅Android用戶就將超過10億人。這是因為智能手機市場還存在著巨大的增長潛力,尤其是在中國、印度和非洲國家市場。
艾媒咨詢(iiMedia Research)分析認為,隨著智能手機價格平民化以及運營商、渠道商、手機廠商對智能手機市場不遺余力地推廣,使得使用智能手機開始成為一種大眾潮流,大批非智能手機用戶轉化為智能手機用戶。預計到2013年年底,中國市場智能手機用戶規模將突破5億。
在智能手機市場,以智能語音技術軟件應用平均收入為5元/臺計算,2013年中國智能語音市場應用規模可達25億元,2015年全球智能語音市場應用規??蛇_100億元。
中國互聯網絡信息中心CNNIC調查顯示,截至 2012 年 12 月底,我國手機網民達到 4.2 億戶,占網民比例由上年的 69.3% 升至 74.5%。目前中國已經成為繼美國之后全球第二大移動應用市場,擁有 50 多家應用商店,最大的應用平臺中應用數量已經達到 70 多萬,下載量超過 90 億次。
借助開放平臺和應用商店模式的助推,移動互聯網分布在音樂、電商、游戲、搜索等領域的產業價值趨于明顯。2012年,iOS 平臺上共有超過73萬款應用上線,中國移動MM平臺上應用接近15萬。
另外,2012年微信用戶數突破2億,對傳統的話音、短信業務形成強烈沖擊。據估計,到2015年我國移動互聯網市場規模將達到4296億元,活躍用戶將超過8億。
近幾年,移動互聯網的大規模爆發,作為主要載體的智能手機在鍵盤輸入和手寫輸入方面非常不方便,這為語音識別技術的應用提供了巨大空間。
一款由云知聲研發的微信語音輸入插件,只需對著手機說話就可以快速發短信了,每分鐘可以輸入100字。自今年2月推出后,以精準的識別性能和全新的交互體驗,受到廣大用戶的追捧,發布一周即登頂App Store首位,使用該應用軟件的用戶接近100萬,開啟三十次以上的每天有幾萬人。
云知聲創始人兼CEO梁家恩表示,語言是人類交流中最重要、最自然的方式,所以語音技術的普及將引起人機交互方面最深刻的革命。這是一種更高效的人機交互方式,極大地提高了效率,同時降低了用戶信息獲取的難度和門檻。最直接的例子是,我想跟朋友說今晚約會地點。傳統的手機交互方式是,需要點擊手機菜單,選擇新建信息,輸入聯系人,手指輸入文字內容,發送……而通過語音助手,我們只需按下Home鍵或者線控上的按鍵,然后直接說“發短信給xx,今晚我們在xxx見面”即可。
在車載環境下,用戶的注意力主要集中在于駕駛,人與車的交互必須在不影響駕駛的前提條件下進行,而語音識別技術提供了安全便捷的交互方式,用戶只需動口,就可以滿足在行車過程中的相關需求。說出“想回家”,汽車會根據你家的位置設定好最佳路線,并開始導航。說出“加油站”,幾公里范圍內的加油站將逐一由車載語音系統播報出來。
2013年配備語音交互的汽車出貨量將達到300萬輛,技術授權30~50元/輛,技術授權年度市場容量將超過1億,預計到2016年配備語音交互的汽車出貨量將達到1500萬輛,存量接近3000萬輛;車載增值服務滲透率逐步提高到30%~35%,年度市場容量將達到10億。
無論是Google已推廣上市的“Google Glass”,還是百度正在研制的“Baidu Eye”,都將語音操控作為人機溝通的重要手段,拍照、打電話、錄像,你只需說出你的需求,它就在你眼前展現出想要的結果。智能眼鏡、智能手環、智能手表、智能項鏈,這些物聯網時代的智能化設備,最大限度地利用了語音控制技術,它將讓未來的生活變得如夢如幻。
很多小朋友想擁有一個會說話的玩具,就像喜劇電影《泰迪熊》里面的TED一樣。如今,市場上已經出現了智能語音玩具,按照預定程序執行人的語音指令,如背詩、唱歌、翻跟頭、跳舞等。
發端于上世紀50年代的語音技術,經歷了多次潮起潮落,這次是真正的變革,還是又一輪泡沫?吳及告訴記者,“這次的興起與過去不太一樣,超過以往任何一次的高度,商業化應用的規模,普通民眾的接受和認可程度,都遠遠超過了以往?!?/p>
對于語音產業爆發的原因,吳及有著自己的思考:一是移動互聯網的發展,使手機成為重要的客戶端,現在手機數量已經遠遠超過PC和筆記本,導致越來越多的交互行為通過手機來完成。蘋果ios、安卓等智能手機操作系統推出后,手機應用和手機交互逐漸增多,但在手機上靠傳統的鍵盤輸入很不方便,手寫又太慢,而使用語音輸入很方便,這樣用戶的需求就被激發了。
二是隨著移動互聯網和云計算的發展,語音識別不需要在本機做了,可以在云端做。這樣資源條件大為放松,對語音識別引擎不需要非常嚴格地限制了。此外,用戶的語音數據可以存放在云端,就能有大量的真實數據用于模型訓練,語音識別性能得到了迅速地提高,識別率可以達到85%~90%以上,這就達到了用戶使用的最低門檻。
三是語音識別技術一直在進步,最近十年也不斷有新的突破,例如聲學模型的鑒別力訓練和近年來非常熱的深度神經網絡。
爭搶語音電視
引入語音識別和語音合成技術的智能語音電視不僅能聽懂用戶說話并作出反應,而且還能說話。用戶憑借語音指令可以輕松完成音量調節、換臺操作、電視節目查詢、網絡瀏覽搜索、文字輸入等服務,還可以提供天氣、股票、航班、熱點新聞等信息,讓用戶“所說即所得”。
5月7日,樂視超級電視在五棵松萬事達中心全球首發,吸引了眾多與會者參與。與之前其他的電視類產品不同,樂視超級電視集硬件、軟件和內容完美結合,是一款真正意義上的互聯網電視,同時具有超高的性價比。
在電視、上網功能完美結合的同時,樂視還集成了目前最先進的智能語音交互技術,用戶通過帶有麥克風的遙控器,就可以輕松自然地實現操控、輸入、搜索等功能。而該項技術由云知聲提供。從現場的演示效果來看,語音識別準確度和識別效率方面都具有很高的水準。
在樂視網董事長兼CEO賈躍亭看來,“‘超級電視是這個星球上有史以來最強大的硬件怪獸。”賈躍亭的底氣來自于其合作伙伴,聯合全球最頂尖面板供應商夏普、全球最頂尖的智能芯片商美國高通公司、全球最頂尖硬件制造商富士康和播控平臺合作方CNTV;而更大的底氣則是“超級電視”的高性價比,60英寸X60是超級電視的旗艦型產品,售價僅6999元,要比市場上的價格便宜一半多,同時推出的普及型產品S40售價1999元。
樂視推出的超級電視是否能如其所言“顛覆”傳統電視呢?業內都在拭目以待。作為互聯網企業敢于殺入目前似乎固若金湯的電視行業,這也說明智能電視已成為互聯網企業覬覦的獵物。不只是樂視,阿里巴巴、PPTV、小米等也推出了機頂盒產品,而在此布局更早的谷歌、蘋果早已“襲擊”了電視。
為了適應智能交互方式的發展潮流,早在去年,國內六大電視廠商長虹、海信、康佳、海爾、TCL、創維等企業紛紛推出可以語音控制的智能電視。為了在智能電視市場先人一步,2012年2月16日,就在大家都還沉寂在新年余味的時候,長虹聯合語音技術公司科大訊飛率先發布30多款Ciri語音智能電視新品,最高售價近7000元。隨后,其他彩電企業也迅速跟進,推出具有語音識別功能的智能電視或云電視。
需要注意的是,國內彩電企業在半導體、智能語音等方面都缺乏技術儲備,只能拉入第三方語音企業作為外援提供技術支持。業內人士認為,進行語音技術和人員儲備是彩電企業的當務之急。
而科大訊飛的盈利模式也有許多尷尬。眾彩電廠商和科大訊飛均是“一錘子買賣”,即一次性購買語音軟件或芯片,前者推出的所有應用皆為免費,只是智能產品本身的售價有一定幅度提高。
據預測,2013年智能電視出貨量將達到1500萬臺,2016年智能電視出貨總量將超過4000萬臺,智能電視存量將超過1億,年度市場規模將超過13億。未來,在每個家庭網絡上的電器設備,都可以被人們的語音控制。
語音數據金礦
智能語音技術應用非常廣泛,不單單是前面提到的手機、電視、玩具、汽車等領域,也包括即將興起的智能客服、智能訂單、智能營銷等智能語音服務。
隨著互聯網的發展,許多企業客服放到互聯網上了,比如QQ、微信、旺旺,現在都是鍵盤交互,以后可以通過語音交互,減少人工客服成本。這些與語音工具進行實時對話的應用,屬于在線應用(B2C)。
另一個非常重要的應用領域是離線應用(B2B)。離線應用是通過與大數據技術的結合,對海量語音數據進行處理、挖掘和分析,開發和利用其中的價值。
語音數據也是大數據,比如呼叫中心,每天的電話數據非常驚人,隨著中國人口紅利的消失,呼叫中心的智能化日益迫切。據 Ascent Group 2010年IVR研究報告,2016年電信、金融、電力等重點行業呼叫中心市場規模預計達到30萬線以上。此外,中國移動的一個省級呼叫中心,一天的數據就有上萬小時;還有電視、廣播、互聯網等媒體上大量的語音數據。
“這些數據如果不能被有效處理,就無法被應用,只能被閑置,實際上可以利用語音識別技術將這些數據轉化成文字等符號性表示,然后再被挖掘、檢索和利用?!眳羌罢f。
他進一步指出,離線應用比在線應用確定性更強,由于面向海量數據,只能選擇語音識別技術,使用人工轉寫,時間和人力成本太高了。
據了解,清華大學電子工程系多媒體信號與智能信息處理實驗室已經在與科大訊飛合作,研究、開發、應用離線技術,語音識別準確率達到了80%以上。今年將在中國移動的一些分公司進行推廣。
離線應用有兩方面價值,一是監控客服質量,提高企業服務水平。二是語音分析,通過語音識別和數據挖掘技術,可以更全面地了解實際情況,從而幫助決策層和管理層進行科學研判和趨勢預測。
此外,公共安全和政府等行業客戶對信息資源的深入開發利用也有著迫切的需要,并對基于文本及語音分析處理、數據挖掘等技術的海量信息智能分析與處理軟件平臺的開發有著明確需求。具體應用是,從大量錄音數據中自動快速找出指定關鍵字的語音,從而得到公安或其他政府部門需要的信息,用于做出及時正確判斷和決策。據不完全統計,此項應用在政府部門的市場總量將在6億元以上,但此項業務的門檻和公關成本很高。
誰主沉?。?/p>
幾年前,語音行業不景氣,從事語音技術研究的多以學術界為主,這使得國內的語音核心技術一直掌握在清華大學、中科院聲學所、中科院自動化所、中國科技大學等幾家單位,同時也導致語音行業的人才很稀缺。
從2008年開始,伴隨移動互聯網的大發展,語音識別產業才真正興起。谷歌于2008年在美國發布了英文語音搜索服務Voice Search,應用于Android、諾基亞S60、黑莓、iPhone等多個系列的手機。2009年,Google在全球范圍正式發布了谷歌中文語音搜索。
2009年蘋果收購Siri,并于2012年推出中文版Siri,大受用戶歡迎,掀起智能語音熱潮。
在中國,最早從事語音識別產業化應用的企業是科大訊飛(1999年成立)、捷通華聲(2000年成立),這兩家企業剛開始都專注于語音合成技術的研發(把文字轉化成聲音,比如機場、火車站聽到的播報)。2008年科大訊飛成為上市公司后,開始研發語音識別技術。2010年發布了語音云平臺,宣告移動互聯網語音聽寫時代到來。
作為語音行業的龍頭企業,短短幾年時間,科大訊飛的市值從2008年剛上市的34億,已經增長到超過200億,讓人瞠目結舌。目前,科大訊飛是中國最大的智能語音技術提供商,也是我國惟一以語音技術為產業化方向的“國家863計劃成果產業化基地”。
依托于中科院聲學所的捷通華聲,成立時間基本和科大訊飛相當,在之前相當長一段時間內,也和科大訊飛旗鼓相當,但最終的結果是科大訊飛發展起來并成功上市,而它則相對平淡。
近年來,科大訊飛攻城略地,繼牽手中移動、中聯通后,5月27日發布公告稱,已與中國電信簽訂三年期的戰略協議,共同推進智能語音產業??拼笥嶏w官網顯示,其智能語音技術占有中文語音技術市場70%以上份額。
有觀點認為,盡管牽手三大運營商,但科大訊飛仍前景難料。在與中移動合作后,雙方至今未推出“殺手級”業務。雙方合作的“靈犀”語音助手將被融合到飛信中,但在微信的沖擊下,飛信的前景渺茫。電信分析師付亮稱,牽手科大訊飛,不會解決微信對運營商的沖擊,因為科大訊飛的模式跟微信相似。
Google語音搜索和蘋果Siri的成功,也讓國內語音市場迅速升溫,國內互聯網企業紛紛涉足。例如百度、騰訊、搜狗、阿里,還涌現了許多創業公司:云知聲、靈聲科技、智能360、蟲洞、蘇州思必馳、普強信息等。
國內語音產業分為兩類,一類是獨立的語音公司,以科大訊飛、云知聲、靈聲科技為代表;一類是互聯網巨頭公司,以百度、騰訊、搜狗為代表。
“智能語音已經進入到產業化層面,最近5年的產業發展速度超過了過去50年,并且跟以往主要靠技術推動有很大差異?!眳羌罢f。
眾所周知,智能語音行業的技術門檻非常高,特別是語音識別技術,被成為“皇冠”。衡量一家語音公司的技術水平如何,首先要看它是否能提供高性能的語音識別產品,其次要看是否發布了語音云平臺。
國內互聯網公司里,百度做得最早也最好,2010年就成立了語音部門,并招兵買馬引進國內外人才,專注于互聯網模式下的語音識別技術,并號稱是國內首個把深度神經網絡技術(DNN)運用到語音識別產品的公司。李彥宏今年三月接受采訪時說,現在語音識別的準確率能做到92%,兩三年內可以做到98%。
騰訊和阿里的語音技術雖然還欠火候,但這兩個公司有微信、QQ和淘寶旺旺,擁有相當大的用戶群,這些用戶群對語音技術需求旺盛,市場潛力很大。
獨立的語音公司中,科大訊飛目前是“龍頭老大”,但也面臨幾家新銳公司的圍追堵截。特別是云知聲,沖擊力和競爭力極強,剛成立一年,語音技術已經可以和訊飛相媲美,語音識別準確率達到94%以上,僅用九個月就對外發布了語音云,并且向所有開發者提供完全開放、永久免費的語音識別服務,讓業界直呼“黑馬”來了,但發展平臺與訊飛差距較大,商用上也不及訊飛多年的積累。
吳及表示,從國際上看,智能語音產業表現為一專多大,即一個專業公司Nuance和幾個大的IT公司,Google、微軟、IBM、蘋果等。目前,國內的產業格局也基本相似,一個專業公司科大訊飛,其他幾個互聯網公司,如百度、騰訊、搜狗等。
占領制高點
隨著國內手機和平板銷量的爆炸式增長,國外企業開始覬覦這片市場,紛紛進駐國內。海通證券研報指出,盡管目前智能語音產業規模較小,但在未來5年內行業年復合增長率有望超過25%。
背后支撐蘋果Siri語音識別技術、占據全球2/3市場份額的國際語音服務巨頭Nuance,正在拓展中國語音市場。據媒體報道,日前,Nuance與開心網正在就未來的“戰略級產品”進行深入探討。作為全球語音識別技術的領軍企業,Nuance觸角由醫療、電信廣泛延伸至汽車、手機以及互聯網領域。此前,該公司在中國的合作對象為比亞迪和中興通訊。
另一家語音識別技術公司Audience也看到了中國語音市場的機會,與國內十幾家品牌手機廠商展開語音方面的合作,并且和中國移動公司建立相關的語音研究實驗室。此外,谷歌、蘋果、微軟、IBM等巨頭也開始積極布局,先后推出了各自的智能語音服務。
為了迎戰國外巨頭,推動民族智能語音產業發展,2012年8月1日,由科大訊飛、聯想、華為、中國移動、中國聯通、中國電信、清華大學等19家單位聯合發起的中國語音產業聯盟正式成立。
工信部副部長楊學山在會議上說,“語音產業再過若干年,一定是千億元、萬億元的產業鏈。我們必須加快發展,否則很可能在五年以后,我們再一次被動追隨。”
2000年之前,智能語音市場被國外廠商壟斷。之后,國內廠商迎頭趕上,經過10多年的發展,在技術上已經可以和國外廠商分庭抗禮。但國外廠商在產業鏈整合、市場推廣等方面,均優于國內企業,在競爭中占有一定優勢。
科大訊飛董事長劉慶峰表示,“蘋果擁有結合緊密的軟硬件和成熟的產業鏈,谷歌擁有開放的安卓系統,微軟擁有幾乎是壟斷的操作系統。這些優勢國內廠商都不具備,因此在與這些巨頭競爭時,就需要國內企業聯合起來,整合產業鏈上下游資源?!?/p>
微軟把人機界面從跳動指令轉變成圖形界面,維持了20年的IT霸主地位。蘋果和Google把鍵盤變成了觸摸界面,稱雄當今IT世界。如果有聲控技術的話,我們還會用觸控界面嗎?
楊學山指出,再過五年,聲控將可能是最主要的人機交互方式。未來產業的發展,從終端到生態環境、商業模式,都將發生重大的變化。從技術、產業和國家競爭力等各個方面來講,語音產業的發展都是當務之急,只有努力發展,我們在下一代信息技術產業應用發展中才能擁有主導權。語音產業發展基于寬帶網絡,要和終端、應用和用戶相結合。
“只有加快智能語音產業發展,才能避免受制于人。”吳及同樣認為,國家要支持企業建立語音生態系統,但要把握好力度和分寸。如果國內企業不能建立起自己有生命力的語音生態系統,國外企業遲早會喧賓奪主搶占地盤。諾基亞的衰落就是典型案例。
吳及進一步指出,如果有越來越多的企業去做語音應用和進行二次開發,用戶就會享有更多更好的語音產品和體驗,這樣平臺企業也會做大做強,整個語音生態系統就形成了,國內語音產業抵御風險的能力就提高了。
在5月30日召開的第十屆國際軟件博覽會上,工信部軟件服務業司司長陳偉表示,將把智能語音技術和產業推進作為今年乃至未來三到五年的一個重點。據美國權威咨詢機構Gartner發布的2012新興技術成熟周期報告顯示,語音識別技術可能在2~5年內成熟。