近年來,云計算、大數據、移動互聯、物聯網、深度學習等技術發展,智能語音在智能家居、可穿戴式設備、汽車電子、教育、醫療、金融等場景化應用持續深化,推動市場規模快速增長。為此,賽迪顧問圍繞智能語音市場進行深入研究,針對重點行業的場景化應用、市場競爭格局及主要廠商的戰略布局進行深刻剖析,并結合市場發展態勢和資本關注熱點領域進行投資價值與投資機會挖掘,期望能通過此研究為促進我國人工智能應用發展提供有價值的參考。
賽迪顧問
智能語音概念界定及發展演進
智能語音概念界定
所謂智能語音,是一種以語音為載體,利用智能語音交互技術,讓機器具有像人一樣“能聽會說、自然交互、有問必答”的能力。智能語音市場則包含智能語音技術及產品的研發、生產、銷售及應用服務等所有活動。
智能語音發展演進
技術演進:從1950年“人工智能之父”馬文·明斯基開發出世界上第一臺神經網絡計算機起,智能語音技術發展主要經歷了四個發展階段:
萌芽期(20世紀50年代到70年代),主要以孤立詞和小詞匯量句子識別,并通過關鍵詞匹配實現簡單命令操作為主要內容。代表系統是1952年貝爾研究所Davis等人研制的世界上第一個能識別10個英文數字發音的實驗系統,以及1960年英國的Denes等人研制的第一個計算機語音識別系統。
培育期(20世紀80年代),計算機技術、信息技術、模式識別技術極大促進智能語音技術發展,語音識別的研究開始向非特定人、連續詞、大詞匯量方向擴展,并且,智能語音技術研究由傳統的基于標準模板匹配的技術思路開始轉向基于統計模型(HMM) 的技術思路,使語音識別和自然語言理解技術有了較大的進展。1989年卡內基梅隆大學的李開復最終研制出第一個基于隱馬爾科夫模型的大詞匯量語音識別系統Sphinx。
成長期(20世紀90年代到21世紀初),20世紀90年代語音識別的系統框架并沒有重大突破,但智能語音技術由研究走向實用并進入產業化,以1997年IBM推出ViaVoice為重要標志。自此,智能語音產品開始進入呼叫中心、家電、汽車等領域。這一時期也涌現出了很多有代表性的系統,如Nuance公司的NuanceVoicePlatform語音平臺、Microsoft的Whisper,Sun的VoiceTone。智能語音關鍵突破起始于2006年,這一年辛頓(Hinton)提出深度置信網絡(DBN),促使了深度神經網絡(DNN)研究的復蘇。
高速發展期(2010年至今),從2011年到2015年,以深度神經網絡為基礎的語音識別建模技術發展迅速,人工神經元網絡(ANN)、卷積神經網絡(CNN)技術等在語音識別中成功應用。從此基于GMM-HMM的語音識別框架被打破,大量研究人員開始轉向基于DNN-HMM的語音識別系統的研究,隨后也在此基礎上派生出各類模型組合,使得語音識別準確率大幅提升。
應用場景:智能語音技術作為人工智能應用最成熟的技術之一,其應用領域非常廣泛,目前,智能語音應用主要包括2C端應用和2B端應用兩大類,其中,2C端應用有:智能家居、車載語音、虛擬助手、可穿戴式設備等領域應用;2B端應用包括呼叫中心/客服助理、教育、醫療、金融等領域應用。隨著移動互聯網、物聯網應用的快速發展,目前,智能語音在智能家居、智能車載、智能可穿戴領域發展特別迅猛。
智能家居。當前,智能語音在智能家居控制系統中的應用最為廣泛,智能語音交互技術重點圍繞電視、空調、窗簾等家居設備展開,不僅能實現電視語音播放節目、空調自動溫度調節、窗簾自動開關等智能控制,還可根據聲紋識別技術確定主人身份,調取主人喜好自動打開電視影片或者播放音樂,根據情感識別技術識別用戶情緒狀態,制定擬人化情感交流模式。
國外巨頭已先后以智能家庭產品與語音相結合的方式進入智能家居領域,如谷歌收購NEST布局智能家庭,不斷強化Google Now的語音入口;蘋果HomeKit智能家居平臺與Siri也不斷加強融合;微軟也發布語音助手Cortana(小娜),開始在智能家庭領域擴展交互入口。在國內,智能語音龍頭企業科大訊飛早在2014年就進軍智能家居領域,其研制的智能語音助手靈犀可操控智能家居設備,包括電視、咖啡機、電燈、空調、熱水器等。
智能助理。智能語音在智能助理的應用主要有2C端的虛擬個人助理、2B端的智能客服應用。其中,2B端的智能客服應用又主要分布在兩大渠道上,一種是應用在呼叫中心IVR系統的自動語音導航,另一種則是分布在網站、微信、手機APP等電子渠道的客服應用。智能客服已經廣泛地應用在金融、電信、交通、旅游等多個行業,主要形式有:智能問答、語音質檢、語料挖掘等。相比傳統客服,智能語音的引入能夠發揮三大優勢:降低企業運營成本。智能客服能有效減少客服坐席,降低人力成本;提高營銷能力。智能客服反應快速,能為重點和熱點問題提供快速統一答復,確保服務標準化及24小時全天候在線服務;輔助決策。利用自然語言處理技術分析文本,可挖掘客戶信息,輔助制定企業商業決策。隨著人口紅利的消失,企業對智能客服的需求將越來越強烈,智能語音在客服領域將會有較大的滲透空間。
智能語音市場發展
發展現狀
2017年中國智能語音應用市場規模超過60億元。云計算、大數據、移動互聯網、物聯網、深度學習等技術發展正加速語音場景化應用進程。智能家居、可穿戴式設備、汽車電子、教育、醫療、金融等智能語音場景化應用持續深化,推動智能語音市場快速增長。賽迪顧問數據顯示,2017年中國智能語音市場規模達到60.92億元,同比增長36.9%。
智能語音在消費電子行業應用投資占比超過25%。從行業結構分布來看,2017年智能語音在消費電子滲透率最高,市場銷售額占比高達25.7%。語音、語義等相關技術的可用性不斷提高,帶來虛擬助手市場的快速發展,從應用方向來看主要用于消費級產品如手機、智能車載、智能家居、可穿戴式設備等。占比次之的市場是教育領域的智能語音應用,智能語音越來越多的應用在學生的口語訓練與考試、互動教學等方面。
競爭格局
根據賽迪顧問競爭矩陣評估指標體系數據,當前,在智能語音市場品牌競爭中,技術型廠商占據市場主導地位,特別是隨著近年來深度神經網絡、機器學習方法在語音識別領域的快速應用,對智能化應用需求日益凸顯,技術型廠商憑借在語音識別、自然語言處理、自然語言理解、深度學習等領域深厚的技術優勢牢牢占據市場競爭的第一梯隊,這類廠商有科大訊飛、百度。
其中,科大訊飛通過實施“平臺+賽道”的業務發展戰略,打造持續閉環迭代的生態體系,不斷在教育、司法、車載等重點領域通過“核心技術+應用數據+領域”支持構建垂直行業剛需及代差優勢。百度則實施智能語音平臺免費開放戰略,迅速擴大百度人工智能生態圈。
在挑戰者陣營中,捷通華聲是最早成立智能語音的企業之一,憑借深厚的技術積淀,有全面的行業覆蓋,成為智能語音市場的中堅力量。近年來,開始深入人工智能領域,以“云+端”的方式,通過構建全方位的靈云平臺,將語音交互、圖像識別、語義理解、生物特征識別等技術完美整合,為客戶提供全方位一體化的人工智能技術與服務,成為市場重要挑戰者。另一個重要的挑戰者則是搜狗,由于NLP是搜索引擎的關鍵技術之一,因此搜狗自然而然成為重要玩家,他不僅打造了“知音OS”語音交互平臺,還聯合四維圖新、飛歌等推出全語音交互的車載導航產品切入垂直行業市場,以“任務+應用”的形式在特定場景上發力,布局更多的終端入口,未來發展前景較為樂觀。
在可期待陣營中,思必馳是少數擁有自主知識產權、中英文綜合語音技術的公司之一,自2016年以來,致力于構建智能的一站式對話定制平臺,營造人工智能良性生態圈,打造更加智能的人機交互體驗。云知聲憑借自身的技術研發優勢和物聯網戰略定位迅速占領智能語音市場,并搭建面向物聯網的“云—端—芯”一體化智能語音交互解決方案,在智能家居、醫療、車載、教育等行業落地成效明顯。這兩家企業發展勢頭強勁,成為市場中極具競爭力的挑戰者。
發展趨勢
未來發展趨勢
場景化應用成為決勝關鍵。語音作為人類獲取信息最自然、便捷的方式,正成為新一代信息流入口,伴隨著互聯網、智能家居市場,以及汽車市場的高速擴張,自然語言處理、語義分析、深度學習等技術不斷深化,智能語音將加速滲透垂直行業,可穿戴式設備、智能家居、企業級服務、汽車智能化等都將成為智能語音的重要應用場景。未來,智能語音更強調人機多輪交互,更加重視垂直場景下的語義理解,以及后端服務,深耕場景化應用,充分利用更好的交互體驗來創新產品與服務,鎖定用戶真正剛性需求,或將成為未來市場決勝關鍵所在。
更加注重語音生態建設。智能語音產品演進路線主要有兩個方向,一是通過開發平臺化占領一定場景下終端入口,如車載、智能家居;另一個則是為垂直服務領域提供智能語音服務,如教育、醫療等。無論是產品還是技術服務,想要獲得更大的發展都必須加強與外部企業合作,包括橫向與縱向行業企業合作,通過打造良性循環的生態體系,共同做大市場實現共同發展。當前,無論是技術型廠商如科大訊飛、云知聲,還是互聯網廠商如百度、阿里,無一例外都在加速打造基于語音為入口的生態圈,集聚海量用戶與應用數據資源,挖掘用戶需求,迭代產品與服務,在產業中構建不可或缺的地位,隨著產業的發展不斷壯大自身。
深度集成語音AI芯片將大行其道。隨著智能終端產品的廣泛普及,語音交互需求不斷提升,語音服務將逐漸向芯片集成方向過渡。與傳統智能語音解決方案相比,直接將語音交互集成在芯片上將大幅提升智能語音處理速度,提升語音交互的便利性,并很好地解決了智能終端設備存在著語音交互“時延”的問題。人工智能產業的快速發展,驅動以GPU、FPGA 、ASIC等為代表的AI芯片快速發展,語音芯片/語音AI芯片也成為最大機會市場,其功能性、智能性的優勢,以及定制化、高能效、低成本等應用特點使其更能實現產品市場快速部署,可以預見,未來三年,隨著智能音箱、車載語音應用的爆發,會有更多語音芯片的誕生,語音AI芯片也將迎來爆發期。
投資機會分析
自然語言處理是智能語音重要甚至是不可替代的組成部分,未來市場前景廣闊。人工智能發展的三個階段是機器學習、機器智能、機器意識;自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。目前,機器對句子的理解還只能做到語義角色標注層面,屬于淺層語義分析技術。未來要讓機器更好地理解人類語言并實現自然交互,還是需要依賴深度學習技術。由于智能語音對自然語言理解技術依賴性極高,自然語言處理必定會成為重要甚至是不可替代的組成部分。
智能語音芯片將率先在汽車、家居、機器人等場景下呈現規模化應用部署,有望迎來黃金發展期。未來,隨著人工智能快速發展,弱人工智能將逐步向強人工智能轉化,芯片作為人工智能重要的底層支撐,重要性不言而喻,以芯片嵌入的形式,能夠將智能語音實現快速而廣泛地應用,未來,隨著下游垂直應用領域語音智能化需求的拉動,AI智能語音芯片有望迎來黃金發展期,AI智能語音芯片將率先在汽車、家居、機器人等場景下呈現規模化應用部署,為深度學習量身定制的ASIC芯片有望在計算速度和功耗上超越GPU和FPGA,是值得投資的重點方向。
車載語音交互將在強人工智能時代使汽車真正無屏化、智能化。語音交互是輔助駕駛的最好交互方式,車載對于語音控制和對話是剛需。智能車載語音能釋放駕駛員的手和眼,使其更專注于前方的路況,引導更安全的駕駛習慣。語音交互指令集當中涉及地圖、導航命令的解析和學習,而智能語音車載系統可以語音操控接打電話、控制開關車窗、播放廣播音樂、實現路線導航等,去屏化應該是未來車載智能語音的發展方向與應用模式,未來,隨著無人駕駛技術的推廣,人為因素導致的安全問題將不復存在,車載語音將在強人工智能時代使汽車真正無屏化、智能化。
未來市場預測
隨著移動互聯網、物聯網、人工智能、大數據的發展,智能語音將加速垂直行業場景化應用,巨大的移動智能終端、車載語音、智能家居、智能客服等行業需求將拉動智能語音市場的快速增長。預計在未來三年里,智能語音市場將保持高于30%的增長速度,到2020年,智能語音市場規模將達到134.93億元。