徐坤
早前,業界普遍認為語音識別領域將會催生出巨頭公司。在英語領域,作為搜索巨頭的Google逐漸占據了行業的主導權。而在中文領域,語音識別行業正面臨新一輪的洗牌,科大訊飛、搜狗和百度等紛紛將目光瞄準了語音識別技術。重兵布局的各方誰會成為中國語音識別領域標準的制定者,并占據行業主導權呢?
技術為王。百度與微軟雙雄鼎立
去年10月中旬,微軟人工智能與研究部門的一個研究者和工程師團隊報告出他們的語音識別系統實現了和專業速錄員相同甚至更低的誤字率(word error rate,簡稱WER),降到了5.9%,而一個月前這一數字還是6.3%。微軟首席語音工程師黃學東表示,“我們已經達到了人類水平,這是一項歷史性的成就。”
有意思的是,百度首席科學家吳恩達(Andrew Ng)立即在Twitter上表示祝賀,并毫不掩飾地擺出了百度的戰績,“在2015年我們就超越了人類水平的漢語識別;很高興看到微軟在不到一年之后讓英語也達到了這一步。”時隔一年,百度和微軟兩大人工智能科技巨頭先后分別在漢語和英語語音識別研究方面取得了超越人類的成果,轟動業界。
近年來,隨著數據量的豐富和計算能力的提升,語音識別行業迅速崛起。據統計,僅美國至少就有26家公司在開發語音識別技術。
2015年之前,Nuance是當之無愧的全球語音領域老大。隨著Google、微軟和蘋果都選擇自己建立團隊開發語音業務,在此之后,Nuance的市場份額節節下跌,2014年還高達60%的市場份額,一年過去只剩下31.1%。相比之下,Google語音識別的市場份額增長明顯,逐漸占據了英語領域的主導權。
盡管Google、微軟和蘋果這些巨頭在語音識別技術上的技術積累和先發優勢讓后來者似乎難望其項背,但因為一些政策和市場方面的原因,這些巨頭的語音識別主要偏向于英語,這給中國互聯網企業在中文領域崛起提供了機會,百度就是其中的佼佼者。百度收集了大量中文(尤其是普通話)的音頻數據,這給其Deep Speech 2技術成果提供了基本的數據優勢。
事實上,在當前的發展脈絡下,語音識別的準確率和通用性的本質就在于三個方面:數據量的多少、算法的優劣和計算能力的水平。在這三個方面的比拼中,互聯網巨頭擁有很大的優勢,因為它們擁有最多的數據,最頂級的人才以及最強大的計算能力水平。所以當Google開放語音識別API后,在英語語音識別的市場中,Google比Nuance有更大的優勢。而在中文市場中,百度也扮演著和Google在英語市場相似的角色,甚至更為出色。
2015年12月,在Deep Speech 2首次發布時,吳恩達稱其識別精度已經超越了Google Speech API、wit.ai、微軟的Bing Speech以及蘋果的Dictation至少10個百分點。2016年2月,百度表示Deep Speech 2的短語識別誤字率已經降到了3.7%。
群雄逐鹿,中文領域的生死戰
毫無疑問,微軟和百度的語音識別技術水平都很驚人,但一項技術終究要變成產品和服務才能實現價值,所以在英語語音識別市場占據主導地位的是Google而非微軟。在中文語音識別市場,這方面做得最好的公司莫過于科大訊飛。
Google是最早在全球范圍內大規模使用深度神經網絡的公司,而科大訊飛是中國第一個在商用系統里使用深度神經網絡的公司。2010年,科大訊飛率先將語音輸入功能引入到了手機當中,截至2016年6月,《訊飛輸入法》已經擁有3.6億用戶,活躍用戶更是超過1億人,其中,語音用戶滲透率高達59%。在國內語音行業,科大訊飛已是不折不扣的龍頭企業。而不久之前,《訊飛輸入法》還因在錘子手機發布會上的驚艷表現備受關注。
在2016年10月18日晚上的錘子手機發布會上,羅永浩現場展示了科大訊飛97%正確率的語音輸入。一夜之間,科大訊飛幾乎成了所有科技媒體人所討論的話題和關注的焦點。其實,除了錘子手機的Smartisan OS之外,華為、小米和魅族等廠商的語音服務或者輸入法都在使用或曾經使用過科大訊飛的技術。據悉,在未來的三年中,科技巨頭英特爾也將與科大訊飛合作,一起研究機器學習和深度學習項目。
除了科大訊飛,國內在語音識別領域有所建樹的大公司還有不少。在2016年4月中旬舉行的“云棲大會南京峰會”上,阿里云總裁胡曉明率先進行演講,阿里云的“小Ai”機器人全程對胡曉明的語音進行了實時翻譯文字,這也是阿里巴巴第一次對外公布阿里云人工智能的能力。其實,這并非“小Ai”首次展示自己的速記能力。在阿里云2016年年會上,“小Ai”曾打敗了世界中文速記大賽亞軍。阿里云人工智能技術專家陳一寧透露,“在阿里云大數據平臺數加上,智能語音交互產品就是采用的“小Ai”的技術。目前,阿里云還在探討同各類直播平臺的合作,以后所有的直播都能具備實時加字幕功能。
除了阿里云,搜狗也是國內語音識別領域不容忽略的一方諸侯。在去年11月中旬舉行的第三屆世界互聯網大會上,搜狗CEO王小川首秀搜狗“黑科技”——機器同傳,展示了實時機器翻譯技術,將演講嘉賓的中文講話實時語音識別并同步翻譯為英文上屏顯示,引起轟動。這是全球首次基于神經網絡的實時機器翻譯技術在大型活動上的展示,效果可靠、準確率已接近人類同傳翻譯結果。而在近期人工評測中,搜狗機器翻譯在演講、旅游、閑聊和日常口語等領域,采用5分制人工評分能達到4.4分,走向實用化。目前,搜狗語音識別準確率已超過97%,識別速度達到了400字每分鐘。
除了科大訊飛、阿里云和搜狗等互聯網大佬,國內還有不少專注自然語言處理技術的創業公司,如云知聲和思必馳等。云知聲CEO黃偉表示,云知聲的識別準確率已經能達到97%,屬于業內一流水平。相比之下,思必馳做的是語音對話交互技術的整體解決方案,而不是單純的語音識別解決方案。因此在場景應用中,思必馳的系統和科大訊飛的系統多有比較,可相互媲美。
毫無疑問,面對擁有領先優勢的科大訊飛,以及阿里云和搜狗等實力雄厚的互聯網大佬,還有云知聲和思必馳這類不容小覷的創業公司,百度雖然擁有做人的技術和財力,但想在中文語音識別領域獨霸江湖仍有不小的難度。未來難測,深挖場景是必經路
未來5年,語音市場將顯著增長,到2020年,全球語音市場規模預計將達到191.7億美元。語音識別之所以潛力巨大,很大程度上源于它是最便捷的人機交互方式,也是人工智能的重要入口。近年來,國內外互聯網巨頭們都在發力人工智能,雖然各自的側重點不同,但都極為倚靠語音識別技術。畢竟,語音輸入本身只是一個途徑,它最終仍然要和實際操作相結合。
語音識別技術要在現實生活中落地,必須與場景結合,這需要吸納來自各種場景的數據去訓練語音技術,讓其更加智能化。這也是為什么“微軟小冰”每周都要上線新功能,努力刺激用戶貢獻更多聊天數據,而科大訊飛則不斷擴大包括長虹等智能電視在內的合作名單,吸納來自入口級硬件的數據。數據顯示,與訊飛人工智能連接的應用,日均訪問量為30億次。
與科大訊飛相比,百度在海量用戶數據和人工智能技術上的優勢,能讓他們迅速發展出優秀的語音智能。從這個角度來說,百度的發展道路比科大訊飛更寬。在百度生態內部,目前語音技術的落地滲透在《百度地圖》、《手機百度》和《百度輸入法》等產品中。而在外部,截至2016年年中,使用百度語音技術的APP數量超過8萬款,大型合作廠商包括中興、魅族和聯想等。百度語音如今能獲取的數據規模非常龐大,據吳恩達透露,在線識別請求量2016年每天達到1.4億次,在線語音合成請求量則達到2億次。
除依靠產品收集用戶數據之外,各大廠商還在積極與數據資源商合作,以更快捷地獲得龐大的數據支撐。隨著這些數據的輸入,每分每秒,人工智能的模型會迅速迭代和升級,就像Google的AlphaGo在每一場棋局的每一步對決中都在學習。
作為底層技術,語音識別未來的發揮空間極大,將廣泛出現在手機、智能家居、醫療、教育和司法等各種場景。當然,這還有很長的一段路要走,想要在這條路上脫穎而出的公司,—方面要面對同行的生死競爭,另—方面還需努力解決語音識別技術仍然存在的一些瓶頸。
小編觀點
目前,國內語音識別領域仍然是群雄混戰的局面,短期來說,科大訊飛仍有著明顯領先優勢。然而,隨著人工智能的進步,語音識別技術逐漸往大規模產業化發展時,公司的技術生態會非常重要,百度這類互聯網巨頭將迎來快速發展期。在核心技術和能力的比拼下,語音識別也將進入巨頭崛起,傳統語音公司稍顯沒落的時代。