海川

如今,玩微信已成為一種時尚便捷的生活方式,大街小巷,公交地鐵,滿眼盡是“微信控”, 甚至上班開會也不忘微信一下,誰不開通微信就會有OUT之嫌。可當你不方便發送語音給對方,而鍵盤輸入文字慢又麻煩時,怎么辦呢?
一款由北京云知聲信息技術有限公司(以下簡稱“云知聲”)研發的微信語音輸入插件,自今年2月推出后,以精準的識別性能和全新的交互體驗,受到廣大用戶的追捧,發布一周即登頂App Store免費工具排行榜首位,日激活量接近4萬,使用云知聲提供的微信語音插件的用戶接近100萬,開啟三十次以上的每天有幾萬人。用戶對著微信說話就能自動轉換為文字發給好友,每分鐘可以輸入100字,普通話不標準也不用擔心。
這款“讓溝通變得更加簡單”的語音輸入產品,在技術含量上一點都不簡單,它凝聚了云知聲創業團隊自主開發的三大核心技術:語音識別技術、云計算平臺技術和移動客戶端技術。
云知聲創始人兼CEO梁家恩表示,盡管語音識別看上去只是將語音轉換成文字這么簡單,但從前端的語音特征提取到后端的聲學和語言建模,以及快速識別解碼,其實需要龐大系統的支撐。專業領域將人們說話的不同發音在專業上稱之為聲學模型;不同的人說話的內容不一樣,詞序也不一樣,這部分稱為語言模型。語音識別就是要從發音信號中抽取穩定和可靠的聲學特征,然后與聲學模型和語言模型做快速有效的比對,找到最匹配的句子,來滿足需求。
作為一家新興技術公司,創新是云知聲的惟一出路。面對智能語音行業的高門檻,云知聲以迅雷不及掩耳之勢,迅速占領中文語音識別技術制高點。截至目前,中文語音識別準確率達到94%以上,語音識別速度比同行快2~3倍,躋身國際一流水平。
其瞄準市場需求,不斷推出的高質量語音產品和服務令業界震驚,譬如語音服務平臺(公有云)、微語音輸入插件、語音助手、語控精靈以及提供語音技術支持的搜狗語音助手、小i語音助手、樂視網的超級電視等。
一年跑出的“黑馬”
顧名思義,云知聲定位于智能語音和云計算。雖然只是剛成立一年的小公司,但云知聲的技術實力和發展速度不可小覷,在語音識別技術上并不遜色于業界大佬科大訊飛,成為備受關注的語音“黑馬”。
“現在就有大公司想收購我們,它的業務對語音識別需求很大。”梁家恩對記者說,“我們還是想有一個比較大的空間持續發展,做自己的平臺。”
云知聲之所以發展快,是因為他們的語音技術積累已經超過十年。作為云知聲的創始人,梁家恩于2001年中國科技大學畢業后,在國內語音識別技術的搖籃——中科院自動化所進行了五年碩博深造,2006年博士畢業之后,又作為語音識別核心技術組負責人留所工作了五年,2011年加入盛大創新院,2012年6月創立云知聲,期間一直從事智能語音技術的研發。
隨著蘋果語音助手Siri的亮相以及引發的智能語音熱潮,去年初,梁家恩覺得創業時機已經成熟,于是毅然放棄盛大創新院高級研究員的優越條件,與志同道合的幾名同學、朋友和師兄弟共同創立了云知聲。
業內人士告訴記者,這樣的一流語音團隊國內很難有了,以前市場不景氣,許多語音人才都轉行了,能夠持續深入研究、又有豐富產業經驗的頂級語音人才,目前國內很稀缺。
只有三十名員工的云知聲,碩士博士占了1/3,他們創業的決心和勇氣令人欽佩,核心成員都是把別人羨慕的工作辭掉以后來創業的,甚至多次被獵頭“挖墻角”而不動搖,最后獵頭都泄氣了。
盡管梁家恩十多年來一直潛心于語音技術的研發,但上學、工作與創業還是有天壤之別。“從科研院所的研究到企業參與應用開發,不會因為我們做得好與不好而受到很大影響,但自己創業就完全不同了。如果做得不好就會垮掉,我們是用職業生涯去拼這種創業成功的機會,回頭想一想,當時冒了很大的風險。”梁家恩斬釘截鐵地說。
經過半年的前期準備,梁家恩團隊的創業熱情和技術能力,打動了一家具有十多年風投管理經驗的基金公司,并獲得了一千萬以上的重量級天使投資。資本、技術與市場需求的結合,必將爆發驚人的能量。
云知聲團隊僅用九個月就對外發布了語音云,老牌公司科大訊飛則用了十年時間。2012年11月,與搜狗合作,只用兩周時間就助力搜狗語音助手首發,提供云端語音識別。今年3月27日,在“錘子ROM”發布會上,云知聲與科大訊飛一起,同時入圍了錘子科技的語音解決方案。5月7日,由云知聲獨家支持的樂視超級電視全球首發,成為展示會的一個亮點,這臺超級電視集成了云知聲的語音交互技術。外界評價稱,“從現場演示效果看,識別準確度和識別效率方面都具有很高的水準。”
打破語音商業化壁壘
剛滿周歲的云知聲成為“后起之秀”不是偶然,它昭示了一個顛撲不破的市場真理:用實力說話。這群“老兵”不僅有敢于挑戰行業巨頭的膽魄,更有積淀數年的語音識別技術,正所謂“有了金剛鉆,才攬瓷器活”。
無巧不成書。梁家恩與科大訊飛創始人劉慶峰師出同門,二者都畢業于中國科學技術大學。梁家恩記得很清楚,1999年科大訊飛成立的時候,他還在讀本科,梁家恩沒想到自己有一天會在語音市場與師兄競爭。
“過去在其他公司,從事的都是技術性的工作,現在我們需要整合成一個完整的語音識別系統,并推向市場,在用戶使用過程中不斷反饋、積累數據,進行完善和優化。” 梁家恩對創業的挑戰性毫不隱晦。
成立不到一年,云知聲不僅發布了公有云平臺,而且對語音系統進行了兩次重大升級和突破。剛開始是85%的語音識別準確率,去年年底上線了最先進的深度神經網絡系統(DNN),識別性能提升30%以上。
許多人不相信云知聲這個初創公司具有深度神經網絡技術的實力,以為只有百度、谷歌、微軟、IBM這些大公司才能做,按常規需要上百臺服務器集群。但云知聲在有限的資源下,用計算能力強大的顯卡(GPU)來計算,以較低的成本(控制在10萬以內),兩個多月時間就自主攻克了這項關鍵技術。
今年4月,云知聲語音進行了第二次升級,識別引擎進一步優化,追上了谷歌的語音處理速度,語音識別準確率超過94%,名列國內前三甲。搜狗是云知聲語音云的重要客戶,在云知聲還未出名的時候,搜狗相關負責人就找到梁家恩,當時搜狗的團隊在實際測試之后,發現云知聲的技術服務能力與科大訊飛還真差距不大,因此就與云知聲達成合作。
DoNews CEO王樂曾問:“你們公司的規模并不是很大,為什么你們敢做語音識別這么復雜的技術?”梁家恩表示,我們的專業技術積累很多,對國際上主流的算法和技術了然于胸,語音識別對云知聲團隊來說完全不存在任何技術壁壘,主要的壁壘是在商業化方面。
目前云知聲在移動互聯網的商業化方面已經邁出了堅實的步伐,在沒有任何推廣情況下,云知聲的開放語音云平臺上已經有超過400個注冊開發者賬號。
免費的語音“午餐”
一路快跑的云知聲在語音行業已小有名氣,除了贏得不少優質互聯網公司的青睞,國內多家電視機廠商也在跟他們洽談合作。正當云知聲蒸蒸日上時,他們卻做出了一個大膽的決定:自2013年5月15日起,云知聲將向所有移動互聯網開發者提供完全開放、永久免費的專業語音識別服務。
這個決定讓廣大開發者和用戶既驚喜又疑惑,如果說大公司有資源和能力提供免費語音服務,那么剛突破技術門檻、在市場立足未穩的云知聲,為何走這步險棋呢?
“我們的價值只有在智能語音產業蓬勃發展起來后才能體現,否則我們只能在少量的收費用戶里掙點小錢,這樣就會延緩整個語音產業的發展。”梁家恩對記者說,皮之不存,毛將焉附?僅靠我們一家小公司去推動語音產業的發展是不可能的,應該讓更多用戶參與進來,營造共贏的生態圈,這就是我們免費開放語音識別服務的初衷。
云知聲之所以敢這么做,還有一點就是,云知聲的語音服務速度非常快,同一臺服務器,云知聲支持的用戶數量比別人多,這樣就能大大降低處理成本,只相當于同行處理成本的30%。
互聯網是一個低門檻、大用戶量的行業,就像QQ、微博、游戲、殺毒軟件等網絡產品一樣,只有少量的用戶愿意付費或具有付費能力。梁家恩深知,既然選擇了走開放共贏的互聯網道路,就要按照互聯網的規則去運作,而不是用傳統封閉思維去做。僅靠幾個行業巨頭是養不大語音產業的,只有真正服務于廣大中小企業和個人用戶,才能形成大的語音產業格局。
對剛處于市場擴張中的云知聲,免費的服務是否會影響其收益呢?梁家恩搖搖頭,不以為然。“即使收費,收到的費用也是很少的,沒有太大意義。如果一個個來談,可能談十個也談不下一個,如果自然增長,10~20個里面就會有人主動付費。如果這個產業不能迅速發展,我們占有100%的份額都沒有意義;如果這個產業能發展壯大,即使只占20%~30%的份額,我們也心滿意足。”
而且大量普通開發者應用語音識別技術,剛開始都是嘗試性的,不知道開發出的產品能否賺錢,如果先付錢就會形成一種障礙,不利于語音識別技術的推廣。相反,開發者在免費使用中若發現語音交互確實能帶來便利,并需要為差異化應用量身定制,這種增值服務才是可持續的。
梁家恩強調,“我們對所有開發者完全開放,即使客戶覺得免費的資源足夠用了,不需要購買增值服務,我們也不會對客戶進行限制。”也不會故意把免費的語音服務做成低級別的,但通用的語音服務不可能滿足所有用戶的個性化需求,如果需要個性化服務,那就要付費。
除了增值服務,云知聲還在拓展智能訂單、智能營銷、智能客服等領域的語音交互市場,目前已經有幾家客戶在洽談。
盡管云知聲正在為營造良好的語音生態環境而努力,希望放長線、釣大魚,而不是竭澤而漁,但云知聲不會對語音產業鏈進行通吃,成為用戶登錄的入口。他們的追求目標是做好語音平臺,為用戶提供精準、實時、專業的智能語音交互服務。作為技術型創業公司,如何彌補商業化短板,加快市場拓展步伐,眼下是梁家恩團隊面臨的挑戰。