石海威


“你是屌絲嗎?”
“如果我是屌絲,你一定是猥瑣大叔。”
“才不是,我是高富帥。”
“你是高腐衰。”
這段對話來自百度語音助手與韓國Simsimi公司聯手推出的“小黃雞”,你可以與它對話、提問,并下達指令,“小黃雞”自上線起就被視為“宅男解悶利器”。事實上,國內與“小黃雞”類似的語音助手還有很多。
2011年Siri的出現讓語音技術滲透進人們的生活,也將語音識別帶入了新紀元。此前,“人機交互”一直只是個虛擬概念。這里所說的語音技術,主要是指將語音轉換為文字,嚴格意義上的語音技術還包括語義分析和信息集成,即如何分析并滿足用戶需求,從邏輯上看是層層遞進的關系。
這種特性決定了語音識別產業鏈分工相對明確。國內的語音識別領域,科大訊飛、云知聲是提供底層服務的代表者,在此基礎上衍生出的各類語音助手則更專注于語義分析和信息集成,也更貼近用戶真實的生活場景。其中,已經在深交所上市的科大訊飛是產業鏈的龍頭。2008年5月12日,科大訊飛上市第一天就被炒到30.31元,比12.66元的發行價翻了一倍還多。目前,國內許多語音助手都采用了科大訊飛的技術。
不過,Siri的火爆并沒有帶來國內市場的繁榮。蟲洞語音助手創始人余志晨回憶,2011年產品上線后,眼見社交應用火了一撥又一撥,語音助手卻始終不溫不火。經過反思,余志晨認為語音產品本身的形態決定了它不是一個爆發性的產品,用戶的使用習慣需要從零培養。
很快,中國開發者們改良了語音技術。與Siri枯燥的對話相比,國內語音助手做得更生機勃勃,用戶可以用語音操控手機(如打電話、發短信)、查詢信息(天氣、交通、預訂餐館),以及語音問答(與機器對話、相互調侃)等等。這看上去與搜索引擎的功能類似,不過語音助手最實際的意義在于解放了用戶的雙手。其中的典型代表有智能360、蟲洞語音助手、快說等小型團隊的作品,也不乏百度、搜狗等巨頭推出的產品。
未來,語音識別成為手機的基礎功能已無異議,每部手機都將配有一個語音識別模塊,通過這一模塊可以隨時調用任何功能和應用,就如同現在的GPS一樣。對于開發者而言,單純開發語音技術很難賺到錢,基于語音輸入的應用服務,才是最具想象力的領域。
從戰略角度分析,科大訊飛、百度等大公司都希望將語音輸入變得集成化、一體化,以最終形成語音服務的閉環。短期來看,產業閉環會使服務效率提高,實現無縫對接。然而長遠來看,集成化、一體化的服務也讓巨頭頗顯為難。2012年搜狗立項做語音助手時曾希望覆蓋全產業,打通從語音識別到信息集成的通路。不過很快,搜狗就放棄了自己開發語音識別技術,轉而與云知聲、科大訊飛進行合作。
眼下,各家語音助手都有短板。以搜狗為例,后端龐大的資料庫使其在資源整合上擁有絕對優勢,但前端的語音識別技術則相對薄弱,即便組建專門的研發團隊,在識別準確度上也無法與科大訊飛、云知聲等積累了十幾年經驗的專業團隊相比。語音識別的技術門檻相當高,后臺支撐需要靠經年累月的數據積累。這些依靠算法、爬蟲獲得的信息,短時間內難以獲得,且價值呈逐年遞漲趨勢。
據《創業家》記者了解,在過去兩年,市面上常見的語音助手類應用普遍獲得了金額不菲的融資,動輒百萬美元級別。盡管如此,語音助手們的盈利模式依然不清晰。相比較而言,Siri更像是一種功能,國內的語音助手們才是一款產品。蘋果并不依靠Siri賺錢,但國內開發者們則不同,無論是技術層面還是產品創新層面,每一個環節都還有巨大的提升空間。以智能360、蟲洞為代表的語音助手都已擁有幾百萬用戶,但還遠沒達到盈利的臨界點。
值得關注的是,微信語音的出現改變了用戶的行為習慣,用戶開始敢于在公共場合與手機對話,并逐漸形成了基于互聯網的語音習慣。這個習慣一旦成熟,也將有利于語音助手的普及,提高用戶的接納度。
對于偏語義分析和數據挖掘的團隊,早期第一位的還是用戶體驗。如果只做通用型的語音助手,恐怕難以做精,切入垂直領域是個不錯的選擇,如旅游、酒店、機票預訂等。切準細分場景更有助于這些應用快速獲得用戶、實現商業化,當用戶積累到一定數量后,也有做競價排名和內容推薦的可能。現在,已經有語音助手切入細分領域實現差異化競爭。從今年下半年起,這種趨勢將會愈發明顯。

挑戰語音識別
云知聲近期的頻頻亮相令其頗受關注。5月7日,樂視超級電視發布,集成了云知聲的語音交互技術。外界評價稱,“從現場演示效果看,識別準確度和識別效率方面都具有很高的水準。”
除了樂視超級電視,云知聲的合作方還有搜狗語音助手和錘子ROM。云知聲借助自己的本地語音識別、云端語音識別,以及語義分析等技術為它們提供服務。
創始人梁家恩表示,語音識別看上去只是將語音轉換成文字這么簡單,但其實需要非常深厚的技術積累。梁家恩2001年從中科大畢業后,進入國內語音技術的搖籃—中科院自動化所深造了五年。在這期間,他多次參與國家重點項目的研發,從語音識別的基礎技術到工程實踐,積累了豐富的經驗。在完成博士階段學習后,他作為語音識別技術團隊的帶頭人繼續在自動化所工作了五年。
梁家恩與科大訊飛創始人劉慶峰師出同門,都畢業于中國科學技術大學。梁家恩記得很清楚,當年科大訊飛拿到第一筆錢的時候他還在讀本科。2008年中科大五十周年校慶時,劉慶峰作為創業明星被校友們津津樂道。那時梁家恩并沒料到,自己會創辦一家與科大訊飛在技術上被相提并論的公司。
2011年,隨著Siri的爆發和人工智能技術的進步,梁家恩覺得創業時機已經成熟,于是聚合了一批兄弟,成立了云知聲。目前,除了語音識別技術外,云知聲另一項核心技術是云計算平臺技術。其中,公有云針對普通開發者,用標準化服務解決技術問題,并采取免費策略;私有云主要針對企業客戶,可根據企業的特殊需要提供定制化的SDK和接口調用。
雖然語音識別已成為巨頭們卡位的關鍵領域,但梁家恩并不擔心自己公司的技術實力,他本人在語音領域積累了十幾年的研究經驗。眼下,他的擔憂主要在于技術型創業公司如何實現商業化。
科大訊飛很大一部分收入來自傳統行業,比如教育市場,而梁家恩設想云知聲未來的收入將更多偏向互聯網。現階段,云知聲沒有切入垂直化的產品,而是專心做平臺,讓開發者基于云知聲的技術去做個性化的產品。梁家恩認為,互聯網的廣告平臺、游戲平臺都能賺錢,語音識別將是下一個盈利平臺。
智能360的前身語音360是一款通話錄音軟件。當年語音360做得有聲有色,就是否要延伸產品線做語音助手,性格趨于保守的CEO何永與聯合創始人李傳豐有過一些爭論。直到2011年Siri爆紅,何永無法再繼續淡定下去,他決定做一款像Siri一樣的語音助手。
何永畢業于中科院,后就職于上海九城。他了解語音識別的相關算法,早期的產品代碼也由他親自操刀。很快,智能360作為國內第一批語音助手之一,在2012年1月上線。
盡管智能360的客戶端推出較早,但也和科大訊飛面臨一樣的困擾,就是信息集成環節的薄弱。然而,何永很快找到了突破點—與第三方合作。現在,智能360語義解析平臺可以直接接入第三方的服務,無論用戶要預訂機票酒店還是看新聞,都能在這個平臺中找到相應的服務。這種合作不但減輕了團隊自身壓力,也提高了內容質量。何永表示,智能360未來不會再涉足服務開發,只專注做好語義解析這件事。
目前,智能360已基于語音語義模塊引入了四五十種服務,涵蓋生活的方方面面,包括智能聊天、備忘、通話短信、查詢美食、詢問路線等多種功能。智能360語音識別技術由Google、科大訊飛提供,語義識別技術則是自主研發。
和同行一樣,智能360的盈利模式還未清晰。何永認為,語音智能和人工智能的結合將不僅僅在手機上,在其它領域,比如家居和車載行業,也同樣具備可觀的市場,真正清楚的賺錢模式,可能在三到五年后才比較成熟。
語音識別的核心在于人機交互,如果某一天用戶的任何問題都能通過人機交互獲得答案,那么即便是擁有海量信息的搜索引擎也將完全失去價值。何永判斷,語音識別的真正臨界點可能會在三五年之后到來,眼下正是跑馬圈地的好時候。
智能360的用戶量已經接近800萬,日活躍度達到6%。何永透露,用戶一旦形成規模,便可以考慮為一些第三方網站,如大眾點評、去哪兒帶去一些流量,在此基礎上分成。智能360已獲得A輪融資,這個過程中,不乏巨頭有過收購意向,都被何永拒絕了。智能360計劃2014年啟動B輪融資,預計融資3000萬元,將主要用于研發和渠道投入。
專注人工智能
俞志晨早年在中國軟件與技術服務公司負責嵌入式設備的翻譯系統研發。2009年8月,他離職創業。俞志晨將自己的產品取名“蟲洞”,就是希望實現用戶與信息之間的“瞬間連接”。一年后,蟲洞客戶端(Java版)誕生,這也是蟲洞語音助手的前身。“蟲洞”本是愛因斯坦提出的猜想,它可以實現宇宙遙遠區域的瞬間連接,通俗地講就是“時空隧道”。2010年俞志晨注冊成立“北京光年無限科技公司”,2011年Siri面世后,他開始將產品由客戶端向語音助手轉型。從最初的機器翻譯,到之后的語音文本轉換,再到Siri的出現,俞志晨趕上了人工智能的每一個節點。
蟲洞的主要功能是生活服務,如交通、天氣查詢,休閑娛樂、智能聊天等。俞志晨也和所有用戶面臨一樣的困擾:眼下語音識別和人工智能的準確度還有待提高。此外,大多數中國用戶羞于在人前表達。不過,語音識別和搜索技術平均每三個月就有一次大的突破。蟲洞內部統計顯示,用戶正在逐漸接受語音助手,截至2013年5月,蟲洞有效注冊用戶已達750萬,日活躍度為8%。
俞志晨對《創業家》記者透露,蟲洞在語音識別上也使用了科大訊飛的技術,與其他同類產品相比,其優勢在于數據庫更全面。蟲洞數據庫的信息來源主要依賴于各個細分領域的專業網站,同時后臺也開放了API 端口,便于與其他數據源互通有無,從而更好地匹配用戶答案。經過四年的前期數據積累,蟲洞現在的問答知識庫已經非常龐大。
對于未來的戰略方向,俞志晨思考得很清晰,蟲洞只專注語義分析與內容整合,堅決不碰語音識別。俞志晨認為,一家創業公司是沒有足夠的人力去支撐全線開發的,而且語音識別未來會成為基礎性輸入模塊,會衍生出很多語音應用服務,因此要特別重視產品的應用屬性。
蟲洞未來也會通過搜索推薦等方式獲取一定收入,比如為用戶推薦一款游戲來從中抽成,但俞志晨表示這種清楚直接又可量化的收入,不會成為語音助手核心的商業模式。目前,蟲洞開始有計劃地切入垂直領域,也在做一些語音互動領域的個性化及社交化嘗試。不可忽視的是,眼下想切入這一領域的巨頭們在整合資源方面優勢巨大,比如巨頭自身擁有點評、地圖等業務,各部門間可以做到無縫對接。對于蟲洞這種創業公司來說,目前內容層面還只能與第三方合作。
“語音助手產品如果是選好角度切入,單點突破,其實想象空間非常大。”俞志晨認為,與那些曇花一現的移動互聯網產品不同,語音類應用的價值呈逐年遞增的趨勢,且技術門檻會越來越高。
盯緊垂直市場
在創立快說之前,邢獻杰曾做過兒童玩具的語音輸入研發,之后加入IBM負責語音技術研究。2011年,邢獻杰從IBM離職創業,快說是他的第一款產品。2013年4月,快說發布了最新版本。此前,快說與其它同類語音助手功能類似,包括可做持續性對話,能清晰地分析用戶需求、解答用戶問題,并為用戶執行任務,如打電話、發短信、記備忘、訂酒店等。在新版本中,快說增加了休眠喚醒和支持藍牙耳機兩項新功能,使其與對手實現了差異化。
這兩種功能的直接受益者是司機人群。司機可以通過藍牙耳機啟動快說,語音撥號,同時也能識別來電人姓名。此外,快說還支持直接在百度地圖客戶端聲控啟用其語音導航功能,對于駕車者很實用。
據介紹,快說目前的語音識別準確度可達90%。邢獻杰坦言,初創團隊想覆蓋整個語音產業鏈顯然是不現實的。2012年產品剛上線時,因為采用了自主研發的語音識別系統,快說準確度率不高。此后,快說選擇和科大訊飛合作,準確度提升很多,自己的團隊也能專心做好內容。
2013年,快說開放了微信公眾平臺。“現在微信公眾賬號無法即時和用戶聊天或者互動回答,我們提供了一個自動化問答服務,形成語義微信集合。”邢獻杰說,這實際上是為微信提供了人機對話引擎,也可稱作“微信機器人”,用戶可以直接與其調侃互動。目前“微信機器人”已率先和“招商銀行”公眾賬號展開合作。
邢獻杰起初希望依靠本地生活服務來獲取收入,因此2012年5月產品上線后不久,便與百度地圖、大眾點評、去哪兒等第三方網站展開合作。盡管2012年公司尚未有收入,但未來語音助手將會成為信息獲取入口。快說不排除做競價排名的可能,當用戶積累到足夠多時,也可以做個性化推薦。
截至2013年4月,快說的用戶量已超過200萬。現在,快說選擇切入駕駛情境,也是出于做垂直市場的考慮,這也許是其未來主要的收入來源。