伊珊
云知聲的創始人都是語音識別領域江湖元老級的人物,他們見證了這個行業的起起伏伏。2012年,幾位“老江湖”放棄了大公司的高薪厚職,走上了充滿不確定性的創業之路。
強大的技術背景加上先發優勢,云知聲自成立起就備受關注,目前已累積融資近億美元,去年已實現營收數千萬元人民幣。創業四年,云知聲進行了哪些探索?在人工智能越來越火爆的今天,語音識別這一領域究竟有多大的想象力?
被Siri攪動的寂寞江湖
要了解云知聲的故事,先要從語音識別二十年來的發展歷程講起。在很長的一段時間里,語音識別都是一個寂寞的領域,人們認為那是只存在于實驗室的高精尖技術,與現實生活聯系不多。
這個行業也曾在上世紀90年代末期迎來短暫的繁榮:
1997年,藍色巨人IBM推出可安裝在PC機上的語音識別軟件via voice;
同年,美國公司Nuance發布了連續聽寫產品Dragon NaturallySpeaking,奠定了Nuance公司在此領域的巨頭地位;
2000年前后,摩托羅拉等知名手機廠商發布了帶有語音撥號功能的高端機。
然而,語音識別技術一直作為一個附加功能出現,應用場景和應用領域都非常有限,產業化更是遙遙無期。
2008年前后,云技術和大數據的出現攪動了沉寂許久的語音識別江湖。云的存在,使得技術人員可以用幾乎無限的計算資源,從而服務器端可以用很大的集群、最牛的算法、最復雜的手段來把性能提上去。當數據不斷地訓練引擎的時候,系統可以被訓練得很好。“以前做語音識別產品,每個語言版本的容量只有100個小時,而現在我們云知聲的平臺上每天的日調用量在1.5億~2億次,這在過去是不可想象的。”李霄寒說道。
2007年,蘋果推出siri,識別率可以達到99%。技術的提高使語音識別的功能迅速普及,谷歌當時做了一個統計,有25%的用戶習慣用語音功能進行搜索,在中國,這個數字是10%。
技術的突破使得識別率大大提高,而智能手機的興起又催生出更多的需求場景。無論從需求端還是技術端來看,都為語音識別的爆發做好了準備。置身語音識別領域多年,云知聲創始人們都敏銳地察覺到,語音識別的時代來了。2012年6月29日,云知聲科技公司正式成立。他們并沒有一個龐大的商業計劃,盈利方式也并不清晰,只是堅信自己的兩點判斷:
第一,語音是未來人機交互的基礎,在互聯網領域、移動互聯網領域,以及此后的物聯網領域至關重要。
第二,“云”技術會產生巨大的價值。因此他們沒有像以前的語音公司那樣先做語音技術,而是從一開始就致力于語音云的研發。
2012年10月,云知聲拿到了千萬元的天使輪融資。
公司成立前兩年,一直以技術研發為主。他們選擇從語音交互和云入手,并在2012年9月,推出了語音公共云,這是第一家永久免費的語音云。
同年11月,云知聲與搜狗語音助手合作,這一項目為云知聲的公共云帶來了巨大的用戶量,技術團隊基于這些數據進行迭代,很快使語音云識別的性能有了一個巨大的飛躍。
不斷探索,確定四個垂直領域
云知聲成立之初,市場上做語音識別的創業公司并不多,基于云端的語音識別只有科大訊飛和云知聲兩家,是明顯的賣方市場。對于云知聲來說,這卻是一個喜憂參半的事情,他們可以在市場上爭取到不錯的議價權,同時也要面對一個困惑:面對來自各行各業的需求方,他們分不清哪些需求是剛需,哪些是偽需求。公司成立前兩年,云知聲開始不斷探索和嘗試。
字幕轉寫、手機App應用、輸入法應用、智能電視應用、車載、音箱、手表……他們幾乎嘗試了可以接觸到的每一個行業。經過一段時間的摸索,最終確定了四個適合語音識別技術的垂直領域:
第一,教育市場。最典型的應用場景是口語評測,未來的口語考試中,或許為你打分的是一個人工智能機器人。
第二,車載后裝市場。從公司成立之初,云知聲一直看好車載市場,并堅持認為安卓系統將是更大的市場。2014年,安卓系統在車載后裝市場的占有率約為5%,云知聲開發了“車載Siri”。到今年,安卓設備比例已經達到了90%。
第三,醫療市場。這一領域在國外已經有成熟的業務模式及產品。語音江湖老大Nuance有接近一半的收入來自醫療產業。語音識別技術可以幫助醫生做病歷錄入,大大節省了人力。今年,云知聲與協和醫院展開合作,協和成為國內第一家全院語音識別病歷的醫院。
第四,智能家居。家電智能化已成必然趨勢,超級電視,空調等的智能化改造都需要語音識別技術。在這一領域,云知聲第一個落地的項目是華帝油煙機,用戶在做飯時,不需要騰出雙手,可以用語音對油煙機進行操控。這一項目的難點在于如何降噪,云知聲使用了降噪芯片加上特有的語音算法,完美地解決了這個問題。
云、端、芯產品體系
2014年,云知聲提出AI芯、AIUI(智能交互)、AIService(智能云服務)的概念。云、端、芯三者結合,打造成為一個完整的產業閉環。
第一個層次是芯片側,叫作AI芯。李霄寒解釋道:“今后人們的生活中,芯片將無處不在,包括燈、插座等很多東西都是自帶芯片,可以聯網的。而每個家電廠商的平臺、操作系統、硬件的核都是不一樣的。我們現在做一個AI芯,直接把芯片嵌進去,通過芯片來將我們的技術應用在服務中。
李霄寒所說的AI芯片,可以理解為一個硬件Siri,它像一個翻譯,把人們的指令傳達給硬件。假設我們對空調發出“氣溫調到26度”的指令,AI芯就會給空調發指令。如今,云知聲已經與一線芯片廠商高通等達成合作。
第二層次是軟件側,叫作AIUI,這是指一整套的交互、對話、SDK邏輯。
第三個層次是端口,叫作AIService。語音識別是把語音變成了文字本身,把人們說的話變成了打印體。人工智能還要根據數據場景分析真實的意思,即語用計算。談到這里,李霄寒舉了一個生動的例子:比如“我的信用卡被貓吃了”這句話,如果語境是移動營業廳,營業員會告訴你換張卡;如果語境是寵物店,寵物醫生會告訴你如何讓貓把卡吐出來。根據不同的數據場景,人工智能會分析出話語不同的含義。
AI芯、AIUI和AIService三大解決方案構成了一個完整的生態閉環。
強大的技術背景加上先發優勢,云知聲自成立起就是資本追逐的寵兒。2013年,他們完成了億元級A輪融資,2014年12月啟動了5000萬美元B輪融資,不到一個月后又啟動了B+輪數千萬美元的融 資。
目前云知聲的合作伙伴超過兩萬家,其中不乏樂視 TV、小米、聯想、華為等一線企業。據悉,云知聲去年已實現營收數千萬人民幣,而繼續融資是想要在物聯網布更大的局。
談到公司的核心優勢,李霄寒認為,技術的門檻永遠不會很高,真正的門檻在于行業經驗。“只有在市場上積累了足夠的經驗,才能迅速判斷出哪些領域可以做,哪些領域不能做,哪些地方是需要花力氣去攻克的。”
語音江湖群雄紛爭,云知聲將如何在人工智能的浪潮中大展拳腳,我們拭目以待。