岳麗麗
吳曉波說過,2014年到2016年是中國最好的創業時代。聲智科技(SoundAI)聯合創始人常樂算是抓住了這一“時代”尾巴的一撥人之一。2016年創辦聲智科技,專注于聲學與人工智能融合方向的技術研發,包括她在內的4名創始成員都來自中國科學院聲學所。
常樂告訴創業邦,人和機器的交互方式在不斷演變,從旋鈕和鍵盤、鼠標、觸摸屏演變到第4代以語音為代表的遠場語音交互手段。語音已經成為最重要的人機交互入口,這是一個國內外同步創新、爭奪科技制高點與未來產業重構的新機遇。
而遠場語音交互市場的興起還要歸功于美國電商巨頭亞馬遜推出的智能音箱Echo,其帶來的顯著變化就是把語音交互方式從近場升級為遠場。以北美市場為首,圍繞人工智能遠場語音交互技術的產品已經開始落地,但彼時,國內大多數產品還停留在近場語音交互階段。常樂預判“未來國內的發展模式一定會往遠場語音交互方式過渡”,因此,創業初期聲智科技決定由該市場切入。
此前,常樂的師兄,現在的聲智科技創始成員,與常樂一起同在中科院聲學所從事相關技術的研發,創立聲智科技則意味著把技術做商業化落地。由此組成的創始團隊構成了聲智科技的競爭力之一。常樂解釋,聲學是物理學科的二級學科,很多高校本科并不開設這個專業,到了研究生階段才有一些高校、研究所開設,相關人才稀缺。同時國內專注在聲學領域研究的人才很少。
人和機器的交互方式在不斷演變,語音已經成為最重要的人機交互入口,這是一個國內外同步創新、爭奪科技制高點與未來產業重構的新機遇。
在目前200人的團隊中,除創始團隊外,聲智科技還引進了包括中國科學院、清華大學、北京大學、中國科技大學、北京航空航天大學、中國傳媒大學、MIT等名校畢業生以及Google、Broadcom、Dolby、騰訊、百度等精英。
常樂提到,2010年由于深度學習技術的出現和應用,人工智能開始在商業領域展現其價值。智能語音在國內是從1956年中科院聲學所的第一套電子管語音識別系統開始,直到2011年語音技術才真正獲得市場認同,這個時候語音識別技術開始快速迭代,2016年機器語音識別率終于在2016年達到了一般人類的水平。但是這個結果還存在非常大的邊界約束,因為沒有考慮到真實環境的物理因素干擾,其真實效果還是不能滿足實際應用的要求。商業化落地需要構建真實的場景下的遠場語音交互,比如在嘈雜的餐館、迎風行駛的車上等。首先聲智科技要解決的是空間物理環境聲場的影響,也就是構建一個靈敏的“耳朵”,提升體驗感。“有了靈敏的耳朵,就能采集到更好的數據集,訓練出更好的機器學習的模型,反哺整個交互過程。”
其次,聲智科技基于底層聲學技術生成完整的軟硬件方案,構建基于聲智科技人工智能操作系統搭建的人工智能交互平臺。完整的語音交互過程包括從聽到聲音到大腦解析成文字再到最終說出來,其中包括了多項技術,聲學處理主要是仿真人類的耳朵,保證機器能夠聽得準真實環境下的人的聲音;語音識別則是要把聽到的人聲翻譯成文字;語義理解則分析這些文字的意義;語音合成就把機器要表達的文字翻譯成語音。再融合知識圖譜、人工智能大數據分析和解析、智能搜索推薦、智能決策等技術,形成完整的人工交互鏈條,聲智科技再開始在此基礎之上迭代產品和服務。

聲智科技(SoundAI) 聯合創始人常樂 這是一個國內外同步創新、爭奪科技制高點與未來產業重構的新機遇
常樂介紹,聲智科技推出人工智能操作系統的目標用戶群體主要分為兩大方向。第一為內容和服務提供方,聲智科技可以滿足他們在不同設備、載體嵌入服務和內容的需求。“未來用戶可能會在智能音箱、智能屏、智能汽車等新一代智能終端設備上使用傳統服務,通過我們的人工智能操作系統構建服務平臺,幫助這類目標客戶將服務、內容提供給第三方,類似于在手機上安裝他們的App。”第二是傳統硬件廠商,通過安裝聲智科技的人工智能操作系統,為硬件升級進行智能化賦能,打造具有人工智能交互能力的新型設備產品。
現在聲智科技已研發出人工智能操作系統Azero、人工智能開放平臺Babel和融合感知算法引擎Cimon,以及深度結合應用場景的AI硬件設備、AI營銷客服、AI語音助手、AI虛擬數字人、AI音視頻會議等產品和行業綜合解決方案。
初期,聲智科技率先落地在消費電子品這類用戶使用量較大的場景,聲智科技占據中國70%的遠場語音交互市場。現逐步向傳統金融、安防以及醫療、交通等領域開始新的探索。在此次疫情期間,聲智科技也有所行動,推出了AI數字人紅外測溫設備、可視化AI語音電梯等非接觸式抗疫解決方案。常樂介紹,AI數字人紅外測溫儀可實現1~6米范圍內、0.2秒內完成多個目標的高精度測溫,支持實時AI語音合成播報,自動上傳預警信息。
目前聲智科技已在安徽、廣州、青島、成都、北京等全國18個省市的學校、辦公大廳、寫字樓落地。AI語音電梯整體解決方案無須下載任何App或小程序,只需要一句話“小易小易,上樓/下樓”就可以實現電梯呼叫。現在已在北京市海淀醫院正式投入使用,北醫三院也即將落地使用。
回顧人機交互技術的發展史,相較于近場語音交互,遠場語音交互技術的出現成功解決了真實場景下的復雜聲學問題。但當前還只是人機自然交互的發展初期,即便智能語音交互也還任重而道遠。在聲智科技看來,所有的AI產品仍沒有達到理想的狀態,在不斷優化過程中,聲智科技始終注重的是用戶體驗,“語音識別率超過99%這個數字對于用戶來說,意義不大,相反,交互體驗對他來說更為重要,也就是推薦的產品是不是他想要的,聽到的是不是夠準確。”
為了更好地實現AI從感知智能進入認知智能的階段,需要針對不同場景,在語義理解方面建立不同知識圖譜庫,不斷進行學習和迭代。常樂表示,現階段,智能家居等領域的語音識別率已經相對較高,而在一些智能交通、智能醫療領域、安防司法等專業性較強領域,還需要針對自然語義理解方面收集更多的語料庫和數據集進一步的迭代,這是聲智科技今年重點的發力方向。
同時常樂預判,未來的人機交互,也將實現更加多傳感融合的多模態人機交互手段,使可交互信息的理解度和可靠性更高,會是融合交互將成為人類和機器相互學習的關鍵手段。這也是聲智科技下一步優化迭代的方向。
從長遠來看,能快速把技術落地應用到相應業務領域,得益于聲智科技團隊的落地能力和營銷能力。在常樂看來,初期已有聲學技術儲備到逐步建立了多模態交互技術,能達到這一技術壁壘的企業在國內寥寥可數。
聲智科技現有客戶數約500家,包括華為、小米、百度、騰訊、阿里巴巴、中國移動、中國聯通、中央人民廣播電臺、聯想、創維、寶潔、萬科、奇虎360、金蝶、浪潮、國美、堅果等企業。常樂提到,成立初期國內市場的相關需求特別強烈,聲智科技占據了先發優勢,前期的種子客戶也都是互聯網巨頭公司,像小米的首臺智能音箱、奇虎360打造的第一款具有語音交互功能的安防攝像頭、阿里天貓精靈魔盒都應用了聲智科技的技術。
據悉,聲智科技現有商業模式主要圍繞軟件授權,芯片、模組和整體產品方案,以及服務費。去年銷售額達3億元,已在上海、蘇州、青島等地落地分公司。
2016年獲得由洪泰基金領投,峰瑞資本跟投的1600萬人元民幣Pre-A輪融資;
2017年獲得由洪泰基金、百度、藍港互動等投資的近億元A輪融資;
2018年12月,聲智科技已完成2億元人民幣B輪融資,由毅達資本領投,峰瑞資本、正居資本跟投, 中關村銀行、InnoVen Capital聯合參與。