梅新蕾 李偉

在A股市場的人工智能板塊,科大訊飛(深交所:002230)可能是公認的執牛耳者。自1999年走出中國科技大學“人機語音通信實驗室”起,科大訊飛以自主研發的中文語音合成技術為突破口切入智能語音產業,成長為國內唯一一家以語音識別為核心優勢技術,并基于“深度學習”算法進行人工智能底層技術研究的“產學研”企業。
1992年,科大訊飛創始人、董事長劉慶峰加入中國科技大學電子工程系“人機語音通訊實驗室”,在博導王仁華教授的鼓勵下,開始牽頭自主研發語音合成系統。1998年,劉慶峰負責的語音合成系統獲得“863計劃”成果比賽獲得第一,并獲得“863”專家組“語音合成技術初步達到實用化水平”的評定。彼時,正值90年代末大學生創業潮,劉慶峰萌生了將這項技術產業化的想法。1999年6月,26歲的劉慶峰帶領同實驗室的十幾位同學,在中科大校園租下了一間三室一廳的民房開始創業,科大訊飛的雛形由此誕生。
2000年,科大訊飛在關鍵戰略會議——巢湖“半湯會議”上定下《訊飛產業規劃》,堅定將語音交互技術的自主研發和產業化落地作為訊飛核心戰略方向。此后,訊飛的核心語音業務從語音合成、口語測評起步,向語音識別、語義識別、自然語言處理方向演進,通過語音芯片、語音引擎和語音云平臺,向各行業B端企業用戶、行業應用開發商提供語音技術開發及服務能力,截至2017年已經占有中文語音技術市場60%以上市場份額,其中語音合成產品在電信、金融、電力、社保等行業的份額超過80%。
2014年起,科大訊飛基于深度學習算法,啟動了針對人工智能的重大攻關項目“訊飛超腦計劃”,旨在研發具有深層語言理解、邏輯聯想推理、自主學習等能力的人工智能系統,并依托訊飛人工智能開放平臺“AIUI”構建以訊飛為核心的人工智能生態系統,主要面向B端用戶,以“技術賦能者”的角色探索人工智能技術在教育、醫療、司法、智慧城市等行業賽道的商業化落地;此外,面向C端用戶,科大訊飛亦集成其智能語音、人工智能技術能力,推出移動端訊飛輸入法、AI助手應用“咪咕靈犀”等軟件產品,以及訊飛“曉譯”翻譯機、智能音箱“叮咚音箱”等硬件產品,試圖拓寬業務范圍和潛在市場空間。
在財務數據上,一方面,科大訊飛在營收規模和市值上實現了跨越式的發展:2008年科大訊飛成功赴深交所上市,在上市后十年的時間,其營業收入年均復合增長率達40%, 10年累計增長了21倍,市值累計增長了約25倍。在人工智能風口下,鑒于其行業領先的技術水平、商業模式的逐漸完善、主營規模的迅速增長,市場有觀點認為科大訊飛是 “智能語音技術行業的龍頭企業”、“A股市場人工智能第一股”。
然而,僅從客觀數據上看,科大訊飛作為一家上市公司,近年來在業務范圍快速擴張、持續加碼人工智能前瞻性布局的同時,也面臨著增收不增利、投資回報率走低等壓力。業內亦有聲音質疑其究竟“是否撐得起千億市值夢”?
應該如何理解科大訊飛?對科大訊飛這樣一家不斷挑戰前沿技術浪潮的“科研型”企業進行價值評斷,不僅應著眼于傳統的企業財務指標,同時應關注企業所在的行業環境和產業前景,以及企業能否正確“卡位”并占據一定的行業優勢地位——前者體現了蛋糕可以做多大,往往是由宏觀環境和行業特點決定的;后者決定了企業可以分走多少蛋糕,需要由企業通過筑建“護城河”來爭取。為此,本文試圖從以下四個維度呈現更多細節:
首先,在智能語音技術和人工智能產業,科大訊飛面臨怎樣的大環境?
其次,“科研型”企業的成長往往是由“源頭創新”和“創新應用”雙輪推動的,訊飛如何在源頭技術層面構建競爭壁壘?
再次,科大訊飛如何探尋技術產業化落地的路徑,其在2B和2C領域各有何嘗試?
最后,在國內外科技巨頭和互聯網企業紛紛布局AI賽道的競爭環境下,科大訊飛的挑戰和機會可能在哪里?
劉慶峰認為:“微軟把圖形做到了極致,蘋果把觸摸做到了極致”,“作為最自然的交互方式,下一輪變革就在語音領域”。“人類80%的信息輸入依靠視覺,90%的信息輸出依靠聲音和語言”。相比于觸覺交互,語音交互更加符合人類向外界輸出信息的自然方式,且可以有效滿足“人機分離”場景下的遠場交互需求。隨著移動互聯網、大數據、云計算技術的進步,語音交互技術有望成為物聯網時代的入口級技術,從而具有良好的增長前景;此外,語音交互技術(語音合成、語音識別、自然語言處理)與人工智能技術深度結合的領域,亦有著有著廣闊的市場空間。
相比于國際科技巨頭,科大訊飛作為在智能語音乃至人工智能領域擁有源頭創新能力的本土企業,劉慶峰團隊認為,智能語音乃至人工智能產業均是典型的技術先導型產業,具有較為顯著的“馬太效應”——技術領先型企業可以通過創新性產品引導市場需求,在占據市場先機后,將會通過行業實踐經驗、數據資源、人才資源的積累,在后繼技術競爭中表現出更大優勢,從而樹立起后來者短期內較難趕超的“護城河”。為此,科大訊飛把研發放在戰略高度,堅持以市場為導向進行核心技術的創新和迭代。

科大訊飛構建源頭技術壁壘,首先的表現形式是持續、高強度的研發投入。自2010年以來,科大訊飛年度研發投入強度(也即R&D投入占當年營業收入比例)始終保持在20%以上,2018年上半年高達25%,遠超國家標準界定的高新技術企業3%的水平;相比BAT以及國際主流科技巨頭,訊飛受制于體量規模,在R&D投入絕對值上不占優勢,但研發投入強度仍處于前列。從研發投入轉化效率上看,科大訊飛每年研發投入達到可資本化標準的比例維持在30%以上,在語音合成、語音識別、認知智能技術領域均達到國際領先水平。
智能語音和人工智能技術研發難度大、進入壁壘高,高額的研發投入只是企業取得源頭技術突破的“必要不充分條件”,企業致勝的關鍵在于能否構建并維持一支專家型團隊進行長期攻關,并配套以高效的研究成果轉化機制。為此,科大訊飛一方面圍繞其三大研究院構建企業自身的核心研發平臺,另一方面從源頭整合外部行業研發資源,通過與高校及科研機構、政府機構及企事業單位、行業企業、獨立科研團隊以共建聯合實驗室等形式展開合作,構建出了一套特殊的“衛星型”研發體系。
核心研發平臺是科大訊飛研發體系的內核,重點針對與訊飛業務發展緊密相連的核心能力進行底層研發。核心研發平臺下屬三大研究院,分別是人工智能研究院(AI)、大數據研究院(Big Data)和云計算研究院(Cloud Computing),這三個研究院均是基于語音交互技術這一重點領域發展出來的。
技術中心是連接后臺研究院的底層研究成果與前臺各產品部門需求的中間層。相對于研究院:技術中心的研發更靠近應用層面,目標是將底層科研成果轉化為可以產業化落地的應用技術;技術中心的人員也更靠近前端客戶,針對客戶需求做定制化開發,為前臺各事業部、事業群服務客戶提供技術支持。從團隊規模上看,在訊飛當前8000多人的總體員工團隊中,研發團隊占比66.28%——其中,訊飛三大研究院約1000人,技術與開發人員人數超過5000人。
值得指出的是,訊飛從戰略穩定性、機制和文化設計上,為其研發人員提供了良好的科研環境——這既是激勵、孵化源頭技術創新的溫床,也是留住優秀科研人才的重要條件。
首先,科大訊飛的創始團隊(也即當下的核心高層團隊)是基于中科大組建的、成建制的核心研究團隊,這一團隊均是科研背景出身,對源頭技術研發工作本身的特點、規律及人才所需的環境有著切身理解,在核心語音技術、人工智能技術領域有專業積累和行業洞察能力,且自企業創立以來高度穩定——這保證了科大訊飛在研發層面的戰略穩定性。
此外, 科大訊飛在企業文化層面,強調研究院科學家和研發人員在企業內部的核心地位,并再配合以多期股權激勵等經濟激勵手段;在機制設計上,對研發項目“允許試錯”,不對專注基礎研究的科學家設定與銷售或者成果轉化掛鉤的硬性KPI,但要求其對“失敗”項目及時復盤、找到原因。
“科大訊飛的基因是做研究的基因,研究人員在這里很容易找到歸屬感和成就感。從價值觀上看,我們是登山型的公司,相信遠處有一個喜馬拉雅山,而我們要用很多年不斷的逼近;而多數互聯網公司是沖浪型公司,(行業)今天有一個什么熱點,就立刻組織一撥“部隊”、高薪挖一撥人就開始做,干得好給獎金,干不好這個部門就砍掉了,就非常狼性的,對研究來說是不利的。”
——科大訊飛高級副總裁,江濤
“在科大訊飛工作群,如果有人說,‘哇,我今天拿下一個億的單子,沒人吱聲;但如果有人說,‘嗨,我把語音輸入的準確率提高了1%,那群里頓時就炸開了。”
——科大訊飛某員工
“在做科研的時候,主要考驗一個人研究的能力,但當要去真正創辦一個企業的時候,技術的轉變和能力的轉變是解決從實驗室到產業化的“最后一公里”最關鍵的問題。”
——胡郁,科大訊飛聯合創始人、輪值總裁
源頭技術壁壘只是“產學研”企業立足市場的根本要素之一,科大訊飛面臨的更大的挑戰在于如何找到適應企業不同發展階段的產業化落地路徑,實現從“技術高地”向“企業價值高地”的跨越。可以發現,基于技術成熟度、市場環境的不同,科大訊飛進行產業化落地的方式也在演進。
如何將自主語音技術推向市場?創業初期,劉慶峰對科大訊飛的定位是直接面向大眾消費市場銷售智能語音產品。2000年訊飛推出一款針對PC的智能語音軟件“暢言2000”,試圖在PC端將語音輸入與傳統鍵盤文本輸入結合起來,軟件定價在2000元人民幣/套,同時在全國十余個省份推進廣告投放和對外招商。然而,由于彼時國內軟件市場盜版猖獗,且PC普及率較低、C端用戶的教育和售后服務成本高,訊飛直接切入2C市場的嘗試失敗了,訊飛資金鏈也因此承受了極大壓力。
科大訊飛最初成型的商業模式——“iFLY-inside”。類似于“Intel-inside”,是2B模式的一種,科大訊飛并不直接面向終端應用市場,而是基于其掌握的核心技術,向開發商提供語音支持軟件服務。
在此背景下,劉慶峰嘗試轉戰2B市場,第一步的嘗試是尋求與中國電信合作,將訊飛的自主語音合成技術應用在168聲訊系統。但問題是,大型企業客戶十分強調產品的技術成熟度以及與之相關的用戶使用體驗,且一旦選定系統開發商則后期轉換成本極高,故而中國電信并不愿意將這筆價值上億的訂單交給訊飛十幾人的創業團隊,而是希望尋找具備成熟的系統集成能力和企業綜合實力的大型行業系統開發商。
轉機發生在2000年的深圳高交會,科大訊飛的語音合成系統引起了華為公司的注意,彼時華為正在開發智能網、呼叫中心這一類電信級產品,劉慶峰有機會將訊飛的語音技術“嵌入”到華為的產品系統中,再借由華為推向市場。2000年前后,任正非對語音技術高度重視,對科大訊飛的語音合成系統進行了極為嚴格的技術測試。為此,科大訊飛最核心、最骨干的研發團隊直接入駐華為現場,通過不斷的測試、修改,將訊飛仍處于實驗室狀態的產品,在穩定性、工程化方面,優化至可以滿足真正大規模商用的標準,從而贏得了華為的長期訂單。
經歷了創業前期的試錯以及華為合作模式的成功,劉慶峰意識到,訊飛的技術沒有問題,出問題的是商業模式:“科大訊飛這個初創的團隊不知道怎么做市場、怎么做產品,我們(暫時)只有技術”,因而無論是直接做消費市場,還是面向大企業客戶直接銷售產品,“都有些理想化”,需要重新調整思路——“我們可以把核心技術和別人去‘拼盤,讓有渠道、有市場、有技術的大公司去把產品做好、賣向應用市場,從而實現訊飛技術的初步價值。”
由此,科大訊飛發展出最初成型的商業模式——“iFLY-inside”。具體而言,“iFLY-inside”類似于“Intel-inside”,是2B模式的一種,也即科大訊飛并不直接面向終端應用市場,而是基于其掌握的核心技術,向開發商提供語音支持軟件服務。與華為的成功案例幫助科大訊飛迅速推動上述商業模式落地:其一,面向華為、中興、東軟等行業應用系統開發商,提供電信級語音軟件;其二,面向聯想、方正、日立等數碼終端產品開發商,提供嵌入式語音軟件。
然而,科大訊飛高級副總裁江濤表示,“iFLY-inside”模式限定了科大訊飛僅僅是出售核心技術的“賦能者”,從而帶來兩方面“短板”:第一,科大訊飛只能在行業價值鏈中占據很小的一個環節,利潤空間有限——例如,“華為的一套應用系統售價大幾千萬,但科大訊飛從中收取的License費用可能只有二三十萬”;第二,科大訊飛在將核心技術交付給開發商后,在終端用戶環節面臨“黑匣子”——也即科大訊飛既不能根據終端用戶的使用反饋對其技術進行優化和迭代,也無法積累終端用戶數據。
2004年扭虧為盈后,隨著公司在產品能力、市場能力、團隊規模上的成長,科大訊飛開始直接面向行業終端用戶,嘗試開發應用系統。在行業選擇上,科大訊飛瞄準的均是集中度、壟斷性較高行業,包括:在教育行業承接國家語委“計算機口語測評”需求,推出普通話、英語口語測評產品;向中國聯通、中國移動等電信運營商提供語音搜索增值業務,代表產品為基于語音搜索的電話彩鈴/炫鈴系統;向政府、電信、公安、煙草等行業客戶銷售具有語音特色的信息服務與管理系統。
科大訊飛在上述行業應用領域的起步,往往得益于其在一個由政府機構或企事業單位主導的行業取得了先發優勢,從而積累了基礎數據資源和行業成功案例。
以教育業務為例:科大訊飛依靠其自主研發的語音測評技術切入教育業務板塊。2006年,科大訊飛的計算機口語測評技術經國家語委鑒定達到實用化水平,并開始在國家語委和教育部語用司、語信司的指導下進行應用產品開發;同年10月,科大訊飛正式發布普通話口語測評產品,并在國家語委在上海主辦的“普通話水平測試與規范創新論壇”上向全國各地語委專家開放試用,截至2008年訊飛IPO時已在安徽、上海、江蘇、遼寧和重慶五省市完成落地。
在上述兩種2B模式下,科大訊飛基本確定了在其核心語言技術的商業模式和產業鏈地位,并根據技術特點和商用環境不同形成了三類盈利模式:其一,電信級語音平臺和嵌入式語音軟件采用授權許可的模式,按用戶的使用數量收費;其二,一般行業應用軟件采用軟件系統銷售的模式,通常是一次性銷售;其三,行業應用軟件中的語音增值業務則采用合作運營收入分成的模式,從運營收益中獲得分成收入。
在核心語音業務逐漸發展成型的同時,劉慶峰團隊再次感知到了外界技術環境的變化。
在傳統的模式識別框架下,語音識別技術需要人為地對數據進行特征提取和分類歸納,進化速度較慢,機器語音識別準確率在2000年后的10年內長期停留在70%-80%,限制了行業應用場景的拓展;然而,2006年AI領域巨擘杰弗里·欣頓(Geoffrey Hinton)在《科學》(Science)雜志發表了《利用神經網絡刻畫數據維度》(Reducing the dimensionality of data with neutral networks)一文,奠定了深度學習的理論框架;2009年,前微軟人工智能首席科學家鄧力與杰弗里·欣頓(Geoffrey Hinton)在上述文章基礎上發表《語音識別的深度學習及其應用》(Deep Learning for Speech Recognition and Related Applications),成為深度學習在語音識別方面的經典研究。上述深度學習理論框架的出現免除了人為歸納、提煉特征的環節,從而明顯加速了語音識別技術的進化速度——據江濤介紹,“基于深度學習理論框架,在美國由Google公司做出了一套英文語音識別技術,在中國則是科大訊飛做出了一套中文語音識別技術。”
而在研發上述語音識別技術的同時,科大訊飛研究院的科學家團隊發現,深度學習理論框架不僅適用于語言識別、圖像識別等感知智能領域,還可以擴展至自然語言處理、機器翻譯、邏輯推理等認知智能領域,從而幫助機器從“能聽會說”真正邁向“能理解、會思考”。

在此背景下,科大訊飛于2012年起開始醞釀從感知智能向認知智能的跨越,并于2014年正式啟動“訊飛超腦”人工智能計劃,目標在于“研發具有深層語言理解、全面知識表示、邏輯推理聯想、自主學習進化等能力的人工智能系統”。然而,人工智能技術規模化落地的路徑在何方?
在認知智能領域,人工智能技術在不同應用層面的成熟度不同:“在專才層面,利用人工智能學習行業專家知識和經驗,進而解決有規律可循、有標準答案的問題,是目前AI業界內廣泛認為已經可行的;在通才領域,利用人工智能解決一般性問題,例如回答高考試卷(特點是雖然問題有較為統一的答案,但學科覆蓋面很廣),目前全球沒有團隊解決這一問題;而上升到常識領域,讓人工智能發展出適用于消費者日常生活場景的常識推理能力,目前技術還處在‘六齡童的水平。”
科大訊飛從單一的核心技術提供商模式向基于云端的開放型平臺思維的轉變,始于2007年逐漸興起的互聯網熱潮。伴隨著大數據和云計算的快速發展,百度、搜狗等互聯網公司紛紛入局智能語音賽道,互聯網思維下的技術免費模式對科大訊飛的傳統2B模式形成潛在挑戰。劉慶峰表示:“隨著互聯網應用逐漸興起,我們陸續收到了來自中小企業和開發者的很多反饋,他們很想使用訊飛的技術,但我們的客戶主要定位在大中型企業,因為訊飛提供的技術往往有較高門檻,企業需要先花費高額資金購買訊飛的技術,才能再去開發自己的應用,這對于中小企業和個人開發者來說,過于昂貴。”劉慶峰由此萌生了平臺思路:“用戶擰開水龍頭,就可以接到水,但他不見得非要自己建個小型自來水廠。”