田亮
2015年12月21日下午,《環球人物》記者一走進北京國家會議中心,就聽到林志玲的聲音:“AI(人工智能)復始,萬物更新,科大訊飛發布會馬上就要開始,請將手機調至靜音……”記者心想:“難道林志玲也來參加發布會了?不對呀,她來了也不會干這個活啊!”再仔細一聽,聲音原來是由科大訊飛公司合成的,幾乎真假難辨。
好戲還在后頭。此次發布會的重頭產品——“訊飛DingDong音箱”當天的表現堪稱驚艷。一位工作人員通過它預訂了一張北京到合肥最便宜的機票,跟它進行了10余輪對話,“訊飛DingDong音箱”都從容應對,還能識別“剛才”等語境語詞。訂完機票,工作人員還通過直接與“訊飛DingDong音箱”說話,就打開了加濕器和空調。經過幾分鐘的交流,它記住了工作人員的聲音,兩個陌生人成了“朋友”。
在這次發布會上,科大訊飛董事長劉慶峰以人工智能60周年切入,興奮地說:“中國人在人工智能上缺席了60年,從今往后,中國的人工智能水平將引領世界!”他告訴《環球人物》記者說:“2015年7月10日,我在向李克強總理做匯報時說,未來的創新創業,中國如果不能抓住人工智能的產業主導權,又將像原來一樣給全世界打工,處于價值鏈的低端。掌握了人工智能產業的主導權,我們就有全球話語權。”劉慶峰接受《環球人物》記者采訪時說。
機器的普通話水平可比一般人高
科大訊飛是亞太地區最大的語音與人工智能上市公司,在語音合成、語音識別和自然語言理解技術等方面居于全球領先位置,人臉識別技術更是超過美國聯邦調查局。可這家企業從創辦到成為上市公司,不過16年時間。
1990年,劉慶峰在中國科技大學(以下稱科大)讀書時,就一心想出國深造,但老師王仁華改變了他的想法。“王仁華是科大第一個讓本科生在實驗室搞研究的,我就是其中之一。”劉慶峰說,“我一看,實驗室里太有意思了,機器居然能說話!我就在實驗室里搞起科研。”
大四時,王老師拿來一款日本人設計的軟件,運算能力很低。他想讓劉慶峰把它的效率提高一倍。劉慶峰用一個月時間把它的運算速度提高了10倍。王老師說:“你干脆用它做一個語音合成器。”劉慶峰本來準備跟師兄們做一套語音合成系統,參加國家的比賽。王老師看到劉慶峰的實力后,又讓他自己做了一套系統,這樣科大以兩套系統參賽。賽后,評委們對劉慶峰的作品感到很驚訝。
當時,語音合成有兩種方法:一是把每個音節拼到一起,音質好,但計算機讀出來顯得很頓、很不自然;二是模擬人發音的生理過程,把氣流、聲帶等設計成各種參數,聽起來就很流暢,但音質不高,吐字不清。劉慶峰把這兩種方法結合起來,引起很大的轟動。1998年,他在業界率先讓計算機語音合成水平達到3分,在國際上拿了不少獎。“播音員水平是5分,普通人說話水平是4分。”目前,他已讓機器的英語口語水平達到4.2分,“美國的MIT能拿3.6分,我們是全世界唯一超過4分、比普通人念得好的”。
1999年,劉慶峰讀博士時創辦了科大訊飛,“當時就有信心做到世界第一”。但他很快發現,在市場上取得突破要比技術上更難。最早,他率領團隊開發了一套面向大眾的桌面語音軟件,但“當時盜版太嚴重,肯花幾百塊錢買軟件的都是領導干部,他們又不會用電腦,甚至沒開顯示屏就打來電話說軟件有問題”。再加上沒有更好的銷售渠道,又不敢做廣告,這款產品“完全失敗”了。
后來,劉慶峰轉為做行業產品。那時,168電話查詢平臺全靠播放錄音,解決不了海量和動態信息,劉慶峰就通過使用語音合成打動了對方,但要掏錢時對方就不買了。對方說:“你們幾個小屁孩在一起搞了個小公司,我們怎么敢花幾百萬買你們的產品?我們情愿買華為、中興的,即使他們的產品沒有語音合成功能也無所謂。”
最后,劉慶峰通過把技術賣給華為這樣的公司才總算開始贏利。“像‘intel inside那樣,我們強調‘iFLYTEK inside(內置訊飛科技)理念,逐漸有一批行業內的伙伴認識到我們的價值。2000年年底,我們發展了50多個客戶。”2008年,科大訊飛上市。就像在技術上的創新一樣,劉慶峰在市場上的創新還有很多。近年來,科大訊飛的營業收入仍然保持著40%—60%的高增長率。
從能聽會說到能理解會思考
《環球人物》:語音識別與人工智能是怎樣的關系?
劉慶峰:語音是人工智能最重要的切入點,它是人機交互的入口,不是一個簡單的錄入、合成,而是遠場識別、噪音識別、多輪交互、Always On(隨時都在聽候指令)。今天手機中的軟件,必須點一下,它才能工作。而像“叮咚音箱”這樣的設備,無需點擊按鈕,直接告訴它干什么即可。
比如,我說“給老爸打個電話”,設備會問“老爸電話是多少”,我告訴它老爸的電話,它就能記住,下次就不用再問了。再比如,你說“我想聽劉德華的歌”,設備第一次可能會問你喜歡什么類型的,你告訴它,它就能自動幫你選出來,聽過多次劉德華的歌之后,它就可以根據你說話的語氣、語境自行判斷出你想聽哪首歌,會慢慢變得比你更懂你。
《環球人物》:以語音為入口,需要一個安靜的環境,但這個環境并不容易獲得。
劉慶峰:我們可以進行噪音識別,比如在汽車環境下,在高噪音環境下,讓語音識別達到實用門檻,我們在業界已率先獲得突破。2015年4月,寶馬汽車做了車載語音識別水平測試,我們是86%的準確率,美國Nuance取得第二名,準確率只有74%,而實用門檻是85%。
位于安徽合肥的科大訊飛公司總部。
《環球人物》:移動互聯網之后,人工智能是否將挑起下一個時代的大梁?
劉慶峰:人工智能的時代已經到來。IT產業發展過程中經歷了5次浪潮,計算機面市是第一次,小型機是第二次,PC是第三次,互聯網是第四次,移動互聯網是第五次。下一個風口就是萬物互聯,以智能家居、穿戴式設備、車載電子等為代表。如果設備離你比較遠,你沒辦法用手、鍵盤操控,或者在走路或開車等移動情況下使用設備,就必須要用語音來操控。所以,我覺得語音為主、觸摸與鍵盤為輔的人機交互時代正在向我們走來。
我們現在正努力使人工智能設備從能聽會說向能理解會思考轉變。如果機器設備不能理解、思考是沒法交互的。我們平時用百度搜索,結果可能有千百條,那是因為有屏幕。在萬物互聯時代,如果用語音交互的話,一條一條報給你聽,你可能聽到第八個就崩潰了,所以設備必須能準確理解,多輪交互。
人工智能的三個階段
《環球人物》:很多人了解人工智能是從美國大片開始,像“鋼鐵俠”這樣的能力,現在能否實現?
劉慶峰:現在我們把人工智能發展分為3個階段,第一階段是計算智能,就像IBM的“深藍”電腦能贏國際象棋大師,那是因為它的計算能力強,把所有可能性都算一篇,所以計算智能階段,機器已經超過人了。第二階段是感知智能,像人有視覺系統,機器可以有紅外、紫外系統;人有聽覺系統,機器有超聲和次聲系統,人的正常聽覺范圍是50到3400赫茲,而這個范圍以外的聲音機器也能聽見。現在的很多領域,機器的感知智能已經超過人了。第三階段是認知智能,現在還面臨巨大的挑戰。像“鋼鐵俠”這樣的機器人,現實中其軀體部分已經做得越來越接近人了,關鍵是大腦,還面臨挑戰。
《環球人物》:怎么判斷、比較機器的智能化水平?
劉慶峰:現在有兩種測試。一種是圖靈測試:人和機器都躺在你后面,你們聊天,你的問題有的機器回答,有的人回答,你判斷回答你問題的是機器還是人,如果機器的回答讓你認為它是個人,它就通過圖靈測試了。
隨著人工智能的發展,現在人們提得更多的評價方法是機器能否通過高考。美國華盛頓大學圖靈中心提出讓機器人通過美國的生物學科入學考試。日本的目標是由國立情報研究所提出來的,準備讓機器人在2021年考上亞洲排名第一的東京大學。在我們中國,2014年啟動了人工智能的一個標志性項目——科技部首個人工智能重大切入項目,科大訊飛為總牽頭單位,目標是三到五年內,機器人能考上一本。機器考及格很容易,因為它可能只憑借記憶就能實現;考上三本就很難了,需要比一般的學生強;要考上一本,意味著要超過80%的考生,這就要靠很強的邏輯推理。
《環球人物》:現實生活中,人工智能有哪些較為成熟的應用?
劉慶峰:2015年7月,我們在安徽的合肥和安慶做初三學生學業水平測試,英語和語文作文,先是老師打分,然后機器打分,把有差距的挑出來,由人工專家組來評,到底哪個打得準。結果80%以上的情況是機器比人準,引起業界非常大的轟動。日本高考機器人項目組長2015年7月20日到科大訊飛參觀,感到很震驚,回去就寫文章說,中國的人工智能水平已經超過了日本。
下一步在醫療領域,人工智能可以解決全科醫生奇缺的問題,它可以像幫助學生學習一樣,學習過各種病歷,然后幫助醫生進行分析。我們正在合肥做驗證,國家衛計委也非常關心。人工智能可以在非常多的領域代替或輔助人工,將來會深刻改變整個社會。
人物簡介:
劉慶峰,1973年生,安徽涇縣人,畢業于中國科技大學。1999年創辦科大訊飛公司,現任董事長,2013年當選CCTV中國經濟年度人物。