
文/高妍 孫繼文
時至今日,讓機器“聽話”,已經不是什么新鮮事了。在不少場景下,動口替代了動手。
用語音控制手機,可以完成編輯短信、打電話、查詢交通、指揮導航等指令;對電視說話,電視就能完成開關機、轉臺、調節音量亮度,甚至發送彈幕等任務……類似的還有,在行駛中對汽車下命令:幫我打電話給XX;躺在床上對空調說:把溫度調到26度;以及教會小朋友用語音控制手表學英語、查天氣、定鬧鐘等等。
語音識別技術,幫我們實現了這些曾經只能出現在科幻片中的智能化應用。于是,人們開始有更高的期待:人與機器自由交流,是否也可以在不遠的將來實現?
對此,清華大學電子工程系長聘副教授吳及在接受本刊采訪時表示,讓機器“聽話”,只是一個單向的過程,而人機交互則是雙向的,甚至可以是多人參與。這需要機器不僅聽到、識別語音,更重要的要理解語音及交互時所處的場景、所蘊含的背景知識和經驗。從聽見到聽懂再到自由交流,并不像人們想象的那么簡單。
吳及,清華大學電子工程系長聘副教授,長期從事語音識別技術研究、系統開發及產業化推廣工作,在20余年的積累和堅守后,迎來了語音識別產業發展的春天。
一項看上去簡單的研究
語言是人類交流中最自然、最重要的方式。它的普遍易見,影響了人們的認知——說話那么簡單,讓機器學會說話肯定也不難。恰恰相反,吳及說,語音識別是一項看上去很簡單,但實現起來很難的技術。
早期的人工智能先驅也曾被誤導。“每當出現一些新的進步,就會積累起學界、工業界和普通百姓的高期望,從而形成熱潮,但當做出來的東西不能滿足大家的要求時,期望就會變為失望,整個行業也會從頂峰滑落,形成低谷。”發端于上世紀50年代的語音識別技術,就曾在70年代和90年代形成熱潮,但都很快滑落低谷。
吳及開始語音識別技術研究是在1995年,當時的語音識別技術研究正處于低谷,不溫不火。
那一年,吳及完成了清華大學電子工程系的本科課程,因為“想做創新性更強、更有意思的工作,所以選擇了語音識別作為研究生階段的主攻方向”,從此成為清華大學電子工程系語音識別實驗室的一員新兵。
吳及的起點很高。這個由王作英教授創建于1987年的實驗室,從孤立字、連接詞到連續語音,一步步積累和發展,一直是國內語音識別領域最有影響的研究團隊之一。
因為技術門檻高,進展緩慢,語音識別被譽為智能語音行業的“皇冠”。吳及介紹,語音識別研究的難點主要在兩個層面,一是語音,二是語言。
“從語音層面來講,人對聲音有很強的區分能力,能一下子分辨出是有意義的聲音還是噪聲;在很多人說話的時候,能準確聚焦自己所關心的人的聲音。這些對人來說再自然不過的事情,要機器實現非常困難。”吳及解釋,同時,人在用語音表達的時候,往往是碎片式的,存在很多不流利的現象,比如停頓、猶豫、重復等等;而且不同的人語速、口音差別可能會非常大。這些都給語音識別帶來了很高的技術難度。
而在語言層面,則更加困難。因為交流是相互的,不止要聽見,還要聽懂,理解,并作出正確的反饋。但是,“在很多情況下,人和人的交流是建立在共同理解的前提下,大家擁有共同生活經驗、知識背景,甚至閱歷。”所以,吳及強調,“理解語言,并不僅僅是理解直接表達出來的字句。從語音識別走向語言理解,我們還有很長的路要走。”
這一次是真正的變革
盡管技術門檻高,但近年,特別在2011年之后,語音識別技術卻迎來新一輪的熱潮,并取得了非常明顯的進步。是真正的變革,還是又一輪泡沫?
“我相信它是在峰頂,也不會再輕易掉到谷底。它會越來越平常,越來越多地進入老百姓的生活。”吳及認為,近年語音識別技術的蓬勃并非虛幻的泡沫堆積,而是有實實在在的技術和產業支撐——
首先,移動互聯網的興起,為語音識別技術的應用提供了前所未有的巨大空間。當智能手機成為人們使用最頻繁的通訊工具和信息助手,人機交互的場景變得與以往不同。原來PC端的首選工具——鍵盤、輸入法,在手機端顯得很不方便,而在PC端仿佛錦上添花的語音識別,在手機端卻成為雪中送炭。當需求非常迫切的時候,對差錯也就有了更高的容忍度,因此還稱不上完美的語音識別技術就得到了更大的應用空間。
其次,云計算和互聯網的發展,幫助語音識別的精度得到了極大提升。“云+端”的模式,使得對語音數據的識別可以在云端進行,然后把識別結果傳到終端上。這意味著,一方面由于云端擁有更強的計算能力,所以能夠構建更復雜的模型,實現更好的識別性能;另一方面云端可以利用實際的海量數據不斷更新和優化識別模型,形成正反饋,不斷提升識別系統的性能。
再次,從2011年開始,深度神經網絡越來越廣泛地被應用在語音識別的技術研究和系統實現中。長期以來,為了獲得更好的識別性能,高性能的語音識別系統的構建和模型訓練流程越來越復雜,繼續優化十分困難。深度神經網絡不僅擁有構建極高復雜度模型的能力,能夠充分利用海量數據來實現模型優化;還將傳統上特征提取和分類識別的任務聯合起來實現整體上的優化。它的出現,很大程度上改變了語音識別系統的構建方式,為語音識別技術的研究提供了非常大的助力。
這些條件的具備,幫助語音識別技術取得了顯著的進步,這種進步也折射到了應用領域。而政府在智能語音技術研發及產業化方面的政策支持,更為語音產業發展創造了良好的發展環境。
吳及介紹,智能語音技術應用非常廣泛,不單包括前面提到的手機、電視、玩具、汽車等實時交互的場景,也覆蓋了正在興起的智能客服、主動營銷等智能語音服務。總體而言可以分為在線的和離線的兩個方向。
在線的語音識別應用已經開始融入人們的生活,比如用語音實現文字輸入、地圖導航,比如利用語音識別進行人機對話,比如聲控機器人、飛機、汽車。這些都屬于在線應用的范疇。
離線應用則是通過與大數據技術的結合,對海量語音數據進行處理、挖掘和分析,開發和利用其中的價值。“語音數據是典型的非結構化數據,采用傳統的手段很難有效利用,而人工轉錄成本又過高。現在有了語音識別技術,我們就可以通過語音識別系統將其轉化成文字,在這個前提下,進一步的數據檢索和分析,也就有了可能性。”
吳及認為,離線應用空間同樣廣泛,有巨大的挖掘價值,一些企業級的服務應用已經開始。而他們,已經在這方面取得了顯著的成果。
搜索語音成為現實
相信大家都有跟呼叫中心客服打交道的經歷。移動、銀行、保險、電視廣播等都通過呼叫中心提供服務,大量的呼叫中心每時每刻都在產生海量的語音數據。
海量語音數據的背后,隱藏著無數客服坐席的高強度工作、企業的高成本運營以及海量數據的高難度管理。能否實現呼叫中心的高質量服務和高效率管理,深入挖掘運營價值呢?
在呼叫中心一對一的服務過程中,客服是否服務到位,除了客戶本人,無人知曉,哪怕錄音被保留。因為數據量非常之大,人工檢查由于時間和費用成本極為高昂而不具備可行性。因此對海量語音數據進行檢索、分析具有很大價值,一方面可以監控客服代表的服務質量,優化產品和服務模式;另一方面,通過語音識別和數據挖掘技術,可以更全面地了解產品和服務的實際情況,深度挖掘客戶價值,從而幫助決策層和管理層進行科學研判和趨勢預測。那么,有沒有辦法高效挖掘蘊藏在海量語音數據中的寶藏呢?
在這樣的背景下,吳及帶領團隊開展了“面向海量語音數據的識別、檢索和內容分析技術及其應用”項目,設計研發了應用于呼叫中心的自動客服和語音分析整體解決方案,技術領先,效益顯著,獲得2014年度北京市科學技術獎一等獎。
項目以具有海量語音數據和密集交互特性的呼叫中心作為應用場景,通過一系列自主技術創新和系統創新,設計研發了應用于呼叫中心的自動客服和語音分析整體解決方案。所實現的電話交談語音識別正確率、語音檢索效率和用戶需求理解正確率等主要技術指標均達到國際領先水平。
這一項目的成功,意味著以大量錄音數據正確轉化為文字為前提的語音分析研究不再繁瑣不堪,意味著從大量錄音數據中自動快速找出指定關鍵字成為現實。
項目開創了采用智能語音技術改造呼叫中心的行業新方向,得到市場高度認可,在與國際廠商的競爭中處于領先地位。從2011年開始已經成功進入中國移動、中國聯通、中國電信、工商銀行、建設銀行、招商銀行、浦發銀行、中信銀行、華夏銀行、平安集團、陽光財險、中國國航、攜程網等20余家主流企業,創造了顯著的社會和經濟效益。
更為重要的,是該技術成果擁有廣泛的適應性,能夠為公共安全、政府工作等需要對信息資源進行深入開發利用的領域提供便利。“我們一直都在繼續研究,后面還有很多工作可以做。我們考慮在更多場景下做語音分析,努力實現結構化數據和非結構化數據的融合分析,希望能夠更大的拓展商業智能的應用場景。”
產學研聯動助力產業發展
現階段,語音識別仍有許多難題有待于進一步研究,比如噪聲的問題、方言的問題,比如多人對話情況下鎖定、提取某個特定人聲音的問題等等。
但這些,并不妨礙語音識別產業的迅猛發展。同時,伴隨著這種發展,越來越多的人意識到,這個產業的發展不只是語音識別自己的事情。“語音識別必然要和后面的語言理解建立起關系,如果沒有理解,只把聲音轉成文字,意義并不大。”
吳及認為:“更重要的,是我們不能停留在識別本身,而是怎么去理解。我們理解一件事,不僅在語言本身,更要與很多應用場景、知識積累緊密聯系。”“大概在2008年,我們意識到這個問題,開始有意識地向更寬的方向延伸。”
于是,2009年,實驗室更名為多媒體信號與智能信息處理實驗室,意味著將面向多媒體信號,針對其中所蘊含的內容,采用包括統計模式識別、機器學習、數據挖掘等海量數據處理技術,研究數據和信息的認知、理解、以及有效管理和利用。
同時,在智能語音進入產業化層面之后,技術不再是唯一要面對的問題,無論產品還是市場,都需要整個產業上下游的聯動,需要國家從更宏觀的層面加以規范指導。
作為國家戰略性新興產業,智能語音產業是我國信息產業中為數不多掌握自主知識產權并處于國際領先水平的領域。“每一行代碼都掌握在中國人自己手里,系統也都是獨立自主不依賴別人的。”正因如此,這一產業才迅速凝聚了各個層面的力量。
而吳及和實驗室,也一直在科研之外的更多層面發力,以推動整個語音產業的進步。
2004年起,吳及擔任工信部語音標準工作組成員,以行業專家的身份參與標準制定工作。
2006年,吳及參與創建的清華—訊飛語音技術聯合實驗室成立,并一直擔任主任。
2012年,中國語音產業聯盟正式成立,吳及擔任技術工作組組長。
聯合實驗室的成立,打通了核心技術研發、產品研發、產品轉化和市場推廣的產業鏈條,實現了良性的產學研循環。吳及介紹,成立至今,聯合實驗室的研究方向已經從最初的語音識別拓展到音頻內容分析、語音檢索、語言理解、數據挖掘等方向,研究成果已廣泛應用于語音芯片、客服質檢、短信導航、信息監控等領域,為社會信息服務、國家公共安全等作出了重要貢獻,有力推動了我國語音產業的發展。
中國語音產業聯盟的成立,則有應運而生的意味。2008年開始,移動互聯網逐步興起,2010年科大訊飛發布第一代語音云,2011年蘋果推出語音助手siri,智能語音產業熱潮初現端倪,國內越來越多的研究人員和企業看到了語音產業的重要性和光明前景。因此,中國語音產業聯盟的19家發起單位中,不僅包括了清華、科大等語音技術研究機構和核心技術提供商科大訊飛,還包括了聯想、華為、中國移動、中國聯通、中國電信、長虹、創維、上海汽車等下游企業。“這種更大范圍的產學研聯合、聯動,更有利于整合產業鏈上下游企業資源、加強產學研用合作、推動語音技術創新和產業發展。”
幾年過去了,聯盟的影響力也越來越大,發布白皮書、領導制定標準、爭取政策支持、加強國際交流……聯盟一直站在更高的角度、從更宏觀的層面助力中國智能語音產業的發展。
浪潮涌動下,資本界的追捧也不可避免地帶來了泡沫。“適度的泡沫很多時候是需要的,沒有泡沫就吸引不了人、吸引不了資金,但要把泡沫吹太大了,早晚有一天會破掉。”吳及強調,語音識別技術和產業確實取得了十分顯著的突破和發展,但同樣的,我們也應該正視現在和未來將要面臨的難解之題。正如有人所說的,“盡管已經成績斐然,但剩下的難題和已經克服的一樣令人生畏。”
與其追逐潮流與資本,不如將精力投注在核心技術的提升上。現階段,吳及更加專注技術,正如過去20年他們所堅持的。他們研究利用深度神經網絡來解決資源有限情況下的語音識別(比如小語種)問題;他們拓寬角度,開展音頻事件檢測,做場景分析;他們攻關多人交互模型,努力讓機器“聽懂話、能交流”……
他們在朝著更多的未知走去,那里存在潛在的風險,也同樣蘊含著無限的可能。沒有人能準確預測何時才能實現真正的人機自由交流,但可以非常確定的是,語音識別和人機交互技術將無限縮小人類與機器之間的隔閡。