辛妍



您是否曾經夢想有一天能用自己的聲音控制你的房子、汽車,甚至機器人管家?自動語音識別曾經只是科幻小說中的概念,而現在它是信息和通信技術的一個重要組成部分,越來越成為我們日常生活的主料。當您讓您的iPhone“呼叫Tom”的時候,你就在使用自動語音識別。
簡單地說,自動語音識別(ASR)是一種讓計算機識別語音,并將它轉換為書面文本的技術,是語音科學與工程發展最快的領域之一。作為新一代的計算技術,它是人機交互領域繼文本到語音轉換(TTS)和支持交互式語音響應(IVR)系統之后的又一個重大創新。自動語音識別系統的目標是準確、有效地將語音信號轉換成文本,并且不受說話者、環境或者是使用的設備(即麥克風)的限制。
語音識別技術最初是為殘疾人設計的,它可以幫助那些肌肉骨骼殘疾人士實現計算機上的最大生產力。雖然自動語音識別是一項幾十年前就開始開發的技術,但直到Apple的虛擬個人助理SiriTM和IBM的WatsonTM的商業成功才真正展示了這一領域的重大突破。事實上,當2011年底Apple推出新一代的iPhone Siri語音識別軟件時,在某種意義上意味著這個具有幾十年歷史的舊技術對普通消費者來說已經足夠好了。
全球語音識別市場的主導者是總部設在美國的Nuance Communications,其軟件被認為是Siri的動力, 而它的大多數技術依賴于將語音轉換為計算機可以理解的文本。Nuance的語音解決方案支持多達50種不同的語言,并且維護著世界上最大的語音數據圖書館之一;有近三分之二的財富100強公司依靠Nuance的解決方案;Nuance的解決方案已經應用到超過50億部手機和7千萬輛汽車上。在醫療方面,僅在美國就有超過3千家醫院使用Nuance的醫療保健解決方案,超過15萬的醫生和護理人員使用Nuance的Dragon Medical系統。
自動語音識別的發展
最早嘗試設計機器自動語音識別系統是在20世紀50年代,但以失敗告終。第一次成功的語音識別成果產生在20世紀70年代,當時一般的模式匹配技術被推出。由于應用擴展有限,基于統計方法的自動語音識別技術也在同一時期開始開發。如今,統計技術在自動語音識別應用中盛行,常見的語音識別系統可以識別數千字。
在20世紀90年代初,計算機語音識別技術出現了巨大的市場機會。但當時這些產品的早期版本笨重且很難使用,而且不得不做出妥協:它們或者被“調整”為要依賴于一個特定的說話者,或者是只有小詞匯量,或者是用一種非常程式化、僵化的語法。然而,在計算機行業中沒有什么可以長期保持不變。20世紀90年代末期,出現了全新的商業語音識別軟件包,它們比上一代產品更容易使用,也更有效。
自動語音識別研究的“神圣目標”是讓計算機實時地以100%的準確度識別任何一個人說的話,并且不受詞匯量、噪音、說話者特征和口音、或者說話渠道的影響。盡管在這一領域的研究已經有幾十年了,但大于90%的準確率只有在某種程度的制約下才能實現。例如對通過使用麥克風(小詞匯量,無噪音)的連續數字的識別準確率可以達到99%以上;如果系統被訓練學習某個說話者的聲音,那么在可用的商用系統中較大的詞匯也同樣能被處理,只是準確率會下降到90%~95%;而不同說話者不同渠道的大詞匯量語音識別的準確率不超過87%,并且處理時間是實時的數百倍。自動語音識別的性能可能受許多因素的影響,包括技術設計、語音輸入的類型和質量、周邊環境和用戶特征等。當有更多的數據時,自動語音識別系統的性能可以更好,因為這樣統計模型就可以建立在更大的基礎上。Google的自動語音識別系統性能好的原因是它們存儲了每個鍵入或說到Google中的搜索詞,并基于搜索的共性來確定概率。
自動語音識別的應用
過去十年目睹了語音識別技術的顯著改善,高性能算法與系統都已可用,使得自動語音識別的應用越來越廣泛。IT主流使得采用自動語音識別在全球商業中變得更為關鍵,尤其是近年來互聯網協議(VoIP)平臺的擴散刺激了企業對語音識別技術的采用。以支持應用程序開始,語音識別解決方案已經演變成滲透包括航空公司、銀行、倉儲、庫存管理和安全券商等多個行業的核心應用程序,并已經成為差異化服務和建立客戶關系的工具。甚至醫療中心、醫院、制藥公司和其他醫療保健行業參與者也紛紛采用自助語音解決方案,因為這不僅能降低運營成本,同時也提高了客戶的隱私度。
消費者對自動語音識別技術的應用程序范圍從基本的依靠語音啟動的報警系統和手機上的語音撥號,到智能手機應用中的語音股票報價和基于語音的電子郵件,以及更多的有針對性的解決方案,如互動娛樂和語音身份驗證等。同時,自動語音識別也是汽車導航、遠程信息處理系統和信息跟蹤等的重要組成部分。隨著對支持語言學習的創新應用的需求日益增加,使用自動語音識別技術的計算機輔助語言學習(CALL)系統也越來越受關注。
語音自動轉化為文本 我們都聽過像Apple的Siri一類的可以自動識別我們說什么的系統,并想知道我們能否使用這種“自動語音識別”技術來替代手工轉錄口述內容的繁瑣過程。
自動語音識別的一個流行應用是語音自動轉錄為文本,比如將講話轉錄成手機短信、自動數據輸入、直接語音輸入和制備結構化文檔等。日本議會的轉錄系統就使用了自動語音識別。在這種應用下,聲音用電子方式被轉換成文本,并創建會議記錄或者報告草稿等。然后會議記錄或者報告草稿被格式化,編輯修正翻譯、標點或語法中的錯誤,并且檢查一致性和任何可能的錯誤。在有標準化術語的領域工作的轉錄員——比如放射學或病理學領域中——更有可能會遇到語音識別技術。在醫療界,醫療轉錄機可以聽醫生和其他專業醫療保健人員的錄音,并把它們轉錄到醫療報告、信件和其他行政材料中。這一應用具有提高工作輸出效率并改善訪問和控制各種計算機應用的潛力。通過使用語音輸入,自動語音識別應用程序繞過或盡量減少傳統的手動輸入方法(例如鍵盤、鼠標),因此也使它成為有嚴重的肢體或神經運動障礙人士的一種替代輸入法。
同聲傳譯 目前同聲傳譯設備雖然尚未完善,但達到基本上可用的要求卻是指日可待。2012年夏天,倫敦發明家Will Powell展示了一個進行英語和西班牙語即時互譯的系統。對話雙方都戴著與手機相連的耳機,而他們佩帶的特制的眼鏡可以像字幕一樣把翻譯的文字顯示出來。這款即時互譯系統在只要有手機信號的地方就能工作,但目前此系統需要耳機、云服務和筆記本電腦的支持,也就意味著它目前還只能是個設計原型。
2012年11月,日本最大的移動電話運營商NTT DoCoMo推出了一項可以將電話中的日語與英語、中文或韓語互譯的服務。通話的每一方都連續說話,然后該公司的計算機在幾秒鐘內將聽到的內容翻譯到所要求的語言,并將結果視情況適當地用男聲或女聲輸出。
在同聲傳譯領域最誘人的成果可能來自Microsoft。2012年10月,當該公司的首席研究官Rick Rashid出席天津的一個會議時,他的英語演講現場就被翻譯成了普通話,先是以字幕的形式顯示在大屏幕上,接著以電腦合成的聲音讀出。最引人注目的是,Rashid先生的中文版演講與他的英文版演講具有相同的語氣和音調。Microsoft認為,如果以說話者自己的聲音傳遞譯文,聽眾對錯誤的容忍度會提高,比如Rashid先生演講的即時中文翻譯雖然偶有錯誤,但仍收到熱烈的掌聲。
自動語音翻譯技術和智能手機中的應用目前可用的視頻和音頻數據量正在以指數級飛速增長,遠遠超過了人工翻譯的承受力。當人工翻譯不可行時,自動語音翻譯可以發揮重要的作用,它不僅讓通信成為可能,而且可以幫助從海量的數據中找出重要信息。自動語音識別和機器翻譯能讓會議跨越國界和語言地高效舉行。
不僅是技術的進步支持自動語音識別的采用,商業趨勢也如此。在各個行業中,對最新移動技術的需求與日俱增。為順應這一趨勢,許多語音翻譯技術都可以裝在智能手機應用或平板電腦上使用。
不可否認,基于互聯網的解決方案有巨大的優勢,因為當人們說話時他們的數據可以被收集和分析,而識別準確率的一個主要因素是訓練聲學模型的數據量。越多的人對Google Search和Siri說話,這些系統的性能就會越好。但是如果一個系統只能聯網使用,那旅行者的使用就會受限。而英國的一家叫Nouvaris的公司于2012年開發的Nova Search不需要連接到互聯網就能使用。因此,當沒有3G或無線網信號時,你仍然能讓智能手機或計算機通過數據庫進行搜索或回答問題。而當如果有互聯網連接時,該技術可以在幾秒鐘之內就從龐大的數據庫中完成篩選,到目前為止,它已對高達2.45億條的列表起作用。由于是在智能手機上而不是互聯網上解碼語音,Nova Search可以更快速地完成語音指令的數據庫搜索。
Google和Siri基本上是將語音轉換為單詞流輸入到網絡搜索或人工智能口譯員。而Nova Search不同是因為它直接用語音輸入搜索自定義數據庫,它會產生拼音符號流,并將其用在一個非常快的已獲得專利的搜索技術中。通過使用以拼音為基礎的方法,該軟件可以一次搜索整個詞組,而不是只搜索個別單詞。雖然該軟件仍然是在搜索互聯網時最有用,但能在本地使用設備的語音識別功能仍具有一些關鍵的優勢,因為需要發送的數據大大減少,而且很快,要知道語音是一種非常昂貴的信號發送。該軟件的應用包括對智能手機或電腦說出目的地,然后它會幫你找到公共交通路線等。
語音識別驗證 在興起的所有類型的生物特征識別應用中,基于語音的身份驗證是用戶排斥較小的安全驗證,它是一種非接觸式、非侵入式且易于使用的方法。使用說話人的語音進行驗證可以有許多應用。例如,當倉庫中員工在工作中走來走去時,可以給他們配備可穿戴/便攜式語音數據收集系統使其進入倉庫;可以對因酒后駕車而定罪的罪犯方便地進行遠程酒精測試。結合移動定位系統,語音驗證還可以用于跟蹤保安人員,以確保他們自己在正常巡邏,而不是讓他們的朋友在幫他們巡邏。另外,語音驗證也可作為多安全系統用來控制過境。比如在Montana州的Scobey,氣溫有時會降至零度以下,于是大多數其他形式的生物識別技術不再可行,而語音驗證裝置卻可以照常工作。
在金融方面,語音驗證也開始有了應用。Nuance公司2013年5月的調查數據顯示,有85%的人對當前的身份驗證方法不滿,因為要登錄到銀行帳戶、旅行網站或其他個人帳戶時,必須要記住許多個人識別碼、密碼、安全問題及其答案;數據還顯示,如果能有相同高的安全級別的話,90%的人希望能使用語音識別解決方案來代替傳統的身份驗證方法,因為語音識別技術可以通過每個人獨特的聲音來標識他,從而消除了要記住和鍵入密碼、個人識別碼的麻煩,讓身份驗證過程變得快速而簡單。
2013年5月,Barclays財富投資管理部署了Nuance的Free Speech語音識別方案,成為第一家在呼叫中心將被動的語音識別技術部署為主要客戶驗證手段的金融服務公司。自推出以來,超過84%的Barclays客戶已在Nuance語音生物識別技術解決方案中注冊,其中有95%的人第一次使用時就成功驗證了身份。更妙的是,客戶與聯系中心的經驗反饋也有所改進,93%的客戶對新的身份驗證系統就速度、易用性和安全性的評分至少為90分。Nuance的語音生物識別技術讓象Barclays銀行這樣的組織通過更直觀、更透明的認證方式重新定義它們的客戶服務經驗,減輕了客戶和服務代理的負擔。
汽車上的應用 技術的發展一日千里,這極大影響了現代汽車中的駕駛員界面。先進的駕駛員輔助系統、自動泊車制動系統和無鑰匙點火等創新從根本上改變了駕駛員界面的構成。這些新的舒適性、信息和娛樂系統要求駕駛員處置大量的按鈕、旋鈕和屏幕,并且這一需求還在不斷增加。移動智能手機和平板電腦也被越來越多地納入汽車中,以滿足駕駛員在行車中對連接和新服務的需求。對駕駛員來說,這顯然帶來了駕駛干擾和信息超載的風險,尤其是這些主要車輛控制還只是冰山一角。而最有前景的解決方案似乎是語音控制,并且這早已是汽車行業的愿望。2013年現代的下一代汽車將有自然語言的語音啟動電話撥號、消息聽寫、目的地輸入等,并能在車內或在線音樂服務中搜索音樂。然而需要認識到的是,即使有語音控制,駕駛員分神的風險依然存在。
自動語音識別的其他應用 移動廣告是數字廣告中增長最快的領域之一。根據eMarketer的數據,2012年全球移動廣告支出達84.1億美元,是2011年的40億美元的兩倍以上,并且預計到2013年達到近370億美元。作為創新性的新的移動廣告格式,語音廣告是游戲規則改變者,它可以讓人們與他們喜歡的品牌有動人有趣的雙向對話,品牌可以通過讓消費者在廣告中暢所欲言而令其對品牌產生持久的印象。在以前,從來沒有一個品牌能夠有超過10億用戶的個人對話,而這正是品牌一直渴求的與公眾的親密關系。目前Nuance VoiceAds已經完全可以做到這一點。
2013年,松下新的高清智能電視SMARTVIERA采用Nuance配備的Dragon TV系統,人們可以坐著通過語音來查找內容、搜索網頁、控制音量等, 創造了更多的互動和智能電視體驗。
另一個更為有趣的應用發生在俄羅斯,該國最大的零售銀行聯邦儲蓄銀行(Sber bank)開發了一種使用語音識別來測謊的自動提款機。該機器通過將客戶對一些問題的反應與一個記錄審訊中說謊人的數據庫比較,從而確定客戶是否說謊。
自動語音識別的未來
除了從事自動語音識別的研究和開發的科學家和技術人員,大多數人考慮自動語音識別時低估了它的復雜性。它不僅是自動的文本到語音,復雜的識別任務的一個必要條件是自動語音識別需要有大的數據容量和存儲器的快速計算機,并且需要語音科學家、語言學家、計算機科學家、數學家和工程師的參與。這些參與者應用神經網絡、心理聲學、語言學、言語感知、人工智能、聲學語音學等領域的知識,為實現人類和機器之間的自然會話這一最終目標共同努力。
過去三十多年來,語音識別研究的特點是小改進的穩步積累。由于語音識別性能的提高和更快計算機的可用,商業研究和其他學術研究繼續把重點放在日益難以解決的問題上。其中一個關鍵領域是提高語音識別性能的強健耐用性,這不僅是指抗噪音方面,也包括在所有可能導致性能大幅下降的情況下的強健耐用性。另一個關鍵領域關注的是一個機會,而不是一個問題,因為這項研究嘗試利用許多應用中的大量高達數百萬小時的可用語音數據。如果靠人來把這些語音轉錄成文本,成本相當高昂,因此研究關注的是開發一種新的機器學習的方法,使之能有效地利用大量未標記的數據。還有一個研究領域是更好地理解人的能力,并使用這種理解來提高機器識別性能。
自動語音識別產品將會不斷完善,并被更多地使用。雖然在鍵盤上打字相對容易,但很難有人可以像說話一樣快速準確地鍵入文字。基于我們生活的現代世界里時間是最重要的這一事實,自動語音識別將幫助人類提高生產力,讓我們能夠更容易更迅速地運行搜索查詢、撰寫重要文檔和管理我們的日常生活。此外,企業還將能在沒有互聯網連接時隨時使用相應的應用程序,而目前在旅行時這些應用并不總是可用的。
下一代的移動語音翻譯應用將會針對特定的行業量身定制,這種特定的環境或目的假定可以提高準確性。1993年,自動語音識別系統的準確率只有10%,到1995年大概為48%,而2001年系統的準確率可達80%以上。基于自動語音識別系統準確性的不斷提高,加之人類自身聽語音演講時準確率可達96%這一事實,相信在不久的將來,語音識別設備就能以比我們自己還要高的準確度來抄寫我們的語言。