機器如何學會聽懂人說話
“在美國DARPA計劃剛啟動語音識別理解研究計劃的時候,有人認為其困難程度無論怎樣也不會比‘阿波羅登月’更高。事實卻證明,其挑戰性一點不亞于‘阿波羅登月’。”
一個剛學會走路的小孩搖搖晃晃穿過起居室,來到墻角的一個光滑的黑色圓柱體前停下來。他尖聲說道:“Alexa,播放兒童音樂。”雖然發音含混不清,但是這個圓柱體明白了請求,房間里響起了音樂。
Alexa是亞馬遜的云端語音識別軟件,它是黑色圓柱體音箱Echo的大腦。Alexa的面世在全球造成了轟動。在人工智能的支持下,Alexa學會了回答越來越多的問題,有朝一日可能會進化到能與人自由交談的地步。
但是語音識別軟件發展到今天經歷了漫長的道路。雖然Echo比啤酒杯更瘦,但是第一批語音識別機器幾乎可以占滿一整個房間。
人類很久以前就試圖對機器講話——或者至少讓機器對我們說話。1773年,俄國科學家克里斯蒂安·克拉特齊斯坦開始思考語音技術。他制造了一個特別的設備,把共鳴管和風琴管連接起來,發出類似于人類語言中元音的聲音。就在十多年后,維也納的沃爾夫岡·肯佩倫制造了一臺類似的機械聲學語音機器。在十九世紀初,英國發明家查爾斯·惠斯通用皮革共鳴器改進了馮·肯佩倫的系統。該系統可以通過手動調整或控制發出像語言一樣的聲音。
到1881年,亞歷山大·貝爾和他的兄弟查爾斯·天特一起制造了一個蠟涂層的旋轉圓柱體,一根唱針對傳入的聲音壓力作出反應,切出垂直的凹槽。這一發明為1907年獲得專利的第一臺留聲機鋪平了道路。他們是希望用機器來聽寫秘書念的筆記和書信,這樣就不再需要速記員。隨后,這些記錄可以用打字機打出來。這一發明很快在全球流行起來,在越來越多的辦公室里,秘書會帶著笨拙的耳機,聆聽錄音并完成轉錄。
但所有這些雛形都是被動式機器——直到1952年自動數字識別機“Audrey”的問世。它由貝爾實驗室制造,體型巨大,占滿了一個六英尺高的繼電器架子,耗電量很大,連接著大量纜線。它能夠識別語音的基本單位“音素”。
那時,計算機系統非常昂貴、笨重,存儲空間和運算速度有限。但是Audrey仍然能夠識別數字的發音——零到九——準確率高達90%,至少它的開發者戴維斯發音時是這樣。當面對其他幾位指定的說話者時,它的準確率為70%到80%,但如果是不熟悉的聲音,它的準確率就會大大降低。這在當時是一個驚人的成就。

亞馬遜Alexa可以通過語音控制我們家里的恒溫器、控制智能手機或筆記本電腦播放的音樂
由于Audrey只能識別指定說話者的聲音,它的用途就比較有限:比如它可以為收費電話的接線員提供語音撥號的功能,但實際上沒有這個必要,因為在大多數情況下,通過手動按鈕撥號成本更低,且更簡便。雖然它并沒有用在生產系統中,但是它說明了語音識別是可以實現的。
二十世紀七十年代和八十年代,貝爾實驗室語音研究投入了大量精力研究以下內容:識別數字零到十以及“是”與“否”。“電話系統在能夠識別這12個單詞后,就能夠單純依靠機器完成電話接線。”奧戈爾曼說。
Audrey并不是唯一。二十世紀六十年代,日本的幾個團隊也對語音識別進行研究,最著名的包括東京無線電研究實驗室的元音識別器、京都大學的音素識別器和NEC實驗室的數字語音識別器。
在1962年的世界博覽會上,IBM展示了它的“鞋盒”機器,它能夠理解16個口頭表達的英語單詞。美國、英國和蘇聯還有其他研究。蘇聯的研究人員發明了動態規整算法,并將其用來制造一個能夠駕馭200個單詞的識別器。但這些系統大都基于樣本匹配,也就是把單詞與存儲在機器里的語音進行匹配。
最大的一次飛躍發生在1971年,當時美國國防部的研究機構Darpa出資開展一個為期五年的語音理解研究項目,目標是達到1000個單詞的詞匯量。于是,Harpy在卡內基梅隆大學誕生。
“在美國DARPA計劃剛啟動語音識別理解研究計劃的時候,有人認為其困難程度無論怎樣也不會比‘阿波羅登月’更高。事實卻證明,其挑戰性一點不亞于‘阿波羅登月’。”中國科學院自動化研究所研究員徐波研究員這樣說。
和它的前輩不同,Harpy能夠識別整句話。
從單詞轉到詞組并不容易。“句子里的單詞會交匯起來,你會弄不清楚,不知道單詞從哪里開始,到哪里結束。于是,你會得到相似卻錯誤的結果。”在Harpy項目工作過的韋貝爾說。
Harpy一共能識別1011個單詞,這大概是一個普通的三歲小孩的詞匯量。它的準確率也相當不錯,所以實現了Darpa最初的目標。“它成了現代語音識別系統真正的祖先。”
在之后的一些年里,語音識別系統進一步發展。在二十世紀八十年代,IBM制造了語音激活的打字機Tangora,它能夠處理20000個單詞的詞匯量。IBM的方法是基于隱馬爾可夫模型,把統計學納入數字信號處理技術。這一方法讓我們有可能預測哪些音素最有可能出現在某一給定音素的后面。
IBM的競爭對手Dragon Systems提出了自己的方法。此時,技術取得了長足的進步,語音識別終于能夠應用到實際生活中——比如可以讓兒童訓練講話的玩偶。雖然取得了很多成就,但是當時的所有程序都采用了不連續聽寫,這意味著用戶必須在每個單詞后停頓一下。1990年,Dragon Systems發布了第一款消費語音識別產品Dragon Dictate,9000美元(約62000人民幣)的售價令人咂舌。然后,在1997年,Dragon Naturally Speaking問世——這是第一款連續語音識別產品。
“在那以前,語音識別產品局限在不連續的話語,這就意味著它們一次只能識別一個單詞。”Dragon總經理彼得·馬奧尼說。Dragon是連續語音識別的先鋒,它首次實現了實用的語音識別。Dragon Naturally Speaking每分鐘能夠識別100個單詞的話語——時至今日,它仍在使用。比如美國和英國的很多醫生用它來歸檔醫療記錄。
在過去的十年間,大致基于人腦工作模式的機器學習技術讓計算機能夠接受大量語音的訓練,從而成功識別不同人的不同口音。然而,直至谷歌發布了用于蘋果手機的谷歌語音搜索應用“谷歌聲音搜索”,技術才又繼續向前發展。谷歌能夠運行大規模的數據分析,匹配用戶的單詞和數十億個搜索詞條中積累的大量人類語音的例子。蘋果也很快推出了它自己的版本,名為Siri。
所以,下一步會發生什么?“在語音處理領域,最成熟的技術就是語音合成。”奧戈爾曼說:“機器語音和人類語音現在已經基本上無法區分。但是在很多情況下,自動語音識別與人耳相比仍有較大差距。”雖然在一個幾乎沒有噪音的環境下,一個人只要講話清晰就能被自動識別,但是當環境嘈雜時,最新技術仍束手無策。就連Alexa也是這樣,如果房間里很吵鬧,你就必須靠近黑色圓柱體,清楚大聲地對它講話。
亞馬遜的目標是制造一個完全可由語音控制的云端計算機——這樣你就可以自然地與它交談。當然,好萊塢的魔法仍然領先于今日的科技。
(《海外星云》)