智能語音技術(shù)：超越人類水平

2017-02-10 15:35:17楊玄章

大學生 2017年1期

關(guān)鍵詞：人類智能

楊玄章

智能購物助理，對著它說你想買什么，它就能運用語音識別軟件記錄下來，并分好類。當你去購物前打印出來即可

就在十幾年以前，基于人工智能的語音識別和合成還僅是科幻電影的元素。那個時候，人們認為“能和人類對話”、“替人類講話”等技術(shù)還有很長的路要走。

2014年，在英國雷丁大學舉辦的圖靈測試競賽上，人類設(shè)計的機器問答對話系統(tǒng)首次通過了著名的“圖靈測試”。圖靈測試是由計算科學領(lǐng)域的大師阿蘭·圖靈在1950年提出的，他認為如果設(shè)備能在5分鐘內(nèi)答由人類測試者提出的一系列問題，且其超過30%的回答讓測試者認為是人類所答，則可以認為這個設(shè)備具備人工智能。64年后的這次測試中，俄羅斯人維西羅夫的人工智能軟件“尤金”成功地讓測試者在33%的情況下認為是在與人類對話。

這之后智能語言的發(fā)展就一發(fā)不可收拾了，成為各個國家科學家和業(yè)內(nèi)領(lǐng)先企業(yè)的重要突破口。

很快，以科大訊飛為代表的語音識別的精度提高到了95%以上。

微軟研究院的系統(tǒng)可以達到與人類相同的對話水準，實現(xiàn)了歷史性的突破。從谷歌大腦（Google Brain）項目中脫穎而出的谷歌翻譯，已經(jīng)接近人類筆譯的水平。

就在2016年10月，微軟又宣布，其語音識別系統(tǒng)的詞錯率降低到5.9%，這已經(jīng)相當于人類專業(yè)速錄員的水平。這意味著，計算機第一次在對話中的詞匯識別上做到跟人類一樣好。

現(xiàn)如今，在智能語音技術(shù)上，各個公司的目標已經(jīng)定位在“超越人類水平”，請注意：不是超越人類設(shè)計制造的智能設(shè)備或者程序，而是超越人類本身。

一個古老的方向

語音技術(shù)一直是考驗計算機智能水平最重要的一塊“試金石”之一。在眾多的計算科學子學科里，語音技術(shù)應(yīng)該算是最古老的方向之一了。教科書里普遍把智能語音技術(shù)的最早實質(zhì)性實踐定位在1952年貝爾實驗室設(shè)計實現(xiàn)的Audrey系統(tǒng)上，這是一次里程碑式的突破，計算機歷史上第一次正確識別出了十個阿拉伯數(shù)字的讀音及含義。

不過事實上，與智能語音技術(shù)相關(guān)的工作早在一個世紀前就開始了。1877年，愛迪生發(fā)明了留聲機，可以把聲音記錄和重放。這個看似簡單的發(fā)明其實奠定了語音相關(guān)研究的基礎(chǔ)。因為只有人們可以正確記錄和播放聲音，才有可能去研究它。

1936年，貝爾實驗室的工程師們設(shè)計實現(xiàn)了Voder系統(tǒng)，這是人類第一個電子聲音合成系統(tǒng)，自此開創(chuàng)了一個新的學科。1952年，貝爾實驗室的Audrey也利用了Voder，這樣他們才既可以聽懂十個阿拉伯數(shù)字，又可以“說出”十個阿拉伯數(shù)字，這樣一個完整的機器對話系統(tǒng)算是有了雛形。

有了這樣的開局，人們都看到了希望，各大公司和大學等機構(gòu)投入巨資去研究語音識別技術(shù)。1962年，IBM的“鞋盒子”（Shoebox system）可以聽懂16個英文單詞；1971年，美國DARPA（美國國防部下屬的研發(fā)機構(gòu)）資助的項目組演示了可以識別1000個單詞的技術(shù)，緊接著卡耐基梅隆大學的Harpy系統(tǒng)就能聽懂1000多個單詞了。雖然這個早期階段被業(yè)內(nèi)人士稱為僅是“baby talk”，但是他們的積極嘗試給以后語音技術(shù)大發(fā)展奠定了重要的理論及實踐基礎(chǔ)。

上世紀八十年代開始，由于引入了一個隱藏馬爾科夫模型（Hidden Markov Model HMM），這個領(lǐng)域產(chǎn)生了質(zhì)的飛躍，語音識別的準確度和合成的精度都大幅提升。這個模型的發(fā)明人就是大名鼎鼎的數(shù)學家雷昂納德鮑姆，他也是華爾街量化交易的奠基人之一。有了這一利器，語音技術(shù)的發(fā)展一發(fā)不可收拾，各種越來越智能的語音系統(tǒng)層出不窮，可以商用的系統(tǒng)也開始進入家庭（如Julie娃娃），走進個人電腦（如微軟office語音識別系統(tǒng)），手機（如蘋果的Siri）和互聯(lián)網(wǎng)（如谷歌的voice search）。這一階段是智能語音技術(shù)發(fā)展的“飛躍時期”，語音識別和合成技術(shù)真正走向?qū)嵱茫⒃谌鐣母鱾€角落開花結(jié)果。

然而，智能語音領(lǐng)域的專家和開拓者一直有一個夢想，就是創(chuàng)造出真正可以和人類對話的人工智能系統(tǒng)。就這樣，故事回到了本文開頭時提到的2014年圖靈測試競賽。不過，“尤金”的成功仍只是個開頭，這個領(lǐng)域在近兩年進入了真正的黃金時代。隨著深度學習的引入，機器可以更加深入地學習并理解語音；配以更高性能CPU和GPU的智能終端和機器人們，可以更高速地處理語音，理解更深層次的語義；高速網(wǎng)絡(luò)、云計算和大數(shù)據(jù)的支持使得人們可以讓機器進行更大規(guī)模的統(tǒng)計訓練，學習海量的語素，更有效地理解和還原各種人類語言的含義……

在2016 BOT大數(shù)據(jù)應(yīng)用大賽上，闖進決賽的11個機器人項目無一例外地展現(xiàn)了成熟且強大的智能語音能力，這些應(yīng)用范圍非常廣，涵蓋了購物、招聘、法律、旅游、教育、保健、客服、投資等多個領(lǐng)域，著實讓人眼前一亮。如智能購車顧問，它將購車過程中的所有知識和大家的需求都納入了學習的范圍，結(jié)合互聯(lián)網(wǎng)海量的汽車評論，在對話中通過了解用戶的屬性、需求、說話方式來推測適合用戶的車。還有的將機器人對話應(yīng)用在人力資源領(lǐng)域，以后使用這種技術(shù)的公司就不用安排寶貴的人力去做首輪面試了，支持智能語音能力的機器人就可以勝任了。

也就在前不久，美國《華盛頓郵報》報道了一個出人意料的新職業(yè)：機器人作家。報道認為電腦已經(jīng)具備學習和理解人類語言中深層次東西的能力，因此具備了成為詩人、劇作家、小說家的潛質(zhì)。就在今年的里約奧運會上，這家報紙就把這個新“記者”邀請到報道團隊中，它的名字叫“Heliograf”。在里約奧運會上，一些初級的報道內(nèi)容（比如說獎牌榜、比賽時間、新媒體互動等）全部是這個“新入行”的記者完成的。

2016年，白宮在Facebook上為總統(tǒng)奧巴馬“聘請”了一位機器人，用以增強總統(tǒng)與普通民眾之間的交流。要知道美國總統(tǒng)是個很忙的職業(yè)，但是在Facebook上，每天有數(shù)以十萬計的民眾給他留言，希望得到一個回復。這時候，聊天機器人就有用武之地了。這個“總統(tǒng)發(fā)言人”可以從大量的留言中歸類篩選出最有人氣的問題發(fā)給總統(tǒng)。在奧巴馬回復之后，機器人又可以把這些回復變換成合適的句式和語氣回復給廣大的網(wǎng)友。

可以預(yù)見到，在不久的將來，智能語音技術(shù)將催生更多的創(chuàng)新，迸發(fā)出更大的能量。

數(shù)字語音技術(shù)圖譜

用起來簡單的智能語音技術(shù)并不簡單，在端到端的應(yīng)用中，需要多種技術(shù)來支持。

首先，要“聽得懂”。基本的語音識別過程中，首先會利用移動窗口函數(shù)將一段連續(xù)的語音波形切開成一小段一小段，每小段稱為一幀。分幀之后，需要對每一個小段進行波形變換，根據(jù)人耳的生理特性進行特征提取，將這些表面上雜亂無章的內(nèi)容變成具有不同特征的多維向量，從而組成不同的狀態(tài)，這一步是語音識別中最難的地方。解決這個問題最成熟的方法就是運用隱藏馬爾可夫模型（HMM），將各個幀最合理地組成狀態(tài)再把狀態(tài)組合成因素，最后將因素組合成單詞。

其次，要“傳得開”。由于要動用大量的后臺資源進行模型訓練、語音分解和語義理解，語音的壓縮和傳輸技術(shù)也是必不可少的一環(huán)。隨著各種高保真立體聲的語音壓縮技術(shù)的引入，在各種應(yīng)用中參與交流的各方都可以接收到高質(zhì)量的話音。

再者，要“答得出”。在正確識別出語音的基本語素，同時能保證高質(zhì)量的傳輸后，需要人工智能技術(shù)來弄懂這里面的深刻含義，并給出正確合理的答案。自然語言處理（NLP）是這個領(lǐng)域最核心的技術(shù)，同時也是一個非常廣博的技術(shù)方向，其中包括詞類標注、詞法分析、句法分析、篇章分析、情感分析等多個技術(shù)。早期的NLP受到計算能力的限制，往往采用一些基本的機器學習算法來進行分類、理解和整理，精度不是很高，只能滿足特定場景的應(yīng)用。隨著計算能力的提升，網(wǎng)絡(luò)質(zhì)量的提高以及大數(shù)據(jù)技術(shù)的引入，人們可以采用更復雜的深度學習來進行這項工作。

最后，要“說得出”。在智能語音技術(shù)中，數(shù)字語音合成這個領(lǐng)域最早產(chǎn)生大規(guī)模的應(yīng)用。在機場、火車站、智能手機、導航、商場等多個領(lǐng)域，文字轉(zhuǎn)語音（Text-To-Speech， TTS）都發(fā)揮著巨大的作用。后來，TTS系統(tǒng)不僅可以自動合成語音，還能根據(jù)現(xiàn)場環(huán)境、情感和語境來變換語速和語調(diào)，還能模擬特定人物的語音，“志玲姐姐”就在某導航軟件中通過TTS技術(shù)展現(xiàn)出來。如今，機器人可以利用這項技術(shù)可以不費吹灰之力將自然語言處理的結(jié)果展現(xiàn)出來，惟妙惟肖，生動可人。

責任編輯：方丹敏

人機語音交互，使人與機器之間溝通變得像人與人溝通一樣簡單。讓機器說話，用的是語音合成技術(shù)；讓機器聽懂人說話，用的是語音識別技術(shù)

父親，