王鵬鯤
摘 要 智能語音技術應用于自然語言識別與合成處理、語義的分析和理解、知識工程和智能大數據處理的領域。文章結合對一般語音系統處理過程的理解與分析,闡述了人工智能技術(Artificial Intelligence :AI)在語音處理過程中的應用,并結合小i機器人進行了技術應用分析,為進一步理解并揭示智能語音技術與系統奠定基礎。
關鍵詞 小i機器人;智能語音處理;語音識別;語音合成
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2019)230-0131-02
新世紀以來,我國的人工智能技術不斷的快速發展,人工智能市場也在持續擴大,在智能語音技術方面的專利數量也在持續增加。基于我國龐大的用戶基礎和優越的互聯網基礎設施,國內本土的智能語音公司終將占據一定的市場份額[ 1 ]。而智能語音技術作為行業應用中最成熟的技術之一,在智能設備與系統等方面都有了深入的用于與發展。
智能語音技術是人工智能技術中的關鍵環節,所以研究智能語言技術非常重要。本文針對現實中語音系統,深入闡述一般語音分析過程,并重點分析總結了當前深受人們喜愛的小i機器人中所使用的智能語音處理技術,為智能信息處理技術的進一步應用發展提供參考。
1 一般語音系統分析
1.1 語音系統原理
語音系統[ 2 ]是由兩方面組成,一方面是語音識別過程,另一方面語音合成過程。其一般的語音系統處理流程如圖1所示。
首先是語音識別過程,是對輸入的物理語音進行特征提取,并轉換成特定的數字信號。從物理學中,可以知道聲音是一種波,也被稱為聲波。比如MP3此類壓縮格式的文件,展開后就變成了不屬于壓縮的各種純波形文件,然后通過波形文件對聲音進行處理,俗稱的有.WAV文件,展開后就成為了一種波形圖案,上面有很多個點,每個點就是一個所謂特征,最后通過剪切來截取聲音信息。
接著是語音合成過程,語音合成也稱為一種文語轉換技術,能將許多不同的正確文字隨時隨地地轉化為標準流暢的語音表達出來,這就相當于使機器具有人的語音表達能力。這種表達能力是按照計算機程序規則實現的,難以實現對語言信息進行選擇性回答,缺乏一定的自主性。實際上文語轉換系統需要經過以下兩個步驟完成文語轉換過程。
第一步是將文字分開形成一個個的音韻,這樣一個文字就有一組音韻。
第二步是根據已有的音韻所組成的序列生成語音波形,這實際上是與語音識別過程相反。
其中,語言處理是非常核心的環節,主要是基于人類本身對自然語言的理解,才能使計算機對語言有特定的理解,并對韻律進行處理和對聲學進行處理。通過韻律處理就合成了語言的音段的特征,通過聲學處理得到的結果就是實際的輸出語音,這樣便完成了語音的識別與處理,構成一個完整的語音系統處理過程。
1.2 語音識別技術
語音識別技術,也被稱為自動語音識別,語音識別技術應用非常廣泛,典型的語音識別應用主要包括語音撥號、語音登陸、設備控制、語音文檔檢索等功能,與人類自身語言識別功能不同,后者可以嘗試識別不同說話人的聲音,包括其中說話人所表達的內容。識別的最終目標是將人所表達的內容轉化為計算機中的一些二進制編碼或者代碼或者一些字符序列。而語音識別是屬于典型的交叉學科,是一種典型的信息技術,借助語音識別人們可以直接與機器交流,就像與其他人說話一樣,直接詢問機器人問題,機器人會根據內容選擇性提取并給予特定的回答。機器系統可以通過語音識別技術識別到所說話的對象甚至說話的內容,并自動生成了特定的指令,系統在接收到命令后自主完成要求。而語音識別系統不需要人們記住固定的口令也能被識別出來的,系統也不會被一些二次語言(比如錄音)所欺騙。實際中有微信中的語言登錄功能,根據音韻序列生成語音波形來識別聲音。
與機器進行語音交流,讓機器明白你說的是什么,然后識別指令達到目的,是語音分析領域所尋找的技術。而語音識別技術就是把說出來的話通過聲波特征分析,然后對其提取并進行存儲,最后變成文本信息。
1.3 語音合成技術
從1.1的語音過程分析中可以知道,語音合成技術也叫做文語轉換技術,就是將計算機程序生成的或者外部輸入的類似文字這樣的語言信息,比如文本文檔內容中的文字信息,按語音處理的方法把它轉換成語言進行輸出。這里所說的機器表達與傳統的聲音回放是有很大區別的。傳統的聲音回放是通過先前錄制聲音然后放出來,比如錄音機,傳統的方法在方便性、及時性或者存儲、傳輸等方面都有很大的限制。而現在運用這種語音合成技術有許多好處,可以隨時隨地的不用看也可以知道文字信息。當然實際的文語轉換系統是非常復雜的,文字序列跟音素序列程序進行轉換,文字的序列轉換成音韻的序列,再由系統根據音韻序列生成語音波形,這一系列轉換之前特別復雜,但該技術經過發展已經漸進成熟,合成的錯誤率已經很低了。該技術主要依賴于應用數字信號處理,而且必須有大量的語言學知識的支持,如圖1所示的語音數據庫和文本數據庫。
2 小i智能語音信息處理技術分析
小i機器人于2001年誕生[ 3 - 4 ],擁有全世界較大的智能機器人云服務平臺,它的用戶在全球已經超過2億人,而且它的服務范圍也非常大。比如可以在智能客服、智能政務、智能語音等領域進行廣泛應用。小i機器人是智能機器人技術的代表,作為智能機器人平臺的運營商,專注于智能交互技術的研發,并在大量的商業應用中推動產業化進程。
2.1 智能語音識別技術
小i機器人中所使用的智能語音識別技術采用了特別的算法[ 5 ],能自動對聲音的信息進行處理調節,也就是可以直接對信息進行處理,不需要中間特別復雜的轉換,所以其處理速度十分驚人,這樣才能給用戶提供良好服務體驗。
智能語音識別技術主要是對人類聲音的特征進行分析,只有得到該聲音特征的樣本才能很好地進行分析處理,才能使這門技術有一定的準確性,從而大大提高了聲音識別的正確率。運用了智能技術使得語音識別速度得到一個質的提高,非常適合大規模商業化應用。語音識別技術只要說話,即可輕松完成對電子產品的控制以及搜索的功能,當前一些智能手機中也提供實際可用的語音控制功能。
2.2 智能語音合成技術
小i機器人智能語音合成技術是將文本狀態的文字信息轉換為可聞其聲的語音信息處理技術[ 6 ],涉及數字信號處理技術、語言學等多個學科技術。典型的是在小i機器人中采用了極限元語音合成引擎,利用精心設計的語音語料庫進行聲學模型和文本處理模型的訓練,得到的模型對自然語音和語言的特性進行深度挖,從而能夠合成清晰、自然的語音,接近真人發音。此系統實際上可以看作是一個人工智能系統。為了合成出準確無誤的語言,除了依賴于各種語義、詞匯、語音學外,還必須對文字的內容有很好的理解,這也涉及到系統對自然語言理解的問題。
2.3 小i智能機器人關鍵技術
小i智能機器人自身就是一個完整的人工智能系統,其關鍵技術包括領先的自然語義認知、深度語義交互、語音識別、業界獨創的智能知識模型、圖像識別、先進的人機協作學習體系、機器學習和大數據等技術,為小i機器人可以直接與人對話,甚至可以與其他智能機器人對話奠定了技術基礎。因此小i機器人的用途是非常廣泛的,比如一些人工智能客服,在線電話客服、智能語音導航等。
3 結論
智能語音技術為人機交互帶來了新的發展,把人工智能應用于語言處理技術上,大大提高了人們生產生活的方便。可以通過智能語言識別技術利用語音命令進行操作,只要說話便可控制機器按照特定目的完成任務。可以通過智能語言合成技術把文字換成語音,人們也可以使自己適應各種各樣的語言識別系統。但是在短期內實現智能機器人的自我意識是很難的,同樣智能機器人的自我意識該不該存在一直是個很大的問題,也是該領域研究的挑戰性問題之一,智能語音專家將會持續改進語音識別系統。相信快速發展的信息科技技術將會推動人工智能技術的發展,智能語音識別技術的應用也將更加廣泛。
參考文獻
[1]劉占軍.計算機語音系統軟件的研究和開發[J].計算機應用,2001,21(5):67-68.
[2]陳芳,袁保宗.具有文本生成功能的智能語音生成系統[J].電子學報,1997(10):5-8.
[3]史鶴幸.小i機器人——全球頂尖AI提供商[J].上海企業,2018(5).
[4]呼濤.解密“中國智造”小i機器人[J].半月談,2016(5):71-73.
[5]周璐璐,鄧江洪.一種機器人智能語音識別算法研究[J].計算機測量與控制,2014,22(10):3267-3269.
[6]曾誰飛,王仁波.語音合成技術在智能語音播報系統中的應用探析[J].電信科學,2010,26(3):64-68.