殷建立 馮一龍
摘? ?要:本文將利用人工智能技術,介紹中文語音文本智能編輯系統的設計思路,并對其中的語言識別以及系統的運行流程進行了分析。總體而言,本文所介紹的基于人工智能的中文語音文本編輯系統能夠滿足語音文本處理的要求,具有先進性。
關鍵詞:人工智能? 中文語音文本? 文本智能編輯
中圖分類號:TP183? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2020)01(b)-0138-02
1? 人工智能技術在中文語音文本智能編輯中的應用
1.1 人工智能技術分析
本文所使用的人工智能算法為維特比算法,該技術解決了傳統數學領域中隱馬爾可夫模型中的問題,能夠有效觀察序列在隱馬爾可夫模型中下任何有可能隱藏的序列。在人工智能的支持下,維特比算法能能夠利用后向指向遞歸計算來獲得不同路徑中最優的路徑。
在該方法下,人工智能數據處理的核心就是將動態規劃算法的做簡化,其中的關鍵數據步驟可以具體為:(1)在分析問題特征的基礎上,構建狀態轉移方程;(2)以空間換時間。
維特比算法屬于動態規劃算法中一種常見的技術,目前已經被廣泛的應用在語音識別、計算機語言等科學中。在技術應用階段,可以在建立計算模型后,依靠該模型提高系統應用的時效性;在語音文本處理過程中,該方法通過構建語音與對應文本之間的關系,將采集到的文本字符串看作為時間序列,所以在數據處理環節能夠快速定位對應的聲音信號最有可能的文本字符串,具有技術先進性。
1.2 單位選擇語音轉換方法
在語音合成技術與人工智能技術發展的情況下,部分新技術的出現為語音合成提供了新的方向,其中的的代表技術具有單位選擇語言轉換方法,該方法以維特比算法為基礎,通過對源語音作為查詢、搜索的目標,盡可能多的將類似語音片段結合在一起,并在邊界位置匹配。在余韻數據處理環節,首先選擇將原音頻與目標音頻分隔成為相同幀的窗口,再尋找目標語音幀的最佳排列組合。該方法最顯著的優勢可以降低成本,包括所選目標與源幀之間的匹配成本以及相鄰幀之間的連接成本。
1.3 范圍選擇算法的應用
在人工智能技術中,為了能夠更有效的識別語音文本數據,可以在單位選擇算法匹配過程中,預選三因素被轉換成相應的幀。因此在本次研究中,本文基于維特比算法提出了一個新的范圍選擇方法,該算法的主要特征就是不再使用單獨的框架,而是范圍選擇起始與結束的邊界,獲得連續幀的范圍資料[1]。與傳統技術相比,范圍選擇算法的優勢為:(1)允許更精準的序列上把握各項數據的相似性;(2)以每個因素為核心,這種處理方法下的語音文本數據處理要比單詞更加細膩,系統可以將元音與輔音直接拆分開來;(3)在算法處理期間直接將發音的持續時間作為評價成本函數的重要組成部分,因此可以選擇更加符合不同常見的語音文本。
2? 系統軟件的實現
2.1 系統軟件流程
本文所介紹的系統軟件能夠對各個語音表達過程進行模擬識別,通過基于人工智能算法的維特比算法做處理,期間的各項語音命令以及語音文本資料都采用“幀”的形式進行封裝后再傳輸,其中幀結構主要包括幀頭、語音區長度與數據區三方面組成。其中幀頭占據一個字節,本文將其定義為十六進制的“0xFD”模式;數據區的長度采用兩個字節表示,其中高字節在前,低字節在后;數據區的規格小于四個字節,有命令參數與命令字兩方面構成,其中常見的發送數據包括:0x01、0x02、0x03、0x04,相對應的功能就是:語音的合成命令、停止語音合成命令,無參數、暫停語音合成命令,無參數、恢復語音合成命令,無參數。這種語音識別方法可以完成對整個語音數據的分析處理。
2.2 對語音文本數據的處理
在上述系統結構的基礎上,根據系統功能設計要求,將語音素材做統計之后,將文本稿件直接在系統中形成文字稿;在這個數據處理環節,可以根據不同的命令字來控制語音數據識別的開始、暫停與結束,而在這個過程中,考慮到語音樣本中可能會出現多種環境噪音,而為了能夠有效提取其中的有效文本資料,則可以先通過機器將聲音轉變為文字,期間機器具有獨立的文本轉換能力,工作人員也有文本編輯能力[2]。在此基礎上,在聲音轉變文字過程中,依靠維特比算法,在系統內核開始的基礎上同步建立相應的文字與語音同步轉換機制,這種轉換就是“時間戳”,其中的技術要點就是要根據不同時間節點上的文本編輯截面做語音數據處理,并且按照語音文本的數據處理要求,由系統對語音做建模與語義識別,因此可以節省系統的運行時間。
而在對語音文本數據處理過程中,首先需要建立文本與音頻的同步機制,只有在確保兩者數據精準同步的基礎上,才能在文字剪輯的同時同步處理音頻資料。在這個過程中,按照數據區命令參數與命令字的數據要求,可以根據語音數據的起始與截止時間基礎上自然過渡,并增加淡入淡出與靜音時間的語音過渡數據處理要求。
最后為確保語音文本數據處理的要求,可以多音頻做音軌剪切、復制和粘貼操作。這個操作可以和文字同步進行——也就是“雙窗口”同步操作。而剪切文字對應的音頻點位和語感處理,則需要由人工智能算法判斷,以達到通過最少的時間操作實現過渡自然、語氣自然的目的。
2.3 對語音文本的進一步編輯
從當前工作來看,對語音文本的進一步編輯能夠更好的滿足工作要求,所以需要在該系統基礎上來增設語音文本編輯功能。以記者的日常采訪文本為例,記者在將問題詳細傳輸給受訪者之后,受訪者會根據問題闡述自己的觀點,但是其中存在一個問題,那就是受訪者可能闡述大量的信息,甚至信息跑題。針對這種情況,在音頻編輯過程中需要戴上耳機逐字聽受訪者的回答,并裁剪掉其中出錯或者冗余的語音資料。這個過程的工作效率低,甚至工作人員因為長時間工作出現差錯。
而在本文所介紹的系統中,工作人員不需要逐字聽音頻內容,而是在系統支持下能夠將采訪內容轉變為文字,這樣工作人員可以在工作界面上直接編輯。例如有一段60s的音頻,在音頻數據文字轉換期間,工作人員以20s為界限,輸入“0x01”、“0x03”指令暫停語音文本,此時系統停止識別文字,工作人員能夠針對20s內的語音文本信息進行編輯;在該階段文本編輯結束后,再啟動系統,由系統識別20秒的數據,以此反復,最終完成了對整個文本數據的處理。從效果來看,這種數據處理方法進一步減少了工作量,使工作人員能夠更好的完成語音文本處理,提高了音頻資料的數據能力。
從效果來看,本文所介紹的系統充分發揮了人工智能技術的優勢,不僅能夠直接識別語音數據參數,也能在不同人說話特征的基礎上進一步識別其中的關鍵數據,系統對語音與文本的契合度很高,這是傳統技術所無法實現的。
3? 結語
本文所介紹的系統能夠識別人工語音資料,通過該系統會進一步提高語音數據處理效率,該系統通過將語音資料轉變為文字資料,使工作人員可以更好的識別其中關鍵數據,具有可行性。但是該系統目前正處于初步發展階段,如何更有效的識別長篇幅的音頻資料也存在很大的難度,值得關注。
參考文獻
[1] 李寶祥.語音關鍵詞檢索若干問題的研究[D].北京郵電大學,2013.
[2] 鄧正良,許偉彪,楊潿潔,等.電視天氣預報文本轉語音編輯制作系統設計方案[J].科技風,2011(20):51-52.