胡譽

摘? ?要:基于空管模擬訓練機對空管人員訓練的重要性和優越性以及塔席特點,利用計算機實現飛行器動態特征的場景再現,設定多場景、多任務的訓練科目是目前采用的普遍做法。文章依托塔臺模擬機性能特點,采用有限詞匯量識別方法,結合空管發音規則、語法結構、發音標準以及中英雙語等特點,采用動態時間歸正識別技術和語音同步疊加算法實現語音編碼、識別與合成,實現了多局部最優化決策。
關鍵詞:塔臺模擬機;語音技術;動態時間規整識別;PSOLA算法;內容擾亂系統
科學技術的飛速發展,對空中管制人員數量和綜合素質提出了更高的專業性要求,采用先進技術手段對空中交通管制人員進行高水平訓練的需求與日俱增,利用塔臺模擬訓練系統,通過模擬器模擬現實環境可能遇到的大流量、惡劣天氣、緊急特情等狀態,對空中管制人員進行不受航班時刻限制、不受時間限制的有效強度、全面的業務培訓,大大降低了實地訓練的風險和成本。依托塔臺模擬機性能特點,采用小詞匯量合成手段和基音同步疊加算法,實現訓練人員及教練員、機長之間的語音通信,既可以滿足實訓任務要求,又可以實時調整語調、語速,滿足語音識別需求。總之,利用模擬的方法進行管制服務,通過真實場景再現,從而提高空管人員訓練的質量和安全[1]。
1? ? 語音合成及識別技術
1.1? 語音編碼技術
語音編碼技術是實現語音合成及語音識別的關鍵技術。20世紀80年代之前的語音編碼技術主要采用波形編碼和參數編碼。波形編碼以取樣定理為基礎,其特點是音質效果較好,但是編碼碼數較多,占用較大空間;參數編碼是依據人類發音機理,同步提取語音特征參數實現編碼傳輸的一種方法,數碼率低、音質效果差。隨后很多國家采用了混合編碼技術,其采用軟件算法對語音信號進行解析,多采用多數線性預測和多帶激勵等算法實現波形的激勵和聲道傳輸功能。
混合編碼線性預測算法是應用最廣泛、最有效的語音分析技術之一。線性預測算法能夠快速、精準地提取一組估計語音信號譜幅度,形成語音信號的聲道濾波器,實現語音快速編碼和語音識別、合成。線性預測算法采用數學模型中的夾逼準則對語音信號當前某個樣位進行階數(項數)線性組合的逼近,階數系數利用最小誤差(實際樣位與預測值誤差)階乘準則計算求得,系數隨時間(5~20毫秒每幀)變化,根據幀實現參數的刷新。線性預測算法的碼激勵(Code Excited Linear Prediction,CELP)為多帶激勵模型,由于純濁音(周期性)和純清音(非周期性)構成每幀語音信號,在語音編碼模型中對話音進行多段分解,依據清濁音(周期性和非周期性)判決,從而實現激勵的語音譜混合。因此線性預測算法對于語音合成的自然度、抗噪聲等功能比較優秀。另外,隨著科學技術不斷發展,現在的語音編碼技術具備更加優秀的語音質量,而且抗干擾性更強,數碼率更低,時延特性更加優越。
語音識別技術一般采取特征提取、語音識別單元選取、模式匹配準則、模型訓練等技術實現。特征參數提取主要采用線性預測(Linear Prediction,LP)分析、Mel參數、小波分析等技術;模式匹配及訓練多采用動態時間歸整(Dynamic Time Warping,DTW)、隱馬爾可夫模型(Hidden Markov Model,HMM)以及人工神經元網絡(Artificial Neural Networks,ANNs)等技術實現[2]。
1.2? 語音合成技術
語音合成技術主要采用計算機實現語音編碼、識別、合成,最終形成清晰、明確、自然、具有張力和表現力的人類語言。20世紀60年代,國外首次研發并應用了英語文本朗讀(Text to Speech,TTS)系統,我國也在20世紀80年代完成了漢語語音合成TTS技術,這是特定應用場景下的一種語音輸出系統,尤其是塔臺空中管制領域,應用錄音、重放對有限語言詞匯進行特殊拼接,實現航班信息發布、語音報時、航空語音通信等。另外一種為文字-語音轉換系統,可以實現文字到語音的轉換,結合人類語言特點,模擬人類語音并提取特征參數,然后利用計算機估計出聲道截面積函數或者聲道諧振特性,再利用Holmes共振峰、線性預測編碼(Linear Predictive Coding,LPC)、分層服務提供程序(Layered Service Provider ,LSP)等參數合成器形成規則語音波形。再有是采用拼接語音合成技術,廣泛采用語音合成算法把聲音基元(音素、二元組 、三音子、音節、詞或句子)相互拼接組合,輸出連續語流。計算機存儲語音基元,合成時從語音數據庫中讀取基元、拼接、韻律修飾。拼接語音基元具有重音、聲調、發音速率等特征,因此,拼接語音合成輸出的語音更加清晰自然,音質效果更高,語音更貼合人類自然聲音,語音基元存儲不受限制,但是拼接語音合成韻律參數如基頻、時長、音強等修改規則比較困難。TTS系統通過韻律修飾,利用計算機系統對語調、重音等快速模擬,實現語速、調高需求[3]。
2? ? 塔臺模擬機語音合成系統設計實現
2.1? 系統設計
結合航空塔臺管制語言特點,塔臺模擬系統語音識別管制指令、語句和短句等詞匯量有限,屬于有限詞匯量識別范疇;再有現實管制應用場景中,要求語音識別具有速度快、響應及時、通信流暢等特點,因此采用動態時間歸正識別技術和語音同步疊加算法實現語音編碼、識別與合成。塔臺模擬系統語音合成流程如圖1所示。塔臺模擬訓練時,教練員通過其工作站對訓練計劃、訓練場景、訓練難度、訓練次數和進度、飛行特情等進行設置、保存,并對訓練過程進行監控,通過語音通信系統掌握受訓人員實時動態。模擬機長工作站主要對培訓人員進行機長任務臨時授權,通過顯示器和通信設備完成機長職責,進一步增加訓練的真實度。管制員工作站主要是復現塔臺管制員真實工作環境,嚴格按照管制席位設置,進行設備重現,受訓人員通過模擬器訓練平臺可以觀察模擬機場場面圖、飛行數據流量圖以及機場氣象數據實時信息,指揮飛行計劃,制定飛機進場單等真實工作狀態。具體訓練流程是管制員向模擬機長位發出飛機調度指令后,模擬機長席位根據指令與管制員進行語音通話同時在模擬系統命令行中輸入飛機動作指令,指令輸入并正常執行后,模擬系統中的命令行發聲系統自動向管制員席位應答管制語句。
2.2? 語音合成實現
根據國際民航組織統一標準的航管語音標準專業用語,空管調度語句具有規范的語法和結構,因此,語音合成前,要建立指令規則庫、基音庫以及語音規則庫。指令規則庫實現各種指令信息的分解,并提取特征參數形成指令序列串;語音規則庫為空管調度發音規則與結構庫。命令行發聲系統中的命令序列串生成后,再利用漢明窗函數和插值(二次線性插值)處理實現基元拼接,即根據基音庫生成映射的基音元序列后在調取語音規則庫發音規則和語音結構最終合成需要的語音波形通過計算機系統進行語音輸出[4]。
3? ? 結語
塔臺模擬培訓系統語言相對規范、統一和有限。因此采用有限詞匯量識別方法,結合空管發音規則、語法結構、發音標準以及中英雙語等特點,采用動態時間歸正識別技術和語音同步疊加算法實現語音編碼、識別與合成,實現了多局部最優化決策。語音同步疊加算法能夠對音素、二元組 、三音子、音節、詞或句子等聲音基元進行韻律特征(時長、基頻、短時能量等)進行調控,使語音合成自然度和清晰度高,而且語音合成技術具備抗干擾性強、數碼率低、時延特性優越等優點。
[參考文獻]
[1]任蕊,苗振江.基于PSOLA算法的情感語音合成[J].系統仿真學報,2008(S1):423-426.
[2]楊璐字.中文語音識別技術在塔臺模擬機中的研究與應用[J].微計算機信息,2012(10):243-245.
[3]張曉蕊.語音變調算法研究及其在語音合成中的應用[D].濟南:山東大學,2011.
[4]李銳.語音技術在塔臺模擬機上的應用[D].成都:四川大學,2004.