喬 璇 郭曉靜 楊金鋒
1(中國民航大學計算機科學與技術學院 天津 300300) 2(中國民航大學 天津 300300) 3(深圳職業技術學院 廣東 深圳 518055)
無線電陸空通話是空中交通管制員和飛行機組的主要信息傳輸方式,對話雙方相互傳達的信息內容是否一致直接關系到飛行的安全。陸空通話過程中,由于設備、環境和壓力等因素會導致通話過程中出現復誦錯誤、應答內容缺失以及用語不規范等問題,對飛行安全產生威脅[1-4]。因此,對陸空通話內容進行語義分析,判斷管制員與飛行員交流中出現的問題,保證指令能夠被正確理解,對增強民航安全有重要意義。
陸空通話語義感知任務是通過對指令和答復語義信息的提取與分析來判斷句子對應關系,可以抽象為句子匹配問題。傳統句子匹配方法需要大量人工提取的特征,依賴于人的經驗,存在一定局限性。目前采用神經網絡為主的深度學習模型處理句子匹配更為廣泛,基于深度學習的句子匹配模型由最初的單語義模型發展到多語義模型,即由簡單的卷積神經神經網絡(CNN)或者循環神經網絡(RNN)對句子進行編碼后計算匹配程度,發展為獲取句子交互信息建立匹配矩陣。多語義模型解決了單語義模型無法處理句子局部信息的不足,能夠從不同粒度信息進行句子語義的匹配分析[5-6]。在此基礎上提出匹配矩陣模型能夠更早進行句子交互,比多語義模型考慮了更加精細的匹配關系,但匹配時沒有考慮到句子中不同單詞的重要性[7]。隨著深度學習的發展,引入注意力機制的句子匹配方法獲得廣泛關注,注意力機制根據人的視覺原理提出,本質是指人在觀察中會對感興趣的部分投入更多注意力。在文本處理過程中使用注意力機制能夠給予詞語不同程度的關注,幫助理解句子語義,相比傳統的深度學習方法具有更好的處理效果[8-9]。
本文針對陸空通話中普遍存在的復誦與問答兩類對話,建立基于注意力機制的匹配模型實現陸空通話語義的感知與分析。該模型結合多種特征信息對句子進行表示,獲得豐富的語義信息輸入,通過構建注意力交互矩陣實現句子間的語義交互,使用前饋神經網絡和增強差異性的方法進行語義對比分析,能夠更準確地對陸空通話內容進行語義感知與判斷。
為了提高語義匹配的準確性,按照圖1所示流程進行數據收集與預處理,首先將陸空通話語音轉為文本數據,然后進行標注,通過分詞、大小寫轉換等處理后,構建陸空通話專用詞表,得到陸空通話數據集。

圖1 數據收集與預處理流程
將語音內容轉化為文本數據后,需要對文本數據進行整理和標注,根據空中交通管制員無線電陸空通話標準,復誦類型對話中出現的錯誤可歸納為復誦錯誤和復誦缺失,問答類型對話中的錯誤可歸納為用語不規范和回答不完整。其中復誦缺失和回答不完整都屬于信息缺失的問題,因此將二者統一標注為內容不完整。最終將陸空通話數據分為四部分,標簽分別為正確、復誦錯誤、用語不規范和內容不完整。每類數據的標注規范如下所示:
(1)正確。對話內容符合標準的數據標注為正確。
(2)復誦錯誤。指令與復誦信息不一致的數據標注為復誦錯誤,例如高度、航向、呼號、跑道號的復誦錯誤。
(3)用語不規范。使用不規范的詞語導致信息模糊,或者回答中包含與指令無關內容,這類數據標注為用語不規范。例如管制員指令要求“收到請回答”,飛行員的回答中沒有出現“收到”,而是使用“了解”、“明白了”等用語。
(4)內容不完整。答復時缺少呼號,或者對于指令要求的內容未能完整地進行答復,這類數據標注為內容不完整。例如指令要求回答飛機的高度與方向,回答中只有高度信息,缺少了對方向的回答。
根據標注規范,數據標注時采用雙人標注的方式,兩個標注結果相同時視為有效,將標注好的數據存入數據庫。兩個標注結果不同時則交由專業空管人員進行判斷,確定標簽類型,以保證數據標注的準確性。
預處理的目的是對數據格式進行整理,得到適合于模型訓練的數據。在預處理過程中,中文數據使用目前通用的結巴中文分詞工具進行分詞,得到由空格將詞語分隔開的數據,英文數據則直接進行大小寫轉換,即將大寫字母轉換為小寫字母,同時進行去標點符號的操作。以陸空通話數據樣本為例,表1展示了預處理前后數據的對比。

表1 數據處理前后對比
由于陸空通話用語的專業性,需要建立陸空通話專用詞表。根據已整理的陸空通話數據,對分詞和轉換后的數據進行詞頻的統計,將所有出現在數據中的詞語匯總,建立實驗所用的陸空通話數據集專用詞表,經過統計和匯總后陸空通話數據集的詞表大小為2 848。
本文提出的基于注意力機制的陸空通話語義感知模型如圖2所示,模型由五部分組成,分別是輸入層、編碼層、注意力交互層、語義對比層、語義判別層。輸入層將不同的特征向量進行拼接得到句子的向量表示,由編碼層得到句子的語義向量,使用注意力交互進行軟對齊,通過語義對比層獲取句子的語義對比信息,最后使用池化方式提取比較結果獲得語義匹配特征,進行句子語義的感知與判別。

圖2 注意力機制語義感知模型
輸入層的作用是獲得適用于模型輸入的句子向量,為了獲得豐富的句子特征信息,在輸入層中結合了字向量、詞向量與特征標志三個方面的信息,句子向量表示方法如圖3所示。字向量是將句子中的單個字符進行隨機向量化,通過卷積神經網絡,結合最大池化的方式及獲得最終的字向量表示[11],詞向量使用的是根據陸空通話數據庫預先訓練好的Word2vec詞向量。特征標志是根據指令與答復是否包含相同詞匯進行標記,對于指令中的詞,如果在答復句子中出現相同的詞則標記為1,沒有相同的詞的標記為0,答復的句子也使用同樣的方法進行標記。

圖3 句子向量表示方法
將字向量、詞向量與特征標志進行拼接,獲得指令句子的向量表示C1,C2,…,Cm以及答復句子的向量表示P1,P2,…,Pn,其中Ci表示指令中第i個詞的向量表示,Pj表示答復中第j個詞的向量表示,m和n分別表示指令與答復的句子長度。
編碼層的作用是對句子向量進行語義信息的提取,為了獲取豐富的語義信息,提出使用雙向長短時記憶循環神經網絡(BiLSTM)對指令和答復進行編碼。BiLSTM輸入的數據會經過向前和向后兩個方向推算,最后輸出的隱含狀態再進行拼接,再作為下一層的輸入,這樣能夠對句子進行更好的信息提取,獲得更加豐富的語義信息[12],BiLSTM的計算方法如式(1)-式(3)所示。
(1)
(2)
(3)
其中:L(·)為單向LSTM網絡,xt為網絡在t時刻的輸入,從前后兩個方向計算當前的隱藏層狀態,然后將兩個方向的隱藏層狀態拼接得到BiLSTM在t時刻的輸出ht。編碼層的結構如圖4所示,輸入為指令向量和答復向量,輸出為指令與答復的語義向量。

圖4 編碼層結構

注意力交互層的作用是利用交互注意力機制得到句子間的軟對齊表示,軟對齊是對兩個句子中每個單詞都進行相關性權重的計算,能夠捕捉到所有詞語的匹配關系,比根據句子成分實現的硬對齊方法更加適合陸空通話數據的處理。對編碼層得到的語義向量構建注意力交互矩陣,實現句子的軟對齊表示,然后分別對指令和答復的軟對齊結果進行計算,結構如圖5所示。

圖5 注意力交互層結構
(4)
式中:F(·)表示前饋神經網絡。然后根據eij計算指令與答復的軟對齊結果,計算方法如式(5)-式(6)所示。
(5)
(6)
其中:βi為答復向量中每個詞與指令序列軟對齊的結果;αj為指令中每個詞與答復向量軟對齊的結果。
語義對比層的作用是對答復和指令分別與軟對齊的結果進行對比,以獲取指令與答復的語義匹配特征,為了更好地獲取語義匹配特征,選取了兩種方法進行語義對比分析。方法一選用前饋神經網絡進行語義對比分析,因為前饋神經網絡能夠實現特征的交叉、組合,進行特征變換,適用于對齊結果的比較[13]。方法二將句子與其對應軟對齊結果進行做差和相乘,計算結果進行拼接通過 BiLSTM進行對比特征提取,增加了差異性信息之后,語義匹配特征會更加明顯。兩種語義對比方法結構如圖6所示。

圖6 語義對比層結構
2.4.1前饋神經網絡對比方法(Compare1)
使用前饋神經網絡將指令和答復分別與其對應的軟對齊結果進行對比,得到兩組比較向量v1,i和v2,j,方法如式(7)-式(8)所示。
(7)
(8)
其中:G(·)為前饋神經網絡,[·;·]為兩部分的拼接操作。
2.4.2增強差異性對比方法(Compare2)
將指令與答復分別與其對應的軟對齊結果進行做差和相乘的計算,然后將計算結果拼接,計算方法如式(9)-式(10)所示。
(9)
(10)
其中:m1表示指令句子與其軟對齊結果和差異性計算結果的向量拼接;m2表示復誦句子與其軟對齊結果和差異性計算結果的向量拼接。
將拼接后的向量m1和m2使用BiLSTM進行特征提取[14],獲得兩組語義對比結果v1,i和v2,j,計算公式如式(11)-式(12)所示。
(11)
(12)
式中:F(·)表示使用ReLU激活函數的前饋神經網絡。
語義判別層的目的是分析匹配特征,獲得句子的語義判別結果。為實現有效特征的提取,采用平均池化與最大池化的方法分別對兩組比較結果進行特征的提取,將池化得到的向量進行拼接,得到用于語義判別的向量v,然后將v輸入到多層感知機中獲得語義判別的結果,語義判別層結構如圖7所示。

圖7 語義判別層結構
首先將兩組語義對比的結果v1,i和v2,j分別進行池化,池化計算方法如式(13)-式(16)所示。
(13)
(14)
(15)
(16)
其中:v1,avg和v2,avg表示平均池化的結果;v1,max和v2,max表示最大池化的結果。將池化得到的結果進行拼接,獲得語義向量v,計算方法如下:
v=[v1,avg;v1,max;v2,avg;v2,max]
(17)
最后將語義向量輸入到多層感知機(MLP)中,獲得語義感知的結果:
y=softmax(M(v))
(18)
式中:y為語義感知與判別的結果;M為多層感知機,softmax為歸一化函數。
實驗所使用的數據集是由專業空管人員從陸空通話錄音中挑選的對話數據,并且按照空中交通管制無線電陸空通話標準進行了整理校對,每組數據均由指令與答復兩句話組成。數據集共有6 000條陸空通話樣本,由答復正確、復誦錯誤、用語不規范、內容缺失四類數據組成,每類數據同時包含了英文和中文數據,英文和中文樣本比例為1∶1,其中包含的四類數據分布及樣例如表2所示。

表2 數據分布及樣例
實驗數據是從陸空通話數據集中對每個類別隨機抽取70%數據作為訓練集,20%數據作為測試集,10%數據作為驗證集。輸入層的字符向量隨機初始化,經過卷積和池化操作后提取100維的字符表示,詞向量使用300維的Word2vec詞向量,該詞向量根據陸空通話語料進行訓練,包含了數據集內所有詞語。模型使用了Adam優化算法進行參數優化,并且使用了Dropout避免模型出現過擬合,具體實驗參數設置如表3所示。

表3 參數設置
本文采用測試集準確率(ACC)作為模型性能評價指標,計算方法如下:
(19)
式中:N表示測試集的樣本總數;Ncorrect表示測試樣本中語義判別結果與真實標簽一致的樣本數。
為了驗證模型的有效性,對于本文提出的方法在陸空通話數據集上的實驗結果與其他已有的句子匹配方法進行對比,對比方法選取了以下幾種模型:
(1)LSTM[15]。該模型使用兩個權重共享的LSTM網絡,對句子進行編碼,是兩個句子成為相同長度的向量,然后使用余弦相似度和曼哈頓距離進行相似度計算。
(2)BILSTM[16]。該模型使用BiLSTM分別提取句子語義信息,使用神經張量網絡進行句子匹配。
(3)DIIN[11]。該模型使用了句子內注意力機制進行編碼,并且提出DenseNet(Dense Convolutional Network)做特征提取,在問答匹配和語義推斷任務上取得良好效果。
(4)LSTM-ATT[17]。該模型使用兩個權重不同的LSTM分別讀取兩個句子,并在網絡中引入注意力權重,使第二個LSTM處理詞語時注意到前一個網絡的輸出。
(5)BIMPM[18]。該模型采用的雙向匹配方式,并且在每個方向上都考慮了多個角度的匹配,最后將所有匹配結果集中進行判斷。
(6)ATT-Compare1。本文所提出基于注意力機制的語義感知模型,語義對比層使用前饋神經網絡的對比方法。
(7)ATT-Compare2。本文所提出基于注意力機制的語義感知模型,語義對比層使用增強差異性對比方法。
由表4的實驗結果可以看出,加入注意力機制的匹配模型在測試準確率上高于單純使用神經網絡的模型,說明引入注意力機制在語義分析中起到了重要作用。陸空通話語義感知任務需要考慮復誦和問答兩種類型的句子,并且需要重點關注句子間詞語的對應關系,因此句子交互的方式比基于編碼的匹配方法效果更好。實驗結果表明BIMPM模型的效果要優于以上所提到的幾種模型,但是在陸空通話語義感知任務中,復雜的匹配角度會引入多余的信息,因此準確率低于本文提出的語義感知模型。本文所提出的模型使用交互注意力機制對句子進行軟對齊表示,能夠重點關注到句子間語義的關系,并且能夠根據交互信息計算詞語的權重,測試準確率高于其他匹配方法,可以證明基于注意力的語義感知方法對于陸空通話內容的分析具有更好效果。

表4 實驗結果對比(%)
根據表4的實驗結果顯示,使用前饋神經網絡和增強差異性兩種語義對比方式的準確率分別為94.33%和94.57%。可以看出對語義向量進行差異性計算能夠更好地體現句子匹配特征,從而能夠對語義進行更加準確的感知與判斷。在語義對比過程中增加差異性計算的拼接項能夠更好地捕獲句子匹配關系,使模型的性能得到提升。
為了分析模型關鍵部分的作用,針對輸入層和編碼層分別進行了對比實驗,并且對ATT-Compare1和ATT-Compare2兩種方法進行對比,進一步分析增加差異性計算對模型性能的影響。針對輸入層,統一使用BiLSTM編碼,然后使用不同的向量表達方式進行實驗,表5展示了兩種方法分別對應不同向量表示的實驗結果。實驗表明,在對句子進行向量表示時引入豐富的特征信息能夠提升模型判別效果,并且使用相同的向量表示時,ATT-Compare2的測試準確率均高于ATT-Compare1。

表5 使用不同向量實驗結果(%)
為針對編碼層進行對比實驗,統一在輸入層使用詞向量、字向量和特征標志結合的向量表示方式。表6中的實驗結果表明,將BiLSTM編碼換成LSTM編碼后ATT-Compare1的準確率由94.33%下降至92.22%,ATT-Compare2的準確率由94.57%下降至92.25%,可以看出使用BiLSTM提取語義信息的具有更好的效果,當二者使用同一種編碼方式時,ATT-Compare2準確率較高。

表6 不同編碼方式實驗結果(%)
注意力交互矩陣的計算結果會對模型產生重要影響,為了驗證注意力交互矩陣計算結果的準確性,將注意力矩陣的權重進行了可視化展示。圖8展示了四類數據中指令與答復的對齊權重分布,其中顏色越深表示詞語的相關權重越大。可視化結果表明,注意力交互矩陣可以反映出指令與復誦之間詞語的相似度,對文本的語義感知有重要作用。

圖8 注意力交互矩陣可視化結果
陸空通話語義感知任務中需要處理復誦與問答兩種類型的對話,針對通話所出現的錯誤進行標注,為此任務整理了陸空通話數據集,保證模型所需要的數據基礎。模型通過建立注意力交互矩陣,對詞語交互信息進行權重計算,根據交互矩陣的軟對齊結果獲得語義對比信息,能夠對陸空通話語義做出感知與判斷。實驗準確率達到94.57%,證明該方法在陸空通話語義感知任務上是有效的。由于陸空通話用語的標準性,匹配時需要更加關注詞語間的對應關系,模型中使用多種特征向量結合的句子向量表示方法能夠對應陸空通話句子的特性,對提升模型性能起到積極作用。在下一步的工作中,還需要繼續深入分析陸空通話的用語特點,研究更加適合陸空通話語言特點的語義感知模型,進一步提升語義感知的準確性。