基于BERT與生成對抗的民航陸空通話意圖挖掘

2024-01-30 14:40:02孟詩君吳志軍

系統工程與電子技術 2024年2期

馬蘭, 孟詩君, 吳志軍

(1. 中國民航大學空中交通管理學院, 天津 300300; 2. 中國民航大學電子信息與自動化學院,天津 300300; 3. 中國民航大學安全科學與工程學院, 天津 300300)

0 引言

不斷增長的空域流量在安全、效率、容量和環境性能等方面對空中交通管制(air traffic control, ATC)提出了挑戰,而數字化和自動化正是應對這些挑戰的有效途徑。ATC通信目前依賴于兩種方法,陸空通話和數據鏈路通信。陸空通話屬于半人工語言,管制員與飛行員通過甚高頻語音通信系統進行溝通交流,而數據鏈路通信旨在通過數據交互界面傳輸管制指令。數據鏈還無法完成全部管制信息的傳送(其不包含地面和塔臺的管制術語),兩種通信方法將在過渡階段并行存在相當長的一段時間。國際民航組織表示:“為了在飛行的關鍵階段盡量減少飛行員頭朝下的時間和潛在的分心,管制員應使用語音與地面以上10 000英尺以下的飛機進行通信”[1]。因此,陸空通話仍然是進近階段信息交換的主要方式。

然而到目前為止,陸空通話這種模擬通信還被排除在數字化進程之外,但是通話內容對自動化系統至關重要。如果能及時將陸空通話中隱含的管制員指令輸入到當前的空中交通管制系統,并準確地推斷出指令的意圖,就能檢測并進一步避免所列出的所有安全風險。因此,對陸空通話的內容進行深度分析與意圖挖掘,自動提取意圖信息,并形成ATC系統可理解的結構化信息是當前人工智能時代亟需解決的問題,也是“自動收集和處理空中交通通信的語音數據”(automatic collection and processing of voice data from air-traffic communications, ATCO2)項目當前旨在開發和改進的任務。這樣不僅可提高管制員的態勢感知能力,使其能夠提前發現和處理緊急情況,提高ATC的安全性,還可用于管制決策和事后分析過程,并減輕管制員的工作量[2]。有研究表明,使用自然語言處理技術處理陸空通話自動語音識別的輸出效果更好,直接對文本數據進行分類優于聲級分類[3]。因此,本文的目標為對語音轉錄而來的陸空通話文本進行意圖挖掘、知識提取,包括呼號、管制單位、指令、值的識別與提取。

陸空通話有別于自然語言,通話雙方格式固定,存在領域特性,與通用文本的信息提取相比,更具有挑戰性,主要表現為以下3個方面:① 大規模的陸空通話文本是模型訓練的基礎,但陸空通話數據通常被認為是“稀缺”的,且大多數均為非公開,難以獲取,當出現頻率干擾或飛行員與管制員通話復雜度高且存在口音差異、精神疲勞時,語音轉錄文字效果不好,價格昂貴,需要大量的人工修正[4]。文本數據的缺乏以及多樣性不足等問題會導致模型的過擬合以及泛化能力弱。② 陸空通話伴有英文或數字的聯合表達與縮寫,語義關系聯系緊密且存在一詞多義現象,如航向值“010”和跑道號“010”,地點“北京”和管制單位“北京進近”。③ 一條陸空通話的語句中可能隱含著不止一種意圖,如“左轉”和“上升”,可能包含著許多狀態信息,這些意圖都需要與對應航班準確匹配且正確提取,在精確度和召回率方面都需要具備較高性能。

針對上述問題,本文提出一種融合本體的基于生成對抗網絡(generative adversarial network, GAN)-雙向轉換編碼器(bidirectional encoder representations from transformers, BERT)-雙向長短時記憶(bidirectional long short-term memory, BiLSTM)-條件隨機場(conditional random field, CRF)的聯合意圖挖掘模型,用于從陸空通話中識別意圖信息、提取意圖信息、結合航班池信息進行合理性校驗。提取信息的問題又被定義為一個自動實體命名識別和分類任務。本文的主要內容有以下4個方面:① 提出基于改進GAN的陸空通話智能文本生成方法,進行數據增強,解決實體數量少且分布不均等問題,擴充語料庫;② 實體的分類和標注結合歐洲單一天空空中交通管理項目(single European sky air traffic management research, SESAR)定義的PJ.16-04的本體規則[5],類型分為航空器呼號、管制單位、垂直意圖、水平意圖、速度意圖、報告意圖、天氣意圖、管制移交、修正海壓、航路點、進離場程序、單位等20類;③ 提出基于BERT-BiLSTM-CRF的聯合模型對陸空通話進行意圖挖掘,提取呼號、指令等意圖信息;④ 從飛行計劃或廣播式自動相關監視數據(automatic dependent surveillance-broadcast, ADS-B)中引入航班池信息,通過編輯距離(edit distance, ED)算法(也稱Levenshtein距離算法)進行意圖信息合理校驗并修正,提高意圖識別準確率。

全文其他內容的組織結構如下:第1節對針對智能文本生成和陸空通話意圖信息提取的國內外研究現狀進行了展開介紹。第2節對本文所提的基于GAN的陸空通話生成模型、融合本體的意圖分類標注、BERT-BiLSTM-CRF聯合模型以及合理性校驗模塊進行了詳細闡述。第3節在介紹實驗數據集以及環境設置的基礎上,與主流模型進行了對比并進行結果分析。第4節總結了本文結論并提出了前景展望。

1 相關工作

本文針對民航陸空通話內容進行文本處理,涉及文本生成以及信息提取兩大部分內容,第1.1節和第1.2節分別介紹了當前智能文本生成以及陸空通話意圖挖掘的國內外研究現狀。

1.1 智能文本生成

針對智能文本生成問題,如機器翻譯、文本摘要等,學者們對深度生成模型開展了廣泛的研究[6]。主流方向是對目標文本進行特征提取與風格模仿,生成任務所需的文本內容。現階段的深度學習算法如卷積神經網絡(convolutional neural network, CNN)、循環神經網絡(recurrent neural network, RNN)、編碼器-解碼器框架、長短時記憶(long short-term memory, LSTM)網絡[7]等在文本生成問題的研究中存在著一些問題,如偏差暴露、錯誤累計[8]、流暢度不夠,且在訓練時參數的更新都直接來自目標文本,參數訓練繁瑣,很難確定一個合適的標準來評價生成的內容。

Koo[9]提出了GAN,其基于二人零和博弈思想,具有強大的數據學習和數據生成能力,可以解決前面提到的疑難問題。Zhang等[10]則提出了文本GAN(text GAN),生成器使用LSTM,判別器使用CNN,利用了協方差矩陣的差異化度量,緩解了原始GAN訓練中的模式崩潰問題。Yu等[11]提出了序列GAN(sequence GAN, SeqGAN),生成器使用LSTM,判別器使用CNN,將GAN與強化學習相結合,文本生成質量有所提高,但針對長文本的生成效果不好。Che等[12]提出了最大似然增強離散GAN(maximum-likelihood augmented discrete GAN, MaliGAN),對生成數據分布和真實數據分布的差距進行直接計算,提高了生成文本的多樣性,但是擬合能力較弱。Li等[13]將GAN應用于文本對話生成中,生成器采用序列到序列模型(sequence-to-sequence, Seq2Seq),判別器則采用層次解碼模型,能直接對部分生成或完全生成的序列計算獎勵值,但是也會使得判別器更不準確。Guo等[14]提出了一個存在泄露信息的GAN(GAN with leaked information, LeakGAN),通過判別器泄露的信息更好地指導生成器的生成,但生成的文本多樣性有待提高。Kim等[15]將GAN用于摘要生成,提出了一種基于特征與兩級推理架構的GAN模型,用于多專利摘要的生成與總結。

在實際應用中,GAN已經用于詩歌生成、法律文本生成等多個場景,在文本領域的發展值得不斷思考[16]。但在民航陸空通話文本生成方面,只有邱意等[17]提出了一種使用one-hot詞向量訓練GAN模型的陸空通話文本生成方法,其生成器為LSTM模型,判別器為CNN模型,該方法生成的部分文本不符合陸空通話語法規則且不夠通順。

1.2 陸空通話信息提取

信息提取是利用機器自動化地從文本中識別和抽取特定的實體、關系或事件信息[18]。文本實體識別技術是文本處理中的關鍵任務,為信息檢索、知識圖譜構建奠定了基礎[19]。現有的方法可以分為3大類:依賴于詞典規則的方法、傳統機器學習方法和當前主流的深度學習方法。

基于規則的方法依賴于人工制定的、基于模式匹配的規則從非結構化文本數據中識別和提取目標信息。鄧學鳴[20]利用正則表達式的方法對陸空通話中的管制信息進行匹配與抽取,并將其實時反饋,能有效避免危險情況的發生。在此基礎上,楊昱昕[21]利用前綴因子過濾法對正則表達式進行了改進,優化了有限自動機并加入了過濾算法,管制信息及參數的提取更為準確。王煊等[22]提出了一種基于語言學的陸空通話語法分析技術和基于語法學的結構化模板生成技術,通過構建語義網,確定出謂詞、論元和關系組成的三元組結構,再利用貝葉斯網絡模型填補空范疇,形成結構化模板。傳統的基于規則的方法雖然操作較為簡單,且有助于對管制指令進行解析,但其太過依賴于規則,無法列舉出所有的模板與之配對,可移植性差。

基于機器學習的信息提取方法包括支持向量機和最大熵馬爾可夫模型等[23]。經典的機器學習算法特征工程較為復雜,而深度網絡模型不需要特征工程,且魯棒性強,精確度也有大幅提升。近些年來,深度學習算法漸漸成為信息提取的主流算法,并向各垂直領域延伸[24]。在事件安全分析方面,Liu等[25]提出一種基于數據增強和BiLSTM-CRF的實體識別方法,可對鐵路事故報告進行文本挖掘與風險預測,并可拓展至其他事故語料中。在醫學領域,Luo等[26]將改進的BERT模型用于文本生成與特征挖掘,可解釋性更強且可以實現并行計算。在陸空通話領域,Lin等[27]將BiLSTM與多層感知機結合來提取管制意圖和管制參數。Lin等[28]還將BiLSTM與全連接層(fully connected layer, FC)結合,更好地挖掘陸空通話文本意圖。FC分為管制意圖推理和槽填充兩部分,管制意圖推理被處理為一個序列分類任務,而槽填充提供關于已識別指令的詳細信息。張興明[29]在陸空通話信息提取中使用了BiLSTM-CRF網絡,并在其中引入了注意力(attention, ATT)機制,形成BiLSTM-ATT-CRF,取得了不錯的識別提取效果。Kocour等[30]提出了一種基于BERT的自然語言理解模型,可以從陸空通話文本中提取知識,進行呼號識別、飛行員分類與實體識別。

上述方法存在著語料庫較少、實體分布不均等問題,且多意圖挖掘準確率有待提升,未達到理想水平。本文提出的融合本體標注的GAN+BERT-BiLSTM-CRF聯合意圖信息挖掘模型首先對陸空通話原始數據集進行數據增強,之后基于本體分類標注,將數據送入BERT-BiLSTM-CRF模型進行意圖挖掘、信息提取并校驗修正,可有效解決多義詞問題,且充分捕獲文本關聯信息的多重特征。

2 民航陸空通話意圖挖掘方法

民航陸空通話意圖挖掘模型的整體方案如圖1所示。

圖1 民航陸空通話意圖信息挖掘方法的整體框架Fig.1 Overall framework of civil aviation radiotelephony communication intent information mining method

圖1的上側為基于GAN的智能文本生成模型,其重點在于文本生成器和文本判別器的不斷學習和對抗訓練,將整個過程視為強化學習的序列決策過程,目的是使生成器生成與真實數據集無法區分的文本,使得判別器的獎勵最大化,可以實現數據的有效增強、平衡各類意圖信息分布和擴充數據集。

圖1的下側為陸空通話的意圖挖掘模型,主要包括結合本體的意圖分類與標注、意圖信息的識別與提取、航班池信息的合理性校驗與修正幾個部分,最終可形成ATC系統可理解的結構化信息。

2.1 基于GAN的陸空通話智能文本生成技術

民航陸空通話文本字向量的轉換利用Word2vec的連續詞袋(continuous bag of words,CBOW)模式來實現。本文使用基于LSTM的編碼器-解碼器框架[13]來訓練一個參數為λ的文本生成器,如圖2所示。生成器的輸入為真實的陸空通話文本,定義了在給定陸空通話文本下生成響應的策略,目的是更好地捕獲全局語義信息,盡可能地擬合真實樣本的分布,輸出假樣本來欺騙判別器。

圖2 基于改進GAN的陸空通話文本生成模型架構Fig.2 Text generation model architecture for radiotelephony communication based on improved GAN

GAN的優勢在于生成器的更新直接來自于判別器的反向指導,本文使用CNN并引入交叉熵函數來訓練一個參數為μ的判別器,其輸入為真實陸空通話文本和生成器生成的文本,輸出的值為0～1之間的數。

由于GAN在處理離散數據時會遇到反向傳播梯度難以下降和判別器不能評估殘缺的序列的困難,在對抗訓練中引入強化學習概念,把文本生成器看作代理,將當前已經生成的序列Y看作狀態s,將下一個要生成的詞看作動作a,將判別器給出的分數看作獎勵,其目標函數如下所示:

(1)

式中:G為生成器,D為判別器,Q為動作-價值函數,公式的含義為希望參數為λ的生成器在s處做出最佳選擇,獲取最大獎勵回報,而如何選擇動作又取決于動作的價值Q。

Q是由D來判定的,D只能對完整的序列打分,在序列不完整時,本文在t-m時刻使用蒙特卡羅搜索算法補全,其采樣策略與Gλ一致,P次采樣的蒙特卡羅搜索被表示如下:

(2)

其動作價值函數如下所示:

(3)

生成器生成的文本更接近真實陸空通話文本,判別器迭代更新其參數,使得真實標簽和預測概率之間的交叉熵最小[11],如下所示:

(4)

生成器的參數是通過策略梯度進行更新的,如下所示:

(5)

2.2 基于SESAR本體的意圖分類與標注

本體一詞源自希臘,意思是事物的本質,在計算機學科里被廣泛用于知識表示、信息系統、人工智能等領域。本體定義了抽象概念及其之間的關系,主要用于在計算機程序之間以數字形式交換知識,知識可以包括一般知識和專業知識,術語本體論建立在計算機科學中,在語義網和自然語言理解領域確立了自己的地位。

2020年,SESAR出資成立的PJ.16-04解決方案開發了一個陸空通話指令轉錄本體[5]。本體的主要組成有兩部分:呼號和指令。指令部分的元素如圖3所示。

圖3 陸空通話指令轉錄本體的元素組成Fig.3 Elemental composition of transcription ontology of radiotelephony communication instructions

從圖3可以看出,陸空通話的一條指令是由一條必須的命令(深綠色部分)和一個或多個可選的條件(黃色部分)組成的,其中命令由類型、參數、單位和可選的限定詞組成,并非所有的命令都需要參數和單位,但類型是必須的;可選條件由連詞和需要達到的某些要求組成,不是必須的。一條陸空通話針對同一個呼號,可以包含多個指令。

指令又細分為4大類:① 垂直制導指令:包括爬升、下降、保持以及飛行高度相關參數等;② 水平制導指令:包括航向的左轉、右轉以及保持等;③ 滑行制導指令:包括滑行到…、滑行經過…、進跑道等;④ 其他命令類型指令:包括速度指令、報告請求指令、頻率改變指令、著陸許可指令和信息指令等。

基于上述本體,依賴于專家知識,進一步對陸空通話內容細化,將意圖信息劃分為航空器呼號、管制單位、水平意圖、水平參數、垂直意圖、垂直參數、速度意圖、速度參數、管制移交、通信頻率、進離場程序、航路點、修正海壓、應答機編碼等20類,詳細的意圖分類如圖4所示。

圖4 融合SESAR本體的陸空通話意圖標簽分類Fig.4 Classification of radiotelephony communication intent tags incorporating SESAR ontology

隨后,按照BIEO標注策略,“B”代表實體開頭部分的第一個字,“I”代表該實體的中間部分,“E”代表實體的最后一個字,“O”代表非實體,使用Label Studio進行標注。標注示例如表1所示。

表1 陸空通話實體標注示例

2.3 陸空通話BERT-BiLSTM-CRF聯合意圖信息挖掘模型

本文所提出的民航陸空通話意圖挖掘模型包括3個模塊,分別是BERT預訓練模型、BiLSTM特征提取模型和CRF推理預測模型。首先將陸空通話語料庫的文本序列輸入BERT層進行預訓練,得到包含字、位置和句子信息的向量,之后將向量送入BiLSTM層進行特征提取,捕獲文本數據過去和未來的信息,輸出每個字對于每個標簽的得分概率,最后的CRF層學習捕獲依賴信息并且對其加以規范約束,獲得全局最優結果。模型整體架構如圖5所示。

圖5 BERT-BiLSTM-CRF意圖挖掘模型架構Fig.5 Intent mining model architecture of BERT-BiLSTM-CRF

2.3.1 BERT預訓練模型

BERT是一種自監督深度語言模型,主要通過掩碼機制對多層雙向Transformer編碼結構進行文本的訓練[31]。其中,Transformer編碼器由一種摒棄循環結構、允許并行計算的自注意機制和前饋神經網絡組成,其相較于傳統的one hot、word2vec等預訓練模型可以更好地理解語義信息,將字的上下文信息填充于當前字中,更好地解決語句中的一詞多義問題,泛化能力得以拓展。BERT模型的整體結構如圖6所示。

圖6 BERT預訓練模型架構Fig.6 Pre-training model architecture for BERT

模型的輸入向量包括字嵌入、句子嵌入和位置嵌入3部分的嵌入相加,字嵌入將輸入的文本序列轉換為固定維度的向量,句子嵌入包含不同語句的信息,位置嵌入可以對輸入文本序列進行順序編碼,經過模型的訓練,輸出文本序列的向量矩陣。

Transformer中的自注意力機制是模型的重點:

(6)

在此基礎上,將多個自注意力層通過多頭結構拼接起來,得到可解釋性更強的多頭注意力機制:

MultiHead(Q,K,V)=[head1;head2;…;headn]W

(7)

(8)

式中:“;”表示矩陣的拼接計算;W代表附加權重矩陣;head為注意力頭數,i∈[1,n]為head的索引;WQ、WK、WV分別為Q,K,V的權重參數矩陣。此后,為了加快模型的收斂,引入殘差網絡并進行歸一化的處理。

BERT模型的優勢在于其包含了兩個任務:掩碼語言模型(masked language model, MLM)和下一句預測(next sentence prediction, NSP)[32]。MLM的基本思路就是隨機地對單詞進行遮蔽,遮蔽的詞中大部分采用[MASK]替換,部分采用隨機替換,其余的保持原樣。通過聯合訓練,可以根據上下文的語境來推測遮蔽的詞,更有效地解決一詞多義問題。NSP則可以更直觀地理解句子前后之間的邏輯關系。兩個任務的結合可使模型的語義表達更加充分。

2.3.2 BiLSTM特征提取模型

BiLSTM模型包括前向和后向的LSTM,其對輸入的序列進行雙向單獨編碼,能夠分別獲取文本數據之前和之后的信息,最后將前向和后向兩個隱藏層向量拼接組合作為最后的輸出,可以更為有效地提取文本上下文特征。

LSTM通過輸入門、遺忘門和輸出門的共同作用學習序列的長期依賴。在每個時間步長t,輸入序列中的一個字向量,當前t的隱藏層向量ht取決于前一時刻的ht-1和當前輸入的xt。首先,LSTM的遺忘門丟棄一些信息:

ft=Sigmoid(wf·[ht-1,xt]+bf)

(9)

接著,輸入門需要決定儲存哪些單元狀態信息,具體包括通過Sigmoid函數來更新信息it和通過tanh函數創建新的備選向量兩個過程,兩個過程結合后,完成單元狀態更新:

ct=ft·ct-1+it·tanh(wc·[ht-1,xt]+bc

(10)

式(9)和式(10)中,Sigmoid層和tanh層的權值分別為wf和wc,偏移項為bf和bc。

最后,輸出門輸出語義特征,具體包括3部分:決定輸出信息的部分ot、數值轉換并與前一步合并得到時刻t的隱藏層向量ht;然后整合整個序列的信息并匯總成最后的輸出hn。

ht=ot·tanh(ct)

(11)

hn=q(h1,h2,…,ht,…hn)

(12)

式中:q為匯總函數。

在此基礎上,BiLSTM的計算公式如下:

(13)

2.3.3 CRF推理預測模型

CRF推理預測模塊將BiLSTM模塊的輸出作為輸入,其特征靈活,可以學習感知到相鄰標簽的依存關系,并加以約束性的規則,增強前后之間的約束信息,防止非法標識,得到最終的全局最優的預測標簽,確保了結果的合理性與準確性。

設給定的輸入向量為X=[x1,x2,…,xn],輸出的預測標簽為y={y1,y2,…,yn},CRF序列標注的過程可展示如下:

(14)

式中:Score(X|y)為在給定輸入x后,預測標簽為y的得分;Zt,yt為第t個字符標簽為標簽yt的概率發射矩陣;Ayt,yt+1代表概率轉移矩陣,即從標簽yt轉移至標簽yt+1。隨后,歸一化的概率計算使用softmax函數實現,再通過極大似然估計法得到概率最大的一組標注序列yLast。

(15)

2.4 陸空通話航班池合理性校驗

為了進一步增強意圖識別與航班之間的相關性,保證陸空通話意圖挖掘的精確性,在聯合模型的后面引入航班池的合理性校驗模塊。首先從管制員所在扇區每個航班的飛行計劃或者ADS-B數據中提取航空器呼號和管制單位,生成航班池,之后從意圖挖掘模塊提取出挖掘到的這兩部分信息,最后將上述兩部分內容進行文本相似度校驗,并將校驗結果作為修正的參考。ED算法用于衡量文本的相似性,其原理是計算在兩個字符串之間執行允許的編輯操作后從一個字符串轉化到另一個字符串的最小次數,編輯距離的大小與文本相似度成反比。其中,語義匹配度Sim(l1,l2)的計算公式為

(16)

式中:l1和l2分別代表兩個字符串的長度;Max(l1,l2) 表示取l1、l2長度的最大值;Len表示計算后的編輯距離的大小。在進行合理性校驗后,將提取得到的意圖信息形成ATC系統可理解的結構化信息。

2.5 模型復雜度分析

本文針對提出的模型,從空間復雜度和時間復雜度兩方面進行了分析。其中,空間復雜度即模型的參數量,刻畫了模型容量;時間復雜度即模型的計算量,刻畫了模型的運行速度,即通過運行產生結果的所需操作數,二者常用O來簡化表示[33]。

本文從輸入文本的序列長度T、字嵌入的維度D與卷積核的寬度K3個角度表示模型復雜度。以Transformer模型的自注意力模塊為例分析:某一序列經過字嵌入后的矩陣為[T,D],在Q與KT點乘的計算過程中,首先,Q中的特定元素會與K的第一行相乘,其復雜度為O(T),而K的第一行中共有D個特定元素,復雜度變為O(TD),因為Q中又共有T行,所以自注意力模塊的總復雜度為O(T2D)。

根據不同網絡模型的結構進行推導分析,得出本文主要算法的模型總復雜度(包含時間與空間),如表2所示。

表2 算法復雜度比較

3 實驗結果與分析

本文針對繁忙的終端區這一場景,進行4個部分的對比實驗,分別為基于GAN的陸空通話文本生成實驗、基于原始數據集的陸空通話意圖挖掘實驗、引入增強數據集的陸空通話意圖挖掘實驗以及航班池合理性校驗實驗,最后進行結果分析。

3.1 陸空通話數據集這實驗

本實驗的原始數據集來源于真實的陸空通話記錄,經過語音轉錄以及人工修正得來,語料庫共包含12 570條語句,屬于短文本,按照8∶1∶1隨機劃分為訓練集、驗證集和測試集。智能文本生成實驗無需文本標注;意圖挖掘實驗按照第2.2節所述方法融合本體專家知識進行實體標注,共由兩列組成,第一列為數據文本,第二列為其對應的BIEO標簽。

3.2 實驗評價指標

在對民航陸空通話智能文本生成技術的評估中,使用雙語評估替補(bilingual evaluation understudy, BLEU)作為衡量標準,依據的是文本相似度。BLEU采用一種n-gram的匹配準則來比較連續n個單詞在生成文本和數據集文本之間的相似度,本文使用BLEU-2、BLEU-3和BLEU-4作為評價指標,其范圍為0～1,越靠近1,代表生成文本的效果越好。

本文使用準確率(precision,P)、召回率(recall,R)和綜合評價指標(F1)共同作為民航陸空通話意圖挖掘方法的度量指標。為了更好地評估意圖識別的整體性能,采用宏平均(Macro-averaging)評估指標來計算陸空通話各類意圖的Macro-P、Macro-R、Macro-F1值,即分別取其中的P、R、F1的算術平均值,具體的計算公式如下:

(17)

(18)

(19)

3.3 實驗環境與參數

本文所有實驗都采用Pytorch深度學習框架,在Python3.8 的環境下進行對比分析。智能文本生成技術的參數設置如表3所示,意圖挖掘方法的參數設置如表4所示,其中的BERT模塊使用BERT-base版本。

表3 基于改進GAN的文本生成模型的實驗參數設置

表4 BERT-BiLSTM-CRF意圖挖掘模型的實驗參數設置

3.4 實驗與結果分析

本節共設計了3個部分的實驗。第3.4.1節對本文生成模型與其他模型在陸空通話文本生成上的BLEU分值進行了比較分析;第3.4.2節為基于原始數據集的陸空通話意圖挖掘實驗,對比了其他3類主流模型,分析了該方法的所需改進之處;第3.4.3節為引入增強數據集的陸空通話意圖挖掘實驗,還比較了不同模型的復雜度,并分析了加入航班池校驗修正模塊后的提升效果。

3.4.1 基于改進GAN的陸空通話智能文本生成技術BLEU評分

為了驗證本文所提文本生成模型的性能,將其與基于極大似然估計(maximum likelihood estimation, MLE)訓練的LSTM模型[7]和SeqGAN模型[11]進行比較,用BLEU-2、BLEU-3和BLEU-4衡量文本相似度,表5顯示了民航陸空通話文本生成的不同模型的BLEU分數。

表5 3種方法在陸空通話文本生成上的BLEU分值

從表5可以看出,本模型充分利用了文本信息,并且更好地捕獲了民航陸空通話語法結構和語義信息,文本相似度更高,實驗結果優于其他對比模型。在BLEU-2標準上,本文模型相較于SeqGAN和MLE分別提高了0.048和0.109個BLEU點。在BLEU-3標準上,該模型相較于SeqGAN和MLE分別提高了0.031和0.103個BLEU點。這說明此模型的文本特征提取能力獲得了增強且對抗訓練更加穩定,在民航陸空通話文本生成上具有更好的性能。

3.4.2 融合本體的BERT-BiLSTM-CRF的意圖挖掘模型實驗結果

整個實驗過程包括BERT預訓練向量化、BiLSTM特征提取、CRF標注預測、意圖信息提取4個部分。為了更好地驗證該模型的意圖識別效果,在第3.1節原始融合本體標注的數據集上(數據擴增前),在相同環境下搭建其他3個主流模型并進行對比實驗,模型分別為BiLSTM-ATT-CRF、BERT、BERT-CRF,并統計其在20類意圖標簽上的Macro-P、Macro-R、Macro-F1值,對比結果如表6所示。

表6 原數據集下不同模型的意圖識別結果對比

從表6可以看出,BERT-BiLSTM-CRF聯合模型的宏平均P、R、F1值分別為96.62%、95.92%和96.27%,均高于對比模型,性能更優。

相對于BiLSTM-ATT-CRF模型,BERT模型的F1值提升了1.77%。由于陸空通話語句中包含較多中文和數字組合形式的表達,BiLSTM-ATT-CRF模型受實體不均衡的影響較大,只能獲取上下文語境中的局部語義信息,而BERT模型通過預先訓練,以字向量為基礎,對全局語義信息進行捕捉,有效解決了一詞多義在不同語境中的問題。在BERT模型上加上CRF層后的BERT-CRF模型的F1值相較于前兩種對比模型分別提高了2.41%和0.64%,表明CRF借鑒了相鄰標簽的約束關系,通過動態規劃實現了全局最優的序列標記。最后的BERT-BiLSTM-CRF模型的F1值相比之前的對比模型分別提高了2.85%、1.08%和0.44%,表明BiLSTM通過整合上下文信息,有效地提高了編碼質量,增強了特征提取能力,同時也顯示了BERT與BiLSTM-CRF全局和局部語義的強大互補性。

表7給出了在民航陸空通話原始數據集上,BERT-BiLSTM-CRF模型針對各類意圖的識別效果。由表7可以看出,在TII、RTF、SPV、WEI、SCI和RCI這幾類意圖上(見表7中的紅框標記),模型的識別率較低,原因是在轉錄真實通話的原始數據集中,這幾類實體占比較少,不利于深度模型的學習和識別。為了解決這個問題,本文將基于GAN的文本數據增強方法引入到意圖挖掘模型中,對原始數據集中數量較少的實體進行擴展,使之均衡分布,并提出了GAN+BERT-BiLSTM-CRF的意圖挖掘模型。

表7 融合本體的BERT-BiLSTM-CRF模型在各類意圖標簽上的識別結果

3.4.3 融合本體的GAN+BERT-BiLSTM-CRF的意圖挖掘模型實驗結果

根據第3.1節所述基于GAN的民航陸空通話智能生成方法,進行語料庫的生成,尤其針對實體數量較少的上述6類意圖,平衡各類實體意圖的數量,形成包含20 150條語句的擴充語料庫。在此基礎上,在第3.4.2節相同環境中進行對比實驗,結果如表8所示。

表8 增強數據集下不同模型的意圖識別結果對比

從表8中的實驗數據可以看出,本文模型的綜合效果優于其他主流模型,擴充語料庫后,4類模型的Macro-P較之前分別提高了3.78%、2.98%、2.26%和2.46%,F1值較之前分別提升了3.30%、2.79%、2.50%和2.45%,在沒有BERT模型的BiLSTM-ATT-CRF模型中效果提升最為明顯。GAN+BERT-BiLSTM-CRF模型在各類意圖上的具體實驗結果如表9所示,對比表7中的各項數據,可以看出該方法在各項指標上都有所提升,尤其是識別率較低的幾類具體實體。

表9 融合本體的GAN+BERT-BiLSTM-CRF模型在各類意圖標簽上的識別結果

續表9

為了更好地評估模型,本文對比了不同模型的參數量與計算量,如表10所示,從模型復雜度的角度進行對比分析。

表10 不同模型復雜度對比

從表10的對比數據可以看出,GAN模型通過對抗競爭實現獎勵最優化,降低了模型的復雜度以及計算資源,對于大維度生成樣本,計算量不會面臨類似傳統模型的指數級上升。在幾類意圖挖掘模型中,BERT模型的復雜度較高,說明其表示能力與有效復雜性更高。綜合表8與表10的結果可以看出,本文的聯合模型與對比模型相比,在時間與空間復雜度差別不大的情況下,意圖提取的精度更高。

為了更直觀地體現出基于GAN的智能文本生成技術在意圖挖掘中的作用,圖7展示了在原始數據集與引入GAN數據增強后的數據集上,聯合模型在20類意圖上的F1值。由圖7可以看出,本文模型效果更優,在TII、RTF、SPV、WEI、SCI幾類實體上效果提升更為明顯。

圖7 GAN數據增強前后模型在各意圖標簽上的F1值對比Fig.7 Comparison of F1 values of the model on each intention label before and after GAN data enhancement

上述結果表明,本文所提聯合模型可以豐富民航陸空通話語料庫且獲得更高的F1值,具有更好的性能且優于當前的其他主流模型。最后,引入終端區場景下的航班池信息,包含航空器呼號和管制單位信息,與本文模型對應提取到的CAL與CUN信息進行合理性校驗并修正,校驗后整體的F1值提升了0.03%,達到了98.75%,提高了意圖挖掘整體的可靠性與魯棒性,各模型Macro-F1值性能對比如圖8所示。

圖8 陸空通話意圖挖掘中不同模型的Macro-F1值對比Fig.8 Comparison of Macro-F1 values of different models in radiotelephony communication intent mining

4 結束語

本文基于民航陸空通話內容難以獲取、意圖提取準確率低且尚未被應用于數字化系統這一背景,提出了一種融合本體的基于GAN+BERT-BiLSTM-CRF+ED的陸空通話意圖挖掘方法。首先,結合Seq2Seq框架對傳統GAN模型進行改進,并在判別器中引入交叉熵,更有效地提取了文本信息的上下語義關系以及關鍵信息,可以以無監督的方式生成高質量的文本,擴充語料庫,解決實體不均問題。其次,進入BERT-BiLSTM-CRF聯合模型進行意圖識別和提取,BERT通過預訓練生成語義信息豐富的字向量,解決一詞多義問題,BiLSTM編碼充分捕獲上下文的文本特征,CRF通過增加約束獲取了全局最優效果。最后,合理性校驗修正模塊進一步提升了航空器呼號和管制單位的準確率。模型在20類意圖上的整體效果優于對比模型,可形成ATC結構化信息,為減輕管制員工作負載、監測及可視化終端區管制工作、構建民航領域知識圖譜以及航空安全的事后監理提供了新的解決思路。

在未來,還需進一步優化深度學習模型的架構,以獲得更好的感知性能,或利用剪枝及知識蒸餾等方法降低模型復雜度,減少算力,還可將意圖挖掘的信息應用于其他ATC應用,如流量預測、沖突檢測以及管制決策等。