鐘山
(中國民用航空飛行學院,四川 廣漢618307)
隨著現代社會經濟和科技的發展,民用航空迎來了高速發展,航空運輸量也在不斷地增加。飛行安全問題一直是民用航空的核心問題,飛行過程中的每一個細節都要注意。Cui Q 和Li Y 等學者提出了民用航空安全效率的概念[1]。有關機構的飛行事故統計報告指出無線電交流中的錯誤理解是導致操作錯誤的主要因素,其中很大一部分比例的操作錯誤又會導致復誦錯誤[2]。在特納里夫島空難中,其他地方的炸彈恐怖襲擊使得特納里夫島的一個小型機場涌入了大量的飛機,荷蘭皇家航空和美國泛美航空的飛機在機場跑道上相撞。事故調查結果中一個沒有爭議的重要原因就是荷蘭皇家航空的飛行員和塔臺交流中的理解出現了問題[3]。Shappell S 和Detwiler C 等學者分析了有關的航空飛行事故數據,得出飛行機組和環境方面因素是航空事故的主要原因[4]。由此可以看出陸空通話對于飛行安全的重要性,而陸空通話中發生的一些不經意的小錯誤就可能會導致飛行安全事故。為了保證陸空通話的正確進行會設置指令復誦環節,有關陸空通話的文件指出高度和速度等關鍵指令飛行員要全部復誦。陸空通話的指令復誦環節可以糾正飛行員聽錯指令以及空中管制員發出不正確的指令兩種錯誤,同時飛行員通過指令復誦進一步避免操作失誤[5]。指令復誦是為了避免陸空通話發生的錯誤,而指令復誦的正確與否同樣值得關注。人工校驗指令復誦會因為某些原因發生錯誤,所以為了更好地進行復誦指令的校驗考慮引入自動校驗指令復誦的方法。首先需要將指令的語音信息轉化為文本信息,再通過自然語言處理完成指令復誦校驗的任務,最后返回校驗的結果。大規模語料訓練形成的預訓練語言模型是自然語言處理領域一個重要的進展,文章對BERT 預訓練語言模型應用于陸空通話指令復誦校驗的方法逐步展開分析。首先探討指令復誦校驗對應的自然語言處理任務類型,其次根據指令復誦校驗任務的特點分析如何應用BERT 預訓練語言模型,然后分析BERT 模型的訓練步驟。
以下是陸空通話指令復誦校驗出現的錯誤情形。空中交通管制員發出指令:“某某雷達看到,下降到X 米保持”,飛行員復誦指令:“收到,下降到Y 米”,空中交通管制員校驗復誦指令之后由于某種原因沒有發現復誦錯誤[6]。此時就需要引入基于自然語言處理的陸空通話復誦校驗方法來避免這種錯誤。指令和復誦的指令都可以看作是句子級別的文本,具體的任務是將兩個句子級別的文本作比較核對關鍵信息是否有差異。對于上述文本任務有兩種解決方法:第一種方法是分別用向量的形式表示兩個句子的語義然后比較兩個向量的相似度。第二種方法是將文本核對任務看作是句子對分類任務,當兩個文本的關鍵信息有差異的時候句子對的聯系判斷為A,而當兩個文本的關鍵信息一致的時候句子對的聯系判斷為B。

圖1 Transformer 模型結構示意圖

圖2 BERT 模型結構示意圖
指令和復誦指令的語義整體差異不大,主要區分的是關鍵信息,直接計算兩個句子的向量相似度難以判斷關鍵信息是否一致。所以將指令復誦校驗任務看作是句子對分類任務,使用的模型是BERT 預訓練語言模型。

圖3 BERT 模型輸入向量示意圖

圖4 BERT 模型訓練步驟示意圖

圖5 對于陸空通話語義校驗任務的BERT 模型結構示意圖
BERT 模型是一種雙向結構的預訓練語言模型[7],在很多自然語言處理任務中都有著良好的效果。BERT 模型的內部組成單元是2017 年提出的Transformer 模型[8],Transformer 模型的結構如圖1 所示。
BERT 模型采用了隨機遮住輸入文本部分單詞的做法,并且對下一個句子的預測做了特別的設計[7]。所以BERT 模型適合于復誦校驗任務,BERT 模型的結構如圖2 所示。
對于指令和復誦的指令需要轉換為向量形式作為輸入,BERT 模型的向量輸入形式并不僅僅是分詞的語義向量而是一種復合向量。BERT 模型為了能夠更準確地預測句子對分類結果,引入[SEP]標識符放在每個句子的句末。[CLS]標識符放在整個句子對的首位用于分類任務。將句子轉換為輸入的向量需要對句子進行分詞,然后對分詞進行向量化。分詞的向量是位置向量、段落向量和分詞語義向量三種向量形式之和,具體的細節如圖3 所示。
對于BERT 模型的訓練步驟,首先將指令和復誦指令的數據放在一列按照圖三中的方式加入[CLS]和[SEP]標識符。接著將輸入文本進行分詞,確定出每個分詞的位置向量、段落向量和分詞語義向量,對這三種向量進行求和得到文本分詞的向量。然后使用文本分詞的向量對BERT 模型進行微調。在到達最大訓練輪次之前,每一次模型訓練完成之后都需要判斷當前在驗證集上的結果是否是最好的結果,如果是驗證集上的最好結果就保存模型。對于陸空通話復誦校驗任務的BERT 模型訓練步驟如圖4 所示。
語義校驗的自然語言處理任務本質是一個分類任務,需要判斷指令和復誦指令的關鍵信息是否一致,一致和不一致的情形分別輸出不同的類別結果。所以使用[CLS]標識符的最后一層的狀態來判斷輸出的類別結果,在[CLS]標識符的最后一層增加一個線性層就可以得到分類結果,如圖5 所示。
文章分析了在自然語言處理中陸空通話語義校驗的具體任務類型和BERT 模型對應的訓練步驟,對應用于語義校驗任務的BERT 模型結構進行了探討。