王艾,林孟陽
(中國民用航空飛行學院外國語學院,四川 廣漢 618307)
無線電陸空通話是指飛行員與空中交通管制員在無線電頻率上進行的以信息傳遞為目的的口語語言[1]。語言是人類傳遞情緒信息的工具。語音不僅包含說話人所要表達的語義信息,還蘊含說話人所要表達的情緒信息[2]。民航英語作為一門專門用途的語言,具備語言的社會性功能,也會傳遞情緒。
在民航飛行的過程中,可能遭遇如火災、劫機、惡劣氣象、鳥擊、發動機失效、起落架故障等各種險情。當面對險情時,飛行員的不同情緒狀態會在無線電陸空通話這一載體中顯現出來。從2009年1 月15日遭遇黑雁撞擊、雙發熄火,飛機失去動力后成功迫降哈德遜河的全美航空1549航班薩利機長,到2018年5月14日川航3U8633飛機駕駛艙副駕駛席風擋玻璃突然炸裂,駕駛艙嚴重失壓情況下成功返航的劉傳建機長,以及2019年8月15日遭遇鳥擊、飛機雙發失效,成功迫降玉米地的俄羅斯機長達米爾·尤蘇波夫的通話錄音中可以看出,三位機長均具備一個共同的特點,即情緒穩定,思維清晰。他們的無線電陸空通話符合通話規范,其語速平穩,內容較清晰(川航通訊失效后除外)。因此,穩定的情緒對民航飛行安全至關重要。面向飛行員的情緒識別是保證民航安全的重要一環。
情緒是一種復雜的心理狀態,會影響人的高級認知過程,包括解釋、判斷、推理以及決策[3]。按照其特性和對個體的影響,分為積極情緒、消極情緒和中性情緒。積極情緒即正性情緒,是指個體由于體內外刺激、事件滿足個體需要而產生的伴有愉悅感受的情緒,包括快樂、滿意、興趣、自豪、感激等[4]。消極情緒指一種心情低落和陷于不愉快境況的基本主觀體驗,包括抑郁、焦慮、憤怒、悲傷等情緒狀態[5]。中性情緒指既不明顯積極也不明顯消極的情緒狀態,是一種介于積極情緒與消極情緒之間的一種情緒狀態,如平靜、冷靜。
當面臨特情時,積極穩定的情緒是飛行員正確操縱飛機安全著陸的保障。積極的情緒可以讓飛行員集中精力記憶重要信息,正確流暢地進行陸空通話,并根據飛機的情況尋求最佳解決方案。而負面情緒則會影響飛行員的注意力、記憶力以及邏輯思維能力,進而影響空管人員對陸空通話的理解,進而對飛機狀態和飛行員意圖做出錯誤的判斷,失去對飛機的控制,讓險情雪上加霜。飛行員的情緒穩定性與飛行的安全績效息息相關[6]。保持積極穩定的情緒對飛行安全具有重要意義。因此,識別飛行員的情緒狀態,對其負面情緒進行干預,并對情緒不穩定的飛行員進行情緒自控力的訓練,將極大地促進民航安全。
本文擬根據飛行員的工作特點,結合人工智能技術,提出一種基于無線電陸空通話的民航飛行員的語音情緒識別模型,可對飛行員的情緒進行識別和監控,并對頻繁出現沮喪、焦慮、緊張等負面情緒的飛行員及時采取干預措施,進行情緒自控力的訓練,以確保飛行安全。
情緒識別是指計算機通過對采集的信號進行分析,自動識別人的情緒狀態的技術。隨著人工智能的快速發展,情緒識別技術得到廣泛的應用。目前,人的情緒可以通過四種模式進行識別。第一種是通過對心率、皮膚電、腦電等生理信號的情緒檢測。第二種是通過對眼睛、嘴角、眉毛等面部肌肉的運動進行面部情緒識別。第三種是文本情緒識別,即通過情緒詞典以及深度學習的方法,提取單詞、句子中的情緒特征進行識別。第四種是語音情緒識別,利用計算機分析語音信息,提取情緒特征,將特征值與情緒進行匹配,然后對情緒信息分類,進而推斷出情緒狀態的過程[7]。每種情緒識別方式因其不同的特點,均有其相應的應用場景。如果條件允許,也可以進行多模態的情緒識別,以提高其識別的準確性。
由于飛行員特殊的工作環境和工作性質,無論是通過佩戴腦電圖帽進行腦電測試,還是在手上固定電極進行皮膚電測試,對飛行員都是一種入侵式的檢測方式,會干擾其正常的操作。同時,由于這些設備的不舒適性、不便攜等缺陷,基于生理信號的情緒識別并不適用于民航飛行員。對于面部情緒識別技術,一方面由于白天駕駛艙的紫外線較強,飛行員佩戴的太陽鏡遮擋了面部,另一方面由于夜間駕駛艙的光線較暗,采集面部特征較難,所以飛行員的面部情緒識別較難實現。此外,在飛行過程中,飛行員與空中交通管制員及機組人員均是語音的交流,基本沒有文本信息的交流,因此文本情緒識別同樣不適用。
通過上述分析,基于生理信號、面部情緒或文本的情緒檢測方法均不適用于飛行員。在整個執飛過程中,飛行員需要與空中交通管理員進行關于航路、高度、航行速度等信息的無線電陸空通話。因此,在無線電通信系統中融入語音情緒識別技術,從中提取出語音信號特征,包括音量、音調等,即可實現情緒狀態分析。因此,語音情緒識別是面向飛行員特殊工作環境的最佳情緒識別形式。
無線電陸空通話是一種高度限制的英語,要求最大限度地提高準確性、簡明性和清晰度,從而有助于航空安全[1]。這種高度限制的英語與普通英語在語音特征、使用場景、語言風格等方面均存在不同。
1)語音特征的差異:由于飛機駕駛艙較大的背景噪音,無線電陸空通話可能存在信號失真、噪音干擾等問題,導致語音質量下降,從而對語音的聲調、語速和音色等關鍵聲學特征產生影響。而普通英語通話在日常生活場景中發生,語音較自然和清晰,質量相對更好。
2)語言內容和語言使用規范的特殊性:無線電陸空通話是一種在特定環境下交流的語言,其包含很多民航專業術語和特殊的語言使用規范。因此在進行飛行員情緒識別時,有必要針對這些特點進行相應的語料庫構建和情感分析模型的訓練,以確保準確地捕捉和識別情緒信號。
3)語言風格的差異:為避免歧義和提高通訊效率,飛行員和空中交通管制員需要使用簡短、清晰和直接的語言。因此,無線電陸空通話較普通英語相比,更加規范、簡潔和明了。這種語言風格可能會使情緒識別的難度較普通英語更難。
無線電陸空通話和普通英語存在著語音特征、語境和語言風格等方面的差異。因此,基于無線電陸空通話的情緒識別,需要充分考慮其特殊的語音特征、語言內容和語言使用規范以及語言風格的差異,進行定制化的情感分析模型訓練和情緒分類,以便更好地捕捉飛行員的情緒,為飛行員自我情緒調節管理提供依據。
為了從無線電陸空通話中提取出飛行員的情緒特征,本文針對飛行員的特殊工作環境和安全需求,提出了一種可行的技術應用框架,如圖1所示。

圖1 基于無線電陸空通話的飛行員語音情緒識別技術及應用框架
步驟1:構建飛行員陸空通話的語音情緒識別語料庫。從飛行訓練、模擬飛行、實際飛行中收集大量的飛行員語音數據,包含了各種飛行場景和任務,可以充分反映飛行員在飛行任務中可能出現的各種情緒。定義“積極情緒”“消極情緒”和“中性情緒”三類標簽。根據語音內容和語調給每段語音打上情緒標簽。在標注過程中,特別注意到飛行員在執行任務時可能表現出的微妙情緒和特殊情緒表達方式。
步驟2:采集飛行員與空中交通管制員之間的無線電陸空通話錄音,根據時間維度連續采樣,并切分成連續的音頻數據樣本。考慮到飛行環境中可能有較大的背景噪聲,可基于最小均方誤差(MSE)原理,采用最小化噪聲和期望語音信號之間的均方誤差實現Wiener濾波器,如公式(1):
同時,還可以設計一個高通濾波器,強調高頻部分,降低低頻部分,以提高語音信號的質量,使其更加接近人耳的感知特性,如公式(2):
步驟3:從錄音中提取梅爾頻率倒譜系數[7](MFCC)作為關鍵的聲學特征。梅爾頻率倒譜系數的定義如公式(3)所示:
然后,基于混合高斯模型GMM,從特征中識別飛行員的身份,以確認每段音頻中的說話人。GMM 的概率密度函數可以表示為:
步驟4:從錄音中提取出短時能量(Short-Time Energy),聲門開閉周期(Jitter)和頻譜子帶噪聲(Shimmer)等情緒特征。短時能量的定義如公式(5),聲門開閉周期的定義如公式(6),頻譜子帶噪聲的定義如公式(7)。
步驟5:基于飛行員語音情緒語料庫,利用深度卷積神經網絡對語音中提取的情緒特征進行情緒分類,可分為積極情緒、消極情緒和中性情緒。為了提升檢測效果,可以在網絡中加入注意力機制。
步驟6:對分類數據進行動態分析和可視化呈現。通過情緒變化的動態圖表,了解和掌握飛行員的情緒狀態。
步驟7:基于上述結果,實現對飛行員的情緒分析,并對其情緒自控力進行量化評價。
基于上述模型,一方面飛行員可以根據情緒的識別結果對自己的情緒進行調節,通過情緒識別結果,飛行員可以清楚了解自己的情緒狀態。如有負面情緒,則分析出現負面情緒狀態的原因,并采用一定的情緒調節策略或者情緒管理方法對自己的情緒進行管理和調節,提高工作效率和安全。另一方面,航空公司可以針對經常容易處于負面情緒的飛行員進行情緒疏導或情緒自控力訓練,使他們能更好地應對飛行過程中的壓力和挑戰,以提高其工作表現和安全能力水平。
本文從提升民航飛行安全出發,闡述了飛行員情緒識別的必要性,梳理了當前基于人工智能的情緒識別方法,分析了無線電陸空通話與普通英語的區別,并結合飛行員的工作環境和工作特點,提出了民航飛行員情緒識別的可行性技術方案,并構建了一種基于無線電陸空通話的飛行員情緒識別技術和應用框架,可為飛行員和航空公司提供動態的情緒狀態反饋,進而為情緒分析和情緒自控力訓練提供有力的參考依據。
當然,該技術也面臨著很多挑戰。首先,情緒識別需要空管局及航空公司提供海量的語音數據。此外,情緒標注數據需要投入大量的時間和人力成本。由于無線電陸空通話的特殊性,其特定的句型及大量專業術語進一步增加了語音識別的難度。另外,情緒是一種對客觀事物的個人體驗,會受文化、個人特質、環境、社會習俗等因素的影響。盡管還存在著若干挑戰,隨著語音識別技術的發展,可為民航提供了一種新的角度和方法實現對飛行員的情緒管理。