祁振杰
民航貴州空管分局 貴州 貴陽 550005
語音記錄儀在空管行業內十分重要,旨在記錄空中交通管制員對空通話、電話等錄音,記錄的數據主要用于事件調查、回溯還原指揮現場的情況等。通常,語音記錄儀系統中配備的記錄單元所保存數據的硬盤通常使用raid技術[1],防止記錄儀主機的記錄單元故障的情況下,造成語音記錄的缺失。
自2021年12月10日,西南某地的現場過渡搬遷正式運行后,記錄儀系統發生多次的宕機現象,宕機后的主機具體表現為:USB口無法使用、網絡無法啟用、屏幕顯示故障前的最后畫面,需斷電重啟宕機記錄單元才能恢復。
現場2022年8月26日于進行了軟件升級后,8月27日至9月27日期間,宕機次數明顯增加,為36次,表現為不同單元、不同時間,宕機無規律可循,給現場的生產運行造成了一定的風險隱患。
如圖1所示,A、B兩臺千兆交換機使用網線(橙色)直接連接,實現普通端口級聯。

圖1 網絡拓撲結構
每臺記錄單元的主機上有兩個物理網口,通過Linux雙網卡綁定技術(被稱為bonding),實現使用兩塊網卡虛擬成為一塊網卡,即兩塊網卡具有相同的IP地址而并行鏈接聚合成一個邏輯鏈路工作。兩個物理網口分別使用網線(紅色、藍色)接入A、B交換機。
如圖2所示,西南某地語音記錄儀的軟件結構主要分為3部分,公共模塊(網絡代理程序、守護進程)、語音記錄部分、控制部分。

圖2 語音記錄儀軟件結構
2022年2月至8月,現場與廠家聯合開展了11記錄單元工控機部件更換,先后完成了內存條更換、記錄儀工控機更換、主板插槽更換、擋片更換、話音卡更換、磁盤陣列和話音卡壓條更換、底板更換、壓條緊固操作、擦拭板卡金手指等操作,但宕機問題仍然存在,未能定位宕機原因。
現象:升級前后,主要體現在記錄儀內網數據流量對比升級前增大近10倍,廠家在各個測試主機部署網絡沖擊程序模擬放大網絡流量,分析網絡流量沖擊下死機頻率變化。
初步判斷:主機宕機,因升級后比升級前網絡流量增大,死機的概率有所增加。
采用排除法:
3.1.1 硬件排除。9月20日-10月26日,測試電源模塊,死機依舊。結論:與電源模塊無關。
10月24日開始,更換主機品牌后,未出現死機。
3.1.2 軟件排除。10月25日,不運行記錄儀程序,只運行網絡代理進行和單元控制進程,含網絡沖擊進程,判斷死機與記錄進程、界面進程無關。
11月11日后,不運行記錄儀相關的所有程序,包含網絡代理進行和單元控制進程,只運行網絡發送程序。

表1 分組對比的設備情況
3.1.3 分組進行對比測試。如上表所示,10月29日-11月6日,測試環境33臺,分為4組,第1、2組為與西南某現場相同的記錄單元5U定制主機,第3組為與現場相同的4U原裝主機,第4組為普通臺式主機。
第1、2、3組中,將7臺主機的配置為:1臺模擬話音記錄單元、2臺E1記錄單元、2臺VOIP記錄單元、2臺雷達記錄單元,全部加載不低于現場數據流量的測試數據(如模擬話音信號、E1話音數據、VOIP話音數據、雷達數據)。第4組共12臺記錄單元,采用普通品牌臺式機,配置為VOIP記錄單元。
結論:在10月25日部署網絡沖擊程序,10月25日至11月6日,共宕機15臺次,比部署前明顯增加,可證明死機頻率與網絡流量具有相關性。因此,后續測試重點放在網絡相關部分。
11月3日至12月17日,第1組、第2組為對比測試組,通過單接入集成網卡,加裝獨立網卡,停止所有記錄儀相關程序,解除網卡綁定等5種排除的方法。
結論:加裝獨立網卡,解除網卡綁定,可以解決宕機問題。
11月3日至12月17日,第3組測試,通過單接入集成網卡,加裝獨立網卡,停止所有記錄儀相關程序,解除網卡綁定等5種排除的方法。
結論:更換主機,加裝獨立USB網卡,可以解決宕機問題。
11月3日至12月15日,第4組測試中主機為普通臺式PC主機,與第1組至第3組已測試的各網卡芯片不同,為intel i218,intel i219芯片,且試驗采用單網卡接入,從10月25日開始,在網絡沖擊情況下一直未出現死機現象。
結論:更換主機,解除綁定可以解決宕機問題。
經過以上測試,造成此次宕機的原因可能有如下幾點。
網卡故障:語音記錄儀的主機是整個系統的核心,如果主機出現故障,將導致整個語音記錄儀無法正常工作。
兼容性問題:語音記錄儀網卡硬件與的驅動可能與其他系統或設備存在兼容性問題,導致宕機。
此次宕機事件主要在8月底升級語音記錄儀軟件后,宕機次數顯著上升,語音記錄儀的軟件可能存在錯誤或漏洞,導致系統宕機。
根據本文實驗測試結果與分析,網卡驅動與硬件的兼容性問題,有可能是引起此次宕機的直接原因。
建議:更換物理網卡,適當的時機升級語音記錄儀軟件網絡代理程序。
同時,為了降低語音記錄儀宕機的風險,可以采取以下措施:①定期維護和檢修:定期對語音記錄儀進行維護和檢修,包括清潔、檢查硬件的工作狀態等,以確保其正常運行。②備份和冗余:設置語音記錄儀的備份系統,將數據存儲在多個設備上,以便在一個設備發生故障時,可以切換到備份設備繼續記錄。③監控和報警系統:設置監控系統,對語音記錄儀的狀態進行實時監測,并設置報警機制,一旦發現異常情況,及時通知相關人員進行處理。
經過分析與測試,西南某地空管語音記錄儀頻繁宕機的原因可能是硬件故障、軟件故障、驅動程序與硬件兼容性問題。為了降低宕機風險,需要定期維護和檢修設備,備份數據,加強系統的監控,及時發現并處理異常情況。