趙學武,吳 寧,王 軍,阮 利,李玲玲,徐 濤
1.鄭州航空工業管理學院 智能工程學院,鄭州450046
2.鄭州航空工業管理學院 大數據科學研究院,鄭州450046
3.北京航空航天大學 計算機學院,北京100191
4.中國民航大學 中國民航信息技術科研基地,天津300300
+通信作者E-mail:373413349@qq.com
進入21 世紀以來,互聯網、多媒體、物聯網、云計算和人工智能等技術的發展,使數據以爆炸式的速度增長。到目前為止,大數據的發展已經歷了十余個年頭。然而,人們對大數據的認識不盡相同,而且也不斷發生著變化。從當前大數據的使用情況來看,大數據的定義可以從單純數據和系統性的角度來理解。從數據的角度講,大數據是指數據本身,這些數據無法通過傳統的存儲、管理和分析等技術手段進行管理和提供服務,具有數據量大(Volume)、數據量增長速度快(Velocity)、種類和來源多樣化(Variety)、價值密度低(Value)和數據準確與可依賴(Veracity)的特點(稱為“5V”)。從這個角度來理解,目前出現了不同領域的大數據,例如,醫療領域產生的大數據、交通領域產生的大數據和金融領域產生的大數據等。從系統性的角度看,大數據是一個體系,既包括數據本身,也包括與之相關的要素、技術、工具,如智能算法、開源軟件、硬件平臺、應用場景等。例如,日常講到的大數據中心或大數據研究院中的大數據應作系統性的理解。
眾所周知,航空領域業務非常復雜,涉及航空器系統、機場系統、服務/應用的對象系統、環境與航空公司等。因此,航空領域生來就擁有多樣的大數據,具有優秀的大數據基因。目前,航空業蓬勃發展,各大航空公司因愈發激烈的競爭而紛紛把航空大數據提升至發展戰略的高度。在國外,先后出現了通用電氣的集工業連接、實時監控、數據分析等功能為一體的Predix 平臺[1],波音公司的具有工程優化、機隊可靠性分析和預測性維護等多種功能的AnalytX 平臺和空客公司與波音公司同步推出的Skywise。在國內,中國南方航空公司于2016 年率先加入交通運輸部的綜合交通運輸出行大數據開放云平臺項目,并以之為基礎不斷完善自己的航空大數據處理平臺;重慶機場集團有限公司于2017 年9 月與華為合作啟動智慧機場建設;中國國際航空公司和海南航空公司也開始使用國內首個提供民航數據分析服務的飛常準大數據平臺。這些航空大數據平臺雖然有力地推動了航空公司的運營效率和服務水平,但是仍然不能滿足航空業競爭日漸加劇、客戶個性化需求日益提高和航空服務領域不斷擴大等新時代航空業發展的需求。利用航空大數據因能預測航空器和服務對象行為、挖掘關聯模式和檢測異常等而成為眾多航空公司降低運營成本、提高服務質量和促進航空應用的有力手段。
到目前為止,也出現了少許航空大數據綜述方面的工作。文獻[2]主要簡單地綜述了航空大數據采集傳輸、分析技術及可視化,評述了目前主要的幾款航空大數據平臺,指出了大數據在航空系統中的應用還存在著理念、方法、技術、人等方面的挑戰等。文獻[3]指出了航空大數據給航空系統帶來的機遇和應用實例,然后給出了一種從關系型SQL(structured query language)數據庫向NoSQL 數據庫轉換的一種解決方案。文獻[4]從2010 年后被廣泛引用的200 篇文獻中分析了航空研究中數據的多樣性、可用性、追蹤性、適用性和來源,然而對航空大數據中的技術和存在的問題涉及甚少。與之相比,本文從數據和系統兩個角度厘清航空大數據的定義,并對其中的內容進行了較為詳細的闡述;同時從計算機技術的角度對航空大數據關鍵技術進行了較為全面系統的論述;更進一步地,從航空技術本身和航空要素兩個層面指出了航空大數據中存在的主要問題及相應的研究方向。本文試圖為航空大數據勾勒出一個較為全面而清晰的概貌,為相關領域的研究提供有益參考。
隨著經濟的發展和社會生活節奏的加快,航空業得到了空前的發展;與此同時,航空服務對象也由最初的旅客和貨物擴展到農業、海洋監測和搶災救險等眾多領域。各大航空公司競相通過自身研發與交流合作降低服務成本和提高服務質量。在此背景下,需要一個較為準確明晰的航空大數據的定義和組織結構,以界定研究討論的范圍和厘清努力的方向與存在的問題。與上述大數據的定義相對應,下面分別從數據和系統的角度給出航空大數據的定義及組織結構。
航空系統的正常運轉需要其中的元素(實體)相互通信、彼此協作,圖1 示意性地展示了異常龐大而又高度復雜協同的航空系統;其中的航空器、機場、顧客、航空公司、航空制造公司和航空地面站等通過數據通信而協調有序運行。數據角度的航空大數據是航空系統本身和由之在應用領域產生以及延伸的大數據。例如,航空器本身的運維、航空運輸對象、航空公司、服務對象和航空經濟等。圖2 清晰地展示數據角度的航空大數據的組織結構。可以看到,數據角度的航空大數據由航空器大數據,機場大數據,空管大數據,航空公司人員、管理、設備和營銷的大數據,應用領域的大數據和延伸的大數據六部分組成。

Fig.1 Schematic diagram of aviation system圖1 航空系統示意圖

Fig.2 Organizational structure diagram of aviation big data from data perspective圖2 數據角度航空大數據的組織結構示意圖
航空器大數據主要包括航空器在設計、生產、運行和維護過程中產生的大數據。例如,羅爾斯·羅伊斯在研發發動機的過程中,首先要設計發動機,并記錄相關數據;然后制造出發動機樣機,在進行試驗測試的同時記錄各種數據;在生產發動機時,記錄下生產線上的各種數據;使用快速存取記錄器(quick access recorder,QAR)和飛行數據記錄器(flight data recorder,FDR)記錄航空器運行過程的大數據;在飛行和停飛期間對航空器進行預測性維護和地面維護會產生航空器維護大數據。
機場大數據是指由機場內及周圍的實體和動態系統產生的大數據,主要包括機場航班大數據、機場旅客大數據、機場物流大數據和機場交通大數據等。每天的航班信息組成了機場航班大數據,如航班號、出發/到達時間、是否延誤等。安檢、娛樂消費、服務評價和行為軌跡等組成了機場旅客大數據。機場內旅客行李和貨物的安檢、封裝、分流而產生的機場物流大數據。機場電力資源的使用情況和狀態及維護、機場調度室人員與設備工作、機場內娛樂與餐飲服務等產生的大數據組成了機場運行保障資源大數據。機場內部及其周圍的交通所產生的大數據組成了機場交通大數據,例如機場內部旅客和貨物的短距離載運、與機場相關的周圍交通的變化和與機場內其他例行性作業相關交通的運行等。
隨著航空器種類和數量的增多,空中交通管理變得越來越重要,因此會產生空管大數據。該類大數據主要有以下幾種:(1)每天在機場對眾多航空器進行調度會產生航空器調度大數據。(2)航空器在飛行過程中經常因改變航道、出現故障、航行狀態等情況和地面空管機構通話,產生陸空通話大數據。(3)為了對空中交通進行實時高效的管理,需要不斷記錄反映天氣的指標數據。(4)空管系統因管理空域中的航路而需要不間斷地、可視化地監視空中航空器的航行軌跡,由此產生航跡大數據。
航空公司大數據是指從事航空器制造和與航空應用相關的公司在人員、管理、設備和營銷方面產生的大數據。其中,航空公司營銷大數據主要包括市場上消費者需要分析的大數據、營銷模型和策略及其效益的大數據和財務大數據等。
應用領域(服務/對象)大數據是指航空器在服務旅客、貨運、農業和海洋等過程中來自于服務對象和環境的大數據。例如,航空旅客大數據是航空器服務旅客的全過程中來自于旅客和環境的大數據,包括旅客自身的數據、機票搜索與預訂數據、空客評論與社交網絡數據、旅客的行為偏好數據等。
延伸的大數據是指由上述五類航空大數據延伸出的大數據。例如:(1)航空經濟大數據是指由航空系統給區域或國家帶來的經濟方面的大數據。如航空公司股票大數據和航空公司經濟收益大數據及由航空系統帶動的其他行業的經濟數據等。(2)航空合作交流大數據是由航空組織和政府及相關學術組織因舉行會議和相關活動而產生的大數據。隨著社會發展節奏的加快和經濟交叉融合的日益深入,延伸的大數據也會越來越多。
從上述組織結構可以看出,數據角度的航空大數據除了具有大數據的“5V”特征外,還擁有自己的特性:(1)從行業角度看,航空大數據具有保密性。例如,客戶數據、航空器飛行數據等都具有較高的行業商業保密性。(2)從空間角度講,航空大數據可來自空、天、地三個維度,具有廣域性。(3)從時間層面看,航空系統的動態性和高安全性需求使數據角度的航空大數據具有鮮明的高實時性特征。(4)來源多樣的航空大數據交織在一起,而且易受環境和人為因素的影響,表現出超復雜性。
目前,航空大數據自身的獲取比較容易,而航空大數據的處理技術和平臺構建相對較難。因此常說的航空大數據日益具有系統性的一面。系統角度的航空大數據是一個完整的體系,既包括航空系統本身和由之在應用領域以及延伸產生的大數據本身,也包括與之相關的硬件平臺、智能處理技術和虛擬仿真與可視化技術等。圖3 示意性地展示了系統角度的航空大數據的體系組織結構。從圖3 可以清晰地看到:除了數據角度的航空大數據外,系統角度的航空大數據還包括基礎架構層、資源層、數據解析管理層、分析層和可視化層等。下面對其中的每一層進行詳細闡述。
1.2.1 基礎架構層

Fig.3 Organization structure diagram of aviation big data from system perspective圖3 系統角度航空大數據的組織結構示意圖
基礎架構層主要是為航空大數據的存儲、傳輸、安全和面向某一具體應用等提供基礎性服務的軟件與硬件設備。大數據的“5V”特點和應用領域與場景的多樣性對服務器的性能提出了較高的要求,按具體的用途主要有計算類服務器、面向海量存儲的服務器、面向可視化和虛擬現實的服務器、面向通訊與網絡系統的服務器和鏡像服務器五種。不同類型的服務器只有協調工作才能形成一個功能完備的服務器集群。
航空系統產生的大數據具有實時性和多源性的特點;位于基礎架構層服務器中的數據會被頻繁訪問。因此,基礎架構層內應包括具有高速寬帶、負載均衡和并發訪問機制等特性的網絡輔助系統。互聯網開放環境對位于基礎架構層內服務器的安全性提出了更高的要求;而基礎架構層中的安全設備可為其中的服務器提供安全保障。服務器機房常用的安全設備有防火墻、空調系統、備用電源、監控系統和隔熱層等。
1.2.2 資源層
虛擬化技術能構建支持異構存儲、異構網絡、異構主機及各種不同版本應用的統一的計算資源池的架構,因此虛擬化的基礎架構為基礎架構層中服務器和其他軟硬件的擴展提供了便利。到目前為止,常用于航空大數據的虛擬化技術有存儲虛擬化、網絡虛擬化、服務器虛擬化等。每臺虛擬化的服務器都擁有虛擬化的獨立“硬件”,其工作實際上是由物理機的硬件完成的。
Hadoop 編程框架的出現,開辟了在大規模集群上并行分布式計算和存儲的時代。在基于Hadoop 集群的分布式并行系統中:(1)一個計算節點或存儲節點可映射到一臺或多臺物理服務器上;(2)物理服務器數量的可擴充性和虛擬映射機制使得計算節點和存儲節點可方便地擴展,因此能提供近似無限的計算和存儲能力;同時,云技術可把眾多由網絡連接的超大服務器集群起來。因此,以Hadoop 為代表的分布式系統和云技術為基礎架構虛擬化提供了便利。
1.2.3 數據解析管理層
數據解析管理層主要是對多源大數據進行解析和管理。工業互聯網云系統Predix 和飛參解析系統是航空領域兩個非常著名的航空大數據解析管理系統。2013 年推出的Predix 旨在通過將各種工業資產設備和供應商相互連接和接入云端,提供端到端的安全連接、實時性的設備資產監控以及云端大數據分析和進行基于客戶需要的個性化軟件開發和部署[2]。目前的Predix 具有鏈接資產的安全監控、工業數據管理、工業數據分析、云技術應用與移動性四大核心功能,在航空領域中常用于發動機設計與制造、航空器制造與運營過程中的實時監控等。
航空器的飛行參數和狀態參數是飛行參數記錄器記錄的重要指標。隨著航空器的發展,需要記錄的飛行參數也越來越多。到目前為止,記錄的飛行參數有航空器狀態參數、航空器飛行姿態參數、航空器飛行航向參數、航空器發動機狀態參數、航空器有關操縱器件參數和航空器其他有關設備參數等。這些被記錄的參數值通過地面檢測儀傳回地面,然后通過飛參解析系統對其進行聯合智能分析。飛參解析系統是一個集人工智能、機器學習和數據挖掘為一體的學習式專家系統,可以在不斷學習、分析新數據的基礎上逐漸完善自己的知識規則庫和智能分析能力,進而不斷提高服務質量。
由具體應用領域產生的航空大數據是海量多源的和異域的,也往往需要進行不同的處理。因此,采集到的航空大數據常常是分布式存儲的。由Hadoop提供的分布式文件系統(Hadoop distribution file system,HDFS)為數據的分布式存儲提供了強有力的支持。在實際存儲時,大數據會被分成不同的片段,然后將其存儲到不同的節點上。為了方便查找,將建立大數據片段的分布式全局索引;然后由分布式操作引擎發起對大數據的增刪改查。到目前為止,常用于分布式存儲航空大數據的數據庫有以下幾個:(1)HBase是一種構建在HDFS 之上的分布式、面向列的動態模式數據庫,比較適合實時讀寫、隨機訪問超大規模數據集的場景。(2)MongoDB 是一種基于分布式文件存儲的NoSql 數據庫,適用于半結構化數據的存儲和增刪改查,支持多種編程語言訪問、完全索引和動態查詢。(3)Hive是一個運行于Hadoop 分布式文件系統上的開源數據庫,提供完整的SQL 查詢功能,適用于大數據集的批處理作業。(4)Redis 是一個開源免費的Key-Value 型高性能數據庫,支持字符串、鏈表和集合等類型的value 值的存儲,具有較高的讀寫速度,支持主從服務器數據同步與消息訂閱等優點。航空大數據采集和分析過程中經常會產生一些適合傳統數據庫存儲的結構化數據,因此傳統數據庫在航空大數據中仍有用武之地。常用的傳統數據庫有MySQL、SQL Server和Oracle等。
1.2.4 分析層
分析層的本質是利用人工智能、機器學習、數據挖掘和模式識別中的模型與算法對航空大數據進行有目的處理的過程。大數據的“5V”特點和航空領域的復雜性與實際應用需求使得智能算法不能直接處理航空大數據,而是需要使用一些軟件模塊來滿足流數據處理和實時性等業務需求。對于航空大數據體系來講,分析層中經常使用的輔助模塊有以下幾種:(1)工作流系統幫助分析層中各部分協調高效工作,目前常見的航空大數據工作流系統有Airflow、Azkaban、Conductor、Oozie 和Zookeeper 等。其中的Zookeeper 采用leader-follower 協同機制,具有配置維護、域名服務、分布式同步和組服務等功能。(2)計算引擎是專注于大數據進行快速計算的軟件系統。Spark 計算引擎包括批處理計算的Spark core、實時流處理的Spark Streaming、機器學習的Spark MLlib 和圖計算的Spark GraphX 等核心組件,具有計算高效、通用易用和運行模式多樣的特點。Flink 計算引擎具有可容錯、高吞量、支持窗口機制和狀態管理機制等,在真正意義上做到了流處理與批處理的統一。(3)資源調度通過集中管理集群中各節點的資源,以共享集群的方式為分析層中的各種計算框架和智能算法統一提供CPU、內存和存儲等資源。Yarn 負責集群資源的統一管理,適合多種計算框架,并具有高擴展性和高可用性的優點,因此成為目前航空大數據平臺上主流的資源調度系統。(4)航空大數據領域中的航空器數據、旅客數據和物流數據等都是流式數據,需要專門的流處理引擎對其進行流式處理。目前常用于航空大數據領域的流處理引擎有Spark Streaming、Storm 和Flink DataStream 等。其中,Spark Streaming 按一定的時間間隔將接收到數據流切分成離散數據片段(batch),然后對其進行批處理。Spark Streaming 具有高吞吐量、容錯機制和支持多種數據源的優點。Storm 采用Master/Slave 體系結構,其分布式計算由Nimbus 和Supervisor 兩類服務進程實現。Storm 具有編程簡單、支持多種語言、容錯性強和消息處理快等優點。
分析層對航空大數據進行上述輔助性處理之后,還需使用人工智能、機器學習、數據挖掘與模式識別中的智能算法進行挖掘才得到有價值的知識與信息。具體的航空大數據分析技術詳見2.4 節。
1.2.5 可視化層
由智能算法從航空大數據中挖掘出的知識和信息通常是數字或文本,這給決策者理解和使用帶來不便。而對有價值的知識和信息進行可視化是幫助決策者分析和決策的有效途徑。另一方面,航空領域真實場景比較復雜,更加需要可視化技術進行清晰的展示。基于圖表的可視化是一種最簡單的可視化技術,如利用數學意義上的二維圖、三維圖、坐標圖和表格展示分析結果。基于虛擬現實的可視化技術通過在對真實場景虛擬仿真的基礎上立體式顯示挖掘出的結果,適合復雜應用場景的虛擬仿真。此外,利用智能可視化軟件展示航空大數據分析結果是一條便捷有效的可視化途徑。具體內容詳見2.5節。
航空大數據的復雜多源性和不同層次與應用面向的決策者對航空大數據分析需求的多樣性,造成了航空大數據技術的多樣性。從航空大數據處理過程性的技術角度,將航空大數據關鍵技術分為航空大數據采集技術、航空大數據存儲管理技術、航空大數據預處理技術、航空大數據分析技術和航空大數據虛擬仿真與可視化技術。圖4 從技術的角度展示了航空大數據關鍵技術的組織結構,其中一些類的技術又包含不同的具體技術。
獲得航空大數據是進行航空系統狀態分析的前提,而且航空大數據的質量也對分析結果產生至關重要的影響。因此,航空大數據采集技術是航空大數據的關鍵技術之一。到目前為止,航空大數據的采集技術可粗略地歸納為以下五種。

Fig.4 Organization chart of key technologies of aviation big data圖4 航空大數據關鍵技術組織結構圖
(1)基于航空器機載感知設備的航空大數據采集技術。航空器通常需要在空中完成作業,因此利用機載感知設備監控航空器的狀態是非常重要的。航空器機載的感知設備主要包括傳感器、攝像頭和智能終端儀表等。基于機載傳感器的航空大數據采集系統主要包括QAR、FDR、駕駛艙語音記錄器(cockpit voice recorder,CVR)、飛行數據管理系統(flight data management system,FDMS)和應用性機載攝像頭等。表1 列出了基于航空器機載感知設備的主要航空大數據采集工具。
(2)基于網絡的航空大數據采集技術。航空領域是由多個不同的子領域組成的,如航空制造領域、航空旅客領域和航空貨運領域等。網絡上有許多與這些子領域相關的客戶信息、客戶的評價與反饋和客戶的偏好等,與之相應的大數據可通過基于網絡的航空大數據采集技術來獲得。具體來講,采用某種網絡爬蟲技術或網站公開API(application programming interface)等方式從某些特定網站上獲得航空大數據。其中,網絡爬蟲本質上是按照設計的抓取策略自動地抓取萬維網信息的程序或者腳本。目前常用的抓取策略有廣度優先搜索、深度優先搜索和最佳優先搜索等。常用的開發網絡爬蟲的語言有PHP、C++、Java和Python 等。

Table 1 Main aviation big data acquisition tools based on airborne perception equipment表1 機載感知設備的主要航空大數據采集工具
(3)基于衛星和無線電傳輸的航空大數據采集技術。基于衛星和無線電傳輸的航空大數據采集是指利用衛星和無線電通訊技術在航空器和地面人員之間實行雙工通信,獲得與飛行員、天氣狀況等方面的航空大數據[9]。例如:航空器通信尋址和報告系統是一種通過無線電或衛星在航空器和地面站之間傳輸報文的代表性數字數據鏈系統。
(4)基于地面智能設備的航空大數據采集技術。航空器在起降和飛行過程中都要實時地和地面智能設備通信,在此期間和機場有著千絲萬縷的聯系。機場有塔臺、觀測站、雷達、導航儀、通訊發射架和空域檢測儀等,這些設備也可產生航空大數據。基于地面智能設備的航空大數據采集通常是由地面安裝的智能設備或地勤人員通過便攜式設備現場收集到的航空大數據。
(5)基于人工記錄的航空大數據采集技術。航空領域中的一些大數據是通過長時間的現場人工記錄獲得的,如航空器相關設備耗損的記錄、相關人員每天的工作記錄和相關設備制造時的異常情況記錄等。由該采集技術獲得的數據通常在統一匯總后錄入相關的信息管理系統。
作為大數據家族中的一員,航空大數據通常也采用基于分布式架構的存儲技術。具體來講,以Hadoop 中的HDFS 為基礎,依托存儲大數據的數據庫和傳統關系數據庫建立航空大數據平臺,實現對各類航空數據的存儲和管理。航空大數據的異質多源性決定了所用數據庫的非單一性:既需要專門用于海量的半結構化、非結構化數據庫HBase、MongoDB 和Redis 等,充分利用其高性能、高可靠和低成本的優勢,又要利用Oracle 和MySQL 等傳統數據庫來存儲分析結果和結構化的航空大數據,充分利用其靈活、快速、復雜的統計分析功能。圖5 展示了基于Hadoop 的航空大數據存儲示意圖,可以看到:采集到的廣域多源航空大數據首先輸入給處理結構化數據的Sqoop 和半結構化與非結構化數據的Flume;然后,非實時數據流經HDFS 存儲到關系數據庫或非關系數據庫中,實時性數據流以消息的形式暫存到Kafka 的消息隊列中,繼而將其輸入給Storm,最終存儲到數據庫中。Zookeeper為分布式集群環境下的節點提供管理協調服務。圖6 進一步詳細展示了HDFS 主從結構:HDFS 主節點NameNode 管理若干個數據節點DataNode,每個DataNode 中的數據塊是從(機房里)存儲盤節點node 上獲取的;HDFS 從節點是主節點的備份,能提高HDFS 的抗災容錯性能。

Fig.5 Schematic diagram of aviation big data storage based on Hadoop圖5 基于Hadoop 的航空大數據存儲示意圖

Fig.6 HDFS schematic diagram圖6 HDFS 結構示意圖
航空大數據的來源較多,如航空器、航空公司、機場和服務對象等,因此航空大數據的形式和組織格式是多樣的。另一方面,航空大數據采集時因受環境和記錄時況的影響而呈現出噪音大和部分值缺失的現象。更進一步地,航空大數據的分析往往需要多種數據的融合。在此背景下,航空大數據的預處理就顯得非常重要。到目前為止,航空大數據預處理的基本步驟如下[10]:
(1)數據清洗,是對航空大數據的初步預處理,主要包括以下幾個操作:①刪除有缺失值的記錄或者對其進行平均或隨機填充。②通過分箱、聚類和回歸等技術降低航空大數據中的噪音。③通過聚類等技術檢測出離群點并刪除。(2)數據標準化/轉換,根據需要采用某種技術將其轉化為某種標準形式,如歸一化技術、標準正態化技術等。(3)數據融合/集成,對不同的數據源進行概念和物理上的集成,以形成一個更加綜合的數據集。數據融合主要包括實體的識別與統一、冗余屬性的刪除和數據值沖突的檢測與消除等。(4)數據約簡,通過數據立方合計、維數消減、數據壓縮和數據塊消減等技術,得到航空大數據集的約簡表示。約簡后的數據集既要有較小的規模,又要保持原有數據集的完整性。(5)數據離散化,通過采用等距、等頻和監督的離散優化等方法將航空大數據中的某些屬性值映射到區間或概念標號上。例如,采用等距法將航班延誤時間映射到相應的區間上。(6)數據泛化,將數據從相對低層概念映射到更高層概念上,并對數據庫中與任務相關的數據進行抽象。
在實際應用中,應根據待處理的航空大數據的特點、分析算法的特性和實際需求選擇相應的預處理步驟。
航空大數據的多源性、異構性、多樣性和航空決策服務人員需求的多層次性決定了航空大數據的分析技術是多種多樣的。從計算機技術與數學的角度看,航空大數據分析技術可粗略地分為預測建模分析技術、聚類分析技術、關聯分析技術、異常檢測技術和虛擬仿真與可視化技術等,下面對其進行逐一詳述。
2.4.1 航空大數據預測建模分析技術
在航空大數據領域中,預測性分析航空器件、服務對象和環境等的狀態變化對航空器件的維護、飛行安全、服務精準度的提高、運營成本的降低和競爭力的提高都是非常重要的。因此,預測性分析技術在航空大數據技術中占據著十分重要的地位。從目前來看,航空大數據的預測建模分析技術主要有經典分類模型、深度神經網絡模型、數學模型、增強學習和新建模型等。
(1)基于經典分類模型的航空大數據預測
支撐向量機(support vector machine,SVM)因具有數學理論基礎堅實、算法簡單和魯棒性強的優點而在航空大數據預測方面得到了應用研究[11-16]。Chen等人提出了一個帶有加權邊緣的模糊SVM 模型,并將之用于航班延誤的早期預警[11]。該模型采用相對距離作為隸屬度,通過一對一的分類方式實現延誤等級的多分類。李艷軍等人提出了一種基于信息粒化和SVM 的航空發動機性能預測方法[14],該方法首先對預處理后的數據集進行模糊粒化,然后在訓練核化SVM 的過程中利用遺傳算法對懲罰參數和核函數參數進行優化。然而該方法的運行時間較長。田德紅等人提出了一種基于鄰域粗糙集和SVM 的航空彈藥消耗預測方法[15]:首先基于條件屬性對決策屬性的重要程度原理,利用鄰域粗糙集對數據集中的屬性以前向貪婪的方式進行約簡;然后通過融入高斯核函數建立非線性SVM 模型,采用粒子群算法優化懲罰參數和核參數。實驗表明:該方法所得結果具有相對較小的誤差;與傳統的SVM 預測和雙隱含層BP(back propagation)神經網絡相比,該方法預測的結果更接近實際值,且均方誤差較小。文獻[16]提出了一種基于最小二乘SVM 的燃油消耗動態預測方法:首先建立最小二乘SVM 模型形式;然后通過引入精英集改進粒子群算法,使用其搜索懲罰系數和核函數參數;接著通過改進粒子群算法學習SVM 參數;最后結合提出的橫向與縱向二維驅動的動態模型實現動態預測。實驗表明該方法的預測效果較好,但是其計算復雜度較高。
決策樹是一個根據數據集屬性的分類能力而構建的樹形分類預測模型,具有無參數、構建技術成熟、易解釋和魯棒性強等優點。這些優點使其在航空大數據預測方面得到了應用[17-22]。Manna 等人將梯度增強型決策樹用于航班延遲預測:首先從含有14個分量的數據集中選取8 個作為特征,然后對其進行標準化和規范化處理,最后依據處理后的特征數據集構建決策樹模型[17];該模型具有較高的準確率。Mangortey 等人提出了一個用于航空大數據分析的數據融合框架:該框架先采用JSON(javascript object notation)解析不同的數據集,再按時間和機場把解析的數據集融合到一起;然后采用決策樹技術預測與天氣有關的地面延誤程序的發生[18]。Christopher 等人將分類技術用于航空器事故預警等級的預測[21]:首先利用相關特征選擇、一致特征子集、增益率和主成分分析等技術對航空器大數據進行特征選擇,得到約簡的特征集;然后采用決策樹、樸素貝葉斯分類器、SVM、K-近鄰和多層感知器進行預警等級分類。實驗結果表明,基于決策樹的預測模型可得到最高的準確率。文獻[22]提出了一種基于決策樹的航空電子設備故障診斷模型:首先在僅有故障和無故障兩類的訓練集上學習到多棵決策樹;然后對于診斷的數據而言,由每棵決策樹做出概率預測,再由置信區間估計和貝葉斯概率計算出最終的預測。該模型的診斷是概率統計進行的,并不能保證完全準確。
隨機森林(random forest,RF)是由多棵決策樹集成的,也被用于航空大數據預測建模[23-26]。文獻[23]將RF 用于航空公司客戶流失的預測:首先對航空公司的會員數據進行整理,得到30 個自變量(屬性);然后樹的棵數和大小采用默認的參數值,通過交叉檢驗獲得92.02%準確率;接著固定樹的大小,再向RF中增加至90 棵決策樹;最后實驗結果表明該RF 模型可取得91.39%的預測準確度。Belcastro 等人提出了一種基于MapReduce 和RF 的航班延誤預測方法[25],該方法首先對原始的航班數據集和天氣數據集進行預處理和轉換;然后從處理后的數據集中生成多個不同的子集,將其作為訓練集分布在MapReduce 框架中的不同節點上,并通過學習算法得到多棵決策樹;最后將其集成到一起形成RF。所提方法因基于MapReduce 而表現出良好的可伸展性。文獻[26]首先收集了美國國內2005—2015 年的航班數據和天氣數據,抽取與45 個機場相關的數據,并對其進行數據補缺和標準化等預處理;然后基于此對決策樹、RF、Adaboost 和K-近鄰分類器進行訓練,并將之用于航班延誤的預測;實驗表明RF 的性能最優。
(2)基于神經網絡模型的航空大數據預測
神經網絡模型因具有特征表示能力強、容錯性高和魯棒性強的特點而被應用于航空大數據的預測建模[27-32]。Kim 等人將循環神經網絡和一般的神經網絡相結合用于航班延誤預測[28]:首先將機場名字、時期、航班、天氣等數據作為循環神經網絡的輸入,然后將其輸出的某航班的延遲類別、歷史延遲類別和歷史天氣數據作為一般神經網絡的輸入,預測出該航班的延遲狀態;整個預測模型通過隨機梯度下降法快速訓練得到,但是得到的預測模型的精度往往不高。張頡健等人針對航空發動機性能預測提出了一種基于離散輸入過程性神經網絡的融合預測模型[29]:首先利用蟻群算法對參數的樣本空間進行劃分,利用主成分分析對各個子空間進行特征提取,并將其作為神經網絡融合預測模型的輸入;然后確定神經網絡的結構,采用遺傳算法搜索最優權值的閾值;最后通過減小輸出與標準值的誤差更新權值,進而得到神經網絡模型。該模型的訓練因使用了蟻群算法和遺傳算法而表現出效率較低的特點。田德紅等人提出了一個基于變異粒子群優化與深度神經網絡的航空彈藥消耗預測模型[30],該模型首先根據輸入和輸出確定神經網絡的結構;然后將粒子定義為由深度神經網絡的所有權值和閾值組成的向量,以網絡輸出誤差作為適應度函數,通過運行帶有自適應變異算子的粒子群算法得到最優的深度神經網絡;最后由之對輸入進行預測。實驗表明,該模型所得的預測結果具有很小的相對誤差,也具有優于BP 神經網絡模型和深度神經網絡模型的預測精度。文獻[31]提出了一種基于改進型長短期記憶(long and short term memory,LSTM)網絡的軍用飛機下降階段的燃油消耗模型,首先利用互信息篩選了與燃油流率高度相關的參數,然后在LSTM 中遺忘門的輸入上增加上一時刻的細胞狀態和采用了輸入門和遺忘門耦合的方式來共同控制細胞狀態的更新,并將改進的LSTM 用于燃油消耗模型的構建。實驗表明新模型優于標準LSTM和BP的預測結果。文獻[32]提出了一種基于LSTM-ARIMA(autoregressive integrated moving average)的短期航跡預測方法:首先通過特征擴展增加了到目標機場的距離和轉向狀態的特征數據,然后針對LSTM 模型表達線性數據線性關系的不足,用LSTM 對經度、緯度和高度進行非線性建模,再用ARIMA 對高度進行線性關系建模,對于兩個模型的高度預測值用標準相關性準則進行融合,最后將融合之后的高度值和LSTM 模型預測的經度、緯度一起組成預測航跡的三維位置。
(3)基于數學模型的航空大數據預測
在面向航空大數據的預測建模技術中,整數規劃模型、回歸模型和統計模型也得到了應用[33-38]。文獻[33]針對航空物流運輸提出了一種基于整數規劃模型的時間戳數據匹配技術,其中的整數規劃模型用0-1 變量表示兩個記錄時間是否匹配。該模型的求解具有成熟的技術,但是當問題太復雜時建模較難。Ravizza 等人將多元線性回歸模型用于航空器滑行時間的估計[35]:首先通過決定系數識別出與航空器離開和到達的滑行時間最相關的因素;然后由此建立滑行時間的多元線性回歸模型,并利用最小二乘法估計出回歸系數。實驗表明,提出的新方法在預測時可取得較高的決定系數。趙廣社等人提出了一種多源統計數據驅動的航空發動機剩余壽命預測方法[36],該方法首先使用基于歐氏距離的統計異常策略融合發動機狀態的監測信息;然后采用帶非線性飄移的維納過程為航空發動機退化建模,并通過似然函數求極值估算模型的參數值;接著將非線性的維納過程轉換成標準的布朗運動,再通過推導出航空發動機剩余使用壽命的概率密度函數解析式進行預測。該模型比較復雜,構建較難,適用于連續變量的情形。Pagels 將多核學習算法、隱馬爾可夫模型和自然語言處理算法用于航空大數據挖掘[38]:①針對航空系統異常,提出一種基于多核學習的異常探測算法;②基于飛行記錄器的數據,訓練隱馬爾可夫模型,并將其用于異常預測;③將一種半監督的bootstrapping算法用于航空事故報告數據的挖掘,以發現少數異常類并在報告中明確地標明事故。該工作可以大大降低人力消耗。
(4)基于增強學習的航空大數據預測
航空系統運行的交互性給增強學習在航空大數據分析中的應用帶來了可行性。目前,也出現了一些基于增強學習的航空大數據預測建模分析技術[39-40]。Janakiraman 等人將增強學習用于航空前兆異常事件的發現[39]:基于機載傳感器產生的數據序列,通過訓練逆增強學習得到專家獎賞模型,借助SVM 的訓練得到專家的值模型;接著將測試序列數據中每個分量作為狀態,利用貝爾曼最優原理得到專家的最優行為,進而得到最優的狀態;最后根據其和數據序列的下一個狀態代入值模型差值的大小判斷是否出現異常前兆。Balakrishna 等人將增強學習用于滑行時間的預測[40]:首先對表示滑行時間預測的行為空間和系統狀態空間進行離散化,并將獎賞值定義為實際滑行時間和預測滑行時間之差的絕對值;然后訓練基于增強學習的預測器,其中使用均勻分布的概率選擇行為;最后,與最低非零獎賞值對應的行為表示滑行預測值。實驗表明該方法在預測航空器滑行時間時可取得93.7%準確率。
(5)基于新建模型的航空大數據預測
作為一個富有前景的研究方向,航空大數據的預測建模分析激發了一些學者研究新模型的興趣。符江鋒等人提出了基于一元流動的航空離心泵綜合損失模型[41]:首先分別對離心泵的水力效率、容積效率、機械效率和輪盤摩擦效率進行數據建模;然后根據這4 個效率和離心泵的主要設計參數建立其綜合損失模型;最后在實驗數據上的結果表明綜合損失模型僅有2.8%預測誤差。文獻[42]提出了一種航空花鍵振動磨損預測方法:首先基于Archard 磨損模型,利用花鍵轉子系統動力學分析推導出花鍵振動磨損預測的數據模型;然后進行實驗測試。文獻[43]構建了一個由季節性延遲趨勢、日常延遲傳播模式和隨機殘差組成的預測模型,其中隨機殘差用混合分布表示,并用融合最大期望算法的遺傳算法學習該混合分布。新提出的模型既可以預測出延遲的時間點,也能估計出延遲的分布。
此外,也出現了一些其他的航空大數據建模技術。文獻[44]將模糊規則系統用于機場航空器滑行時間的估計:通過基于遺傳算法的K-means 對數據集聚類,將每個簇表示為一個規則,進而得到規則庫;采用隸屬度函數表達模糊關系,再借助解模糊操作得到估計值。實驗表明,相對于線性回歸方法,基于模糊規則系統的估計方法可以取得更準確的估計,其主要原因在于采用的模糊規則系統可以逼近任何復雜的非線性系統。文獻[45]將灰色預測模型和相關向量模型相結合用于航空發動機狀態的預測:首先針對實驗的序列數據集,借助于微分方程知識建立灰色預測模型;然后將灰色預測模型的輸出作為相關向量機的輸入,以原始序列數據為標準輸出,通過運行EM(expectation maximization)算法得到相關向量機預測模型,最終得到灰色預測模型和相關向量模型的串行結構;實驗結果表明由該串行結構得到的結果在預測精度方面優于僅由灰色預測模型或相關向量模型得到的結果。文獻[46]提出了一種基于貝葉斯網絡的航空器故障預測方法,該方法首先確定用于建構貝葉斯網絡的變量,并對其進行二值化處理;然后以這些二值變量的數據集作為基于貝葉斯網絡的預測方法的輸入,最后借助維修工程師的經驗重新確定貝葉斯網的變量,實驗表明該預測方法的錯誤率下降到18%左右。
2.4.2 航空大數據聚類分析技術
聚類是將數據對象集中相似的對象組成多個簇的過程,因具有無需先驗知識的特性而在航空大數據分析中得到了研究和應用。到目前為止,航空大數據分析中經常用到的聚類分析算法有K-means、層次聚類和譜聚類等。
(1)基于K-means的航空大數據分析技術
K-means 具有簡單易懂和運行高效的優點,在航空大數據領域得到了較多的應用[47-54]。文獻[48]將Kmeans 聚類算法用于航空旅客空間行為模式的分析:首先按空間要求將航站樓劃分為多個不同的功能區,根據旅客是否到達過功能區得到與其對應的表達其行為的0-1 向量;然后利用K-means 對這些向量集進行聚類,直到簇中心不再變化為止;最后將南京祿口國際機場T2 航站樓國內出發旅客的行為聚類為5 種行為模式,并分析了旅客性別和收入等基本屬性在這5 種空間模式上的分布。文獻[50]將K-means 聚類用于大數據背景下航空客戶價值分析:首先在大數據平臺上使用Sqoop 將數據導入Hive 中,并在HiveQL 對其進行預處理后得到5 個特征的旅客數據;然后使用K-means 將預處理后的旅客數據集聚成5 個簇,并根據每個簇的特征分布將客戶分為重點保持、重點發展、重點挽留、低價值和一般5 種類型的客戶,從而提高航空公司的精準化服務水平和競爭力。唐靜等人提出了一種基于平衡核函數聚類的飛行航跡數據分析方法[51],該方法首先由民航空管軟件得到軌跡的時間、經度、緯度、高度、速度和航向6 個分量,通過將其轉換到直角坐標系得到軌跡樣本數據集,并通過高斯核變換將其映射到特征空間;然后以設計的平衡核函數作為K-means 的目標函數,通過運行K-means 得到樣本數據集的聚類;最后以每個簇的樣本中心和各簇樣本的非線性超球半徑為輸入訓練模糊SVM。文獻[53]提出一種基于距離和樣本權重改進的K-means 算法:首先采用維度加權的歐氏距離計算出所有樣本的密度和權重,然后取密度最大的點作為第一個初始聚類中心,并剔除該簇內所有樣本,接著依次根據上一個聚類中心和數據集中剩下樣本點的權重并通過引入的參數τi找出下一個初始聚類中心,如此重復直至數據集為空,最后得到k個初始聚類中心。文獻[54]針對K-means聚類結果的不穩定問題,通過反復比較簇間距離和簇內距離動態調整初始聚類中心,得到具有較強代表性的初始聚類中心;實驗表明改進的K-means 聚類算法具有更好的聚類效果,能夠更為合理地挖掘民航潛在高價值旅客。
(2)基于層次聚類的航空大數據分析技術
層次聚類以樹形結構表示聚類的過程,可以得到不同的聚類結果,因此在航空大數據分析中也得到了應用[55-56]。徐濤等人提出了一種基于層次聚類的機場噪聲數據挖掘方法[55],該方法首先對機場噪聲數據進行缺失數據填補和臟數據修正等預處理,并對使用矩陣分解的噪聲數據矩陣進行維數約簡;然后使用兩階段的基于代表點的快速層次聚類算法對約簡后的矩陣進行聚類:第一階段采用基于代表點的二分法進行快速聚類,把距離每個簇中心最近的點作為該簇的代表性點;第二階段使用基于代表點的凝聚層次聚類算法進行聚類。該聚類方法的時間復雜度低于傳統的層次聚類方法,實驗結果也表明了該方法能準確發現機場周圍噪聲的分布模式。文獻[56]提出了一種基于小波變換和聚類的無刷直流電動機故障檢測與識別方法,該方法對采樣數據進行預處理,并通過對其進行連續小波變換得到同時包含時域信息和頻域信息的小波變換系數;然后使用層次聚類算法對該系數模值臨近的采樣點按時間位置進行層次聚類;最后計算每一簇中所有位置的取整平均值,得到實際信號的突變位置和突變次數信息,進而對故障進行檢測與識別。
(3)基于譜聚類的航空大數據分析技術
譜聚類利用矩陣及其特征向量降低計算量,并能在任意形狀的樣本空間上聚類且收斂于全局最優解。因此,該聚類也被應用于航空大數據的分析[57-61]。李楠等人提出了一種基于多維特征的終端區航空器軌跡聚類方法[57]:首先利用散點相關矩陣確定多維軌跡特征經度、緯度、地速和航向,并定義出兩條軌跡的多維特征之間的距離計算公式;然后利用譜聚類算法對軌跡的多維特征進行聚類。實驗表明基于多維特征的軌跡譜聚類明顯優于僅使用位置特征的聚類。Cong 等人將譜聚類用于航空運輸網絡中關鍵機場的識別[59]:首先把機場抽象為節點,機場之間交通流的相關性為邊構建航空交通運輸網絡;然后,對該網絡中節點間的相關性矩陣進行譜聚類,進而得到多個機場在相關性上的空間拓撲結構;接著,通過分析節點的時間序列的距離相關和功率譜的波動趨勢檢查網絡的自組織臨界性,以發現關鍵機場簇;最后在中國航空運輸網上的實驗表明該方法可發現6個關鍵機場簇。文獻[60]提出了一種基于Spark 的譜聚類算法:首先利用Spark GraphX 計算樣本數據間的相似性,進而得到拉普拉斯矩陣;然后利用并行化Lanczos算法將其轉化為三對角陣,計算其前K個特征向量,由并行化的K-means算法在K個特征向量上完成聚類。
(4)基于密度聚類的航空大數據分析技術
以DBSCAN(density-based spatial clustering of applications with noise)為代表的密度聚類在航空大數據分析中也得到了應用[62-64]。文獻[63]提出了一種面向航路燃油預測的航跡聚類方法,該方法首先基于BADA(base of aircraft data)數據庫利用模糊聚類對機型進行分組,并據此對航跡數據劃分;然后將DBSCAN 算法中的單純空間鄰域擴展為時空速鄰域,而后將其用于劃分后航跡數據的時空聚類。文獻[64]提出了一種用于時空軌跡聚類的矢量點DBSCAN 算法,該算法首先在判斷Eps領域時要綜合考察空間、時間、速度3 個屬性,通過增加容忍速度差MaxSpd 和容忍方向差MaxDir 把那些在地理位置上靠近、方向基本一致、速度相差不大的矢量點聚集為一個簇,然后計算出每個簇的平均航向;接著在每個簇上以一定的間隔做平均航向的法線,將其劃分為若干個區塊,以算術平均的方式計算出這些區塊的質心向量,并通過相連這些質心向量得到各個簇的特征軌跡,最后依據軌跡分段重組的思想進行融合,完成飛行軌跡的聚類。
此外,其他一些聚類方法在航空大數據領域也得到了探索。曹愈遠等人將親和力傳播聚類和免疫算法用于航空發動機故障的診斷[65]:首先,對航空發動機的樣本數據分為正常樣本和故障樣本兩組,利用親和力傳播聚類對這兩組樣本數據分別進行聚類,計算出每個簇內的最大距離、最小距離、平均距離和數據集數,并利用熵權法確定每個聚類中心的權重系數;然后,將簇中心作為輸入,通過運行混沌理論初始化種群的免疫算法得到最終的抗體檢測器記憶庫;最后,針對某個樣本進行診斷時,計算其與記憶庫中每個抗體檢測器的親和力,占比大的即為該樣本的狀態。齊林等人提出了一種基于距離分級聚類的機載雷達航跡抗差關聯算法[66],該算法首先通過真實狀態對消得到航跡距離矢量;然后進行基于距離矢量的分級聚類:(1)合并距離最近的兩個簇為一個新簇,并計算該簇到其他簇的距離;(2)不斷重復(1),直到剩下一個簇或最近的兩個簇間的距離大于簇間距閾值時停止;取元素數最多的簇作為同源航跡的距離矢量,進而得到相應的航跡關聯關系。該算法具有在目標密集、隨機誤差和系統誤差較大等復雜環境下錯誤關聯率低和穩定性強的優點。
2.4.3 航空大數據關聯分析技術
利用關聯分析技術可在表征客戶、航空電子設備和航班等的相關記錄中挖掘出有價值的頻繁模式或關聯規則,因此關聯分析技術在航空大數據分析中有著重要的應用[67-73]。Sternberg 等人將頻繁模式用于巴西航班延誤分析[67]:首先利用概念映射、分段和時間融合等將數據集轉化為易于挖掘頻繁模式的形式;然后采用Apriori 算法搜索頻繁模式,并過濾掉不感興趣的頻繁模式。但是Apriori 算法因需不斷掃描數據庫而表現出較低的執行效率。侯熙桐將基于多維關聯規則的Apriori 算法用于民航事故數據的挖掘[68]:首先針對民航事故數據的多類多樣性和層次復雜性,設計了包括單維關聯規則、維間關聯規則和混合維關聯規則的多維關聯規則策略;然后利用Apriori算法時選擇某一層次的數據作為挖掘對象,其余層次的數據不參與挖掘,同時在產生頻繁規則集的過程中使用剪枝策略。文獻[70]提出了一種面向機場噪聲多監測點噪聲值的關聯規則挖掘方法,該方法首先使用密度聚類算法(density-based clustering,DENCLUE)對預處理后的數據集進行聚類,找到每個簇的代表點,由之組成較小的數據集,并對其進行預處理;然后掃描一次預處理后的數據集,得到頻繁1 項集和二維數組K(K的行表示一個事務項集,列表示一個項);接著在掃描K的過程中進行連接和剪枝得到頻繁多項集;最后由置信度閾值得到關聯規則。該方法通過多次掃描簡化的二維數組K代替多次掃描預處理后的數據集,因此比Apriori 算法有較高的運行效率。曹衛東等人提出了一種面向民航中旅客訂座后卻不能如期登機的預測和強因子關聯分析方法[71],該方法首先選用適合大數據的C4.5 生成決策樹預測模型,并得到不同特征屬性的量化結果;然后選取一些重要的特征屬性,通過運行Apriori 算法得到關聯規則集,輔助航空公司售票和個性化推薦。文獻[72]將改進的FP-tree(frequent pattern tree)算法用于航空用戶數據的關聯規則挖掘:針對航空數據數量大、重復率低的特點與建立FP-tree 過程中重復遍歷子節點的現象,通過先使用Bloomfilter 方法,借助快速的hash 定位技術和位數組來判斷要查詢的事務是否在原來的數據集中,從而提高FP-tree的創建效率,使之更適合于航空大數據的處理。文獻[73]首先通過發動機的初始數據庫、運行數據庫、維修數據庫和其他相關數據庫建立發動機全參數大數據庫,然后在設定支持度和置信度閾值的基礎上進行全參數關聯規則挖掘。
2.4.4 航空大數據異常檢測技術
航空系統是一個既復雜龐大又精密的系統,涉及到航空器、各種地面設備、工作人員和客戶等。另一方面,航空系統的異常給航空公司帶來的損失往往是巨大的。因此,航空系統更加迫切需要面向航空大數據的異常檢測技術。到目前為止,航空大數據異常檢測技術可大致分為以下三類。
(1)基于模型的航空大數據異常檢測
基于模型的航空大數據異常檢測首先根據數據建立模型,然后通過模型判斷數據對象是否異常。這類技術在航空大數據異常檢測中得到了較多的應用[13,74-80]。Li 等人提出了一種基于高斯混合模型的飛行操作異常檢測方法[13]:首先將數據集轉換為適合高斯混合模型的形式;然后通過高斯混合模型挖掘出飛行操作的正常模式;最后基于該正常模式檢測出異常。該方法具有無需正常模式先驗知識的優點。Jia 等人提出了一種融合LSTM 模型和多層感知器的模型,用于民航空中交通管制中無線電回讀異常的檢測[76]。該模型用兩個通道分別接收來自空中交通控制中心的句子和飛行員回讀的句子,分別對句子做分割和詞嵌入;然后分別輸入到兩個LSTM 模型中,再將其輸出作為平均池化層的輸入,得到相應句子的語義向量;接著將兩個語義向量輸入給多層感知器,得到句子的語義相關度;最后將該相關度作為K近鄰分類器的輸入,進而判斷無線電回讀的句子是否異常。Akerman 等人將卷積的LSTM 編碼器-解碼器模型用于廣播式自動相關監視信息的異常檢測[77]:首先將來自廣播式相關監視系統的序列信息表示為圖片序列,并將其作為卷積LSTM 編碼器-解碼器模型的輸入;然后采用Adam 優化器和均方誤差損失函數對該模型進行訓練,其中編碼器提取圖片特征,解碼器基于此進行圖片重構;最后計算輸入序列的圖片和相應輸出序列圖片的差異性,根據預設的閾值判定相應的監視信息是否異常。預設的閾值對判定結果有重要影響。文獻[78]提出了一種基于自適應核主元分析的航空發動機異常監測方法,該方法通過滑動窗口滑動切割收集的正常歷史數據,通過高斯核函數將標準化后的數據映射到高維特征空間,建立核主元分析模型,并計算T2 統計量和預測誤差統計量及其控制限;然后對新采集的監測數據,使用當前核主元分析模型計算T2 和預測誤差統計量,并通過與當前統計量的控制限的比較判斷航空發動機是否出現異常,當無異常的新監測數據累計到一定量時就用其替換最近的舊數據,重新建立核主元分析模型T2 和預測誤差統計量及其控制限。因此該方法表現出監測的自適應性,具有較低的虛警率。
吳奇等人提出了一種基于深度學習的航空器異常飛行識別方法[79],該方法首先利用小波技術對原始飛行數據進行降噪預處理,在一系列典型飛行參數上提取經典時域特征和小波奇異熵等信息熵特征,由主元分析降維后構成初始特征集;然后建立由兩層稀疏受限玻爾茲曼機和一層反向傳播網絡堆疊而成的異常飛行狀態識別模型架構,并通過自下而上的預訓練和自上而下的微調訓練出識別模型,高斯過程分類器以該模型輸出的特征為輸入實現分類;最后通過將預處理后的測試樣本輸入到識別模型中得到其類別。該方法產生的初始特征集豐富,構建的模型較復雜。
(2)基于鄰近度的航空大數據異常檢測
基于鄰近度的航空大數據異常檢測是在定義對象之間鄰近度的基礎上找出遠離大部分其他對象的對象。常見的聚類算法是這種異常檢測技術的代表。文獻[81]提出了一種面向離散序列的異常檢測方法,并將其用于航空安全領域。該方法以歸一化的公共子序列長度作為兩個序列相似性的度量,首先利用K-medoids 聚類算法對序列集進行聚類;然后對每個簇中的序列按照其與簇中心的相似性分數升序排列;接著,將一定比例的具有最低相似度的序列視為異常;最后識別出異常集中的區域,并基于貝葉斯概率框架對異常進行合理的解釋。實驗結果表明新檢測方法的性能優于隱性馬爾可夫模型。李楠等人提出了一種基于異常特征值的終端區航空器異常軌跡識別方法[82]。該方法首先按時間間隔取得該架航空器的軌跡,根據定義的距離度量計算軌跡之間的相似性,得到相似性矩陣,并通過譜聚類對其聚類產生不同的簇;接著計算每個簇內的相似性距離,確定每個簇的中心軌跡;最后計算每個軌跡到其簇中心的距離,將之與該軌跡對應的航空器的飛行距離作為異常特征,通過對這兩個特征加權求和得到軌跡的可疑度,由設置的異常檢測率確定異常的軌跡。實驗結果表明距離度量的設計和異常檢測率的設置對該方法的性能有重要影響。
(3)基于密度的航空大數據異常檢測
基于密度的航空大數據異常檢測將局部密度顯著低于它的大部分鄰近的數據對象視為異常點。密度聚類是該類異常檢測技術的代表[83-87]。文獻[83]提出了一種面向QAR 數據的航班異常檢測方法,該方法首先對數據進行特征選擇、過濾噪聲和歸一化等預處理,并采用主成分分析對數據矩陣降維;然后使用DBSCAN 對降維后的數據進行聚類,把離群的數據點或簇視為異常。實驗表明該方法可以從大量航班數據中檢測出異常的航班,但是沒有對異常進行深入分析,數據降維也會帶來一定的信息損失。Jarry 等人提出了一種基于函數主成分分析和層次型DBSCAN 的航空器進近異常檢測方法[85]。該方法首先將由雷達獲得的飛行軌跡數據轉化為航空器的總能量序列,并利用滑動窗口將其分割成多個子序列;然后對每個子序列進行樣條函數分解和函數主成分分析,得到前K個主成分的系數;接著使用層次型DBSCAN 對多組系數聚類,最后將一些離簇遠的元素或非常稀疏的元素作為層次型全局-局部離群分數算法的輸入,通過該算法的輸出判斷飛行軌跡是否異常。文獻[86]針對快速搜索發現密度峰值聚類算法存在的密度中心選擇不方便、聚類精度不高的問題,提出基于馬氏距離的自動搜索發現密度峰值的聚類算法。該算法將馬氏距離引入距離測定中,提高了聚類精度;提出聚類中心判定參數γ,自動獲得了聚類中心。實驗結果表明,所提算法能夠很好地在故障特征的分類與識別上具有優勢。文獻[87]針對原始密度峰值聚類算法應用標準高斯核計算局部密度和需要人工研判確定簇類別數易造成誤識別的缺陷,分別引入共享鄰域算法對局部密度的計算方法和BIC 選擇準則對簇類別數的選擇方法;最后新算法在航空發動機氣路故障診斷領域有較高的實用價值。
航空大數據虛擬仿真與可視化技術既能服務于航空器器件和系統的設計、制造和測試,又可為事件分析、機務維修、理解運營狀況、制定決策、提升旅客的感知理解提供支持。因此,航空大數據虛擬仿真與可視化技術也引起了研究者和航空系統的重視。到目前為止,航空大數據虛擬仿真與可視化技術可分為以下三種。
(1)基于傳統二/三維圖形的虛擬仿真與可視化技術利用傳統的二/三維圖形來展示航空大數據及其分析結果。Burzlaff 在估算出燃油消耗量之后,利用二維曲線圖和柱狀圖及表格對單位千米耗油量與飛行距離之間的關系、單位負荷耗油量與飛行距離之間的關系和不同種類航空器間的耗油量比較等進行了可視化展示[88]。Li 等人提出了一種可視化終端空域軌跡的方法[89]。該方法首先針對每個機場每次到達按時間順序建立三維坐標;然后通過多項式回歸和雙曲切線插值對儀表著陸系統進行建模;最后通過數學軟件中的ParametricPlot3D 函數實現可視化展示。朱志童首先從飛行數據集中提取了12 種數據,然后在此基礎上利用固定窗口濾波和粒子群算法進行飛行異常檢測;最后通過三維曲線圖形可視化異常檢測結果[90]。
(2)基于自行開發軟件的虛擬仿真與可視化技術是基于某種程序設計語言和已有軟件自行研發出的新虛擬仿真與可視化軟件技術。文獻[91]基于C語言開發平臺和已有航空發動機基本類庫開發了一款具有圖形化用戶界面的可視化航空發動機性能計算平臺。該平臺可通過圖形化的方式建立任意構型的發動機性能計算模型,并可在對模型進行設計參數、控制規律和猜值公式靈活給定時計算各種條件下任意構型發動機的穩態性能。程振陽提出了一種針對航空發動機機加工藝執行可視化系統[92]。該系統主要由可視化文件模板管理模塊、可視化文件生成模塊、可視化文件發布和管理模塊組成。在第一個模塊中,模板設計者可在Adobe Acrobat 中通過JavaScript 編程設計個性化模板,采用visual studio 編程的方式實現模板與系統的鏈接。在可視化文件生成模塊中,使用UG 軟件為三維模型添加視圖和產品制造信息等,將基于定義的模型導入3D Reviewer 軟件后設計機加工藝仿真動畫和零件列表,嵌入可視化文件模板。在最后一個模塊中,把與每個零件機械加工的所有工序對應的3D PDF 文件整合到一個工藝文件包中,將其發布給下游的工作人員。Omidvar等人提出了一種面向航空大數據的交互式可視化框架[93]。該框架采用了索引查找和Crossfilter 視圖技術,其后端使用Python 和PostgreSQL 實現,前端通過D3和LeafletJS7實現可視化顯示。Karikawa等人提出了面向航路空中交通管制任務的可視化工具軟件[94]。該可視化軟件包含投影過程模型、情境識別過程的認識模型和空中交通展示模型三個核心部件。其中,空中交通展示模塊含有空中交通管制訓練模擬器,將可視化的內容顯示在空中交通管制控制臺的雷達屏幕上。賀鵬借助CATIA(computer aided threedimensional interactive application)二次開發的組件應用架構開發能自動解析和提取關鍵特性編碼信息的功能平臺,并構建關鍵特性數據庫系統;然后基于VC++6.0 搭建關鍵特性可視化平臺,以樹圖展示關鍵特性間的相互關系;最后以協調數據集中的信息為數據源,利用Vis/VSA 軟件建立容差仿真模型[95]。
(3)基于已有軟件的虛擬仿真與可視化技術直接利用已有軟件進行航空大數據及其分析結果的可視化呈現[96-104]。Weibel 等人對飛行甲板上飛行員移動眼球追蹤進行了可視化探索[96]。首先使用Tobii 眼鏡系統捕捉眼動序列數據,然后基于由之輸出的凝視點數據對每個感興趣的區域創建二進制時間序列,并與場景相機視頻數據一起作為ChronoViz 的輸入,得到按時間序列的動態可視化展示;最后借助計算機視覺技術實現眼睛和注視物體的對準。Khoury等人首先利用STROBOSCOPE 工具對底特律機場進行基于離散事件的仿真建模;然后使用VITASCOPE對所建模型在虛擬環境下進行3D 動畫展示[97]。杜永良提出了一種基于MATLAB 和FLIGHTGEAR 的可視化飛行仿真方法[98]。該方法首先使用美國空軍氣動估算軟件DATCOM 得到氣動數據;然后基于該數據利用MATLAB 建立航空器模型,設計從起飛到著陸階段的自動飛行控制律;最后通過接口模塊將響應數據發送到飛行模擬軟件FLIGHTGEAR 上,得到仿真航跡圖、飛行實時顯示仿真圖、重要參數隨時間變化的曲線仿真圖等。文獻[100]提出了一種基于AMESim 和MATLAB 的燃油調節器可視化聯合仿真方法。該方法首先建立燃油調節器的AMESim 模型,并通過活性指數計算與頻域特性分析簡化該模型;然后將簡化的AMESim 模型導入MATLAB 中的Simulink進行聯合仿真,進而通過可視化界面觀察整個燃油調節器的穩態和過渡態調節過程。Hernández 等人提出了一種基于大數據架構的利用航空器軌跡對到達時間實時精確預測的可視化系統[103]。該系統采用了lambda 架構集群,利用混合云架構支持結果的實時可視化,放置在可視化服務器中的微軟Azure 能根據桌面和移動客戶機的請求繪制和定制信息。表2列出了其他基于已有軟件的航空大數據虛擬仿真與可視化研究工作。

Table 2 Main literature of virtual simulation and visualization based on existing softwares表2 已有軟件的虛擬仿真與可視化主要文獻
航空系統的復雜性和航空應用的日益廣泛性帶來了航空大數據應用場景的多樣性。下面從航空器故障預測與維修、航空運輸對象服務、智慧機場和空中交通管理等方面闡述其典型應用。
航空器是最主要的航空大數據來源實體之一。另一方面,航空器設備部件精密,而且越來越復雜;同時航空器故障通常會造成巨大損失。因此,航空器故障預測與維修是航空大數據的一個典型應用場景。文獻[106]提出了一個基于Flume、Kafka、Storm和HDFS 的航空維修大數據系統,該系統通過Flume采集歷史數據和接收實時數據,然后采用Kafka 對數據進行緩沖和分發,接著使用實時流處理引擎Storm和相關的智能分析算法對維修相關數據進行處理,最后將數據存儲在HDFS 上。到目前為止,出現了一些與之相關的應用性軟件系統和平臺。著名的Skywise 是一個集運營、維護和航空器數據整合為一體的航空大數據服務平臺,可以對航空器進行預測性維護、維修方案優化、可靠性預測等。加拿大飛行數據評價公司開發的自動飛行信息報告系統和FlyhtHealth 軟件,可通過監測航空器數據減少非計劃維修次數,也能通過識別發動機的衰退而建議其更換時機,還可提供定制化的報警服務等[107]。發動機是航空器的心臟,人們對其修理與維護做了大量的研究和運用,詳見文獻[108]。
航空運輸是航空公司中一種非常重要的業務形式,可持續不斷地產生與運輸對象有關的大數據。因此,航空公司在此方面做了不少的研究和實際應用。在航空客運上,文獻[50]研究了一種基于大數據的航空客戶價值分析系統,該系統采用Sqoop 將數據從多個業務系統抽取到數據倉庫Hive 中;然后在數據預處理后使用大數據挖掘工具Mahout進行快速高效的聚類分析;最后將該系統用于某航空公司的客戶價值分析。文獻[109]將基于Spark 的航空常旅客流失系統用于南方航空公司旅客流失的預測,該系統在Spark 平臺下調用MLlib 軟件包中的機器學習算法獲得邏輯回歸、RF 和梯度提升樹三個模型,采用堆疊集成技術進行融合并將其整合到Spark 源碼中編譯;然后針對模型預測結果進行K-means 聚類分析;最后將分析結果更新到數據庫中,以支持頁面展示和下載。文獻[110]將基于客戶價值的航空旅客細分系統用于某航空公司客戶特性的研究,該系統首先建立航空旅客的客戶價值評估指標體系,基于客戶的當前價值、潛在價值和客戶忠誠度建立航空旅客細分模型,然后用K-means 對客戶進行劃分,最后對重點關注的客戶群體構建客戶畫像,并向航空公司提出營銷建議。在航空貨運上,文獻[111]開發了一款基于大數據技術的航空貨運管理系統,該系統具有運單與銷售類數據分析、運輸與服務類數據分析和運價分析與收益預估類數據分析等功能,目前被用于中國國際貨運航空有限公司的貨運日常管理。文獻[112]研發了一款機場貨運管理系統,并用于大連機場。
機場是航班流、旅客流、行李流、貨物流、地面交通流等多種信息的交匯之處,承擔著航班高效運行、旅客安全和服務提升的任務。因此,打造智慧機場成為國家和航空公司新時代航空業發展的核心目標之一。目前,學者們就新提出的智慧機場也進行了一些初步研究。文獻[113]研究了一種基于Spark 的用戶行為分析平臺,然后將該平臺用于某智慧機場被調度人群軌跡數據的分析,為機場管理者提供直觀的人群調度運營效果。文獻[114]為支撐智慧機場發展提出了機場大數據平臺。該平臺分為10 層,可提供全面的預測分析能力和信息視圖、監測安檢排隊、實時分析機場流量、分析客戶關系管理、展示運行態勢等,被用于北京首都國際機場。基于大數據的雷電預警系統被用于香港機場和海口美蘭機場的建設中,可及時做出雷電預警和信息傳遞,從而為機場的生產運行提供有效指引[115]。
不同類型的航空器在空中有條不紊地飛行,離不開空中交通的管理。因此每天對空中航空器交通的管理會產生航空大數據。而利用航空空管大數據可以提高空中交通管理水平和空中資源的利用效率。文獻[116]首先對基于Hadoop 的廣播式自動相關監視系統數據進行解析和存儲,然后在MapReduce環境下利用改進的隔離森林算法將軌跡數據映射到地圖網格中,通過對網格單元的篩選和隔離劃分,并計算其異常分值,實現分布式環境下快速異常軌跡的檢測。民航空管設備大數據信息化分析管理應用平臺以Hadoop 為基礎架構,在對空管數據采集和數據處理的基礎上表現出實時監控空中交通、發出空中告警和趨勢分析等功能[117]。當前航空器種類和數量不斷增多,充分利用航空大數據是應對此形勢的一條可行途徑。
盡管目前世界各國的航空公司和相關學者對航空大數據的研究非常重視并取得了一些重要成果,但是由于航空系統的復雜性與廣域性、航空應用領域的廣泛性和航空大數據分析技術不夠成熟等原因,航空大數據領域仍然存在一些亟待解決的問題和與之相應的新研究方向。航空系統的復雜性和航空大數據的獨特性也使航空大數據研究中亟待解決的問題呈現出多層面的特點,下面從技術本身和航空要素兩個層面加以闡述。
(1)無人機機載大數據處理技術比較匱乏。無人機因其靈巧便利性和在農業、國土測繪、海洋巡查、應急救援等方面有著廣闊的應用前景而受到航空業和需求者的青睞。然而,與有人機相比,無人機機載硬件的功能相對較薄弱、機載能源相對較少、機載的大數據處理軟件與技術比較匱乏。研發高效輕量級的機載無人機大數據處理軟件與技術是目前航空大數據技術中的一個挑戰,也是提高無人機性能所需要的。因此,研究者應面向不同的應用需求,基于特定的無人機研發快速有效的機載大數據處理技術。詳細地說,首先在無人機機載存儲方面,研究更有效的壓縮存儲技術;然后在無人機狀態預測和修正方面,研究與無人機系統相適應的高效預測技術,并在某些狀態異常條件下或特殊環境下可對其狀態做出適當的調整;最后,針對某種應用的核心需求研發相應的軟件系統,例如針對航拍和測繪等需求,需要研究高級的采集與計算系統,能夠快速地完成影像圖制作。
(2)探索高效的多模多源航空大數據融合和特征提取方法。從數據模態上看,航空大數據既可以是數字、文本和圖像數據,又可以是音頻和視頻數據。從數據來源上講,航空大數據不僅可以來自航空器和衛星,又可來自機場、多樣的服務或應用對象。這就對航空大數據的融合和特征提取提出了挑戰。在航空大數據融合方面,在充分分析數據特性和實際需求的基礎上,基于已有的拼接、深度學習模型和數學計算模型等研究高效的數據融合方法。在特征提取方面,綜合考慮數據特性、后繼處理(方法)和解決的需求,采用過濾式框架、封裝式框架和嵌入式框架或根據需要研究新的框架,并嘗試其能高效解決問題的實現形式。多模多源航空大數據融合的質量和特征提取方法的性能對后續分析方法和問題解決程度有著基礎性的影響。因此,探索面向多模多源航空大數據的融合和特征提取方法是未來一個十分有價值的研究課題。
(3)研究面向航空大數據的高效預測方法。航空系統由眾多實體要素組成,而且對安全性有著較高的要求。而預測方法是航空系統高效協調運行和提高其安全性的一種重要手段。從目前來看,雖然基于分類模型的預測技術、基于聚類的預測技術、基于關聯規則的預測技術等在航空領域得到了應用,但基本上都是傳統預測技術的直接應用,并沒有與航空大數據深度融合。與此同時,對工作中的航空系統實體(如航空器和客戶流等)的預測具有較強的實時性要求。因此,目前用于航空大數據的預測方法不能滿足日益復雜的航空系統和不斷提高的服務需求。鑒于此,應面向應用需求、航空大數據特點及其架構,研究高效的預測方法。從思路上講,可從以下幾點考慮:①研究航空大數據的整體架構,探索與之高度吻合的有效預測方法;②基于某種應用需求及其所使用的航空大數據的特性,嘗試通過結合數學知識和機器學習從原理機制上創新性地提出更高效的新預測方法;③針對航空器和客戶流等的實時預測需求,研究基于增量預測、隨機過程等的高效預測方法,這是航空大數據技術中的一個難點。高效的預測方法將在航空器剩余壽命/狀態故障預測、航空路徑預測和客戶旅行預測等方面取得良好的效果,進而提高航空系統的智能化水平和客戶的體驗品質。
(4)基于航空大數據的虛擬仿真與可視化方法。航空系統的龐雜性和由之產生的大數據及其分析結果的復雜性給該領域的虛擬仿真和可視化帶來了挑戰。到目前為止,一些虛擬仿真與可視化技術在空域軌跡、模擬飛行仿真、航空器加工、航空器故障診斷等方面得到了應用。但是這些應用有以下特點:①其中的一些應用還處于實驗室研究階段,并未走向實際應用;②不同方面的應用基本上是孤立的,沒有整合成一個基于航空大數據的協同運行、智能互連的虛擬仿真與可視化系統。針對以上兩個問題,可從以下三方面入手:①積極推動基于航空大數據的虛擬仿真與可視化研究和航空緊密結合,推進研究成果的應用轉化;②先從航空系統中重要方面入手,構建基于航空大數據的虛擬仿真與可視化的綜合性、智能型系統與平臺,同時具備較強的可擴展性;③針對某類虛擬仿真與可視化應用,研究面向航空大數據的快速、準確、友好的方法。高效的虛擬仿真和可視化方法可以提高航空器設計制造和故障診斷水平、優化機場資源布局、提升客戶的感知體驗和提高安全性等。因此,基于航空大數據的虛擬仿真與可視化是航空公司競爭的重要內容,也是未來一項非常具有實用性的研究內容。
(5)航空大數據傳輸的安全性和速度不能滿足實際需要。具有高安全性要求的航空系統亟需安全快速的航空大數據傳輸技術。另一方面,客戶服務需求的日益精準化和航空公司資源的高度協同化與服務的無縫銜接也需要安全快速的航空大數據傳輸技術做支撐。因此研發安全快速的航空大數據傳輸技術是航空大數據技術中的一個挑戰。從目前來看,基于5G 技術,研究地面(基站)、航空器和衛星之間的雙向無線傳輸技術是一條可行的途徑。可從以下三點入手:①如何使用5G 技術實現地面、航空器和衛星之間傳輸的無縫連接;②研究和設計適用于航空大數據安全快速傳輸的通信協議;③研發用于航空大數據安全快速傳輸的、具有高吞吐量的中間設備。安全快速的航空大數據傳輸技術是提高航空系統服務水平的重要支撐,也是一個非常有潛力的研究方向。
(1)基于大數據的航空器設計制造水平不高。在設計方面,航空器主要是利用軟件進行總體設計,然后通過風洞試驗或流體動力學分析驗證的方式進行結構設計;在制造方面,航空器主要依靠傳統建造工藝[118-119]。這樣的設計制造方式因大數據未深入參與而使航空器在設計、故障和缺陷分析方面沒有較完善的分析模型與方法,進而導致生產的航空器在運行效率、安全性、經濟性、舒適性和環保性等方面不能滿足國家、航空公司和客戶的發展需求。提高大數據在航空器設計制造中的參與度是一條提升航空器設計制造水平的有效途徑。具體來講,在設計層面上,利用大數據技術對已有的設計數據與知識和相關需求進行分析,采用虛擬現實和增強現實技術對航空器進行完善和展示;在制造層面上,建立基于大數據的航空器生產、質量監測、安全監督為一體的綜合性制造管理系統。這樣做既有利于催生新的設計制造工藝和提高航空器的質量,也能迎接航空器日益多樣化的制造需求。因此,基于大數據的航空器設計制造將是未來一個有前景的研究方向。
(2)基于航空大數據的機場服務不能滿足日益增長的經濟社會發展和民眾出行需求。目前,基于航空大數據的機場在票務、行李托管、機務人員管理、航空器起降調度和監測等方面表現出一定的信息化水平;但是一些機場仍存在著值機排隊、安檢擁堵、行李傳送慢、跑道安全性低等問題。同時,經濟社會的發展帶來航空器密度和乘客流量的不斷增大,較快的生活節奏使客戶對航空服務質量的期望越來越高。這就要求機場對機場資源具有智能高效的協同調度能力。在此需求下,機場應建立并不斷完善自己的航空大數據服務平臺,以提高機場的智慧化服務水平。具體來講:①著眼于未來需求,研究基于虛擬仿真、可視化技術、新概念和專家知識經驗的機場設計與擴建,構建基礎設施布局高效、功能多樣便利、資源節約、人文環境友好的大機場;②研究基于航空大數據服務平臺的高效預測技術解決排隊、安檢擁堵、資源的協同調度問題;③研究基于航空大數據服務平臺的高效關聯分析和聚類技術,分析和追蹤不同類乘客的偏好與消費行為,進而引導乘客的機場行為,以提升其體驗質量;④研究基于航空大數據服務平臺的高效異常檢測技術,提高對航空器、機場旅客行為、跑道等的異常檢測能力,打造平安機場。這些航空大數據分析技術的研究必將提高機場資源協同利用、個性服務、安全預防和智能決策的能力,也是新時代機場建設的發展方向。
(3)空中交管系統不能適應新時代航空的發展要求。伴隨著航空業進入快速發展的新時代,航班的數量和航空器的種類不斷增多。這就導致空中交通流量持續攀升,進而致使空中交管系統在空域交通規劃、交管負荷測量、交管人員工作時長、數據傳輸和安全性等方面的問題越來越凸顯。針對上述問題,可以探索構建基于航空大數據技術和空天地一體化網絡技術為支撐的智能化空中交通管理服務平臺。具體可從以下幾點做起:①充分利用5G 技術容量大、時延低和下行速度快的優勢,建立覆蓋空天地的網絡技術,以促進人、物、機的高效互通,同時研究可加密的網絡傳輸協議;②針對新時代空中交通管制的需求,嘗試研究基于航空大數據技術的與空中交管相關的大數據存儲、分析和展示系統;③充分考慮航空器的多樣性及其航行空域的特點,結合人工智能技術和相關知識建構具有高度自治性的空中交管系統,以減少空管人員的工作負荷。面對航空應用日益增多和個性化需求日漸增強的形勢,迫切需要通過上述措施構筑一個能滿足多用戶需求,支持自由飛行的無縫隙、空天地一體化的空管系統,這也是新時代航空發展的一個動向。
(4)基于航空大數據的客戶管理與服務不能滿足市場競爭的需要。在航空業界,航空公司就大數據在客戶上的應用主要包括客戶全生命周期與旅客管理、客戶行為分析、網購行為分析、用社交網絡進行營銷推廣等。然而,就目前來講,從這些數據中挖掘出的信息還沒有有機融合在一起,不能形成一個客戶的360°視圖。航空公司應以客戶為中心,首先對自己的業務方案、技術方案和數據進行評估;然后設計具體的技術方案、算法,并確定路線圖;最后從平臺建設、團隊建設、數據建設、應用建設幾個角度不斷完善和拓展航空大數據的應用。航空公司需要招募數據倉庫、數據集成、數據處理、Hadoop 等方面的人才,逐漸形成一套適合自己而又不斷完善的客戶管理方案,從而追蹤和了解客戶所需,做出最有效的決策。
航空大數據是大數據研究中較為活躍的研究領域之一。本文首先從單純數據和系統性兩個角度給出了航空大數據的定義,并對其進行了系統的闡述;然后全面地分析和總結了航空大數據的關鍵技術;最后指出了航空大數據的幾個典型應用場景,并深入地論述和分析了航空大數據中存在的問題。航空大數據的研究,一方面將會降低航空公司的運營成本,提升服務的精準性和客戶的感知體驗,另一方面也會豐富和完善大數據技術的研究。此外,航空大數據也可應用于運輸、農業和海洋巡查等具體領域,從而推動航空經濟的發展,同時也為人工智能、云計算和物聯網的應用帶來光明前景。