民航局2022年印發(fā)的《關于民航數據建設發(fā)展的指導意見》,指出以實現民航數據“管起來,用起來,活起來”為導向,從數據流通維度實現數據的要素化、市場化,推進數據資源融通共享,激發(fā)數據資源要素價值,強化基礎設施建設和數據安全保障,打造民航數據創(chuàng)新生態(tài)圈。據《2023年民航行業(yè)發(fā)展統(tǒng)計公報》數據顯示,我國共有航空公司66家,定期航班航線5206條,境內運輸機場255個,完成旅客運輸量61957.64萬人次。為支撐如此龐大的民航業(yè)務,民航相關系統(tǒng)之間通過民航數據平臺實現數據采集、處理、分析應用已成為常態(tài),民航數據平臺發(fā)揮了極大的優(yōu)勢,成為重要的支撐平臺。
隨著民航大數據平臺接入的上下游系統(tǒng)不斷增加,平臺架構和數據鏈越來越復雜,面臨的困難和挑戰(zhàn)也越來越多。盡管項目初期有完善系統(tǒng)架構圖理清關系,但隨著規(guī)模的擴展與團隊變動更新不及時導致失效,難以追蹤數據鏈路的動態(tài)演化。同時,ETL整合過程中數據質量的不當處理常引發(fā)問題,且因數據經過多層加工,快速定位錯誤源頭成為難題。此外,大數據架構下的多樣化數據源,如數據庫、API、消息中間件等,使得數據血緣分析不僅涉及表、字段,還需跨越技術異構應用,顯著增加了分析的復雜度。
因此,加強大數據平臺的數據血緣可視化能力非常重要,使之能夠支持多種異構技術架構和海量數據的高性能展現,并且能夠提供良好的實時性和交互性。本文通過對民航系統(tǒng)數據鏈的研究,提出基于架構級別的民航動態(tài)數據血緣圖的方法,直觀的展示數據的來源、處理和實時流轉狀態(tài),解決民航數據鏈的實時跟蹤與監(jiān)控難題。
架構級別的動態(tài)數據血緣圖是將數據血緣著眼于系統(tǒng)架構層面,屬于任務級的血緣關系,所謂動態(tài)即是可以在線動態(tài)的創(chuàng)建血緣圖而不需要修改平臺代碼,并能根據數據流動情況實時展示統(tǒng)計數據。整體架構分為三部分:血緣數據采集、數據血緣圖設計與展示、數據血緣異常告警。血緣數據采集模塊由各個數據處理節(jié)點的日志采集端對流經的數據進行實時采集和匯總,數據血緣圖設計與展示模塊可在線設計血緣圖并根據匯總的數據進行實時展示,數據血緣異常告警模塊對節(jié)點的數據按規(guī)則進行檢測,觸發(fā)規(guī)則告警通知系統(tǒng)維護人員。
(一)血緣數據采集
數據采集架構由一個核心監(jiān)控腳本與多個指標數據采集器協(xié)同工作構成,每個指標數據采集器專為特定業(yè)務應用定制,通過復用公共采集模板快速配置需要采集的指標項。這些采集器默認捕獲應用系統(tǒng)的基礎靜態(tài)信息(如系統(tǒng)名稱、版本號、代碼標識),并周期性監(jiān)測并收集動態(tài)性能指標。針對特定航司系統(tǒng)或特定業(yè)務的需求,可通過編寫附加腳本代碼靈活擴展數據采集維度。監(jiān)控核心模塊則負責調度指定目錄下所有采集腳本的執(zhí)行,對收集的數據進行初步格式化處理(如數據單位標準化),隨后將處理后的數據高效傳輸至數據存儲庫。
血緣數據采集的指標具體包括四類。血緣指標:所有節(jié)點都必有的指標,例如民航上下游子系統(tǒng)的數據輸入量、輸出量、錯誤量指標,這些指標數據的來源一般為應用的日志;元數據: 例如這個應用的的名稱、代碼、版本號、所屬類型、上游依賴、所在服務器內存/CPU大小等信息,這些數據在采集腳本中配置,只在應用啟動時采集一次;擴展指標:個別應用特有指標,通過擴展采集腳本收集,例如:Kafka每個Topic每分鐘數據量/各消費者當前l(fā)ag指標,數據庫當前連接數指標等;硬件指標:例如當前應用所占用的內存大小/CPU百分比/磁盤關鍵路徑空間占用百分比。
(二)民航動態(tài)數據血緣圖設計
在動態(tài)數據血緣圖的核心部分,實現上采用VUE前端框架生成SVG圖,提供數據血緣圖在線管理能力、數據血緣圖上卷下鉆交互能力,以及動態(tài)數據血緣的解析與展示。
1.數據血緣圖在線管理能力
系統(tǒng)采用通用組件架構,將元素精簡為應用、輔助與區(qū)域三類核心組件,分別承載關鍵信息、邏輯關系和空間定位功能。應用組件涵蓋應用、存儲、管道等,支持私有與公共節(jié)點靈活配置;輔助組件如線條、判斷、文本,強化邏輯表達;區(qū)域組件則明確組件位置,促進理解。所有組件支持在線編輯,包括拖動、增刪、調整大小和布局等,用戶僅需簡單操作即可完成布局,顯著提升構建效率與準確性。通過自由組合這些組件,設計人員可以快速而準確地構建出民航數據平臺各個子模塊的數據血緣圖。
2.數據血緣圖上卷下鉆交互能力
在數據倉庫的復雜架構中,上卷下鉆是一種常見的數據分析方法,將其融入民航數據血緣圖的設計與交互中,用戶可通過簡單的右鍵操作切換到不同層級的血緣視圖:在畫布或特定組件上右鍵點擊,選擇“上層引用”以跳轉至上一層級的數據血緣圖(上卷);或在特定組件上右鍵點擊,選擇“查看子圖”以深入至下一層級的數據血緣圖(下鉆)。這種直觀的操作方式極大地提升了用戶體驗,使用戶能夠迅速在不同架構層級間切換,高效獲取所需信息,從而顯著提升工作效率。
3.動態(tài)數據血緣解析與展示

在成功構建民航數據血緣圖之后,為確保數據動起來,保證數據血緣的時效性和準確性,我們將實時采集的血緣數據進行解析、計算和可視化展示。這一過程中,所展示的關鍵數據指標包括數據輸入量、數據輸出量、當前節(jié)點在線實例數以及數據處理內部錯誤量,這些指標被精心布局在節(jié)點的四周,以便于用戶快速監(jiān)控和定位數據問題,如圖所示。
基于民航數據血緣圖,實現了復雜的民航數據處理鏈路的可視化監(jiān)控,直觀呈現數據處理前后關聯(lián),數據處理量及異常信息,助力快速監(jiān)控關鍵信息。
(三)民航數據血緣告警應用
動態(tài)數據血緣圖為每個節(jié)點提供了詳盡的監(jiān)控設置選項。用戶可根據業(yè)務選擇監(jiān)控的關鍵指標,并配置指標的檢查規(guī)則,如告警時段定義、統(tǒng)計周期設定、聚合函數選擇、閾值比較規(guī)則、閾值具體值設置等。系統(tǒng)每分鐘自動檢索告警點,采用分組策略優(yōu)化查詢,快速比對數據。檢測到異常即標記并對比前后狀態(tài),生成恢復或告警消息即時發(fā)送給接收人,實現高效異常響應與處理。
本方案在民航大數據環(huán)境中進行了實踐應用,完成對8家航司的應用全鏈路監(jiān)控,創(chuàng)建了59張各層級血緣架構圖,涵蓋了從航班計劃、行程數據、旅客服務和結算數據等各個業(yè)務場景,這些數據血緣圖詳細描繪了數據在不同應用間的流轉路徑和依賴關系。配置了1252個監(jiān)控點,覆蓋了關鍵業(yè)務指標和異常風險點,實現了對航司應用全鏈路的實時監(jiān)控。投產之后,系統(tǒng)成功監(jiān)測到95%的數據異常情況,將問題和故障的發(fā)現提高到了分鐘級別,有助于問題先于用戶感知就已完成修復。這一成果不僅提升了民航業(yè)務的穩(wěn)定性和安全性,也提高了客戶滿意度和運營效率。
本文提出的基于架構級別的民航數據動態(tài)血緣圖技術,有效的解決了民航數據環(huán)境中數據鏈路的跟蹤、問題排查、數據可視化展示與告警等難題,相信隨著大數據及人工智能技術的發(fā)展和日趨成熟,必將為民航業(yè)務的穩(wěn)定運行提供更有力的支撐。