摘 要:當前,航空制造型企業全域數據愈來愈呈現出“工業大數據”特征,基于海量數據分布式、并行化存儲和計算技術,搭建跨層級、跨地域、跨部門、跨業務、跨系統的數據管理信息基礎設施環境,建立集團級大數據中心一體化平臺,可有效支持產品、管理和資源類數據歸集管控和共享,高效支撐數據資產管理、業務智能BI、人工智能AI等領域的數據應用,促進企業數字化轉型。
關鍵詞:大數據中心一體化平臺;分布式存儲計算;關系型數據庫;數據湖
引言
隨著航空制造型企業數字化研發、制造的深入開展,全域數據如預先研究數據、技術創新數據、設計數據、工藝數據、試驗數據、制造數據、服務保障數據、供應鏈數據、資源數據、設備實時數據等越來越半/非結構化、版本眾多、層次結構復雜且數據量日益增多,逐步呈現出“工業大數據”的特征。
針對航空制造類大型企業對全域數據統一采集入庫和共享應用需求,結合大數據分布式存儲計算技術迅猛發展且日漸成熟的現狀,有必要搭建集團級統一的數據管理信息基礎設施環境,建立大數據中心(簡稱數據中心)一體化平臺,提供IT資源線性擴展、彈性計算、實時響應、動態調節的數據處理能力,支持全域數據從下屬單位傳輸、審核和匯聚進入數據中心,并確保數據真實性、完整性和權威性,為集團級數據交換共享和關聯、深入分析挖掘做準備。
1 集團級大數據中心一體化平臺業務架構
數據中心提供數據采集、存儲、計算、治理和服務等功能,業務架構如圖1:

數據采集涵蓋總部及所屬單位產生的結構化數據、半/非結構化數據、設備實時流數據,數據具備多型號、多階段、多工具、多來源、多專業、復雜結構、復雜格式、復雜關聯、復雜內涵等特點,需要支持跨層級、跨地域、跨部門、跨業務、跨系統等的采集傳輸,支持按數據量(增量、全量)、時間(定時、實時)等任務觸發規則來調度采集任務,同時提供對數據采集過程的全程監控。
數據存儲面向大批量的結構化數據(關系型數據庫表行列等)、非結構化數據(圖像、音視頻、文檔、二維圖紙、三維模型等)、半結構化數據(CSV、XML、JSON的日志等)和實時流數據(設備實時數據等)的高效存儲。
數據計算提供離線批量計算、內存計算、實時流式計算、圖計算、查詢計算等計算能力,支持將規模龐大的數據計算處理任務分解到多個分布式計算節點上執行,提高數據處理效率,并滿足交互式快速查詢(PB級數據秒級查詢響應)。
數據服務提供各類數據服務,包括數據分析、數據挖掘、知識圖譜、數據可視化、數據共享交換和數據服務網關等功能,實現數據的共享及價值最大化。
數據治理確保數據中心提供高質量和真實可靠的數據,包括數據架構管理、數據開發管理、主數據管理、元數據管理、數據質量管理和數據安全管理等。
2 集團級大數據中心一體化平臺數據架構
數據架構可以從多個角度進行描述,本文主要關注數據存儲分類。針對數據中心歸集的全域數據,在數據轉變為數據資產的過程中,會依次形成不同類型的數據資源庫。數據架構如圖2:
預處理數據庫存放總部和所屬單位業務系統/數據中心匯聚的原始格式的源數據以及人工維護產生的源數據等。
業務主題庫是通過構建業務主題模型,整合處理預處理數據庫的數據,并按照主題數據分類形成的主題數據。

產品主題庫整合產品全生命周期數據,構建虛擬產品主題庫、實物產品主題庫、服務保障主題庫、試驗數據主題庫等。
公共基礎庫整合產品研制過程的共性基礎數據,構建技術創新主題庫和共性資源主題庫等。
分析數據庫是針對某一個業務領域建立分析模型,為決策層查看數據分析報表提供數據支撐。
知識圖譜庫基于機器學習和本體識別技術,從公共基礎庫、產品主題庫、業務主題庫等中提取各類實體,利用圖數據庫將不同來源的數據組織起來,建立數據之間的關聯關系,讓數據關系顯性化、業務數據互通化、殘缺關系完整化。
模型庫基于算法模型,結合仿真、制造等專業領域的機理知識,構建各類分析模型,將業務經驗沉淀為包含特定思路的業務分析模型,以反哺業務。
主數據庫整合全集團核心、共享的基礎數據,以數據服務方式把統一、完整、準確、權威的主數據分發給需要使用主數據的業務系統。
中央元數據庫提供相應數據上下文環境描述信息的統一存儲,支持對業務元數據、技術元數據和操作元數據的集中管理,可將業務術語與技術元數據鏈接起來,打通業務和技術的鴻溝。
3 集團級大數據中心一體化平臺應用架構
應用架構反映數據采集/匯聚、存儲、計算、管理/治理、分析、挖掘、開發、服務、安全以及資源虛擬化等IT軟件工具,如圖3:

4 集團級大數據中心一體化平臺技術架構
數據中心采用關系型數據庫與大數據混合架構的技術,技術架構如圖4:
4.1 數據集成交換
針對全域數據采集,制定不同的數據接入方式:
(1)對結構化數據如PDM、ERP、MES、TDM等業務系統數據,通過ETL/ ELT工具、API接口、CDC數據復制同步等方式從系統的關系型數據庫中采集。
(2)對于音視頻、圖文檔等非結構化數據,通過FLUME/FTP/SFTP技術接入或者開發專門的API接入大文件。
(3)對于設備產生的實時流數據,通過Kafka技術采集和處理,滿足數據實時集成需求,可處理每秒數萬甚至數十萬個、數萬計事件流。
(4)采集的各類數據要跨層級、跨地域、跨組織傳輸到數據中心,需要采用消息中間件,以消息隊列MQ方式執行數據收取、打包、壓縮、路由轉發、接收、解壓、入庫等操作;大文件傳輸采用支持P2P協議的大文件傳輸工具。

數據采集傳輸過程需要統一的控制管理,包括數據源定義、任務配置、任務管理、規則定義、調度編排等;針對采集傳輸過程,提供任務調度及過程監控功能,包括任務監控、運行報告、任務質量、日志管理、數據質量、數據稽核等。
4.2 數據存儲計算
考慮到數據存儲計算架構的穩定性和擴展性,引入關系型數據庫和大數據技術,滿足各類數據存儲計算需求。
(1)關系型數據庫:采用成熟的商業版結構化關系型數據庫軟件,構建關系型數據庫集群,即RAC(Real Application Clusters),其核心是基于共享磁盤,集群中所有節點必須能夠訪問所有數據、重做日志文件、控制文件和參數文件,數據磁盤必須是全局可用的,允許所有節點訪問數據庫,每個節點有它自己的重做日志和控制文件,但是其他節點必須能夠訪問它們以便在那個節點出現系統故障時能夠恢復。關系型數據庫RAC集群架構如圖5:

(2)數據湖軟件:提供湖倉一體的智能數據湖,具備PB~EB級數據存儲、計算能力,可滿足海量結構化、非結構化和半結構化數據的存儲需求,具備事務處理、批處理、流處理、實時與離線分析、交互查詢、實時檢索、多模分析等多種數據處理和多租戶、數據權限和資源隔離等集群管理能力,支撐SQL分析、業務智能、大數據分析挖掘、機器學習、深度學習、知識圖譜等數據科學領域應用,可實現“湖里”和“倉里”數據、元數據的無縫打通和自由流動。
支撐全域數據存儲和計算,各類原始結構化數據保存到Hive中,通過數據建模對數據進行整理,形成預處理數據庫、業務主題庫、公共主題庫和產品主題庫;對時效性要求較高的面向聯機分析處理(OLAP)的分析數據庫保存到大規模并行處理(MPP)數據庫中;非結構化數據保存到HDFS中;設備狀態、傳感器等實時時序數據保存在時序數據庫IoTDB中;實時處理中用到的臨時緩存等熱數據保存在Redis內存數據庫中;為提高HDFS存儲數據增量處理能力,引入Hudi組件,提供一個自管理數據平面來攝取、轉換和管理數據并解鎖對這些數據進行增量處理的方式。數據湖提供統一的數據查詢、計算組件,包括離線批處理計算MapReduce/Tez組件;實時流計算Flink、Spark Streaming組件,與Kafka結合使用,能夠適用于幾乎所有的流式準實時計算場景;內存計算Spark組件,數據存儲和計算全部存在于主內存中,利用CPU和內存的優勢,結合并行計算技術,實現高性能計算;智能搜索和全文檢索的ElasticSearch組件;知識圖譜應用的圖計算引擎(Graphbase)等。數據湖軟件架構如圖6:

4.3 數據分析挖掘
提供報表分析、多維分析、交互式分析和清單提供等分析組件;提供機器學習、深度學習、人工智能技術(語音識別、圖像處理、自然語言處理、知識圖譜等)等挖掘組件。
4.4 數據服務
提供服務開發、注冊、發布、服務目錄、訂閱、推送、監控等組件。
4.5 數據運維
提供計算資源、網絡資源、存儲資源的虛擬化組件,以及分布式集群管理、作業調度、資源協調、資源監控、容災備份等組件。
4.6 數據安全
提供登錄認證、訪問授權、數據加密、傳輸加密、數據脫敏、安全審計等組件。
5 結束語
基于分布式存儲計算和智能數據湖技術,建設集團級大數據中心一體化平臺,實現IT資源的彈性伸縮與可管可控,滿足海量結構化、非結構化和半結構化數據的存儲計算、分析挖掘應用需求,助力提升航空制造型企業產品研發能力和運營管控水平。
(作者單位:中國航空發動機集團公司)