



摘要:針對離散制造業數據孤島和數據質量參差不齊等問題,文章提出一種基于數據湖架構的工業互聯網數據平臺,實現工業數據的統一存儲、管理和分析,提升數據價值,推動企業數字化轉型。該平臺采用分層架構(數據接入層、數據治理層、數據計算層、交互應用層) ,集成多源異構數據接入和低代碼數據治理模塊,保證數據質量,優化數據利用效率。某電子產品制造企業的應用實踐驗證了該平臺在生產過程監控、產品質量追溯和預測性維護方面的有效性,為離散制造行業構建工業互聯網數據湖提供了新的思路和解決方案。
關鍵詞:工業互聯網;數據湖;離散制造;數據治理;低代碼
中圖分類號:TP392" " " 文獻標識碼:A
文章編號:1009-3044(2025)16-0010-03
開放科學(資源服務) 標識碼(OSID)
0 引言
新一代信息技術(物聯網、大數據、人工智能等) 快速發展推動離散制造業加速向智能化轉型。然而,傳統離散制造業數據來源分散、格式多樣、質量參差不齊、數據孤島現象嚴重,制約了數據價值挖掘和利用,阻礙了智能制造發展[1]。有效整合和管理海量異構工業數據,成為推動離散制造業轉型升級的關鍵挑戰[1]。
數據湖架構以其開放、靈活、成本低的優勢,為解決上述挑戰提供了新的思路。然而,現有數據湖平臺在適配離散制造業特定需求方面仍存在不足,例如缺乏針對工業數據特征的適配方案、數據治理能力不足以及缺乏針對業務場景的應用工具。
本文旨在構建一個面向離散制造業的工業互聯網數據湖平臺,以整合工業互聯網數據,構建高效的數據存儲和計算引擎,開發智能化數據治理工具,提升工業數據共享和利用效率,加速離散制造業智能化轉型。
本文的主要貢獻在于:1) 設計并實現了面向離散制造業的工業互聯網數據湖平臺,該平臺涵蓋數據接入、治理、計算和服務等關鍵模塊;2) 實現了多源異構數據接入和低代碼數據治理等核心功能;3) 通過典型應用案例(生產過程監控、質量管理、預測性維護等) 驗證了平臺的實際應用效果。
1 相關工作
大數據時代,海量數據的存儲、管理和利用成為各行各業的焦點。傳統集中式數據庫難以滿足需求,促進了Hadoop、Spark等分布式存儲和計算技術的發展,為大數據分析和應用奠定了基礎[2]。
然而,傳統數據倉庫模式在處理海量異構數據時存在不足,其預定義模式和ETL處理過程復雜耗時,難以應對數據類型的多樣化和快速變化。數據湖概念應運而生[2-3]。
數據湖是一種基于分布式存儲系統構建的數據存儲和管理架構,能夠以原生態方式存儲各種格式數據(結構化、半結構化、非結構化數據) [5],并支持多種數據源接入。數據湖的優勢在于[6-8]:
1) 數據格式靈活:無須預先定義數據模式,可以存儲各種格式的數據,避免了ETL帶來的復雜性和延時。
2) 存儲容量大:基于分布式存儲系統,可以輕松擴展存儲容量,滿足海量數據存儲的需求。
3) 易于擴展:支持多種數據分析工具和技術,例如Spark、Hive[9]等,方便進行數據分析和挖掘。
數據湖在各領域得到廣泛應用,尤其在工業互聯網領域,它能有效整合來自生產設備、傳感器、MES系統、ERP系統等的數據,為智能制造、生產優化和預測性維護提供數據支撐。但現有數據湖平臺在滿足離散制造業特定需求方面仍存在挑戰:數據適配、數據治理和應用工具缺乏。
本文將針對這些挑戰,設計并實現一個面向離散制造業的工業互聯網數據湖平臺,為推動離散制造業智能化轉型提供新的解決方案[4]。
2 系統設計
為了滿足離散制造業對數據存儲、處理和分析的需求,本平臺采用分層架構,將系統劃分為4個層次:數據接入層、數據計算層、數據治理層和數據服務層,如圖1所示。分層架構有效整合了不同來源、格式的工業數據。平臺提供高效可靠的數據存儲、處理和分析能力,具有良好的擴展性和可維護性,并支持靈活的組件替換,從而適應不同業務場景的需求,有力支撐離散制造業的智能化轉型。
2.1 數據接入層
數據接入模塊支持多種數據接入方式,以滿足離散制造業數據來源多樣、格式復雜的特點。為確保數據高效可靠接入,平臺針對工業數據特征進行了適配處理,并設計了靈活的數據接入流程。針對實時性要求高的生產過程數據(設備狀態、傳感器數據等) ,平臺采用Kafka消息隊列進行實時數據采集和傳輸(如圖2所示) 。對于CSV、JSON、Excel等格式的外部文件,平臺支持直接上傳并自動解析(如圖3所示) 。對于數據庫接入方式,平臺支持多種關系型和非關系型數據庫的數據接入,支持“覆蓋”和“追加”方式接入數據(如圖4所示) 。
2.2 數據治理層
數據治理層是平臺的關鍵組成部分,它負責對數據的全生命周期進行管理,確保數據質量滿足業務需求,提升數據價值。該層主要包括數據清洗、數據質量監控、數據質量修復、元數據管理等功能模塊,通過多種手段和技術,有效提升數據質量,保障數據可靠性。
低代碼數據治理模塊降低了數據治理門檻,業務人員可通過拖拽和配置的方式構建復雜的數據治理流程。平臺內置了豐富的預定義算子(數據清洗、轉換、過濾、特征工程等) ,用戶可靈活選擇和組合。基于圖結構構建的數據治理流程引擎,將每個數據操作抽象為節點,節點之間通過數據流連接,形成有向無環圖 (DAG)。用戶可在可視化編輯器中構建流程,平臺會自動將DAG轉換為可執行的Spark代碼并觸發執行。具體的數據操作流和算子設計如圖5所示。
針對結構化的二維表數據,可以通過對前端交互層的可視化節點進行拖拽和編輯,實現具有更好可讀性的數據操作流。在前端交互層,用戶可以選擇“導入節點”“轉換節點”“連接節點”“導出節點”,分別對數據流進行操作。
導入節點中,需要用戶數據被導入的表名,從而從數據湖中導入指定的表,同時指定各項參數,設置導入時的配置。
轉換節點中,用戶可以從預定義的超過100個算子中進行選擇,通過配置其參數,實現在轉換節點中對上游導入節點的轉換。算子列表包含常用的基于表格列的操作函數、基于行過濾的函數、聚合函數等,例如字符串拼接函數concat,條件過濾函數filter,均值函數mean等。通過為轉換節點添加一系列函數算子,可以將上游數據按照步驟處理,形成一個有序的算子序列,計算并預覽處理后的數據。
連接節點通過輸入兩個或以上輸出數據的節點,按照其配置的規則,將多個表進行連接查詢,并輸出連接后的數據表,用于后續操作。
導出節點通過輸入一個上游節點,通過用戶配置,將該節點計算后的數據表保存到工業大數據湖中,也導出節點支持將上述數據下載到本地。
接口設計上,該模塊的后臺將對外暴露一個接收節點拓撲序列的接口,后臺將接收并解析該序列,將其轉換為一個程序調用的序列,實現數據的處理。
2.3 數據計算層
數據計算層基于Spark分布式計算框架構建,高效處理海量數據,滿足離散制造業的數據分析和挖掘需求。平臺支持多種數據源的數據讀取,并提供豐富的API接口,方便用戶進行數據轉換、清洗、特征工程等操作。數據計算層支持離散制造業的生產優化、質量控制、預測性維護等應用場景。
2.4 數據服務層
數據服務層通過數據基礎應用模塊和數據開發模塊,為制造企業提供便捷的數據訪問、分析和共享服務,促進數據與業務深度融合。數據服務層賦能生產運營、質量管理、設備維護等企業內部不同部門,并提供與科研機構合作的橋梁,促進基于工業數據的產學研合作。
3 應用實踐
本節以某電子產品制造企業為例,如圖6所示,電子產品制造企業數據湖應用實踐所示,介紹如何利用平臺構建工業互聯網數據湖,并將其應用于生產過程監控、質量追溯和預測性維護等場景。該企業擁有多個生產車間,生產過程中產生大量數據(設備運行狀態、物料使用信息、產品測試數據、質量檢測數據等) 。這些數據分散在不同系統中,難以整合和利用。該企業基于本平臺構建了工業互聯網數據湖,整合了來自生產設備、傳感器、MES系統、ERP系統等的數據。平臺實現了數據的接入(實時數據通過Kafka消息隊列傳輸,離線數據通過文件上傳或數據庫導入) ,數據治理(數據清洗、轉換和整合) ,以及生產過程監控、產品質量追溯和預測性維護等應用。
4 結論展望
本文針對離散制造行業數據孤島和數據質量參差不齊等問題,基于數據湖技術,提出了一種基于數據湖架構的工業互聯網數據應用架構方案,并介紹了其關鍵環節、建設流程及應用案例分析。未來,人們將持續優化平臺,拓展應用場景,提升數據存儲和管理效率,增強數據質量和分析能力,促進平臺與業務深度融合,并積極推動產學研合作,更好地服務于離散制造行業的數字化轉型。
參考文獻:
[1] 宋純賀,曾鵬,于海斌.工業互聯網智能制造邊緣計算:現狀與挑戰[J].中興通訊技術,2019,25(3):50-57.
[2] 何文韜,邵誠.工業大數據分析技術的發展及其面臨的挑戰[J].信息與控制,2018,47(4):398-410.
[3] 陳氫,張治.融合多源異構數據治理的數據湖架構研究[J].情報雜志,2022,41(5):139-145.
[4] 繆佳輝,包先雨,黃孫杰,等.海關數據湖的構建與應用[J].武漢工程大學學報,2022,44(5):572-577.
[5] 陳永南,許桂明,張新建.一種基于數據湖的大數據處理機制研究[J].計算機與數字工程,2019,47(10):2540-2545.
【通聯編輯:梁書】