



摘要:針對離散制造業(yè)數(shù)據(jù)孤島和數(shù)據(jù)質(zhì)量參差不齊等問題,文章提出一種基于數(shù)據(jù)湖架構(gòu)的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)平臺,實現(xiàn)工業(yè)數(shù)據(jù)的統(tǒng)一存儲、管理和分析,提升數(shù)據(jù)價值,推動企業(yè)數(shù)字化轉(zhuǎn)型。該平臺采用分層架構(gòu)(數(shù)據(jù)接入層、數(shù)據(jù)治理層、數(shù)據(jù)計算層、交互應(yīng)用層) ,集成多源異構(gòu)數(shù)據(jù)接入和低代碼數(shù)據(jù)治理模塊,保證數(shù)據(jù)質(zhì)量,優(yōu)化數(shù)據(jù)利用效率。某電子產(chǎn)品制造企業(yè)的應(yīng)用實踐驗證了該平臺在生產(chǎn)過程監(jiān)控、產(chǎn)品質(zhì)量追溯和預(yù)測性維護(hù)方面的有效性,為離散制造行業(yè)構(gòu)建工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖提供了新的思路和解決方案。
關(guān)鍵詞:工業(yè)互聯(lián)網(wǎng);數(shù)據(jù)湖;離散制造;數(shù)據(jù)治理;低代碼
中圖分類號:TP392" " " 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2025)16-0010-03
開放科學(xué)(資源服務(wù)) 標(biāo)識碼(OSID)
0 引言
新一代信息技術(shù)(物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等) 快速發(fā)展推動離散制造業(yè)加速向智能化轉(zhuǎn)型。然而,傳統(tǒng)離散制造業(yè)數(shù)據(jù)來源分散、格式多樣、質(zhì)量參差不齊、數(shù)據(jù)孤島現(xiàn)象嚴(yán)重,制約了數(shù)據(jù)價值挖掘和利用,阻礙了智能制造發(fā)展[1]。有效整合和管理海量異構(gòu)工業(yè)數(shù)據(jù),成為推動離散制造業(yè)轉(zhuǎn)型升級的關(guān)鍵挑戰(zhàn)[1]。
數(shù)據(jù)湖架構(gòu)以其開放、靈活、成本低的優(yōu)勢,為解決上述挑戰(zhàn)提供了新的思路。然而,現(xiàn)有數(shù)據(jù)湖平臺在適配離散制造業(yè)特定需求方面仍存在不足,例如缺乏針對工業(yè)數(shù)據(jù)特征的適配方案、數(shù)據(jù)治理能力不足以及缺乏針對業(yè)務(wù)場景的應(yīng)用工具。
本文旨在構(gòu)建一個面向離散制造業(yè)的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖平臺,以整合工業(yè)互聯(lián)網(wǎng)數(shù)據(jù),構(gòu)建高效的數(shù)據(jù)存儲和計算引擎,開發(fā)智能化數(shù)據(jù)治理工具,提升工業(yè)數(shù)據(jù)共享和利用效率,加速離散制造業(yè)智能化轉(zhuǎn)型。
本文的主要貢獻(xiàn)在于:1) 設(shè)計并實現(xiàn)了面向離散制造業(yè)的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖平臺,該平臺涵蓋數(shù)據(jù)接入、治理、計算和服務(wù)等關(guān)鍵模塊;2) 實現(xiàn)了多源異構(gòu)數(shù)據(jù)接入和低代碼數(shù)據(jù)治理等核心功能;3) 通過典型應(yīng)用案例(生產(chǎn)過程監(jiān)控、質(zhì)量管理、預(yù)測性維護(hù)等) 驗證了平臺的實際應(yīng)用效果。
1 相關(guān)工作
大數(shù)據(jù)時代,海量數(shù)據(jù)的存儲、管理和利用成為各行各業(yè)的焦點。傳統(tǒng)集中式數(shù)據(jù)庫難以滿足需求,促進(jìn)了Hadoop、Spark等分布式存儲和計算技術(shù)的發(fā)展,為大數(shù)據(jù)分析和應(yīng)用奠定了基礎(chǔ)[2]。
然而,傳統(tǒng)數(shù)據(jù)倉庫模式在處理海量異構(gòu)數(shù)據(jù)時存在不足,其預(yù)定義模式和ETL處理過程復(fù)雜耗時,難以應(yīng)對數(shù)據(jù)類型的多樣化和快速變化。數(shù)據(jù)湖概念應(yīng)運而生[2-3]。
數(shù)據(jù)湖是一種基于分布式存儲系統(tǒng)構(gòu)建的數(shù)據(jù)存儲和管理架構(gòu),能夠以原生態(tài)方式存儲各種格式數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)) [5],并支持多種數(shù)據(jù)源接入。數(shù)據(jù)湖的優(yōu)勢在于[6-8]:
1) 數(shù)據(jù)格式靈活:無須預(yù)先定義數(shù)據(jù)模式,可以存儲各種格式的數(shù)據(jù),避免了ETL帶來的復(fù)雜性和延時。
2) 存儲容量大:基于分布式存儲系統(tǒng),可以輕松擴(kuò)展存儲容量,滿足海量數(shù)據(jù)存儲的需求。
3) 易于擴(kuò)展:支持多種數(shù)據(jù)分析工具和技術(shù),例如Spark、Hive[9]等,方便進(jìn)行數(shù)據(jù)分析和挖掘。
數(shù)據(jù)湖在各領(lǐng)域得到廣泛應(yīng)用,尤其在工業(yè)互聯(lián)網(wǎng)領(lǐng)域,它能有效整合來自生產(chǎn)設(shè)備、傳感器、MES系統(tǒng)、ERP系統(tǒng)等的數(shù)據(jù),為智能制造、生產(chǎn)優(yōu)化和預(yù)測性維護(hù)提供數(shù)據(jù)支撐。但現(xiàn)有數(shù)據(jù)湖平臺在滿足離散制造業(yè)特定需求方面仍存在挑戰(zhàn):數(shù)據(jù)適配、數(shù)據(jù)治理和應(yīng)用工具缺乏。
本文將針對這些挑戰(zhàn),設(shè)計并實現(xiàn)一個面向離散制造業(yè)的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖平臺,為推動離散制造業(yè)智能化轉(zhuǎn)型提供新的解決方案[4]。
2 系統(tǒng)設(shè)計
為了滿足離散制造業(yè)對數(shù)據(jù)存儲、處理和分析的需求,本平臺采用分層架構(gòu),將系統(tǒng)劃分為4個層次:數(shù)據(jù)接入層、數(shù)據(jù)計算層、數(shù)據(jù)治理層和數(shù)據(jù)服務(wù)層,如圖1所示。分層架構(gòu)有效整合了不同來源、格式的工業(yè)數(shù)據(jù)。平臺提供高效可靠的數(shù)據(jù)存儲、處理和分析能力,具有良好的擴(kuò)展性和可維護(hù)性,并支持靈活的組件替換,從而適應(yīng)不同業(yè)務(wù)場景的需求,有力支撐離散制造業(yè)的智能化轉(zhuǎn)型。
2.1 數(shù)據(jù)接入層
數(shù)據(jù)接入模塊支持多種數(shù)據(jù)接入方式,以滿足離散制造業(yè)數(shù)據(jù)來源多樣、格式復(fù)雜的特點。為確保數(shù)據(jù)高效可靠接入,平臺針對工業(yè)數(shù)據(jù)特征進(jìn)行了適配處理,并設(shè)計了靈活的數(shù)據(jù)接入流程。針對實時性要求高的生產(chǎn)過程數(shù)據(jù)(設(shè)備狀態(tài)、傳感器數(shù)據(jù)等) ,平臺采用Kafka消息隊列進(jìn)行實時數(shù)據(jù)采集和傳輸(如圖2所示) 。對于CSV、JSON、Excel等格式的外部文件,平臺支持直接上傳并自動解析(如圖3所示) 。對于數(shù)據(jù)庫接入方式,平臺支持多種關(guān)系型和非關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)接入,支持“覆蓋”和“追加”方式接入數(shù)據(jù)(如圖4所示) 。
2.2 數(shù)據(jù)治理層
數(shù)據(jù)治理層是平臺的關(guān)鍵組成部分,它負(fù)責(zé)對數(shù)據(jù)的全生命周期進(jìn)行管理,確保數(shù)據(jù)質(zhì)量滿足業(yè)務(wù)需求,提升數(shù)據(jù)價值。該層主要包括數(shù)據(jù)清洗、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)質(zhì)量修復(fù)、元數(shù)據(jù)管理等功能模塊,通過多種手段和技術(shù),有效提升數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)可靠性。
低代碼數(shù)據(jù)治理模塊降低了數(shù)據(jù)治理門檻,業(yè)務(wù)人員可通過拖拽和配置的方式構(gòu)建復(fù)雜的數(shù)據(jù)治理流程。平臺內(nèi)置了豐富的預(yù)定義算子(數(shù)據(jù)清洗、轉(zhuǎn)換、過濾、特征工程等) ,用戶可靈活選擇和組合。基于圖結(jié)構(gòu)構(gòu)建的數(shù)據(jù)治理流程引擎,將每個數(shù)據(jù)操作抽象為節(jié)點,節(jié)點之間通過數(shù)據(jù)流連接,形成有向無環(huán)圖 (DAG)。用戶可在可視化編輯器中構(gòu)建流程,平臺會自動將DAG轉(zhuǎn)換為可執(zhí)行的Spark代碼并觸發(fā)執(zhí)行。具體的數(shù)據(jù)操作流和算子設(shè)計如圖5所示。
針對結(jié)構(gòu)化的二維表數(shù)據(jù),可以通過對前端交互層的可視化節(jié)點進(jìn)行拖拽和編輯,實現(xiàn)具有更好可讀性的數(shù)據(jù)操作流。在前端交互層,用戶可以選擇“導(dǎo)入節(jié)點”“轉(zhuǎn)換節(jié)點”“連接節(jié)點”“導(dǎo)出節(jié)點”,分別對數(shù)據(jù)流進(jìn)行操作。
導(dǎo)入節(jié)點中,需要用戶數(shù)據(jù)被導(dǎo)入的表名,從而從數(shù)據(jù)湖中導(dǎo)入指定的表,同時指定各項參數(shù),設(shè)置導(dǎo)入時的配置。
轉(zhuǎn)換節(jié)點中,用戶可以從預(yù)定義的超過100個算子中進(jìn)行選擇,通過配置其參數(shù),實現(xiàn)在轉(zhuǎn)換節(jié)點中對上游導(dǎo)入節(jié)點的轉(zhuǎn)換。算子列表包含常用的基于表格列的操作函數(shù)、基于行過濾的函數(shù)、聚合函數(shù)等,例如字符串拼接函數(shù)concat,條件過濾函數(shù)filter,均值函數(shù)mean等。通過為轉(zhuǎn)換節(jié)點添加一系列函數(shù)算子,可以將上游數(shù)據(jù)按照步驟處理,形成一個有序的算子序列,計算并預(yù)覽處理后的數(shù)據(jù)。
連接節(jié)點通過輸入兩個或以上輸出數(shù)據(jù)的節(jié)點,按照其配置的規(guī)則,將多個表進(jìn)行連接查詢,并輸出連接后的數(shù)據(jù)表,用于后續(xù)操作。
導(dǎo)出節(jié)點通過輸入一個上游節(jié)點,通過用戶配置,將該節(jié)點計算后的數(shù)據(jù)表保存到工業(yè)大數(shù)據(jù)湖中,也導(dǎo)出節(jié)點支持將上述數(shù)據(jù)下載到本地。
接口設(shè)計上,該模塊的后臺將對外暴露一個接收節(jié)點拓?fù)湫蛄械慕涌冢笈_將接收并解析該序列,將其轉(zhuǎn)換為一個程序調(diào)用的序列,實現(xiàn)數(shù)據(jù)的處理。
2.3 數(shù)據(jù)計算層
數(shù)據(jù)計算層基于Spark分布式計算框架構(gòu)建,高效處理海量數(shù)據(jù),滿足離散制造業(yè)的數(shù)據(jù)分析和挖掘需求。平臺支持多種數(shù)據(jù)源的數(shù)據(jù)讀取,并提供豐富的API接口,方便用戶進(jìn)行數(shù)據(jù)轉(zhuǎn)換、清洗、特征工程等操作。數(shù)據(jù)計算層支持離散制造業(yè)的生產(chǎn)優(yōu)化、質(zhì)量控制、預(yù)測性維護(hù)等應(yīng)用場景。
2.4 數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層通過數(shù)據(jù)基礎(chǔ)應(yīng)用模塊和數(shù)據(jù)開發(fā)模塊,為制造企業(yè)提供便捷的數(shù)據(jù)訪問、分析和共享服務(wù),促進(jìn)數(shù)據(jù)與業(yè)務(wù)深度融合。數(shù)據(jù)服務(wù)層賦能生產(chǎn)運營、質(zhì)量管理、設(shè)備維護(hù)等企業(yè)內(nèi)部不同部門,并提供與科研機構(gòu)合作的橋梁,促進(jìn)基于工業(yè)數(shù)據(jù)的產(chǎn)學(xué)研合作。
3 應(yīng)用實踐
本節(jié)以某電子產(chǎn)品制造企業(yè)為例,如圖6所示,電子產(chǎn)品制造企業(yè)數(shù)據(jù)湖應(yīng)用實踐所示,介紹如何利用平臺構(gòu)建工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖,并將其應(yīng)用于生產(chǎn)過程監(jiān)控、質(zhì)量追溯和預(yù)測性維護(hù)等場景。該企業(yè)擁有多個生產(chǎn)車間,生產(chǎn)過程中產(chǎn)生大量數(shù)據(jù)(設(shè)備運行狀態(tài)、物料使用信息、產(chǎn)品測試數(shù)據(jù)、質(zhì)量檢測數(shù)據(jù)等) 。這些數(shù)據(jù)分散在不同系統(tǒng)中,難以整合和利用。該企業(yè)基于本平臺構(gòu)建了工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖,整合了來自生產(chǎn)設(shè)備、傳感器、MES系統(tǒng)、ERP系統(tǒng)等的數(shù)據(jù)。平臺實現(xiàn)了數(shù)據(jù)的接入(實時數(shù)據(jù)通過Kafka消息隊列傳輸,離線數(shù)據(jù)通過文件上傳或數(shù)據(jù)庫導(dǎo)入) ,數(shù)據(jù)治理(數(shù)據(jù)清洗、轉(zhuǎn)換和整合) ,以及生產(chǎn)過程監(jiān)控、產(chǎn)品質(zhì)量追溯和預(yù)測性維護(hù)等應(yīng)用。
4 結(jié)論展望
本文針對離散制造行業(yè)數(shù)據(jù)孤島和數(shù)據(jù)質(zhì)量參差不齊等問題,基于數(shù)據(jù)湖技術(shù),提出了一種基于數(shù)據(jù)湖架構(gòu)的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用架構(gòu)方案,并介紹了其關(guān)鍵環(huán)節(jié)、建設(shè)流程及應(yīng)用案例分析。未來,人們將持續(xù)優(yōu)化平臺,拓展應(yīng)用場景,提升數(shù)據(jù)存儲和管理效率,增強數(shù)據(jù)質(zhì)量和分析能力,促進(jìn)平臺與業(yè)務(wù)深度融合,并積極推動產(chǎn)學(xué)研合作,更好地服務(wù)于離散制造行業(yè)的數(shù)字化轉(zhuǎn)型。
參考文獻(xiàn):
[1] 宋純賀,曾鵬,于海斌.工業(yè)互聯(lián)網(wǎng)智能制造邊緣計算:現(xiàn)狀與挑戰(zhàn)[J].中興通訊技術(shù),2019,25(3):50-57.
[2] 何文韜,邵誠.工業(yè)大數(shù)據(jù)分析技術(shù)的發(fā)展及其面臨的挑戰(zhàn)[J].信息與控制,2018,47(4):398-410.
[3] 陳氫,張治.融合多源異構(gòu)數(shù)據(jù)治理的數(shù)據(jù)湖架構(gòu)研究[J].情報雜志,2022,41(5):139-145.
[4] 繆佳輝,包先雨,黃孫杰,等.海關(guān)數(shù)據(jù)湖的構(gòu)建與應(yīng)用[J].武漢工程大學(xué)學(xué)報,2022,44(5):572-577.
[5] 陳永南,許桂明,張新建.一種基于數(shù)據(jù)湖的大數(shù)據(jù)處理機制研究[J].計算機與數(shù)字工程,2019,47(10):2540-2545.
【通聯(lián)編輯:梁書】