【摘要】數據作為核心資產已達成共識,在大量工程設計驗證環節中存在實驗數據來源多、格式差異大等多源異構的特點,同時這類多源異構的實驗驗證數據在數據應用方面也有越來越迫切的現實需求,為解決多源異構數據的實時采集和再利用問題,本文設計了面向多源異構實驗數據的邊緣數據系統架構,并通過建設對系統支持專業實驗類型、業務類型、設備協議、分析需求和數據再利用情況進行驗證實際,驗證面向多源異構實驗數據的邊緣數據系統具有高可行性、與業務之間具有高適應性的特點,最后根據實際情況對面向多源異構數據的邊緣數據系統架構發展進行展望。
【關鍵詞】多源異構|數據采集|數據分析|邊緣數據系統|數據架構設計
一、現狀與需求分析
(一)現狀
實驗數據分為實驗過程數據和實驗結果數據兩個部分,規模龐大的實驗過程數據是優化設計方案、迭代實驗進程的重要參考,需要對其進行高效率、高質量的采集和分析,有利于設計參數優化、測控系統改進以及異常預警等領域工作開展[1-2]。當前,工程實驗中的大部分數據采集需要通過跨域傳輸的方式將生產試驗環境中工控設備產生的實驗數據遷移到業務網域服務器進行分析處理[3]。實驗任務的設備來自不同的廠家,采用不同的采集標準和存儲方式,原始數據直接傳輸到業務網域服務器難度大,并且未經標準化導致實驗數據難以直接應用。同時,海量數據直接上傳云端會給網絡造成巨大的沖擊,造成網絡資源和存儲資源的浪費[4]。基于此,在工控網域建立邊緣數據系統可以是對集中的業務網絡數據中心的有效補充,也是工業發展的必然趨勢[5]。對比大型傳統數據中心,邊緣數據中心的優勢是數據實時性強、網絡波動少,且分散、數量較多,但功能較少、與業務強綁定[6]。
(二)面向多源異構實驗數據的邊緣數據系統的特點
面向多源異構實驗數據的邊緣數據系統在系統工程中具有專業領域多、涉及多種數據源、格式差異大的特點,并且在規范化實驗數據采集、實驗數據存儲和實驗數據分析應用方面都有“短、平、快”的實時變化的需求[7],這類邊緣數據系統主要具備以下四個特點:
1.業務多樣性:工程實驗涉及產品研發的多個業務階段,從產品原型開發、產品驗證、小規模生產到成品運行維護等多個方面都有相關的數據產生[8]。
2.專業多樣性:實驗數據對應的專業領域包括熱工、流體、水力、物理、儀控、水化學等[9],需要采集與溫度、壓力、液位、電壓、流速等多個專業相關的實驗數據。
3.設備多樣性:實驗裝置包括本體、管道、閥門、容器、交換器、裝配體等系統部件組成,不同廠家、不同類別的傳感器需要不同的協議去采集和解析,而主流的工業設備對應的協議達到150種以上,多樣化的設備使得數采難度加大。
4.分析多樣性:針對不同的試驗任務,試驗數據的處理方式差異很大。在穩態實驗中,重點關注設備的長期狀態,主要采集時序數據為主,并需要及時壓縮處理源數據;而在原型開發中,涉及設計與驗證的快速迭代,為提高效率,會引入仿真系統進行伴隨計算與驗證,涉及較多仿真分析與結果比對。
二、面向多源異構實驗數據的邊緣數據系統設計思路
為解決實驗數據格式復雜、來源廣泛、跨域傳輸難、存儲量大、分析復雜的問題,本文提出一種模塊化的邊緣數據系統方案,解決多源異構數據的實時采集和再利用問題,協助數據中心增強數據治理能力。此系統在設計原則上遵循模塊化思路,模塊化設計使得龐大的信息系統各個子系統之間解耦,增強系統的可行性和迭代能力,便于開發和維護,標準化的方案可以應用到類似的場景下,將數據進行標準化處理,增強對數據的儲存分析能力。
三、系統設計與關鍵技術
(一)系統架構
面向多源異構實驗數據的邊緣數據系統的設計是模塊化的,數據通過離線采集、批量采集、實時采集等方式集合到數據集成平臺,包括工程數據、各類傳感器數據、現場監控視頻等運行情況數據,這些結構化和非結構化的數據通過規范化的處理后存儲到邊緣數據系統中,同時邊緣數據系統還為數據提供了數據目錄、數據質量、數據權限及全生命周期管理等一系列服務,如圖1所示。
邊緣數據系統所接收的數據包括高算中心數據、工況數據、實驗數據等,具有業務多樣性的特征,針對這個問題,本系統采用標準化采集的方式減小不同類型的數據在采集傳輸存儲的過程中造成的存儲困難,不同類型格式的數據通過不同的采集工具采集到系統內后,其元數據與主數據以提前設計好的方式進行清洗存儲,將結構化和非結構化的內容分開存放到系統中。同時,采集這些多源數據的專業軟件也產自不同的廠家,針對這些產品不同的存儲格式和傳輸協議,本系統在采集過程中對其進行整合統一,提高存儲效率。
(二)面向多源異構的數據采集規范化技術
數據采集規范化是數據存儲和處理的重要基礎,旨在將數據的格式、內容、數值等轉化為統一形式,通過數據容的一致性和完整性保證數據的復用和分析,本文所提出的系統數據采集規范過程主要包括三個部分。
1.數據格式規范化
采集到的實驗數據通常以文件的形式存儲在計算機中,不同的文件格式具有不同的解析規則,并具有對應的解析軟件,且部分格式非常封閉,只能使用特定的軟件才能打開。因此有必要統一實驗數據文件格式,本系統將所有文件格式統一整形為一種格式。
2.數據內容規范化
實驗數據信息由數據數值信息(例如采集參數的時序數值),以及數據背景信息(實驗背景、數采信息、測點信息等)兩部分構成,且都可以抽象為“參數名-參數值”的形式。
數據內容標準化即對參數名進行標準化,首先需要確保數據信息中包含了必要參數信息,以確保數據信息完整性;在此基礎上,需要確保參數名為標準參數名,這樣可以在數據分析時自動匹配參數名,降低因參數名對齊帶來的額外時間開銷。一類試驗需要包含某些必要的屬性,比如,閥門性能試驗,需要包含熱工參數(溫度、流量、壓力)、電氣參數(電流、電壓、功率、表面溫度、振動參數、絕緣電阻)、動作次數、開閥時間、氣動參數等。
針對數據格式多樣化的問題,本系統結合詞向量技術和元數據技術來實現不同格式數據內容的高效解析歸類。詞向量將每個詞表示為一個N維空間中的點,將語言處理轉化為向量計算,元數據描述數據的參數和屬性,將兩者結合可以提高數據理解效率。
3.數據數值規范化
數值標準化是將參數值轉換為統一尺度,以消除不同特征之間的量綱差異,使得數據能在同一尺度上進行比較和分析,是提高數據質量和易用性的重要方法。本系統采用的數值標準化方法包括z-score標準化,Min-Max標準化,均值方差歸一化等。
(三)面向多專業耦合分析需求的數據服務技術
本系統面向多源異構實驗數據的存儲和復用進行設計,系統應當具備多專業耦合分析能力。多專業耦合分析的需求重點體現在對各專業數據的存儲能力和數據應用能力上。
在實驗數據存儲方面,系統設計了面向二維、三維設計數據、仿真數據存儲能力,同時設計了面向數據流的實時數據的存儲能力,也設計了面向表結構的數據庫存儲能力,此三類數據存儲能力可覆蓋各專業的結構化數據。
在實驗數據應用方面,重點體現為數據檢索提供數據服務和基于數據服務的數據應用服務。數據檢索采用ELK技術棧,提供近實時的速度存儲、搜索和分析引擎,加快了實驗數據的檢索速度。數據分析包括離線分析引擎和實時分析引擎兩部分,針對時間敏感與否兩種場景提供服務。
四、實現與驗證
以核工程實驗為具體場景,本文所提出的面向多源異構實驗數據的邊緣數據系統已完成建設,實現了實驗數據在邊緣端的存儲,實現了數據標準化采集與存儲、數據文件導航、實驗裝置在線管理以及數據在線分析處理等能力,有效提高了數據存儲和復用的能力。
(一)系統實現
本系統通過增加對實驗數據的規范采集和清洗,存儲系統可以按照類別對多種專業的數據進行存儲和分析,對于后續實驗過程會新增的專業也具備擴展能力,解決了專業種類繁雜的問題。同時,系統可以為多專業的實驗數據管理提供全生命周期的服務,從產品原型開發、產品驗證、小規模生產到成品運行維護等多個方面持續為實驗數據管理提供支持,解決了原存儲系統只能為數據提供單一存儲服務,無法在科研生產過程中對數據進行全生命周期管理的問題。由于傳感器品類多,本系統通過協議解析模塊能夠兼容當前流行的設備協議,有效解決了設備多樣性問題。原存儲系統只能以原數據格式存儲實驗數據,本系統對實驗數據進行清洗整理,
以統一的標準對數據進行存儲,并且可以提供數據檢索和分析模塊對數據進行處理,能夠滿足實時分析處理等多種分析需求,解決分析需求多樣性的問題,原存儲系統與面向多源異構實驗數據的邊緣數據系統對比如表1。
由表1可知,與系統設計前對比,系統支持的工科專業接近95%,系統工程過程擴張150%達到全過程,設備兼容協議增加573%,面向多源異構實驗數據的邊緣數據系統具有極大的普適性,可支持大多數類型的專業,同時兼容前流行的設備協議,具備面向系統工程的全過程進行數據管理與數據分析的能力。
(二)數據分析與再利用
在數據的分析算法方面,面向多源異構實驗數據的邊緣數據系統為數據提供了快速驗證和分析能力,智能分析算法組件能夠從數據中臺提取數據,支持數據建模,提供各類算法庫,包含數據中臺中的算法開發組件,任務調度算法,邊緣計算,統計分析,圖像識別算法等智能分析算法,當前支持的部分機器學習算法,總計50余種,除此之外,還包括30余種時頻域分析組件和8種深度學習算法組件。實驗數據分析需求主要集中在實驗結果分析和伴隨計算,本系統通過高效的分布式存儲和邊緣端的數據分析能力為多樣化的數據分析需求奠定基礎。
此系統將人工數據分析活動建模流程化,搭建了一系列常見的數據分析流程,通常包括數據劃分、數據預處理、數據分類與回歸預測等模塊,當前已經投入使用的流程約20種,能滿足基本的異常檢測、實驗值預測等功能,流程平均復用頻率達7.3次/月,解決了對實驗數據有關的知識顯性化和復用的問題。
五、結語
面向多源異構實驗數據的邊緣數據系統的建設將部分數據處理工作轉移到邊緣端處理,減小了數據從工控網到業務網的資源開銷。數據采集存儲標準化將多源異構的數據通過不同的采集組件進行標準化,使得業務多樣性和專業多樣性帶來的問題得到改善。實驗設備分區存儲管理和設備協議兼容使得設備多樣性的問題得到改善,數據在線分析能力的建設解決了分析多樣性帶來的問題,邊緣系統的建設有效解決了當前實驗環境無法有效處理和分析多源異構海量數據的現實問題。未來,將繼續聚焦于數據分析知識的顯性化與相關知識的復用研究,為數據資產高效利用和研發能力提升提供堅實基座。中國軍轉民
參考文獻
[1]傅慧芳,黃海萍,程立.基于邊緣計算的環境在線監測系統數據采集與分析[J].電子技術與軟件工程,2020(22):190-192.
[2]唐麒麟.面向織造車間的數據采集與處理應用技術[D].浙江理工大學,2022.
[3]杜小勇,李彤,盧衛等.跨域數據管理[J].計算機科學,2024,51(01):4-12.
[4]郭亮.邊緣數據中心關鍵技術和發展趨勢[J].信息通信技術與政策,2019(12):55-58.
[5]李輝.工業邊緣數據采集器設計[D].大連理工大學,2021.
[6]吳美希,蘆帥.邊緣數據中心分級及總體要求分析[J].中國電信業,2021(S1):88-91.
[7]靳小龍,王元卓,程學旗.大數據的研究體系與現狀[J].信息通信技術,2013,7(06):35-43.
[8]陳洪軍,葉麗珠,陳其龍,等.產品全生命周期工業大數據采集與管理范式探究[J].機電工程技術,2024,53(03):72-77.
[9]曾聿赟,劉井泉,楊春振等.基于機器學習的小型核反應堆系統狀態預測方法[J].核動力工程,2018,39(1):117-121.
(作者單位:中國核動力研究設計院反應堆工程研究所)