




摘"要:針對大數據維度高、數據量龐大的特點,實際應用中大數據全鏈路追溯算法常面臨性能不佳的挑戰。為此,提出了一種結合自檢機器人與關聯規則的優化算法。對采集的大數據實施數據歸約與降維操作,隨后分析其特征。通過計算特征的支持度、置信度及提升度,確立特征間的關聯規則。計算節點綜合度量值,識別關鍵節點,初步勾勒大數據全鏈路追溯路徑。引入自檢機器人,實時監控追溯過程,并評估追溯路徑節點與實際節點的匹配度。若匹配度不足,及時修正,確保最終追溯路徑的準確性。實驗結果顯示,該算法在實際應用中表現出優越的追溯性能。
關鍵詞:自檢機器人;關聯規則;大數據;全鏈路;數據追溯;追溯算法;算法設計
中圖分類號:TP309.2""""""文獻標識碼:A
A"Big"Data"Full"Link"Traceability"Algorithm"Using"
Self"Checking"Robots"and"Association"Rules
LI"Mingxia1,WANG"Hesen2,ZHAO"Xin2,LIU"Jiayin2
(1.Xinjiang"Electric"Power"Research"Institute"State"Grid,"Urumqi,"Xinjiang"830000,China;
2.Marketing"Service"Center,"State"Grid"Xinjiang"Electric"Power"Co.,"Ltd.,Urumqi,"Xinjiang"830000,China)
Abstract:Due"to"the"high"dimensionality"and"large"amount"of"data"in"big"data,"the"full"chain"traceability"algorithm"of"big"data"often"faces"the"challenge"of"poor"performance"in"practical"applications."Therefore,"this"article"proposes"an"optimization"algorithm"that"combines"self"checking"robots"with"association"rules."Implement"data"reduction"and"dimensionality"reduction"operations"on"the"collected"big"data,"and"then"analyze"its"characteristics."By"calculating"the"support,"confidence,"and"enhancement"of"features,"establish"association"rules"between"features."Calculate"the"comprehensive"measurement"value"of"nodes,"identify"key"nodes,"and"preliminarily"outline"the"traceability"path"of"the"entire"big"data"chain."Introduce"self"checking""robots"to"monitor"the"traceability"process"in"real"time"and"evaluate"the"matching"degree"between"the"traceability"path"node"and"the"actual"node."If"the"matching"degree"is"insufficient,"make"timely"corrections"to"ensure"the"accuracy"of"the"final"traceability"path."The"experimental"results"show"that"the"algorithm"exhibits"superior"traceability"performance"in"practical"applications.
Key"words:self"checking"robot;"association"rules;"big"data;"full"link;"data"traceability;"traceability"algorithm;"algorithm"design
在眾多行業中,從金融交易、醫療健康到物流運輸,大數據的應用已經無處不在,深刻地改變了人們的生活方式和企業的運營模式。然而,隨著數據量的激增,如何高效、準確地管理和利用這些數據,成為了一個亟待解決的問題。特別是在數據的安全性和可追溯性方面,更是受到了廣泛的關注[1]。然而,由于數據量過于龐大,現有的溯源方法僅能對單一數據源進行追溯,且數據追溯效率不高、準確性較低,難以滿足數據溯源的實時需求。
因此,不少研究學者針對這一問題展開了研究,并對自己的觀點進行了闡述。文獻[2]先對電網多源時空數據進行建模,明確數據的來源、類型等關鍵信息,設計有限狀態機模型,明確狀態轉移的條件和路徑,利用區塊鏈技術,構建電源多源時空數據的追溯系統,根據數據的哈希值定位數據位置,由此得到數據的轉移路徑,從而完成對數據的追溯。該方法應用的區塊鏈技術具有不可篡改性和去中心化的特點,其數據存儲和查詢效率較低,無法滿足數據的實時追溯需求。文獻[3]收集新能源汽車在運行過程中的故障數據,并對其進行標準化處理,再從中提取出能夠表征故障特征的參數和指標,并對故障進行分析,識別出不同的故障類型,在機器學習的作用下,建立故障類型與運行性能參數之間的映射關系,實現對故障類型的自動追溯。該方法需要處理大量的故障數據,會消耗大量的計算資源,方法的追溯時間較長。文獻[4]先收集與特定數據源相關的所有信息,并對數據項進行標記,設計一個分布式區塊鏈網絡,并對不同的區塊進行定義,且計算區塊的哈希值,定義數據溯源的邏輯和規則,將收集到的數據存儲到區塊鏈,利用哈希值及數據驗證機制對數據進行溯源。該方法在數據溯源的過程中,很容易出現數據泄露的情況,從而影響到溯源結果的準確性。文獻[5]先對工業物聯網的數據進行詳細建模,精確數據的屬性和結構,設計一個分布式區塊鏈網絡,對數據進行存儲和分析,識別數據的內在規律和特征,利用智能合約,對數據進行查詢,并設計數據驗證機制,確保數據的安全性,并輸出相應的溯源結果。該方法應用的區塊鏈技術在實際應用中吞吐量較低,若需要進行處理的數據量過于龐大,區塊鏈將會無法滿足其實時處理的需求,導致數據溯源效率低下。
在以往研究的基礎上,應用自檢機器人與關聯規則的大數據全鏈路追溯算法。本研究深入探討大數據追溯的算法原理和實現方法,為相關領域的研究提供新的思路和方法。
1"大數據全鏈路追溯算法設計
1.1"大數據全鏈路特征分析
在對大數據進行全鏈路溯源時,需要先從各個數據源獲取大量的數據,并對獲取的數據進行優化處理。在優化處理時,先對其進行異常值識別,這個過程中需要設定數據屬性值范圍,若出現數據屬性值不在該范圍內,則說明當前數據為異常數據,需要直接剔除[6]。
在數據優化處理時,還需要對其進行數據歸約和降維處理[7]。其具體處理過程如下所示:
x′i=xi-kakb
yi=x′i×Ck|x′i|×pc(1)
式中,x′i表示數據歸約的結果,xi表示原始的數據,ka表示原始數據的均值,kb表示原始數據的標準差,yi表示數據降維處理的結果,Ck表示數據協方差矩陣,pc表示數據的時間序列值。
將數據進行優化處理后,對大數據進行特征分析[8]。其具體分析過程如下所示:
Kix=A(xi)‖B(xi)‖C(xi)‖D(xi)‖E(xi)
Kjx=K1x+K2x+…+KNxN×δx×|yi|(2)
式中,Kix表示數據xi的自身中心特征,Axi表示數據的度中心性,Bxi表示數據的介數中心性,Cxi表示數據的接近中心性,Dxi表示數據的復合中心性,Exi表示數據的特征向量中心性,Kjx表示數據xi鄰近數據xj的特征,N表示數據xi的數量,δx表示數據的狀態量。
1.2"應用關聯規則的大數據全鏈路追溯節點確定
利用關聯規則,識別出大數據全鏈路追溯的關鍵節點,由此確定大數據全鏈路追溯路徑[9]。基于數據特征,先建立數據之間的關聯規則[10]。在建立關聯規則時,需要計算數據特征間的支持度、置信度和提升度[11]。其具體計算過程如下所示:
S(Kix→Kjx)=P(Kix∪Kjx)Pt
C(Kix→Kjx)=P(Kix∪Kjx)P(Kix)
L(Kix→Kjx)=P(Kix∪Kjx)P(Kix)P(Kjx)(3)
式中,S(Kix→Kjx)表示數據特征的支持度,P(Kix∪Kjx)表示特征Kix和特征Kjx同時出現的概率,Pt"表示所有數據特征出現的概率,C(Kix→Kjx)表示數據特征的置信度,P(Kix)表示特征Kix出現的概率,L(Kix→Kjx)表示數據特征的提升度,P(Kjx)表示特征Kjx出現的概率。
在建立數據關聯規則的過程中,基于支持度、置信度和提升度[12],若S(Kix→Kjx)高于所設閾值,則當前數據特征為頻繁特征,可以將其作為重要的關聯指標。從頻繁特征集中篩選出滿足置信度閾值和提升度閾值的特征,構建相應的關聯規則,逐一識別數據追溯過程中的關鍵節點。
計算節點的綜合度量值[13]:
Kp=αSS+αCC+αLLδpS+C+L"(4)
式中,Kp表示節點綜合度量值,αS、αC、αL分別表示節點數據特征支持度、置信度和提升度對應的權重占比,δp表示節點的關聯系數。
根據計算的Kp確定大數據全鏈路追溯關鍵節點,為后續的數據追溯路徑確定奠定基礎。
1.3"應用自檢機器人的大數據全鏈路追溯路徑
確定關鍵節點后,對關鍵節點進行擬合,再結合數據的變化趨勢和特征屬性,初步確定大數據全鏈路追溯路徑[14]:
Lz=κ[σ(xi)Wc+Bc]×Kp×Pc
Pc=ep∑cep
σ(xi)=mi⊙xmi⊙η[E(v)Wc+Bc](5)
式中,Lz表示大數據全鏈路追溯路徑,κ表示損失平衡系數,σxi表示分類函數,Wc表示權重矩陣,Bc表示誤差矩陣,Pc表示數據源判斷函數,c表示數據類別,p表示數據類型概率值,mi表示平衡因子,xmi表示節點維度值,η表示節點異質特征,E(v)表示路徑差異性值。
考慮到式(5)生成的追溯路徑可能會受到環境因素的影響,為提高追溯路徑的可靠性,應用自檢機器人,對大數據全鏈路追溯路徑進行實時修正,從而得到最終的追溯路徑。其數據追溯路徑確定的具體過程如圖1所示。
圖1"應用自檢機器人的大數據全鏈路
追溯路徑確定的具體過程
如圖1所示,利用自檢機器人,實時監測大數據的溯源過程,自檢機器人能夠不斷感知環境,并計算溯源路徑節點與實際路徑節點之間的匹配度,若匹配度不高,則需要對其進行修正處理,反之,則不需要修正[15]。在該過程中,利用自檢機器人計算追溯路徑節點與實際節點之間的匹配度,從而確定最終的追溯路徑。應用自檢機器人計算節點匹配度的具體過程如下所示:
Sd=∑ni=1LizRi∑ni=1(Liz)2∑ni=1(Ri)2(6)
式中,Sd表示追溯路徑節點與實際路徑節點之間的匹配度,Liz表示確定的追溯路徑的第i個節點,Ri表示實際路徑的第i個節點,Pk表示自檢機器人的參數。
若計算的匹配度低于設定的閾值,則需要對其進行修正。得到最終的追溯路徑如下所示:
L′z=Lz×βc×zk×lkfc×zm(7)
式中,L′z表示最終的數據追溯路徑,βc表示修正系數,zk表示追溯路徑的誤差值,lk表示追溯路
徑更新參數,fc表示追溯路徑當前狀態值,zm表示自檢機器人的調整參數。
利用公式,實現對大數據全鏈路的追溯,以便更好地實現對各種類型數據的定位。至此,應用自檢機器人和關聯規則的大數據全鏈路追溯算法的設計完成。
2"實驗
硬件環境如下:Intel"Xeon"W-2133處理器,主頻3.6"GHz,32"GB"DDR4"ECC內存,1"TB"NVMe"SSD硬盤,Cisco"Meraki"MR33路由器。
軟件環境如下:MATLAB"R2023a編程軟件,ROS機器人操作系統,Visual"Studio"Code文本編輯工具,PostgreSQL數據庫管理系統等。
應用的自檢機器人型號為ZRAutoInspect01,技術參數見表1。
設S(Kix→Kjx)閾值為0.05,C(Kix→Kjx)閾值為0.7,L(Kix→Kjx)閾值為0.5,迭代次數為100,平衡因子mi為0.88,損失平衡系數κ為0.45,修正系數βc為0.96,追溯路徑更新參數lk為4.88。
所用數據集為公開數據集,該數據集數據類型多樣,包含用戶行為數據、環境數據、機器人狀態數據等,數據總量達到了236954條。計算出多個節點的綜合度量值,如表2所示。
本文算法為算法1,基于有限狀態機的電網多源時空數據的區塊鏈追溯方法研究為算法2,新能源汽車運行故障數據分析與自動追溯模型研究為算法3。利用三種算法進行追溯,得到其追溯路徑,計算其追溯結果的AUC值,若AUC值越接近于1,則算法的追溯性能越好,如圖2所示。
如圖2所示,算法1的AUC值遠高于其余兩種算法,且更為接近1,說明其能夠準確地對數據變化趨勢進行判斷,追溯性能較好。算法2和算法3的AUC值數值較小,追溯性能較差。
以覆蓋率為評價指標,即算法追溯到信息占總信息的比例,驗證具體追溯結果,如表3所示。
如表3所示,算法1的覆蓋率遠高于其余兩種算法,說明其在追溯過程中,能夠準確識別路徑中的關鍵節點,保證節點信息的獲取,追溯性能較好。
3"結"論
本研究將自檢機器人的自動化檢測能力與關聯規則的深度挖掘相結合,對大數據全鏈路進行了精準追溯,不僅能夠快速定位數據流向,還能揭示數據之間的潛在關聯,為決策者提供有力支持。在數據安全領域,這一算法有助于及時發現潛在風險,確保數據的安全性和完整性;在業務管理領域,可以優化流程,提高運營效率。
參考文獻
[1]"張勇,王藝博,張進偉,等."基于區塊鏈的電網調控數據溯源技術研究[J]."電力信息與通信技術,"2023,"21"(11):"70-76.
[2]"谷志紅,趙進斌,王正,等."基于有限狀態機的電網多源時空數據的區塊鏈追溯方法研究[J]."電網與清潔能源,"2024,"40"(4):"9-17.
[3]"阮永嬌,陳昕,孫承臻,等."新能源汽車運行故障數據分析與自動追溯模型研究[J]."遼寧工業大學學報(自然科學版),"2022,"42"(5):"316-319."
[4]"楊葉芬,何擁軍."大數據視域下區塊鏈技術在數據溯源中的應用探究[J]."長江信息通信,"2024,"37"(3):"148-151.
[5]"李煥."基于區塊鏈的工業互聯網數據溯源技術實現[J]."自動化與儀器儀表,"2024,"42(1):"89-92+98.
[6]"常雨晴,賀婉朦,周璐瑤,等."基于智能合約和霧計算的醫療數據可追溯加密方案[J]."信息安全研究,"2024,"10"(6):"554-560.
[7]"張華,楊靈運,谷牧,等.nbsp;基于標識編碼的工業產品數據全程可信追溯研究"[J]."儀器儀表標準化與計量,"2024,"14(1):5-8.
[8]"王民濤,陳立釗."基于區間型數據離散化算法的電力應急物資供應質量可追溯模型研究[J]."機械設計與制造工程,"2024,"53"(2):"130-134.
[9]"田宏明."電加熱爐變電設備運行質量安全數據追溯方法設計[J]."工業加熱,"2023,"52"(11):"43-47.
[10]"胡牛平,景征駿,史培中,等."基于區塊鏈的ETO型企業生產過程溯源系統研究[J]."科技和產業,"2023,"23"(11):"120-128.
[11]"顧斌,鄒云峰,單超,等."基于數字水印的電力數據安全分發與溯源技術研究"[J]."信息技術,"2023,"35(11):"99-104.
[12]"吳敏,張明達,李盼盼,等."面向多源遙感影像數據的溯源模型研究[J]."地球信息科學學報,"2023,"25"(7):"1325-1335.
[13]"景一佳,童一飛,趙建波."基于區塊鏈的軍事物資質量信息溯源系統的設計與研究[J]."機械設計與制造工程,"2023,"52"(6):"113-118.
[14]"徐濱,翁年鳳,樊樹海,等."面向大規模定制的制造業領域數據溯源模型研究[J]."機床與液壓,"2023,"51"(8):"1-7.
[15]"王瑩,穆力,宋繼紅,等."基于區塊鏈技術的光伏扶貧資金精準溯源方法[J]."電力大數據,"2022,"25"(12):"69-76.