面向工業物聯網的敏感數據流動態挖掘系統設計

2024-03-25 06:34:06馬孟

電子設計工程 2024年6期

馬孟

（鄭州機動車質量檢測認證技術研究中心有限公司，河南鄭州 451450）

隨著工業物聯網的不斷發展，大量高維、復雜、異構數據流不斷涌現，不能將其作為一個靜態數據，需要在有限存儲器中進行處理。在當前研究方案中，文獻[1]提出基于關聯規則的挖掘系統，利用HBase 數據庫存儲數據，通過系統挖掘提供的量化數據抽取和模糊聚類，實現數據流挖掘。文獻[2]提出基于改進K-means 算法的挖掘系統，采用鳶尾花數據集建立挖掘指標，刪除冗余關聯項集。結合改進K-means 算法，利用挖掘規則選擇初始迭代數據，再刪除冗余后的數據進行聚類。由于數據流敏感，使用上述兩種系統只得到了數據異質性特征。在復雜工業物聯網中，相關數據流挖掘無法在該網絡中找到準確挖掘特征。因此，提出了面向工業物聯網的敏感數據流動態挖掘系統設計。計算敏感數據間的距離，阻止敏感數據無休止漂移；構建敏感數據流特征響應函數，統計敏感數據變異參數，獲取敏感數據特征向量；聚類分析敏感數據流動態挖掘特征，獲取聚類中心；通過CAN-tree 子樹剪枝操作計算順序查詢子樹中與同名節點的支持度，以支持度閾值為判斷依據，完成敏感數據流的動態挖掘。

1 工業物聯網挖掘框架

在工業物聯網背景下，挖掘工業物聯網中的數據流狀態，是當前信息化進程中亟待解決的重要問題[3]。針對此問題，構建了工業物聯網數據流動態挖掘框架，如圖1 所示。

圖1 工業物聯網挖掘框架

由圖1 可知，該框架由三個層次和一個發射站組成，其中，應用層通過分類方式將數據存儲總服務器導入相應的應用程序，實現動態管理[4-5]；挖掘層采用工業物聯網敏感數據流挖掘技術和海量數據，將挖掘結果通過數據傳感器傳輸到總服務器中[6]；傳輸層通過傳感器傳輸數據流數據，并將其存儲到處理器中；發射站負責向三個層次發射挖掘信號[7-8]。敏感數據間距離的計算公式為：

式中，di、dj分別表示第i、j個敏感數據。敏感數據中心所使用的是該研究地區內數據的平均值[9]。這是由于數據流限制敏感數據的流動，從而阻止敏感數據的持續漂移。

2 系統硬件結構設計

2.1 數據流動態挖掘引擎

數據流挖掘引擎通過維護工業物聯網敏感數據流結構，響應用戶挖掘需求，有效提高了數據挖掘速度[10]。在敏感數據流中存在壓縮型結構和結果型結構，壓縮型結構以緊湊數據流的形式存儲在結果型結構中。在新的數據到達后，挖掘引擎會壓縮目前交易數據中有價值的信息[11]；結果壓縮結構主要以壓縮形式存儲在數據壓縮結構中，當用戶挖掘請求傳輸到該結構時，需要直接從數據結構提取敏感數據流動態特征信息，獲取挖掘結果。

2.2 數據流動態管理機構

當一組數據流事務被送到的同時被傳送到數據流查詢處理器，然后處理器立即處理這些事務[12]。圖2 中顯示了數據流狀態的管理機制。

圖2 數據流動態管理機構

由圖2 可知，輸入的數據流通過優化器獲取查詢結果，經過緩存裝置輸出待挖掘的數據流。在該機構中一旦用戶提出查詢請求，處理器依據當前數據流結構執行挖掘操作。通過數據監控器實時監控敏感數據流挖掘進程，在數據更新環節，將數據事務集分為工作存儲、數據存儲和靜態存儲三個部分[13]。工作存儲為機構提供數據挖掘窗口，概要存儲用于保存窗口數據流概要信息，數據存儲用于保存臨時工作存儲中移除的數據流。該機構僅執行一個數據流交易集合的查詢和解析，通過對查詢最優信息和輸入監控程序的交互，使機構能在改善挖掘進度的情況下，對流入的數據進行優化[14]。最后，利用挖掘所得的數據，通過輸出高速緩存部件提供給用戶。

3 動態挖掘技術研究

3.1 敏感數據流特征響應函數構建

模糊遺傳算法可以考慮敏感數據流個體和組織的進化特性，提高挖掘效果。由于該方法能在求解過程中處理迭代隨機和非線性問題，具有解決更多復雜問題的能力[15]。基于此，提出了一種基于模糊遺傳算法的最大類間離散度迭代方法，量化工業物聯網基元結構之間的差異。

設工業物聯網兩個基元結構分別為f(A) 和f(B)，兩者之間的差異計算公式為：

式中，a表示敏感數據向量；Pm表示m個概率值；xk表示k個元素構成的向量；n表示元素個數。統計敏感數據變異參數hk(t)，求取敏感數據流特征響應函數，如式（3）所示：

式中，t為特征值參數，sk(t)表示敏感數據流特征響應值；R(t)表示工業物聯網數據庫信道響應函數。

3.2 敏感數據聚類分配

基于此，挖掘的敏感數據特征向量為：

式中，Pn(t) 表示n個概率值；εmn表示特征系數；λn表示敏感特征系數。將該特征作為挖掘基礎，依次聚類分配數據，并將待分配特征點依次聚類到中心處，可表示為：

通過對敏感數據流動態挖掘特征的聚類分析獲取聚類中心。

3.3 基于CAN-tree的動態挖掘

CAN-tree 樹的維護過程是修剪一個動態生長的CAN-tree 樹，在固定的循環周期，項表中所有項目按照遞減次序進行[16]。在順序掃描過程中，獲取第一項后，以項目表中的指針為基礎，依次查找與項目名稱相同子樹中的支持度，其計算公式如下：

式中，supes_count(t)表示支持度計數；|W|表示數據庫中事務個數。如果當前項在子樹中存在大于支持度閾值Tmin的節點，則認為該節點是頻繁項集，結束對該節點的判斷；如果當前項在子樹中存在小于支持度閾值Tmin的節點，且當前用戶定義置信度為η，則當前判斷項在子樹中所有支持度不小于ηTmin的節點，可視為候選項目，保留子樹中所有與該項同名的節點，刪除其子樹。如果遍歷子樹，未找到不小于ηTmin列的節點，移除子樹中所有相同名稱的節點及其子樹，并且移除項目標題表格中的項目。由此完成項目集的判定，并依次尋找下一個項目，繼續執行直至遍歷全部項目。利用上述方法，可以有效地優化CAN-tree 樹結構，使其更加緊湊，從而更好地適應當前動態挖掘環境。

4 實驗

為了驗證面向工業物聯網的敏感數據流動態挖掘系統設計的合理性，進行實驗驗證分析。

4.1 數據采集器

實驗采用IBM 工控網絡機，數據采集器結構如圖3 所示。

圖3 數據采集器結構

由圖3 可知，該結構由表示層、邏輯層和數據層三個層次組成，表示層是交互終端，可交互信息；邏輯層利用檢索關鍵詞調用數據庫數據；數據層利用數據庫連接技術實現對數據高效采集。

4.2 實驗數據分析

由于工業物聯網所帶來的數據是海量的、高維的，所以隨機選取了三個高維數據集進行實驗驗證，并對所設計的系統進行測試。為使數據集能模擬真實環境，將數據集作為一個時間窗口進行仿真，如圖4 所示。

圖4 數據集時間窗口

由圖4可知，該數據集由三類數據集組成，包括：

1）KDDCUP99：該數據集是50 維的高維數據集，包含4 692 341個數據，是工業物聯網記錄的數據集。

2）Bag of words：該數據集是1 維的高維數據集，包含6 500 000 個數據，從文字中收集。

3）EPM：該數據集是10 維的高維數據集，包含250 219 個數據，從文字中收集。

4.3 實驗結果與分析

對于上述三種數據集，在數據挖掘系統測試前，分別使用文獻[1]、文獻[2]、所設計系統作對比，分析數據集的聚類程度，對比結果如圖5 所示。

圖5 數據集聚類程度分析

由圖5 可知，使用文獻[1]、文獻[2]數據集聚類程度與理想效果相差較大，大部分數據分散程度較大。而使用所設計系統數據集聚類程度與理想效果基本一致，說明使用該系統聚類效果較好。

在確定聚類程度情況下，對比三種系統數據集挖掘情況，如圖6 所示。

圖6 三種系統數據集挖掘對比分析

由圖6 可知，使用所設計系統挖掘數據量與實際數值基本一致，只在挖掘次數為4時，兩者相差4 bit的數據量。在挖掘次數為14 次時，使用文獻[1]、文獻[2]與實際數值分別存在30 bit 和34 bit 的最大誤差。由此可知，使用所設計系統挖掘效果較好。

5 結束語

工業物聯網帶來的工業數據流具有極大的規模、維度和無序性。針對這一問題，設計了面向工業物聯網的敏感數據流動態挖掘系統。通過實驗驗證，所設計系統聚類效果與理想效果較為接近；當挖掘次數為14 次時，所設計系統挖掘的數據量為65 bit，與實際挖掘數據量十分接近。由此證明了該系統設計的合理性。目前，工業物聯網技術快速發展，數據結構越來越復雜，規模也日益增大，在今后工作中，它將會在大規模稀疏數據集合中得到更好的應用。