馬孟
(鄭州機動車質量檢測認證技術研究中心有限公司,河南鄭州 451450)
隨著工業物聯網的不斷發展,大量高維、復雜、異構數據流不斷涌現,不能將其作為一個靜態數據,需要在有限存儲器中進行處理。在當前研究方案中,文獻[1]提出基于關聯規則的挖掘系統,利用HBase 數據庫存儲數據,通過系統挖掘提供的量化數據抽取和模糊聚類,實現數據流挖掘。文獻[2]提出基于改進K-means 算法的挖掘系統,采用鳶尾花數據集建立挖掘指標,刪除冗余關聯項集。結合改進K-means 算法,利用挖掘規則選擇初始迭代數據,再刪除冗余后的數據進行聚類。由于數據流敏感,使用上述兩種系統只得到了數據異質性特征。在復雜工業物聯網中,相關數據流挖掘無法在該網絡中找到準確挖掘特征。因此,提出了面向工業物聯網的敏感數據流動態挖掘系統設計。計算敏感數據間的距離,阻止敏感數據無休止漂移;構建敏感數據流特征響應函數,統計敏感數據變異參數,獲取敏感數據特征向量;聚類分析敏感數據流動態挖掘特征,獲取聚類中心;通過CAN-tree 子樹剪枝操作計算順序查詢子樹中與同名節點的支持度,以支持度閾值為判斷依據,完成敏感數據流的動態挖掘。
在工業物聯網背景下,挖掘工業物聯網中的數據流狀態,是當前信息化進程中亟待解決的重要問題[3]。針對此問題,構建了工業物聯網數據流動態挖掘框架,如圖1 所示。

圖1 工業物聯網挖掘框架
由圖1 可知,該框架由三個層次和一個發射站組成,其中,應用層通過分類方式將數據存儲總服務器導入相應的應用程序,實現動態管理[4-5];挖掘層采用工業物聯網敏感數據流挖掘技術和海量數據,將挖掘結果通過數據傳感器傳輸到總服務器中[6];傳輸層通過傳感器傳輸數據流數據,并將其存儲到處理器中;發射站負責向三個層次發射挖掘信號[7-8]。敏感數據間距離的計算公式為:
式中,di、dj分別表示第i、j個敏感數據。敏感數據中心所使用的是該研究地區內數據的平均值[9]。這是由于數據流限制敏感數據的流動,從而阻止敏感數據的持續漂移。
數據流挖掘引擎通過維護工業物聯網敏感數據流結構,響應用戶挖掘需求,有效提高了數據挖掘速度[10]。在敏感數據流中存在壓縮型結構和結果型結構,壓縮型結構以緊湊數據流的形式存儲在結果型結構中。在新的數據到達后,挖掘引擎會壓縮目前交易數據中有價值的信息[11];結果壓縮結構主要以壓縮形式存儲在數據壓縮結構中,當用戶挖掘請求傳輸到該結構時,需要直接從數據結構提取敏感數據流動態特征信息,獲取挖掘結果。
當一組數據流事務被送到的同時被傳送到數據流查詢處理器,然后處理器立即處理這些事務[12]。圖2 中顯示了數據流狀態的管理機制。

圖2 數據流動態管理機構
由圖2 可知,輸入的數據流通過優化器獲取查詢結果,經過緩存裝置輸出待挖掘的數據流。在該機構中一旦用戶提出查詢請求,處理器依據當前數據流結構執行挖掘操作。通過數據監控器實時監控敏感數據流挖掘進程,在數據更新環節,將數據事務集分為工作存儲、數據存儲和靜態存儲三個部分[13]。工作存儲為機構提供數據挖掘窗口,概要存儲用于保存窗口數據流概要信息,數據存儲用于保存臨時工作存儲中移除的數據流。該機構僅執行一個數據流交易集合的查詢和解析,通過對查詢最優信息和輸入監控程序的交互,使機構能在改善挖掘進度的情況下,對流入的數據進行優化[14]。最后,利用挖掘所得的數據,通過輸出高速緩存部件提供給用戶。
模糊遺傳算法可以考慮敏感數據流個體和組織的進化特性,提高挖掘效果。由于該方法能在求解過程中處理迭代隨機和非線性問題,具有解決更多復雜問題的能力[15]。基于此,提出了一種基于模糊遺傳算法的最大類間離散度迭代方法,量化工業物聯網基元結構之間的差異。
設工業物聯網兩個基元結構分別為f(A) 和f(B),兩者之間的差異計算公式為:
式中,a表示敏感數據向量;Pm表示m個概率值;xk表示k個元素構成的向量;n表示元素個數。統計敏感數據變異參數hk(t),求取敏感數據流特征響應函數,如式(3)所示:
式中,t為特征值參數,sk(t)表示敏感數據流特征響應值;R(t)表示工業物聯網數據庫信道響應函數。
基于此,挖掘的敏感數據特征向量為:
式中,Pn(t) 表示n個概率值;εmn表示特征系數;λn表示敏感特征系數。將該特征作為挖掘基礎,依次聚類分配數據,并將待分配特征點依次聚類到中心處,可表示為:
通過對敏感數據流動態挖掘特征的聚類分析獲取聚類中心。
CAN-tree 樹的維護過程是修剪一個動態生長的CAN-tree 樹,在固定的循環周期,項表中所有項目按照遞減次序進行[16]。在順序掃描過程中,獲取第一項后,以項目表中的指針為基礎,依次查找與項目名稱相同子樹中的支持度,其計算公式如下:
式中,supes_count(t)表示支持度計數;|W|表示數據庫中事務個數。如果當前項在子樹中存在大于支持度閾值Tmin的節點,則認為該節點是頻繁項集,結束對該節點的判斷;如果當前項在子樹中存在小于支持度閾值Tmin的節點,且當前用戶定義置信度為η,則當前判斷項在子樹中所有支持度不小于ηTmin的節點,可視為候選項目,保留子樹中所有與該項同名的節點,刪除其子樹。如果遍歷子樹,未找到不小于ηTmin列的節點,移除子樹中所有相同名稱的節點及其子樹,并且移除項目標題表格中的項目。由此完成項目集的判定,并依次尋找下一個項目,繼續執行直至遍歷全部項目。利用上述方法,可以有效地優化CAN-tree 樹結構,使其更加緊湊,從而更好地適應當前動態挖掘環境。
為了驗證面向工業物聯網的敏感數據流動態挖掘系統設計的合理性,進行實驗驗證分析。
實驗采用IBM 工控網絡機,數據采集器結構如圖3 所示。

圖3 數據采集器結構
由圖3 可知,該結構由表示層、邏輯層和數據層三個層次組成,表示層是交互終端,可交互信息;邏輯層利用檢索關鍵詞調用數據庫數據;數據層利用數據庫連接技術實現對數據高效采集。
由于工業物聯網所帶來的數據是海量的、高維的,所以隨機選取了三個高維數據集進行實驗驗證,并對所設計的系統進行測試。為使數據集能模擬真實環境,將數據集作為一個時間窗口進行仿真,如圖4 所示。

圖4 數據集時間窗口
由圖4可知,該數據集由三類數據集組成,包括:
1)KDDCUP99:該數據集是50 維的高維數據集,包含4 692 341個數據,是工業物聯網記錄的數據集。
2)Bag of words:該數據集是1 維的高維數據集,包含6 500 000 個數據,從文字中收集。
3)EPM:該數據集是10 維的高維數據集,包含250 219 個數據,從文字中收集。
對于上述三種數據集,在數據挖掘系統測試前,分別使用文獻[1]、文獻[2]、所設計系統作對比,分析數據集的聚類程度,對比結果如圖5 所示。

圖5 數據集聚類程度分析
由圖5 可知,使用文獻[1]、文獻[2]數據集聚類程度與理想效果相差較大,大部分數據分散程度較大。而使用所設計系統數據集聚類程度與理想效果基本一致,說明使用該系統聚類效果較好。
在確定聚類程度情況下,對比三種系統數據集挖掘情況,如圖6 所示。

圖6 三種系統數據集挖掘對比分析
由圖6 可知,使用所設計系統挖掘數據量與實際數值基本一致,只在挖掘次數為4時,兩者相差4 bit的數據量。在挖掘次數為14 次時,使用文獻[1]、文獻[2]與實際數值分別存在30 bit 和34 bit 的最大誤差。由此可知,使用所設計系統挖掘效果較好。
工業物聯網帶來的工業數據流具有極大的規模、維度和無序性。針對這一問題,設計了面向工業物聯網的敏感數據流動態挖掘系統。通過實驗驗證,所設計系統聚類效果與理想效果較為接近;當挖掘次數為14 次時,所設計系統挖掘的數據量為65 bit,與實際挖掘數據量十分接近。由此證明了該系統設計的合理性。目前,工業物聯網技術快速發展,數據結構越來越復雜,規模也日益增大,在今后工作中,它將會在大規模稀疏數據集合中得到更好的應用。