鄭 琳
(衡水開放大學,河北 衡水 053000)
數據挖掘目標在于應用智能化技術在數據中提取有效信息[1]。 基于物聯網設備應用及發展,物聯網邊緣計算應用于數據挖掘可以降低數據挖掘與計算消耗,在數據挖掘智能化服務及科學決策等方面具有積極作用[1]。 據此,構建混合云端與邊緣端的深度神經網絡,并考慮分支神經網絡、數據挖掘任務分割與協同,形成基于物聯網邊緣計算的數據挖掘方法。 通過仿真優化,進一步完善了該網絡,提高了該網絡運行的可行性。
邊緣計算目標在于將計算能力從集中式的云計算服務器中轉移到用戶端邊緣節點[2]。 邊緣節點根據深度神經網絡模型執行推理,而深度神經網絡由不同結構網絡層組成。 綜合考慮數據挖掘的智能化,將物聯網邊緣計算網絡設計成為基于分布式計算的包括混合云端與邊緣端的深度神經網絡[3],具體如圖1 所示。

圖1 深度神經網絡架構設計
在數據挖掘實踐中,本研究設計網絡可以根據數據特征,在邊緣設備淺層部分對數據進行分類[4]。 若此部分的數據分類不精準,則可以通過云服務器深層部分對數據進行二次分類處理,以提高數據處理的精準性。 另外,本研究設計物聯網邊緣計算的深度神經網絡可以對原始數據傳輸進行加密處理,達到了保護數據安全的目的[5]。
深度神經網絡的早期階段分類可以對數據總體進行有效判斷,有利于減少數據挖掘時延[6]。 為進一步提高數據挖掘精度,本研究設計應用分支神經網絡,在每個分支出口點,應用分類結果的熵作為置信度度量[6]。 為驗證分支神經網絡有效性,對分支神經網絡進行訓練。
損失函數公式表示為:

式(1)(2)中,x表示一個輸入樣本;y表示輸入樣本標簽;y^表示輸入樣本預測輸出;S表示可能性樣本標簽集合;θ表示分支網絡層入口到推出的參數集合。
分支網絡模型方面,應用集中式學習部署執行相應策略。 由于集中式學習處理環境存在不穩定問題,需要通過損失函數計算進行優化。
損失函數公式表示為:

式中,ωn表示每個分支模型的權重;n表示退出點數量。
當測試樣本進入已訓練好模型測試時,將會通過網絡層計算,并輸出相應結果[7]。 這時,定義輸出樣本信息熵公式,表示為:

式中,entropy(y)表示輸出樣本信息熵。
若測試樣本x的輸出信息熵越小,則表明測試樣本分支的退出點的預測結果置信度越高。
物聯網邊緣計算網絡中,邊緣設備應用于數據的收集與處理[8]。 首先,在云服務器中進行深度學習網絡訓練;其次,根據深度學習網絡及相關任務的數據量訓練和計算,調整和優化物聯網的深度學習[9]。
本文設計的分層網絡架構中,卷積層與池化層的延遲較小,因此將卷積神經網絡分區執行,其余應用于數據計算和任務執行方面[10]。 為在數據挖掘中,找出自變量與因變量之間的隱含關系,筆者構建了線性回歸模型,公式表示為:

式中,w,b表示回歸系數;n表示數據集;xin表示自變量。
在預估深度神經網絡運行時間時,需要在層粒度上為每層延遲進行建模,以減少分析開銷[11]。 同時,數據挖掘任務分割與協同應重點考慮深度神經網絡的最佳劃分點,而最佳劃分點的確定取決于拓撲結構。 這一結構可以體現出系統每一層的數據計算時延與數據輸出變化。 據此,數據挖掘任務的系統總運行時間,表示為:

式中,ETi表示第i層在邊緣設備上的運行時間;CTi表示第i層在云服務器上的運行時間;Oi表示第i層的輸出大小;B表示特定網絡帶寬。
在數據挖掘任務分割與協同過程中,基于神經網絡模型的運行及邊緣智能體、云端智能體的協同策略,可以進一步對網絡進行劃分和部署,有效提高數據挖掘實效[11]。
應用微處理器、圖像采集模傳感器,對圖像數據進行采集[12]。 仿真實驗中,應用了Camera Module 驅動,為圖像信息采集提供了raspivid,raspistill 等命令操作。圖像數據采集代碼如下:


數據預處理質量直接影響了數據挖掘及應用的質量[13]。 為提高數據匹配性、可識別性與可靠性,需要對采集到的數據進行去均值處理和白化處理[13]。
去均值處理流程:輸入圖像——獲取圖像RGB 通道數據——計算通道數據的平均值——圖像RGB 通道數據減去對應通道的平均值。
白化處理方面,本文應用PCA 白化處理方法,其公式表示為:

式中,XM×N表示輸入圖像塊數數據的集合;C表示協方差矩陣,C=cov(XM×N);U表示分解數據后取得的向量。
白化處理流程:輸入圖像——計算圖像數據集合的協方差矩陣——對數據進行分解,取得U向量——旋轉計算U向量,得到旋轉矩陣——對旋轉矩陣進行PCA 白化處理——白化處理結果左乘U向量。
分類決策是經過模型訓練與驗證后,對挖掘出的數據進行優化的過程(見圖2)。

圖2 分類決策及訓練階段運行示意
本文設計的基于互聯網邊緣計算網絡從淺層分支輸出預測結果,同時在主干網絡輸出預測結果,在計算損失時,同時存在兩個損失數據。 為優化處理數據挖掘結果,應通過反向傳播算法計算,優化兩個不同層次輸出的數據信息[14]。 在此過程中,若分支輸出信息熵越小,則預測結果置信度越高。 需要在神經網絡層通過邊緣設備的部署應用,對數據進行分類處理和優化,最終實現數據分類決策功能。
基于物聯網邊緣計算的數據挖掘方法可以有效減緩網絡帶寬壓力,在提高數據挖掘效率及安全性等方面具有積極作用。 本文應用損失函數、分支網絡模型、線性回歸模型構建了物聯網邊緣計算下的數據挖掘方法,并融入去均值處理、白化處理,優化了該數據挖掘方法,提高了該方法實踐應用的適用性、可靠性與有效性。