(江蘇電力信息技術有限公司,江蘇南京市,210000)封 晶 孫澄宇 董 平 趙 南
物聯網技術的飛速發展,推動著大數據挖掘的變革,信息挖掘逐漸從整體化挖掘對象轉變為分布式、碎片化的挖掘模式。為實現物聯網中海量信息的有效利用,以及促進數據挖掘的集中化發展,提出了具有前瞻性的人工智能大數據挖掘算法,在智能化時代背景下對于我國工業經濟的發展和建設具有重要作用。
為滿足物聯網動態特性以及用戶信息獲取的準確度,需要構建數據模型用于無法物聯網中用戶的行為。首先,基于模型樹的特征,對物聯網中的用戶數據進行掃描,以保證數據的全面性。其次,根據物聯網網絡節點構建用戶數據集。最后,從數據集中提取數據量較大的節點,然后進行數據挖掘,針對其他數據節點主要采用排序方法進行處理[1]?;谏鲜鼍W絡節點選擇方法,可以獲取不同周期的節點數據模型樹。
構建數據模型樹雖然可以明確數據挖掘內容和范圍,但是無法保證模型關聯度的準確性以期獲取的挖掘結果。因此,需要采用數據特征提取算法分析大數據特征,并根據數據屬性,獲取數據價值維度。假設大數據挖掘集為D,數據集維度為d,則根據大數據屬性可以獲取大數據屬性集合W。
如果數據挖掘子空間為S,則數據屬性集合將包含子空間S,并且子空間S中的對象為0∈D?;跀祿x群特征,可以獲取子空間S中數據對象的鄰域(0,S),該鄰域為非均勻分布狀態。如果在子空間S中隨機提取一個對象,那么其離群概率則為Id(0,S)。從數據屬性方面來看,該集合中子空間中心位置即為數據對象0,由此得出子空間離群概率距離公式為:

式中:d為距離;Id(0,S)為離群概率。
由于物聯網大部分的數據都為不均勻分布,因此需要利用理算數據標準距離與密度的近似值表示離散數據特征:

基于離散特征λ可以獲取物聯網中離散數據分布情況。針對上述數據值的獲取,可以采用信息熵檢測方法,在待測數據集Y中,對數據y的分布特征進行分析,基于概率函數p可以獲得y數據信息熵E(y):

根據信息熵計算結果,可以對待測數據進行排序。并按照從大到小的排序方式,提取出多個信息熵較大的數據作為聚類中心對剩余數據進行檢測。數據聚類中心距離計算公式為:

式(4)中,a、b為隨機提取的聚類中心,并將其作為核心,對所有數據信息熵進行計算后獲得聚類閾值。如果聚類中心距離小于閾值時,則需要重新選擇聚類中心,并重復式(4)計算過程中,直至聚類距離計算結果大于閾值為止[2]。
在數據特征檢測過程中通常會產生噪聲數據或數據量綱差異較差,該情況會影響大數據挖掘質量和效率,因此為保證數據分析的準確性,需要采用標準化方法對檢測數據進行處理。
在數據標準化處理過程中,利用標準差對數據進行計算,可以進一步強化數據的特征,有利于保證大數據挖掘的質量。除了利用標準差對數據進行標準化處理外,還可以利用數據平均偏差Gα進行計算,計算公式為:

利用上述公式對特征數據進行標準化處理后,可以提高大數據挖掘算法抗干擾性。數據標準差Yα、數據平均偏差Gα、數據均值α計算公式為:

式中,m為迭代次數。在對數據進行標準化處理后,需要采用人工智能技術對大數據進行挖掘。
BP神經網絡(以下簡稱BP網)具有多層傳輸結構,并且其各層神經元數量可以隨意設定,因此將其作為大數據挖掘的主體結構,并將經過標準化處理的數據傳輸至BP網中[3]。由于BP網結構存在的一定的特殊性,因此需要計算數據信息熵,并求出其平均值E,然后將其作為物聯網各層的連接權值ω,其計算公式為:

式中:ω為連接權值;Hi為屬性熵值,E為信息熵平均值。
在獲取到BP網連接權值后,需要根據圖2分析流程,對物聯網中的數據進行挖掘。

圖1 BP網挖掘流程
從圖2可知,基于人工智能的物聯網大數據挖掘算法,融入了遺傳學習算法,并配置了以網絡結構和網絡分類能力為核心的大數據分類器。利用遺傳學習算法對大數據挖掘進行優化,然后輸出滿足大數據挖掘條件的數據[4]。
為驗證基于人工智能技術的大數據挖掘算法的性能,通過仿真實驗方法對算法應用效果進行檢驗。首先,選擇具有3500個二維特征的數據,并將其構成數據集。
數據被劃分為15類,并且每個數據聚類模糊系數均為1.7,傳遞點數量為2。為使數據向量維度值保持在0~1之間,需要去除每個維度中參數最小的值,并計算最大值與計算結構之間的商值。該計算過程主要是對數據進行正則化處理。在本次仿真實驗中,共設置四個數據集,數據集大小為10%、20%、25%、50%。
在本次仿真實驗中主要采用RI和F-measure作為判斷人工智能大數據挖掘算法的重要指標,Fmeasure是一種常用的大數據挖掘性能評價指標,其計算公式為:

式中:F為計算結果;R為召回率;P為精度。
計算結果的準確性通常取決于精度和召回率。其中精度具體是指大數據挖掘過程中精準參數所占據的比例;召回率具體是指具有特定類特性的數據數量。I、j量類數據的召回率與精度計算公式為:

大數據挖掘的質量也可以利用RI指標對其進行評價。首先,計算出數據集X聚類參數和實際聚類參數CT。其次,對無序數據點(xi,xj)進行定義,劃分出RI值的集合FP、TP、FN、TN。
RI計算公式為:

利用公式(11)對RI指標進行計算,可以獲取到取值范圍在0~1之間的參數,如果RI指標趨近于1,則實際計算結果與挖掘結果相似度越高,并且挖掘算法精度也越高;如果RI指標趨近于0,則實際計算結果與挖掘結果相似度較低,并且算法精度也較低。
本文基于人工智能技術,通過特征數據提取、特征數據檢測、特征數據標準化處理等方式,在獲取和處理挖掘數據信息熵后,融入遺傳學習算法對信息熵平均值進行計算,該算法能夠進一步提高物聯網中大數據挖掘的質量和效率。BP網和遺傳學算法的融入,不僅提高了大數據對數據集的處理能力,而且也解決了大數據挖掘過程中信息傳遞錯誤的情況。通常仿真實驗,驗證了基于人工智能技術的大數據挖掘算法在RI結果和F-measure結果確實有所改進,同時也證明了人工智能技術在大數據挖掘中的應用,有利于促進大數據挖掘的持續發展。