趙林燕,雷沁怡,洪德華,孫琦,劉翠玲
(國網安徽信通公司數據運營中心,安徽合肥 230000)
一個由初始向量指向目標向量的映射結果可以用關聯系數表示,因此可將多維關聯規則理解為由多個關聯系數組成的統一集合空間。在由多維關聯規則組成的集合空間中,每一個目標向量都對應一個節點,由于關聯法則的映射關系不會發生改變,故而目標向量越多,集合空間內包含的節點坐標也就越多[1-2]。對于互聯網數據參量而言,基于多維關聯規則的集合空間既負責存儲映射向量,也能夠將相似性向量指標區別開來,一方面使得互聯網主機能夠對數據進行準確編碼;另一方面也可以輔助已編碼數據的快速傳輸,從而便于后續提取與處理指令的快速執行。
數據挖掘是指利用相關算法從海量數據中搜索隱藏信息的方法,按照算法執行條件的不同,可以分為基參量挖掘、并行挖掘、深度挖掘等多種不同的形式[3]。在執行并行挖掘指令的過程中,由于數據離散程度增加,故而極易導致數據分布呈現稀疏情況的出現。為解決上述問題,提出基于信息熵與遺傳算法的并行挖掘技術,主要是根據數據節點排列形式建立完整的挖掘指令執行標準,又通過求取決策度指標數值的方式,完善挖掘算法的具體執行流程[4]。然而這種數據挖掘方法在準確挖掘數據參量方面的執行能力有限,實際應用效果并不好。為避免上述情況的發生,提出基于多維關聯規則的大規模數據并行挖掘方法。
該文主要將基于多維關聯規則的樹狀組織作為實現大規模數據并行挖掘處理的基礎結構,關聯樹由多個關聯節點組成,但根據執行任務的不同,各個節點所對應的數據對象也有所不同。在圖1 所示關聯樹組織的結構示意圖中,“0”節點作為初始結構,負責與互聯網存儲數據進行對接,并可將待挖掘信息參量直接反饋給下級節點結構[5-6]?!?”節點作為“0”節點的下級附屬結構,具備一定的數據分類能力,可以按照數據參量編碼形式的不同,將其反饋至不同的存儲單元之中?!?”節點~“n”節點作為關聯樹組織核心處理結構,直接執行數據并行挖掘指令,并可以按照運行處理結果,顯示數據信息參量的實時傳輸位置。

圖1 關聯樹組織的結構示意圖
根據關聯樹組織連接長度的不同,系數“n”的實際取值也有所不同,但在多維關聯規則的作用下,樹狀組織越長,“n”的取值也就越大。
RFM 值是多維關聯規則限定條件,對于互聯網數據信息而言,RFM 值指標的計算數值越大,多維關聯規則對于數據參量的約束作用能力也就越強。由于關聯樹結構的連接形式并不會發生改變,故而在求取RFM 值計算公式時,默認相關參量指標的取值結果也不會發生改變[7-8]。設c表示一個隨機選取的RFM 值定義指標,且系數c≠0 的不等式條件恒成立,β表示關聯樹結構中的節點定義系數。聯立上述物理量,可將基于多維關聯規則的RFM 值計算表達式定義為:
式中,xc表示互聯網數據的特征值,αc、δc表示兩個不相等的多維向量賦值系數。在求解RFM值表達式時,要求系數xc的取值必須處于[1,e]的物理區間。
多維運算法是多維關聯規則的執行機制,可以根據RFM 值求解結,確定互聯網主機對于信息參量的處理能力。在關聯樹組織中,反饋節點的排列形式會影響RFM 值計算結果,使多維運算法則的作用能力出現變化[9-10]。設χ表示反饋節點分布系數的初始賦值,其最小取值為自然數“1”。?表示待挖掘數據特征參量,受到RFM 值求解表達式的影響,RFM 值指標的計算數值越大,?系數的實際取值也就越大。在上述物理量的支持下,聯立式(1),可將多維運算法則表達式定義為:
其中,b1、b2分別表示兩個不相等的信息并行運算特征,表示系數b1與系數b2的平均值,γ表示數據信息提取參量。在構建多維關聯規則算法時,要求RFM 指標的計算取值與多維運算法則表達式必須高度統一。
近鄰值是一個既定取值標簽,負責調用多維關聯規則,既能夠將主機對于數據信息參量的挖掘處理能力控制在合理數值標準之內,也可以分析出待檢測信息的分布狀態,從而提升網絡主機元件提取待測指標的準確性[11-12]。在多維關聯規則作用下,近鄰值指標的求解要求待測數據取值不能取其物理極限值,即在挖掘指令的單位執行周期內,只能有一個待測數據取值等于極大值或極小值。設a1、ι1表示兩個不相等的近鄰指標定義項,d1表示待測數據的初始取值,s1表示待測數據分布向量的初始值。
大規模數據并行挖掘算法的近鄰值表達式為:
在多維關聯規則作用下,近鄰值指標取值與逆近鄰值指標取值互為相反數。
逆近鄰值指標可以看作是近鄰值指標的補充說明條件,其維度越高,待處理數據信息參量的分布越密集[13]。若將多維關聯規則看作非可變應用標準,則可認為在該項約束性法則的作用下,待檢測數據的實時存儲量越大,逆近鄰值指標受到近鄰值指標的干擾也就越強;反之,若待檢測數據信息的實時存儲量較小,逆近鄰值指標受到近鄰值指標的干擾也就相對較弱[14]。設V′表示多維運算法則V的逆運算函數,且二者之間的取值關系始終滿足式(4):
式中,?表示反函數求解系數。
在數據信息參量逆運算指標恒為d2的情況下,聯立式(3)、式(4),可將大規模數據并行挖掘算法的逆近鄰值計算表達式定義為:
在求解逆近鄰值表達式時,默認近鄰值指標、逆近鄰值指標互為相反數的條件恒成立。
離散挖掘系數決定了大規模數據并行挖掘指令的執行能力,在多維關聯規則的作用下,待測信息參量的分布離散程度越大,離散挖掘系數的實際取值也就越大[15-16]??紤]近鄰值指標、逆近鄰值指標的作用同步性,可認為離散挖掘系數的計算取值始終處于(1,+∞)的數值區間。在執行大規模數據并行挖掘指令時,離散挖掘系數同時影響了待測信息參量的并行排列順序與挖掘運行指令的實際執行情況,且離散挖掘系數越大,待測信息參量的并行排列順序就越穩定,挖掘運行指令的實際執行等級也就越高。設f表示多維關聯規則下的大規模數據離散化排列向量,ΔH表示主機在單位時間內所能挖掘處理的數據信息總量,λ表示待測數據的并行化提取系數。
離散挖掘系數計算表達式為:
至此,完成對各項指標參量的計算與處理,在多維關聯規則的作用下,實現大規模數據并行挖掘。
在互聯網環境中,數據信息離散指標的數值水平決定了其分布稀疏程度,這也在一定程度上影響了并行挖掘指令的執行能力。在不考慮其他干擾條件的情況下,數據信息離散指標的數值水平越高,待測信息參量的分布也就越稀疏,此時所得并行挖掘指令的執行能力相對較弱;反之,若數據信息離散指標的數值水平較低,待測信息參量的分布也就相對較為密集,此時所得并行挖掘指令的執行能力相對較強。
表1 記錄了實驗所選設備元件的名稱及相關參量指標的數值情況。

表1 實驗參數
具體實驗流程如下:
步驟一:利用基于多維關聯規則的大規模數據并行挖掘方法對實驗主機一進行控制,將所得實驗數據作為實驗組變量;
步驟二:利用基于信息熵與遺傳算法的并行挖掘方法對實驗主機二進行控制,將所得實驗數據作為對照組變量;
步驟三:對比實驗組、對照組變量數據,總結實驗規律;
數據信息離散指標的計算式如下:
其中,θ表示并行化離散向量,ω表示挖掘向量定標值。
圖2 反映了實驗組、對照組?指標與ω指標的數值變化情況。

圖2 實驗數值
分析圖2 可知,實驗組θ指標的均值水平相對較低,但ω指標的均值水平卻相對較高;對照組θ指標、ω指標的數值變化趨勢則恰好與實驗組相反。
聯合式(7)與圖2 中的實驗數值,對數據信息離散指標μ進行計算,實驗詳情如表2 所示。

表2 數據信息離散程度
分析表2 可知,整個實驗過程中,實驗組μ指標的最大值只能達到30.11%,與對照組最大值77.00%相比,下降了46.89%。
綜上可知,在基于多維關聯規則的大規模數據并行挖掘方法的應用后,數據信息離散指標的數值水平確實得到了有效控制,與基于信息熵與遺傳算法的并行挖掘方法相比,該方法可使待測信息參量呈現出較為密集的分布狀態,這就表示所得并行挖掘指令始終具備較強執行能力,提升了數據挖掘質量。
為了提升大規模數據并行挖掘質量與效果的問題,提出基于多維關聯規則的大規模數據并行挖掘方法,該方法以多維關聯規則作為執行基礎,在構建樹狀單元結構的同時,對RFM 指標進行精準求解,又通過對比近鄰值指標、逆近鄰值指標的方式,計算離散挖掘系數的具體數值,以此實現大規模數據并行挖掘。在實用性方面,在多維關聯規則作用下,并行化離散向量指標取值明顯縮小、挖掘向量定標值指標明顯增大,這對于控制數據信息離散指標的計算數值起到了較強的促進性影響作用,可以在解決因數據離散程度過大而導致的數據分布稀疏問題的同時,獲得準確的數據信息參量并行挖掘處理結果,提升數據挖掘質量與效果。