蔡中民
(河南牧業經濟學院 信息工程學院,鄭州 450044)
頻繁項集挖掘是數據挖掘的一個主要分支,是很多數據分析的基礎內容[1].隨著多層實時網絡的大規模應用,如何從數據流中實現頻繁項集的挖掘引起了人們越來越多的關注.與靜態數據不同的是,加密數據流是一組隨著時間的推移連續不斷產生的加密數據序列.由于其具有連續性、數據量大、保密級別高等性質,導致其中的數據難以完整儲存,只能在數據流入時進行掃描處理[2],使得普通的數據挖掘算法無法直接應用.
對此,國內外相關研究學者們提出了一些數據流頻繁項集挖掘方法.茹蓓等[3]提出了一種基于改進FPTree的高效實時數據流完全頻繁項集挖掘方法.使用改進的FPTree表示數據流中的所有數據,并建立完整的數據基樹,利用字母順序實現基樹的插入與刪除操作,再利用分組Tree結構對基樹進行由上而下的遍歷,通過較低的計算成本實現完全頻繁項集的挖掘.馬力[4]提出了一種基于預裁剪的不確定數據流頻繁項集挖掘方法,并通過Prep-UF-Streaming算法過濾出非頻繁項集,縮減挖掘時間.朱付保等[5]提出一種基于MapReduce的數據流頻繁項集挖掘方法,對數據進行分塊壓縮和傳輸,將頻繁項的計算置于節點上,通過一次調度處理合并頻繁項集.
通常加密數據流的傳輸受碼間干擾的影響較大,如果不對干擾進行濾除,會影響后續的挖掘過程.上述方法雖在不同程度上完善了頻繁項集的挖掘,但均缺少干擾濾除過程,導致挖掘輸出效果不好、傳輸誤碼率偏高.基于此,本文設計一種新的基于集對分析的多層實時網絡加密數據流頻繁項集挖掘方法,在挖掘過程前利用自適應濾波器對碼間干擾進行抑制,增加加密數據流頻繁項集挖掘過程的抗干擾能力,降低傳輸誤碼率,且濾波效果好,使挖掘輸出效果更加理想.
為了實現基于集對分析的多層實時網絡加密大數據流頻繁項集挖掘,構建多層實時網絡加密數據流頻繁項集的信道模型,本文結合信道結構進行控制.采用隨機鏈路轉發控制協議進行多層實時網絡加密大數據流頻繁項集傳輸的優化聚類處理,提取數據流頻繁項集的關聯特征量,對多層實時網絡加密輸出的大數據流頻繁項集進行時間反轉處理,以時間反轉的尺度為挖掘窗口,對關聯特征量進行卷積處理,實現大數據流頻繁項集的配置.
對多層實時網絡傳輸信息特征量進行自適應調制和模糊聚類處理,得到多層實時網絡加密大數據流頻繁項集挖掘的沖激響應為

(1)
式中:n為網絡加密數據;N為網絡加密數據量;τ為數據頻繁項集;r(N)(τ)和r(N+1)(τ)為N和N+1個加密數據的頻繁項集模糊聚類函數;c(N)(τ)為N個加密數據的頻繁項集自適應調制函數.
根據上述分析,構建多層實時網絡加密數據流頻繁項集的信道模型,如圖1所示.

圖1 信道模型Fig.1 Channel model
根據信道模型,采用自適應判決反饋濾波方法進行多層實時網絡加密大數據流頻繁項集的輸出跟蹤識別.根據多層實時網絡加密大數據流頻繁項集的空頻結構,在簇首節點中進行大數據流頻繁項集集成處理[6],對數據流頻繁項集輸出頻譜進行分塊,構建的分塊模型可描述為
(2)
式中:E(p)為輸出頻譜分塊模型;γth為頻繁項集輸出頻譜系數;σ為功率譜密度;hi為鏈路增益值;G為集成量.
通過對多層實時網絡加密大數據流頻繁項集進行分塊匹配,在轉發節點對數據流頻繁項集進行鏈路設計,采用相關功率譜密度匹配方法,構建最佳博弈模型[7],得到信道傳輸功率譜密度為
(3)
式中,N(l)為網絡加密數據鏈路.令pi(l+1)=0,采用窄帶波束形成算法進行空時結構加權處理,提取空時結構特征量,以此得到數據信息融合的全局性尋優返回值為pi(l+1)=min(pmax,Ωi(l+1)),將大數據流頻繁項集輸入到緩沖器中,得到多層實時網絡加密大數據流頻繁項集的鏈路增益值hi≠hmin(l)且Ωi(l)>0.根據上述分析,將加權輸出信號合成,構建多層實時網絡加密大數據流頻繁項集傳輸信道模型,對數據流頻繁項集進行挖掘.
在傳輸信道模型中,需要在大規模MIMO信道的近場源中提取數據流頻繁項集的平均集對特征量[8],采用IIR濾波器進行碼間干擾濾波.
提取多層實時網絡加密大數據流頻繁項集存儲鏈路層中的實信號特征量x(t),定義多層實時網絡加密大數據流頻繁項集輸出的斜度和峰度分別為
Sx=E[x3(t)]
(4)
Kx=E[x4(t)]-3E2[x2(t)]
(5)
式中,E[x2(t)]、E[x3(t)]和E[x4(t)]分別為鏈路層不同數量實信號特征輸出頻譜分塊模型.
利用DFT將接收的多層實時網絡加密數據進行自適應加權學習,將頻域信號變換成時域信號[9],得到每個子帶中多層實時網絡加密的波束旁瓣權值為
(6)

(7)

計算多層實時網絡加密波束旁瓣的沖激響應特征量,采用波束賦形方法提取多層實時網絡加密大數據流頻繁項集的相關功率譜[10],得到多層實時網絡加密大數據流頻繁項集的干擾濾波輸出描述為
(8)
式中:ASM為每個子帶數據流頻繁項集的加權輸出幅值;ρSM為輸入緩沖器結構中多層實時網絡加密數據流頻繁項集的自適應調節參數;DSM為不等式約束條件.采用滑窗處理器進行濾波處理,得到發射數據流頻繁項集包,多層實時網絡路由終端進行大數據流頻繁項集控制的時間窗口描述為
Tc=ent(Tf/Nc)
(9)
式中:Nc為大數據流頻繁項集終端數量;Tf為頻繁項集控制時間.
采用自適應濾波器實現對多層實時網絡加密大數據流頻繁項集的碼間干擾抑制,利用Ns表示寬帶波束賦形的碼元個數,計算多層實時網絡加密大數據流頻繁項集波束旁瓣的碼元數量,即
f(θ)=Q+(θ)Tc
(10)

(11)
通過相關功率譜調制,實現對多層實時網絡加密數據流頻繁項集傳輸的濾波處理和干擾抑制[11].
在上述構建模型與抗干擾設計的基礎上,對經干擾抑制的加密大數據流頻繁項集進行集對分析,通過提取多層實時網絡加密大數據流頻繁項集的平均集對特征量[12],得到多層實時網絡加密大數據流頻繁項集并行挖掘的期望輸入和測量誤差分別為
(12)

針對多層實時網絡加密大數據流頻繁項集的集對簇,對加密序列x的值減1,對空頻結構權值進行IDFT處理,調整迭代步長,如果x=0,更新多層實時網絡加密大數據流頻繁項集的抽頭延遲[13],通過集對特征值形成零陷以抑制強轉發干擾,其迭代函數為
(13)
基于散射簇的有效概率分析方法進行多層實時網絡加密大數據流頻繁項集挖掘的集對分析和三維空間散射簇建模[14],平均集對特征量的調節因子計算公式為

(14)
可見,通過多層實時網絡加密大數據流頻繁項集的集對分析,可以提高多層實時網絡加密大數據流頻繁項集挖掘能力[15].
實現數據流頻繁項集集對分析,多層實時網絡加密大數據流頻繁項集的碼間干擾輸出為
(15)
式中:αl為碼間干擾量;l為編碼數;L為編碼數最大值.
采用波束賦形方法得到多層實時網絡加密大數據流頻繁項集挖掘的邊界條件為
Yβ=ph(t)(mi+mj)
(16)
對于陣列加權輸出特征塊mi和mj,得到控制波束旁瓣的關聯規則量為mij(1≤i≤n,1≤j≤k),關聯規則的確定時常伴隨著最小支持度的選取問題,挖掘關聯規則時,最小支持度用來對搜索空間進行簡化處理,并控制規則的產生數量.在加密數據流頻度相差很多的情況下,若將最小支持度設置得過高,則頻度較小的數據就可能會丟失;若將最小支持度設置得過低,則有可能會產生過多的冗余關聯規則.本文通過調整支持度閾值的方法選取出最佳的最小支持度,即
綜上,在不同年齡發病及性別組的分析中,各組DCM患者臨床特點有相似也有差異,這可能與基因、遺傳、環境、代謝等因素相關,隨著基因遺傳學和分子生物學發展,學者們對該病的研究已在基因遺傳領域有所收獲。在與多項研究對比中,表明該病在不同人群、地區、民族之間,其發病特點有所不同。本研究首次對本地區的138例DCM患者的臨床特征進行分析,較好代表本人群、地區、民族中DCM患者的發病及臨床特點,但仍存在較多限制及不足,下一步我們應該擴大樣本量、加強隨訪并收集心電圖、肝腎功能等代謝指標,對于猝死病人,可通過心肌組織活檢方式進一步明確病理類型,才能進一步充分體現本地區人群DCM患者臨床特征。
(17)

(18)

在大規模MIMO信道的近場源中提取多層實時網絡加密大數據流頻繁項集的平均集對特征量,得到多層實時網絡加密大數據流頻繁項集挖掘尺度特征為
(19)
式中:o(i,j)為多層實時網絡挖掘尺度約束值;oij為頻繁項集尺度值.
對于每個時幀A上,得到多層實時網絡加密輸出通道的空頻結構權值為
W=w1Z+w2D+w3M
(20)
式中:wi為陣元間距;Z為子帶中心頻率;D為挖掘時間尺度;M為線性約束參量.結合多尺度調節方法,在多層實時網絡加密輸出通道中采用空頻結構與空時結構權值轉換方法實現多層實時網絡加密大數據流頻繁項集集對分析和挖掘,優化的挖掘函數為
(21)
為了測試本文方法在實現多層實時網絡加密大數據流頻繁項集挖掘中的應用性能,進行了實驗分析.實驗采用Matlab設計,多層實時網絡加密采樣的數據流頻繁項集長度為5 000,中心頻率為5 GHz,結構波束權值為1.25,波束指向為0,噪聲增益為-12 dB,期望響應為1.56,均衡系數為2.15,根據上述仿真環境和參數設定,進行多層實時網絡加密大數據流頻繁項集挖掘.
測試通過加密大數據流頻繁項集挖掘輸出碼元的誤碼率,得到對比結果如圖2所示.分析圖2可知,采用本文方法進行集對分析時,多層實時網絡加密大數據流頻繁項集輸出的誤碼率較低,提高了輸出的穩定性.

圖2 輸出誤碼率對比Fig.2 Comparison of transmission BER
對比不同支持度下挖掘大數據流頻繁項集數目,本次實驗與上述實驗參數一致,表1給出了相應的實驗結果.

表1 不同支持度下挖掘大數據流頻繁項集數目Tab.1 Number of frequent item sets for mining big datastream under different support degrees
由表1可以看出,本文方法與其他兩種方法產生的頻繁項集數目均有較大差距.這一結果從某種意義上說明,本文方法具有較高的精確度,因此,本文設計的改進方法對數據流挖掘是可行的.為了進一步驗證改進挖掘方法的挖掘輸出效果,在不同支持度下對不同方法的運行時間進行對比,如圖3所示.

圖3 不同支持度下不同方法運行時間對比Fig.3 Comparison of running time with various methods under different support degrees
由圖3可以看出,在不同支持度下,改進挖掘方法的運行時間較少,且處于相對平穩的狀態,不隨支持度的變化而發生過大改變.其他兩種方法運行時間或變化速率較大,或始終處于較長耗時狀態,因而本文方法對于數據挖掘的時間更短,效果更好.主要原因在于本文在完善了頻繁項集挖掘的基礎上,增加干擾濾除過程,導致挖掘輸出效果較好,傳輸誤碼率較低,節省了挖掘時間.
為進一步驗證本文方法的有效性,對本文方法的數據流頻繁項集干擾濾波效果進行分析.根據式(8)可知,數據流頻繁項集干擾濾波效果與ASM呈正相關關系,需要注意的是,當ASM的取值低于1.0時,ASM與濾波結果呈負相關關系;當ASM的取值低于1.0時,ASM與濾波結果呈正相關關系.本次實驗分析中,主要通過對ASM的對比分析來驗證本文方法的濾波效果,結果如圖4所示.

圖4 不同方法的頻繁項集濾波效果對比Fig.4 Comparison of filtering effect for frequent item sets with different methods
分析圖4可以看出,本文方法進行數據流頻繁項集干擾濾波中,加權輸出幅值的變化較為穩定,且在1.0以上,而文獻[4]和文獻[3]兩種方法的加權輸出幅值較低,文獻[4]方法的輸出幅值在0.5~1.0之間,濾波效果相對較好,而文獻[3]方法的加權輸出幅值始終在1.0以下,表明其濾波效果不佳.
在多層實時網絡加密大數據流頻繁項集挖掘中,受到碼間干擾以及多徑特征的影響,導致挖掘輸出效果不好,本文設計改進方法實現多層實時網絡加密大數據流頻繁項集集對分析和挖掘.實驗研究可知,本文方法能有效實現多層實時網絡加密大數據流頻繁項集挖掘,傳輸誤碼率較低,數據挖掘過程耗時較少,濾波效果好,整體性能優越.