999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

異構復雜信息網絡敏感數據流動態挖掘*

2020-05-04 07:05:20熊菊霞吳盡昭
計算機工程與科學 2020年4期
關鍵詞:數據挖掘特征方法

熊菊霞,吳盡昭

(1.中國科學院成都計算機應用研究所,四川 成都 610041;2.中國科學院大學,北京 100049;3.廣西民族大學廣西混雜計算與集成電路設計分析重點實驗室,廣西 南寧 530006)

1 引言

在異構復雜信息網絡中,網絡基元結構具有差異性,通常包含大量的敏感數據流,從數據流中提取有用特征是十分重要的工作[1]。但是,由于異構網絡中不同結構的網絡數據存在較強的動態變化,如何對異構復雜信息網絡敏感數據流進行有效的動態挖掘,成為現在數據挖掘領域中重要的問題[2]。

專家學者們提出一些關于網絡敏感數據流的挖掘方法。茹蓓等人[3]提出一種減少候選項集的數據流挖掘算法,通過數據掃描窗口建立全局樹,基于全局樹生成數據候選模式,從候選模式中選取出高效用的挖掘模式,完成數據挖掘。劉華成等人[4]提出一種動態調度的延遲敏感流網絡挖掘算法,采用能量最小化組合方程來節約挖掘時間,采用分解定界算法來提升分類器處理速度。趙小強等人[5]提出一種基于改進模糊支持向量機FSVM(Fuzzy Support Vector Machine)的數據挖掘分類算法,預選出有效的候選支持向量,并對其進行增強處理,在此基礎上設計隸屬度函數完成挖掘。劉洋等人[6]對大數據挖掘算法進行分析,根據模型向量的改變量優化數據迭代過程,在不同階段選擇不同的迭代和數據處理方式,以提高挖掘性能。

國外眾多學者也對此進行了研究,并取得了較多突出的成果,Malik等人[7]指出,隨著數據規模的不斷擴大,利用現有的方法進行數據挖掘時,內存往往容易成為瓶頸問題,因此很多科研人員從多個角度對數據挖掘方法進行了改進。比如,美國學者Freitas等人[8]針對大規模的數據進行分析,先對原始數據集進行簡單排序,其次分析網絡內存的實現機制,在時間局部性方面進行重點分析,以滿足大規模數據挖掘需求。Belorkar等人[9]利用敏感網絡對異構基因表達數據進行了分析,主要研究數據的異質性,通過敏感網絡抑制了單區域數據集的選取功能,結合異質性特征挖掘得到表達數據。但是,在異構復雜信息網絡中,相關數據流挖掘方法無法在復雜網絡下找到準確的挖掘特征,難以適應復雜信息網絡敏感數據流特征的高動態變化,降低了挖掘精度。

針對上述問題,本文提出基于最大類間散度的網絡敏感數據流動態挖掘方法。實驗結果表明,該方法在復雜信息網絡敏感數據流挖掘方面具有較高的實用性。

2 敏感數據流可挖掘特征獲取

2.1 最大類間散度計算

由于異構復雜信息網絡承載著不同的協議和網絡信道,網絡基元結構之間差異性較大,導致提取網絡中的敏感數據流特征困難。由此,以異構復雜信息網絡中的敏感數據差異最大化間隔作為分類基礎,將差異化網絡基元結構進行區別劃分,得到網絡敏感數據流特征的最大類間散度,為全面高精度動態挖掘敏感數據提供基礎。

假設異構復雜信息網絡數據庫中的待挖掘矩陣為X={x1,x2,…,xi},i代表網絡數據庫中數據的序數,獲取第i時刻異構復雜網絡數據庫中敏感數據矩陣xi={xi1,xi2,…,xim},對應的網絡數據流類型用向量yi表示,利用式(1)給出異構復雜信息網絡敏感數據流整體矩陣:

Y=f(x1,x2,…,xn)=(y1,y2,…,yn)

(1)

向量yi是網絡數據流類型,對提取出的網絡敏感數據流特征降維處理。將敏感數據差異最大化間隔作為分類目標,找出1組最佳分類向量,對其進行映射變換,使變換后得到的網絡敏感數據流特征具有最大類間散度,并獲取最大類間散度特征值[10]。過程如下所示:

在上述給出的異構復雜信息網絡數據庫矩陣X={x1,x2,…,xn}中,為維持復雜網絡內原始數據的分布結構形狀,利用最大間隔準則約束找出一個線性映射:

(Sb-Sw)X=λiwi

(2)

得到最佳識別向量為:

(3)

其中,Sb和Sw分別代表網絡敏感數據流特征降維后,特征空間中的類間散度和類內散度,作為差異化網絡基元結構的劃分基礎。λi表示線性映射系數,T為轉置符號,wi表示最大間隔向量[11,12]。將其投影變換到低維特征空間Y中,使其具有最大類間散度:

Y=WTX

(4)

投影變換處理后,得到異構復雜信息網絡的敏感數據向量:

(5)

2.2 最優散度迭代

在2.1節獲取了異構復雜信息網絡的敏感數據最大類間散度后,對其進行遺傳迭代,確定最優散度迭代函數,依據該函數動態挖掘敏感數據特征[13,14],并對挖掘得到的敏感數據特征進行篩選,得出動態可挖掘特征,克服傳統方法不容易形成可挖掘特征,進而需要多次挖掘的不足,為數據的動態挖掘奠定基礎。

傳統的遺傳算法并沒有考慮個體或者組織的演變特征,只能夠通過編碼表現個體或者組織的一一對應關系,模糊遺傳算法能夠打破這一規則,在[0,1]中為個體或者組織取值。模糊遺傳算法的這一特性使得其能夠很好地解決迭代中的隨機和非線性問題,解決更多的復雜問題。因此,本文使用模糊遺傳算法進行網絡敏感數據最大類間散度迭代,量化異構網絡基元結構之間的差異性。lnfo(B)和lnfoA(B)分別表示不同的異構網絡基元結構,Gain(A)表示2者之間的差異,如下:

(6)

(7)

其中,B是異構網絡基本元素構成的向量,A是異構網絡差異值向量,v是B中元素個數。Wopt是異構復雜信息網絡的敏感數據向量。Pi是概率值。

Gain(A)=lnfo(B)-lnfoA(B)

(8)

得到:

Pri(t)=Gain(A)-Pi*hi(t)+nPi(t)

(9)

其中,hi(t)代表Pi在異構復雜信息網絡敏感數據的變異參數,nPi(t)代表數據流特征響應值,由此可以求出異構復雜信息網絡敏感數據流特征響應函數:

Sri(t)=S(t)×hi(t)+nsi(t)

(10)

其中,S(t)代表異構復雜網絡數據庫的信道響函數,挖掘得到敏感數據特征為:

ri(t)=Sri(t)×Pri(-t)=

S(t)×P(-t)*hi(t)+nli(t)

(11)

以式(11)為基礎,對敏感數據挖掘特征形成概率進行計算,公式如下:

(12)

其中,aij是特征系數,βj是敏感特征系數,bij是特征數據向量,Pj(t)是概率值。

得到優選的敏感數據動態可挖掘特征為:

R(Xi)=bij(Pj(t))X

(13)

其中,X是數據庫中的待挖掘矩陣。

3 網絡敏感數據流挖掘

以上述得到的敏感數據動態可挖掘特征為基礎,對可挖掘特征進行半監督聚類分析,進而完成網絡敏感數據流挖掘。

聚類分析是數據挖掘中的重要步驟,聚類是按照相似性原理,把1組個體劃分為若干類別的過程,聚類的目的是使同一類別的個體之間距離最小化,不同類別個體之間的距離最大化,從而提高數據挖掘精度。采用半監督聚類方法可以有效地改善初始聚類中心敏感、聚類質量不高的問題[15,16]。半監督聚類方法是結合分類和K-means算法思想的一種新的聚類方法,是利用半監督學習方法對聚類過程中類中心選取的過程。

假設主存中的數據特征點q是Q={d1,d2,…,dn,labels}中的元素,Q是一個數據特征矩陣,labels為可挖掘數據標記的向量。利用labels初始化聚類中心Z,表示為:

(14)

其中,I為可挖掘數標記個數。

聚類過程中,若缺少某類標記,則由聚類中心自動產生,不斷重復上述初始化過程,直到出現重復聚類為止[17,18]。

對可挖掘特征點進行聚類分配,將每一個可挖掘特征點di、labels分配至聚類L中,表示為:

L=argmin |di-Z|

(15)

在式(15)基礎上,重新計算初始化聚類中心Z:

(16)

其中,di是挖掘特征點向量。

由此則可以完成對可挖掘特征的聚類分析,挖掘得到數據隱藏信息模式,并對其進行評價,若是合理,則進行知識表示,將上述合理的信息模式進行展示,從而實現異構復雜信息網絡敏感數據的動態挖掘[19,20]。

具體數據挖掘流程如圖1所示。

Figure 1 Flow chart for dynamic mining of sensitive data in heterogeneous complex information networks圖1 異構復雜信息網絡敏感數據動態挖掘流程圖

4 實驗結果與分析

為了驗證本文所提的基于模糊遺傳的網絡敏感數據流動態挖掘方法的綜合性能,實驗采用的平臺為IBM的工控異構網絡機,主頻為2.3 GHz CPU,內存為24 GB。

實驗數據來源于亞馬遜自動化工作流系統AWS(Automated Workflow System)數據庫,網址為https://aws.amazon.com/cn/datasets/。在實驗中隨機采集500個真實復雜信息網絡數據集。采集器如圖2所示。

Figure 2 Data acquisition unit圖2 數據采集器

實驗數據采集過程如圖3所示。

Figure 3 Flow chart of experimental data acquisition圖3 實驗數據采集流程圖

在上述實驗環境和數據設置條件下,選取以下指標對本文方法進行驗證:

(1)可挖掘特征形成概率:數據可挖掘特征的獲取是實現數據挖掘的關鍵步驟,以式(12)的計算步驟為依據,對本文方法與文獻[7,8]方法的可挖掘特征形成概率進行計算和對比。

(2)挖掘耗時:對本文方法與文獻[7,8]方法的挖掘耗時進行對比,驗證本文方法的時效性。

(3)labels標記質量:在獲取數據的可挖掘特征后,本文方法首先對可挖掘特征進行了聚類分析,以此為基礎完成數據挖掘,提高挖掘精度。聚類分析中,labels標記質量的好壞會直接影響數據聚類質量,進而影響挖掘精度。

(4)挖掘精度:精度是驗證方法性能的重要指標,本實驗選取這一指標進行分析。

(5)敏感數據挖掘內存占用率:對比不同方法的挖掘內存占用率,進一步體現本文方法優勢。

對本文方法與文獻[7,8]方法的可挖掘特征形成概率進行計算,結果如表1所示。

Table 1 Comparison of mineable feature formation probability表1 可挖掘特征形成概率對比

分析表1可以看出,本文采用最大類間散度方法,將敏感數據的差異最大化間隔作為分類基礎進行分析,并在遺傳迭代狀態確定最優散度迭代函數,完成可挖掘特征優選,由此得到的可挖掘特征形成概率整體高于90%,最高可達98%,可順利形成可挖掘特征。而文獻[7,8]方法的可挖掘特征形成概率在80%以下,遠低于本文方法的,無法形成數據的可挖掘特征。

鑒于表1分析的結果,可知本文方法能夠順利形成數據的可挖掘特征,進而能夠降低數據挖掘次數,有利于節約數據挖掘時間。為進一步驗證這一結果,對本文方法與文獻[7,8]方法進行對比,結果如圖4所示。分析圖4可以看出,本文方法的挖掘耗時明顯低于文獻[7,8]方法的,以后可進一步驗證本文采用最大類間散度方法獲取數據的可挖掘特征的有效性,表明本文方法具有一定的可行性。

Figure 4 Time-consuming comparison of different mining methods圖4 不同方法挖掘耗時對比

對本文方法的labels標記質量的分析結果如圖5所示。根據圖5可知,在不同的labels標記處,本文估計值與實際值之間的差異均較小,不超過6.0,且隨著標記點的增加,估計值與實際值之間的差異呈現下降趨勢,表明本文方法具有較好的聚類效果。

Figure 5 Difference between estimated and true values圖5 估計值和真實值之間的差異

為充分驗證本文方法的優勢,選取挖掘精度和敏感數據挖掘內存占用率為指標進行對比分析,結果如表2和圖6所示。

根據表2可知,本文方法的數據挖掘精度在90%左右,文獻[7]方法的數據挖掘精度最高為69%,文獻[8]方法的最高值為76%,表明本文方法能夠準確地完成異構復雜信息網絡敏感數據流動態挖掘,同時也進一步驗證了可挖掘特征的聚類質量較高。

Table 2 Comparison of mining accuracy of different methods表2 不同方法挖掘精度對比

圖6為不同方法的敏感數據挖掘內存占用率對比圖。從圖6中的情況來看,本文方法所占用的內存容量較少,而其他2種方法所占用的內容容量較多,主要是因為本文能夠順利獲取可挖掘數據特征,避免了多次數據挖掘,從而降低了內存占用率。這表明在對敏感數據流進行挖掘的性能上,本文方法具有更大的優勢。

Figure 6 Comparison of memory usage of different methods圖6 不同方法內存占用率對比

5 結束語

復雜信息網絡中存在大量的敏感數據流,對其進行有效挖掘,能夠促使網絡更加高效地運行。針對現有方法存在數據挖掘精度低、挖掘時間長、占用內存大等問題,本文提出了一種新的網絡敏感數據流動態挖掘方法。采用最大類間散度確定最優散度迭代函數,對迭代函數最優值進行計算,獲取可挖掘的動態特征。以此為依據,對可挖掘特征進行聚類分析,進而實現數據挖掘。

將本文方法與文獻[7,8]方法進行對比,結果表明:

(1)數據的可挖掘特征獲取概率較高,進而降低了數據挖掘次數,節約了數據挖掘時間,并降低了內存占用率;

(2)聚類分析中,labels標記估計值與實際值之間的差異較小,說明對可挖掘特征的聚類質量良好,進而提高了數據挖掘精度。

綜上可知,本文所提方法的數據挖掘性能較好,為數據的深入研究奠定了基礎,具有一定的參考價值。

猜你喜歡
數據挖掘特征方法
探討人工智能與數據挖掘發展趨勢
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲精品成人片在线观看| 男女性色大片免费网站| 看国产毛片| 国产精品对白刺激| 国产精品爆乳99久久| 国产成人免费高清AⅤ| 国产91麻豆视频| 国产成人午夜福利免费无码r| 亚洲精品欧美重口| 亚欧乱色视频网站大全| 国产97区一区二区三区无码| 亚洲视频三级| 日日摸夜夜爽无码| 日韩精品少妇无码受不了| 在线欧美日韩国产| 成年人视频一区二区| 亚洲香蕉在线| 午夜福利在线观看成人| 在线a网站| 亚洲男人的天堂在线观看| 国产欧美日韩专区发布| 不卡午夜视频| 蜜臀AV在线播放| m男亚洲一区中文字幕| 青青青草国产| 狠狠久久综合伊人不卡| 国产不卡国语在线| 一本色道久久88亚洲综合| 午夜福利免费视频| 91精品最新国内在线播放| 一级毛片免费播放视频| 911亚洲精品| 55夜色66夜色国产精品视频| 成人中文在线| 69av在线| 免费a在线观看播放| 国产产在线精品亚洲aavv| 又爽又大又光又色的午夜视频| 久草视频中文| 国产精品福利在线观看无码卡| 无码中文字幕加勒比高清| 白浆视频在线观看| 国产91精品最新在线播放| 亚洲欧美另类色图| 成人在线观看不卡| 亚洲嫩模喷白浆| 欧洲成人免费视频| 国产精品亚洲一区二区三区z| 午夜国产大片免费观看| 一本大道在线一本久道| 国产黄色片在线看| 国产在线观看91精品亚瑟| 午夜精品国产自在| 日韩视频免费| 国产chinese男男gay视频网| 97se亚洲综合在线韩国专区福利| 免费视频在线2021入口| 亚洲日韩第九十九页| 在线一级毛片| 五月六月伊人狠狠丁香网| 亚洲国产天堂久久综合| V一区无码内射国产| 97久久免费视频| 国产在线精品香蕉麻豆| 日本精品视频| 日韩天堂在线观看| 九色国产在线| 99久久精品免费观看国产| 国产乱子精品一区二区在线观看| 中国美女**毛片录像在线| 亚洲人成网站18禁动漫无码| 直接黄91麻豆网站| 国产精品无码在线看| 天堂成人在线视频| 国产国语一级毛片| 99在线视频精品| 在线观看免费国产| 久久人人97超碰人人澡爱香蕉| 九九久久精品国产av片囯产区| 尤物视频一区| 一级全黄毛片| 黄网站欧美内射|