999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高維數據集中局部離散文本數據挖掘方法研究

2017-10-12 09:18:15農曉鋒
現代電子技術 2017年19期
關鍵詞:數據挖掘

農曉鋒

摘 要: 提出利用基于多目標優化軟子空間聚類理論的關聯規則數據挖掘方法對高維數據集中局部離散文本數據實現數據特征有效挖掘。首先,利用多目標優化軟子空間聚類思想結合非支配排序遺傳理論優化加權類內緊致及加權類間分離函數,獲取優化后的目標函數及非占優Pareto最優解集,運用加權子空間劃分方法對最優解集完成特征聚類;其次,基于關聯規則思想運用一種特征提取和關聯文本的識別方法,對聚類后的文本特征進行文本間及文本內部的特征識別和分類,即實現了文本信息數據的有效挖掘。實驗證明,利用多目標優化軟子空間聚類數據挖掘方法可以有效實現高維集中局部離散文本數據的挖掘。

關鍵詞: 高維數據; 數據特征聚類; 數據挖掘; 關聯規則

中圖分類號: TN911.1?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)19?0138?04

Research on local discrete text data mining method in high?dimensional dataset

NONG Xiaofeng

(Modern Educational and Technological Center, Guilin Tourism University, Guilin 541006, China)

Abstract: An association rules data mining method based on the theory of multi?objective optimization soft subspace clustering is proposed to mine the data feature of local discrete text data in high?dimensional dataset effectively. The thought of multi?objective optimization soft subspace clustering is combined with the theory of non?dominated sorting genetic optimization to optimize the weighted intra?class compactness and weighted inter?class separation function, and obtain the optimized objective function and non?dominated Pareto optimal solution set. The weighting subspace classification method is used to cluster the features of the optimal solution set. A recognition method for feature extraction and text association based on the thought of association rules is used to recognize and classify the features among texts and within texts for the clustered text features, which can realize the effective mining of the text information data. The experimental results show that the data mining method of multi?objective optimization soft subspace clustering can realize the local discrete text data mining in high?dimensional dataset effectively.

Keywords: high?dimensional data; data feature clustering; data mining; association rule

0 引 言

文獻[1]指出,在人工智能和數據庫領域中,目前各種數據挖掘方法也獲得了不同程度的關注。20世紀末開始,人們對各種不同的數據挖掘方法進行深入研究。數據挖掘作為一種決策支持手段,幫助各個領域的專家和開發人員分析各種類型的數據[2?3],然后從中挖掘出潛在的模式并做出正確決策判斷。文獻[4]中提到數據挖掘通常會利用人工智能、機器學習、模式識別、統計學、可視化等技術來實現該過程。

當前數據挖掘研究領域發展迅速,其面臨的問題與挑戰也越來越多。第一,越來越大的數據規模,也稱之為大規模數據問題;第二,不斷增加的數據特征維數引起的問題也稱為維數災難問題;第三,有生物學、腦科學、證券金融等學科的知識背景[5?6]。文獻[7]中提出基于上述問題面臨的挑戰,部分學者提出針對大規模數據的流數據分析方法、針對高維數據的特征加權和特征選擇方法。目前數據挖掘領域的研究重點包括很多學科的交叉領域。

由于數據挖掘方法被越來越廣泛的應用,本文提出對高維數據集中局部離散文本數據進行有效數據挖掘。首先,運用多目標優化軟子空間聚類思想獲得優化后的目標函數和非占優Pareto最優解集,最優解集的獲取即實現了數據特征聚類;其次,以關聯規則思想為基礎,通過一種特征提取和關聯文本的識別方法實現對聚類后的文本特征進行文本之間及文本內部的特征識別和分類,最終達到有效挖掘文本信息數據的目的[8?9]。

1 高維數據集中局部離散文本數據挖掘研究

1.1 基于多目標優化軟子空間的數據特征聚類

多目標優化屬于最合理的通用優化方法,在特定條件的約束下,能夠優化兩個以上的多個目標函數,該過程可描述如下:

多目標優化:最小化[M]個目標函數[fx=][f1x,f2x,…,fMx],找出全部可行域[X]范圍內的[D]維決策目標向量[x?=x?1,x?2,…,x?D],通過目標函數變換決策目標向量,則:

[x?=argminx∈Xfx=argminx∈Xf1x,f2x,…,fMx] (1)

式中:[i]表示目標函數數量;[fi?]表示目標函數;[x?]代表決策目標向量;[x]表示解向量。

針對多目標優化的可行解問題,其含有的解是多個或者無限多,組成Pareto集合。因為Pareto集合借助目標函數存在相互占優的關系,所以也稱之為非占優解集,可將其描述如下。

Pareto解集:最小化[M]個目標函數[fx=][f1x,f2x,…,fMx,]解向量[x]是全部可行域[X]范圍內多目標優化問題的可行解,Pareto解集必須滿足最優準則,同時在全部可行域[X]范圍內,比[x]更加占優的解向量[x]是不存在的,則:

[?i∈1,2,…,M, fix=fix] (2)

式中[fix]表示占優解向量目標函數。目標優化問題的可行解通過Pareto最優準則來獲取,稱為Pareto解集。

如果所有數據簇的特征加權系數都是[D]維特征向量,用[wi=wi1,wi2,…,wiD1≤i≤C]表示,[C×D]表示含有[C]個數據簇的染色體長度。其中,[w1]表示初始數據簇的特征因子,由前[D]個基因團來表示,[w2]也就是第二個數據簇的特征因子,以此類推。

定義目標函數以及劃分數據樣本,聚類評價準則選用模糊軟子空間聚類目標函數[JFWSC]來優化目標函數,則[JFWSC]可描述為:

[JFWSC=i=1Cj=1Numijk=1Dwτikxjk-vik2] (3)

式中:[N]表示數據樣本的個數;[j]表示常數;模糊聚類指數為[m]的隸屬度用[umij]表示;模糊加權指數為[τ]的加權系數用[wτik]表示;維數為[k]的第[j]個可行解用[xjk]表示;[vik]表示聚類中心。獲取各個數據簇加權系數[W]及聚類中心[V=vi,1≤i≤C],樣本到各個聚類中心的模糊隸屬度[uij]可描述為:

[uij=dij-1m-1i=1Ddij-1m-1, i=1,2,…,C; j=1,2,…,N] (4)

式中[dij]表示樣本到聚類中心的距離。可描述聚類中心為:

[vik=j=1Numijxjkj=1Numij] (5)

選擇聚類評價準則的合理性決定了最終聚類結果的產生,多目標優化問題的適應度函數可選擇FWSC目標函數[JFWSC]。然后構建聚類數據集的樣本和聚類中心二部圖,數據聚類劃分可通過圖劃分方法推導得出。

構建二部圖[G=V,E],以二部圖[G]為基礎,通過譜聚類取得相應聚類中心以及樣本點劃分的結果,由[VCi]表示每個聚類中心的劃分結果,相應的特征加權向量[wi]通過計算得出,同時輸出[N]個數據樣本的聚類劃分。

1.2 關聯規則理論下文本數據挖掘

對不同詞語數據實現不同加權就是文本特征提取方法,在數據樣本中詞語的重要性由此表示。加權實現方法中選用布爾加權方式,如果一個文本數據出現在數據樣本中,則加權為1,反之為0,加權參數可描述為:

[wij=1,fij≥10,fij<1] (6)

式中:[wij]表示文本加權結果;[fij]表示文本數據在數據樣本中出現的頻率。

權重可以表示文本數據出現的概率,同時可以反映出文本數據的重要性,是一種基于信息理論的權重計算方法,以熵權重為基礎的文本挖掘方法,則:

[wij=logfij+1.0*1+log1Nk=1Nfiknilogfikni ] (7)

式中:[ni]表示研究特征次數;[fik]表示目標函數在數據樣本中出現的頻率。

通過數字化的歸一化方法進行處理實現文本數據挖掘識別過程能夠有效地分類度量數據樣本中的關鍵數據,文本個數與最大相關系數互相關聯,則可作如下描述:

[maxLac=log2k] (8)

式中:[Lac]表示相關系數;[maxLac]表示各個特征類信息熵的最大值;[k]為常數。

變化加權時采用固定系數coff1和coffconst對IDF1和IDFconst值進行適度調整,可以達到較好的分類效果。

關聯挖掘屬于一種數據處理的挖掘方法,基于數據關聯度挖掘文本特征。文本挖掘首先要將文本挖掘區域劃定,參數[xi,yi]表示各文本在區域[Z]中的坐標,也就是文本坐標。假設將該區域視為圖像區域,設定像素點為[p,q,]若存在待識別的數據為[K(r),]運用關聯規則挖掘該數據的概率為:

[Q(Z)=KZpqp×q] (9)

式中:[Q(Z)]表示在文本[Z]區域內數據信息的挖掘概率;[KZpq]表示區域中的某文本數據樣本點。

利用關聯度挖掘方法對高維數據集中局部文本數據進行數據樣本的特征提取,并利用關聯規則求解出數據被挖掘的概率,通過以上步驟可以較好地實現高維數據內部特征的描述,完成數據挖掘過程。

2 仿真實驗與結果分析

數據規模的不斷增大使數據挖掘成為核心的研究課題,本文以高維數據集中局部離散文本數據為研究對象,運用基于多目標軟子空間聚類理論的關聯規則法對其進行數據挖掘。通過以下實驗驗證本文方法的可行性,具體如下。

實驗1:在對數據特征實現挖掘前,先對數據進行特征聚類處理,實驗設定高維文本數據共8組,每組為400個樣本,要求聚類為5個數據簇,每個簇為80個高維文本數據。采用本文多目標軟子空間聚類方法及數據流軟子空間聚類方法對實驗給出的400個文本數據進行聚類處理,獲取經過聚類處理后的數據簇結果及每個簇含有的文本數據個數,將結果與設定結果進行比較。具體數據結果如表1,表2所示。

根據實驗條件設定每組為400個數據樣本,經過聚類處理后,400個文本數據聚類為5個數據簇,且每個數據簇內包含80個數據樣本。對照實驗事先設定的條件,表1為利用數據流軟子空間聚類法獲取的聚類結果,觀察聚類后形成數據簇的結果能夠看出,利用該方法獲取的數據簇個數與實驗預先設定結果不相符,表明利用數據流軟子空間聚類法對文本數據并未準確實現聚類處理;表2為多目標軟子空間聚類方法獲取的聚類結果,從表2能夠觀察出利用該方法經過聚類處理后形成的數據簇個數及每組數據簇包含的文本數據個數與實驗事先設定的限制條件吻合,依據結果顯示,利用本文多目標軟子空間聚類方法能夠對高維文本數據進行有效聚類處理。

利用數據流軟子空間聚類法及本文多目標軟子空間聚類方法對文本數據進行聚類處理后形成曲線,并比較兩條曲線的差異,具體如圖1所示。

觀察圖1能夠看出,運用本文多目標軟子空間聚類方法對400個文本數據進行聚類處理后,獲取的數據簇為5個,而運用數據流軟子空間聚類法進行聚類處理后,形成的數據簇結果與實驗預先設定結果不吻合,比較兩種聚類方法,本文方法更為有效。

實驗2:為測試文中關聯規則方法的有效性能,實驗給出900個高維數據,將其分為6組。通過運用本文方法及回歸分析法對高維數據進行數據挖掘,比較兩種方法數據挖掘的速度,具體數據如表3所示。

3 結 論

數據挖掘是對數據進行特征有效分類及挖掘其內部關聯性的一種方法,在眾多科學領域中得到了廣泛應用。因此,本文以高維數據集中局部離散文本數據為研究對象,提出基于多目標軟子空間聚類理論的關聯規則法對數據實現挖掘。首先,將多目標軟子空間聚類理論與非支配排序遺傳思想結合,獲取Pareto最優解集,對數據實現聚類處理;其次,運用關聯規則數據挖掘法在數據特征聚類結果的基礎上,采用本文特征提取法對文本數據進行特征分類與識別,最終實現高維數據集中局部離散文本數據的挖掘過程。

參考文獻

[1] 張銀柯,張驥,趙達.基于CNKI數據庫的文獻探索我國人工智能的研究狀況[J].內江科技,2016,37(1):79?80.

[2] 王元卓,賈巖濤,劉大偉,等.基于開放網絡知識的信息檢索與數據挖掘[J].計算機研究與發展,2015,52(2):456?474.

[3] 王樂,王芳.數據庫異常數據的檢測仿真研究[J].計算機仿真,2016,33(1):430?433.

[4] 米允龍,米春橋,劉文奇.海量數據挖掘過程相關技術研究進展[J].計算機科學與探索,2015,9(6):641?659.

[5] 耿娟,焦紅兵.統計學專業數據挖掘課程教學探索[J].產業與科技論壇,2016,15(3):202?203.

[6] 何光凝.數據挖掘在計算機網絡安全領域的應用研究[J].技術與市場,2016,23(8):13.

[7] 許麗娟.基于自適應波束形成的高維數據挖掘算法[J].電聲技術,2016,40(3):65?68.

[8] 邱云飛,狄龍娟.基于簇間距離自適應的軟子空間聚類算法[J].計算機工程與應用,2016,52(21):88?93.

[9] 張春生.大數據環境下相容數據集的關聯規則數據挖掘[J].微電子學與計算機,2016,33(8):34?39.

[10] 董本清,彭健鈞.復雜網絡數據流中的異常數據挖掘算法仿真[J].計算機仿真,2016,33(1):434?437.

[11] 郭崇,王征,紀建偉,等.電力用戶數據中用電特征數據挖掘模型仿真[J].計算機仿真,2016,33(5):447?450.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 青青草原国产一区二区| 天堂成人av| 欧美中文字幕第一页线路一| 国产黄网站在线观看| 精品人妻无码区在线视频| 99国产在线视频| 亚洲精品视频免费| 色噜噜在线观看| 国产高清毛片| 国产乱子伦精品视频| 欧美人与性动交a欧美精品| 亚洲成a人片| 播五月综合| 国产三区二区| 欧美激情首页| 无码不卡的中文字幕视频| 国产精品女熟高潮视频| 成人午夜视频网站| 免费在线看黄网址| 午夜视频日本| 国产亚洲成AⅤ人片在线观看| 韩国自拍偷自拍亚洲精品| 最新国产成人剧情在线播放| 国产精品高清国产三级囯产AV| 欧美三級片黃色三級片黃色1| 九九久久99精品| 麻豆精品在线| 亚洲欧州色色免费AV| 青青草原国产| 亚洲欧洲一区二区三区| 91九色国产在线| 色成人综合| 人妻无码中文字幕一区二区三区| 中文字幕av一区二区三区欲色| 亚洲精品国产自在现线最新| 美女扒开下面流白浆在线试听 | 宅男噜噜噜66国产在线观看| 亚洲国产成人综合精品2020 | 午夜精品久久久久久久99热下载| 国内视频精品| 黄色三级毛片网站| 成人精品午夜福利在线播放| 亚洲美女一区| 国产菊爆视频在线观看| 国产探花在线视频| 亚洲欧美另类日本| a亚洲视频| 欧美成人午夜影院| 久久精品国产亚洲AV忘忧草18| 精品国产网站| 亚洲午夜福利在线| 无码网站免费观看| 日日噜噜夜夜狠狠视频| 色婷婷综合激情视频免费看| 亚洲欧美一级一级a| 人妻中文久热无码丝袜| 国产丝袜精品| 国产精品网址你懂的| 日韩性网站| 亚洲中文字幕av无码区| 日韩乱码免费一区二区三区| 五月丁香在线视频| 手机成人午夜在线视频| www.99在线观看| 国产日韩欧美在线播放| 成人午夜亚洲影视在线观看| 亚洲最猛黑人xxxx黑人猛交| 在线99视频| 亚洲精品第一在线观看视频| 欧美区国产区| 亚洲嫩模喷白浆| 国产在线观看99| 成AV人片一区二区三区久久| 无码在线激情片| 午夜啪啪网| 久久美女精品| 色成人亚洲| 97免费在线观看视频| 88国产经典欧美一区二区三区| 亚洲最黄视频| 91视频青青草| 无码专区第一页|