999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法

2021-05-25 10:04:18王潤芳丁曉敏
科學(xué)技術(shù)創(chuàng)新 2021年11期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

王潤芳 丁曉敏

(長春工業(yè)大學(xué)人文信息學(xué)院 信息工程系,吉林 長春130122)

數(shù)據(jù)挖掘是一種利用分類、聚類、關(guān)聯(lián)分析等多種方式對數(shù)據(jù)進(jìn)行分析和處理的重要手段,當(dāng)前信息技術(shù)和存儲(chǔ)技術(shù)的發(fā)展,使得各行業(yè)擁有的數(shù)據(jù)信息量不斷增加,而數(shù)據(jù)挖掘的應(yīng)用需求逐漸凸顯[1]。當(dāng)前傳統(tǒng)數(shù)據(jù)庫已經(jīng)無法實(shí)現(xiàn)對隱藏在海量數(shù)據(jù)當(dāng)中的相關(guān)內(nèi)容進(jìn)行挖掘,因此造成了數(shù)據(jù)海量卻缺乏信息的現(xiàn)象產(chǎn)生[2]。基于此,為了提升數(shù)據(jù)挖掘的實(shí)際應(yīng)用效果,本文開展基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法研究。

1 網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法設(shè)計(jì)

1.1 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘規(guī)則設(shè)計(jì)

在對網(wǎng)絡(luò)環(huán)境當(dāng)中的信息數(shù)據(jù)進(jìn)行挖掘時(shí),設(shè)置數(shù)據(jù)挖掘規(guī)則的主要目的是找出在海量數(shù)據(jù)集當(dāng)中的頻繁事務(wù),即頻繁項(xiàng)集。關(guān)聯(lián)規(guī)則是一種以增長趨勢為主要形式的挖掘算法。本文結(jié)合關(guān)聯(lián)規(guī)則,對網(wǎng)絡(luò)信息數(shù)據(jù)挖掘規(guī)則進(jìn)行設(shè)計(jì)[3]。在進(jìn)行網(wǎng)絡(luò)信息數(shù)據(jù)挖掘時(shí),需要經(jīng)歷兩次網(wǎng)絡(luò)數(shù)據(jù)庫。第一次,在開始挖掘階段,對候選集進(jìn)行挖掘。在這一階段中,生成的單項(xiàng)頻繁項(xiàng)集即為挖掘出的結(jié)果。第二次,在挖掘候選集的過程中對原本復(fù)雜程度較高的挖掘數(shù)據(jù)進(jìn)行優(yōu)化,以此緩解挖掘執(zhí)行過程中的壓力。具體挖掘規(guī)則為:

首先,將選取的待挖掘樣本進(jìn)行分塊處理,并將處理后的結(jié)果輸入到集群的各個(gè)節(jié)點(diǎn)當(dāng)中,通過關(guān)聯(lián)規(guī)則對每一項(xiàng)數(shù)據(jù)節(jié)點(diǎn)的支持度進(jìn)行計(jì)算。再完成對map 程序的執(zhí)行,從網(wǎng)絡(luò)文件當(dāng)中獲取到本地相關(guān)數(shù)據(jù)集,并在mapper 當(dāng)中輸入一個(gè)已知的數(shù)據(jù)記錄,利用combiner 完成對本地?cái)?shù)據(jù)集記錄內(nèi)容的簡易合并,并將其帶有相同護(hù)具的鍵值統(tǒng)一分配到一個(gè)reducer 當(dāng)中。再將提取到的所有數(shù)據(jù)值進(jìn)行累積,并將其統(tǒng)一整合為一個(gè)整體,并通過上述計(jì)算得出的支持度從小到大的順序組合成一個(gè)順序圖。

其次,在mapper 當(dāng)中輸入另外一個(gè)數(shù)值記錄信息,并將其與上一步中的數(shù)值記錄信息進(jìn)行對比,將其中存在的相同數(shù)據(jù)信息統(tǒng)一發(fā)送到相同的節(jié)點(diǎn)當(dāng)中,并對其進(jìn)行頻繁地挖掘,最終得到相應(yīng)的挖掘結(jié)果。

最后,將不同數(shù)據(jù)值的數(shù)據(jù)信息統(tǒng)一到不同的數(shù)據(jù)節(jié)點(diǎn)當(dāng)中,保證在同一時(shí)間當(dāng)中,對應(yīng)的頻繁項(xiàng)集不會(huì)都存在于一個(gè)數(shù)據(jù)節(jié)點(diǎn)上,以此確保挖掘后的數(shù)據(jù)信息具有一定的規(guī)律順序。再結(jié)合關(guān)聯(lián)規(guī)則當(dāng)中的默認(rèn)對關(guān)鍵數(shù)值排序功能,將關(guān)鍵數(shù)值替換為構(gòu)造算法當(dāng)中的某一項(xiàng),將所有的結(jié)果進(jìn)行匯總,得到的數(shù)據(jù)才為通過數(shù)據(jù)挖掘得到的最終結(jié)果。

1.2 篩選網(wǎng)絡(luò)信息數(shù)據(jù)挖掘候選集

完成對基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘規(guī)則設(shè)計(jì)后,在網(wǎng)絡(luò)環(huán)境當(dāng)中對信息進(jìn)行數(shù)據(jù)挖掘時(shí),由于信息量較為龐大,因此挖掘的候選集較多,會(huì)增加挖掘的壓力,造成挖掘結(jié)果無法達(dá)到預(yù)期的問題產(chǎn)生。因此,為了有效提高本文基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法的挖掘效率,需要對其候選集進(jìn)行篩選。根據(jù)網(wǎng)絡(luò)信息數(shù)據(jù)挖掘候選集的性質(zhì),假設(shè)T 為數(shù)據(jù)集P 當(dāng)中的頻繁x 項(xiàng)候選集,則T 的所有x-1 項(xiàng)的子集也可以稱之為使其頻繁x-1 的項(xiàng)目集。因此,進(jìn)一步分析得出,Tx為數(shù)據(jù)集P 當(dāng)中的頻繁x 項(xiàng)候選集,則頻繁x-1 候選集集合Lx-1中包括的x-1項(xiàng)目子集的個(gè)數(shù)一定為x。若某一要素在挖掘的過程中將成為某一個(gè)x 維頻繁項(xiàng)目集當(dāng)中的元素,則該要素在頻繁x-1 項(xiàng)目集合當(dāng)中出現(xiàn)的次數(shù)一定不會(huì)小于x-1。根據(jù)上述分析,對網(wǎng)絡(luò)信息數(shù)據(jù)挖掘候選集進(jìn)行篩選,根據(jù)候選集的性質(zhì),本文提出進(jìn)一步篩選候選集的個(gè)數(shù)算法為:利用Lx-1產(chǎn)生的Cx 之前先對Lx-1進(jìn)行一次裁剪。統(tǒng)計(jì)Lx-1當(dāng)中所有的項(xiàng)目弧線的實(shí)際次數(shù),將Lx-1當(dāng)中包含的出現(xiàn)次數(shù)小于x-1 的項(xiàng)目的項(xiàng)目集刪除,以此得到L’x-1。為了實(shí)現(xiàn)對二者的區(qū)分,將上述過程稱之為裁剪A,即候選集篩選前的裁剪。再利用關(guān)聯(lián)規(guī)則本身提供的裁剪方式將其稱之為裁剪B,即候選集篩選后的裁剪。因此,針對某一需要進(jìn)行挖掘的候選集,其篩選的結(jié)果可通過如下算法產(chǎn)生:首先,對候選集進(jìn)行裁剪A;用Lx-1對其中某一要去的執(zhí)行連接求得候選集當(dāng)中潛在的頻繁項(xiàng)目集;對該項(xiàng)目集執(zhí)行裁剪B,得到的最終結(jié)果即為篩選完成后的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘候選集。

1.3 候選集信息數(shù)據(jù)挖掘

在完成對網(wǎng)絡(luò)信息數(shù)據(jù)挖掘候選集的篩選后,對候選集當(dāng)中的信息進(jìn)行數(shù)據(jù)挖掘,由于候選集當(dāng)中仍然含有海量的數(shù)據(jù)信息,因此本文在挖掘的過程中,將編程思想作為基礎(chǔ),結(jié)合本文上述提出的數(shù)據(jù)挖掘規(guī)則,將網(wǎng)絡(luò)環(huán)境當(dāng)中候選集的海量數(shù)據(jù)進(jìn)行重構(gòu),并對其文本進(jìn)行統(tǒng)一分類。計(jì)算網(wǎng)絡(luò)環(huán)境中候選集的每一類別下的特征出現(xiàn)概率。在實(shí)際挖掘過程中,若頻繁出現(xiàn)某一特征下的數(shù)據(jù)時(shí),則會(huì)造成挖掘的應(yīng)用價(jià)值降低,導(dǎo)致挖掘的數(shù)據(jù)集中占重要數(shù)據(jù)集的百分比下降。因此,為了能夠有效避免這一問題的產(chǎn)生,本文在實(shí)際執(zhí)行關(guān)聯(lián)規(guī)則對網(wǎng)絡(luò)信息候選集進(jìn)行數(shù)據(jù)挖掘時(shí),引入另一種Apriori 算法,對該網(wǎng)絡(luò)環(huán)境當(dāng)中的每一個(gè)候選集的權(quán)重集合理分配,其分配方式可用如下表達(dá)式表示:

公式(1)中,M表示網(wǎng)絡(luò)環(huán)境當(dāng)中的每一個(gè)候選集的權(quán)重分配值;Q 表示該候選集在網(wǎng)絡(luò)環(huán)境當(dāng)中的出現(xiàn)次數(shù);d 表示Apriori 算法系數(shù)。根據(jù)上述公式(1)完成對候選集的權(quán)重分配,并在此基礎(chǔ)上,對網(wǎng)絡(luò)環(huán)境當(dāng)中的所有候選集進(jìn)行分類,以此確保最終挖掘結(jié)果的準(zhǔn)確性,進(jìn)一步提高關(guān)聯(lián)規(guī)則的應(yīng)用意義。通過上述權(quán)重分配結(jié)果,得到的數(shù)值可看作是對候選集的評價(jià)結(jié)果,通過對評價(jià)輸出的數(shù)據(jù)最終值與全局簇中心點(diǎn)數(shù)值是否存在一致性進(jìn)行判斷,完成對網(wǎng)絡(luò)信息數(shù)據(jù)的挖掘。若結(jié)果顯示二者之間存在一致性,則認(rèn)為該數(shù)值具有一定的應(yīng)用價(jià)值,若計(jì)算結(jié)果顯示二者之間不存在一致性,則可利用執(zhí)行智能過濾行為對其進(jìn)行過濾,并將過濾的數(shù)據(jù)看作是冗余數(shù)據(jù),直到完成對網(wǎng)絡(luò)環(huán)境當(dāng)中所有的離群點(diǎn)均挖掘完畢后,完成對其一致性判斷。

2 對比實(shí)驗(yàn)

為進(jìn)一步驗(yàn)證本文提出的基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法在實(shí)際應(yīng)用中的性能,建立如下對比實(shí)驗(yàn):

采用經(jīng)典數(shù)據(jù)集作為實(shí)驗(yàn)樣本,挖掘該數(shù)據(jù)集當(dāng)中的所有關(guān)聯(lián)規(guī)則,對數(shù)據(jù)集分別進(jìn)行從1~9 的標(biāo)號(hào),不同標(biāo)號(hào)對應(yīng)不同的事務(wù),其中標(biāo)號(hào)1 為事務(wù)A、B、E;標(biāo)號(hào)2 為事務(wù)B 和D;標(biāo)號(hào)3 為事務(wù)B 和C;標(biāo)號(hào)4 為事務(wù)A、B、D;標(biāo)號(hào)5 為事務(wù)A 和C;標(biāo)號(hào)6 為事務(wù)B 和C;標(biāo)號(hào)7 為事務(wù)A 和C;標(biāo)號(hào)8 為事務(wù)A、B、C、E;標(biāo)號(hào)9 為事務(wù)A、B、C。當(dāng)前數(shù)據(jù)集當(dāng)中項(xiàng)與項(xiàng)之間存在正相關(guān)時(shí),則認(rèn)為其提升度超過1;當(dāng)項(xiàng)與項(xiàng)之間存在負(fù)相關(guān)時(shí),則認(rèn)為其提升度小于1。將實(shí)驗(yàn)環(huán)境的支持度水平設(shè)置為0.3,置信度水平設(shè)置為0.8,利用Python3.1 的開發(fā)工具,通過編程的方式完成對兩種挖掘方法的應(yīng)用實(shí)現(xiàn)。對比兩種挖掘方法完成挖掘后,得出的數(shù)據(jù)集中占重要數(shù)據(jù)集的百分比,并將實(shí)驗(yàn)結(jié)果記錄如表1 所示。

表1 兩種挖掘方法實(shí)驗(yàn)結(jié)果對比表

表1 中P 值表示為本文方法或傳統(tǒng)方法完成挖掘后,得到的數(shù)據(jù)集中占重要數(shù)據(jù)集的百分比,P 值越大則表示該方法挖掘有效性更強(qiáng);反之,P 值越小則表示該方法挖掘有效性越弱。由表1 可以看出,本文方法的P 值均在90.0%以上,而傳統(tǒng)方法P 值僅在30.0%~70.0%范圍以內(nèi),明顯本文方法P 值更高。從標(biāo)號(hào)1、標(biāo)號(hào)4、標(biāo)號(hào)8 和標(biāo)號(hào)9 可以看出,傳統(tǒng)方法在對事務(wù)較多的數(shù)據(jù)集進(jìn)行挖掘時(shí),其有效性更差,而本文方法在對數(shù)據(jù)集挖掘的過程中不會(huì)受到數(shù)據(jù)集內(nèi)部事務(wù)數(shù)量的影響。因此,通過對比實(shí)驗(yàn)進(jìn)一步證明,本文提出的基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法在實(shí)際應(yīng)用中的挖掘有效性更強(qiáng),能夠完成對更高利用價(jià)值的信息數(shù)據(jù)挖掘,提高數(shù)據(jù)的有效利用率。

3 結(jié)論

數(shù)據(jù)挖掘是當(dāng)前一種多學(xué)科相互交織的新興技術(shù),在各個(gè)行業(yè)領(lǐng)域當(dāng)中的應(yīng)用優(yōu)勢逐漸凸顯,本文通過開展基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)信息數(shù)據(jù)挖掘方法設(shè)計(jì)研究,提出一種全新的挖掘方法,并通過實(shí)驗(yàn)證明了該方法的實(shí)際應(yīng)用效果。當(dāng)前該挖掘方法只針對網(wǎng)絡(luò)環(huán)境,引入如何實(shí)現(xiàn)將該挖掘方法與其它相關(guān)領(lǐng)域的應(yīng)用更加緊密地結(jié)合,是未來研究的重點(diǎn),以此進(jìn)一步擴(kuò)大本文挖掘方法的適用范圍。

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
“苦”的關(guān)聯(lián)
數(shù)獨(dú)的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對我國的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 国产爽妇精品| 日韩视频免费| 国产麻豆福利av在线播放| 久久www视频| 国产精品久久久久鬼色| 欧洲亚洲欧美国产日本高清| 精品1区2区3区| 欧美国产综合色视频| 制服丝袜一区| 91美女视频在线| 亚洲欧美国产高清va在线播放| 亚洲水蜜桃久久综合网站| 91久草视频| 91久久性奴调教国产免费| 亚洲人成网址| 婷婷五月在线| 毛片久久网站小视频| 亚洲最新在线| jizz在线免费播放| 国产白丝av| 亚洲天堂视频网站| 国产激情无码一区二区三区免费| 最新痴汉在线无码AV| 亚洲最黄视频| 日本少妇又色又爽又高潮| 欧美激情伊人| 亚洲欧美在线看片AI| 色欲综合久久中文字幕网| 欧美精品v| 欧美日韩午夜| 亚洲天堂久久久| 国产精品无码久久久久久| 欧美人与牲动交a欧美精品 | 国产成人av一区二区三区| 亚洲午夜福利在线| 国产成人精彩在线视频50| 欧美日韩成人在线观看| 91香蕉视频下载网站| 国产一国产一有一级毛片视频| 亚洲欧洲一区二区三区| 亚洲欧美激情小说另类| 色135综合网| 58av国产精品| 国产欧美高清| 久热re国产手机在线观看| 欧美精品亚洲精品日韩专区va| 波多野吉衣一区二区三区av| 精品国产成人av免费| 人妻21p大胆| 免费国产好深啊好涨好硬视频| 一本大道香蕉久中文在线播放| 亚洲欧美在线综合一区二区三区| 欧日韩在线不卡视频| 超清无码熟妇人妻AV在线绿巨人| 久久国产高清视频| 国产九九精品视频| 欧美日韩在线国产| 色爽网免费视频| a亚洲天堂| 国产欧美精品午夜在线播放| 亚洲视频免费在线看| 欧类av怡春院| 嫩草国产在线| 国产精品入口麻豆| 国产噜噜在线视频观看| 真实国产乱子伦高清| 亚洲娇小与黑人巨大交| 國產尤物AV尤物在線觀看| 亚洲精品日产精品乱码不卡| 国产精品视频久| 无码又爽又刺激的高潮视频| 亚洲AV免费一区二区三区| 亚洲伊人天堂| 丝袜美女被出水视频一区| 国产尤物视频在线| 亚洲高清在线天堂精品| 婷五月综合| 国产福利一区视频| 国产网友愉拍精品视频| 激情无码视频在线看| 亚洲一级毛片在线观播放| 亚洲女同欧美在线|