999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于圖論與最大路徑的關聯(lián)規(guī)則挖掘算法

2021-07-27 07:14:06涂曉斌劉晨寧左黎明
華東交通大學學報 2021年3期
關鍵詞:關聯(lián)規(guī)則

涂曉斌,郭 力,劉晨寧,周 婷,左黎明

(華東交通大學理學院,江西 南昌 330013)

最初提出關聯(lián)規(guī)則的動機是針對購物籃分析問題,除了應用于顧客模式的挖掘,在其它領域也得到了應用,包括工程、醫(yī)療保健、金融證券分析、電信和保險業(yè)的錯誤校驗等。Agrawal[1]首先在1993 年提出了關聯(lián)規(guī)則概念, 隨后在1994 年提出了經(jīng)典的Apriori 算法,該算法第一次實現(xiàn)了在大數(shù)據(jù)集上的關聯(lián)規(guī)則提取,利用逐層搜索的迭代方法找出數(shù)據(jù)庫中項集的關系,形成規(guī)則。 汪曦曦[2]根據(jù)事務數(shù)據(jù)集生成一個布爾矩陣,并得到關聯(lián)規(guī)則圖, 通過判斷節(jié)點之間是否存在通路,產(chǎn)生頻繁項集,該過程需刪除無用的通路。 羅丹等[3]在基于矩陣的改進算法中,刪除了不能連接的項集和非頻繁項集,使矩陣更加簡化,但計算過程避免不了新矩陣的生成。 宋文慧等[4]利用一個上三角矩陣表示事務之間的關系,但在挖掘頻繁項集的過程中生成大量的候選項集。 邊根慶等[5]掃描一次數(shù)據(jù)庫,生成布爾矩陣,賦予項和事務權重,定義了一個權重支持度,通過大量計算得到頻繁項集。 楊秋翔等[6]在布爾矩陣的下方添加一行,用于計算項目支持數(shù),刪除統(tǒng)計值等于0的事務在矩陣中所對應的行,挖掘過程需要反復進行排序和計算操作。 廖紀勇等[7]在生成關聯(lián)規(guī)則的布爾矩陣后,將各列按照支持度計數(shù)進行排序,但每生成一組頻繁k-項集,需要重新排序得到新的矩陣。 田建勇等[8]利用矩陣表示事務間的關系,但在生成頻繁項集的過程中仍然產(chǎn)生候選項集。

這些算法基于矩陣挖掘頻繁項集[9-10],在一定程度上有效減少了對數(shù)據(jù)集掃描的次數(shù),但在挖掘過程中出現(xiàn)了候選項集或新的矩陣,占用大量內(nèi)存。在超大數(shù)據(jù)集下,規(guī)則生成的效率較低。本文以布爾矩陣為基礎,將圖論與最大路徑問題[11-13]相結合,通過增加步長搜索頻繁項集,能有效提高算法效率。

1 Apriori 算法流程

Apriori 算法的主要思想是找出存在于事務數(shù)據(jù)集中最大的頻繁項集,再利用得到的最大頻繁項集與預先設定的最小置信度閾值生成強關聯(lián)規(guī)則。Apriori 算法的步驟如下。

1) 掃描全部數(shù)據(jù)集,產(chǎn)生候選1-項集的集合;

2) 根據(jù)最小支持度, 由候選1-項集的集合產(chǎn)生頻繁1-項集;

3) 當k>1,重復執(zhí)行步驟(4)(5)(6);

4) 由Lk執(zhí)行連接和剪枝操作,產(chǎn)生候選k+1-項集的集合Ck+1;

5) 根據(jù)最小支持度, 由候選k+1-項集的集合Ck+1,產(chǎn)生頻繁k+1-項集的集合Lk+1;

6) 若L 不等于空,則k=k+1,跳往步驟(4);否則,跳往步驟(7);

7) 根據(jù)最小置信度,由頻繁項集產(chǎn)生強關聯(lián)規(guī)則,結束。

2 基于圖和最大路徑的優(yōu)化算法

定義1 最長路徑問題。 指給定圖中找到一條最長長度的簡單路徑問題。 路徑的長度可以通過其邊數(shù)來測量,而在加權圖中通過各邊的權重之和來測量。

定義2 k-path 問題。當規(guī)定長度或步長時,找出一條長度為k 的簡單路徑, 或是在固定步長時,找到一條長度最長的簡單路徑。

這種問題應用在關聯(lián)規(guī)則中,可以將事務作為結點,當兩個事務同時出現(xiàn)時就會相連接而產(chǎn)生一條邊,二者同時出現(xiàn)的頻率作為邊的權值,從而構成一張無向帶權圖。 當規(guī)定步數(shù)為k 且k>2 時,所經(jīng)過的結點數(shù)為k+1,此時,挖掘頻繁k+2-項集的任務即可轉變成尋找一條最大權值的k-path。

2.1 改進的算法

假設數(shù)據(jù)集D 中包含m 個事務T 和n 個項目t,即D={T1,T2,…,Tm},其 中I={i1,i2,…,ik}為k-項集,設置一個最小支持度min_support。

Step1 構造關聯(lián)規(guī)則矩陣。將事務集看作列向量,項目集看作行向量,則按以下規(guī)則可生成一個m 行n 列的事務集布爾矩陣R。

Step2 矩陣的清理。 對于矩陣R 按列求和,得出各個項目在整個數(shù)據(jù)庫的支持度計數(shù),刪去列和小于最小支持度計數(shù)的列,剩下的列所對應的項目名即頻繁1-項集L1,整理后的矩陣記作R′。

Step3 構造關聯(lián)規(guī)則圖。 根據(jù)矩陣R′創(chuàng)建一個簡單無向圖G=(V,E), 頂點為頻繁1-項集中的所有項目,即V=L1={i1,i2,…,ip},p≤n。 對于L1中的項目,兩兩組合,在矩陣R′中進行按位與運算計數(shù),記的數(shù)為W(isit),即有isit=W(isit),其中s,t=1,2,…,p 且s≠t。 對圖G,連接isit=W(isit)≠0 的頂點,則邊isit的權重為W(isit),關聯(lián)規(guī)則圖構建完畢。

Step4 構造待挖掘矩陣。將關聯(lián)規(guī)則圖轉換成鄰接矩陣Mp×p, 此處的圖為無向帶權圖, 鄰接矩陣Mp×p的主對角線一定為0。 在遍歷過程中,為避免元素被重復計算,對矩陣Mp×p進行約簡,將其下三角區(qū)域元素用0 替換,對于小于最小支持度計數(shù)的元素也以0 替換,得到待挖掘的矩陣M′p×p。

Step5 頻繁k-項集的生成。對于頻繁2-項集,篩選圖G 中大于min_support 的邊即可。 去除待挖掘矩陣的全0 行,全0 列。 以矩陣的左上角非0 元素為起點,頻繁k-項集(k>2)所對應的步長為k-2,因該矩陣為上三角矩陣, 在列方向上向下移動,行方向上左右移動,找出權值最大的一條路徑。 連接該路徑中元素所對應的項目,生成頻繁k-項集。 當步長等于max|T|時,停止搜索。

3 算法分析與實驗結果

3.1 實例分析

為了進一步說明算法,給出一個簡單的算例。 已知數(shù)據(jù)庫D 中包含10 個事務,D={T1,T2,T3,…,T10},項目集合為I={a,b,c,d,e,f}, 最小支持度為0.2,事務數(shù)據(jù)集如表1。

表1 事務數(shù)據(jù)集Tab.1 Transactional datasets

1) 掃描數(shù)據(jù)庫D,可構造一個10 行6 列的0-1 事務矩陣R。 根據(jù)所給條件計算出最小支持度計數(shù):min sup_count=min_support×|D|=0.2×10=2。 計算矩陣各列的列和, 刪去小于最小支持度計數(shù)的列,得到一個新的矩陣R′, 也就是頻繁1-項集所對應的矩陣。

由此得到頻繁1-項集L1={{a},,{c},{e},{f}}。

2) 根據(jù)矩陣R′構造一個關聯(lián)規(guī)則圖G=(V,E), 其中V={a,b,c,e,f}; 對矩陣R′各列按位采用“與運算”, 得出邊集為E={ab,ac,ae,af,bc,be,bf,ce,cf,ef},對應的權重如表2。

表2 邊與權重Tab.2 Edges and weight

畫出關聯(lián)規(guī)則圖如圖1。

圖1 關聯(lián)規(guī)則圖Fig.1 Association rule graph

3) 根據(jù)關聯(lián)圖生成鄰接矩陣M,并將小于最小支持度計數(shù)的元素用0 替換。

同時可得到頻繁2-項集:L2={{ab},{ac},{ae},{af},{bc},{bf},{ce},{cf},{ef}}。

4) 頻繁k-項集的生成k>2。搜尋頻繁3-項集,取步長為1。 在去除全0 行、全0 列后,從第1 行開始遍歷,選擇非0 出發(fā)點ab,向矩陣的右下角搜索最大路徑,移至點ac,該路徑所對應的行、列索引名組合成頻繁項集,即{abc}。同理對于下一個點ac,有兩種移動情況,都得到頻繁項集{abc}。 如圖2(A),最終得頻繁項集:{abc},{ace},{abf},{aef}; 遍歷第2 行,出發(fā)點為bc,無法移動,對下一個點進行操作,如圖2(B),得到頻繁項集:{bcf};遍歷第3 行,如圖2(C),得到頻繁項集:{cef}。

圖2 頻繁k-項集的生成過程Fig.2 The process of generating frequent k-itemsets

最終可得頻繁3-項集L3={{abc},{ace},{abf},{aef},{bcf},{cef}}。 當步長等于max|T|時,停止搜索。

3.2 實驗結果分析

為測試改進后的算法性能, 將本文算法與Apriori 算法進行關聯(lián)規(guī)則挖掘實驗。 硬件環(huán)境為Intel(R)Core(TM)i7-10 750 Hz@2.60 GHz,軟件環(huán)境為Windows10 操作系統(tǒng),使用Python 編程實現(xiàn)。本實驗選擇了某商品零售企業(yè)提供的購物籃數(shù)據(jù)集(https://download.csdn.net/download/qq_42878458/16601884?spm=1001.2014.3001.5503),該數(shù)據(jù)包含9 835個購物籃數(shù)據(jù),169 個商品類別。

考慮當事務數(shù)增加時,將改進的算法與傳統(tǒng)的Apriori 算法進行時間的對比,所得實驗結果見圖3。

圖3 改進的算法與Apriori 算法Fig.3 Improved algorithm and Apriori algorithm

由圖3 可知,與Apriori 算法相比,隨著數(shù)據(jù)規(guī)模的增大,改進的算法挖掘頻繁項集的時間在不斷減少,有效改進了傳統(tǒng)算法挖掘效率低的問題。

4 結論

1) Apriori 算法基于多次掃描事務數(shù)據(jù)集來執(zhí)行,在改進的算法中,把事務集看作列向量,項目集看作行向量,只掃描一次數(shù)據(jù)集,并構造出0-1 關聯(lián)規(guī)則矩陣,減少了時間和空間消耗。

2) 對關聯(lián)規(guī)則矩陣進行約簡,刪去列和小于最小支持度計數(shù)的列;對待挖掘矩陣進行約簡,將下三角區(qū)域和小于最小支持度計數(shù)的元素以0 替換,避免重復計算。

3) 結合最大路徑問題,以待挖掘矩陣的左上角非0 元素為起點, 結合圖論中的最大路徑問題,向右下角搜索權值最大的一條路徑,并根據(jù)步長確定頻繁項集, 在時間復雜度上要優(yōu)于傳統(tǒng)的算法,在海量數(shù)據(jù)的處理方面有一定優(yōu)勢。

猜你喜歡
關聯(lián)規(guī)則
撐竿跳規(guī)則的制定
不懼于新,不困于形——一道函數(shù)“關聯(lián)”題的剖析與拓展
“苦”的關聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
數(shù)獨的規(guī)則和演變
“一帶一路”遞進,關聯(lián)民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
規(guī)則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對我國的啟示
主站蜘蛛池模板: 国产精品久久久久无码网站| 久久香蕉国产线看观看式| 青青青视频91在线 | 国产va在线观看免费| 国产精品无码AV片在线观看播放| 亚洲天堂伊人| 成人国产免费| 色婷婷在线影院| 国产精品所毛片视频| 国产视频一区二区在线观看| 久久黄色小视频| 日韩视频福利| 精品無碼一區在線觀看 | 91亚洲精品国产自在现线| 99热国产这里只有精品9九 | 日韩区欧美国产区在线观看| 亚洲第一中文字幕| 欧美精品高清| 欧美成在线视频| 极品私人尤物在线精品首页| 欧洲高清无码在线| 韩日无码在线不卡| 夜夜拍夜夜爽| 国产乱人乱偷精品视频a人人澡| 一级毛片免费不卡在线| 国产成人高清亚洲一区久久| 国内精品九九久久久精品| 99精品免费欧美成人小视频| 亚洲毛片一级带毛片基地| 九月婷婷亚洲综合在线| 丁香六月综合网| 午夜啪啪网| 91啦中文字幕| 99性视频| 国产经典三级在线| 久久99这里精品8国产| 一区二区自拍| 免费人成网站在线观看欧美| 国产福利2021最新在线观看| 色亚洲成人| 精品国产欧美精品v| 亚洲天堂免费在线视频| 免费av一区二区三区在线| 欧美α片免费观看| 国产精品网址在线观看你懂的| 91在线中文| 成人日韩视频| 国产97视频在线| 天天色天天综合网| 狠狠干综合| 国产精品国产主播在线观看| 亚洲自偷自拍另类小说| 91福利国产成人精品导航| 午夜国产小视频| 精品无码国产自产野外拍在线| 日本www色视频| 久久国产精品嫖妓| 免费观看欧美性一级| 国产日韩精品一区在线不卡| 亚洲天堂久久| 91在线精品麻豆欧美在线| 在线看AV天堂| 久久成人免费| 国产91在线|中文| 精品成人一区二区三区电影| 亚洲无码在线午夜电影| 成人午夜亚洲影视在线观看| 国产综合无码一区二区色蜜蜜| 综合人妻久久一区二区精品 | 亚洲国产欧美中日韩成人综合视频| 亚洲午夜国产精品无卡| 少妇精品网站| 99热国产在线精品99| 成人免费网站在线观看| 久久精品国产精品青草app| 国产乱子伦视频三区| 国产精品七七在线播放| 国产又大又粗又猛又爽的视频| 久久99热66这里只有精品一| 欧美一区二区三区欧美日韩亚洲| 欧美日韩第三页| 成年人福利视频|