999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進的BPSO算法的關聯規則挖掘

2021-04-04 07:48:44
計算機與數字工程 2021年3期
關鍵詞:關聯規則實驗

(江南大學 無錫 214122)

1 引言

關聯規則指數據庫中超過指定最小支持度和最小置信度的項目的集合,作為數據挖掘的重要組成部分它一直是學者的研究熱點[1]。隨著挖掘問題變得越來越復雜,諸如Apriori算法與FP-growth算法等傳統算法出現了缺點,其中最典型的是由大量候選項集和復雜的數據結構所造成的時間和內存的成本,導致挖掘效率較低[2]。因此許多學者開始使用啟發式算法,粒子群優化算法(PSO)是應用較為廣泛的算法之一[3]。

有許多研究將啟發式算法應用于關聯規則挖掘。例如,Chen等使用PSO算法從高維數據集中挖掘關聯規則[4],Rom提出的基于遺傳算法的關聯規則可避免挖掘過程中發現的無用個體[5],BADA等融合了PSO算法和蟻群算法(ACO),將事務數據轉換為二進制數據后,從數據集中挖掘頻繁項集[6],Kuo等使用PSO算法快速有效計算出關聯規則的最小支持和置信度[7]。

然而,大多數改進的PSO算法重點考慮粒子全局和局部搜索能力,而忽略了粒子種群和搜索范圍帶來的影響。因此,本文提出了一種改進的二進制粒子群優化算法(GRBPSO),根據適應度函數對粒子初始種群進行預處理,并以頻繁項集的性質為依據對粒子搜索空間進行縮減,減少算法運行時間。

2 基本概念

2.1 頻繁項集

頻繁項集的有關定義為I={i1,i2,…,im}是m個不同項目的集合,每個ik稱為一個項目[8]。數據集D={t1,t2,…,tn}是n個不同事務的集合,每個tk稱為一個事務,其中tk?I。集合X?I稱為項集,|X|表示項集中的項目數,長度為1的項集稱為1項集。項集X的支持度表示為sup(X),其含義是項集X在數據集D中出現的實際頻率,若sup(X)≥最小支持度(min_sup),則稱項集X是頻繁項集。

頻繁項集挖掘的目標是根據給定的最小支持度(min_sup)挖掘出所有的頻繁項集。根據以上描述,可推出性質1。如下所示:

性質1:?Xi?X?sup(Xi)≥sup(X)

因此,當Xi?X時,若Xi不是k維頻繁項集的子集,則項集X也不是k維頻繁項集的子集。

2.2 關聯規則

關聯規則是形如A?B的蘊含式[10],其中A?I,B?I,并且A∩B=?。

一般使用三個指標來度量關聯規則,分別是支持度(support)、置信度(confidence)和提升度(lift)[11]。根據這三個指標可以篩選出滿足條件的關聯規則。

以A?B這個關聯規則為例來說明:

支持度(support):表示同時使用A、B的人數占所有用戶數的比例。如果用P(A)表示使用A的用戶比例,那么support=P(A&B)。

置信度(confidence):表示使用A的用戶中同時使用B的比例,即同時使用A和B的人占使用A的人的比例,即confidence=P(A&B)/P(A)。

提升度(lift):表示“使用A的用戶中同時使用B的比例”與“使用B的用戶比例”的比值,即:lift=(P(A&B)/P(A))/P(B),提升度反映了關聯規則中的A與B的相關性,提升度大于1且越高表明正相關性越高,提升度小于1且越低表明負相關性越高,提升度=1表明沒有相關性[12]。

2.3 二進制粒子群優化算法(BPSO)

PSO算法在實現過程中隨機選取一群粒子作為初始粒子群,搜索空間中的每個粒子都是一個可能解,算法通過迭代找到最優解。在算法迭代過程中粒子以兩個極值為依據來更新自己,第一個極值稱為個體極值,是粒子個體找到的最優解;第二個極值稱為全局極值,是整個種群目前找到的最優解。

離散二進制粒子群算法是J.Kennedy和R.C.Eberhart在1997年提出的[13]。PSO算法設計之初是為了優化連續函數的,但實際生活中待解決的問題大多是基于離散空間上的組合優化問題,因此提出BPSO算法以解決這一問題。

BPSO算法在離散粒子群算法基礎上,約定位置向量、速度向量均由0、1值構成[14]。粒子根據式(1)更新自己的速度,根據式(2)和式(3)更新自己的位置,式(2)為映射函數:

其中,Vi為第i粒子的速度,pi為個體極值,G為全局極值,ω為慣性因子,C1,C2為學習因子,φ1和φ2為[0,1]之間的隨機數。為在d維空間中第i個粒子軌跡當前為0的概率,為在d維空間中第i個粒子位置變化的絕對概率,rand()為[0,1]之間的隨機數。

3 GRBPSO算法

3.1 適應度函數

適應度函數是用來評價給出的候選解即粒子的好壞的[15]。在PSO算法中,適應度函數往往具有驅動粒子前進的作用,在搜索空間中指出粒子的前進趨勢。適應度函數的設計依賴于實際問題,針對不同問題,適應度函數的設計也不盡相同。

在關聯規則的研究中支持度是評價一組關聯規則是否有效的基礎指標。支持度代表了項目重復出現在一組事務數據庫中的次數。現實中數據庫內的數據往往具有多樣性和復雜性,為了在實際項目中挖掘有意義的關聯規則,本文算法將粒子出現的實際次數作為其適應度值,粒子的適應度函數如式(4)所示:

其中,support(i)為粒子種群中粒子的實際支持度也即實際出現頻率。

在GRBPSO算法中,個體極值指的是粒子群中各個粒子在此次迭代條件下的支持度,全局極值指的是在此次迭代條件下整個種群中全部粒子的最優支持度,算法在每次迭代中修改這兩個極值,假設某個粒子的個體極值不小于最小支持度,則將該粒子列為候選項集。

3.2 初始粒子群預處理

在頻繁項集挖掘過程中數據集中可能存在某些項目出現頻率較低的現象,這就可能導致隨機選取的粒子種群質量不高,進而影響挖掘結果及挖掘效率。在GRBPSO算法中,首先對初始粒子群進行預處理,保證一定比例的粒子具有合理的初始適應度。

對初始粒子群進行預處理的方式是將種群中出現頻率較低的粒子位置設置為0,首先以確保初始粒子群具有適當的適應度,提高初始種群的質量;同時在二進制數據集中也可減少粒子的數量和空間維數。在GRBPSO算法中,結合關聯規則的相關定義,可根據用戶設置的最小支持度值修改對應粒子的位置值,修改方式為若粒子的出現頻率即初始適應度值小于最小支持度,則將該粒子的位置更新為0。

3.3 縮減搜索空間

利用BPSO算法在大數據集中挖掘關聯規則意味著搜索空間較大,而搜索空間對算法運行效率有著重要的影響,因此,本文設計一種縮減搜索空間的優化策略,減少搜索空間,提高算法運行效率。

假設GRBPSO算法在發現頻繁項集階段,G為當前全局極值。在此期間,任一支持度小于G的項目將會被剪枝,即?i∈I,若sup(i)<sup(G),則項目i被剪枝。于是,?i∈I且sup(i)<sup(G),從性質1可知,?X?I且i∈X,可推出sup(X)<sup(G) 。也就是說,若項集中含項目i,則需更新該項集,將其中的項目i剪枝。

4 實驗及分析

為了驗證GRBPSO算法的正確性及有效性,本文對大量數據集進行了實驗,并給出在6個數據集上的實驗結果及分析比較。實驗環境為2.10GHz AMD R5 CPU,8G內存和Windows 10操作系統,算法在VS2015平臺上采用C++語言編程實現。數據集分別為Connect、Mushroom、Retail、Pumsb、Ko?sarak、BMS-POS,數據集下載地址為http://fimi.uantwerpen.be/data/。數據集展示如表1所示。

表1 實驗數據集

4.1 實驗一

在實驗一中,從種群規模方面對GRBPSO算法與BPSO算法進行比較。算法的參數設置為最大迭代次數N=10,慣性因子ω=0.2,學習因子C1=C2=1,粒子最大速度為2。算法中的最小支持度設置為0.3,最小置信度(min_conf)設置為0.6,最小提升度(lift)設置為4。實驗結果如圖1所示。

圖1 算法運行時間對比

圖1表示在種群規模為可變因素的情況下兩種算法在6個數據集上挖掘關聯規則的時間對比。由圖1可知,兩個算法在種群規模不斷增加的情況下,運行時間也隨之增加,原因是種群規模的擴大導致算法中對適應度的計算變得復雜,進而影響算法的運行時間。但由圖1可知本文算法的運行時間始終小于BPSO算法,并隨著規模變大這種優勢愈加明顯,因此充分說明本文算法在種群規模變化的前提下是高效的。

4.2 實驗二

在實驗二中,從迭代次數上對GRBPSO算法與BPSO算法進行比較。算法的參數設置為種群規模K=80,慣性因子ω=0.2,學習因子C1=C2=1,粒子最大速度為2。算法中的最小支持度設置為0.3,最小置信度(min_conf)設置為0.6,最小提升度(lift)設置為4。實驗結果如圖2所示。

圖2表示在迭代次數為可變因素的情況下兩種算法在6個數據集上挖掘關聯規則的時間對比。由圖2可知,兩個算法在迭代次數的不斷增加下,運行時間也隨之增加,并由圖2可知本文算法的運行時間始終小于BPSO算法,并隨著迭代次數的變多在部分數據集中這種優勢愈加明顯,因此充分說明本文算法在迭代次數變化的前提下是相對高效的。這是因為大數據集導致搜索空間變大,GRBPSO算法在對初始種群進行預處理時可一定程度地縮減搜索空間,并同時采用了優化策略對搜索空間進行裁剪,大大減少粒子的飛行空間,在一定程度上提高了關聯規則挖掘效率。

圖2 算法運行時間對比

4.3 實驗三

在實驗三中,比較GRBPSO算法與同類型算法的挖掘效果。本文以挖掘頻繁項集的數量作為參考值,同類型算法分別為PSOFIM算法[16]、GA-Apriori算法及PSO-Apriori算法[17]。根據文獻[17],表2中的對比算法均為在最優參數下算法挖掘的數量,本文算法的挖掘結果具有不確定性,原因是算法在初始種群的選擇上具有隨機性。為說明本文算法的可行性和穩定性,本次實驗在6個數據集中均重復10次,實驗的最終數據為10次實驗的平均結果。算法的參數設置為種群規模K=80,迭代次數N=20,慣性因子ω=0.4,C1=C2=1,Vmax=3,算法的最小支持度均為0.2,實驗對比結果如表2所示。

表2 各算法挖掘到的頻繁項集數量(/個)

由表2可知,以數據集Retail為例本文算法的頻繁項集挖掘數量少于其他同類型的3個算法,但在其他數據集中本文算法表現較為優越,尤其是在Connect數據集和Mushroom數據集中表現突出。在Retail數據集中本文算法挖掘數量少于其他3種算法是由Retail數據集的特征引起的,在Retail數據集中事務數據庫的平均長度較小且數據分布較為零散,數據集中事務屬性數較少,在進行頻繁項集挖掘時本文算法對初始粒子群的選擇是具有概率性的,因此在預處理過程中粒子位置為0的概率變大,導致挖掘結果不佳。但從整體來看,本文算法在大數據上挖掘頻繁項集是可行的,并且挖掘結果也是可觀的。

5 結語

本文提出了一種基于改進的二進制粒子群優化算法的關聯規則挖掘方法。首先結合實際情況,將粒子支持度作為GRBPSO算法的適應度函數;然后根據最小支持度對初始種群進行處理,提高初始種群質量;最后根據優化策略對搜索空間進行縮減。通過實驗證明,本文提出的GRBPSO算法在挖掘關聯規則上是可行的且高效的。

猜你喜歡
關聯規則實驗
記一次有趣的實驗
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
做個怪怪長實驗
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: a级毛片一区二区免费视频| 国产区在线看| 国产AV无码专区亚洲精品网站| 99re热精品视频中文字幕不卡| 孕妇高潮太爽了在线观看免费| 亚洲色图另类| 多人乱p欧美在线观看| 中文字幕日韩丝袜一区| 丝袜国产一区| 国产精品熟女亚洲AV麻豆| 国产精品性| 在线欧美国产| 成人午夜精品一级毛片| 国产精品亚洲日韩AⅤ在线观看| 精品欧美一区二区三区在线| 国产裸舞福利在线视频合集| 久久久久亚洲精品无码网站| 国产美女精品一区二区| 无码精品福利一区二区三区| 三上悠亚精品二区在线观看| 国内99精品激情视频精品| 在线一级毛片| 免费a在线观看播放| 久久婷婷六月| 精品1区2区3区| 欧美性猛交xxxx乱大交极品| 欧美a级在线| 三级视频中文字幕| 91美女在线| 国产精品成人AⅤ在线一二三四| 中文纯内无码H| 强奷白丝美女在线观看| 天天综合网在线| 国产精品99久久久| 国产成人精品一区二区不卡| 国产精品欧美激情| 久久精品国产国语对白| 欧美成人区| 精品无码人妻一区二区| 97免费在线观看视频| 亚洲va视频| 中文字幕在线免费看| 人人爽人人爽人人片| 免费无码AV片在线观看中文| 激情亚洲天堂| 亚洲娇小与黑人巨大交| 国产女人喷水视频| 国产精品久久久久久久伊一| 亚洲五月激情网| 国产精品自在在线午夜| 亚洲精品人成网线在线| 97精品国产高清久久久久蜜芽| 日韩视频福利| 免费又黄又爽又猛大片午夜| swag国产精品| 亚洲无码一区在线观看| 久久国产精品电影| 天堂成人在线| 尤物特级无码毛片免费| 重口调教一区二区视频| 国产成人精品18| 亚洲精品无码AⅤ片青青在线观看| 日本五区在线不卡精品| 国产精品欧美在线观看| 91精品伊人久久大香线蕉| 欧美综合区自拍亚洲综合天堂| 国产成人AV综合久久| 国产精品九九视频| AV无码国产在线看岛国岛| 国产传媒一区二区三区四区五区| 精品无码专区亚洲| 日韩最新中文字幕| 国产精品制服| 国产精品一区二区无码免费看片| 一本大道无码日韩精品影视| 97色伦色在线综合视频| 久久伊人久久亚洲综合| 美女一级毛片无遮挡内谢| 91精品国产一区自在线拍| 免费aa毛片| 日韩一级毛一欧美一国产| 五月婷婷丁香综合|