999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Apriori算法的關聯規則分析

2019-10-08 09:03:43王曉麗奚克敏劉占波
軟件 2019年2期
關鍵詞:數據挖掘

王曉麗 奚克敏 劉占波

摘? 要: 用糖尿病患者患病記錄作為實例詳細闡述了基于Apriori算法的關聯規則問題。探討了Apriori算法在關聯規則中求解頻繁項集的基本思想,并用實例描述了算法的執行過程。

關鍵詞: Apriori;關聯分析;數據挖掘;醫學信息學

中圖分類號: TP393.4? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.02.005

【Abstract】: This paper elaborates the association rule based on Apriori algorithm taking the diabetic patient's disease record as a case. The core idea of association rule based on Apriori algorithm for mining large itemsets is discusses, furthemore the example show the execution process of the algorithm.

【Key words】: Apriori; Association analysis; Data mining; Medical informatics

0? 引言

1993年,Agrawal等人借鑒了Petr Hjek[1]的邏輯推理思想,提出了關聯規則的概念[2]。Agrawal舉出了一個最典型的使用案例,超市購物籃的購物分析(basket analysis)。在顧客的大量購物中超市發現了一個有趣的現象,40%左右的年輕男士購買完尿布也會購買啤酒。于是超市將尿布和啤酒放在一起進行促銷,使得尿布和啤酒的銷量大增。利用類似的關聯發現超市可以獲得各種關于顧客的相似商品購買習慣,這樣能夠幫助其開發更好的營銷策略從而利于商品銷售[3]。關聯規則的實際應用遠不僅如此,在金融分析、工程建筑、鐵路航空、大數據、網絡安全、醫療衛生、生物醫藥等各個領域都與關聯分析緊密相關。目前關聯規則已成為數據挖掘的一個重要研究方向, 大量的科研人員改進相關算法并將其應用于具體案例中。在關聯規則各種算法中,Agrawal等人在1994年發表的Apriori算法是目前影響最為深遠的算法之一[4],本文基于Apriori算法對經典的關聯規則進行分析并對其執行過程進行探討。

1? 關聯規則及其抽象描述

在實際中患者往往會同時患有多種疾病,很多疾病都是由并發癥所引起,比如糖尿病往往會同時與高血壓、高血脂、冠心病、胰腺炎、肥胖癥、痛風、酒精性肝炎、周圍神經炎等相互關聯,還會引起視網膜病變,腎臟及神經性病變等并發癥[5]。醫療從業人員往往會在這些大量的患者電子病例數據庫中尋找這些疾病的相互關聯性,疾病的種類可能是成千上萬,電子病例數據庫中的病例數量可以達到幾十萬條以上[6]。

為了描述方便,將幾萬種疾病種類簡化為5種:糖尿病,高血壓,脂肪肝,白內障,腎病。即假設患者病例中只患這5種或5類疾病,并假設這5種疾病在病例數據庫中按照字典序號排列,既糖尿病排在高血壓的前面。將病例數據庫中的幾十萬條病例簡化為10條并去除雜項。具體描述如圖1所示。

2? 關聯規則暴力算法

根據關聯規則的基本定義可以得到最基本的求解關聯規則簡單的暴力算法:對于m個項組成的集合,首先用窮舉法生成所有的關聯規則,然后對每一個關聯規則掃描數據庫計算出支持度和置信度,和規定的閾值進行比較來生成強關聯規則。根據排列組合可以知道利用窮舉方式生成的所有關聯規則數量為:,并且每一個關聯規則計算支持度和置信度都需要掃描事務數據庫一次,掃描事物數據庫的時間復雜度將達到指數級。

利用暴力算法亦可先窮舉出所有的頻繁項集,共有個,然后用頻繁項集再生成強關聯規則??梢钥闯鲞@2種方法的時間復雜度都是指數級。

如果設定的最小支持度和最小置信度很小接近于零,那么暴力算法窮舉出的所有關聯規則都是強關聯規則,任何改進算法同暴力算法一樣都需要生成所有的關聯規則。在實際應用中給定的閾值不是很低時,求得的強關聯規則往往沒有那么多,尤其是頻繁項集數可能很少。對于一個幾十萬條記錄,成千上萬種圖書的圖書管理系統尋找關聯規則,利用時間復雜度是指數級的暴力算法顯然不是很好的選擇。這就需要我們另外尋找更為高效的算法應用于關聯分析。

3? Apriori算法

3.1? 算法基本思想

強關聯規則的生成需要滿足2點:最小支持度,最小置信度。于是可以通過某種方法先生成滿足最小支持度的項集,即頻繁項集,不頻繁項集及所對應的關聯規則可以迅速排除。然后通過頻繁項集來得到強關聯規則,生成方法可以簡單對每個頻繁項集用暴力法生成其每個非空子集,然后用該集合作為關聯規則的前項,用頻繁項集和子集的差集作為關聯規則后項,如果其置信度大于最小置信度則生成強關聯規則。Apriori算法是快速生成頻繁項集的一種算法。

Apriori算法首先將項集I中的每一項生成1-項集(生成的項集可能是頻繁項集,也可能不是頻繁項集,稱之為候選項集),然后掃描數據庫D,將所有1-項集和最小支持度進行比較生成頻繁1-項集。將頻繁1-項集中的項兩兩拼接生成候選2-項集,再次掃描數據庫D,將所有由頻繁1-項集產生的候選2-項集和最小支持度進行比較生成頻繁2-項集。通過頻繁2-項集生成候選3-項集,然后生成頻繁3-項集…直到沒有新的頻繁項集產生為止。在頻繁(k-1)- 項集拼接成候選k-項集的過程中,需要找出前k-2項相同,最后一項不同的項集進行依次兩兩拼接,由于項集中的項已經按照字典序號排列,因此生成的項集不會產生重復項。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 无码专区在线观看| 国产精品自在自线免费观看| 国产91丝袜| 日韩黄色在线| 国产亚洲精久久久久久无码AV| 久无码久无码av无码| 成年人免费国产视频| 亚洲天堂免费在线视频| 美女潮喷出白浆在线观看视频| 亚洲va视频| 亚洲欧美日韩成人在线| 久久精品中文字幕免费| 国产在线一二三区| 午夜小视频在线| 性欧美在线| 国产成人盗摄精品| 亚洲乱码视频| 国产一区二区色淫影院| 国产精品13页| 老司国产精品视频| 99视频国产精品| 久久久久88色偷偷| 欧美一级黄色影院| 国产在线日本| 国产成人8x视频一区二区| 日韩大片免费观看视频播放| 三上悠亚一区二区| 精品三级在线| 国产精品福利导航| 国产人免费人成免费视频| 久久精品亚洲专区| 国产在线专区| 91久久大香线蕉| 午夜人性色福利无码视频在线观看| 就去吻亚洲精品国产欧美| 全色黄大色大片免费久久老太| 免费av一区二区三区在线| 国产二级毛片| 99在线国产| 色呦呦手机在线精品| 91视频国产高清| 欧美一级特黄aaaaaa在线看片| 中国国产A一级毛片| 国产精品 欧美激情 在线播放| 91欧美亚洲国产五月天| 色国产视频| 亚洲人人视频| 国产乱视频网站| 亚洲av无码专区久久蜜芽| 999国产精品永久免费视频精品久久| 午夜福利视频一区| 青青草原国产精品啪啪视频| 91在线无码精品秘九色APP| 亚洲国产亚综合在线区| 青青草久久伊人| 97综合久久| 国产三级韩国三级理| 日韩毛片免费| 久久伊人操| 国产真实自在自线免费精品| 国产毛片高清一级国语 | 综合亚洲网| 四虎国产精品永久一区| 色偷偷综合网| 丁香六月综合网| 五月天久久综合| 欧美在线综合视频| 亚洲最新在线| 国产一级毛片网站| 97精品伊人久久大香线蕉| 免费观看成人久久网免费观看| 日韩精品高清自在线| 久久久久无码国产精品不卡| 成年网址网站在线观看| 欧美在线一二区| 成人在线第一页| 丁香婷婷久久| 亚洲人成成无码网WWW| 一本大道视频精品人妻| 欧美日本在线播放| 国产成人精品高清在线| 亚洲无码精彩视频在线观看|