999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向糖尿病數據集挖掘頻繁項目集和關聯規則*

2022-12-16 09:23:00耿飆梁成全
計算機時代 2022年12期
關鍵詞:關聯可視化規則

耿飆,梁成全

(1.蘇州衛生職業技術學院基礎部,江蘇 蘇州 215009;2.華東療養院信息科)

0 引言

從大型數據庫中提取知識是數據挖掘中的重要內容。在過去的幾十年中,已經開發了一些算法[1-3]。本文對關聯規則算法如基于FP-Growth[4]的算法及其變體,以及CFP-Growth[5]和ICFP-Growth[6],對這三種算法進行比較研究。ICFP-Growth 是CPF-Growth 算法的改進版本,該算法包括三個步驟:多項目支持樹(MIS-Tree)[7]的構建、緊湊型MIS 樹的提取和緊湊型MIS 挖掘樹。本文開發環境:操作系統Windows 10專業版;軟件平臺為Python 3.7.6。數據集是女性的糖尿病數據集(https://www.kaggle.com/mathchi/diabetesdata-set)。它分為兩個“.csv”文件,第一個用于訓練數據集,另一個用于測試數據集。這兩個“.csv”文件包含8 個功能:①懷孕次數;②葡萄糖;③血壓;④皮膚厚度;⑤胰島素;⑥BMI:體重指數;⑦糖尿病譜系函數;⑧年齡。

1 數據庫轉換

該數據集僅包含數值。FP-Growth、CFP-Growth和ICFP-Growth接受事務數據集。糖尿病數據集(數值數據集)被轉換為交易數據集。為了進行這種轉換,每個特征都被可視化,以便了解它在個體數量中的變化,將每個特征重新劃分組合為幾個個體的域。0:表示無糖尿病,1:表示有糖尿病。

第一個特征是年齡,可視化結果如圖1所示。

圖1 年齡與個體數量

在范圍[20,30]中所看到的,與糖尿病患者的數量相比,沒有糖尿病的人數很高,而對于范圍[30,80],0和1兩個類別的人數幾乎相同,所以可將特征的范圍分為兩個域:A1:[0,30]和A2:[30,80]。

第二個特征是血壓,結果如圖2 所示。在[0,40]范圍內,對0 類和1 類有相同的變化,在[40,90]中,0 類最高,在[90,120]范圍內,也有0 類和1 類的相同變體,因此將此特征劃分為三個域:B1:[0,40];B2:[40,90];B3:[90,120]。

圖2 血壓與個體數量

第三個特征是BMI,可視化結果如圖3所示??梢詫MI特征的范圍劃分為兩個域,第一個BMI1:[0,30],其中有0類的個體數量高于1類,第二個是BMI2:[30,60]其中兩個類具有幾乎相同的變化。

圖3 BMI與個體數量

第四個特征是糖尿病譜系函數,可視化在圖4中。在這張圖中,可以看到在[0,0.8]中,0 類的個體數量最多,而在[0.8,2.5]范圍內,相反,類1 的個體數量最多,因此可以將特征分為兩個域:D1:[0,0.8]和D2:[0.8,2.5]。

圖4 糖尿病譜系功能與個體數量

第五個特征是葡萄糖,其可視化結果如圖5所示。在范圍[0,125]內,與類別1 的個體數量相比,類別0 的數量較多,而對于范圍[125,200],對于0 類和1 類個體數量幾乎相同,可以將特征的范圍劃分為兩個域:G1:[0,125]和G2:[125,200]。

圖5 葡萄糖與個體數量

第六個特征是胰島素,結果如圖6 所示。在[0,30]范圍內的胰島素與個體數量的關系中,對于0類和1類有幾乎相同的變化,在范圍[30,150]內,0 類高于1 類,在范圍[150,800]內,也有0 類和1 類的相同變體,因此將此特征劃分為三個域:I1:[0,30];I2:[30,150];I3:[150,800]。

圖6 胰島素與個體數量

第七個特征是Pregnancy,可視化結果如圖7所示。可以將Pregnancies 特征的范圍劃分為兩個域,第一個P1:[0,7],其中0 類的個體數量高于1 類個體的數量,第二個是P2:[7,17]其中兩個類具有幾乎相同的變化。

圖7 懷孕與個體數量

最后一個特征是皮膚厚度,可視化在圖8 中。在這張圖中,可以看到在[0,8]中,兩個類的變化幾乎相同,而在[8,45]中,0 類的個體數量幾乎比1 類多。此外,對于[45,60]范圍,這兩個類也有相同的變化,因此可以將特征分為三個域:S1:[0,8],S2:[8,45]和S3:[45,60]。

圖8 皮膚厚度與個體數量

經過以上分析,可以總結出所有轉換的信息。轉換結果如表1所示。

表1 轉換結果

現在可以使用域將數據集轉換為事務數據集。從轉換中獲得的結果如圖9所示。

圖9 轉換的部分結果

2 關聯規則的提取

首先,必須初始化FP-Growth 的minsupport,以及CFP-Growth和ICFP-Growth的MIS值。要為CFP增長分配MIS值,使用式⑴。

其中MIS(i)是項目“i”的MIS 值。β ∈[0,1]是一個參數,它控制項目的MIS 值,與其頻率相關。f(i)是項目“i”的頻率值。LS 是一個使用指定值,表示允許的最小支持。此外,對于ICFP-Growth,有:

在本實驗中,我們將FP-Growth 的最小支持定義為40,對于CFP-Growth的β等于0.1,LS等于40,對于ICFP-Growth,SD值為0.1,LMS等于50,LMIS等于40。

針對CFP-Growth的MIS值生成結果如表2所示。此外,對于ICFP-Growth,MIS 值初始化的結果在表3中給出。

表2 CFP-Growth算法的MIS值

表3 ICFP-Growth算法的MIS值

在該數據集上應用這三種算法后,獲得了三個包含關聯規則的模型,如圖10所示。

圖10 已獲取關聯規則

我們所提模型的結構是(left)→(right,Confidence)。左為因,右為果。置信度是[0,1] 范圍內的一個數字,它可以表示有多少左可以將我們引向右,有多少原因可以導致結果,使用式⑷計算置信度:

圖11顯示了所有特征之間的關聯規則,但在所給例子中,想要做一個分類模型,因為過濾關聯規則以在結果(右)中只包含代表類的項目('0'和'1'),結果如圖11所示。

圖11 關聯規則結果

在圖中有分類模型的關聯,例如有這個關聯規則('A2','BMI2','G2','P2')→(('1'),0.89)。這表示如果個人的年齡在[30,80]之間,則為A2。BMI2體重指數在[30,60]范圍內,G2血漿葡萄糖濃度在口服葡萄糖耐量試驗中2小時在[125,200]范圍內,P2懷孕次數在[7,17]之間,因此可以看到該個體患有糖尿病,置信度為0.89。

3 性能評價

FP-Growth、CFP-Growth 和ICFP-Growth 這三種算法使用與在訓練數據集上應用的相同預處理進行評估,以將數值數據集轉換為事務數據集。之后,從數據集中取出一個事務,并計算測試事務與模型關聯規則左側的距離。在這種情況下,使用一種方法來計算距離。例如,有T測試交易和G模型中存在的關聯規則的左側。T=['P1','G1','B2','S2','I3','BMI2','D2','A2'],G=['A1','B3','BMI2','D1','G2','I2','P1']。

首先,在數據集中有八個特征。將距離初始化為8,并檢查T 的每個項目是否存在于G 中,并且對于每個項目存在,將距離減1。在這個例子中,有P1存在于T 和G,所以距離是7。另外,G1 不存在于G,所以仍然有距離是7,而B2、S2、I3、D2、A2 也沒有。t 存在于G 中,有BMI2存在,所以將距離減1,這時有距離等于6,G 和T 之間的距離是6。另外,在計算距離之后,選擇三個closet 關聯規則,計算誰對“0”和“1”投了多少票,然后選擇票數最高的類。在這個測試過程之后,計算每個算法的準確性。三種算法FP-Growth、CFP-Growth和ICFP-Growth的準確率分別為51.30%,57%和60.5%。

4 總結

頻繁項目集挖掘是數據挖掘中的一個重要課題。本文實現了三種關聯規則算法,即FP-Growth、CFPGrowth 和ICFP-Growth。這些算法使用python 編程語言提取糖尿病數據集上的頻繁項目集。實驗結果表明,ICFP-Growth比其他兩種算法更準確。

猜你喜歡
關聯可視化規則
基于CiteSpace的足三里穴研究可視化分析
撐竿跳規則的制定
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
主站蜘蛛池模板: 曰韩人妻一区二区三区| 亚洲精品无码抽插日韩| 色香蕉影院| 婷婷成人综合| 人妻丰满熟妇αv无码| 自慰网址在线观看| 囯产av无码片毛片一级| 超清无码熟妇人妻AV在线绿巨人 | 福利视频一区| 免费人成在线观看视频色| jizz国产视频| 看你懂的巨臀中文字幕一区二区| 激情在线网| 国产欧美日韩资源在线观看| 青草视频在线观看国产| 色精品视频| 亚洲国产中文综合专区在| 亚亚洲乱码一二三四区| 国产欧美日本在线观看| 一级福利视频| 99精品视频九九精品| 秋霞午夜国产精品成人片| 亚洲综合中文字幕国产精品欧美| 激情综合婷婷丁香五月尤物| 国产亚洲视频播放9000| 好吊妞欧美视频免费| 精品少妇人妻一区二区| 成人无码一区二区三区视频在线观看| 91黄视频在线观看| 中国毛片网| 午夜不卡福利| 亚洲大学生视频在线播放| 97人人模人人爽人人喊小说| 国产免费羞羞视频| 亚洲免费三区| 国产成人精品日本亚洲77美色| 欧美三级自拍| 国模极品一区二区三区| 免费a级毛片视频| 亚洲欧美精品一中文字幕| 亚洲最大情网站在线观看 | 国内熟女少妇一线天| 国产网站免费| 亚洲午夜国产片在线观看| 国产美女精品一区二区| 91年精品国产福利线观看久久 | 国产又色又刺激高潮免费看| 精品91视频| 无遮挡国产高潮视频免费观看| 亚洲综合中文字幕国产精品欧美| 婷婷开心中文字幕| 鲁鲁鲁爽爽爽在线视频观看| 99re这里只有国产中文精品国产精品| 日本一区二区三区精品视频| 在线观看亚洲国产| 亚洲看片网| 中文字幕丝袜一区二区| 国产日韩久久久久无码精品| 欧美激情首页| 9966国产精品视频| 亚洲欧洲国产成人综合不卡| 亚洲精品欧美日韩在线| 久久夜色撩人精品国产| 国产门事件在线| 丰满的少妇人妻无码区| 色综合狠狠操| 中国黄色一级视频| 中文字幕免费播放| 亚洲 欧美 偷自乱 图片| 精品伊人久久久香线蕉| 久久精品中文字幕少妇| 欧美亚洲国产精品第一页| 国产在线精品人成导航| 日本不卡在线视频| 污视频日本| 萌白酱国产一区二区| 青青青视频91在线 | 国产成在线观看免费视频| 国产精选小视频在线观看| 精品无码一区二区在线观看| 成人午夜视频免费看欧美| 99久久精品免费看国产免费软件|