999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于頻繁模式增長算法的2型糖尿病患病風險預測的分析研究

2016-07-23 06:13:28哲葉廣健王能才
中國醫學裝備 2016年5期
關鍵詞:風險分析數據挖掘糖尿病

韋 哲葉廣健王能才

?

基于頻繁模式增長算法的2型糖尿病患病風險預測的分析研究

韋 哲①②葉廣健①②王能才①

[摘要]目的:分析基于頻繁模式增長(FP-growth)算法的2型糖尿病患病風險預測,避免經典Apriori算法在2型糖尿病相關危險因素分析中執行效率低的缺陷。方法:選取蘭州某醫院醫學信息科2009年1月至2014年3月的2型糖尿病患者的首次病程記錄資料及其健康數據檔案,根據2型糖尿病相關危險因素分析中的需要,引入更適用于2型糖尿病相關危險因素分析的FP-growth算法。采用C#語言對經典Apriori算法和FP-growth算法進行編程,對比分析兩種算法的執行效率。結果:通過對比分析得到兩種算法在運行時間與記錄數據以及運行時間與支持度兩個方面的對比值。結論:FP-growth算法在預測2型糖尿病相關風險因素的分析中執行效率更高,能夠找到更多的糖尿病風險因素。

[關鍵詞]數據挖掘;Apriori算法;關聯規則;頻繁模式增長算法;風險分析;糖尿病

韋哲,男,(1963- ),博士,高級工程師。蘭州軍區蘭州總醫院醫學工程科、蘭州理工大學電信學院,從事醫學信息檢測和處理方面的研究工作。

[First-author’s address] 1.Lanzhou General Hospital, Lanzhou Military Area Command, Lanzhou, Gansu,730050, China. 2.School of Electrical Engineering and Information Engineering, Lanzhou University of Technology,Gansu, Lanzhou 730050,China.

糖尿病(diabetes mellitus,DM)是由胰島素分泌缺陷和(或)胰島素作用缺陷所引起的,并以慢性高血糖伴碳水化合物、脂肪和蛋白質的代謝障礙為特征的慢性疾病[1]。2型糖尿病(diabetes mellitus,type 2)又稱為非胰島素依賴型糖尿病[2]。非胰島素依賴型糖尿病的發病機制主要是由于人體的胰島素抵抗并胰島素分泌不足所導致的,2型糖尿病患者自身的β細胞并無自身免疫性缺陷,其發病特點是成年發病,起病比較緩慢,病情也較輕,其比例也占全部糖尿患者的絕大多數[3-4]。據統計,1985年全球糖尿患者有3000萬,到1995年這一數字增長到1.35億,2000年達到1.71億,預測到2025年將突破3億。龐大的數字和越來越快的增長速度充分表明對2型糖尿病的研究具有重要的意義[5]。

在挖掘2型糖尿病相關危險因素之間關聯規則時發現,由于Apriori算法自身的缺陷:①每生成1個頻繁項集就則須掃描一次數據庫[6];②由(k-1)頻繁項集生成k項候選項集時,會產生許多候選項集,而許多候選項集日后并無需應用,使得2型糖尿病相關危險因素的數據挖掘等待時間較長,執行效率較低。本研究針對2型糖尿病相關危險因素關聯規則挖掘數據量大、變量屬性眾多等特點,引入一種適用于2型糖尿病相關危險因素關聯分析的頻繁模式增長(frequent pattern growth,FP-growth)算法[7]。

1 建立挖掘2型糖尿病相關危險因素數據規則

1.1 FP-growth算法

FP-growth算法是一種不產生候選挖掘頻繁項集的,基于頻繁樹(FP-tree)的算法。FP-growth算法采用分治策略,先將提供原始事務數據庫壓縮到一棵頻繁模式樹(FP-tree)中,且保留項集關聯信息,然后將新的數據庫按條件劃分,每個頻繁項對應一個條件[8]。

FP-growth算法分為兩個過程:①根據原始事務數據庫構造樹形;②在樹中遞歸挖掘。

(1)FP-growth算法中第一步為經典Apriori算法中生成候選項集L1,其產生出基本樹形結構(FP-gree),是FP-growth算法的核心步驟,且為本研究第一次掃描原始數據庫→再一次掃描數據庫,利用每個事務中的頻繁項構選樹形,找出節點,按L1規定的順序加入樹形中。

(2)通過遞歸搜索發現一些滿足條件的短模式,并與后綴連接得到長模式[9]。在經典Apriori算法中,連接的定義是:為了找到頻繁項集合Lk,需要連接Lk-1與自己產生連接候選項集k-項集的集合。該候選頻繁項集合記作Ck。設l1和l2是Lk中的項集。記li[j]表示li的第j項。執行連接過程Lk-1∞Lk-1,其中要求Lk-1的元素l1和l2可以連接,如果:(l1[1]=l2[1])^(l1[2]=l2[2])^…^(l1[k-2]=l2[k-2])^(l1[k-1]^l2[k-1]),連接l1和l2產生的結果項集是l1[1],l1[2]……l1[k-1],l1[k-1]。記號li[j]表示li的第j項。同理,在FP-growth算法中,連接是為了找到在某一特定條件下的頻繁項集合。但基于第一步建立的FP-tree,已經不必每一次都掃描原始數據庫,而是搜索條件頻繁項集,條件頻繁項集一般情況要比原始數據庫小很多,這樣就極大降低了搜索開銷,提高了算法的效率[10]。

1.2 數據挖掘方法

本研究在對2型糖尿病相關危險因素進行數據挖掘時,選取蘭州某醫院醫學信息科提取了3萬余份2型糖尿病患者的首次病程記錄及健康數據檔案[11]。選取的相關因素分別為:年齡、性別、收縮壓、舒張壓、血脂、遺傳病史、飲食、腰臀比、吸煙情況、飲酒情況、運動情況、學歷和工作性質[3,12-13]。在對這些原始數據進行數據預處理時,將選定的相關危險因素轉化為34個屬性值,如年齡在>65歲、40~65歲、<40歲、高收縮及高舒張壓等。而如此龐大的數據量如果采用經典Apriori算法,其計算量是巨大的,會消耗很多電腦I/O開銷,并且耗時巨大,因此本研究嘗試引入FP-growth算法。

1.3 FP-growth算法描述

FP-growth算法首先根據原始數據庫構造FP-tree,然后在FP-tree中挖掘頻繁模式。FP-tree是一種壓縮數據結構,由以下3部分構成。

(1)FP-tree包含1個根節點(null),1個項目前綴子樹(item prefix subtree)集合作為根節點的孩子,1個頻繁項頭表(frequent item header table)。

(2)項前綴子樹中的每個節點由項目名、計數和節點鏈3個域構成。分別表示節點代表的項的名稱,本節點為止的路徑的事務數,指向FP-tree中具有相同項目名的節點。

(3)頻繁項頭表中每個條目由項目名和節點鏈頭2個域組成。節點鏈頭指向所有具有相同項目名節點的第一個節點,其FP-growth算法流程如圖1所示。

圖1 FP-growth算法流程圖

FP-growth算法的具體描述如下。

輸入:事務數據庫D,按實際要求設置最小支持度閾值min_sup

輸出:FP-tree

(1)掃描事務數據庫D一次,得到頻繁項集和其每個頻繁項的支持度,并對頻繁項集合所有頻繁項按其支持度降序排序,得到頻繁項表L;

(2)創建根節點T,標記為(null);

(3)For事務數據集D中每個事務Trans do

(4)對Trans中所有頻繁項按L排序;

(5)對排序后的頻繁項表以[p|P]表示,其中p是L第一個元素,而P是頻繁項表中除去p后剩余元素組成的項表;

(6)調用insert_tree([p|P],T);

(7)End for

輸入:FP-tree,項集a(初值為空),最小支持度min_sup;

輸出:事務數據集D的頻繁項集L;

(1)L初值為空;if Tree只包含單個路徑P then

(2)for 路徑P中節點的每個組合(記為β) do

①產生項目集β⌒α,其支持度support等于b中節點的最小支持度數;

②Return L=L⌒支持度數大于min_sup的項目集β⌒α

(3)else//包含多個路徑

①for Tree的頭表中的每個頻繁項αfdo

②產生一個項目集β=αf⌒α,其支持度等于αf的支持度;

③構造β的條件模式B,并根據其構造β的條件FP-treeβ;

④if Treeβ非空 then

⑤遞歸調用FP_growth(Treeβ,β);

⑥end if

⑦end for

⑧end if

(4)產生一個模式β=αiα,其支持度support =αisupport;

(5)構造β的條件模式基,然后構造β的條件FP-treeβ;

(6)if Treeβ非空then

(7)調用FP_growth(Treeβ,β)

2 實驗結果

(1)為了對比FP-growth算法和經典Apriori算法的性能和效率,用C#語言對這兩種算法進行編程,并用這兩種模型分別對數據平均長度為4,平均頻繁項長度為2,10000條數據(T4I2D10000)的隨機數據庫進行分析,實驗硬件條件為CPU為Intel i5處理器,內存為4 G,操作系統為WIN 8系統。得出經典Apriori算法和FP-growth算法搜索不同長度頻繁項和不同支持度條件下的運行時間對比,如圖2和圖3所示。

圖2 兩種算法搜索頻繁項時間關系柱狀圖

圖3 兩種算法不同支持度條件下運行時間關系曲線圖

圖2顯示,當對頻繁1項集進行搜索時,經典Apriori算法消耗的時間,要比FP-growth算法少很多,這是因為,后者在搜索頻繁1項集時,要兩次掃描數據庫,但隨著搜索頻繁項目的長度增加,FP-growth算法的效率開始要明顯優于經典Apriori算法,因為經典算法每次要生成大量無用候選項集,而FP-grow算法只是在FP-tree這個極小的數據庫中進行遞歸計算。

圖3表示的是兩種算法在不同支持度閾值條件下,算法效率的對比。研究發現,當最小支持度要求在4%時,經典算法運行時間要比FP-growth算法高,而隨著支持度減小,FP-growth算法的效率要明顯優于經典算法。這是因為,支持度決定著一個數據庫搜索出來的關聯規則的復雜程度:支持度越小,關聯規則越復雜。研究表明,FP-grow算法在數據維度大、數據結構復雜、數據量巨大的數據庫的分析中,要比經典算法有優勢。

(2)將FP-growth算法在通用數據挖掘工具SPSS Clementine 12.0進行建模,并對預處理后的2型糖尿病病歷數據進行分析,最小置信度設為40%,前項支持度閾值設為10%,前項數設為3,得到輸出的部分結果如圖4所示。

圖4 部分關聯規則挖掘結果示圖

在圖4中以第一行為例,表示同時具有>65歲、WHR高和經常醉酒三個因素的情況下,出現2型糖尿病的概率是67.667%,因此可以得出6個最高治病性的因素:即年齡>65歲、高收縮壓、無運動、經常醉酒、WHR過高和經常高熱飲食。

3 結論

仿真結果表明,經典Apriori算法[14]在搜索所有滿足條件的頻繁項集時,生成大量的無用候選項集,極大的降低了算法的效率,而FP-grow算法能夠有效減少頻繁項的生成數目,提高算法效率;同時,在不同支持度條件下,兩種算法的效率也不同:經典算法更適用于支持度大,結構較簡單的數據,而FP-growth算法更適用于支持度較低,結構更復雜的數據。

對糖尿病電子病歷數據FP-growth算法的建模,找出了年齡>65歲、高收縮壓、無運動、經常醉酒、WHR過高和經常高熱飲食這6種致病程度最高的風險因素,對輔助預防2型糖尿病有一定的指導意義。

參考文獻

[1]Cho YS,Chen CH,Hu C.Meta-analysis of genome-wide association studies identifies eight new loci for type 2 diabetes in east Asians[J]. Nat Genet,2011,44(1):67-72.

[2]呂琴.血清尿酸與2型糖尿及糖尿病腎病的關系研究[D].武漢:華中科技大學,2013.

[3]Chen G,McAlister FA,Walker RL,et al. Cardiovascular outcomes in framingham participants with diabetes:the importance of blood pressure[J].Hypertension,2011,57(5):891-897.

[4]Patil BM,Joshi RC,Toshniwal D.Association rule for classification of Type-2 diabetic patients[C].2010 Second International Conference on Machine Learning and Computing,2010:34-38.

[5]王海鵬.我國診斷糖尿病疾病經濟負擔趨勢預測研究[D].濟南:山東大學,2013.

[6]Agrawal R.Database Mining:A performance perspective[J].IEEE Transactions on Knowledge and Data Engineering,1993,5(6):914-925.

[7]白晶.Apriori算法及其在智能小區用電分析中的應用研究[D].北京:華北電力大學,2014.

[8]Totad SG,Geeta RG.Batch incremental processing for FP-tree construction using FP-growth algorithm[J].Knowledge and Information Systems,2012,33(2):475-490.

[9]Gruca.Improvement of FP-growth algorithm for mining description-oriented rules[C].3rd International Conference on Man-Machine Inter actions(ICMMI),2014,242:183-192.

[10]H Genther,M Glesner.Automatic generation of a fuzzy classification system using fuzzy clustering methods[C].Proceedings of the 1994 ACM Symposium on Applied Computing,1994:180-183.

[11]賈偉平.中國人2型糖尿病遺傳機制與個體化醫療[J].醫學信息,2014,9,13(9):726-724.

[12]董會敏,高秋菊,閆玉英.體重指數、腰圍預測成人高血壓和(或)糖尿病的危險程度及交互作用分析[J].鄭州大學學報(醫學版),2013,32(6):678-680.

[13]王超.中國成人超重和肥胖及主要危險因素對糖尿病發病的影響[D].北京:北京協和醫學院中國醫學科學院,2014.

[14]韋哲,于啟炟,辛邁,等.基于Apriori算法的高危人群2型糖尿病預測研究[J].中國醫學裝備,2015,12(1):45-47.

①蘭州軍區蘭州總醫院醫學工程科 甘肅 蘭州 730050

②蘭州理工大學電信學院 甘肅 蘭州 730050

[文章編號]1672-8270(2016)05-0045-04 [中圖分類號] R197.324

[文獻標識碼]A

DOI:10.3969/J.ISSN.1672-8270.2016.05.015

作者簡介

收稿日期:2016-01-17

Analysis for risk factors of type 2 diabetes mellitus based on FP-growth algorithm

WEI Zhe, YE Guang-jian, WANG Neng-cai

China Medical Equipment,2016,13(5):45-48.

[Abstract] Objective: We do it to solve the problem of low efficiency in analyzing risk factors of type 2 diabetes mellitus by Apriori Algorithm. Methods: We used the patients’ data from the information department of one tertiary referral hospital in Lanzhou which include course note of disease and their health record form January 2009 to March 2014.We found out that the FP-growth algorithm analyzes risk factors of type 2 diabetes better. And we analyzed the efficiency by programming FP-growth and Apriori algorithm with C#. Results: We can analyze the run time and recorded data, time and support degree. Conclusion: The FP-growth algorithm has a higher efficiency in analyzing risk factors of type 2 diabetes mellitus.

[Key words]Data mining; Apriori algorithm; Association rules; FP-growth algorithm; Risk analysis; Diabetes mellitus

猜你喜歡
風險分析數據挖掘糖尿病
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
探析企業會計電算化的風險及防范
經營者(2016年12期)2016-10-21 08:39:42
論企業并購中的財務風險及防范措施
P2P網絡借貸平臺的現狀分析及發展展望
中國市場(2016年33期)2016-10-18 12:51:25
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 一本久道热中字伊人| 国产精品亚洲va在线观看| a毛片免费在线观看| 国产日本欧美亚洲精品视| 天天综合天天综合| 天天视频在线91频| 欧洲高清无码在线| 国产精品自拍露脸视频| av在线人妻熟妇| 中文精品久久久久国产网址| 日韩精品无码不卡无码| 97久久超碰极品视觉盛宴| 91偷拍一区| 在线免费不卡视频| 亚洲制服中文字幕一区二区| 在线国产你懂的| 欧美一级一级做性视频| 伊人色在线视频| 国产亚洲精品97在线观看| 欧美国产日本高清不卡| 亚洲综合在线最大成人| 国产乱码精品一区二区三区中文 | 久久精品丝袜| 91色国产在线| 国产在线98福利播放视频免费| 亚洲欧洲免费视频| 欧美日韩激情在线| 综合色区亚洲熟妇在线| 中文字幕第4页| 亚洲人成亚洲精品| 日韩一区精品视频一区二区| 日韩在线观看网站| 再看日本中文字幕在线观看| 亚洲国产精品无码AV| 91探花国产综合在线精品| 欧美精品H在线播放| 国产白浆视频| 国产麻豆精品久久一二三| 精品久久蜜桃| 国产日韩欧美在线视频免费观看| 999精品视频在线| 91福利国产成人精品导航| 成人毛片在线播放| 亚洲色图综合在线| 日本一区中文字幕最新在线| 99视频免费观看| 日韩精品无码一级毛片免费| 成年人国产网站| 亚洲乱强伦| 欧美亚洲中文精品三区| 国产免费精彩视频| 国产99视频精品免费视频7| 亚洲精品午夜天堂网页| 日韩毛片在线播放| 精品综合久久久久久97超人该| 国产日韩AV高潮在线| 国产高潮视频在线观看| 国产日产欧美精品| 亚洲国产一成久久精品国产成人综合| 夜夜操国产| 成人久久18免费网站| 日韩中文字幕免费在线观看| 日韩美女福利视频| 成年片色大黄全免费网站久久| 99精品国产高清一区二区| 亚洲国产精品无码久久一线| 亚洲精品人成网线在线| 无码区日韩专区免费系列| 国产SUV精品一区二区6| 婷婷久久综合九色综合88| 精品久久久久久成人AV| 老司机久久99久久精品播放| 制服丝袜一区| 亚洲香蕉伊综合在人在线| 天堂av综合网| 亚洲高清在线天堂精品| 亚洲三级成人| 日韩经典精品无码一区二区| 欧美日韩在线观看一区二区三区| 亚洲永久视频| 亚洲男人的天堂在线观看| 亚洲欧美人成人让影院|