999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

序列模式挖掘算法在高血壓治療中的研究

2018-03-19 05:54:56張曉宇謝紅薇
計算機工程與設計 2018年3期
關鍵詞:規(guī)則數(shù)據(jù)庫高血壓

張曉宇,謝紅薇,孟 亮

(太原理工大學 計算機科學與技術學院,山西 太原 030024)

0 引 言

逐步治療是針對患有慢性疾病(糖尿病、高血壓、哮喘等)的病人采用的一種治療方法。中國高血壓[1,2]基層防治指南中根據(jù)高血壓病病情的發(fā)展,對患者的治療方法提出:高血壓分為輕危高血壓、中危高血壓和高危高血壓。當初診為輕度高血壓時,采取生活方式干預和單種藥物(ACEI,CCB,低劑量的固定復方制劑等)治療的方法,當血壓不能得到有效控制時,采用多種藥物聯(lián)合治療的方法。

本文應用序列模式挖掘算法研究高血壓患者服用藥物的序列,能夠為醫(yī)生提供參考,縮短診療時間,降低醫(yī)療成本。

序列模式挖掘最早是由R.Algrawal等提出的,并提出了ApriorAll算法和多階段迭代算法GSP用于零售行業(yè)客戶購買行為的研究。SPADE算法是Zaki等提出的序列模式挖掘算法[3]。SPADE算法針對GSP算法需要多次掃描數(shù)據(jù)庫的不足,基于格理論和等價類的思想,采用垂直存儲結構,將掃描數(shù)據(jù)庫的次數(shù)減少到3次,使時間復雜度降低。

Jenna Reps等[4]指出SPADE適用于醫(yī)療數(shù)據(jù)庫,采用SPADE算法研究疾病復發(fā)的可能性以及影響疾病復發(fā)的一些因素。Aileen等[5]采用了SPADE算法挖掘2型糖尿病患者藥物治療的序列。

然而,SPADE算法存在支持度閾值難以設定的問題。因為頻繁序列挖掘的結果對支持度的依賴很大,當使用一個較小的支持度時,可能產生大量冗余的頻繁序列,而使用一個較大的支持度閾值,則可能產生較少的頻繁序列,可能會丟失一些重要的信息。針對這個問題Hu Y H等[6]提出了基于多支持度的模式挖掘算法、Amphawan K[7,8]提出了top-k頻繁模式挖掘、劉瑞陽等[9]將邏輯理論的引入模式挖掘算法優(yōu)化支持度閾值等。然而,上述方法在實際應用中是很難實現(xiàn)的。本文采用統(tǒng)計學的思想,利用支持度閾值和頻繁序列數(shù)之間的關系,并考慮電子病歷中醫(yī)療數(shù)據(jù)的特性[10],和高血壓患者服藥數(shù)據(jù)的特點,提出了一種改進的SPADE算法,來解決支持度閾值難以設定的問題。

1 相關定義

定義1 項目集合I:I是m個不同的項目組成的集合,記為:I={i1,…,im}。

定義2 項集:項集是從I中選取l個項目的非空集合,記為:{i1,i2,…,il}, 其中項目按升序排列并且l>0。

定義3 序列:序列是項集的有序列表,序列α記為:α1→α2→…→αL,其中αi表示第i個項集(1≤i≤l),αi也被稱為是序列α的一個元素。一個序列有L個項目,該序列被稱為L-序列。

定義4 序列數(shù)據(jù)庫:序列數(shù)據(jù)庫SDB(sequence database),每個序列都有唯一的標示符(sid),每一個序列的每一個項集都有暫時的項集標示符(eid)即時間戳,在一個序列中,eid是唯一的,并且如果一個序列中項集ei先于項集ej發(fā)生,那么ei的eid必須嚴格大于ej的eid。

定義5 子序列:存在兩個序列,一個序列是sa=α1→α2→…→αn, 另一個序列是sb=β1→β2→…→βm, 當且僅當存在1≤i1

定義6 支持度:請參見文獻[4]。記為:sup(α)。

定義7 頻繁序列:D是一個序列數(shù)據(jù)庫,在D中,如果一個序列模式p的支持度大于支持度閾值(min_sup),并且p的子序列也都是頻繁的,那么就稱p是頻繁的。

定義8 序列模式挖掘:請參見文獻[4]。

2 算法描述

2.1 SPADE算法思想

SPADE算法是使用“垂直”數(shù)據(jù)結構的序列數(shù)據(jù)庫,并采用了格理論的方法,將原來的搜索空間分解成小格,使得掃描數(shù)據(jù)庫的次數(shù)減少到3次。為庫中每個序列建立一個序號列表,列表中每個序列包含序列號和項目號兩個屬性,在計算序列支持度時,只需要計算序號列表中包含的不同的序列號的個數(shù)。并且將具有相同前綴的等長度序列歸并為一個等價類,新生成的序列只會在等價類內部產生。SPADE算法提高了支持度的計算效率,降低了I/O成本。

2.2 改進的SPADE算法思想

2.2.1 算法思想

首先定義一個映射關系f,頻繁序列的數(shù)目m與支持度閾值min_sup構成的映射關系為:m=f(min_sup)。 先選取一個較小的支持度閾值作為初始值,然后支持度閾值線性遞增,分別計算不同min_sup下的m值,當m第一次遇到極值點時,對應的 min_sup為最佳的支持度閾值。將得到的min_sup值作為SPADE算法的支持度閾值,執(zhí)行SPADE算法。

2.2.2 算法流程圖

改進的SPADE算法流程如圖1所示。

圖1 改進的SPADE算法流程

3 實驗處理及結果分析

3.1 數(shù)據(jù)預處理

本文采用的是一家醫(yī)療中心的電子病歷數(shù)據(jù),從2006年到2009年總計79 746條記錄,由于其包含所有患者的記錄。數(shù)據(jù)預處理模型如圖2所示。

圖2 數(shù)據(jù)預處理模型

在病歷數(shù)據(jù)庫中選取528名高血壓患者服用藥物的數(shù)據(jù),共913條記錄,每條記錄有4個屬性,分別是病歷號、就診時間、藥品個數(shù)和處方藥。數(shù)據(jù)詳細說明見表1。

表1 數(shù)據(jù)集說明

通過實驗得出,由于治療高血壓藥品種類豐富而且繁雜,使得序列數(shù)據(jù)比較稀疏,稀疏的數(shù)據(jù)導致了得到的挖掘結果不理想,所以本文根據(jù)高血壓防治指南將高血壓藥品歸類為14個藥品類。

藥品和藥品類別歸來說明見表2。

表2 高血壓藥品和藥品類別歸類說明

注:其中二氫吡啶類CCB是指二氫吡啶類鈣拮抗劑;ACEI是指血管緊張素轉換酶抑制劑;ARB是指血管緊張素受體拮抗劑

經過分類匯總后實驗數(shù)據(jù)集(MD)一共有4個屬性值,分別是患者的序列號,就診時間,醫(yī)生所開處方藥的個數(shù),以及藥品所屬類別。將數(shù)據(jù)集輸入序列數(shù)據(jù)庫中,數(shù)據(jù)格式見表3。

表3 輸入數(shù)據(jù)格式說明

3.2 支持度閾值的判斷及結果

將MD作為判定支持度閾值的特定數(shù)據(jù)集,應用GSP算法,然后得到支持度閾值的判定結果,結果見表4。

表4 支持度閾值判斷結果

由表4可以看出,將min_sup=0.001作為初始值,第一次出現(xiàn)的極值點在min_sup=0.007時,min_sup=0.007時也m=37,與min_sup=0.008時m的值相等,所以最終得到最佳支持度閾值min_sup=0.007。從圖3中也可直觀的反應出min_sup=0.007時是針對這一數(shù)據(jù)集的最佳支持度閾值。

圖3 數(shù)據(jù)集MD的 min_sup與m關系

將MD隨機平均分為兩個數(shù)據(jù)集MD1,MD2;分別應用GSP算法,得到如圖4的結果,當MD數(shù)據(jù)集減小為原來的一半時,MD1表現(xiàn)為m值在min_sup=0.006時出現(xiàn)第一次極值點,而MD2表現(xiàn)為m在min_sup=0.007時出現(xiàn)第一次極值點;再將MD隨機平均分為4個數(shù)據(jù)集MD3,MD4,MD5,MD6,分別應用GSP算法,發(fā)現(xiàn)這4個數(shù)據(jù)集的m值都在min_sup=0.07時出現(xiàn)第一次極值點,如圖5所示。由此可以得出對于特定數(shù)據(jù)集MD,如果只改變數(shù)據(jù)集的大小,頻繁序列數(shù)m都表現(xiàn)在支持度閾值min_sup=0.007時出現(xiàn)第一次極值點,所以再次驗證數(shù)據(jù)集MD的最佳支持度閾值為0.007。

圖4 數(shù)據(jù)集MD1和MD2的min_sup與m關系

圖5 數(shù)據(jù)集MD3、MD4、MD5和MD6的min_sup與m關系

從圖6中可以看出平均支持度在0.007時第一次到達極值點,min_sup=0.007時,平均支持度=0.018,min_sup=0.008時,平均支持度=0.018,所以在驗證了選取min_sup=0.007是合適的。同時,平均置信度也在0.007時到達第一次極值點,min_sup=0.07時,average confidence=0.1712,min_sup=0.08時,average confidence=0.1712,再次驗證了min_sup=0.007是最佳的。

圖6 最佳支持度閾值驗證

3.3 挖掘頻繁序列

將min_sup設置為0.007作為參數(shù),繼續(xù)執(zhí)行序列模式挖掘算法,得到頻繁序列集F,F(xiàn)集中有37條頻繁序列,在表5中列舉了一些頻繁序列及序列的支持度。

3.4 序列規(guī)則的生成

將頻繁序列生成序列規(guī)則這里采用Zhang X Y等[11]提出的將序列的最后一項作為規(guī)則的結論,序列中除最后一項的所有項作為規(guī)則的條件生成序列規(guī)則的方法。這里針對特殊的1-頻繁序列,將空集作為條件,將1-頻繁序列作為結論來生成規(guī)則。例如1-頻繁序列(<{噻嗪類利尿劑}>),它生成的規(guī)則為(<{}>-> <{噻嗪類利尿劑}>)表示初次診斷為高血壓的患者,醫(yī)生根據(jù)其各項指標給患者的處方可能是噻嗪類利尿劑類的藥物。

表5 頻繁序列

本文在生成序列規(guī)則時選取最小置信度為0.01,將頻繁序列生成序列規(guī)則共37個,表6中列舉了部分序列規(guī)則。其中<{β受體阻滯劑}>=><{ACEI,噻嗪類利尿劑,β受體阻滯劑}>,表示患者之前用藥是β受體阻滯劑類,由于病情惡化,之前的藥物不足以控制血壓時,醫(yī)生可能開出的處方藥是ACEI類,噻嗪類利尿劑類和β受體阻滯劑類,3種藥物聯(lián)合治療。

表6 部分序列規(guī)則說明

3.5 規(guī)則可視化

下面將挖掘得到的規(guī)則實現(xiàn)可視化處理,如圖7為序列規(guī)則圖。

圖7 序列規(guī)則

4 結束語

本文提出了一種改進的SPADE算法,解決了SPADE算法支持度閾值難以設定的問題。根據(jù)支持度閾值和頻繁序列數(shù)目的關系,選擇變化曲線上第一個極值點對應的支持度閾值為最佳支持度閾值。

將改進的SPADE算法應用于研究高血壓患者服藥歷史的序列數(shù)據(jù),挖掘頻繁序列模式,然后將頻繁序列模式轉換為序列規(guī)則可以為患者逐步藥物治療提供指導。

將得到的高血壓患者服藥的序列規(guī)則結合患者的各項身體指標用于推薦,是下一步工作重點。

[1]World Health Organization.A global brief on hypertension[M].Geneva.WHO,2013:7-15.

[2]HUANG Fei,XIE Hongwei,HAO Xiaoyan.An intelligent classification system used for identifying cardiovascular risk level of hypertensive[J].Science Technology and Engineering,2014,14(7):204-211(in Chinese).[黃飛,謝紅薇,郝曉燕.高血壓患者心血管風險水平智能分層系統(tǒng)[J].科學技術與工程,2014,14(7):204-211.]

[3]Kumar K M V M,Srinivas P V S,Rao C R.Sequential pattern mining with multiple minimum supports by MS-SPADE[J].International Journal of Database Management Systems,2012,9(5):285-292.

[4]Reps J,Garibaldi J M,Aickelin U,et al.Discovering sequential patterns in a UK general practice database[C]//Procee-dings of IEEE-EMBS International Conference on Biomedical and Health Informatics.Piscataway:IEEE,2012:960-963.

[5]Wright A P,Wright A T,Mccoy A B.The use of sequential pattern mining to predict next prescribed medications[J].

Journal of Biomedical Informatics,2015,53(C):73-80.

[6]Hu Y H,Wu F,Liao Y J.An efficient tree-based algorithm for mining sequential patterns with multiple minimum supports[J].Journal of Systems & Software,2013,86(5):1224-1238.

[7]Amphawan K,Lenca P,Surarerks A.Mining top-k,regular-frequent itemsets using database partitioning and support estimation[J].Expert Systems with Applications,2012,39(2):1924-1936.

[8]Amphawan K,Lenca P.Mining top-k frequent-regular closed patterns[J].Expert Systems with Applications,2015,42(21):7882-7894.

[9]LIU Duanyang,FENG Jian,LI Xiaofen.Logic-based frequent sequential pattern mining algorithm[J].Computer Science,2015,42(5):260-264(in Chinese).[劉端陽,馮建,李曉粉.一種基于邏輯的頻繁序列模式挖掘算法[J].計算機科學,2015,42(5):260-264.]

[10]Huang Z,Dong W,Bath P.On mining latent treatment patterns from electronic medical records[J].Data Mining and Knowledge Discovery,2015,29(4):914-949.

[11]Zhang X Y.Research on sequential pattern mining algorithm in recommendation of hypertensive drugs[D].Taiyuan:Taiyuan University of Technology,2017.

猜你喜歡
規(guī)則數(shù)據(jù)庫高血壓
撐竿跳規(guī)則的制定
全國高血壓日
數(shù)獨的規(guī)則和演變
如何把高血壓“吃”回去?
高血壓,并非一降了之
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
數(shù)據(jù)庫
財經(2017年2期)2017-03-10 14:35:35
TPP反腐敗規(guī)則對我國的啟示
數(shù)據(jù)庫
財經(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 亚洲综合色在线| 永久免费av网站可以直接看的| 国产男女免费视频| 狠狠五月天中文字幕| 在线观看亚洲成人| 美女被狂躁www在线观看| 国产小视频网站| 精品国产美女福到在线不卡f| 日本午夜三级| 99色亚洲国产精品11p| 久久这里只精品热免费99| 国产成人精品一区二区三区| 欧美a在线看| 日韩毛片免费观看| 国产精品手机视频| 久久窝窝国产精品午夜看片| 国产香蕉97碰碰视频VA碰碰看| 色婷婷成人| 国产尤物视频在线| 精品一區二區久久久久久久網站 | 色香蕉影院| 夜夜爽免费视频| 中日韩一区二区三区中文免费视频| 丁香综合在线| 国产不卡在线看| 久久99蜜桃精品久久久久小说| 亚洲无码精品在线播放| 亚洲最猛黑人xxxx黑人猛交| 精品日韩亚洲欧美高清a| 欧美一级大片在线观看| 亚洲品质国产精品无码| 欧美在线天堂| 中文成人无码国产亚洲| 狠狠色婷婷丁香综合久久韩国| 日韩成人午夜| 日韩资源站| 91福利免费| 91免费在线看| 欧美在线视频不卡| 免费aa毛片| 人妻精品全国免费视频| 黄色污网站在线观看| 精品国产一二三区| 毛片免费网址| 91视频青青草| 国产亚洲欧美日韩在线一区二区三区| 国产精彩视频在线观看| 99热6这里只有精品| 国产玖玖视频| 88av在线| 久久久久国产精品嫩草影院| 亚洲黄色激情网站| 二级特黄绝大片免费视频大片| 国产日韩精品欧美一区灰| 国产视频一区二区在线观看 | 一区二区三区国产精品视频| 欧美精品黑人粗大| 最新日本中文字幕| 国产一区二区三区在线观看免费| 久久久久人妻精品一区三寸蜜桃| 一本大道香蕉久中文在线播放| 自拍偷拍欧美日韩| 日韩中文字幕亚洲无线码| 亚洲无码A视频在线| 欧美精品亚洲日韩a| 狠狠做深爱婷婷久久一区| 成人精品免费视频| 蜜臀AV在线播放| 亚洲国产成人精品无码区性色| 日本欧美中文字幕精品亚洲| 丝袜国产一区| 九九久久精品免费观看| 91久久偷偷做嫩草影院电| 色综合久久无码网| 国产亚洲视频免费播放| 久久综合亚洲色一区二区三区| 美女被操91视频| 毛片大全免费观看| 久久99国产综合精品1| 丁香婷婷综合激情| 日本一本正道综合久久dvd| 亚洲午夜国产片在线观看|