關聯規則及關鍵特征挖掘在臨床透析時機選擇中的應用

2017-04-13 01:34:42費海波

軟件導刊 2017年3期

關鍵詞：數據挖掘關聯規則

費海波，童玲，李智

(1.四川大學電子信息學院, 四川成都 610065;2.成都軍區總醫院計算機網絡管理中心，四川成都 610083)

關聯規則及關鍵特征挖掘在臨床透析時機選擇中的應用

費海波1，童玲2，李智1

(1.四川大學電子信息學院, 四川成都 610065;2.成都軍區總醫院計算機網絡管理中心，四川成都 610083)

近年來，諸多學者利用數據挖掘技術進行了疾病發展趨勢預測，合適的數據挖掘方法對獲取有價值的數據信息尤為關鍵。然而，傳統統計學方法不能得出具體指標與透析時機選擇之間的相關規則，同時對綜合性醫院來說，選擇合適的方法處理不同格式的原始數據較為困難。提出一種腎衰竭透析時機選擇方法：利用信息增益從15個特征中選擇出5大關鍵特征，根據提取的特征，利用K均值聚成3簇，在每一簇中運用Apriori算法，得到與透析時機選擇有關的規則，并利用這些規則進行透析時機預測。實驗結果表明，應用該算法能達到0.3以上的支持度和0.98以上的置信度。

信息增益；聚類；關聯規則；透析時機

0 引言

終末期腎病(End Stage Renal Disease, ESRD)的治療方法包括：包括血液透析、腹膜透析和腎移植[1-2]，最常用的為透析方法。由于腎臟疾病的異質性和衰竭速度不同，因此需要建立一種準確的腎衰風險預測模型[3]，幫助CKD患者得到更早期的個體化治療。數據挖掘可以用來構建數據相關性模型，通過使用這些模型，不僅能得到數據的特征分布情況，還可以預測發展趨勢。因此，數據挖掘可以為決策者、醫生等提供科學的輔助決策。

透析時機選擇[4-5]直接決定替代治療的效果，日益受到學者們關注。近年來，已有學者利用數據挖掘的方法研究透析治療過程。K R Lakshm等[6]對ANN、決策樹和邏輯回歸算法在腎透析存活能力中的性能作了比較，發現ANN性能最好，準確率為93.85%，但容易過擬合；N SRIRAAM等[7]提出了聯合挖掘方法來進行腎衰竭參數估計，以改善腎透析病人的治療，分類準確率會在50～97.7%之間變動，準確率波動較大；Yeh[8]利用決策樹預測透析患者住院率，但決策樹容易過擬合。本文提出了一種基于K均值和關聯規則的慢性腎病透析時機預測方法，克服了過擬合局限，得到了透析時機預測規則，并實現了精準預測。

1 理論依據

1.1 透析時機選擇預測流程

圖1為透析時機選擇預測流程。本研究采集成都某醫院腎內科HIS系統數據，對數據進行預處理，首先去除血肌酐和尿素氮含有缺失值的患者；然后根據所選取的特征，去除特征值缺失值大于總樣本15%的特征，其余缺失值用平均值替代；最后選出2 659個病人的實驗室檢查數據。其中包括透析患者1 202個，選取胱抑素c(CysC)、內生肌酐清除值(Ccr)、磷(P)、尿素氮(Bun)、鉀(K)、鈣(Ca)、白蛋白(Alb)、鈉(Na)、性別(SEX)、舒張壓(BH)、年齡(AGE)、收縮壓(BL)、身高(HT)、肌酐(Scr)、體重(WT)作為特征，利用信息增益進行特征提取，將提取出的特征作為簇中心元素進行聚類，最后在每一簇中運用Apriori算法進行關聯規則挖掘，得到與透析時機選擇相關的規則。

圖1 透析時機選擇預測流程

1.2 信息增益

“信息熵”是度量樣本集合純度最常用的一種指標。假定當前樣本集合D中第k類樣本所占的比例為Pk(k=1,2,3,...,|y|)，則D的信息熵定義為：

(1)

Ent(D)的值越小，則D的純度越高。

(2)

一般而言，信息增益越大，則意味著使用屬性a來進行劃分所獲得的“純度提升”越大。因此，可用信息增益來進行特征選擇[9]。

表1 樣本部分數據

表2 信息增益值

1.3 K均值

本課題采用棋盤作為標定物體,棋盤是由不同黑白方塊構成的平面格子。棋盤的標示點與其他標定物相比比較明顯,處理起來也比較容易。將棋盤以不同的位置和角度放置，并采集相應圖像,檢測每組標定模板圖像的角點,通過前面的幾個步驟,得到多幅圖像的角點數據后,可以調用OpenCV中的函數cvCalibrateCamera2()來進行攝像頭的標定。由這個函數可以得到攝像頭的內參數矩陣、畸變系數、旋轉向量和平移向量。前兩個構成攝像頭的內參數，后兩個構成了物體位置和方向的攝像頭外參數。

首先根據設定的聚類簇數k，從樣本集中隨機選擇k個樣本作為初始均值向量，計算其余樣本與各均值向量的距離，根據距離最近的均值向量確定樣本集的簇標記，將樣本劃入相應的簇，然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值)，不斷重復這一過程直到后一輪迭代產生的結果與前一輪迭代相同才停止，得到最終的簇劃分。

1.4 關聯規則

關聯規則挖掘過程：①找出所有頻繁項集；②由頻繁項集產生強關聯規則。

最大頻繁項集的生成是影響關聯規則挖掘的關鍵問題。Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法，使用頻繁項集性質的先驗知識，用逐層搜索的迭代方法來獲得頻繁項集。k-項集用于搜索 (k+1)-項集。首先，找出頻繁1-項集的集合，記作L1。L1用于找頻繁2-項集的集合L2，而L2用于找L3，如此下去，直到不能找到頻繁k-項集。

Apriori性質：頻繁項集的所有非空子集都必須也是頻繁的。通過連接和剪枝兩個過程來實現。

連接步：為找Lk，通過Lk-1與自己連接產生候選k-項集的集合，記作Ck。

剪枝步：Ck是Lk的超集，即它的成員可以是頻繁的，也可以不是頻繁的，但所有的頻繁k-項集都包含在Ck中。掃描數據庫，確定Ck中每個候選的計數，從而確定集都不可能是頻繁k-項集的子集。因此，如果一個候選k-項集的(k-1)-子集不在Lk-1中，則該候選也不可能是頻繁的，從而可以由Ck中刪除[10]。

本文在關聯規則挖掘前，首先對每一簇數據進行離散化，離散化間隔為10，將樣本中每個特征的范圍劃分成10個區間。設置最低支持度為0.3，最低置信度為0.9。就簇1而言，通過計算肌酐、尿素氮、磷、胱抑素C、內生肌酐清除值、鈉、鉀等子集是否大于最低支持度值，將大于最低支持度值的特征設定為頻繁1-項集的集合L1={Scr,Ccr,CysC,Bun,P,Na,K}，然后利用L1找到頻繁2-項集的集合L2={Scr∪Ccr,Scr∪Bun,...,Na∪K}，直到不能找到滿足最低支持度的頻繁項集為止。簇2、簇3用同樣的方法可以得到頻繁項集。

2 實驗分析

2.1 實驗結果

對患者樣本進行K均值聚類，最終聚類中心如表3所示，一共分為3簇，每個樣本向量有5個元素，分別為肌酐、胱抑素C、內生肌酐清除值、尿素氮和磷。患者樣本向量與各簇的聚類中心向量{853.3,4.7,27.6,28.1,2.1}、{227.5,3.5,36.2,12.1,1.3}、{85.6,1.2,76.6,5.9,1.2}中的某一簇聚類中心距離最小時，則歸為相應的簇。最后得到簇1的樣本有772條，占總樣本的29%，簇2的樣本有1346條，占總樣本的51%，簇3的樣本有541條，占總樣本的20%。

表3 最終聚類中心

利用關聯規則算法，得到如表4所示的關聯規則結果，第一列表示每條規則，第二列為該條規則所支持的樣本數，最后一列表示該條規則的置信度。從表4可知，關聯規則置信度均為100%，大于所設置的0.9，表明所得到的這些關聯規則均為強規則，可以很好地說明肌酐、尿素氮與血液透析時機選擇的強關聯性。

2.2 實驗總結

本研究使用k均值和Apriori確定與血液透析有關的特征和一些可能的規則。實驗結果發現，當肌酐值在641-918.5(Scr=779.75±138.75)或者918.5-1196(Scr=1057.25±138.75)、尿素氮在21.97-30.33(Bun=26.15±4.18)范圍內患者有較高的風險，應在此時合理選擇透析。相反，肌酐值在45-207.2(Scr=126.1±81.1)、Ccr在58.46-68.86(Ccr=63.84±5.38)、Cysc在0.904-1.032(CysC=0.968±0.064)、P在1.02-1.26(P=1.14±0.12)、K在3.88-4.2(K=4.04±0.16)、Na在139.57-142.63(Na=141.1±1.53)、Bun在2.24-4.36(Bun=3.3±1.06)時有較低的風險。腎病學者明確表示，肌酐、尿素氮、內生肌酐清除率影響患者透析時機的合理性，胱抑素C和磷對患者透析時機選擇的合理性影響目前不是很明確，需要更加深入的研究。通過與實際數據的對比，肌酐值在641～1 196范圍內透析介入的概率是100%，尿素氮在21.97～30.33透析介入的概率是83%。

3 結語

正確把握透析時機可以緩解病人病情，提高治愈率。本研究將幫助醫護人員找到一些關鍵特征預測病人透析時機。通過信息增益計算每個指標所包含的信息量確定最終選擇的特征，并根據這些特征進行k均值聚類，最后對每一簇進行關聯規則挖掘。最終結果可以輔助醫護人員及時關注慢性腎病患者病情變化，一旦某個指標達到相應值時，患者就有較高的腎衰風險，選擇合適的時機進行透析，從而達到更好的治療效果。

[1] FRESENIUS MEDICAL CARE. ESRD patients in 2011 a global perspective[EB/OL].http:// www. vision-fmc.com/filesdownload/ESRD/ESRDPatientsin2011.pdf,2012-4-12/2016-3-24.

[2] ABBASI M, CHERTOW M G , HALL N Y. End stage renal disease[EB/OL].http://clinicaleviden ce.bmj.com, 2010-07-19/2016-3-24.

[3] JUSTIN B ECHOUFFO-TCHEUGUI, ANDRE P KENGNE. Risk models to predict chronic kidney disease and its progression: a systematic review[J]. PLOS Medicine,2012,9(11):1-18.

[4] NATIONAL KIDNEY FOUNDATION. Clinical practice guideline for hemodialysis adequacy[J]. Am J Kidney Dis,2015,66(5):884-930.

[5] NATIONAL KIDNEY FOUNDATION. Clinical practice guidelines and recommendations for peritoneal dialysis adequacy[J]. Am J Kidney Dis, 2006,48(suppl 1):S1-S322.

[6] K R LAKSHMI, Y NAGESH M VeeraKrishna, performance comparison of three data mining techniques for predicting kidney disease survivability[J].International Journal of Advances in Engineering & Technology, Mar.2014.

[7] N SRIRAAM, V NATASHA，H KAUR.Data mining approaches for kidney dialysis treatment[J]. Journal of Mechanics in Medicine and Biology, Volume 06, Issue 02. June 2010.

[8] J Y YEH, T，WU，C W TSAO.Using data mining techniques to predict hospitalization of hemodialysis patients[J].Decision Support Systems,2011，50(2)：439-448.

[9] 周志華.機器學習[M].北京:清華大學出版社,2016.

[10] JAIWEI HAN,MICHELINE KAMBER, JIAN PEI. 數據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2012.

(責任編輯：陳福時)

費海波(1990-)，男，湖南衡陽人，四川大學電子信息學院碩士研究生，研究方向為醫學數據挖掘；童玲(1979-)，女，安徽合肥人，碩士，成都軍區總醫院計算機網絡管理中心助理工程師，研究方向為醫院信息管理、醫療數據分析；李智(1975-)，男，四川成都人，博士，四川大學電子信息學院副教授、碩士生導師，研究方向為壓縮感知、醫學數據分析。

10.11907/rjdk.162784

TP319

1672-7800(2017)003-0118-03