韋 哲 呂克難 王能才
基于K-means聚類分析算法的2型糖尿病動態血糖監測數據分析
韋 哲①②呂克難①②王能才①
目的:探討分析基于K-means聚類分析算法的2型糖尿病動態血糖監測數據,以解決動態血糖測量儀所測數據中的噪聲和干擾信號問題,得到適用于灰色關聯度分析法的實驗數據。方法:引入K-means聚類分析算法處理和分析由動態血糖儀測得的糖尿病患者60 min血糖值的數據,去除誤差較大的數據點,使平均數值更加可靠。結果:K-means聚類分析算法對生成所需的、無干擾地對患者60 min內間隔5 min的血糖值實驗數據進行處理,并與采用K-means分析算法處理之前的數據進行對比。結論:K-means聚類分析法能夠有效去除干擾和噪聲信號,獲得高質量的實驗數據,有利于對動態血糖監測數據進行處理和分析。
血糖監測;數據處理;K-means聚類分析;灰色關聯度分析法
[First-author’s address] 1.Department of Information, Lanzhou General Hospital, Lanzhou Military Area Command, Lanzhou 730050, China. 2.School of Electrical Engineering and Information Engineering, Lanzhou University of Technology, Lanzhou 730050, China.
糖尿病是由胰島素分泌缺陷和(或)胰島素作用缺陷所引起的,并以慢性高血糖伴碳水化合物、脂肪和蛋白質的代謝障礙為特征的慢性疾病[1-2]。2型糖尿病(Type 2 diabetes mellitus,T2DM)又稱為非胰島素依賴型糖尿病,而非胰島素依賴型糖尿病的發病機制主要是由于人體的胰島素抵抗及胰島素分泌不足所導致,且T2DM患者自身的β細胞并無自身免疫性缺陷,其發病特點是成年發病,起病比較緩慢,病情也較輕,比例占到全部糖尿病人數的多數[3]。目前,控制糖尿病病情最為有效和常見的治療方案之一是注射胰島素,但不論是健康人還是糖尿病患者血糖數據均具有不穩定性和波動性,如果患者對注射胰島素的時間和注射量把握不準確,則會導致低血糖或高血糖,并可對糖尿病患者的身體造成極大的傷害,因此對糖尿病患者血糖的準確預測具有重要的研究意義[4]。
目前,測量血糖的方法多數采用化學方法,而該測量方法易受溫度的影響,且測量者的運動會對測量結果產生影響,但目前還尚無一種能夠對血糖測量數據進行準確聚類分析的方法。基于此,本研究提出基于K-means平均聚類分析方法,可以對血糖測量數據進行聚類,從而剔除掉有明顯誤差的數據點,使得計算的數據結果更加準確,為后續的灰色關聯度分析算法打下良好的基礎[5]。
1.1K-means算法概述
K-means算法是采用距離作為相似性評介指標的聚類算法,如果兩個對象的距離越近,其相似度就越大[6-7]。K-means聚類算法認為簇是由距離靠近的對象所構成,因此將得到緊湊且獨立的簇作為最終目標[8]。K-means聚類算法具有計算快速、簡單且其時間復雜度近于線性等諸多優點,適合大規模數據集的挖掘[9]。
1.2K-means聚類算法
(1)隨機選取k個聚類質心點為μ1,μ2,…,μκ,E Rn。
(2)重復下述過程直到收斂,對于每個樣例,計算其應該屬于的類為公式1:

對于每一類j,重新計算該類的質心為公式2:

式中k為事先給定的聚類數;C(i)為樣例i與k個類中距離最近的一類;C(i)為該值1到k中的一個;μj為質心,代表對屬于同一類其他樣本中心點的估測[10-15]。
動態血糖儀Minimed皮下埋入式動態血糖檢測系統是一種基于化學試劑葡萄糖分子化學反應的有創型人體血糖動態檢測系統,該系統價格昂貴,通常為大型醫院所配備。而對于患有T2DM的患者,注射胰島素降低血糖是最有效的治療糖尿病的方法,但這種方法必須在醫生的指導下,先對血糖進行檢測才能進行,否則會引發嚴重的不良反應[16-19]。因此,本研究采用SPSS Clemenine專業數據挖掘應用工具(美國,SPSS公司)對動態血糖儀數據聚類分析。
2.1聚類分析數據資料
本研究選用原蘭州軍區蘭州總醫院T2DM患者的皮下組織葡萄糖檢測數據資料。數據以每日96個檢測點,其中包括早餐前(A)、早餐后(B)、中餐前(C)、中餐后(D)、晚餐前(E)、晚餐后(F)、睡前(G)及夜間(H)60 min內每間隔5 min所檢測得到的血糖值,見表1。
表1顯示,患者早餐前(A行)有3個明顯的測量錯誤數據點,如數據7.8、3.7和8.4,而采用聚類的方法可以將正確數據分為聚類1,并且將錯誤的數據點分別歸為聚類2和聚類3。
2.2K簇平均算法建模
Clemenine能夠直接進行K平均簇算法進行建模,并通過數據流導入進行數據分析。
(1)設置數據庫來源。在工作區中加入“數據源”選項中的“表格”類型的節點,在節點中導入輸入數據,即動態血糖儀采集到的原始數據表格,并對數據類型進行設置,選擇“范圍”,讀取數值并確定,如圖1所示。

圖1 K平均算法數據流和設置類型節點界面圖
(2)設置建模節點。在“建模”選項欄中選擇K-mean節點,添加到工作區中,并將“類型”節點和“K-means”節點連接,再對“K-means”節點進行參數設置。預設置“聚類數”為3,并選擇是否輸出其他結果,如圖2所示。

表1 患者96個血糖值數據點(mmol/L)

表2 K平均算法處理后患者某日血糖值的部分數據(mmol/L)

圖2 數據流和設置建模節點界面圖
在輸出結果中顯示出Clementine工具對動態血糖儀原始數據進行了有效聚類分析,按照3個聚類數的要求進行分類處理,見表2。
表2顯示,利用K-means算法對表1的數據進行聚類處理后,將每個時間段的數據分成3類,有助于去除誤差較大的數據點,得到更加精確的均值結果。
血糖測量數據會由于客觀或主觀的原因產生誤差,如果不對這些誤差進行處理,會增大均值的誤差,采用瞬時值則不準確,導致對患者的健康及治療產生很大的影響。而本研究使用K-means算法對糖尿病患者一日的測量節點數據進行了聚類處理,將每個時間段的數據分成三類,并且去除了誤差較大的數據點,使平均值數據更加準確可靠。同時,為提高灰色關聯度分析算法的精度打下堅實的基礎。
[1]李武成,王官權,金科.2型糖尿病并發高血壓的危險因素分析[J].實用醫學雜志,2010,26(17):3180-3181.
[2]Güler I,übeyli ED.Diabetes diagnosis by multilayer perceptron neural networks[J].Journal of the Faculty of Engineering and Architecture of Gazi University,2006,21(2):319-326.
[3]嵇加佳,劉林,樓青青,等.2型糖尿病患者自我管理行為及血糖控制現狀的研究[J].中華護理雜志,2014,49(5):617-620.
[4]Garcia-Compean D,Jaquez-Quintana JO,Gonzalez-Gonzalez JA,et al.Liver cirrhosis and diabetes:risk factors,pathophysiology,clinical implications and management[J].World Gastroen terol,2009,15(3):280-288.
[5]Jothi R,Mohanty SK,Ojha A.On Careful Selection of Initial Centers for K-means Algorithm[M]. Proceedings of 3rd International Conference on Advanced Computing,Networking and Informatics,2011.
[6]Wild S,Roglic G,Green A,et al.Global prevalence of diabetes-Estimates for the year 2000 and projections for 2030[J].Diabetes Care,2004,27(5):1047-1053.
[7]Qin J,Fu W,Gao H,et al.Distributed k-Means Algorithm and Fuzzy c-Means Algorithm for Sensor Networks Based on Multiagent Consensus Theory[C].IEEE International Conference on Industrial Technology,2016,5(3):1-12.
[8]Zhao D,Liu X.A Genetic K-means Membrane Algorithm for Multi-relational Data Clustering[M].Human Centered Computing Springer International Publishing,2013.
[9]García MLL,García-Ródenas R,Gómez AG.K -means algorithms for functional data[J].Neuro computing,2015,15(1):231-245.
[10]Capó,Marco.An efficient approximation to the K-means clustering for massive data[J]. Knowledge-Based Systems,2016,5(3):122-123.
[11]Bandyapadhyay S,Varadarajan K.On Variantsof k-means Clustering[J].Computer Science,2015,9(1):1-14.
[12]Abdallah L,Shimshoni I.K-Means over Incomplete Datasets Using Mean Euclidean Distance[J].Machine Learning and Data Mining in Pattern Recognition.Springer International Publishing,2016,3(11):113-127.
[13]Li JT,Liu YH,Hao Y.The improvement and application of a K-means clustering algorithm[C].IEEE International Conference on Cloud Computing and Big Data Analysis.IEEE,2016,3(10):93-96.
[14]Peura RA.Blood glucose sensors:an overview[J]. IEEE,2014,5(2):63-68.
[15]Qi L,Yuan J.Development of the Portable Blood Glucose Meter for Self-monitoring of Blood Glucose[C].Engineering in Medicine and Biology Society,2005.Ieee-Embs 2005.International Conference of the.IEEE,2006,3(5):45-47.
[16]張建輝.K-means聚類算法研究及應用[J].武漢理工大學學報,2014,3(4):17-22.
[17]周世兵,徐振源.K-means算法最佳聚類數確定方法[J].計算機應用,2010,7(8):10-11.
[18]吳夙慧,成穎.K-means算法研究綜述[J].現代圖書情報技術,2011,6(5):23-25.
[19]王千,王成.K-means聚類算法研究綜述[J].電子設計工程,2012,4(7):19-22.
Analysis for monitoring data of type 2 diabetes mellitus based on K-means algorithm
WEI Zhe, LV Ke-nan, WANG Neng-cai// China Medical Equipment,2016,13(11):13-16.
Objective: To analyze the monitoring data of type 2 diabetes mellitus based on K-means algorithm to avoid noise and interference signals in glycemic measurement and get experimental data applicable to Gray Relational Method. Methods: We use the data of a patient who named Mr. Li from the information department of one tertiary referral hospital in Lanzhou which includes course note of disease and his health record. And we use K-means algorithm to process and analyze his glycemic data in 60 minutes to remove error data point. Results: We can get Mr. Li’s necessary and undisturbed experimental data in 60 minutes. Conclusion: K-means algorithm holds a higher efficiency in removing noise and interference signals to obtain highquality experimental data, in order to process and analyze.
Blood glucose monitoring; Data processing; K-means analysis; Gray relational method
韋哲,男,(1963- ),博士,高級工程師。蘭州軍區蘭州總醫院信息科,從事醫療儀器及醫療信息系統的研究及教學工作。
1672-8270(2016)11-0013-04
R587.1
A
10.3969/J.ISSN.1672-8270.2016.11.005
①蘭州軍區蘭州總醫院信息科 甘肅 蘭州 730050
②蘭州理工大學電信學院 甘肅 蘭州 730050
2016-05-18