【摘要】 目的:通過現有數據分析心腦血管慢性病的主要影響因素。方法:選取2015年出院診斷中包含E78(高脂血癥)、I10-I15(高血壓)和E10-E14(糖尿病)的831條出院患者信息。從基本情況、生活狀況、生活習慣三方面分析影響心腦血管慢性病的危險因素,建立影響因素與身體健康指數之間的關系決策表,結合粗糙集和遺傳算法,去除決策表中的冗余。結果:找到影響心腦血管慢性病的主要影響因素有年齡、學歷、飲酒及肥胖。結論:患有高血脂癥、高血壓和糖尿病的患者無論病情如何,其生活習慣、肥胖均影響心腦血管慢性病的發生,通過數據驗證表明算法對分析慢性病的影響因素研究可行,可以為加強慢性病的防治工作提供有利的決策依據。
【關鍵詞】 心腦血管慢性病; 粗糙集; 遺傳算法; ICD-10
Study on the Application of Rough Set and Genetic Algorithm in Cardiovascular and Cerebrovascular Diseases/HUANG Xian-fang.//Medical Innovation of China,2017,14(06):135-138
【Abstract】 Objective:Through the existing data to analyze the main influencing factors of cardiovascular and cerebrovascular diseases.Method:831 patients discharged from hospital in 2015 were selected,including E78 (hyperlipidemia),I10-I15 (high blood pressure) and E10-E14 (diabetes).From the basic situation,living conditions,living habits influence analysis of cardiovascular risk factors for chronic diseases,the relationship between the establishment of decision table of influence factors and health index,combining genetic algorithm and rough set,remove redundant decision table.Result:The main influencing factors of cardiovascular and cerebrovascular diseases were age,education,drinking and obesity.Conclusion:Patients with hyperlipidemia,hypertension and diabetes,regardless of their condition,their habits,obesity,cardiovascular and cerebrovascular diseases are affected by the occurrence of chronic,the results show that the algorithm is feasible for analyzing the influencing factors of chronic diseases,and can provide a favorable basis for the prevention and treatment of chronic diseases.
【Key words】 Cardiovascular and cerebrovascular diseases; Rough set; Genetic Algorithm; ICD-10
First-authors address:The Peoples Hospital of Zhengzhou,Zhengzhou 450000,China
doi:10.3969/j.issn.1674-4985.2017.06.038
慢性病是指慢性非傳染性疾病,具有起病隱匿、病程長、病情遷延不愈等特點,一旦防治不及時,將會造成經濟、生命等方面的巨大危害。慢性病主要指的是心腦血管疾病、糖尿病、惡性腫瘤、慢性阻塞性肺部疾病、精神異常和精神病等為代表的疾病。2015年4月10日國家衛計委發布的《中國疾病預防控制工作進展(2015)報告》中,用大量翔實的數據介紹我國疾病預防控制工作現狀,報告中指出腦血管病、惡性腫瘤等慢性疾病已成為主要死因,慢性病導致的死亡人數已占到全國總死亡人數的86.6%,而導致的疾病負擔占總疾病負擔的近70%[1]。本文主要研究的是心腦血管疾病,包括冠心病、腦卒中等。此類慢性疾病的影響因素多種多樣,如何從醫院的海量數據中挖掘出有利于分析心腦血管疾病引起的信息是本次實驗的關鍵問題。
粗糙集算法是一種刻畫不完整性和不確定性的數學工具,能有效分析不精確、不一致、不完整等各種不完備的信息,還可除去信息數據中的冗余信息而保持原有的分類能力不變。遺傳算法是一種通過模擬自然進化過程搜索最優解的方法,具有局部隨機搜索能力,又可維持群體的多樣性。本文首先對造成心腦血管慢性病的原因和因素進行分析,建立反映影響因素和身體健康狀況之間的關系決策表,提出利用決策粗糙集和遺傳算法相結合的屬性約簡方法,去除決策表中冗余規則,為防治心腦血管慢性病提供科學的決策依據。
1 心腦血管慢性病的影響因素分析
心腦血管慢性病是威脅人類的一種常見病,具有發病率高、死亡率高、致殘率高、并發癥多的特點[2]。目前,我國心腦血管慢性病患者已超過2.7億人。慢性疾病的發病率升高、發病人群低齡化是多種因素共同作用的結果。一方面,慢性疾病會受到先天遺傳因素的影響,另一方面,人們的飲食習慣、生活習慣等后天因素也會引起慢性疾病的發生。通過調查分析,影響心腦血管慢性病的主要因素:基本情況(性別、年齡、體重、家族病史等都影響慢性疾病的患病情況);生活狀況(收入來源是否穩定,生活滿意度影響慢性疾病);生活習慣(吸煙、喝酒對慢性疾病的影響不可忽視)等。
2 粗糙集算法和遺傳算法的理論介紹
2.1 粗糙集 (1)定義1:四元組S=(U,R,V,f)是一個決策表系統,其中,U是論域,是對象的有限集合;R=C∪D,C∩D=φ,其中,R是屬性集合,C是條件屬性集合,D是決策屬性集合;表示屬性值域集合,是屬性b的值域;f表示信息函數,即f:U×R→V,指定U中每一個對象b的屬性值[3]。(2)定義2:IND(A)表示A的一族等價關系,其中,a∈A,若IND(A)=IND(A-{a})則稱a為A中不必要的;否則稱a為A中必要的。如果每一個a∈A都為A中必要的,則稱A為獨立的;反之A為依賴的。設Q∈P,若Q是獨立的,且IND(Q)=IND(P),則稱Q為P的一個約簡。(3)定義3:決策屬性對條件屬性的依賴程度:,其中,d是決策屬性,c是條件屬性,表示U的基數,是d關于c的正域。
2.2 遺傳算法 (1)染色體編碼。采用長度為l(l表示條件屬性的個數)的二進制字符串來表示個體編碼,每一位對應一個條件屬性。例如:(c1,c2,…,cl),若個體中包含第i(i=1,2,…,l)個屬性,則ci=1;否則ci=0。(2)適應度函數。,其中,l表示染色體r的長度,lr表示染色體r中基因為1的個數,γC(d)表示決策屬性d對條件屬性c的依賴程度。(3)遺傳算子。①選擇。通過輪盤賭方法來實現,先計算每個染色體r的適合度值F(ri),得到群體的適合度之和,之后計算每個染色體的選擇概率,即,得出每個被包括的染色體ri的累積概率qi,且qi=。如果r 3 基于粗糙集算法和遺傳算法的心腦血管慢性病影響因素分析 3.1 心腦血管慢性病影響因素信息表的確定 3.1.1 疾病數據來源 數據取自本院2015年出院患者信息,由于心腦血管疾病是心臟血管和腦血管疾病的統稱,泛指由高脂血癥、高血壓、糖尿病等所導致的心臟、大腦及全身組織發生的缺血性或出血性疾病,所以提取數據的原則是根據國際疾病分類編碼ICD-10導出出院診斷中包含E78(高脂血癥)、I10-I15(高血壓)和E10-E14(糖尿病)的831條出院患者信息[5]。判斷患者是否是心腦血管慢性病的依據原則是其出院診斷的主要診斷是否在心腦血管疾病ICD-10的編碼范圍內,其中心腦血管疾病ICD-10編碼包括:I21(急性心肌梗死)、I22(隨后性心肌梗死)、I46(心臟性猝死)、I60(蛛網膜下腔出血)、I61(腦出血)、I63(腦梗死)、I64(未分類腦卒中)[6]。 3.1.2 疾病影響因素信息表 將831組患者出院數據作為論域,將心腦血管慢性病的影響因素作為條件屬性集,將是否患有心腦血管慢性病作為決策屬性集。確定患者性別、年齡、職業、學歷、吸煙情況、飲酒情況、肥胖、家族史等8個因素為條件屬性[7],其中肥胖是由身高和體重數據得出的,衡量標準是采用臨床用體重指數(BMI)[8-9]:<18.5 kg/m2為體重過低,18.5~23.9 kg/m2為正常范圍,≥24 kg/m2為超重,≥28 kg/m2為肥胖,本文中規定正常范圍屬于達標,體重過低、超重、肥胖均為超標。8個影響因素分別用c1,c2,…,c8表示。心腦血管慢性病患病情況D為決策屬性。通過對原始數據的預處理,包括數據的除燥、離散化、歸一化,建立心腦血管慢性病影響因素決策表,見表1。此處考慮的8個因素是影響心腦血管慢性病的主要因素,而其他的一些次要因素被忽略。 注:c1,0表示女性,1表示男性;c2,0表示年齡0~45歲,1表示45~70歲,2表示70歲以上;c3,0表示管理人員,1表示一般職員,2表示其他;c4,0表示大專及以上,1表示初高中,2表示小學及以下;c5,0表示不吸煙,1表示吸煙;c6,0表示不飲酒,1表示飲酒;c7,0表示體重達標,1表示體重超標;c8,0表示無家族史,1表示有家族史;D,0表示未有慢性病,1表示患有慢性病 3.2 屬性約簡算法 屬性的約簡問題屬于數據NP完全問題,基于遺傳算法約簡刪除冗余條件屬性得到簡化決策表的具體算法步驟如下:輸入:S=(U,A,V,f)為一個決策信息表,A=C∪D,C是條件屬性,D是決策屬性。輸出:S的所有約簡。Step 1,算出決策屬性D關于條件屬性C的支持度γC(D)。Step 2,令reduct(C)=φ,逐一去掉個屬性ci∈C,若γC-{ci}(D)≠γC(D),則reduct(C)=reduct(C)∪{ci};若γreduct(C)(D)= γC(D),則終止計算,其中,reduct(C)表示屬性C的約簡;否則進行Step 3。Step 3,隨機產生p個長度為l(條件屬性的個數)的二進制串組成個體初始種群:對應位置選取0或1,并計算出初始群體中每個個體的適應度。Step 4,根據輪盤賭的方法選擇個體,通過交叉概率pc和變異概率pl產生新的群體,并且在變異時保持該屬性對應的基因位不發生變異。Step 5,計算新的群體中每個個體的適應度。Step 6,根據最優保存策略將最優個體保留至新的群體中并根據策略保存。Step 7,判斷連續t代的最優個體的適應值是否不再提高,如果是,終止計算并輸出最優個體,否則,轉至Step 4[10]。
3.3 心腦血管慢性病影響因素決策規則生成 心腦血管慢性病的影響因素規則是由屬性約簡去除冗余條件屬性及重復信息得到簡化信息表而得到。
4 結果
選取pc=0.7,pl=0.01,t=100,得到的最優解為0101011,即c2、c4、c6、c7四個屬性被保留,從而得到約簡后的決策規則,除患者患有高脂血癥、高血壓和糖尿病疾病外,患者年齡在0~45歲,學歷在大專及以上,體重達標的飲酒者未患有心腦血管慢性病;患者年齡在0~45歲,學歷在小學及以下,體重達標的不飲酒者未患有心腦血管慢性病;患者年齡在45~70歲,學歷在大專及以上,體重超標的不飲酒者患有心腦血管慢性病;患者年齡在70歲以上,學歷在初高中,體重超標的不飲酒者患有心腦血管慢性病;患者年齡在45~70歲,學歷在初高中,體重超標的飲酒者患有心腦血管慢性病,從而得出影響心腦血管慢性病的主要因素是年齡、學歷、飲酒以及肥胖。并得出兩個強規則,年齡在45歲以下,學歷在小學及以下,體重在正常范圍內的飲酒者沒有心腦血管慢性病;年齡在45歲以上,學歷在中學及以上的體重超標者有心腦血管慢性病。
5 討論
為驗證結果的準確性,對2016年上半年出院診斷中包含E78(高脂血癥)、I10-I15(高血壓)和E10-E14(糖尿病)的387條出院患者信息進行驗證,其中心腦血管慢性病患者83例,未患心腦血管病的患者有304例。驗證結果是條件滿足年齡在45歲以下,學歷在小學及以下,體重在正常范圍內的飲酒者共有52例,其中43例患者是心腦血管慢性病患者;條件滿足年齡在45歲以上,學歷在中學及以上的體重超標患者共有175例,其中130例未患心腦血管慢性病。
根據出院數據提取出的有效規則,得出患有高血脂癥、高血壓和糖尿病的患者無論病情如何,其生活習慣和肥胖都影響心腦血管慢性病的發生,這為防治心腦血管慢性病提供決策依據,可根據不同情況采取不同的應對措施,真正做到心腦血管慢性病的防治。對于生活習慣方面,要鼓勵人們多參加一些適宜的社會活動,既保持身心健康,也可以調節不良情緒。對于體重控制方面,可以咨詢營養師改善飲食結構,通過合理飲食來控制熱量的攝入,尤其是脂肪等的攝入,從而降低心腦血管慢性病的發生率。
參考文獻
[1]中華人民共和國國家衛生和計劃生育委員會.中國疾病預防控制工作進展(2015年)[EB/OL].http://www.nhfpc.gov.cn/jkj/s7915v/201504/d5f3f871e02e4d6e912def7ced719353.shtml
[2]王麗曄,吳壽嶺,楊曉利,等.糖尿病人群中高敏C 反應蛋白與新發心腦血管事件關系的前瞻性研究[J].中華心血管病雜志,2011,39(8):749-754.
[3]葉明全,胡學剛,胡東輝,等.基于屬性值分類的多層次粗糙集模型[J].模式識別與人工智能,2013,26(5):481-490.
[4]范明.孟曉峰,譯.數據挖掘概念與技術[M].北京:機械工業出版社,2003:185-222.
[5]北京協和醫院世界衛生組織國際分類家族合作中心編譯.疾病和有關健康問題的國際統計分類,第十次修訂本,第一卷,類目表[M].2版.北京:人民衛生出版社,2008.
[6]劉英,羅興林,陳睦虎,等.高血壓急癥心腦血管事件相關因素分析[J].中國醫藥導報,2015,12(11):73-74.
[7]白彝華,潘毅,蔣紅櫻,等.云南地區腹膜透析患者發生心腦血管事件的危險因素分析[J].昆明醫科大學學報,2016,37(4):96.
[8]郭躍偉,郭麗君,顧顏勝,等.農村正常高值血壓及高血壓居民的心腦血管危險因素分布特征[J].重慶醫學,2014,43(23):3012.
[9]趙琳,李志劍.頸動脈粥樣硬化與心腦血管危險因素的相關性分析[J].中西醫結合心腦血管病雜志,2015,13(9):1114-1115.
[10] 馬吉明,黃憲芳,蔣亞平,等.粗糙集理論和遺傳算法在預防城市道路交通擁堵中的應用[J].鄭州輕工業學院學報:自然科學版,2012,27(1):62-64.
(收稿日期:2016-12-29) (本文編輯:張爽)