石雁冰 邵 勇 李樹法
(貴陽中醫學院第一附屬醫院門診部,貴州 貴陽 550002)
代謝綜合征(MS)是糖尿病、心腦血管疾病發生的高危因素〔1,2〕,其在不同國家、地區、種族、職業患病率有明顯差異。本研究擬以貴陽客運段職工為研究對象,就MS的危險因素進行分析。
1.1對象 以2 297名貴陽客運段職工為研究對象,通過體格檢查測量身高、體重、腰圍、血壓,生化法檢測空腹血糖(FPG)、甘油三酯(TG)和高密度脂蛋白(HDL),通過問卷調查的形式獲取其受試者的一般人口學信息、病史、工作和生活情況資料。
1.2調查問卷 除了一般人口學資料和病史外還重點包括與貴陽客運段工作人員工作和生活緊密相關的16項內容,包括:工作性質(5個選項)、睡眠時間(5個選項)、乘務齡(6個選項)、乘務時段(3個選項)、工作壓力(3個選項)、工作之余(5個選項)、每日吸煙量(6個選項)、煙齡(6個選項)、飲酒情況(4個選項)、酒齡(6個選項)、每周運動量(4個選項)、口味(4個選項)、喜愛食物(3個選項)、常飲用飲品(5個選項)以及每周早餐次數(4個選項)。
1.3MS的判斷標準 MS的診斷參照國際糖尿病聯盟(IDF)2005年標準〔3〕,結合我國的實際情況進行:在符合中心性肥胖標準基礎上(腰圍:男性≥90 cm,女性≥80 cm)。合并以下4個指標中的任意2項:①TG水平升高:>1.17 mmol/L(115 g/L),或已接受相應治療;②HDL-C水平降低:男性<1.03 mmol/L(40 mg/dl),女性<1.29 mmol/L(50 mg/dl),或已接受相應治療;③血壓升高:收縮壓≥130 mmHg或舒張壓≥85 mmHg,或已接受相應治療或此前已診斷高血壓;④FPG升高:FPG≥5.6 mmol/L(100 mg/dl),或已接受相應治療或此前已診斷2型糖尿病。
1.4數據分析 首先對數據進行預處理,因為調查表中的數據存在空缺、異常等無效數據,在進行MS確診之前,將無效數據剔除,確保結果的準確性。使用相關函數對數據進行處理,從2 263條有效數據中,確診700例患者。然后按照作息習慣和飲食習慣為分類標準,把收集到的關于受試者生活習慣的所有調查信息簡單分為兩類:作息習慣包括睡眠時間、工作壓力、工作之余活動、周運動量;飲食習慣包括日吸煙量、煙齡、飲酒情況、酒齡、口味、食物、飲品、早餐。使用ID3為基本算法,計算各個生活習慣和可能致病因素的信息增益,建立決策樹,從而找出影響MS的主要因素。
1.5ID3模型建立 ID3算法是以信息論為基礎,以信息熵和信息增益度為衡量標準,從而實現對數據的歸納分類。通過比較信息增益度,對受試者的確診結果進行關聯度分析和分類〔4〕。對于生活習慣調查表中的n個相同概率的消息,每個消息發生的概率為:P=1/n,則每個消息傳遞的信息量為:l=log2n=-log2l/n。



信息增益度是兩個信息量之間的差值,其中一個信息量是需確定T的一個元素的信息量,另一個信息量是在已得到的屬性X的值后需確定的T一個元素的信息量,對于信息增益度有Gain(X,T)=Info(T)-Info(X,T)。
針對當前收集到的關于受試者生活習慣的所有調查信息,計算每個屬性的信息增益。選擇其中信息增益最大的屬性Ak,把Ak值相同的信息歸在同一個子集里。對每個子集遞歸調用建樹算法。求出每一種信息在樹層上的信息增益度,從而找出與MS關系最大的因素。
2.1考察基本作息習慣 工作之余的生活方式對MS發病的影響最大,信息增量0.001 81,睡眠時間為0.000 07,工作壓力為0.000 52,周運動量為0.001 28。工作之余在電腦上度過的人患病率高達到37.73%。在經過1 d緊張的工作之后,適當的放松,如串門、聊天等,可有效降低MS的發病風險。見表1。
2.2考察基本飲食習慣 日吸煙量信息增益為0.000 643;煙齡為0.000 526;飲酒情況為0.002 930;酒齡為0.001 873;口味為0.000 136;食物為0.000 734;飲品為0.001 707;早餐為0.000 047。飲酒情況對MS發病的影響最大,每天或幾乎每天都喝酒的人,其患病率高達到42.69%,常飲酒的人患病率反而較低。見表2。

表1 各個因素計算及分析結果比較〔n(%)〕

表2 飲酒情況分析〔n(%)〕
ID3算法是基于信息熵的決策樹分類算法,其核心思想是在決策樹中各層分枝節點上選擇屬性,用信息增益作為屬性選擇標準,使得在每一分葉子節點進行測試時,能獲得關于被測試例子最大的類別信息,使用該屬性將樣本集劃分成子集后,系統的信息熵值最小。近年來,其被廣泛應用數據挖掘中的特征分類研究中,特別是數據的歸類與處理方面顯示出了較強的適應性〔4~7〕。
MS的發病率逐漸增高,其主要發病機制是胰島素抵抗,與遺傳因素和熱量攝入增加、體育鍛煉缺乏等生活方式有著密切的關系。但是,其與生活方式中具體事件的關系需要用科學、可行的研究方法來確定,反過來確定后的結果也需要回到現實生活中來檢驗。目前在疾病病因研究方面興起了一種新的研究方法-數據挖掘技術,其在醫學中得到了廣泛的應用,其作用也得到了時間的驗證〔4~7〕。本研究說明良好的生活方式對MS發病的影響很大。另外說明適當的飲酒對MS的預防有一定的積極作用,但是過量飲酒或酗酒則會增加MS的發病率。
本研究是否符合實際必須需要回到現實中進行驗證的,故本課題組在今后工作中將針對以上危險因素對目的人群進行生活方式干預,期待能夠起到預防和延緩MS發病的作用。
4 參考文獻
1Alberti KG,Zimmet P,Shaw J.The metabolic syndrome-a new worldwide definition〔J〕.Lancet,2005;366(9491):1059-62.
2祝之明.應加強代謝綜合征的研究和防治〔J〕.中華心血管病雜志,2005;33(2):105-6.
3Zimmet P,Alberti KG,SerranO-Rios M.A new IDF worldwide definition of the metabolic syndrome:the rationale and the results〔J〕.Rev Esp Cardiol,2005;58(12):1371-6.
4柴宏濤,李建華,沈 迪.基于ID3算法的信息資源分類管理映射模型研究〔J〕.計算機工程與設計,2013;34(3):1082-86,96.
5李魯寧,趙德平.基于ID3算法100例中醫胃炎實驗數據分類挖掘研究〔J〕.遼寧中醫藥大學學報,2012;14(10):188-9.
6朱顥東,鐘 勇.基于NDF和優化的ID3的特征選擇方法〔J〕.暨南大學學報(自然科學與醫學版),2010;31(1):20-3.
7Ruz GA,Pham DT.Building Bayesian network classifiers through a Bayesian complexity monitoring system〔J〕.J Mechan Engineer Sci,2009;223:743-55.