司馬明珠,李全忠,王延年
1鄭州大學(xué)人民醫(yī)院,鄭州450000; 2鄭州大學(xué)信息工程學(xué)院
目前,糖尿病的臨床診斷分類多依靠糖化血紅蛋白、口服糖耐量試驗(yàn)、胰島素及C肽釋放試驗(yàn)、胰島細(xì)胞抗體檢測(cè)等[1],仍存在1型及2型糖尿病分型困難的情況。動(dòng)態(tài)血糖監(jiān)測(cè)系統(tǒng)(CGMS)是一種持續(xù)測(cè)量葡萄糖水平的方法,借助于皮下傳感器,每10 s接收1次電流信號(hào),每5 min將獲得的電流信號(hào)轉(zhuǎn)換成葡萄糖值儲(chǔ)存起來,持續(xù)監(jiān)測(cè)72 h可儲(chǔ)存864個(gè)葡萄糖值,自動(dòng)生成動(dòng)態(tài)血糖監(jiān)測(cè)曲線,可顯示糖尿病患者不同時(shí)間點(diǎn)血糖水平變化的模式、趨勢(shì)及血糖波動(dòng)特性[2]。Fisher判別分析是機(jī)器學(xué)習(xí)中模式識(shí)別的經(jīng)典算法,是數(shù)據(jù)處理的常用技術(shù),可用于分類判別[3]。本研究以CGMS監(jiān)測(cè)系統(tǒng)收集血糖數(shù)據(jù),通過Fisher判別分析建立分類模型對(duì)1型及2型糖尿病進(jìn)行判別分類,探索新型糖尿病分類方法的可能性。
1.1 臨床資料 選取2010年1月~2016年12月河南省人民醫(yī)院內(nèi)分泌科收治糖尿病患者165例,其中臨床確診為1型糖尿病14例,2型糖尿病151例。入選標(biāo)準(zhǔn):①符合1999年世界衛(wèi)生組織1型及2型糖尿病診斷標(biāo)準(zhǔn)[4];②佩戴CGMS時(shí)間≥72 h。
1.2 CGMS血糖監(jiān)測(cè) CGMS設(shè)備主要由葡萄糖感應(yīng)器和血糖記錄儀以及電纜、信息提取器、軟件組成。感應(yīng)探頭置于腹部皮下,通過檢測(cè)皮下組織液內(nèi)葡萄糖所產(chǎn)生的化學(xué)反應(yīng)電信號(hào)反映患者血糖水平。記錄器可通過電纜10 s進(jìn)行一次電信號(hào)傳輸,每5 min將所得電信號(hào)轉(zhuǎn)換為血糖值進(jìn)行儲(chǔ)存,每天可儲(chǔ)存288個(gè)血糖值。CGMS血糖監(jiān)測(cè)的準(zhǔn)確性通過每天清晨手測(cè)一次末梢空腹血糖輸入機(jī)器進(jìn)行校正。使用文獻(xiàn)報(bào)道血糖波動(dòng)特征計(jì)算方法[5],從所收集的CGMS曲線中提取出17個(gè)血糖分類特征數(shù)據(jù),分別為平均血糖值(MBG)、三餐前1 h MBG、三餐后3 h MBG、血糖時(shí)間百分比(PT)、曲線下面積(AUC)、血糖水平標(biāo)準(zhǔn)差(SDBG)、最大血糖波動(dòng)幅度(LAGE)、平均血糖波動(dòng)幅度(MAGE)、日間血糖平均絕對(duì)差(MODD);其中PT包括高偏移時(shí)間百分比(TH)、低偏移時(shí)間百分比 (TL)、血糖高于上限的時(shí)間百分比(HL)、血糖低于下限的時(shí)間百分比(LL)、血糖處于正常范圍的時(shí)間百分比(TIR)。
1.3 Fisher判別分析方法 Fisher判別分析作為一種判別方法,適用于兩類和多類判別。通過最大化類間方差與類內(nèi)方差的比率獲得一條合適的直線,使得數(shù)據(jù)點(diǎn)在投影到該直線后可以被分離,從而達(dá)到數(shù)據(jù)分類的目的[3]。Fisher判別分析線性方程為:F=a+b1X1 +b2X2 +...+bnXn (a為常量;X1~Xn為自變量,b1~bn為回歸系數(shù))。已知A、B兩類觀察對(duì)象,將每個(gè)觀察對(duì)象有統(tǒng)計(jì)意義的變量代入該方程,分別計(jì)算F值,若F(A)大于F(B),則判為A類,反之,則判為B類。本研究提取CGMS血糖監(jiān)測(cè)1型及2型糖尿病組間差異有統(tǒng)計(jì)學(xué)意義的指標(biāo)(午餐前1 h MBG、TH、TL、MODD、TIR)作為自變量,采用Fisher判別分析方法計(jì)算回歸系數(shù)及常量,建立分類模型。F1=-89.556+6.895×午餐前1 h MBG+1.028×TH+95.235×TL+128.283×TIR +7.296×MODD;F2=-102.222+7.408×午餐前1 h MBG+3.064×TH +99.483×TL+133.756×TIR +8.357×MODD。其中F1為2型糖尿病分類模型,F(xiàn)2為1型糖尿病分類模型。將每例患者5個(gè)血糖波動(dòng)特征值分別帶入上述函數(shù)F1及F2求值,如 F2大于F1,則判定為1型糖尿病,反之,則判定為2型糖尿病。

2.1 CGMS血糖監(jiān)測(cè)1型及2型糖尿病血糖波動(dòng)特征比較 1型糖尿病中血糖波動(dòng)特征值午餐前1 h MBG、TH、TL、MODD高于2型糖尿病,TIR低于2型糖尿病,兩組間比較差異有統(tǒng)計(jì)學(xué)意義 (P均<0.05) ;其余血糖波動(dòng)特征兩組間比較差異無統(tǒng)計(jì)學(xué)意義 (P均>0.05) 。見表1。

表1 1型及2型糖尿病血糖波動(dòng)特征比較

組別MBG(mmol/L)AUC(d·mmol/L)TH(%)TL(%)HL(%)LL(%)1型糖尿病7.7±2.11.9±2.1129±1446.07±8.4142.86±1.0213.50±11.702型糖尿病7.5±1.51.0±1.225±581.11±4.0714.31±32.788.05±14.30P0.7580.1720.0190.0470.3160.275

組別TIR(%)SDBG(mmol/L)MODD(mmol/L)LAGE(mmol/L)MAGE1型糖尿病81.28±19.220.44±2.032.83±2.179.05±5.180.44±2.112型糖尿病90.85±14.621.53±0.711.57±0.807.20±8.54-0.58±2.44P0.0240.1390.0490.4240.130
2.2 Fisher模型判別分析1型與2型糖尿病分類結(jié)果 將每例患者午餐前1 h MBG、TH、TL、MODD、TIR值分別帶入F1、 F2糖尿病Fisher分類模型求值,根據(jù)F1、 F2值大小,165例患者,F(xiàn)isher模型確定1型糖尿病23例,2型糖尿病142例。
2.3 Fisher模型回代性檢驗(yàn)結(jié)果 將Fisher分類模型分型結(jié)果進(jìn)行回代性檢驗(yàn)顯示,臨床最終確診14例1型糖尿病,F(xiàn)isher分類模型正確分型8例(57.1%),錯(cuò)誤分型6例;臨床最終確診151例2型糖尿病,F(xiàn)isher分類模型正確分型136例(90.1%),錯(cuò)誤分型15例。回代性檢驗(yàn)總正確分型144例(87.3%),錯(cuò)誤分型21例(12.7%)。見表2。

表2 Fisher分類模型回代性檢驗(yàn)結(jié)果[例(%)]
2.4 Fisher模型交叉核實(shí)法檢驗(yàn)結(jié)果 將165例患者的原始統(tǒng)計(jì)資料帶入預(yù)測(cè)模型, 按Jack-Knife思想進(jìn)行交叉核實(shí)檢驗(yàn),顯示Fisher分類模型1型糖尿病正確分型7例, 錯(cuò)誤分型7例;2型糖尿病正確分型130例, 錯(cuò)誤分型21例。交叉核實(shí)檢驗(yàn)總準(zhǔn)確分型137例(83.0%),錯(cuò)誤分型29例(17.0%)。見表3。

表3 Fisher分類模型交叉核實(shí)法檢驗(yàn)結(jié)果[例(%)]
2.5 Fisher分類模型判別1型與2型糖尿病的ROC曲線分析 以Fisher分類模型預(yù)測(cè)值為檢驗(yàn)值, 原臨床診斷結(jié)果為“金標(biāo)準(zhǔn)”, 繪制Fisher分類模型判別1型與2型糖尿病的ROC曲線, 曲線下面積為0.736 (SE=0.082, 95%CI0.575~0.897,P<0.05)。Fisher分類模型判別1型與2型糖尿病的準(zhǔn)確性、特異性、敏感性分別為83.7%、94.4%、34.8%。見圖1。
根據(jù)國(guó)際糖尿病聯(lián)盟的最新數(shù)據(jù),全球目前有4.15億成人糖尿病患者,每年治療糖尿病及其并發(fā)癥的全球成本十分驚人。作為全世界健康不良和過早死亡的主要原因之一,其流行特點(diǎn)一直處于上升趨勢(shì),已成為全球重點(diǎn)公共衛(wèi)生問題[6]。1型及2型糖尿病病因及發(fā)病機(jī)制的不同,治療方法不同,因此正確判定糖尿病患者為1型或2型十分重要。目前,盡管1型或2型糖尿病組間許多血糖波動(dòng)特征指標(biāo)具有差異性,可用于糖尿病的分類預(yù)測(cè),但是臨床1型及2型糖尿病分型困難的情況仍然存在。

圖1 Fisher分類模型判別1型與2型糖尿病的ROC曲線
隨著醫(yī)療信息管理計(jì)劃的發(fā)展和衛(wèi)生監(jiān)測(cè)系統(tǒng)的引入,醫(yī)療大數(shù)據(jù)相關(guān)研究迅速發(fā)展,機(jī)器學(xué)習(xí)成為一種更加高效、全面的數(shù)據(jù)處理辦法被廣泛應(yīng)用于臨床研究[7]。機(jī)器學(xué)習(xí)可以用于疾病的分類和預(yù)測(cè),其中支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、邏輯回歸、Boosting算法等可以分別從不同層面對(duì)糖尿病進(jìn)行分類預(yù)測(cè)[8~11]。但是以上分類預(yù)測(cè)方法計(jì)算工程龐大,實(shí)際操作困難。與上述分類方法相比,F(xiàn)isher判別分析方法可操作性強(qiáng),且具有較高的分類正確性。Fisher判別分析方法通過計(jì)算保留有用的特征進(jìn)行分類,其主要目的是找到一個(gè)線性變換值,該變換可使投影到新空間的不同類別之間的散射率最大化,并使投影類別內(nèi)的散射率最小。當(dāng)我們要對(duì)新對(duì)象進(jìn)行分類時(shí),一旦找到最佳線性變換,將其投影到判別空間,并計(jì)算出它與不同類別均值之間的距離,從而使得分配給新對(duì)象的類更接近該對(duì)象的類,提高分類準(zhǔn)確度[12]。
本研究我們基于午餐前1 h MBG、TH、TL、MODD、TIR等5個(gè)血糖波動(dòng)特征應(yīng)用Fisher判別分析方法建立糖尿病分類模型, 回代上述血糖波動(dòng)特征值對(duì)1型及2型糖尿病進(jìn)行判別預(yù)測(cè),分別帶入兩個(gè)方程, 獲得F1和F2的數(shù)值, 比較數(shù)值大小。若F1>F2, 預(yù)測(cè)此研究對(duì)象可能為2型糖尿病, 反之, 預(yù)測(cè)研究對(duì)象可能為1型糖尿病。通過回代性檢驗(yàn)發(fā)現(xiàn),165例患者,總正確分型率87.3%,錯(cuò)誤分型率12.7%;在1型糖尿病中正確分型8例, 錯(cuò)誤分型6例;在2型糖尿病中正確分型136例, 錯(cuò)誤分型15例;交叉核實(shí)法檢驗(yàn)得總判斷正確率為83.0%。ROC曲線分析Fisher分類模型判別1型與2型糖尿病的準(zhǔn)確性、特異性、敏感性分別為83.7%、94.4%、34.8%,顯示Fisher判別分析方法可用于糖尿病分類判別,且具有良好的糖尿病分類判別能力。此為逐步規(guī)范和自動(dòng)化醫(yī)學(xué)診斷過程提供了一種新的可能性,具有一定的參考價(jià)值。
本次研究所采用的樣本數(shù)據(jù)類間差異較大,研究中出現(xiàn)的1型糖尿病判別正確率欠佳的問題,可能與類間數(shù)據(jù)不平衡相關(guān)。在處理不平衡數(shù)據(jù)時(shí),分類算法會(huì)趨向于多數(shù)樣本,導(dǎo)致少數(shù)樣本的分類正確率下降。已有研究報(bào)道,該問題未來可通過聯(lián)合代價(jià)敏感技術(shù)或采樣技術(shù)加以解決[13]。