999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用患者相似性建立個性化糖尿病預測模型*

2019-02-28 07:44:50黃艷群劉紅蕾費曉璐
醫學信息學雜志 2019年1期
關鍵詞:模型

黃艷群 王 妮 張 慧 劉紅蕾 陳 卉 魏 嵐 費曉璐

(1首都醫科大學生物醫學工程學院 北京100069 (首都醫科大學宣武醫院 2首都醫科大學臨床生物力學應用基礎研究北京市 北京100053)重點實驗室 北京100069)

1 引言

在臨床醫學中疾病診斷和分期、預后預測等屬于數據挖掘中的分類和預測任務。疾病診斷預測是指以疾病的多種影響因素為基礎,利用可靠的大規模臨床數據建立模型,預測具有某些特征的人群發生某種疾病的概率,對疾病發生與否進行判斷,從而幫助臨床醫生進行疾病的診斷和治療[1]。傳統的預測建模方法是使用所有可用的同一批訓練樣本為所有測試樣本構建相同的預測模型,即“全局”預測模型。由于這種方法會忽略或丟失對特定目標患者重要的信息,得到的預測結果可能不理想。近年來一些學者提出個性化建模思想,即根據患者的歷史信息尋找與目標患者相似的患者,利用其數據構建動態預測模型,進而獲得更佳的預測性能[2-7]。在個性化預測建模過程中,患者之間的相似性決定建模所使用的訓練樣本,其有助于提高模型的預測性能。此外基于患者相似性的個性化建模思想應用于不同的數據挖掘模型時效果也可能不同。鑒于此,本文對不同模型在個性化預測建模任務中的應用進行探索性研究,以期對個性化預測建模中的模型選擇提供一定的參考依據。

2 資料和方法

2.1 數據準備

2.1.1 數據來源 本研究的數據來源于近兩年首都醫科大學宣武醫院的電子病歷系統。經過去隱私處理,提取患者性別、年齡、疾病診斷、實驗室指標共4大項指標作為建模特征。對完成清理的數據通過國際疾病編碼第10版ICD-10(International Classification of Diseases, the 10th Revision)編碼隨機抽取糖尿病(ICD-10編碼為E10-E14)患者和非患者各5 000名數據,構成10 000個樣本的研究隊列。

2.1.2 建模特征選擇 由于ICD-10編碼龐大、過于細致,主要運用于臨床的疾病細致分類,不利于進行病種分類[8],因此選用能夠對疾病進行病種分類的臨床分類軟件(Clinical Classifications Software,CCS)編碼[9]作為特征輸入。首先根據樣本涉及的所有疾病診斷的ICD-10編碼生成相應的CCS編碼(共191個)。然后利用卡方檢驗確定在糖尿病患者及非患者之間發生率有統計學差異(p<0.05)的疾病診斷共28個作為最終輸入。保留所有患者中無數據缺失的實驗室指標共77個作為輸入特征。經過特征選擇,選入建模的特征共107個,即性別、年齡、28個疾病診斷及77個實驗室指標。其中性別為二值變量,28個疾病診斷表示為28個是否患病的二值變量,年齡和實驗室指標為連續型變量,輸出為患有糖尿病的概率。

2.2 計算患者相似性

2.2.1 概述 首先計算樣本各個特征(年齡、性別、疾病診斷、實驗室指標)間的相似性,然后匯總為樣本間的相似性。設X和Y分別表示兩個樣本(患者),患者特征相似性的計算方法如下。

2.2.2 年齡相似性 利用患者X和Y兩者最小年齡與最大年齡之比作為年齡相似性Sage(X,Y)。其中AGEx和AGEY分別表示患者X和Y的年齡,MIN和MAX表示求最大值和最小值。

(1)

2.2.3 性別相似性 患者X和Y的性別相同時性別相似性Ssex(X,Y)為1,不同時為0。

(2)

2.2.4 疾病診斷相似性 利用4位ICD-10疾病編碼層級結構計算患者X和Y的疾病診斷相似性Sdis(X,Y)[10],見圖1。其中|A|和|B|分別表示兩個患者的疾病診斷的個數,A、B分別為兩個患者所有疾病診斷(按4位ICD-10編碼分類)的集合,|AUB|表示它們的并集,AB表示集合A中包含但集合B中不包含的疾病集合,BA表示集合B中包含但集合A中不包含的疾病集合,d(a,b)是疾病a和b的ICD-10編碼在樹型ICD-10編碼體系中的層級距離,它根據疾病層級自上而下計算而得。NCA(a,b)表示當自上而下遍歷疾病a和b的ICD-10編碼4位編碼層級結構時相同的層數,遍歷直至遇到不同的層時停止;#levels表示疾病層數,本研究中#levels=4。若患者X和Y的疾病診斷中有相同的疾病診斷,則不計算該疾病與其他疾病的層級距離。如疾病編碼為C16.9(胃癌)和C34.9(右支氣管肺癌)只有層級結構的第1層“C”相同,故兩者的層級距離為1/4。

(3)

圖1 4位ICD-10編碼層級結構

(4)

2.2.5 實驗室指標相似性 利用歐式距離計算實驗室指標相似性Slab(X,Y)。

(5)

其中LABXi和LABYi分別表示患者X和Y的第i個實驗室指標值,i=1,2,…77。根據預實驗對年齡、性別、疾病診斷和實驗室指標相似性按照以下最佳權重加權求和得到兩個樣本間的相似性。

Similarity(X,Y)=0.1*Sage(X,Y)+0.1*Sage
(X,Y)+0.4*Sdis(X,Y)+0.4*Slab(X,Y)

(6)

2.3 預測模型

選擇可輸出連續值的3種常見機器學習模型即Logistic回歸(Logistic Regression,LR),決策樹(Decision Tree,DT),BP(Back Propagation,BP)神經網絡模型進行對比。選用條件決策樹構建決策樹模型,能夠基于顯著性檢驗自動給決策樹剪枝,有效防止決策樹模型出現過擬合的現象。BP神經網絡結構為1個輸入層(包含107個神經元對應107個輸入特征)、1個隱含層(根據經驗確定包含

7個神經元)和1個輸出層(包含1個神經元,輸出分類概率值)。權重的初始值設置為0~1的隨機數。為便于比較模型的性能,本研究構造一個參照模型,即利用患者相似性為待測患者抽出前K%個最相似的訓練樣本,這些訓練樣本中糖尿病患者所占比例作為該待測患者的預測結果。

2.4 驗證與評價預測模型

本研究采用hold-out驗證方法進行建模和驗證,將整個研究隊列按9:1的比例隨機劃分為訓練集(9 000個樣本)和測試集(1 000個樣本)。建立個性化預測模型時,為每個測試樣本抽取訓練集中與該樣本相似性最高的前K%個訓練樣本來建模。K取值1~70,即建模時訓練樣本的規模取90~6 300。同時隨機抽取K%個訓練樣本建立相應的非個性化模型。選用ROC曲線下面積(Area Under the Curve,AUC)評價模型的預測準確性。

3 結果

3.1 個性化模型與非個性化模型間的比較(表2)

表1 不同個性化模型和非個性化模型以及參照模型的AUC范圍及平均值比較

3.1.1 LR模型 個性化與非個性化模型的AUC均隨訓練樣本量的增加而增大,在訓練樣本量分別達到10%(90)和34%(3 060)之前,AUC隨訓練樣本量增加變化較大,隨后變化減緩且基本達到最高;在訓練樣本量較多時兩者的預測性能均屬于優秀且基本保持穩定,表明不再需要更多訓練樣本量進行建模。整體上個性化模型性能優于非個性化模型,見圖2。

圖2 Logistic回歸模型預測性能

3.1.2 DT模型 個性化模型的AUC隨訓練樣本量的增加變化幅度較小,在0.883左右浮動,表明其受到訓練樣本量的影響較小。非個性化模型的AUC在訓練樣本量較少時(少于4%)升高幅度較大,隨后基本保持穩定。整體上個性化模型性能優于非個性化模型,見圖3。

圖3 決策樹模型預測性能

3.1.3 BP模型 個性化模型的AUC逐漸下降,變化幅度較小,非個性化模型AUC變化浮動不定,規律性不強;診斷能力均較低??傮w上個性化模型性能優于非個性化模型,且達到最佳預測性能時所需要的訓練樣本量少于非個性化模型,見圖4。

圖4 BP神經網絡模型的預測性能

3.2 不同個性化模型間的比較(圖5)

無論訓練樣本量如何變化,LR、DT和BP模型的AUC均高于參照模型,特別是LR和DT模型的AUC明顯高于參照模型。這說明機器學習模型在應用于疾病預測時其性能優于基于簡單的投票思想的參照模型。此外,總體上LR和DT模型的AUC相近且較高,尤其是DT模型在訓練樣本量變化時AUC均維持在較高水平,預測性能較佳, BP模型的AUC普遍較低。因此LR和DT模型可能更適用于疾病預測。

4 討論

4.1 患者相似性及其在醫學數據挖掘中的應用

在相似性計算方面,主要有基于Mahalanobis距離、歐氏距離等方法以及對相似性進行加權求和從而優化相似性的計算。Sun J等[2]提出基于局部監督信息的患者相似性學習(Locally Supervised Metric Learning,LSML)算法,將患者的疾病診斷作為監督信息來判別該患者的相似患者,進而得到一種泛化的馬氏距離來計算患者相似性。Patel A等[3]通過對非ICU患者生命體征信息的相似性加權,獲取最終相似性來預測ICU患者轉入非ICU病房的可能性。陳婕卿等[4]基于艾滋病患者治療前的基線資料,利用歐氏距離計算患者相似性,實現基于案例推理的治療方案推薦。在相似性的應用方面,主要有基于患者相似性、選用不同數據挖掘預測模型等進行疾病、死亡預測等。Chan L等[5]利用電子病歷數據計算患者相似性并依此挑選相似患者,建立基于支持向量機的癌癥患者個性化生存預測模型。Kenny Ng等[6]探討利用患者相似性進行糖尿病風險因素分析和個性化糖尿病預測的可行性。Park YJ等[7]探索利用不同訓練樣本規模、臨床相似性最高的患者數據構建Logistic回歸模型來研究死亡預測準確率隨建模人數變化的趨勢。

4.2 研究結果及分析

本研究選用結構、算法、思想完全不同的3種模型,探討利用患者相似性建立個性化糖尿病預測模型時模型本身對預測結果的影響,取得較為滿意的結果。在相似性計算方面,針對輸入特征(年齡、性別、疾病診斷和實驗室指標)的不同類型,采用不同的特征相似性計算方法并嘗試不同的權重組合,最終得到效果最好的相似性度量結果用于篩選模型的訓練樣本。實驗結果顯示整體上個性化預測模型性能明顯優于非個性化模型和參照模型,與其他研究[6]的結果類似,主要體現在個性化模型達到最佳預測性能時所需的訓練樣本量明顯較少且在訓練樣本量相同時個性化模型性能更佳。此外在3種個性化預測模型中LR和DT模型的性能最佳,預測能力均屬于優秀。特別是DT模型,其隨訓練樣本量變化浮動較小,受到訓練樣本量的影響較小,用較少的訓練樣本(如90人)即可得到較佳的預測結果。原因可能在于本研究所選的決策樹類型為條件推斷樹,算法本身能夠根據實際情況自動剪枝,故性能穩定。BP模型預測性能一般,原因可能是其訓練過程過于依賴各個神經元的初始化賦值,但是這種初始化賦值是隨機的,從而導致訓練結果出現較大的隨機性。

5 結語

基于患者相似性構建個性化糖尿病預測模型具有可行性且相對于傳統方法預測效果有所提升;該方法運用于其他疾病的預測上可能會得到較為滿意的效果。未來可從擴充樣本的特征(如影像學特征)以及嘗試其他相似性計算方法等方面開展相關研究。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲国语自产一区第二页| 欧美精品亚洲二区| 91年精品国产福利线观看久久| 国产色网站| 欧美亚洲激情| 青草精品视频| 亚洲第一页在线观看| 97视频精品全国在线观看| 成人综合久久综合| 视频一区视频二区日韩专区| 天天激情综合| www.99精品视频在线播放| 在线国产三级| 亚洲第一中文字幕| 天天综合网色中文字幕| 在线观看国产精美视频| 国产午夜在线观看视频| 九色视频在线免费观看| 刘亦菲一区二区在线观看| 成年人国产视频| 97国产在线视频| 亚洲 成人国产| 手机成人午夜在线视频| 亚洲美女视频一区| 欧美成人日韩| 国产区人妖精品人妖精品视频| 精品免费在线视频| 久久人搡人人玩人妻精品| 婷婷中文在线| 伊人丁香五月天久久综合 | 91精品国产综合久久不国产大片| 国产日本欧美在线观看| 九色最新网址| 国产微拍一区| 久久伊伊香蕉综合精品| 香蕉久久永久视频| 国产精品久久国产精麻豆99网站| 亚洲视频免费在线看| 色精品视频| 成人免费黄色小视频| 成人在线天堂| 美女无遮挡被啪啪到高潮免费| 亚洲欧州色色免费AV| 亚洲娇小与黑人巨大交| 成人自拍视频在线观看| 综合色亚洲| 国产96在线 | 国产玖玖视频| 四虎成人在线视频| 69av在线| 久久人妻xunleige无码| 久久精品国产亚洲麻豆| 欧亚日韩Av| 日韩性网站| 国产无码网站在线观看| 999精品免费视频| 久久性视频| 亚洲人成色在线观看| 东京热高清无码精品| 欧美成人一区午夜福利在线| 亚洲婷婷丁香| 久久国产毛片| 日本免费福利视频| 天堂va亚洲va欧美va国产 | 亚洲一区二区无码视频| 亚洲欧美日韩动漫| 精品无码专区亚洲| 伊人色在线视频| 色综合久久久久8天国| 欧洲免费精品视频在线| 澳门av无码| 欧美专区在线观看| 热99re99首页精品亚洲五月天| 欧美性色综合网| 亚洲黄网视频| 亚洲伊人久久精品影院| 91在线激情在线观看| 思思热在线视频精品| 亚洲视频黄| 国产午夜一级毛片| 欧美综合区自拍亚洲综合绿色 | 国产精品视频免费网站|