999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost 算法的2型糖尿病精準預測模型研究

2018-03-26 05:30:21張洪俠王金霞徐巖艷胡光瑞李洪軍劉天戟李燕林趙志強牛曉強
中國實驗診斷學 2018年3期
關鍵詞:特征糖尿病模型

張洪俠,郭 賀,王金霞,徐巖艷,呂 斌,閆 東,常 佳,胡光瑞,王 雪,李洪軍,劉天戟*,李燕林,趙志強,牛曉強

(1.吉林大學中日聯誼醫院,吉林 長春130033;2. 北京青梧桐健康科技有限公司)

近年來,我國糖尿病患病率逐年增加,研究表明我國成人糖尿病患病率目前為10.9%,其中新診斷糖尿病患病率6.9%,既往已知糖尿病患病率4.0%,40歲以下糖尿病患病率高達5.9%[1],糖尿病發病年輕化趨勢嚴重,由糖尿病引發的心腦血管疾病的發病率也逐年提高,提前進行糖尿病患病風險的評估,對高危人群進行早期干預以降低糖尿病的發病率無疑是當前亟待解決的問題。

XGBoost是極端梯度上升( eXtreme Gradient Boosting)的簡稱,是一種基于梯度 Boosting 的集成學習算法,其原理是通過弱分類器的迭代計算實現準確的分類效果[2]。它是兼具線性模型和Boosted Tree模型的一種優化模型 。XGBoost模型目前被機器學習、數據挖掘、統計學等專家廣泛應用于人工智能、數據分析和統計學習等領域[3]。影響糖尿病發生發展的因素有很多,如年齡、生活方式、肥胖、基因易感性等,本文結合人群體檢數據及基因檢測數據探討及評價應用XGBoost模型預測糖尿病患病風險。

1 對象和方法

1.1對象及分組

在我院體檢中心進行常規體檢的人員當中招募53名2型糖尿病患者和93名非糖尿病患者,年齡區間在18-65歲之間。本研究項目已經獲得醫院醫學倫理委員會批準,所有參與研究的志愿者均簽訂知情同意書。

1.2方法

1.2.1健康自測問卷 所有志愿者均填寫中華醫學會健康管理學分會推薦使用的《健康體檢自測問卷》[4]。

1.2.2體檢項目檢查 體檢項目包括內科、外科、血常規、尿常規、血糖、糖化血紅蛋白、血脂、肝功、腎功、心電、腹部超聲、胸片等項檢查,體檢項目在吉林大學中日聯誼醫院體檢中心、檢驗科、超聲科、放射科等進行。不同的志愿者體檢項目不完全相同,但是志愿者的體檢項目均有血糖和尿常規兩個檢測項目。

1.2.3糖尿病易感基因多態性檢測 單核苷酸多態性(Single Nucleotide Polymorphism,SNP) 是人類基因組中最常見的基因多態性,是繼RFLP,STR之后的第3代遺傳學標記。它是指單個堿基的缺失、插入以及單個堿基的置換。也就是一個堿基對的差異。常以二等位基因的形式出現。我們對所有志愿者進行糖尿病易感基因的基因多態性質譜檢測,基因質譜檢測在北京青梧桐健康科技有限公司進行,所選SNP是根據文獻得出(見表1)[5-8]。

表1 糖尿病患病風險檢測基因信息表

1.2.3.1基因組DNA提取 EDTA抗凝血0.2 ml,采用康為世紀的全基因組DNA提取試劑盒提取外周血DNA,紫外分光光度計檢測OD260/280,比值在1.6-1.8,表明樣品純度較高,可做后續實驗。

1.2.3.2PCR擴增及純化 從Pubmed中檢索待測基因序列,利用Assay Designer(Sequenom)軟件包對每個待測位點均設計1對引物(由北京青梧桐健康科技有限公司提供)。 PCR反應體系:所有需要檢測的DNA樣本均稀釋到10 ng/μl, 取1 μl DNA樣本,將其與1.8 μl ddH2O、0.5 μl PCR緩沖液(含20 mmol/L MgCl2)、0.1 μl 的25 mmol/L dNTP、0.4 μl 25 mmol/L MgCl2、1 μl PCR引物以及0.2 μl Hotstar 酶(Roche)混合在一起。PCR反應條件:95 ℃ 2 min;95 ℃ 30 sec,56 ℃ 20 sec,72 ℃ 60 sec,共45個循環;最終72℃ 5min。PCR擴增后,剩余的dNTP將被去磷酸消化掉,反應體系包括1.53 μl ddH2O、0.17 μl SAP緩沖液、0.3 Unit 堿性磷酸酶SAP(Agena Biosciencr)。該反應在37℃ 進行40 min, 然后85℃ 5 min使酶失活。

1.2.3.3待測位點的PEX反應 反應體系:0.94 μl 延伸引物(由北京青梧桐健康科技有限公司提供)、0.2 μl 10 X Gold緩沖液、0.2 μl 終止反應液、0.041 μl iPLEX酶(Sequenom)以及0.619 μl ddH2O。反應條件:94 ℃ 30 sec;94 ℃ 5 sec,52 ℃ 5 sec,80 ℃ 5 sec 5個循環,共40個循環;最終72℃ 3 min。在終止反應物中加入6 mg 陽離子交換樹脂(Sequenom)脫鹽,混合后加入16 μl ddH2O懸浮。

1.2.3.4樣本分析 使用MassARRAY Nanodispenser(Sequenom)將最終的分型產物點樣到一塊384孔的spectroCHIP (Sequenom)上,并用基質輔助激光解吸電離飛行時間質譜進行分析。最終結果由 MassARRAY RT軟件系統(版本號4.0)實時讀取,并由MassARRAY Typer軟件系統(版本號4.0)完成基因分型分析。

1.2.3.5等位基因判別 通過MALDI-TOF-MS檢測,各個引物及其PEX產物可形成2個(純合子)或3個(雜合子)信號峰,計算各個產物峰與相應的引物峰之間的m/z之差,得知所延伸的堿基的類型,可推斷該SNP位點的基因型。

1.2.4運用XGBoost模型建立糖尿病風險預測模型

1.2.4.1數據預處理 原始數據有699維的特征,部分特征列缺失數據嚴重,將數據缺失超過20%的特征列刪除,剩余92列。包含所有的SNP數據,年齡性別等個人信息,以及部分生化檢驗信息。數據中的缺失值全部填充為0。

1.2.4.2特征提取 我們對特征列做進一步處理,首先剔除姓名、登記號、體檢日期三個與體檢指標無關的特征列。剩余的特征中,我們只保留特征內容為數值型,而非字符型的特征列,總共得到61列。此外,我們還對SNP位點進行編碼,每個SNP位點有三種類型,因而對于每個SNP特征列,編碼后形成三個新的特征列。

1.2.4.3樣本劃分 我們隨機將數據劃分為訓練集和測試集,其中80%的樣本為訓練集,其余為測試集。

1.2.4.4機器學習建模 我們使用XGBoost模型來進行建模與預測。傳統GBDT在優化時只用到一階導數信息,XGBoost則同時用到了一階和二階導數的信息。XGBoost在代價函數里加入了正則項,用于控制模型的復雜度。正則項降低了模型的方差,使學習出來的模型更加簡單,防止過擬合。XGBoost還借鑒了隨機森林列抽樣的做法,能降低過擬合。隨機森林的原理是隨機建立大量的分類樹,每棵樹單獨對樣本進行分類,最終分類結果由每棵樹各自的分類結果通過投票確定。隨機森林算法提高了分類的準確性,且結果穩健,易于調整參數,但運行速度較慢。

1.3分析

1.3.1模型正確率的計算 我們采用準確率為指標來評價模型的預測效果,定義公式如下:正確率=預測正確的樣本數/總樣本數*100%。XGBoost模型預測得到的值為0-1之間的小數,將其二值化,0.5以上的定為1,0.5以下的設為0。二值化后預測值與實際值進行比較,計算正確率。

1.3.2特征重要性評估法 通過 XGBoost 建模可以判斷每個特征變量對模型的貢獻程度,從而判斷哪些特征變量對于糖尿病的發病風險的影響更為顯著。以數字代號對應的體檢指標如表2所示。

2 結果

2.1模型正確率

根據公式運用測試集檢測,最后的正確率約為86.6%。

2.2特征重要性評估結果

圖1為XGBoost模型的特征重要性評估。其中,排在前16位的重要特征有15位都是體檢特征,如血糖、甘油三酯、紅細胞計數等。之后的重要特征以SNP為主。

表2 特征代號對應的體檢特征名稱

圖1 xgboost模型的特征重要性評估

3 討論

國內外糖尿病的發病風險模型很多,有建模方法為Logistic回歸模型的墨西哥后裔美國人和非西班牙白種人糖尿病發病預測模型、日籍美國人個體糖尿病發病風險預測模型、芬蘭人群DM個體危險評分模型;有建模方法為Cox回歸模型的適用于中國臺灣人的糖尿病風險評估模型;有建模方法為人工神經網絡的糖尿病和糖耐量受損的個體發病預測模型[9],上述建模方法各有利弊。本文采用的XGBoost是一種 Gradient Boosting 算法的快速實現,它能夠充分利用多核 CPU 進行并行計算,同時在算法上進行改進以提高精度。

特征重要性評估結果顯示,對模型貢獻前三名的變量依次是空腹血糖、甘油三酯和SLC30A8基因rs13266634-C位點的等位基因。高血糖是糖尿病風險的最明顯的特征,眾多研究表明高甘油三酯血癥也與糖尿病發病密切相關[10]。SLC30A8基因,位于8號染色體(8q24),是鋅轉運體蛋白8(ZnT-8)的編碼基因,能夠特異性地在胰島β細胞中表達。ZnT-8能促進鋅從胰島β細胞的胞漿進入含有胰島素的分泌顆粒,參與胰島素的分泌。如果SLC30A8基因變異致ZnT-8的結構和功能異常,就會使胰島素分泌減少、胰高糖素分泌增加,導致血糖增高。研究證實SLC30A8增加2型糖尿病易感性可能是通過影響胰島β細胞功能使其紊亂、影響ZnT-8蛋白的功能從而導致鋅離子濃度發生變化和致胰島β細胞對前胰島素加工障礙所介導的。近期國內多項研究表明SLC30A8基因CC基因型及等位基因C是2型糖尿病的風險因素[11,12],與我們的XGBoost糖尿病風險預測模型一致。同時,應用測試集進行測試發現XGBoost糖尿病風險預測模型的準確度是86.6%,說明XGBoost糖尿病風險預測模型不但運算速度快,同時準確度也較高,對今后進一步臨床推廣具有現實意義。

另外,本研究的XGBoost糖尿病風險預測模型的特征重要性評估顯示:糖化血紅蛋白、年齡、總膽固醇分別排在第9位、第12位和第15位,說明高糖化血紅蛋白、高齡和高膽固醇血癥這三個變量對該模型的貢獻量較大,白細胞計數對模型的貢獻量排在第16位,考慮可能與糖尿病容易并發各種感染而引起的白細胞數增多有關。但對模型貢獻量排名前14的變量中還有紅細胞計數、紅細胞平均體積、紅細胞體積分布寬度、紅細胞平均血紅蛋白量、血小板平均體積、白蛋白、血小板計數、紅細胞平均血紅蛋白濃度、堿性磷酸酶,由于本研究樣本量不大,模型還需不斷優化,因而這些變量對模型貢獻的機制還有待于進一步深入研究。

綜上所述,從模型的分類預測準確度方面來看,本研究搭建 XGBoost糖尿病風險預測模型是成功的,具有良好的穩定性、較高的預測精度及運行的高效性,可以提前預警糖尿病風險,根據風險指標可給予精準健康干預,模型具有很強的可操作性和推廣性。本研究數據樣本量有限,后續研究中將逐漸擴大樣本量以建立預測效果更為準確的XGBoost模型。

[1]Wang L,Gao P,Zhang M,et al. Prevalence and ethnic pattern of diabetes and prediabetes in China in 2013 [J].JAMA,2017,317(24):2515.

[2]Chen T Q ,Guestrin C.XGBoost:A scalable tree boosting system[C]//ACM.Proceedings of the 22nd ACM SIGKDD.International Conference on Knowledge Discovery and Data Mining.New York:ACM,2016:785-794.

[3]賈文慧,孫林子,景英川.基于XGBoost模型的股骨頸骨折手術預后質量評分預測[J].太原理工大學學報,2018,49(1):174.

[4]中華醫學會健康管理學分會,中華健康管理學雜志編委會.健康體檢基本項目專家共識[J].中華健康管理學雜志,2014,8(2):81.

[5]Wu Y,Li H,Loos RJ,et al.Common variants in CDKAL1,CDKN2A/B,IGF2BP2,SLC30A8,and HHEX/IDE genes are associated with type 2 diabetes and impaired fasting glucose in a Chinese Han population[J].Diabetes,2008,57(10):2834.

[6]Ruchat SM,Vohl MC,Weisnagel SJ,et al.Combining genetic markers and clinical risk factors improves the risk assessment of impaired glucose metabolism[J].Ann Med,2010,42(3):196.

[7]Li H,Gan W,Lu L,et al.A genome-wide association study identifies GRK5 and RASGRP1 as type 2 diabetes loci in Chinese Hans[J].Diabetes,2013,62(1):291.

[8]Fuchsberger C,Flannick J,Teslovich TM,et al.The genetic architecture of type 2 diabetes[J].Nature,2016,536(7614):41.

[9]錢 玲,施侶元,程茂金.人工神經網絡應用于糖尿病并發癥的影響因素研究[J].現代預防醫學,2005,32(12):1625.

[10]Weijers RN.Lipid composition of cell membranes and its relevance in type 2 diabetes mellitus[J].Curr DiabeteS Rev,2015,8(5):390.

[11]劉 陽,王占友,池志宏,等.SLC30A8基因rs13266634 C/T單核有酸多態性與2型糖尿病易感性的相關性研究[J].中國醫科大學學報,2015,44(6):494.

[12]張淑蘭,劉 靜,郭陸晉,等.SLC30A8基因rs13266634多態性與甘肅漢族、回族2型糖尿病的相關性[J].中國老年學雜志,2015,35(4):898.

猜你喜歡
特征糖尿病模型
一半模型
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 午夜福利在线观看成人| 国产激情无码一区二区免费| 在线va视频| 综合久久五月天| 2021国产v亚洲v天堂无码| 亚洲福利一区二区三区| 亚洲天堂色色人体| 亚洲成人精品在线| 亚洲日韩日本中文在线| 国产精女同一区二区三区久| 国产精品久久久久久久久| 亚洲一区二区视频在线观看| 国产内射一区亚洲| 国产精品视频系列专区| 在线播放国产一区| 91精品国产一区| 成人在线天堂| 国产第一页免费浮力影院| 国产美女丝袜高潮| 大香伊人久久| 天天综合网色中文字幕| 国产91线观看| 国产精品人成在线播放| 伊人中文网| 日韩在线2020专区| 日韩 欧美 国产 精品 综合| 国产人妖视频一区在线观看| 一区二区三区成人| 91久久国产成人免费观看| 成人在线综合| 欧美日韩福利| 亚洲午夜福利精品无码| 欧美日本在线一区二区三区| 欧美在线三级| 国内毛片视频| 国产美女无遮挡免费视频| 亚洲精品少妇熟女| 亚洲AV无码乱码在线观看裸奔| 日本成人不卡视频| 久久久久久尹人网香蕉 | 无码人中文字幕| 国产日本欧美在线观看| 午夜精品久久久久久久无码软件 | 日韩区欧美区| 欧洲熟妇精品视频| 免费中文字幕一级毛片| 中文字幕伦视频| 午夜毛片免费观看视频 | 黄色网在线| 国产国产人免费视频成18| 欧美另类精品一区二区三区| 97视频在线观看免费视频| 国产精品美乳| 喷潮白浆直流在线播放| 免费三A级毛片视频| 亚洲精品不卡午夜精品| 国产精品思思热在线| 亚洲乱码在线播放| 尤物成AV人片在线观看| 欧美爱爱网| 国产高清不卡| 日韩在线影院| 国产乱肥老妇精品视频| 91啪在线| 91在线播放免费不卡无毒| 91精品啪在线观看国产| 99re经典视频在线| 全午夜免费一级毛片| 老色鬼欧美精品| 特级aaaaaaaaa毛片免费视频| 亚洲最大福利视频网| 国产女人在线| 亚洲欧美日韩成人高清在线一区| 全裸无码专区| 久久成人国产精品免费软件| 亚洲视频在线网| 超碰色了色| 丁香婷婷在线视频| 日韩色图在线观看| 国产日韩欧美视频| 久久伊伊香蕉综合精品| 日韩国产精品无码一区二区三区 |