王 浩,張興平**,龔后武,孫 研,文 騰,袁術(shù)鵬,蘇明亮,李言生,蘇 杭,栗翊超,韋葭蔚
(1. 中國(guó)中醫(yī)科學(xué)院望京醫(yī)院信息中心 北京 100102;2. 中國(guó)中醫(yī)科學(xué)院研究生院 北京 100700;3. 東華軟件股份公司 北京 100190)
隨著社會(huì)的發(fā)展,人口老齡化已成為一個(gè)全球化的現(xiàn)象,骨傷科的老年患者數(shù)量亦顯著上升。對(duì)于老年骨科患者而言,手術(shù)治療能夠及時(shí)解除病痛,降低各種因臥床引發(fā)的并發(fā)癥。然而,由于年齡、生理狀況及合并疾病等因素影響,老年患者對(duì)手術(shù)創(chuàng)傷的耐受能力不一,手術(shù)潛在風(fēng)險(xiǎn)高[1]。因此,手術(shù)風(fēng)險(xiǎn)預(yù)測(cè)對(duì)于高齡骨科手術(shù)患者尤為重要。骨科醫(yī)生為針對(duì)可逆性風(fēng)險(xiǎn)因子作出調(diào)控,就務(wù)必要掌握圍手術(shù)期的所有風(fēng)險(xiǎn)因子。
臨床一般采取手術(shù)方式為骨折患者開(kāi)展治療,但手術(shù)治療往往會(huì)導(dǎo)致患者失血過(guò)多,引發(fā)低蛋白血癥,導(dǎo)致患者預(yù)后不良,使患者在手術(shù)后仍然承受較大的痛苦[2,3]。術(shù)后患者低白蛋白血癥的發(fā)生率較高,為70%-80%[4]。低蛋白血癥可引起組織、器官水腫,導(dǎo)致患者出現(xiàn)胸腔積液、腹水、肺水腫、切口不愈合、吻合口瘺等并發(fā)癥,影響機(jī)體對(duì)創(chuàng)傷的修復(fù)。研究證實(shí),低蛋白不僅能延緩機(jī)體組織愈合、降低抗感染能力、增加術(shù)后并發(fā)癥發(fā)生率及病死率,還與病情嚴(yán)重程度及預(yù)后密切相關(guān)[5]。
目前少有針對(duì)高齡老年骨科手術(shù)患者低蛋白血癥篩選獨(dú)立危險(xiǎn)因素及建立風(fēng)險(xiǎn)預(yù)測(cè)模型的報(bào)道。近年來(lái),大數(shù)據(jù)分析逐漸引起關(guān)注,尤其是在醫(yī)療衛(wèi)生領(lǐng)域。因此,本研究的研究對(duì)象為中國(guó)中醫(yī)科學(xué)院望京醫(yī)院骨傷科治療的526 例高齡手術(shù)患者,通過(guò)對(duì)其臨床醫(yī)療數(shù)據(jù)作回顧性分析,構(gòu)建高齡骨科患者術(shù)后發(fā)生低蛋白血癥的大數(shù)據(jù)風(fēng)險(xiǎn)預(yù)測(cè)模型,最終為今后高齡骨傷科患者術(shù)后并發(fā)癥相關(guān)治療和預(yù)防策略提供依據(jù)。
收集 2003 年 7 月 7 日至 2014 年 12 月 22 日時(shí)間段于中國(guó)中醫(yī)科學(xué)院望京醫(yī)院骨科住院的高齡患者(說(shuō)明1:數(shù)據(jù)要求患者為單次手術(shù),若患者多次手術(shù)時(shí),時(shí)間間隔超過(guò)半年,則可以算作新的病例。經(jīng)篩查發(fā)現(xiàn)數(shù)據(jù)中有重復(fù)出現(xiàn)的病案號(hào)24例,均為二次住院的手術(shù),審核時(shí)間間隔發(fā)現(xiàn)均超過(guò)半年,故作為新的病例來(lái)研究,因此原數(shù)據(jù)新增24 例,共550 例,最終清洗剩余548例)(說(shuō)明2:本文中的高齡是指入院時(shí)年齡大于等于60 周歲)。其中年齡83.79 ± 3.23 歲,男性182例,女性366例。
本研究的結(jié)局為患者術(shù)后是否出現(xiàn)低蛋白血癥,將所需的患者信息內(nèi)容集中于臨床科研一體化數(shù)據(jù)倉(cāng)庫(kù)中。研究特征涵括患者年齡、性別、檢查檢驗(yàn)、診斷醫(yī)囑、就診時(shí)間等。人口學(xué)特征、生命體征、實(shí)驗(yàn)室檢查等臨床變量,作為建模候選變量。低蛋白血癥的判斷標(biāo)準(zhǔn)“血清總蛋白水平小于60 g·L-1,清蛋白小于35 g·L-1”定為低蛋白血癥[6]。
對(duì)檢查檢驗(yàn)指標(biāo)的連續(xù)型特征統(tǒng)一量綱,并按術(shù)前術(shù)后劃分,并取極值(同期多次檢查的最高、最低值);離散型特征做了類(lèi)別規(guī)范;數(shù)據(jù)規(guī)則結(jié)果如表1、表2。數(shù)據(jù)預(yù)處理流程包括:①異常值處理。修正處理:部分記錄錯(cuò)誤的數(shù)據(jù),若可以修正的,取均值或邊界值;刪除處理:錄入時(shí)產(chǎn)生,無(wú)法追溯的,刪除處理為缺失值。②缺失值處理[7]。補(bǔ)全:部分缺失值經(jīng)醫(yī)學(xué)專(zhuān)家確認(rèn)后在原數(shù)據(jù)補(bǔ)全。部分缺失值采用陰性值補(bǔ)全。部分缺失值不予補(bǔ)全。決定不采用插補(bǔ)法或多重插補(bǔ)法予以補(bǔ)全。刪除規(guī)則:分析中對(duì)缺失太多的變量特征,經(jīng)與醫(yī)學(xué)專(zhuān)家討論確認(rèn)進(jìn)行特征刪除,其他缺失在分析中均采用個(gè)案刪除的方式。③極端值處理。尚未做處理。④特征標(biāo)準(zhǔn)化。連續(xù)特征采用標(biāo)準(zhǔn)分?jǐn)?shù)(z-score)標(biāo)準(zhǔn)化方法轉(zhuǎn)換,經(jīng)轉(zhuǎn)換后的數(shù)據(jù)滿(mǎn)足均值為0 標(biāo)準(zhǔn)差為1;離散特征做獨(dú)熱編碼onehot變換,實(shí)現(xiàn)離散特征的“標(biāo)準(zhǔn)化”。

表1 統(tǒng)一單位的變量

表2 離散特征類(lèi)別規(guī)范

圖1 數(shù)據(jù)處理流程圖
采用Python2.7對(duì)數(shù)據(jù)進(jìn)行建模分析,分析流程如圖1 所示。定量資料若符合正態(tài)分布,以表示,用Student'sttest 做組間比較。不符合正態(tài)分布的定量資料以中位數(shù)表示,用Wilcoxon 秩和檢驗(yàn)做組間比較。定性資料以n(%)表示,用卡方檢驗(yàn)做組間比較。以P值小于0.05表示差異具有統(tǒng)計(jì)學(xué)意義。
利用7種目前流行的機(jī)器學(xué)習(xí)模型對(duì)構(gòu)建立老年骨折患者發(fā)生低蛋白血癥的大數(shù)據(jù)風(fēng)險(xiǎn)預(yù)測(cè)模型,通過(guò)ROC(Receiver Operating Characteristic,受試者工作特征)曲線下面積AUROC 評(píng)價(jià)模型預(yù)測(cè)效果。通過(guò)3個(gè)指標(biāo):準(zhǔn)確率、召回率和F值評(píng)價(jià)機(jī)器學(xué)習(xí)算法性能[8]。
各個(gè)指標(biāo)具體的含義為:

表3 分類(lèi)結(jié)果混淆矩陣

真陽(yáng)性(True Positive,TP);真陰性(True Negative,TN);假陰性(False Negative,F(xiàn)N);假陽(yáng)性(False Positive,F(xiàn)P)。
準(zhǔn)確率越高,說(shuō)明模型的敏感性越高;召回率越高,說(shuō)明模型的特異性越好;F值越大,說(shuō)明模型的總體性能越好。
研究收集 2003 年 7 月 7 日至 2014 年 12 月 22 日期間中國(guó)中醫(yī)科學(xué)院望京醫(yī)院骨科患者526例(說(shuō)明:數(shù)據(jù)要求患者為單次手術(shù),若患者多次手術(shù)時(shí),時(shí)間間隔超過(guò)半年,則可以算作新的病例。經(jīng)篩查發(fā)現(xiàn)數(shù)據(jù)中有重復(fù)出現(xiàn)的病案共24 例,均為二次住院的手術(shù),審核時(shí)間間隔發(fā)現(xiàn)均超過(guò)半年,故作為新的病例來(lái)研究)。其中病例組男性患者73 例,年齡84.78 ± 3.58歲;女性患者142例,年齡84.45±3.65歲。對(duì)照組男性104 例,年齡83.13 ± 2.81 歲;女性207 例,年齡83.98 ±3.12 歲。本研究526 例患者中,存在低蛋白血癥的共有215 例,占總?cè)藬?shù)的40.87%;無(wú)低蛋白血癥的共有311例,占總?cè)藬?shù)的59.13%。
將年齡、麻醉方式_椎管內(nèi)麻醉、平均紅細(xì)胞壓積min(注min:minumum,最小值)、住院時(shí)間、總膽紅素min、白細(xì)胞計(jì)數(shù)max(注max:maximum,最大值)、血清總白蛋白min、血鉀max、堿性磷酸酶min、血鈣max、白蛋白定量min等多個(gè)因素納入多元預(yù)測(cè)模型。利用網(wǎng)格搜索(GridSearch)方法進(jìn)行參數(shù)尋優(yōu),并使用k-折交叉驗(yàn)證對(duì)模型評(píng)估。研究通過(guò)邏輯回歸[9]、決策樹(shù)[10]、隨機(jī)森林[11]、支持向量機(jī)[12]、AdaBoost[13]、GBDT[14](Gradient Boost Decision Tree,梯度提升決策樹(shù))、XGBoost[15]等7 種目前流行的機(jī)器學(xué)習(xí)模型。對(duì)比模型擬合及預(yù)測(cè)效果,選擇最佳算法作為最終的老年骨折患者發(fā)生低蛋白血癥的大數(shù)據(jù)風(fēng)險(xiǎn)預(yù)測(cè)模型。其中以邏輯回歸模型為最佳,訓(xùn)練集的10 折交叉驗(yàn)證AUC 值高達(dá)80.77%。低蛋白血癥預(yù)測(cè)模型特征按重要性排序(圖2中橫坐標(biāo)絕對(duì)值)如下:麻醉方式_椎管內(nèi)麻醉、白蛋白定量min、血鈣max、平均紅細(xì)胞壓積min、總膽紅素min 等,表明它們是老年骨折患者發(fā)生低蛋白血癥的獨(dú)立危險(xiǎn)因素。重要特征排序詳見(jiàn)圖2。

圖2 低蛋白血癥邏輯回歸預(yù)測(cè)模型特征重要性排序

圖3 高齡骨折患者術(shù)后低蛋白血癥風(fēng)險(xiǎn)預(yù)測(cè)ROC曲線圖
邏輯回歸模型在測(cè)試集上準(zhǔn)確率達(dá)77.36%,召回率達(dá)95.00%。上述結(jié)果均說(shuō)明模型擬合效果很好,得到的邏輯回歸模型具有統(tǒng)計(jì)學(xué)意義。軟件繪制ROC曲線(圖3),AUC 為0.8077,提示模型效果良好。低蛋白血癥邏輯回歸模型為:f(x)=1/{1+exp[-(1.19*麻醉方式_椎管內(nèi)麻醉+0.44*平均紅細(xì)胞壓積min+0.39*住院時(shí)間+ 0.28*總膽紅素min + 0.07*白細(xì)胞計(jì)數(shù)max-1.07*白蛋白定量min-0.53*血鈣max-0.25*堿性磷酸酶min - 0.16*血鉀max - 0.13*血清總白蛋白min)]}

表4 不同機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能比較
經(jīng)過(guò)在訓(xùn)練集上對(duì)7個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行參數(shù)調(diào)節(jié)優(yōu)化,獲得了優(yōu)化后的預(yù)測(cè)模型以及在測(cè)試集上進(jìn)行測(cè)試后得到評(píng)價(jià)指標(biāo)值,XGBoost 模型、決策樹(shù)Decision Tree 模型和隨機(jī)森林Random Forest 模型等7個(gè)不同機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能對(duì)比(表4)。通過(guò)表4 可以看出,在準(zhǔn)確度方面,SVC(Support Vector Machine,支持向量機(jī))模型表現(xiàn)最優(yōu),其準(zhǔn)確率比Random Forest、LR(logistic regression,邏輯回歸)模型高約4%。7 種模型的召回率差異較為明顯,以SVC、LR 最佳(達(dá) 95.00%),Decision Tree、XGboost、GBDT(Gradient Boosting Decision Tree,梯度提升決策樹(shù))、Adaboost(adaptive boosting,自適應(yīng)提升)次之(均為70.00%),Random Forest 最差(僅達(dá)65.00%)。綜合,F(xiàn)值以SVC 最佳(0.87),說(shuō)明支持向量機(jī)模型的總體預(yù)測(cè)性能較好。
由表4 可以發(fā)現(xiàn),SVC 模型的總體性能可知,SVC模型對(duì)高齡骨科患者術(shù)后低蛋白血癥病例數(shù)據(jù)的擬合程度較高且穩(wěn)定性好,SVC 模型可以幫助骨科醫(yī)生處理術(shù)后低蛋白血癥預(yù)測(cè)的相關(guān)問(wèn)題。
本文提出了一種基于不同機(jī)器學(xué)習(xí)算法的高齡骨科患者術(shù)后低蛋白血癥風(fēng)險(xiǎn)預(yù)測(cè)模型。從預(yù)測(cè)模型的分類(lèi)預(yù)測(cè)準(zhǔn)確度方面來(lái)看,在高齡骨科患者數(shù)據(jù)上搭建術(shù)后低蛋白血癥風(fēng)險(xiǎn)預(yù)測(cè)模型是成功的,有較高的預(yù)測(cè)精度、良好的性能。機(jī)器學(xué)習(xí)模型(如集成模型)常見(jiàn)于數(shù)據(jù)挖掘、人工智能領(lǐng)域研究,研究報(bào)道機(jī)器學(xué)習(xí)模型是可以推廣到相關(guān)醫(yī)療領(lǐng)域中[16,17]。利用基于不同機(jī)器學(xué)習(xí)算法的高齡骨科患者術(shù)后低蛋白血癥風(fēng)險(xiǎn)預(yù)測(cè)模型對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,結(jié)果表明相較于其他機(jī)器預(yù)測(cè)模型,基于邏輯回歸的高齡骨科患者術(shù)后低蛋白血癥風(fēng)險(xiǎn)預(yù)測(cè)模型能夠輔助醫(yī)療工作者在疾病診斷的過(guò)程中提高準(zhǔn)確率的同時(shí)降低誤診率和漏診率。
本次研究,邏輯回歸算法分析結(jié)果給出了檢查指標(biāo)因素指標(biāo)(病例數(shù)據(jù)處理過(guò)程中文本結(jié)構(gòu)化出現(xiàn)偏倚,檢驗(yàn)指標(biāo)較客觀)的重要性評(píng)分,為骨科高齡手術(shù)患者術(shù)后低蛋白血癥的診斷流程給出了一些有意義的指標(biāo)。預(yù)測(cè)模型準(zhǔn)確率和特征重要性排序feature importance 中檢查檢驗(yàn)特征的評(píng)分優(yōu)于其他特征。實(shí)驗(yàn)結(jié)果表明,邏輯回歸與其他機(jī)器學(xué)習(xí)算法相比較,具有模型易懂、容易調(diào)整、訓(xùn)練高效、魯棒性強(qiáng)等優(yōu)越性。
高齡老年患者,機(jī)體各系統(tǒng)功能低下,加上創(chuàng)傷打擊和傷后進(jìn)食較差,機(jī)體代謝長(zhǎng)期處于負(fù)氮平衡,有很多患者在術(shù)前血清白蛋白含量和血清總蛋白含量低于正常值低限[18]。所以若要降低術(shù)后出現(xiàn)低蛋白血癥的概率,臨床醫(yī)師就應(yīng)該重視在術(shù)前發(fā)現(xiàn)上述情況,并且患者存在低蛋白的一系列表現(xiàn),應(yīng)給予更積極地處理[19]。
低蛋白血癥不是一個(gè)獨(dú)立的疾病,而是各種原因所致氮負(fù)平衡的結(jié)果。主要表現(xiàn)營(yíng)養(yǎng)不良。血液中的蛋白質(zhì)主要是血漿蛋白質(zhì)及紅細(xì)胞所含的血紅蛋白。血漿蛋白質(zhì)包括血漿白蛋白、各種球蛋白、纖維蛋白原及少量結(jié)合蛋白如糖蛋白、脂蛋白等,總量為6.5~7.8 g%。若血漿總蛋白質(zhì)低于6.0 g%,則可診斷為低蛋白血癥。對(duì)低蛋白血癥一般經(jīng)及時(shí)、合理的治療,均可取得一定療效[20-22]。
除有原發(fā)疾病的表現(xiàn)外,其主要臨床表現(xiàn)是營(yíng)養(yǎng)不良。氮負(fù)平衡使皮下脂肪和骨骼肌顯著消耗,病人日益消瘦,嚴(yán)重者呈惡液質(zhì)狀態(tài)[23]。胃腸道粘膜萎縮,胃酸分泌減少,消化酶減少,因而食欲差。疲乏、無(wú)力也是常見(jiàn)癥狀,病人不愛(ài)活動(dòng),體力下降,反應(yīng)漸趨遲鈍,記憶力衰退。多有輕、中度貧血,經(jīng)常頭暈,可有體位性低血壓和心動(dòng)過(guò)緩。浮腫的發(fā)生與血漿有效滲透壓減低有關(guān)。體液的滲透壓與其所含溶質(zhì)的分子量成反比,白蛋白分子量較小,是維持膠體滲透壓的主要成分,血漿與組織液的總滲透壓相差不大,但因血漿內(nèi)所含不能滲透過(guò)毛細(xì)血管壁的白蛋白較多,故血漿的滲透壓較高,從而使水分有從組織液進(jìn)入血漿的趨勢(shì)[24]。血漿白蛋白減少時(shí),有效滲透壓減低,使組織間潴留過(guò)多的水分,而出現(xiàn)浮腫,浮腫嚴(yán)重時(shí)可出現(xiàn)胸水及腹水,此外,還可有性功能減退、閉經(jīng)、骨質(zhì)疏松、機(jī)體抵抗力差等。血漿纖維蛋白原減少者可有出血傾向[25]。
引起低蛋白血癥的原因包括:①蛋白攝入不足或吸收不良,如胃腸道淤血,胃癌,膽道疾病等。②蛋白質(zhì)合成障礙,如各種原因的肝臟損害,使肝臟蛋白合成能力降低所致[26,27]。③長(zhǎng)期大量蛋白質(zhì)丟失,如消化道潰瘍,大面積創(chuàng)傷,腎病綜合征,狼瘡性腎炎,惡性高血壓,糖尿病腎病等[28,29]。④蛋白質(zhì)分解加速,如長(zhǎng)期發(fā)熱,惡性腫瘤,甲狀腺功能亢進(jìn)等。以上種種原因都可能會(huì)使氮負(fù)平衡,進(jìn)而造成低蛋白血癥。
高齡骨科患者術(shù)后發(fā)生低蛋白血癥的大數(shù)據(jù)風(fēng)險(xiǎn)預(yù)測(cè)模型給出的特征重要性排序?yàn)榕R床上尋找危險(xiǎn)因素提供有意義的證據(jù)。特征重要性排序顯示,白蛋白定量是預(yù)測(cè)模型重要性特征。眾多研究表明在老年患者術(shù)后感染、應(yīng)激所致基礎(chǔ)代謝率加速,對(duì)蛋白質(zhì)的需求增加[30]。IL1、IL6、TNF-α等炎癥因子影響機(jī)體蛋白代謝,導(dǎo)致低蛋白血癥是通過(guò)作用于肝細(xì)胞抑制白蛋白mRNA 的表達(dá)實(shí)現(xiàn)的;病情嚴(yán)重的患者,造成稀釋性低蛋白血癥的原因是應(yīng)激狀態(tài)時(shí)全身毛細(xì)血管通透性增加,導(dǎo)致血管內(nèi)白蛋白滲透至組織間隙及快速補(bǔ)液[31]。
白蛋白是脂類(lèi)、電解質(zhì)等物質(zhì)轉(zhuǎn)移運(yùn)輸?shù)闹饕d體和自由基清除劑,乃保障凝血的關(guān)鍵因子[32]。低蛋白血癥導(dǎo)致多器官功能不全的機(jī)制在于通過(guò)降低血漿膠體滲透壓,致使大量液體在組織間隙滯留,減少有效循環(huán)血量,增高血液黏度,進(jìn)而,造成微循環(huán)障礙,造成重要器官灌注不足[33]。
綜上所述,進(jìn)行白蛋白檢測(cè)可作為一種鑒別低蛋白血癥的重要手段,可準(zhǔn)確評(píng)估患者術(shù)后病情和預(yù)后。
另外,本研究的邏輯回歸高齡骨科患者術(shù)后低蛋白血癥的特征重要性評(píng)估顯示:住院時(shí)間、白細(xì)胞計(jì)數(shù)、總膽紅素分別排在靠前位置,說(shuō)明這三個(gè)變量對(duì)該模型的重要性較大,其中白細(xì)胞計(jì)數(shù)考慮為術(shù)后感染引發(fā)白細(xì)胞數(shù)增加相關(guān)。預(yù)測(cè)模型特征重要性排序中還包括血清總白蛋白、血鉀、堿性磷酸酶等,因本研究樣本量的限制,故需要對(duì)模型優(yōu)化深入分析以上特征對(duì)模型重要性的機(jī)制。
本文針對(duì)骨科領(lǐng)域的術(shù)后并發(fā)癥風(fēng)險(xiǎn)預(yù)測(cè)問(wèn)題,提出了一種基于不同機(jī)器學(xué)習(xí)算法的高齡骨科患者術(shù)后低蛋白血癥風(fēng)險(xiǎn)預(yù)測(cè)模型。開(kāi)始抽取患者臨床HIS(hospital information system,醫(yī)院信息系統(tǒng))數(shù)據(jù)中提取特征,而后把以上特征作為低蛋白血癥風(fēng)險(xiǎn)預(yù)測(cè)的輸入,喂入7 種不同機(jī)器學(xué)習(xí)模型來(lái)對(duì)低蛋白血癥進(jìn)行預(yù)測(cè),最后將比較7中機(jī)器學(xué)習(xí)模型預(yù)測(cè)性能。
數(shù)據(jù)建模結(jié)果表明,基于邏輯回歸算法的高齡骨科患者術(shù)后低蛋白血癥預(yù)測(cè)模型各評(píng)價(jià)標(biāo)準(zhǔn)最佳。分析特征重要性排序,我們發(fā)現(xiàn)了對(duì)模型貢獻(xiàn)較高的風(fēng)險(xiǎn)因素。據(jù)此給骨科醫(yī)生針對(duì)高齡骨科患者術(shù)后低蛋白血癥的預(yù)防與質(zhì)量帶來(lái)了參考意義。本研究存在的不足之處:首先采集以往的病例資料進(jìn)行回顧性分析,數(shù)據(jù)可靠性方面存疑,可能存在結(jié)果偏倚。受納入數(shù)據(jù)量所限,模型有待大數(shù)據(jù)驗(yàn)證。
世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化2020年10期