基于機器學習算法的子癇前期預測模型構建

2022-09-07 07:27:20鄭江元祝銳顏永杰周洋羅亞玲

解放軍醫學雜志 2022年8期

關鍵詞：模型

鄭江元，祝銳，顏永杰，周洋，羅亞玲*

1重慶醫科大學醫學信息學院，重慶 400016；2重慶醫科大學醫學數據研究院，重慶 400016

子癇前期是一種妊娠期高血壓疾病，其特征是妊娠20周后出現的高血壓和蛋白尿，由于其病因較多，發病機制較復雜，給孕產婦和圍產兒帶來了巨大的危害。文獻報道，子癇前期是導致孕產婦及圍產兒死亡的主要原因之一[1-2]。在過去的幾十年里，盡管國內外在子癇前期相關領域取得了重大進展[3]，但是到目前為止，子癇前期的病因和發病機制仍未完全明確，且無有效的救治措施，及早發現并加強管理仍是主要的臨床策略[4]。為了減少子癇前期帶來的不良影響，有必要對孕婦進行子癇前期風險預測。隨著智慧醫學的發展，機器學習技術具有比傳統統計學方法更好的優勢，已被廣泛應用于疾病的預測診斷中[5-8]。本研究從電子病歷中收集數據，采用機器學習算法構建子癇前期風險預測模型并進行評價，以期為醫護人員對子癇前期孕婦的評估和防治提供參考。

1 資料與方法

1.1 研究對象本研究為回顧性分析，數據來源于重慶醫科大學醫學數據研究院大數據平臺，該平臺包含了重慶醫科大學附屬7家醫療機構的電子病歷數據。收集該數據平臺中2016年1月－2018年12月年齡為20～45歲的1609例住院孕婦的資料，其中子癇前期組291例，非子癇前期組1318例。在數據收集過程中，數據的提取和輸入均經過檢查，排除了臨床資料嚴重缺失的病例，以及出院診斷中有糖尿病、慢性高血壓病、腎臟疾病、心臟病等的病例。診斷標準：子癇前期根據中國《妊娠期高血壓疾病診治指南(2020)》[1]的標準進行診斷。本研究已通過重慶醫科大學醫學研究倫理委員會審批。

1.2 收集指標收集患者的一般資料(年齡、高血壓家族史、糖尿病家族史)、體征資料(收縮壓、舒張壓等)、妊娠情況(孕產次、妊娠期等)及實驗室資料(血常規、肝功能、腎功能、電解質、凝血功能)等，排除缺失率≥30%的指標。

1.3 指標分析對子癇前期組與非子癇前期組患者的一般資料、體征資料、妊娠情況和實驗室資料進行統計學描述及比較，分析子癇前期的影響因素。根據影響因素構建基于LightGBM機器學習算法的預測模型，并評估其效能。

1.4 統計學處理采用SPSS 25.0軟件進行統計分析，缺失率＜30%的指標使用多重插補的方法填補。符合正態分布的計量資料以±s表示，組間比較采用t檢驗；不符合正態分布的計量資料以M(Q1，Q3)表示，組間比較采用Mann-WhitneyU檢驗；計數資料以例(%)表示；對結局變量、高血壓家族史、糖尿病家族史、孕周≥34周和是否初產婦等分類變量進行賦值，采用χ2檢驗進行比較。將兩組間差異有統計學意義的指標納入logistic回歸分析，進一步篩選子癇前期的影響因素。P＜0.05為差異有統計學意義。

1.5 機器學習模型構建將子癇前期組與非子癇前期組按照7:3隨機分為訓練集(n=1126)和測試集(n=483)，并對訓練集和測試集中的特征變量進行一致性檢驗。調用python3.7.0 lightgbm包中基于梯度提升決策樹(Light Gradient Boosting Machine，LightGBM)的機器學習算法建立預測模型；采用5折交叉驗證算法確定LightGBM模型的最優參數，包括num_leaves、max_depth、min_data_in_leaf、feature_fraction、bagging_fraction和bagging_freq。其中num_leaves用來提高模型的準確率，max_depth、min_data_in_leaf、feature_fraction、bagging_fraction和bagging_freq用來防止模型過度擬合。采用敏感度、特異度、準確度、曲線下面積(AUC)等指標評價測試集中預測模型的效能。

2 結果

2.1 一般資料比較納入的1609例孕婦中，子癇前期291例，占18.1%，非子癇前期1318例，占81.9%。共收集了58項指標，排除缺失率≥30%的13項指標，最終納入45項指標。兩組間谷氨酰轉移酶(GGT)、谷丙轉氨酶(ALT)、凝血酶時間(TT)、谷草轉氨酶(AST)、尿比重等35項指標差異有統計學意義(P＜0.05)，而中性粒細胞計數、凝血酶原時間(PT)、平均紅細胞體積(MCV)、淋巴細胞計數等10項指標差異無統計學意義(P＞0.05，表1)。

表1 子癇前期組與非子癇前期組患者的基線資料比較Tab.1 Comparison of baseline data between preeclampsia group and non-preeclampsia group

2.2 子癇前期的影響因素分析利用二元logistic回歸分析對這35項指標進一步篩選，其中11項指標[尿比重、尿酸、平均紅細胞血紅蛋白濃度(MCHC)、球蛋白、血小板分布寬度(PDW)、鉀離子、就診年齡、收縮壓、舒張壓、脈搏和孕周≥34周]差異有統計學意義(P＜0.05)，可作為子癇前期的獨立危險因素；此外，高血壓家族史雖然差異無統計學意義(P=0.063)，但通過咨詢臨床專家和查閱參考文獻，最終也作為子癇前期的影響因素(表2)。

表2 子癇前期差異性指標logistic回歸分析Tab.2 Logistic regression analysis of difference index in preeclampsia

2.3 機器學習模型將上述12項獨立危險因素作為預測模型的輸入變量，孕婦是否發生子癇前期作為結局變量，并將子癇前期組與非子癇前期組按照7:3隨機分為訓練集和測試集，對訓練集和測試集中的特征變量進行一致性檢驗，所有特征變量在訓練集和測試集中均滿足一致性檢驗(P＞0.05，表3)。在訓練過程中，采用5折交叉驗證算法對LightGBM模型的參數進行優化，調優參數的范圍為：num_leaves為5～100，max_depth為3～8，min_data_in_leaf為1～102，feature_fraction為0.6～1.0，bagging_fraction為0.6～1.0，bagging_freq為0～50。經過試驗，參數設置為num_leaves=5、max_depth=3、min_data_in_leaf=91、feature_fraction=0.8、bagging_fraction=0.6、bagging_freq=5時，LightGBM模型的預測效果達到最優，模型的曲線下面積(AUC)為0.964，敏感度為84.9%，特異度為92.7%。

表3 特征變量在訓練集和測試集中的一致性檢驗Tab.3 Consistency test of characteristic variables in training set and test set

2.4 模型效能檢驗采用測試集對模型的效能進行驗證，結果顯示，LightGBM模型的敏感度和AUC均高于logistic回歸模型，但logistic回歸模型的特異度和準確度高于LightGBM模型(圖1、表4)。

圖1 Logistic回歸模型與LightGBM模型在測試集中的ROC曲線圖Fig.1 ROC plot of logistic regression model and LightGBM model in test set

表4 Logistic回歸模型與LightGBM模型的效能評價Tab.4 Performance evaluation of logistic regression model and LightGBM model

3 討論

子癇前期存在多因素、多機制、多通路發病的綜合征性質[1]，唯一的治療方法為中斷妊娠，但是可能會增加母嬰早產并發癥的風險。雖然已有學者將檢查指標用于子癇前期的診斷預測[9-11]，如可溶性血管內皮生長因子(soluble fms-like tyrosine kinase 1，sFlt-1)和胎盤生長因子(placental growth factor，PlGF)等，但其預測效果并不理想[12]，且在低收入和中等收入國家推廣較為困難。本研究通過分析重慶醫科大學醫學數據研究院大數據平臺中的1609例住院孕婦的臨床數據構建了預測模型，以輔助初級臨床醫師和基層醫療機構評估子癇前期的發生風險。

本研究篩選出子癇前期的12項影響因素，其中，球蛋白和孕周≥34周兩個指標為保護因素，尿比重、尿酸、平均紅細胞血紅蛋白濃度等指標為危險因素。目前，患者年齡、高血壓家族史、收縮壓和舒張壓這4項指標對子癇前期發生風險的影響已被廣泛報道[13-16]，而尿比重、尿酸、平均紅細胞血紅蛋白濃度、球蛋白、血小板分布寬度、鉀離子、脈搏和孕周≥34周在子癇前期中的作用則少見報道。

有研究發現，與健康孕婦比較，子癇前期孕婦在妊娠期間更容易消耗血清免疫球蛋白，導致血清球蛋白濃度降低[17]。本研究發現，球蛋白為子癇前期的保護因素，球蛋白濃度越高，所消耗的球蛋白越少，患子癇前期的風險越小，與文獻報道一致。臨床上將孕周＜34周定義為早發型子癇前期，孕周≥34周定義為遲發型子癇前期[18]，其中早發型子癇前期不良出生結局的發生率高于遲發型子癇前期，病情更危重，發生多器官功能損傷的風險更高[19]。因此，孕周越高孕婦發生子癇前期的風險越低。

子癇前期患者可能存在腎功能受損，由于腎臟灌注和腎小球濾過率下降，尿比重增高時，尿液濃縮，尿酸清除率下降，導致尿酸增多[20]。此外，近端小管對尿酸的重吸收增加和排泄減少，使子癇前期患者尿酸進一步增多[21]。有研究報道，子癇前期患者紅細胞聚集能力增強，變形能力減弱，血漿擴容不足，導致血小板黏附于血管壁，紅細胞膜破壞，紅細胞血紅蛋白濃度增加，血紅蛋白/血細胞比容比值增高，血液黏度增高[22-23]。已有研究發現，與正常妊娠晚期比較，子癇前期患者血小板計數更低，原因為血小板平均容積、血小板分布寬度升高，使得血小板消耗增加，從而導致血小板計數減少[24]。此外，據文獻報道，妊娠前中期高血鉀水平與嚴重子癇前期的發展風險較高相關[25]。妊娠期間醛固酮和孕酮可影響孕婦的血鉀水平，因此，血鉀水平升高可能提示醛固酮和孕酮紊亂，而醛固酮和孕酮紊亂又可能與子癇前期的發生有關[26]。美國婦產科醫師學會(American College of Obstetricians and Gynecologists，ACOG)提出，心率是子癇前期的一個預警指標[27]。子癇前期孕婦可能存在心功能損害，原因包括：(1)血管阻力增加，心臟后負荷加重；(2)腎素-血管緊張素-醛固酮系統平衡被破壞，造成水鈉潴留，引起血液濃縮；(3)貧血、低蛋白血癥導致血漿膠體滲透壓降低；(4)血漿擴容不足[28]。而脈搏與心率相關，脈搏越快則提示心率越快，孕婦患子癇前期的風險越大[29]。

隨著大數據時代的來臨，機器學習在醫療衛生領域的應用越來越廣泛，尤其是在疾病的預測和預后評估方面[30-31]。本研究根據篩選出來的子癇前期影響因素，構建了子癇前期預測模型，以預測孕婦子癇前期的發生風險。結果顯示，LightGBM模型的效果達到最優時，其AUC為0.964，敏感度為0.849，特異度為0.927。本研究LightGBM模型的AUC高于Jhee等[26]的模型(敏感度=0.603，特異度=0.991，AUC=0.924)。但是，Jhee等[26]的模型由于病例組(n=474)與對照組(n=10058)例數不平衡，導致敏感度及特異度相差過大，而本研究的LightGBM模型在敏感度及特異度相差過大的問題上有所改善，綜合性能較之前的預測模型有所提高。Logistic回歸模型的可解釋性非常好，從特征的權重可以解釋不同特征對最后結果的影響，在醫療衛生領域可用于探索疾病的相關影響因素，但因為模型簡單，容易出現欠擬合、模型總體效能不高等問題。LightGBM是一種快速的、分布式的、高性能的基于決策樹算法的梯度提升框架[32]。LightGBM模型采用直方圖算法對數據進行分割，通過離散化的統計量遍歷尋找最優分割點，減小內存，提高訓練速度[33]；采用有深度限制的按葉子生長策略，從當前葉子節點中找到增益值最大的節點進行分裂，并對樹的深度進行限制，防止過度擬合，縮短尋找最優深度樹的時間，降低了誤差，提高了預測準確度[34]。

綜上所述，本研究構建了基于機器學習算法的子癇前期預測模型，并利用敏感度、特異度、準確度和AUC等評價指標對構建的機器學習模型進行評價，一定程度上減少了單一評價指標帶來的偏倚。同時，本研究結合了母體因素和常見的產前實驗室檢查指標，納入的患者來自多個中心，樣本量大且具有良好的代表性，可以有效地預測子癇前期的發生風險，對臨床上孕婦子癇前期的早期識別有一定的輔助作用，具有潛在的臨床價值。

本研究仍存在一些不足之處：(1)數據均來源于重慶地區，可能存在選擇偏倚，需要進行外部驗證以進一步評估模型的效能；(2)本文構建的預測模型綜合效能較高，包含了12項指標，雖然均為易于獲得的常規實驗室檢查指標，但指標數量較多，在臨床推廣應用有一定困難；(3)研究中部分指標的缺失率過大，如BMI是孕產婦產檢的重要指標，但在本研究中由于該指標缺失率過大而未納入模型中，重要指標的缺失可能會對模型的效能產生一些影響。因此，未來仍需進一步論證該指標的缺失是否會對預測結果有較大影響。

基于機器學習算法的子癇前期預測模型構建

1 資料與方法

2 結 果

3 討 論

2 結果

3 討論