鄭江元,祝銳,顏永杰,周洋,羅亞玲*
1重慶醫科大學醫學信息學院,重慶 400016;2重慶醫科大學醫學數據研究院,重慶 400016
子癇前期是一種妊娠期高血壓疾病,其特征是妊娠20周后出現的高血壓和蛋白尿,由于其病因較多,發病機制較復雜,給孕產婦和圍產兒帶來了巨大的危害。文獻報道,子癇前期是導致孕產婦及圍產兒死亡的主要原因之一[1-2]。在過去的幾十年里,盡管國內外在子癇前期相關領域取得了重大進展[3],但是到目前為止,子癇前期的病因和發病機制仍未完全明確,且無有效的救治措施,及早發現并加強管理仍是主要的臨床策略[4]。為了減少子癇前期帶來的不良影響,有必要對孕婦進行子癇前期風險預測。隨著智慧醫學的發展,機器學習技術具有比傳統統計學方法更好的優勢,已被廣泛應用于疾病的預測診斷中[5-8]。本研究從電子病歷中收集數據,采用機器學習算法構建子癇前期風險預測模型并進行評價,以期為醫護人員對子癇前期孕婦的評估和防治提供參考。
1.1 研究對象 本研究為回顧性分析,數據來源于重慶醫科大學醫學數據研究院大數據平臺,該平臺包含了重慶醫科大學附屬7家醫療機構的電子病歷數據。收集該數據平臺中2016年1月-2018年12月年齡為20~45歲的1609例住院孕婦的資料,其中子癇前期組291例,非子癇前期組1318例。在數據收集過程中,數據的提取和輸入均經過檢查,排除了臨床資料嚴重缺失的病例,以及出院診斷中有糖尿病、慢性高血壓病、腎臟疾病、心臟病等的病例。診斷標準:子癇前期根據中國《妊娠期高血壓疾病診治指南(2020)》[1]的標準進行診斷。本研究已通過重慶醫科大學醫學研究倫理委員會審批。
1.2 收集指標 收集患者的一般資料(年齡、高血壓家族史、糖尿病家族史)、體征資料(收縮壓、舒張壓等)、妊娠情況(孕產次、妊娠期等)及實驗室資料(血常規、肝功能、腎功能、電解質、凝血功能)等,排除缺失率≥30%的指標。
1.3 指標分析 對子癇前期組與非子癇前期組患者的一般資料、體征資料、妊娠情況和實驗室資料進行統計學描述及比較,分析子癇前期的影響因素。根據影響因素構建基于LightGBM機器學習算法的預測模型,并評估其效能。
1.4 統計學處理 采用SPSS 25.0軟件進行統計分析,缺失率<30%的指標使用多重插補的方法填補。符合正態分布的計量資料以±s表示,組間比較采用t檢驗;不符合正態分布的計量資料以M(Q1,Q3)表示,組間比較采用Mann-WhitneyU檢驗;計數資料以例(%)表示;對結局變量、高血壓家族史、糖尿病家族史、孕周≥34周和是否初產婦等分類變量進行賦值,采用χ2檢驗進行比較。將兩組間差異有統計學意義的指標納入logistic回歸分析,進一步篩選子癇前期的影響因素。P<0.05為差異有統計學意義。
1.5 機器學習模型構建 將子癇前期組與非子癇前期組按照7:3隨機分為訓練集(n=1126)和測試集(n=483),并對訓練集和測試集中的特征變量進行一致性檢驗。調用python3.7.0 lightgbm包中基于梯度提升決策樹(Light Gradient Boosting Machine,LightGBM)的機器學習算法建立預測模型;采用5折交叉驗證算法確定LightGBM模型的最優參數,包括num_leaves、max_depth、min_data_in_leaf、feature_fraction、bagging_fraction和bagging_freq。其中num_leaves用來提高模型的準確率,max_depth、min_data_in_leaf、feature_fraction、bagging_fraction和bagging_freq用來防止模型過度擬合。采用敏感度、特異度、準確度、曲線下面積(AUC)等指標評價測試集中預測模型的效能。
2.1 一般資料比較 納入的1609例孕婦中,子癇前期291例,占18.1%,非子癇前期1318例,占81.9%。共收集了58項指標,排除缺失率≥30%的13項指標,最終納入45項指標。兩組間谷氨酰轉移酶(GGT)、谷丙轉氨酶(ALT)、凝血酶時間(TT)、谷草轉氨酶(AST)、尿比重等35項指標差異有統計學意義(P<0.05),而中性粒細胞計數、凝血酶原時間(PT)、平均紅細胞體積(MCV)、淋巴細胞計數等10項指標差異無統計學意義(P>0.05,表1)。

表1 子癇前期組與非子癇前期組患者的基線資料比較Tab.1 Comparison of baseline data between preeclampsia group and non-preeclampsia group
2.2 子癇前期的影響因素分析 利用二元logistic回歸分析對這35項指標進一步篩選,其中11項指標[尿比重、尿酸、平均紅細胞血紅蛋白濃度(MCHC)、球蛋白、血小板分布寬度(PDW)、鉀離子、就診年齡、收縮壓、舒張壓、脈搏和孕周≥34周]差異有統計學意義(P<0.05),可作為子癇前期的獨立危險因素;此外,高血壓家族史雖然差異無統計學意義(P=0.063),但通過咨詢臨床專家和查閱參考文獻,最終也作為子癇前期的影響因素(表2)。

表2 子癇前期差異性指標logistic回歸分析Tab.2 Logistic regression analysis of difference index in preeclampsia
2.3 機器學習模型 將上述12項獨立危險因素作為預測模型的輸入變量,孕婦是否發生子癇前期作為結局變量,并將子癇前期組與非子癇前期組按照7:3隨機分為訓練集和測試集,對訓練集和測試集中的特征變量進行一致性檢驗,所有特征變量在訓練集和測試集中均滿足一致性檢驗(P>0.05,表3)。在訓練過程中,采用5折交叉驗證算法對LightGBM模型的參數進行優化,調優參數的范圍為:num_leaves為5~100,max_depth為3~8,min_data_in_leaf為1~102,feature_fraction為0.6~1.0,bagging_fraction為0.6~1.0,bagging_freq為0~50。經過試驗,參數設置為num_leaves=5、max_depth=3、min_data_in_leaf=91、feature_fraction=0.8、bagging_fraction=0.6、bagging_freq=5時,LightGBM模型的預測效果達到最優,模型的曲線下面積(AUC)為0.964,敏感度為84.9%,特異度為92.7%。

表3 特征變量在訓練集和測試集中的一致性檢驗Tab.3 Consistency test of characteristic variables in training set and test set
2.4 模型效能檢驗 采用測試集對模型的效能進行驗證,結果顯示,LightGBM模型的敏感度和AUC均高于logistic回歸模型,但logistic回歸模型的特異度和準確度高于LightGBM模型(圖1、表4)。

圖1 Logistic回歸模型與LightGBM模型在測試集中的ROC曲線圖Fig.1 ROC plot of logistic regression model and LightGBM model in test set

表4 Logistic回歸模型與LightGBM模型的效能評價Tab.4 Performance evaluation of logistic regression model and LightGBM model
子癇前期存在多因素、多機制、多通路發病的綜合征性質[1],唯一的治療方法為中斷妊娠,但是可能會增加母嬰早產并發癥的風險。雖然已有學者將檢查指標用于子癇前期的診斷預測[9-11],如可溶性血管內皮生長因子(soluble fms-like tyrosine kinase 1,sFlt-1)和胎盤生長因子(placental growth factor,PlGF)等,但其預測效果并不理想[12],且在低收入和中等收入國家推廣較為困難。本研究通過分析重慶醫科大學醫學數據研究院大數據平臺中的1609例住院孕婦的臨床數據構建了預測模型,以輔助初級臨床醫師和基層醫療機構評估子癇前期的發生風險。
本研究篩選出子癇前期的12項影響因素,其中,球蛋白和孕周≥34周兩個指標為保護因素,尿比重、尿酸、平均紅細胞血紅蛋白濃度等指標為危險因素。目前,患者年齡、高血壓家族史、收縮壓和舒張壓這4項指標對子癇前期發生風險的影響已被廣泛報道[13-16],而尿比重、尿酸、平均紅細胞血紅蛋白濃度、球蛋白、血小板分布寬度、鉀離子、脈搏和孕周≥34周在子癇前期中的作用則少見報道。
有研究發現,與健康孕婦比較,子癇前期孕婦在妊娠期間更容易消耗血清免疫球蛋白,導致血清球蛋白濃度降低[17]。本研究發現,球蛋白為子癇前期的保護因素,球蛋白濃度越高,所消耗的球蛋白越少,患子癇前期的風險越小,與文獻報道一致。臨床上將孕周<34周定義為早發型子癇前期,孕周≥34周定義為遲發型子癇前期[18],其中早發型子癇前期不良出生結局的發生率高于遲發型子癇前期,病情更危重,發生多器官功能損傷的風險更高[19]。因此,孕周越高孕婦發生子癇前期的風險越低。
子癇前期患者可能存在腎功能受損,由于腎臟灌注和腎小球濾過率下降,尿比重增高時,尿液濃縮,尿酸清除率下降,導致尿酸增多[20]。此外,近端小管對尿酸的重吸收增加和排泄減少,使子癇前期患者尿酸進一步增多[21]。有研究報道,子癇前期患者紅細胞聚集能力增強,變形能力減弱,血漿擴容不足,導致血小板黏附于血管壁,紅細胞膜破壞,紅細胞血紅蛋白濃度增加,血紅蛋白/血細胞比容比值增高,血液黏度增高[22-23]。已有研究發現,與正常妊娠晚期比較,子癇前期患者血小板計數更低,原因為血小板平均容積、血小板分布寬度升高,使得血小板消耗增加,從而導致血小板計數減少[24]。此外,據文獻報道,妊娠前中期高血鉀水平與嚴重子癇前期的發展風險較高相關[25]。妊娠期間醛固酮和孕酮可影響孕婦的血鉀水平,因此,血鉀水平升高可能提示醛固酮和孕酮紊亂,而醛固酮和孕酮紊亂又可能與子癇前期的發生有關[26]。美國婦產科醫師學會(American College of Obstetricians and Gynecologists,ACOG)提出,心率是子癇前期的一個預警指標[27]。子癇前期孕婦可能存在心功能損害,原因包括:(1)血管阻力增加,心臟后負荷加重;(2)腎素-血管緊張素-醛固酮系統平衡被破壞,造成水鈉潴留,引起血液濃縮;(3)貧血、低蛋白血癥導致血漿膠體滲透壓降低;(4)血漿擴容不足[28]。而脈搏與心率相關,脈搏越快則提示心率越快,孕婦患子癇前期的風險越大[29]。
隨著大數據時代的來臨,機器學習在醫療衛生領域的應用越來越廣泛,尤其是在疾病的預測和預后評估方面[30-31]。本研究根據篩選出來的子癇前期影響因素,構建了子癇前期預測模型,以預測孕婦子癇前期的發生風險。結果顯示,LightGBM模型的效果達到最優時,其AUC為0.964,敏感度為0.849,特異度為0.927。本研究LightGBM模型的AUC高于Jhee等[26]的模型(敏感度=0.603,特異度=0.991,AUC=0.924)。但是,Jhee等[26]的模型由于病例組(n=474)與對照組(n=10058)例數不平衡,導致敏感度及特異度相差過大,而本研究的LightGBM模型在敏感度及特異度相差過大的問題上有所改善,綜合性能較之前的預測模型有所提高。Logistic回歸模型的可解釋性非常好,從特征的權重可以解釋不同特征對最后結果的影響,在醫療衛生領域可用于探索疾病的相關影響因素,但因為模型簡單,容易出現欠擬合、模型總體效能不高等問題。LightGBM是一種快速的、分布式的、高性能的基于決策樹算法的梯度提升框架[32]。LightGBM模型采用直方圖算法對數據進行分割,通過離散化的統計量遍歷尋找最優分割點,減小內存,提高訓練速度[33];采用有深度限制的按葉子生長策略,從當前葉子節點中找到增益值最大的節點進行分裂,并對樹的深度進行限制,防止過度擬合,縮短尋找最優深度樹的時間,降低了誤差,提高了預測準確度[34]。
綜上所述,本研究構建了基于機器學習算法的子癇前期預測模型,并利用敏感度、特異度、準確度和AUC等評價指標對構建的機器學習模型進行評價,一定程度上減少了單一評價指標帶來的偏倚。同時,本研究結合了母體因素和常見的產前實驗室檢查指標,納入的患者來自多個中心,樣本量大且具有良好的代表性,可以有效地預測子癇前期的發生風險,對臨床上孕婦子癇前期的早期識別有一定的輔助作用,具有潛在的臨床價值。
本研究仍存在一些不足之處:(1)數據均來源于重慶地區,可能存在選擇偏倚,需要進行外部驗證以進一步評估模型的效能;(2)本文構建的預測模型綜合效能較高,包含了12項指標,雖然均為易于獲得的常規實驗室檢查指標,但指標數量較多,在臨床推廣應用有一定困難;(3)研究中部分指標的缺失率過大,如BMI是孕產婦產檢的重要指標,但在本研究中由于該指標缺失率過大而未納入模型中,重要指標的缺失可能會對模型的效能產生一些影響。因此,未來仍需進一步論證該指標的缺失是否會對預測結果有較大影響。