吳憶娜,張藝超,袁貞明,胡文勝,盧 莎,孫曉燕,吳英飛
1(杭州師范大學 信息科學與技術學院,杭州 311121)
2(移動健康管理教育部工程研究中心,杭州 311121)
3(杭州師范大學 醫學院,杭州 311121)
4(杭州市婦產科醫院,杭州 310008)
早產是指妊娠達到28 周但不足37 周而終止妊娠,按病因分為自發性早產和醫源性早產,是新生兒死亡及病殘的首要原因,且影響新生兒的遠期健康[1].據WHO 發布的《全球早產兒報告》指出,全球每年約有1 500 萬早產兒出生,發生率為5%-18%,其中100 萬早產兒發生死亡[2].早產是新生兒死亡的主要原因,隨著我國二胎生育政策的實施,高齡產婦有所增多,早產兒的發生率呈上升趨勢,出生1 歲以內死亡的嬰兒約2/3為早產兒[3].此外,早產兒相較于足月兒,各器官發育不成熟,先天畸形、神經系統發育不良如視網膜病變和腦癱等發病率增高,遠期病死率亦高于足月兒[4].因此,在孕早期預測早產并采取預防性措施對降低早產兒病死率、提高早產兒生存率具有重要意義[5].
目前早產的發生機制尚未明確,臨床對早產的早期風險預警仍缺乏有效的評估手段,如何設計高效的早產篩查模型是一個具有全球意義的重大產科難題[6].超聲檢查具有操作簡便且適用性廣等特點,是臨床上評估早產風險的重要手段.其中,經會陰超聲測量孕婦的宮頸長度是一種全球公認的早產篩查方法[7,8],但陰道超聲受限于多種因素,例如超聲設備的質量、超聲醫生的技術水平等,且不適用前置胎盤和陰道出血等孕婦.此外,某些研究認為基因檢測、某些生物標志物也可用于預測早產[9,10].然而以上方法所用的檢測指標多為特殊檢查項,檢查成本高昂,難以進行大規模臨床驗證,且方法結構簡單只考慮了單一因素,未分析各危險因素間的非線性相互作用[7].早產預測模型的建立須考慮疾病的整體性、復雜性和動態性,而機器學習技術以其獨特的整體性、系統性、自學習性和極強的容錯性等特點,為復雜的疾病診斷提供支持,成為近年來計算機與醫學領域研究的熱點[11].
流行病學調查顯示臨床上早產高危因素主要包括社會因素、個人因素、孕婦病史因素以及本次妊娠情況等方面[12],結合人工智能技術可對電子病歷中的體量巨大、類型異構、內部關聯復雜的臨床大數據進行全面客觀地分析[13,14].針對早產問題,Koivu 等人[15]在紐約公開數據集上利用人工神經網絡和梯度提升決策樹(gradient boosting decision tree,GBDT)等算法構建早產預測模型.Luo 等人[16]利用彈性網絡正則化邏輯回歸模型,預測一般性早產(分娩日期大于32 周且小于37 周)的風險.但這些機器學習研究均未涉及到時序研究,且模型的效果相對較差.門控循環單元(gate recurrent unit,GRU)是可用于處理時間序列數據的神經網絡,它是循環神經網絡(recurrent neural network,RNN)的一種變體,其結構簡單、性能穩定性高,并解決了RNN 梯度消失或爆炸的問題[17].Ljubic 等人[18]利用RNN、長短期記憶神經網絡(long short-term memory,LSTM)和GRU 預測2 型糖尿病患者的并發癥風險,其中GRU 時序模型整體性能最佳.但GRU 作為深度學習模型仍難以解釋預測結果,而建立疾病風險評估模型的核心是開發整體和有意義的可解釋架構.由于單一模型的局限性,眾多研究提出了將時序模型與決策樹模型結合的混合模型來進行預測分析,并廣泛應用于醫學領域[19-21].如賴曉鎣等人[22]將加權組合模型應用于預測肺結核發病趨勢,有效提升了模型的預測效果.
針對以上分析,本文擬將 GRU與GBDT的優勢結合,將GRU和GBDT 混合模型應用于早產風險預測.GRU 模型挖掘產檢數據中與早產相關的時間序列隱含信息,并在28 周前實現對早產的預測,同時利用GBDT 模型探究決策形成的原因,將預測模型和醫學可解釋性相結合,為提早干預和救治、降低早產發生率、改善早產人群的母嬰結局提供參考依據.
本項目研究團隊前期建立了產科多源異構數據互通共融的產科數據科研平臺,用于孕婦產檢數據的獲取.孕婦數據來源包括產檢門診、社區檔案、超聲檢查、實驗室檢查等,平臺對多源異構的孕婦數據進行清洗、轉換、集成,如文本類型的超聲報告結構化,胎心信號數據的解析等,最終形成可統一處理的結構化數據.產科數據科研平臺如圖1所示.

圖1 產科數據科研平臺
本文的早產風險預測依托前期集成的產科醫療數據,基于本研究可形成獨立的分析模塊嵌入產科數據科研平臺的健康分析云模塊中,進行智能的早產風險評估,為臨床決策提供支持,做到早產的早發現、早診斷、早干預.
門控循環單元(GRU)是RNN的變體,是為了解決長期記憶和反向傳播中的梯度等問題而提出的[23,24],能良好地擬合時序數據.相比于LSTM,GRU 只包括更新門和重置門兩個門,簡化的結構使得GRU 在保證預測精度的前提下能有效減少運行時間[25].GRU 單元內部結構如圖2所示.

圖2 GRU 單元內部結構
GRU 中更新門、重置門的公式如式(1)、式(2)所示:

其中,xt為當前的輸入,ht-1代表上一個節點傳遞下來的隱狀態.zt和rt分別表示更新門和重置門.Wr和Wz分別代表重置門和更新門的權重矩陣.σ是Sigmoid 激活函數.
上一時刻隱藏數據經過重置門控得到的重置數據與當前的輸入xt相結合并通過激活函數可以得到當前時刻的候選隱藏狀態,公式如式(3)所示.然后結合式(4)得到t時刻的隱藏狀態ht,最后得到GRU 網絡模型在t時刻的輸出:

其中,t anh為雙曲正切函數.代表隱藏狀態的權重矩陣.Wo為隱藏層到輸出層的代表權重矩陣.
GBDT是于2001年被提出的以CART 回歸樹為基學習器的Boosting 算法,具有預測精度高,魯棒性強,靈活性高等特點[26].其核心思想是通過損失函數的負梯度擬合前一輪基學習器的殘差,具體原理如下:
首先設訓練樣本為i(i=1,2,3,···,n),迭代次數j(j=1,2,3,···,m),損失函數為L(yi,F(xi)),設置初始常數模型來最小化損失函數,公式如式(6)所示.

負梯度rij的計算公式如式(7):

使用基學習器hj(x)擬 合損失函數的負梯度r,求出使損失函數最小的最佳擬合值:

接著進行模型更新,本輪的強學習器如下:

輸出最終的結果:

GBDT的特征重要性計算是基于計算決策樹分裂節點的增益,并用累積求和來評估特征的重要性.其中特征j的全局重要性由特征j重要性平均值衡量,公式如下:

其中,M表示樹的數量,{Tm}1M表示決策樹的集合.特征j在單棵樹中的重要度如下:

GRU 模型結構簡單,運行速度快,在時間序列預測方面具有較高的擬合能力和良好的預測效果.然而深度學習模型難以對預測結果與輸入特征之間的關系做出解釋.GBDT 模型能計算每個輸入特征對最終預測結果的重要性,特征重要性級別越高,表明該特征對預測結果的影響越大,以此解釋GBDT 模型的預測結果.鑒于GRU和GBDT 模型的優點,本文旨在利用GRU和GBDT的混合模型在孕婦28 周前預測早產風險,GRU 模型在孕婦時序產檢數據中學習并預測早產發生的概率,結合GBDT 模型實現更準確的早產風險預測,而且在提升預測性能的同時分析輸入特征在模型中的貢獻程度,實現模型的可解釋性.早產風險預測總體流程如圖3所示.

圖3 早產風險預測總體流程
首先通過產科數據科研平臺獲取婦產科醫療數據集,并對獲取的數據進行特征篩選、數據劃分等處理.然后將數據分為時序數據和非時序數據并分別根據兩個數據集的特點進行數據預處理.
接著針對時序數據利用GRU 模型得到早產發生的概率.GRU 輸入層為預處理后的孕婦28 周前的5 次產檢數據,輸入序列為:

其中,xt代表孕婦第t次的產檢記錄,GRU 神經網絡的隱藏層數為2 層,隱藏層的第二層連接了上一個隱藏層中保留下來的信息.最后將輸出層中最后一個時刻h5的結果作為模型的輸出,并經過Softmax 激活函數得到孕婦在不同分類結果下的概率y.雙層GRU 網絡結構圖如圖4所示.

圖4 雙層GRU 網絡結構圖
GRU 模型的目標是利用時序數據預測出早產發生的概率.將該早產概率作為新特征與孕前數據和28 周前末次產檢等非時序數據融合得到新數據集.將新數據集輸入GBDT 模型中,實現進一步的早產預測.預測過程中GBDT 模型計算輸入每一個特征在預測時的貢獻度.接著,GBDT 模型在得到分類結果的同時獲取輸入數據中每個特征的重要性.最后對實驗結果進行對比分析,驗證所用方法的有效性.
通過產科數據科研平臺,實驗收集了2017年1月-2020年5月于某三甲醫院產科分娩且臨床資料完整的孕婦數據,孕婦的排除標準如下:(1) 妊娠合并子宮體腫瘤;(2) 有嚴重的心、腦、血管、腎等內外科合并癥及妊娠并發癥;(3) 妊娠期間行宮頸環扎術;(4) 妊娠結局為剖宮產、引產的孕婦.
3.1.1 特征篩選
通過文獻分析、專家小組會議并結合臨床知識,共納入32 個可能影響早產的相關因素,包括孕前數據、產檢數據和超聲檢查數據,其中孕前數據包括年齡、孕次、產次、身高、孕前體重、文化程度、孕前收縮壓、孕前舒張壓、末次月經、初潮、經期、周期、月經量、痛經、是否自然妊娠、血型、流產史、早產史和其他既往史;產檢數據包括孕期體重、BMI、宮高、腹圍、孕期血壓和孕期血常規;超聲檢查包含雙頂徑、胎兒頭圍、股骨長、胎兒腹圍、羊水指數、臍動脈的血流指數和頸項透明層.所有納入的特征均由產科數據科研平臺獲取.
3.1.2 數據劃分
本研究納入的特征中產檢數據和超聲檢查數據呈現明顯的時序分布,產檢指南要求產婦在孕12 周前進行登記和初檢,并在孕28 周前每月1 次通過門診隨訪.因此,本研究根據產檢指南規定將孕檢時間初步劃分為孕周12 周前、13-16 周、17-20 周、21-24 周以及25-28 周,共計5 次產檢信息.但實驗發現這種選取方法會丟失近80%的產婦,2 萬多名孕婦中只有5 680名左右孕婦在各個劃分的橫斷面均有孕檢記錄.圖5為孕婦29 周前真實產檢分布.由圖可知,造成此類誤差的原因可能是13-16 周的部分孕婦是屬于17 周滯后的檢查,因此本研究根據實際產檢分布略微調整,將13-16 周、17-20 周和21-24 周分別調整為13-17 周、18-21 周和22-24 周.根據調整后的橫斷面,本研究最終共納入8 140 名孕婦,包括40 700 條產檢記錄.此外,本研究將納入的8 140 名孕婦的孕前數據和孕28 周前末次產檢的數據抽取出來作為實驗所用的非時序數據.

圖5 妊娠早中期產檢分布
3.1.3 數據標準化
本研究收集的診療數據具有明顯的時序特性,構建孕產婦早期產檢的時序特征集合,表1為其中一例產婦的時序特征集合示例,包括其常規的體格檢查、超聲檢查等,其中化驗數據暫未納入時序特征集合,原因是孕產婦早期的化驗多在各自社區進行,其檢驗手段和標準難以統一.

表1 時序特征構建示意圖
按照第3.1.2 節的5 個橫斷面篩選定時門診且產檢資料完整的孕產婦數據作為時序數據.將孕前數據和28 周前末次產檢的數據作為非時序數據.在數據使用前,需要對數據中的缺失值和異常值進行處理.時序數據的缺失值采用線性插值法進行填充,非時序數據采用均值填充.結合臨床中各個指標的范圍,將數據中觀測極大值或極小值作為異常值,處理方法同缺失值.此外,由于樣本特征數據具有不同的量綱和量綱單位,數值間的差距會對模型造成影響,因此需要對數據進行歸一化處理,避免值域較大的特征影響其他特征,同時提升模型的收斂速度.本文采用min-max 標準化,使得結果映射到[0,1]之間,如式(14)所示:


其中,x為當前特征值,xmin,xmax分別為當前特征的最小值和最大值,x*為標準化后的特征值.模型得到預測結果后,通過式(15)對結果進行反歸一化處理得到真實值,其中y為真實值,ypredict為預測值.
本研究最終納入8 140 名孕婦,其中早產342 名,足月7 798 名.因本實驗數據集樣本分布不平衡,會使預測的分類結果偏向于多數類樣本點集合,使得少數類樣本點的分類正確率低.針對樣本不平衡問題,在訓練過程中將少數類樣本進行隨機過采樣處理.實驗時使用網格搜索法選擇模型的最優超參數,并采用五折交叉驗證的方法來驗證結果的可靠性.
調整后的GRU和GBDT的最優參數設置如表2所示,GRU 神經網絡批次大小為256,輸入特征維度為32,隱藏層層數為2,將學習率設置為0.001,并使用Adam 優化器進一步加速訓練過程,Adam 優化器可以使用動量和自適應學習率來加速收斂速度.GBDT 模型的損失函數采用對數似然損失函數“deviance”,設置學習率0.01,弱學習器的最大迭代次數為200,子采樣取值為0.8,防止過擬合.

表2 GRU和GBDT 模型各參數的含義及取值
此外本研究采用加權平均敏感性(weighted average sensitivity,WA_Sensitivity)、加權平均特異性(weighted average specificity,WA_Specificity)、AUC和ROC 曲線下面積對模型的性能進行評價.加權平均是將每一個類別樣本數量在總樣本中的占比作為權重,在樣本不平衡情況下可獲得更加客觀的總體評價,加權平均敏感性和加權平均特異性公式如式(16)、式(17)所示,其中se0、se1分別代表0、1 樣本的靈敏度,num0、num1分別為0、1 樣本的數量,numall為總樣本數,sp0、sp1分別代表0、1 樣本的特異性.


實驗中分別選用邏輯回歸(logistic regression,LR)、隨機森林 (random forest,RF)、GBDT、LSTM、GRU和GRU-GBDT 進行對比,數據集均按照8:2 劃分為訓練集和測試集,并通過五折交叉驗證實驗結果.表3為各模型的預測結果.

表3 各模型預測結果表
由表可知,與單一模型相比,GRU-GBDT 模型對早產的預測能力最佳,其中加權平均敏感性為0.77,加權平均特異性為0.84,AUC為0.647,均優于其他方法.此外,GBDT 相比較于LR和RF,在犧牲少許運行時間的情況下各項指標均有所提高.時序模型的AUC明顯優于非時序模型,其中GRU 相對于LSTM 結構更加簡單,可在保持模型性能的前提下顯著提升算法運行速度.
圖6為GBDT、GRU和GRU-GBDT 混合模型的ROC 曲線,曲線下面積值越高模型的預測性能越佳.由圖可知,本研究的GRU-GBDT 混合模型優于對應的單一模型.

圖6 GBDT、GRU和GRU-GBDT的ROC 曲線圖
根據GBDT 模型輸出的特征重要性排序如圖7所示,由于所用特征較多,本文只列出重要性排序前15 名的特征.
由圖7可知,GRU 輸出的新特征在早產預測中的重要性最高,可見本文采用的GRU-GBDT 混合模型在早產預測中的有效性.此外,宮高、BMI、血紅蛋白、舒張壓、雙頂徑等都是早產的重要因素.結合GBDT模型輸出的特征重要性結果,可輔助醫生臨床決策,便于醫生對存在早產風險的孕婦進行及時有效的干預.

圖7 GBDT 模型重要性排序
針對早產風險預測問題,本文通過分析孕婦歷次產檢數據特征,利用GRU-GBDT 混合模型預測孕婦早產風險.本實驗整合多源異構的產科診療數據并根據產檢指南以及實際情況合理獲取多次產檢的信息,通過GRU 模型捕捉孕婦歷次產檢的生理特點并得到早產發生的概率,然后采用GBDT 模型在融合數據的基礎上預測最終分類結果,并獲取特征重要性.通過與其他方法對比分析,驗證了該混合模型在早產分類效果上的優越性,其中GRU 對于時間序列信息有較強的學習能力,該混合模型保證了孕婦多次產檢數據的合理利用,同時GBDT 模型能在預測時獲取每一特征對預測結果的貢獻度,特征重要性可為醫生判斷孕婦早產風險提供輔助決策.
本文可實現早期的早產高危人群篩選,以建議該部分人群進行進一步的早產項目檢查.本研究不涉及特殊化驗項和檢查項,在不進行額外檢查項的同時基于歷史診療數據進行早期篩查,可節省大量資源.然而,本研究未加入孕婦常見的化驗數據,未來將對GRUGBDT 模型結構進一步優化,并添加化驗項來提高整體預測效果.