王 妤, 褚嘉棟, 孫 娜, 韓 嬙, 沈月平,周 磊, 朱新平, 3, 張曉斌, 楊 勇
[1. 蘇州大學蘇州醫學院公共衛生學院 流行病與衛生統計學系, 江蘇 蘇州, 215213;2. 江蘇智慧智能軟件科技有限公司, 江蘇 泰州, 225300;3. 智慧智能軟件科技(湖南)有限公司, 湖南 湘潭, 411100;4. 江蘇省蘇州市廣濟醫院/蘇州大學附屬廣濟醫院, 江蘇 蘇州, 215137]
圍產期抑郁癥(PND)是指婦女在懷孕、分娩及產后康復期間產生抑郁情緒并達到一定嚴重程度[1]。研究[2]表明,低中等收入水平國家的孕產婦PND患病率高達48.5%, 遠高于高等收入水平國家。中國孕產婦的PND總體患病率為16.3%(產前抑郁癥為19.7%, 產后抑郁癥為14.8%),且近10年呈明顯上升趨勢[3]。若未及時治療, PND可能引起不良妊娠結局、低體質量兒、母嬰關系不佳或親情缺失、自殺或殺嬰等不良后果[4]。隨著大數據時代的來臨,基于機器學習(ML)算法的人工智能(AI)模型越來越多地被用于疾病的診斷、分型及預后預測等方面[5-6]?;贛L算法,聯合多個臨床量表以及人口學特征、環境因素構建診斷模型,并開發界面友好、易于操作的輔助數字醫療APP或小程序,不僅無創、成本低廉,而且有利于推廣,但目前僅有少量研究[7-8]構建并評估了基于量表開發的孕產婦抑郁診斷模型。本研究對產前抑郁和產后抑郁診斷算法進行探索與驗證,以期明確診斷孕產婦抑郁的最優算法。
本研究中的研究對象資料均來源于蘇州市臨床診療專項研究數據庫,共納入符合條件的孕產婦5 814例,其中產前研究對象4 665例、產后研究對象1 149例。本研究經蘇州市廣濟醫院倫理委員會審核批準,倫理批件號為蘇廣倫審2016-010。
1.2.1 資料收集: ① 人口學變量。收集研究對象的人口學特征資料,包括年齡、是否獨生子女(DSYN)、教育水平(JYSP)、婚姻狀況(HYZT)、家族精神病史(qrmh)、婆媳關系(PXMYD)、是否首次妊娠(HRCS)、居住條件(JZTJ)、向孩子發脾氣的沖動(EPDS11)。② 量表維度變量。本研究調查量表包括艾森克個性量表(EPQ)、社會支持量表(SSRS)、特質應對方式量表(TCSQ)、睡眠質量量表(PSQI)、輕躁狂癥評估量表(HCL-32)、心理障礙問卷(MDQ)、廣泛性焦慮問卷(GAD)、患者健康問卷抑郁量表(PHQ-9)。將各量表分別分解為不同的維度變量進行分析,最終共得到19個量表維度變量,可從不同角度評估孕產婦的心理健康狀況,見表1。

表1 各調查量表的維度變量名稱及評分說明
1.2.2 結局判定: 第5版《精神疾病診斷與統計手冊》(DSM-5)推薦將9條目患者健康問卷抑郁量表(PHQ-9)[9]作為臨床抑郁篩查及抑郁嚴重程度評估的首選工具。PHQ-9具有良好的內部一致性,Conbach′s α系數為0.8~0.9[10]。本研究根據PHQ-9評分判定孕產婦抑郁結局, PHQ-9評分≥10分為抑郁陽性, <10分為抑郁陰性。
1.2.3 數據預處理: 由于實際人群的抑郁陽性率較低(10%~15%),模型擬合過程中容易產生靈敏度較低的現象。鑒于此,本研究采用傾向性評分匹配法,以年齡作為匹配變量,對病例組進行1∶1匹配,產前研究對象成功匹配201對,產后研究對象成功匹配52對。在此基礎上構建模型,可更準確地篩選較優的算法。

1.2.5 模型構建及算法篩選: 本研究基于5種ML算法即Logistic回歸模型、隨機森林(RF)、支持向量機(SVM)、極限梯度提升樹(XGBoost)和反向傳播(BP)神經網絡[11],分別納入全部變量及特征選擇變量集構建產前抑郁、產后抑郁預測模型。繪制受試者工作特征(ROC)曲線評估模型性能,采用5折交叉驗證方法計算評價指標,指標包括靈敏度、特異度和曲線下面積(AUC)。此外,基于5種算法對所有變量進行變量重要性排序。所有分析采用SAS 9.4軟件和R 4.3.0軟件進行分析。
產前研究對象中,抑郁陽性者在JYSP、qrmh、HRCS、PXMYD、EPDS11方面與抑郁陰性者比較,差異有統計學意義(P<0.05); 產后研究對象中,抑郁陽性者在DSYN、EPDS11方面與抑郁陰性者比較,差異有統計學意義(P<0.05), 見表2。

表2 抑郁陰性或抑郁陽性的產前、產后研究對象的人口學特征比較[n(%)]
產前研究對象中,抑郁陽性者的17個量表維度變量(除NHCL32、PSQI_15外)與抑郁陰性者比較,差異有統計學意義(P<0.05); 產后研究對象中,抑郁陽性者的15個量表維度變量(除NHCL32、NPSQI13、PSQI_15、NMDQ外)與抑郁陰性者比較,差異有統計學意義(P<0.05), 見表3。

表3 抑郁陰性或抑郁陽性的產前、產后研究對象的各量表維度變量比較
2.2.1 特征變量選擇結果: 在產前研究對象中,單因素分析得到22個差異有統計學意義的變量,量表維度變量間的相關性分析發現epq_n與TCSQ_NC呈高度相關,兩者中保留epq_n, 故最終得到21個特征選擇變量。在產后研究對象中,單因素分析得到17個差異有統計學意義的變量,量表維度變量間的相關性分析發現epq_n與TCSQ_NC呈高度相關,兩者中保留epq_n, 故最終得到16個特征選擇變量。
2.2.2 預測模型評價結果: 納入不同變量的情況下,產前預測模型、產后預測模型5折交叉驗證的靈敏度、特異度、AUC均在0.600~0.900范圍內; RF算法在產前預測模型(納入所有變量時,AUC為0.834; 納入特征選擇變量集時,AUC為0.849)和產后預測模型(納入所有變量時,AUC為0.873; 納入特征選擇變量集時,AUC為0.864)中均為最優算法; 相較于納入所有變量構建的診斷模型,大部分算法基于特征選擇變量集構建的診斷模型性能明顯提升,但仍有個別算法提升不明顯甚至下降,見表4、圖1。

A: 產前預測模型(all: 納入所有變量; sig: 納入特征選擇變量集); B: 產后預測模型(all: 納入所有變量; sig: 納入特征選擇變量集)。圖1 納入不同變量情況下基于5種算法的產前、產后預測模型的ROC曲線

表4 以PHQ_9評分為分界標準的產前、產后預測模型的5折交叉驗證結果
基于5種ML算法,分別對產前、產后研究對象進行變量重要性排序(將27項特征變量按照重要性分數從大到小排列),見圖2。以RF算法為例: 產前研究對象中,重要性排序前5名的變量分別是epq_n、PSQI_14、qrmh、TCSQ_NC、NGAD; 產后研究對象中,重要性排序前5名的變量分別是NGAD、TCSQ_NC、epq_n、NPSQI513、NPSQI1617。

圖2 產前、產后研究對象基于5種算法的變量重要性排序
孕產婦的心理健康一直是臨床中備受關注的話題,但目前國內外尚無特異性的生物學指標,且由于精神專科醫師的缺乏及相應訪談評估技術的限制, PND患者很難在首診的產科及社區及時獲得評估與確診。一項綜述[12]指出, 30%~70%的PND病例未被發現,且僅15%的病例接受了適當治療,故及時篩查并發現PND仍然是醫療保健工作的重要挑戰之一。目前,基于ML算法構建孕產婦抑郁診斷預測模型仍然是一個相對不成熟的領域。MATSUO S等[13]基于Logistic回歸和另4種ML算法構建預測模型,但預測變量僅選用了基本的臨床信息。鐘雨婷等[8]開發了一種基于Android平臺的產后抑郁心理護理干預系統,該系統僅應用了愛丁堡產后抑郁自評量表,而單一的量表難以反映和解釋疾病的全部變異性,故仍需進一步研究。
本研究基于5種ML算法構建產前模型、產后模型,預測性能均良好,其中RF算法表現最優。一方面說明,基于不同ML算法構建的PND診斷模型均預測性能比較穩定,且本研究模型的預測效能相較于其他研究[14]明顯提升; 另一方面說明, RF算法對數據的擬合情況更好,對存在多種危險因素疾病患者的預后預測具有獨特優勢。本研究發現,對于大部分模型而言,納入特征選擇變量集的預測性能相較于納入全部變量時明顯提高。由此提示,用于ML算法的特征需要具備良好的差異性及較低的特征間相關性,這在提升性能的同時還能兼顧臨床可解釋性。值得注意的是,在產后研究對象中,表現最優的RF算法納入特征選擇變量集所構建的預測模型性能略差于納入所有變量的預測模型。由此提示, RF算法對于特征選擇相對不敏感[15], 且產后抑郁預測模型仍需盡可能多地納入特征信息。
本研究篩選出的特征選擇變量集與既往研究結論基本一致,例如低社會經濟地位、經濟壓力[16]、人際關系、感知支持[17]與PND相關。本研究中,變量重要性排序結果顯示(以RF算法為例),排序前5名的重要變量首先均是單因素分析中差異有統計學意義的變量,其次在既往研究中均被視為重要的預測因素。epq_n反映情緒穩定狀態,TCSQ_NC反映應對問題時情緒波動,NGAD反映焦慮情緒變化趨勢,這3個變量均與情緒狀態有關。張雪蓮等[18]發現,情緒調節能力與抑郁水平顯著相關,情緒調節能力低者更傾向于消極應對,更容易出現焦慮、抑郁等負向情緒。PSQI_14、NPSQI513、NPSQI1617均與睡眠狀態有關。李洋等[19]研究發現,孕期抑郁情緒與睡眠異常等因素有關。Qrmh反映親人的精神疾病史,一項綜述[20]發現家族精神疾病史對于早期識別PND高風險婦女至關重要。
綜上所述,基于5種ML算法構建的預測模型均可有效預測孕產婦PND風險,其中以RF算法的表現最優,這為開發快速篩查和診斷PND的輔助工具提供了參考依據。但本研究尚存在一定局限性: ① 本研究以PHQ-9評分作為有無PND的分界標準,然而臨床中診斷PND的金標準是經過專業訓練并取得精神專科醫師執照的臨床醫生的訪談評估結論; ② 受樣本量和時間的限制,本研究未進行外部驗證。本研究團隊將在后續實際臨床試驗中引入精神障礙臨床定式結構化訪談(SCID)、簡明國際神經精神障礙訪談檢查(MINI)等診斷量表并結合臨床診斷作為金標準,進一步篩選合適的量表和相應的臨床變量。