王永劍,齊偉靜,王翼鵬,黃莎,李叢,魏娜,胡潔*
產后抑郁(postpartum depression,PPD)是女性分娩后最常見的情緒障礙,會造成產婦、伴侶和嬰兒出現多種精神健康問題,進而對家庭和社會產生深遠的影響。PPD的發生通常涉及生物學、心理和社會環境等多維度的危險因素[1-4]。臨床預測模型[5]是指對具有某些特征表型的特定群體應用多因素回歸建立統計模型進行評估,預測(診斷)疾病的存在或預測(診斷)疾病未來某種結局事件的發生概率。模型構建后可以通過評估偏差風險對預測模型的準確性和適用性進行評價及驗證[6]。近年來,臨床預測模型被廣泛應用于醫學領域,醫護人員基于患者當前的健康狀態,可量化患者未來患某病的風險,為患者提供個體化醫療建議,有利于降低醫療成本,甚至影響患者的診斷與結局[7]。
女性自妊娠至分娩這一特殊時期時間跨度較長,通常伴隨著心理困擾,并會產生較大的心理應激反應[8],而負面的心理應激反應與PPD息息相關,因此產前應用臨床預測模型對PPD的發生風險進行預測可為早期識別和干預PPD提供時間和空間,并有利于促進臨床醫療決策和減少不良結局的發生。本文旨在對不同類型的PPD預測模型進行分類與比較,以期為PPD研究提供一個更廣泛的視角,為產前預防及干預工作提供科學依據。
本研究檢索了PubMed和中國學術期刊全文(CNKI)數據庫。采用醫學主題標題(MesH)、標題和摘要中的單詞以及關鍵詞的組合,以“post-natal depression/post-partum depression/postnatal depression/postpartum depression”和“risk prediction/prediction model/predictive model”為英文檢索詞,以“產后抑郁/產后抑郁癥”和“風險預測/預測模型”為中文檢索詞。采用主題詞和關鍵詞相結合的方式進行檢索,并對納入文獻的參考文獻進行手工檢索。英文檢索式:post-natal depression or postpartum depression OR postnatal depression or postpartum depression AND risk prediction OR prediction model OR predictive model ;中文檢索式:“產后抑郁”OR“產后抑郁癥” AND “風險預測”OR“預測模型” 。納入標準:(1)研究對象為年齡≥18歲的孕產婦;(2)研究內容為產后抑郁發生風險的預測模型,具有完整的模型建立、驗證和評價過程;(3)研究類型包括前瞻性隊列研究、回顧性隊列研究、病例對照研究和橫斷面研究。排除標準:(1)僅為產后抑郁預測因素、影響因素研究,未構建預測模型;(2)述評、系統綜述、Meta分析、理論研究等類型的研究;(3)重復發表、質量較差、缺乏可用的原始數據的研究;(4)模型包含的預測變量少于2個。
PPD的概念由PITT[9]在1968年首次提出,并將PPD歸類于分娩后非典型抑郁癥狀。美國精神醫學學會出版的第4版《精神疾病診斷與統計手冊》(The Diagnostic and statistical Manual of Mental Disorders,DsM-4)中將PPD定義為既往無精神疾病史的女性在產后4周內出現明顯的抑郁癥狀或伴有典型的抑郁發作,至少持續兩周,造成產婦嚴重的功能障礙,通常需要專業治療[10]。DsM-5中增加了圍產期抑郁的概念,并界定抑郁癥狀發生在妊娠期間或分娩后的前4周內[11],使得PPD的概念及診斷更具有科學性和現實意義。
一項涵蓋全球56個國家、296 284例產婦的系統綜述表明,17.7%的產婦患有PPD[12]。由于新型冠狀病毒肺炎(COVID-19)的全球大流行,超過四分之一的孕婦在COVID-19流行期間出現比以往更多的臨床抑郁癥狀,圍產期抑郁患病率高達25.6%[13]。發展中國家由于財政資源不足、衛生系統薄弱等多種因素,PPD的患病率比發達國家更高[14]。近年來,中國大陸女性圍產期抑郁綜合患病率為16.3%,其中產前抑郁(prenatal depression,PND)患病率為19.7%,PPD的患病率為14.8%[15],且呈現逐年上升趨勢[16]。
作為世界上人口最多的國家,我國為了積極應對人口老齡化、進一步優化生育政策,實施了“二孩”“三孩”政策,這有利于改善人口結構,但也意味著產后女性可能承擔更多的養育任務,面臨著更大的家庭和工作壓力,存在著心理健康風險。同時由于缺乏本土化的PPD診斷標準及指南來指導孕期心理健康,心理咨詢服務的可及性仍然有限[17],因此PPD的發病率逐年升高。進行PPD的早期預測、為孕產婦提供有效的預防和治療服務對制訂具有本土文化背景的醫療制度及保健政策提供重要循證信息顯得格外重要。
PPD的發生涉及生物-心理-社會多維度因素的共同作用,隨著醫學模式的轉變,個體化醫學的進一步推進,面對孕婦海量的診療信息以及不同的臨床癥狀和體征,選取密切相關的危險因素納入預測模型及選取最合適的模型構建方法對PPD個體化精準預測尤為關鍵。構建PPD參數化預測模型一般使用傳統邏輯回歸方法,例如Logistic回歸分析,預測內容包括PPD的診斷和預后[18]。隨著大數據挖掘和分析的發展,應用非參數化模型即非參數化的機器學習算法構建預測模型越來越受歡迎。機器學習算法一般包含決策樹、支持向量機(support vector machine,sVM)和 K- 近鄰算法(KNN)等[19]。應用機器學習算法構建PPD預測模型為PPD的早期預測提供了新的途徑。
3.1 PPD的參數化模型 目前大部分PPD參數化預測研究將是否發生PPD作為二分類結局變量,進而采用Logistic回歸分析方法探討PPD的危險因素,根據危險因素預測PPD的發生概率,并通過OR值分析預測因素與PPD的關聯強度。
參數化模型可以根據PPD相關變量的偏回歸系數構建風險評分公式,根據公式可以計算PPD的發生風險,以早期識別有PPD傾向的產婦。MARACY等[20]根據伊朗農村地區保健中心收集的6 627例產婦的橫斷面自我報告問卷資料,使用參數化Logistic回歸模型分析問卷中的變量,結果顯示抑郁史、受教育程度和意外妊娠等是影響PPD的主要危險因素。根據這些危險因素構建的風險評分公式形式簡單,易于理解,醫護人員可以方便使用。由此可見,應用參數化模型對PPD進行預測具有較好的可解釋性,對衛生保健專業人員評估PPD是否發生提供了證據支持。
參數化模型也可以通過計算危險因素與PPD之間的關聯強度,預測其對PPD的影響程度。NAKANO等[21]于2020年回顧性分析了日本愛知縣婦幼保健服務機構2013年7月至2015年6月1 050例孕產婦在妊娠第11周、分娩后14 d內、分娩后1個月及分娩后3個月的數據,并進行Logistic回歸分析,暴露因素與PPD之間的關聯由OR值和95%可信區間確定,結果顯示,PPD產前預測因素包括產前患有精神疾病〔OR=4.84,95%CI(2.09,11.19)〕、缺乏社會支持〔OR=4.93,95%CI(1.54,15.74)〕、年齡<24歲〔OR=2.43,95%CI(1.37,4.30)〕。通過對危險因素與PPD的關聯強度進行分析,可以及時篩選出PPD的高危人群,為有針對性地進行預防及干預奠定基礎。
值得注意的是,構建參數化預測模型時還要考慮模型的使用條件以及變量之間的相關性,避免出現過度擬合的情況[22]。?ANKAYA[23]采用前瞻性隊列研究設計,收集研究對象孕晚期及產后6~8周的一般人口學資料及孕期社會心理健康評估量表(PPHAs)評分,構建兩個時間點的Logistic回歸模型;結果顯示在妊娠期間遭受丈夫或其他家庭成員的暴力,存在婚姻問題,產前出現抑郁、焦慮和高度感知壓力的產婦患PPD的風險較高,可以作為PPD的預測因素,其中妊娠期間遭受丈夫或其他家庭成員暴力的女性PPD發生率高于未受暴力影響的女性〔OR=0.056,95%CI=(0.014,0.236)〕。但由于研究中使用的PPHAs量表總分與其他變量之間具有高度相關性〔r≥ 0.800,P<0.001,方差膨脹因子(VIF )≥3 000〕,即存在多重共線性,因此并未納入Logistic回歸模型。參數化模型不可解決非線性問題,對變量各水平上數據分布不平衡的問題也難以處理,而是否存在多重共線性決定著自變量是否被納入回歸模型。對于參數化回歸模型變量篩選存在多重共線性的解決方法之一便是應用正則化技術中的嶺回歸、Lasso回歸[24]以及彈性網絡的方法。
3.2 PPD的非參數化模型 近年來非參數化機器學習算法成為醫療預測領域研究的熱門方法。臨床醫學研究數據具有量大、混雜及隨機性的特點,利用傳統的統計方法預測疾病的發生過程常存在一定的局限性,非參數化機器學習算法可以根據數據類型全自動或半自動地尋找數據中的目標內容,挖掘有用知識,反復多次總結規律,幫助研究者做出決策或預測。這種通過大數據挖掘對疾病進行預測的方法符合循證醫學和精準醫療的要求。目前應用非參數化機器學習算法建立PPD預測模型的方法包括基于決策樹的算法、基于樸素貝葉斯的算法、基于支持向量機的算法和基于人工神經網絡的算法。
3.2.1 基于決策樹的算法 決策樹[25]是一種簡單但廣泛使用的分類器,因類似于流程圖的樹結構、可以模仿人類做出決策的過程而命名。構建決策樹可以對新的數據進行分類。隨機森林(random forest,RF)[26]是專門為決策樹分類器設計而成的集成學習方法,包含多個決策樹,每棵“樹”的分布相同,其預測結果綜合了多個決策樹的分類結果,因此最終結果會更加可靠[27]。同時RF也能較好地處理數據的缺省值問題,具有較高的分類精度[28],因此RF算法更受到研究者的青睞。肖美麗等[29]采用RF算法對406例孕婦按照是否發生PPD進行決策分類,綜合人口學資料、生物-心理-社會等多個維度的影響因素,按照變量重要性評分進行排序,列舉了排在前10位的重要預測變量,且該模型預測準確率為80.10%。
除了RF算法外,梯度提升樹(gradient boosting decision tree,GBDT)算法也是一種基于決策樹的集成學習方法,該算法同樣由多棵決策樹組成,但最終結果為所有決策樹預測結論的累積,因此通過GBDT算法構建的模型更為復雜。為了控制模型的復雜程度,CHEN等[30]以GBDT為框架,對目標函數加入了正則化項,建立了極端梯度提升(XGBoost)算法。HOCHMAN等[31]根據以色列最大保健組織的電子健康記錄數據庫,通過使用XGBoost算法構建預測模型并評估分娩后1年內患PPD的風險,結果顯示:ROC曲線下面積(AUC)為0.712〔95%CI(0.690,0.733)〕,提示該模型具有中等水平的預測性能。應用XGBoost算法可以自動解釋自變量之間的交互作用,同時可以通過處理每個決策樹分支的丟失數據評估不同子集的模型性能。通過XGBoost算法構建PPD預測模型、分析PPD預測因素的重要性并進行排序可以將產婦按照不同的風險群體進行分層,有助于進行早期PPD的檢測和干預。
3.2.2 基于樸素貝葉斯的算法 樸素貝葉斯[32]發源于古典數學理論,是一種穩定、結構簡單且十分高效的分類算法,其原理基于條件獨立性假設,即所有預測變量之間相互獨立,當面對高維度、多分類的數據集時,樸素貝葉斯可快速對數據集進行分類。JIMéNEZ-sERRANO等[33]使用西班牙7所綜合醫院1 397例孕婦的產前資料作為數據集,選取其中11個變量構建模型并用于預測分娩后第1周是否發生PPD,結果在訓練集中樸素貝葉斯模型實現了靈敏度、特異度和準確性之間的良好平衡,AUC為0.75,呈現了最佳預測性能。樸素貝葉斯算法簡單,能夠處理多分類任務,執行速度快且易于解釋,但樸素貝葉斯算法在變量分布不平衡時分類效果較差,因此使用樸素貝葉斯算法前需要考慮變量分布的平衡性以避免預測效果不佳問題[34]。
3.2.3 基于sVM的算法 sVM具有強大的學習功能[35],是機器學習中最常用的一種線性與非線性分類方法,其基本原理是利用適當的核函數找到一個超平面,對數據類別進行分隔,使訓練集的點與超平面之間存在最大可能的距離,以達到數據分類的目的。ZHANG等[36]通過收集508例孕婦孕期的信息,分別采取兩種特征選擇方法:專家函詢和Filter過濾法,開發了基于sVM的PPD預測模型;結果顯示該預測模型篩選出的最重要的3個預測因素是心理適應能力、孕晚期抑郁和月收入水平。兩種特征選擇方法在模型預測性能的有效性方面沒有明顯差異,但采用Filter過濾法進行特征選擇的sVM模型預測效果更好(靈敏度=0.69,特異度=0.83,AUC=0.78)。除了特征選擇方法外,樣本量的大小也影響著PPD預測模型的性能,而由于sVM是一種基于結構風險最小化準則的算法,因此當樣本量較小時,采用sVM算法可以避免過度擬合。除此之外,使用sVM算法構建預測模型具有較好的泛化能力[37]。
3.2.4 基于人工神經網絡 人工神經網絡(artificial neural network,ANN)是從信息處理角度理解和抽象了人腦的神經元網絡[38],可建立簡單模型并按不同的連接方式組成不同的網絡。多層感知器(multilayer perceptron,MLP)是一種前饋人工神經網絡模型[39],其在單層神經網絡的基礎上引入了一到多個隱藏層,采取標準反向傳播算法(backpropagation algorithm,BP)[40]訓練多層感知器,使多層神經元協同工作,并從數據集中進行學習。FATIMA等[41]提出了一種通過社交媒體平臺上用戶的文本信息預測PPD的新方法,使用“語言探索與字詞計數”(linguistic inquiry and word count,LIWC)軟件提取社交媒體上生成的語言特征,利用MLP算法并基于語言特征對一般性討論、PPD和非PPD內容進行分類及PPD人群預測,結果顯示,MLP預測模型的準確性為80.36%,精準性為75.11%。MLP能夠基于輸入特征集導出高級特征,并且已經發現該算法更適用于從海量、復雜的數據中篩選出有價值的信息[39]。
4.1 基于機器學習算法的PPD預測模型的比較sHIN等[42]通過選取美國疾病控制和預防中心PRAMs 2012—2013年的28 755例孕產婦的孕期數據,采用9種不同的機器學習算法構建PPD預測模型,包括RF、隨機梯度提升(gradient boosting model,GBM)、sVM、遞歸分隔與回歸樹(RPART)、樸素貝葉斯、k-NN、自適應提升算法(adaptive boosting,AdaBoost算法)、Logistic回歸和ANN,并采用了10倍交叉驗證進行評估;結果顯示:9種預測模型AUC均大于0.5,展現出良好的預測效果,其中RF算法AUC較高,為0.884(靈敏度=0.732,特異度=0.865),其次是sVM,AUC為0.864(靈敏度=0.791,特異度=0.788)。ANDERssON等[43]基于瑞典一項群體隊列研究中4 277例婦女的數據(包括人口學數據、臨床及心理測量數據),通過機器學習算法建立PPD預測模型,模型包括:嶺回歸、Lasso回歸、GBM、分布式RF、極端隨機樹(XRT)、樸素貝葉斯和堆疊組合模型(stacked ensembles models),并評估了不同機器學習算法預測模型的性能。所選機器學習算法的分類性能在準確性、陰性預測值、AUC方面沒有明顯差異。然而,在靈敏度、特異度和陽性預測值方面差異較為明顯。XRT提供了高精度、均衡的靈敏度和特異度的預測性能(準確性:73%,靈敏度:72%,特異度:75%,陽性預測值:33%,陰性預測值:94%,AUC:81%)。通過XRT篩選出相對貢獻高于0.9的主要影響因素為妊娠期間的抑郁和焦慮。采用不同機器學習算法構建預測模型的選擇是個復雜過程,應使用統計軟件并通過性能指標判斷預測模型的預測準確度,同時也需要結合醫療專業知識和臨床實際情況進行判斷,考慮模型實施的多方面因素。
4.2 PPD參數化和非參數化預測模型的比較 應用參數化和非參數化機器學習算法構建PPD預測模型均能夠有效預測產婦PPD發生風險,并且大部分預測模型的準確度較高,有利于醫護人員及時進行醫療決策。傳統的參數化模型包括線性回歸和邏輯回歸,可通過描述結局指標與一個或多個解釋性變量之間的關系對預測結果進行分析[44]。參數化模型形式簡單、易于理解,具有較好的解釋性,通過預測因素的權重可以看到不同預測因素對PPD的影響程度。PPD參數化預測模型以概率的形式輸出結果,可以對不同類型的孕產婦進行風險分層,有針對性地進行輔助決策,因此更適用于醫護人員臨床應用,但使用參數化模型需要考慮數據的分布及共線性問題。
由于妊娠期至產后時間跨度較長、PPD的影響因素眾多、數據結構復雜,因此利用傳統的參數化建模方法預測PPD的發生可能存在很大的局限性。此時,面對變量的復雜情況,非參數化預測模型更具優勢。非參數機器學習算法眾多,基于決策樹的算法是一種分類精度高、表現形式相對簡單的算法[45],而且可以用圖形展示,增加了臨床適用性,但無法給出明確的公式,且由于對數據的變化非常敏感,導致穩定性相對于參數化模型較差。另一種廣泛應用的非參數分類模型是樸素貝葉斯模型,其算法比較簡單,執行速度更快,但是需要計算先驗概率,如果變量之間存在關聯則其預測效果較差。若數據存在非線性問題,可采用sVM算法,其算法相對復雜,數據量大時訓練時間較長,因此sVM更適合對小樣本量數據提供高效的計算,并避免了過度擬合,從而產生更好的預測結果[46]。相對于Logistic回歸、決策樹等算法,ANN是一種復雜的非參數化算法,通常需要大量的參數,種類繁多且不易于解釋,難以得出醫學結論來支持臨床決策,但ANN對于大樣本臨床資料的整合功能有較強優勢,診斷的準確性及分類的準確度較高,具有高速運算的能力,可以快速尋找一個復雜問題的優化解。此外,ANN還可以通過影像學資料篩選出有診斷和鑒別意義的特征,因此未來的研究可以通過ANN聯合影像學特征對PPD進行預測。
對于PPD預測模型的建立,關鍵是對于數據的處理、特征分析以及模型的選擇和算法的應用。由于研究方法、評估標準有所不同,不同機器學習算法預測模型的預測效果有所差別,因此評估每個模型的效果并選擇最佳預測模型顯得至關重要。未來的研究應基于研究隊列對最終模型進行外部驗證,并對模型的臨床有效性進行分析。值得注意的是,將機器學習算法應用于PPD預測的多數研究納入的預測因子涉及社會人口學及心理社會因素,但很少有研究聯合生物遺傳學因素進行預測。因此,結合PPD生物-心理-社會三個維度的因素進行模型構建至關重要。同時應注意,使用大數據集可降低估計方差,從而提供更好的預測性能,而應用預測因素數量少且不改變預測性能的預測模型意味著可以減輕收集信息的負擔,因而此類預測模型更容易實施和推廣。總之,隨著信息科學技術不斷發展,數據不斷完善,在未來的研究中可以聯合生物-心理-社會三個維度的預測因素,使用機器學習算法開發PPD的綜合預測模型作為產后抑郁的精準預測工具。
現階段PPD預測模型的研究如火如荼,“二胎”及“三胎”政策背景下,高危孕產婦數量將不斷增多,對參數化、非參數化PPD預測模型進行分類與比較對選擇合適的模型構建方法至關重要。值得注意的是,筆者在比較參數化與非參數化模型的過程中發現,無論哪種模型,均有其相應的適用范圍,在選擇合適的模型時也應考慮到模型的實用性。因此,建議在未來研究中構建PPD預測模型時注意以下事項。
首先,預測變量的維度影響著PPD預測模型的穩定性與準確性。一方面,由于PPD影響因素復雜多樣,納入模型的預測因素參差不齊,模型擬合及篩選最優模型存在差異,可能遺漏某些重要影響因素,因此全面、多維度確定納入的預測因子至關重要。另一方面,采取高維度預測變量會導致模型過于復雜、預測變量缺乏代表性、實際應用中難以獲取,將不利于相關預測模型在孕產婦中的推廣使用。因此,進行多維預測變量的選擇時應考慮變量是否存在嚴重的信息重疊,采取合適的方法(如正則化技術)進行降維。考慮到妊娠期至產后的時間跨度較長,還應動態監測孕產婦妊娠期至產后的社會環境、心理及相關生物學預測因素,設置更多獲取孕產婦資料的測量時間點,深入探討預測變量之間的作用機制,以期納入最佳的預測變量。
其次,樣本量的準確估計是PPD預測模型可靠性和可重復性的重要保證。無論使用哪種模型,樣本量不足時均容易出現過度擬合的情況,即基于小樣本量構建的PPD預測模型難以到更大的人群中進行驗證。對于PPD預測模型的開發,選取大樣本、多中心的數據有利于提高PPD預測模型的預測效果及泛化能力,但也應考慮到研究效率與成本等現實問題,因此樣本量的確定應同時兼顧有效性及可行性。在樣本量計算方面,RILEY等[47]為如何計算臨床預測模型所需的樣本量提供了方法學指導,且不建議進行數據拆分,而應采用重采樣的方法進行內部驗證。除了計算樣本量,研究納入的孕產婦的代表性也需引起重視,而孕產婦群體特征偏差對PPD預測模型的影響有待進一步研究。
最后,模型驗證是實施預測的必要環節,即對模型的區分度、校準度進行評價。完整的預測模型應包含對模型的內部驗證與外部驗證,而目前的大多數PPD預測模型研究僅通過隨機拆分數據進行內部驗證,這種方法減少了開發隊列的樣本量,可能降低模型的性能,顯示較高的變異度[48]。更好的內部驗證方法為k-倍折疊交叉驗證以及Bootstrap法,但這兩種方法在很多PPD預測模型中常被忽略。同時,內部驗證本身并不能保證結果的可推廣性,因此還需要大樣本量的外部驗證,以更好地驗證模型的性能[49]。
綜上所述,選擇合適的模型構建方法至關重要。參數化模型易于解釋,側重于對線性變量的預測,而非參數化模型在非線性變量預測方面具有更好的優勢,對于文本及圖像數據,應用深度學習算法進行分析可能是更好的選擇。因此,模型的選擇應結合各種算法的功能及特性,考慮研究目的、變量類型、維度、樣本量、預測因素與結局指標之間關系的復雜程度等。在PPD預測方面,研究者更應關注孕產婦PPD發生風險預測模型,注重模型的泛化能力,在考慮模型準確度的同時,也應根據臨床的適用性、實際應用的方便性選擇合適的模型,避免一味追求統計學的優化,采用了沒有必要的復雜模型。
作者貢獻:王永劍提出研究方向,進行論文的構思與設計,負責撰寫論文;王翼鵬負責檢索文獻,收集及匯總資料;黃莎、李叢及魏娜負責審查矯正,對論文進行修改;齊偉靜、胡潔負責論文的總體質量控制,對文章整體負責;所有作者共同確認了論文的最終稿。
本文無利益沖突。