孫啟科 董問天 遲 銳 賀 勇 馬義斌 王 克 崔飛環 馮超南 李毓明 于淏巋 于 濱 石 川 紀 俊1,
Hathaway SR與Mckinley JC[1]于1942年配合擬定的明尼蘇達多相個性調查表(Minnesota Multiphasic Personality Inventory,MMPI)是國內外使用最普遍的精神疾病檢測量表。并且MMPI在人格檢測和心理測評中有很好的信效度[2,3]。隨著競爭壓力的日趨增加[4,5],精神疾病已成為危害我國人民身心健康的重要疾病之一。因此,一套簡捷高效的心理健康評估工具對國民身心健康起著至關重要的作用。宋維真等[6]于1985年翻譯修訂的MMPI是我國目前使用的版本,總共566道題目,其中,用于精神疾病與癥狀篩查的是前399道題目,包括10個臨床測評題組和4個效度題組。據統計,MMPI平均完成時間是42 min[7],測試者很難有耐心全部做完,所以在某些場景使用時,例如體檢時進行心理測評,有必要對原始的MMPI做簡化,在保持結果一致性的基礎上盡量減少題目以提升量表的完成率。目前已有的MMPI簡化版本,例如:MMPI-168[8]和MMPI偏見量表的簡化[9,10]等,已經被證明其在篩查方面的信效度,但都采用因子分析法生成簡化版本的量表,篩查過程中無法保證篩查的針對性和全面性。近些年來,多位學者為簡化量表提出了利用機器學習建立模型的新想法。例如,自閉癥診斷觀察量表(Autism Diagnostic Observation Schedule,ADOS)[11]和社交反應量表(Social Responsiveness Scale,SRS)[12],還有本課題之前的研究成果:中文雙相情感障礙診斷清單(Bipolar Diagnosis Checklist in Chinese, BDCC)[13],均是利用機器學習算法分析大量臨床測評數據生成分類器將情感障礙評估量表進行簡化,并通過對照簡化前后結果的敏感性和特異性以驗證其一致性。本研究采用ID3(Iterative Dichotmizer 3)算法[14],在上述研究的基礎上,計算7 410例患者MMPI測評數據的10個臨床測評題組信息增益構造決策樹并根據題組的陰陽性實現動態人群分組,再通過6種經典機器學習算法對不同的人群分組進行建模分析,以挖掘滿足結果一致性的可縮減題組,進而動態簡化MMPI。
1.1 對象 數據集來自北京大學第六醫院的7 410例患者,所有研究對象有效完成全部399道題目。由于不同性別的測評標準不同,所以首先把數據集分為男3 144例和女4 266例。根據測評標準計算出每例患者10個題組的相應得分,采用機器學習算法將前置題組的得分作為特征預測當前題組的得分。
1.2 方法
1.2.1 實驗數據 患者的性別對臨床測評題組疑病(Hs)、抑郁(D)、癔癥(Hy)、男性-女性傾向(Mf)、精神分裂癥(Sc)、輕躁狂(Ma)、社會內向(Si)比較差異均具有統計學意義(P<0.05);年齡因素對臨床測評題組各因子比較差異均具有統計學意義(P<0.05)。見表1。

表1 7 410例患者關于MMPI臨床測評題組陰性、陽性的人口統計學分析
1.2.2 機器學習算法 本研究采用梯度提升回歸樹(GBRT)、隨機森林(RF)、支持向量回歸(SVM)、邏輯回歸(LR)、最小絕對收縮和選擇算子(LASSO)以及線性判別分析(LDA)6種經典的機器學習算法針對特殊人群分組進行訓練和驗證以獲得相對精準的模型,并選擇最優結果模型作為最終結果。
1.2.3 簡化過程 步驟1:前置分組劃分。如圖1所示,首先,計算7 410例測評者每個題組的信息增益,按信息增益大小排序進行數據分組:從10個題組中選擇第1個題組作為目標題組,其余9個題組作為特征,通過ID3決策樹算法求出9個特征的信息增益,選擇最大的特征作為決策樹的根節點,根據該節點的陰陽性劃分為2個分組,再計算對應該節點的陰性分組或陽性分組剩下8個特征的信息增益,選擇最大的特征作為決策樹的節點,根據該節點的陰陽性繼續劃分分組,直到9個特征都作為決策樹的節點或分組人數小于100。步驟2:機器學習分類預測建模。將上述劃分好的人群分組采用6種經典機器學習算法訓練模型,自變量是決策樹中各個分組所對應題組數據,因變量是目標題組的結果,并計算分類器的敏感度和特異度,若敏感度和特異度達到75%,則當前人群分組可刪除該目標題組。步驟3:迭代計算。再從10個題組中選擇第2個題組作為目標題組,其余9個作為特征,重復上述步驟,直到10個題組都當過目標題組后結束。以上述方法排列組合遍歷全部分組情況,得到1 707個分組,其中大于100例的分組有938個。

圖1 量表簡化流程圖
1.2.4 評價指標 根據中國常模標準[15],將真實得分與預測得分劃分陰陽性,得到混淆矩陣,MMPI簡化以敏感度與特異度作為衡量標準。此次研究,以動態刪減后的結果保持刪減前結果75%的敏感度與特異度為閾值。
1.2.5 統計學方法 采用梯度提升回歸樹(GBRT)、隨機森林(RF)、支持向量回歸(SVM)、邏輯回歸(LR)、最小絕對收縮和選擇算子(LASSO)以及線性判別分析(LDA)統計方法。對數據劃分采用了卡方檢驗,以原量表75%的敏感度與特異度作為檢驗標準對題組進行刪減。
圖2~4可見,男性通過ID3算法生成疑病(Hs)、精神衰弱(Pt)和癔癥(Hy)題組的決策樹時,根據決策樹節點題組的陰陽性劃分100例以上且刪除目標題組后敏感度與特異度超過閾值的人群分組。表2可見,針對男性受試者的癔癥(Hy)題組為陰且精神分裂癥(Sc)、精神衰弱(Pt)題組為陽的分組,抑郁(D)、癔癥(Hy)題組為陰且精神分裂癥(Sc)、精神衰弱(Pt)題組為陽的分組,男性-女性傾向(Mf)、病態人格(Pd)、精神分裂癥(Sc)、社會內向(Si)、精神衰弱(Pt)、妄想(Pa)為陰且抑郁(D)、癔癥(Hy)為陽的分組,可刪除疑病(Hs)題組;針對男性受試者的精神衰弱(Pt)、精神分裂癥(Sc)、抑郁(D)、輕躁狂(Ma)、男性-女性傾向(Mf)、社會內向(Si)題組為陰且疑病(Hs)題組為陽的人群分組,可刪除癔癥(Hy)題組;針對男性受試者的精神分裂癥(Sc)為陰且抑郁(D)為陽的人群分組可刪除精神衰弱(Pt)題組。圖5、6可見,女性通過ID3算法生成輕躁狂(Ma)和精神衰弱(Pt)題組的決策樹時,根據決策樹節點題組的陰陽性劃分100例以上且刪除目標題組后敏感度與特異度超過閾值的人群分組。表3可見,針對女性受試者的精神分裂癥(Sc)、病態人格(Pd)、抑郁(D)、疑病(Hs)、社會內向(Si)、妄想(Pa)、輕躁狂(Ma)、男性-女性傾向(Mf)題組為陰且癔癥(Hy)題組為陽的人群分組,可刪除精神衰弱(Pt)題組;針對女性受試者的社會內向(Si)、抑郁(D)、癔癥(Hy)題組為陰且精神分裂癥(Sc)、精神衰弱(Pt)、妄想(Pa)題組為陽的人群分組,可刪除輕躁狂(Ma)題組。

圖2 通過ID3算法生成決策樹,刪減Hs題組后與刪減前結果比較,敏感度和特異度≥75%的男性人群分組

圖3 通過ID3算法生成決策樹,刪減Hy題組后與刪減前結果比較,敏感度和特異度≥75%的男性人群分組

圖4 通過ID3算法生成決策樹,刪減Pt題組后與刪減前結果比較,敏感度和特異度≥75%的男性人群分組

表2 男性患者不同前置題組預測優化題組的敏感度、特異度

圖5 通過ID3算法生成決策樹,刪減Pt題組后與刪減前結果比較,敏感度和特異度≥75%的女性人群分組

圖6 通過ID3算法生成決策樹,刪減Ma題組后與刪減前結果比較,敏感度和特異度≥75%的女性人群分組

表3 女性患者不同前置題組預測優化題組的敏感度、特異度
近些年來,隨著機器學習算法的迅猛發展,其在各個領域中都得到了廣泛應用,并取得了顯著成果。目前,許多典型的研究早已把機器學習算法應用到了精神科量表的簡化過程中,并取得了顯著的效果。
Hardt J和Gerbershagen HU[16]2001年采用機器學習中的因子分析和主成分分析算法將自評量表SCL-90-R從90個題目簡化至27個題目,10個因子簡化至6個因子,并在518個樣本上分析驗證發現因子間的相似性低而因子的內部一致性高,達到了較好的簡化效果。Wall DP等[17]在2012年通過對比16種經典機器學習算法簡化效果后選擇最優的交替決策樹算法將孤獨癥診斷觀察量表(Autism Diagnostic Observation Schedule,ADOS)中模塊1的29個條目簡化為8個,并采用兩個不同數據集對簡化版本的量表進行驗證,得到的分類器準確率接近100%,而完成測評所需要的時間較原始版本減少70%。Kosmicki JA等[18]于2015年通過后向特征選擇方法比較8種機器學習算法對ADOS量表的簡化效果,將用于篩查孤獨癥的ADOS量表中的模塊2與模塊3分別進行簡化,將原有的模塊2與模塊3中的28個行為條目分別簡化至9個和12個行為條目,條目數量均減少了55%以上,而準確率分別為98.27%和97.66%。Abbas H等[19]在2017年將傳統的問卷調查與手機視頻文件相結合,提出了一種采用機器學習算法診斷孤獨癥兒童的新方法,該方法相比于傳統修正的兒童孤獨癥篩查量表(M-CHAT)更加準確。2016年,Duda M等[20]通過四種機器學習算法將社會反應量表(Social Responsiveness Scale, SRS)由65個題目簡化至5個題目,簡化后的量表用于區分孤獨癥譜系障礙與注意缺陷多動障礙的AUC達到0.965的準確率。Duda M等[21]于2017年在之前研究的基礎上提出了一個新的分類算法,利用機器學習算法在一個新的數據集上,通過SRS衍生出一個僅有15個題目的新簡化版本,其AUC為0.89±0.01,這一簡化版本的穩定性更高。Halim A等[22]在2018年提出采用機器學習算法,將半結構化的標記兒童的家庭短視頻與結構化的父母報告調查問卷相結合,使用創造性的特征選擇方法,簡化出一個用來檢測兒童是否患有孤獨癥的測評工具。通過對162個樣本數據的研究發現篩查時間僅為原來的25%,且篩查工具的準確性得到了提高。Tariq Q等[23]于2018年通過8種機器學習算法,從兩個不同標準的診斷儀器的記錄中,構建出用于診斷孤獨癥兒童的分類器,并且具有較高的分類準確率和很強的可解釋性。其中,8種機器學習算法中的Logistic回歸算法僅用了8個特征,其AUC就能夠達到0.92。
在國外,使用機器學習算法來簡化精神科診斷量表已經有了較多相關的研究,并且得到了較多的研究成果,但在國內,相關的研究還比較缺乏。2019年,Ma Y等[13]通過對5種機器學習算法的比較,采用前向特征選擇,對情感障礙評估量表(Affective Disorder Evaluation, ADE)進行了簡化,并且根據隨機森林計算的題目重要性開發出了中文雙相情感障礙診斷清單(Bipolar Diagnosis Checklist in Chinese, BDCC),BDCC僅用原來15%的條目就能夠區分雙相情感障礙患者、重度抑郁患者和健康人群,且準確率可分別達到96%、93%和99.6%。
在國內,Ma Y等[13]于2019年的研究是在我國人口基數較大的背景下,探求一個適用于體檢中心的簡化量表。本研究是在此基礎上,將機器學習算法應用于MMPI的簡化過程中,并根據MMPI不同題組的特點,通過區分前置題組的陰陽性,探求一個能夠動態簡化的MMPI。
MMPI作為世界上被使用次數最多的人格測驗量表之一,它的簡化具有重要的意義,能減少測評者的測試時間,提高咨詢效率,為有需要的患者提供便利。本研究在進行MMPI簡化時,針對不同人群分組,以動態刪減后的結果保持與刪減前結果75%的敏感度與特異度為閾值,采用6種經典機器學習算法預測題組的敏感度和特異度,針對男性測試者的癔癥(Hy)為陰性且精神衰弱(Pt)、精神分裂癥(Sc)為陽性的分組,癔癥(Hy)、抑郁(D)為陰性且精神衰弱(Pt)、精神分裂癥(Sc)為陽性的分組,精神分裂癥(Sc)、精神衰弱(Pt)、妄想(Pa)、男性-女性傾向(Mf)、病態人格(Pd)、社會內向(Si)為陰性且癔癥(Hy)、抑郁(D)為陽性的分組,可刪除疑病(Hs)題組,減少8.3%的題目;針對男性測試者的抑郁(D)、精神衰弱(Pt)、精神分裂癥(Sc)、社會內向(Si)、輕躁狂(Ma)、男性-女性傾向(Mf)為陰性且疑病(Hs)為陽性的分組,可刪除癔癥(Hy)題組,減少15.0%的題目;針對男性測試者的精神分裂癥(Sc)為陰性且抑郁(D)為陽性的分組,可刪除精神衰弱(Pt)題組,減少12.0%的題目;針對女性測試者的精神分裂癥(Sc)、抑郁(D)、病態人格(Pd)、社會內向(Si)、疑病(Hs)、妄想(Pa)、輕躁狂(Ma)、男性-女性傾向(Mf)為陰性且癔癥(Hy)為陽性的分組,可刪除精神衰弱(Pt)題組,減少12.0%的題目;針對女性測試者的抑郁(D)、社會內向(Si)、癔癥(Hy)為陰性且精神分裂癥(Sc)、妄想(Pa)、精神衰弱(Pt)為陽性的分組,可刪除輕躁狂(Ma)題組,減少11.5%的題目。
綜上所述,機器學習在精神科量表中的應用具有很廣闊的前景,簡化后的MMPI不僅節省了心理測評時間還能夠幫助醫生進行有效的篩查和輔助診斷。基于本研究提出的機器學習模型,繼續擴大數據量,能夠挖掘出更多的可簡化分組。由于在劃分人群分組時,100例以下的分組數據量少容易過擬合,因此不考慮少于100例的人群分組。然而因為男性-女性傾向(Mf)量表的陽性數據量不足,只有114例,在機器學習中模型無法學習到足夠多的陽性數據,存在數據偏移問題,預測結果不夠準確,因此還需要盡量收集更多的男性-女性傾向(Mf)陽性數據,進一步得到更高精度、具有更高效率的簡化量表。