王牧雨,王妮,黃曉婕,陳卉
1.首都醫科大學 生物醫學工程學院,北京 100069;2.臨床生物力學應用基礎研究北京市重點實驗室,北京 100069;3.首都醫科大學附屬北京佑安醫院 感染科,北京 100069
艾滋病又稱獲得性免疫缺陷綜合征,主要由人免疫缺陷病毒(Human Immunodeficiency Virus,HIV)感染引起,艾滋病患者由于其疾病的特殊性,常伴有嚴重的精神疾病傾向[1]。有研究表明,超過70%的HIV感染者存在睡眠障礙[2]。同時,長期服用治療藥物、對疾病未知的恐懼以及社會歧視等問題也對患者的生活造成壓力,進而導致焦慮、抑郁等問題。目前已有大量研究對艾滋病患者焦慮、抑郁、睡眠障礙等精神衛生狀況進行分析[3-5],但通常是針對其中某一項進行單獨分析。有研究表明,艾滋病患者的焦慮、抑郁、睡眠障礙通常是伴隨發生且相互影響的,因此,進行全面的綜合分析對艾滋病患者精神衛生狀況的篩查、診斷和干預有重要意義[6-8]。
醫院焦慮抑郁量表(Hospital Anxiety And Depression Scale,HADS)和匹茲堡睡眠質量指數(Pittsburgh Sleep Quality Index,PSQI)量表是臨床廣泛應用且有良好可信度的篩查焦慮、抑郁和睡眠障礙的量表[9-10]。目前研究通常只是利用量表總分判斷患者是否存在相應精神疾病傾向及程度,未充分利用每個條目所提供的豐富、差異性的信息。利用數據挖掘技術對所有單一條目的數據進行深度挖掘,可對患者精神疾病的篩查、診斷與個性化治療提供幫助。
聚類分析是基于樣本間距離、將相近樣本歸為一類的數據挖掘方法,如Margiotta等[11]針對74例系統性紅斑狼瘡患者的PSQI得分,采用基于歐氏距離的層次聚類法進行聚類分析,分析了3個聚類患者的睡眠相關特征的統計學差異。但針對量表,條目的先后順序往往經過專家的調研與評估,條目之間存在一定影響,歐氏距離尚不能體現這種影響。基于此,本研究將量表條目作為一個有順序的序列,使用動態時間規整(Dynamic Time Warping,DTW)算法計算序列之間的相似性,進而評估患者之間精神衛生狀況的相似性,旨在提升聚類效果,以期對臨床艾滋病患者精神衛生狀況的評定與分析提供一定的理論依據。
研究對象來源于首都醫科大學附屬北京佑安醫院牽頭的一項涉及全國13省市4103例艾滋病患者的橫斷面研究[12-14],研究中提供了完整的HADS量表、PSQI量表評分及人口社會學特征的數據,最終研究共納入2569例患者。2個量表包含焦慮、抑郁及睡眠障礙3部分數據,均為條目及評分的形式,除PSQI中少部分條目外,其他各條目評分都在0~3分范圍內。其中,PSQI共18個條目,總得分大于5分為有睡眠障礙[10];HADS中焦慮與抑郁各7個條目,各自總得分大于7分為患有焦慮或抑郁[9]。
量表數據由各條目的評分構成,n個條目的評分可以構成n維向量,對于這類多維數組,通常使用歐氏距離衡量相似性。但考慮到條目順序可能對各條目評分產生影響,本研究將各條目的得分按原始的先后順序進行排列,形成一個有時間順序的序列,并使用DTW[15]計算序列間的相似性。
假設有2個患者量表評分序列A={ai|i=1,…m}和B={bi|j=1,…m},構造由序列A、B中元素ai和bj的歐氏距離dij組成的矩陣Dm×m。在該矩陣中找到一條從起點到終點,且滿足單調性、有界性和連續性的路徑,使得該路徑上累積距離最小。用該累積距離反映2個序列的相似程度。對睡眠、抑郁、焦慮3個量表分別使用DTW計算相似性,將其平均后作為患者的相似性用于后續聚類分析。
層次聚類是一種基于樣本間相似性的聚類方法,本研究基于患者量表相似性矩陣使用層次聚類的方法進行患者聚類分析,原始輸入為患者相似性矩陣。本文使用Ward方差最小化算法[16]計算簇間相似度。
本研究從2個方面對聚類分析進行評價:① 從聚類質量的角度進行評價。使用Calinski Calinski Harabasz index(CHI)、Davies Bouldin Index(DBI)、輪廓系數(Silhouette Coefficient,SC)評價聚類質量[17],CHI越高,DBI越低,SC越高表示聚類質量越好,同時選擇使得聚類質量最好的聚類數進行后續分析與評價。② 從臨床意義的角度進行評價。經過聚類分析后,對每一個聚類中焦慮、抑郁和/或睡眠障礙患者所占比例確定該聚類的精神狀態標簽(預測標簽),以根據量表評分確定的患者睡眠障礙、焦慮、抑郁狀態[9-10]作為患者的真實精神狀態標簽,使用精確率(Precision)、召回率(Recall)和F1值(F1-score)評價聚類結果[18],計算方式如公式(1)~(3)所示。

式中,TP表示預測正確的正樣本數,FP表示預測錯誤的正樣本數,FN表示預測錯誤的負樣本數。正樣本定義為依據量表評分確定為患有某種精神障礙的患者,負樣本表示不患有該精神障礙的患者。
此外,本研究還使用傳統歐氏距離計算患者之間的相似性矩陣并進行層次聚類,其聚類結果作為參照,與使用基于DTW的相似性完成的聚類結果進行比較。
除量表評分外,患者的其他臨床或人口學特征,如是否存在精神病史、是否得到家人支持等均為二分類變量,表示為n(%)。各聚類間這些特征的比較利用SPSS 22.0統計軟件進行 Pearsonχ2檢驗,以P<0.05為差異有統計學意義。
分別使用基于DTW的相似性和歐氏距離進行層次聚類,不同聚類簇數的CHI、DBI和SC指標如表1所示,在各項聚類質量評價指標中,使用2種相似性度量時均在聚為2類時達到最高的CHI和SC以及最低的DBI,即在聚類數為2時有最好的聚類質量,因此后續分析中將聚類數定為2。在聚類數為2時,基于DTW相似性的聚類相比于基于歐氏距離的聚類,CHI更高(166.24vs.72.68)、DBI更低(2.91vs.4.25)、SC 更高(0.31vs.0.16),即基于DTW相似性的聚類有著更好的聚類質量,同類樣本間距離更近,異類樣本間距離更遠。

表1 使用不同相似性計算方法時聚類分析的質量評價
使用t分布隨機近鄰嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)方法,分別以DTW和歐氏距離求得的患者相似性矩陣為基礎將各患者嵌入到二維空間,結果如圖1所示。可以看到使用歐氏距離進行聚類時,兩類間有較多重疊,類內分布分散;而使用DTW求得患者相似性矩陣進行聚類時,同類分布更加密集,與異類距離更遠。

圖1 基于t-SNE技術的可視化聚類分析結果
聚為2類時,2類患者睡眠、焦慮和抑郁情況如表2所示,使用DTW相似性聚為兩類時,聚類1主要是無焦慮且無抑郁的患者(86.2%),聚類2主要是有焦慮且有抑郁的患者(44.2%)。從焦慮狀況看,聚類1和聚類2各占3.7%和59.0%,聚類2中焦慮患者的比例比聚類1高出近15倍;從抑郁狀況看,聚類1和聚類2占比分別為11.1%和63.0%;從睡眠障礙看,2類占比分別為28.3%和63.6%。綜合來看,聚類1中有62.7%的患者無焦慮、抑郁和睡眠障礙,而聚類2中該比例僅為10.3%,因此將聚類1定義為正常組,聚類2定義為有精神障礙組。使用歐氏距離聚為兩類時,2類中各精神疾病的分布與基于DTW的聚類結果相似,各部分比例有所不同。綜合來看,聚類1中無精神異常患者占比67.2%,聚類2中占比為20.2%,因此同樣可以將聚類1作為正常組,聚類2作為有精神障礙組。

表2 使用DTW相似性和歐氏距離進行聚類時患者精神衛生狀況的分布情況[n(%)]
基于以上分組結果以及患者的真實標簽,分別計算兩種聚類方案的精確率、召回率和F1值。以相同的方法,分別單獨利用睡眠、焦慮和抑郁量表得分計算患者相似性并進行聚類分析。聚為2類時,按照聚類結果中患者精神衛生狀況有無異常的比例為各聚類賦予標簽,計算各評價指標,結果如表3所示,其中使用DTW計算相似性在精神疾病聚類中相比于使用歐氏距離普遍具有更高的F1值,即使用DTW計算相似性相比于使用歐氏距離進行聚類可以更好地區分患者;另一方面,同時使用3個量表計算相似性時,F1值為0.739,高于分別使用單個量表相似性進行聚類時的F1值(0.618、0.695、0.693)。由此可見,結合多個量表的結果可以更好地對患者進行區分。

表3 單獨及綜合使用量表進行聚類分析的評價結果
綜合3個量表信息使用DTW相似性或歐氏距離將患者聚為2類,每類患者的人口社會學特征如表4所示。基于DTW相似性的聚類結果中,在個人精神病史、社會支持及藥物服用方面,兩聚類間存在明顯差異。聚類2有更多患者存在精神病史(2.3%vs.1.1%,P=0.020),更多患者服用興奮劑及相關藥物(6.4%vs.3.8%,P=0.003),但獲得的社會或家庭支持更少(62.8%vs.74.6%,P<0.001),表明艾滋病患者所獲得的社會支持一定程度會對患者精神衛生狀況產生影響;另一方面,同時伴有焦慮和抑郁的情況下(聚類2),患者更容易出現睡眠障礙(48.4%vs.23.6%,P<0.001),伴有睡眠障礙的患者更容易出現情緒低落緊張不安(48.2%vs.15.6%,P<0.001),這說明艾滋病患者的各類精神障礙并非單獨存在,而是相互影響。基于歐氏距離的聚類分析得到的2個聚類中,人口社會學特征分布趨勢與基于DTW相似性的聚類結果相似,包括服用興奮劑及相關藥物(5.9%vs.3.6%,P=0.008)、獲得社會或家庭的支持(63.4%vs.77.6,P<0.001)以及出現睡眠障礙(40.7%vs.25.2%,P<0.001)與焦慮和抑郁(39.8%vs.19.7%,P<0.001)。與DTW相似性聚類不同的是,利用歐氏距離進行聚類時,兩聚類患者個人精神病史的差異無統計學意義(2.0%vs.1.1%,P=0.083),而朋友知曉其患病的情況存在顯著差異(30.5%vs.25.0%,P=0.002)。

表4 各聚類患者人口社會學特征[n(%)]
本研究綜合艾滋病患者的焦慮、抑郁和睡眠3部分量表,基于DTW方法計算序列相似性,并進行聚類分析。目前已有研究通過量表相似性進行精神健康狀況的聚類分析,如基于歐氏距離對系統性紅斑狼瘡患者的睡眠狀況量表進行聚類分析[11],基于K-means聚類對不同性別青年的焦慮、抑郁及心理敏感敏感性量表進行分析[19]等。但針對量表的聚類分析多使用歐氏距離,本文使用DTW改進量表相似性計算方法,旨在分析更多量表上下文信息[20]。
本文分別使用聚類內部評價指標以及具有臨床意義的準確性指標F1值進行了聚類方法的評價與比較。聚類質量評價方面,使用DTW相似性聚類時,類內距離更小,類間距離更大,在各項聚類評價指標中表現都優于歐氏距離。臨床意義評價方面,將患者聚為2類時,使用DTW相似性聚類相比歐氏距離有更高的F1值,這說明使用DTW相似性可以更好地區分精神衛生狀況正常與異常的艾滋病患者。這主要是因為DTW更多地反映了各條目得分的變化趨勢,而非數值本身的大小。從這個角度來說,條目的先后順序可能在一定程度上影響到量表使用者答題時的心理,從而影響到其得分情況。
本研究還分別使用單個量表進行聚類并以是否存在精神衛生狀況異常為標準計算F1值,與融合3個量表計算相似性的聚類結果進行比較,發現融合3個量表的結果時,聚類結果的F1值更高。這主要是因為艾滋病患者的睡眠、焦慮和抑郁這3種精神狀況往往存在顯著相關性[21]。如宋冰等[22]針對艾滋病患者治療期間的焦慮、抑郁與睡眠質量的研究表明,3項精神衛生狀況間有顯著的負性影響。故在針對精神狀況進行分類時,綜合多種精神狀況進行整體分析,可以獲得更好地結果。
針對聚類獲得兩組患者的其他特征進行分析發現,多數患者都愿意與家庭成員分享病情,無焦慮、抑郁和睡眠障礙的患者獲得了更多家庭與社會的支持,提示應給予艾滋病患者更多的關注與支持,從而降低艾滋病患者患精神疾病的風險。邊東麗[23]通過對艾滋病患者提供心理干預,使患者焦慮與抑郁評分改善明顯,同樣證明了外界支持對艾滋病患者精神健康狀況改善的重要作用。此外,很多患者同時出現了睡眠障礙與情緒問題,進一步印證了各類精神疾病往往不是單獨存在,而是相互影響。
本研究在使用DTW計算量表相似性,獲得了比歐氏距離更好的結果,但在部分量表的處理上仍存在不足。在3種量表分別計算相似性進行聚類時,睡眠量表聚類的F1值低于其他2個量表。這可能與睡眠量表中題目的特異性結果有關。其量表中有個別條目的選項不是等級型的,而是具體數值(如睡眠時長),在計算相似性時它們會對結果產生一定影響,從而使聚類效果降低。
基于焦慮、抑郁和睡眠障礙3個量表的DTW序列相似性的艾滋病患者聚類分析具有很高的聚類質量,同一聚類內的患者有著更為相似的臨床表現。艾滋病患者的3種精神疾病狀態往往相互影響,家庭與社會的支持是影響患者精神狀態的重要因素。本研究提出的綜合多個量表、基于序列相似性的聚類方法可以為艾滋病患者的精神衛生狀況篩查及評估提供客觀依據。