施志偉,高俊波,胡雯雯,劉志遠
(上海海事大學,上海 201306)
基于文本的抑郁情感傾向識別模型①
施志偉,高俊波,胡雯雯,劉志遠
(上海海事大學,上海 201306)
針對學生在新浪微博文本中所表現出來的抑郁情感傾向,提出了一種識別抑郁情感傾向的模型. 通過在本校廣泛發動學生在線填寫抑郁自評量表,獲得學生的量表得分. 采集學生的微博文本,并請本校心理學老師對微博進行人工標注. 在預處理階段,利用抑郁情感詞典重新組合在分詞階段被拆分的抑郁情感詞,以提高識別正確率. 然后基于支持向量機構建一個情感分類器對微博數據進行訓練,經過不斷的學習反饋,獲得較好的分類效果; 最后,定義了抑郁指數來衡量個體在一段時間內的抑郁傾向程度. 實驗結果表明,抑郁指數衡量的抑郁程度大致與量表結果吻合,該方法識別準確率達到82.35%.
抑郁傾向識別; 抑郁自評量表; 抑郁情感詞典; 支持向量機; 抑郁指數; 新浪微博
微博作為一種開放化的互聯網社交服務,由于文體格式自由、使用方便,越來越多的用戶通過微博發布自己的所見所聞,所感所思. 在海量微博文本中,有很多蘊藏著個人情感,可以利用這些文本進行情感分析研究[1]. 當前,情感分析研究主要是針對某個具體事物的評論[2],如影評,產品評論等,而針對文本中所蘊藏的抑郁情感的研究還比較少.
在世界范圍內,抑郁癥是人們面臨的最為普遍的心理疾病之一. 隨著微博等社交網絡平臺的發展壯大,許多研究者借助用戶網絡特征行為來判別其心理抑郁情況[3]. 文獻[4]基于產婦在產后社交網路中對話頻度、語言風格等進行分析,建立產婦抑郁統計模型. Wang[5]等將抑郁患者視為一個節點,并以此為中心構建一個圖網絡,根據網絡中相鄰節點的屬性及連接權重,給出模型來計算抑郁狀況. 文獻[6]采用腦成像方法研究靜息態下不同性別的抑郁癥患者的腦功能差異. 文獻[7]從用戶發微博的時間、粉絲數及關注數等方面來分析用戶的抑郁情況.
本文將對學生微博文本中所蘊含的抑郁情感傾向展開研究,并定義抑郁指數來衡量個體在一段時間內的抑郁傾向程度,為高校的心理工作者及醫院醫護人員識別抑郁患者提供輔助手段.
抑郁癥是一種普遍的心理疾病,成因非常復雜,研究者對抑郁癥的發病機理提出了許多理論假說[8]. 心理及醫學研究者還提出了各種抑郁癥診斷量表,為相關實踐提供了重要的實驗依據. Zung[9]提出的抑郁自評量表具有高度可操作性及適應性,很多醫療機構也使用此量表來度量患者的抑郁程度. 它根據得分將抑郁情緒分為四類,[20,41]表示正常,[42,49]表示輕度抑郁,[50,57]表示中度抑郁,[58,80]表示重度抑郁. 本文采用SDS抑郁自評量表做對比實驗.
目前,開源情感詞典眾多[10],但還沒有一部完整的抑郁情感詞典. 本文在已有情感詞典基礎上,構建一個基礎的抑郁情感詞典,共統計常見抑郁詞1041個. 考慮到微博用語的特征及時代性,采集抑郁情感網絡流行詞語54個; 從新浪微博抽取26個常用抑郁情感符號加入抑郁情感詞典. 抑郁情感詞典中部分詞如表1所示.

表1 抑郁情感詞典
本文建立的抑郁情感傾向識別模型主要包括以下幾個部分,如圖1所示.
采集數據之前,在上海海事大學校內廣泛發動學生在線(網頁或者微信)填寫抑郁自評量表(https://sojump.com/jq/9743549.aspx),獲得每個學生的抑郁傾向得分. 在學生知情并授權的情況下采集微博語料,并請本校的心理咨詢師對學生的微博文本進行逐條標注.用預處理后的訓練樣本訓練分類器,得到可靠的抑郁情感識別器,并對抑郁指數和量表得分進行皮爾遜相關性分析,最后給出抑郁指數和抑郁程度之間的關系式.

圖1 學生抑郁情感傾向識別模型
對微博文本構造特征向量前,先進行分詞和去停用詞處理,本文使用中科院分詞系統ICTCLAS. 在分詞后,許多抑郁情感詞被拆分,如“草泥馬”被分割成“草/泥/馬”,為了更好保留抑郁情感詞,參照已經構建的抑郁情感詞典,將這類詞恢復原狀. 去停用詞是利用構建好的停用詞表過濾掉無用的字詞. 鑒于微博文本特點及多次去停用詞的結果,本文在哈工大去停用詞表的基礎上,加入了一些特殊的人名、地名及無關的字詞,如“上海”、“TFBOY”等. 經過反復試驗,此方法有更好的實驗效果.
特征空間的高維性和稀疏性是文本分類中面臨的最大問題. 將特征項全部保留,這將導致維度太大,降低分類效率和準確率,因此必須進行特征降維. 本文采用CHI進行特征選擇[11],其主要思想是假設特征t和類別ci之間符合 CHI分布,CHI統計值越大,特征與類別之間的相關性越強,對類別的貢獻度越大. 計算公式如式(1)所示.

最后,取特征t的最大值作為其全局CHI統計量,如式(2).





則特征詞ti在文檔dk中的權重為:

本文采用向量空間模型對微博文本進行刻畫. 在向量空間模型中,文本被視為由特征權重構成的特征矩陣,關于文本的所有處理都在向量空間上進行. 根據特征選擇和特征加權的結果,微博文本將被表示成如下的向量空間模型.

每一行表示一條微博,wij表示第i條微博的第j個特征詞的權重;n表示文本集中微博總數,m表示每條微博的特征維數.
微博長短不一,按向量空間模型構造的矩陣是一個有大量特征值為零的稀疏矩陣. 為了避免浪費存儲空間,提高運算效率,本文采用 (L T:W)形式來表示每條微博,其中L表示每條微博的標簽,T表示特征項,W為特征項的權重. 如:“我真的愛你,閉上眼,以為我能忘記,但流下的眼淚,卻沒有騙到自己”,這句話特征選擇后得到 5個特征詞,分別為“騙”、“愛”、“眼淚”、“閉上眼”、“流下”. 故而這句話可以表示成“1.0 28:0.4528 39:0.2295 49:0.3215 862:0.5811 1832:0.54878”,其中 1.0 表示標簽,28 是特征詞“騙”的索引號,0.4528是特征詞的權重.
支持向量機是一種實用高效的機器學習方法[13,14],和其他方法相比,它在處理非線性及高維分類問題中表現出其特有的優勢. 處理非線性的文本分類問題,首先構造非線性映射函數將數據x變換到高維空間F,然后在高維空間F使用線性分類器分類. 公式(6)實現把數據從低維空間轉換到高維空間F.

在空間變換后,采用高斯核函數實現非線性問題線性化. 高斯核函數如下[15]:




其中C為參數,用于控制上述目標函數中兩項之間的權重. 此外,將約束條件加入到目標函數中,構造拉格朗日函數,解得 0≤ αi≤C,αi表示約束條件所對應的拉格朗日乘子. 相應的分類函數如公式(10).

其中,x表示待分類微博文本,xi表示對文本的支持向量,yi為xi對應的分類,當f(x)≥0,則x有抑郁傾向,f(x)<0則正常.
對微博文本分類后,只能看出單條微博的抑郁情況,而不能刻畫個體在一段時間內整體抑郁傾向狀況.通過觀察、比較大量學生的抑郁微博數,在上述抑郁情感識別模型基礎上,本文提出抑郁指數來衡量個體在一段時間內的抑郁傾向程度,計算公式如(11). 其中Nd表示分類結果中抑郁微博條數,Nt表示總的微博數,DI的值越大表示抑郁情感傾向越嚴重.

鑒于本文僅從微博文本這一特征來分析個體抑郁傾向情況,不涉及微博關注數、粉絲數等其他結構特征,故而只取抑郁微博數與總微博數的比值作為抑郁指數.
從2016年9月22到2016年12月23號,共381名學生在線作答,剔除無效量表,實際有效 271 人. 從得分結果來看,有抑郁傾向 80 人,正常 191 人. 按照3:1的比例,分別從兩類學生中隨機抽取訓練用例和測試用例,訓練集和測試集中人數如表2所示. 按照每人采集500條,不足采集全部的原則,共獲得7321條微博文本. 對訓練集中微博語料進行人工標注后,共獲得抑郁微博1512條,正常微博3786條; 測試集共2023條微博.

表2 訓練集和測試集人數及微博數
本文采用分類正確率來評價分類效果,公式如下:

其中,a表示被正確判斷為抑郁的微博數,b表示被誤判為抑郁的微博數,c表示被正確判斷為正常的微博數,d表示被誤判為正常的微博數.
實驗1. 對測試集中2023條微博,分別在采用抑郁情感詞典和不采用抑郁情感詞典的情況下進行實驗,結果如表3所示.
從表3可以看出,采用人工構建的抑郁情感詞典后,對單條微博的識別正確率顯著提高.
實驗2. 利用分類器對測試集中每個學生的微博文本進行分類,得到68個測試用例的抑郁指數和正確率,部分數據如表4所示.

表3 采用抑郁情感詞典的實驗準確率
對實驗結果中抑郁指數DI和量表得分Score進行分析,發現它們之間有一定的聯系,畫出兩者之間的散點圖,如圖2,其中Index值為1表示有抑郁傾向,Index值為-1表示正常. 對兩者之間的相關性進行皮爾遜檢測,發現DI和Score在0.01水平(雙側)上顯著相關,且 r=0.544,說明兩者有較強的相關性. 根據相關性檢測結果以及量表得分與抑郁程度的關系,給出抑郁指數與抑郁程度之間的關系式為公式(13).


表4 不同學生抑郁指數及抑郁量表得分情況
抑郁指數在[0,0.1]時,情緒狀態正常; 抑郁指數在(0.1,0.2]時,開始有抑郁傾向但處于輕度狀態; 抑郁指數在 (0.2,0.3]時,處于中度抑郁狀態; 當抑郁指數在 (0.3,1]時,抑郁情況已經比較嚴重了,必須采取有效的治療手段. 其中,當 DI在[0.08,0.15]時,正常與抑郁的交叉現象很明顯,這與部分學生量表得分在42分左右有明顯的關系.
表5給出了68個測試用例的識別結果,正常情緒的識別準確率比抑郁傾向的識別準確率低,可能是由于學生在正常狀態下所發的微博中包含了相關抑郁詞.
實驗3. 從 2016年 3月到2017年 2月,采集3位學生在此期間所有微博數據,以月為單位分別求出抑郁指數并畫出走勢圖,結果如圖3.
從圖3可以看出,抑郁傾向呈現出波動狀態,但在一定時間范圍內,有抑郁傾向的學生的抑郁指數普遍比正常人要高,而且情緒波動更劇烈.

圖2 DI與 Score 的關系散點圖

表5 學生測試用例的分類結果

圖3 不同學生的抑郁傾向走勢圖
抑郁情感傾向分析試圖從微博文本中識別出個體在某段時間內的抑郁傾向狀況. 在學生知情且授權的情況下,獲取學生的微博文本; 在學校心理咨詢師的幫助下對微博文本進行情感極性標注,并使用機器學習算法訓練分類器,實現面向微博文本的學生抑郁情感傾向識別. 實驗結果表明,該方法對學生的抑郁情感傾向有較好的識別效果.
鑒于微博文本語言極具特色,不少學生的微博都是通網絡圖片或表情來傳達情感,這對深入研究學生的抑郁情感傾向提出了非常高的要求. 此外,僅僅通過微博文本來分析抑郁傾向情況,而沒考慮微博周邊其他一些因素,如關注數、粉絲數、微博發表時間等,這些都是需要繼續研究改進的地方.
1劉楠. 面向微博短文本的情感分析研究[博士學位論文]. 武漢: 武漢大學,2013: 24–91.
2Pang B,Lee L,Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques. Proc. of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Stroudsburg,PA,USA.2002. 79–86.
3Youn SJ,Trinh NH,Shyu I,et al. Using online social media,Facebook,in screening for major depressive disorder among college students. International Journal of Clinical and Health Psychology,2013,13(1): 74–80. [doi: 10.1016/S1697-2600(13)70010-3]
4De Choudhury M,Counts S,Horvitz E. Predicting postpartum changes in emotion and behavior via social media.Proc. of the SIGCHI Conference on Human Factors in Computing Systems. New York,USA. 2013. 3267–3276.
5Wang XY,Zhang CH,Ji Y,et al. A depression detection model based on sentiment analysis in micro-blog social network. Proc. of the PAKDD 2013 International Workshops on Trends and Applications in Knowledge Discovery and Data Mining-Volume 7867. New York,USA. 2013.201–213.
6王麗,姚志劍,滕皋軍,等. 靜息態下不同性別抑郁癥患者腦功能及其差異的fMRI研究. 中國心理衛生雜志,2008,22(4): 271–275.
7李鵬宇. 微博社交網絡中的學生用戶抑郁癥識別方法研究[碩士學位論文]. 哈爾濱: 哈爾濱工業大學,2014. 17–60.
8郭珊,郭克鋒. 抑郁癥的研究進展. 中國臨床康復,2005,9(4): 131–133.
9Zung WWK,Richards CB,Short MJ. Self-rating depression scale in an outpatient clinic: Further validation of the SDS.Archives of General Psychiatry,1965,13(6): 508–515. [doi:10.1001/archpsyc.1965.01730060026004]
10徐琳宏,林鴻飛,潘宇,等. 情感詞匯本體的構造. 情報學報,2008,27(2): 180–185.
11譚松波. 高性能文本分類算法研究[博士學位論文]. 北京:中國科學院計算技術研究所,2005.
12Aizawa A. An Information-theoretic perspective of tf-idf measures. Information Processing & Management,2003,39(1): 45–65.
13張學工. 關于統計學習理論與支持向量機. 自動化學報,2000,26(1): 32–42.
14Vapnik VN. The Nature of Statistical Learning Theory. New York: Springer,1995.
15郭麗娟,孫世宇,段修生. 支持向量機及核函數研究. 科學技術與工程,2008,8(2): 487–490.
Depression Tendency Identification Model Based on Text Content Analysis
SHI Zhi-Wei,GAO Jun-Bo,HU Wen-Wen,LIU Zhi-Yuan
(Shanghai Maritime University,Shanghai 201306,China)
In order to solve the problem of identifying depression tendency among students on sina microblog platform,this paper proposes a depression tendency identification model. By inviting students widely to fill in the self-rating depression scale online on campus we can get the students’ score. We collect students’ microblog text and ask the psychology teacher to annotate the microblog artificially. In the pretreatment stage,we use the depression emotional dictionary to reassemble the depressed emotion words that are split at the segmentation stage so as to improve the recognition accuracy rate. And then we build a classifier based on the support vector machine to train the data. Through continuous learning and feedback,we get a better classification result. Finally,this paper defines the depression index and uses it to measure the degree of depression for a period of time. The experimental results indicate that the degree of depression measured by depression index is approximately consistent with the results of the scale,the accuracy of the method being 82.35%.
depression tendency identification; self-rating depression scale; depression emotional dictionary; support vector machine (SVM); depression index; sina micro-blog
施志偉,高俊波,胡雯雯,劉志遠.基于文本的抑郁情感傾向識別模型.計算機系統應用,2017,26(12):155–159. http://www.c-sa.org.cn/1003-3254/6088.html
上海海事大學研究生創新基金(2016ycx036)
2017-03-09; 修改時間: 2017-03-27; 采用時間: 2017-03-31