劉德喜,邱家洪,萬常選,劉喜平,鐘敏娟,郭海峰,鄧 松
(1. 江西財經大學 信息管理學院,江西 南昌 330013;2. 江西財經大學 江西省高校數據與知識工程重點實驗室,江西 南昌 330013;3. 江西財經大學 學生工作處,江西 南昌 330013;4. 江西財經大學 軟件與通信工程學院,江西 南昌 330013)
世界健康組織(WHO)在2012年的研究表明,全世界約有3.5億人患有抑郁癥,嚴重的抑郁可以導致自殺[1]。由于缺少心理健康知識以及心理疾病顯著區別于身體疾病的無疼痛感,導致許多人身患抑郁而不知或是由于抑郁羞恥感而不敢主動尋找專業人士幫助。心理學上通過抑郁自評量表檢測的方法屬于侵入型檢測方法,在適時性和自評頻率方面存在不足,導致不能及時檢測出抑郁癥患者,延誤治療。隨著互聯網和信息技術的發展,Twitter、微博、微信等社交媒體已經成為人們互相交流必不可少的工具,形成與物理空間相對等的網絡社區,用戶網絡行為信息也記錄在社交網絡中,為檢測用戶抑郁癥等心理健康疾病提供了一種新的途徑。
目前,已有較多利用用戶在社交網絡上的行為和發布的文本進行用戶心理健康分析的相關研究工作,所選取的社交網絡平臺大都是Twitter、微博、人人網等公開社交網絡。公開社交網絡支持單向關注的特點使得用戶隱私權無法得到有效的保障。因此,用戶在公開社交網絡上更傾向于表達話題性觀點,大部分用戶僅僅是在熱點話題上表現活躍。
與公開社交網絡相比,QQ、微信等社交網絡因為朋友圈的劃分和有限的用戶訪問權限設置等,更能保障用戶隱私不被泄露,私密性更強,更加受到用戶的青睞。本文稱這種信息只在好友圈可見的社交網絡為準私密社交網絡,準私密社交網絡越來越成為人們日常生活不可分割的一部分。直觀上,相比公開社交網絡數據,準私密社交網絡數據能夠更有效地反映出用戶的生活狀態與心理狀態,更能反映用戶的抑郁等心理健康問題。
已有的研究工作大部分是基于公開社交網絡的,鮮有文獻分析準私密社交網絡數據是否可用于分析用戶的抑郁傾向,以及如何利用這些數據分析用戶的抑郁傾向。本文從訓練樣本選擇、特征量化方法、分類模型的選擇、文本內容特征四個角度考察利用準私密社交網絡文本檢測抑郁用戶的可行性,并與基于公開社交網絡數據進行抑郁檢測的相關文獻進行比較。論文的結構安排如下: 首先介紹研究背景,然后介紹利用社交網絡數據分析用戶心理健康的研究現狀,接下來介紹數據采集與預處理、候選特征抽取與量化、訓練樣本選擇、相關性分析、檢測模型選擇,并通過實驗考察樣本選擇、特征量化方法對抑郁用戶檢測模型的影響,分析不同的文本特征在檢測模型上的表現,最后對全文進行總結。
利用社交網絡數據分析用戶心理健康狀態具有實時性、高效性、無侵入性等特點,對心理健康狀況欠佳人員的及時檢測、輔導和診療具有重要意義,得到心理學領域和計算機科學領域研究者的關注。已有的研究工作通常把利用社交網絡數據分析用戶心理健康狀態視為一個分類問題,通過樣本訓練分類模型,將社交網絡用戶的自殺傾向、抑郁等心理健康問題分類為“有”“無”兩大類。下面主要從社交網絡數據與抑郁的相關性分析、數據源選擇、特征選擇和量化、訓練樣本選擇、分類模型五個方面對研究現狀進行描述。
大量研究發現可以通過社交網絡活動記錄對用戶的抑郁狀態進行檢測[1-19],嚴重的抑郁癥患者在社交網絡上的行為與正常人存在顯著的差異[1]。Choudhury等[3]通過研究Amazon用戶的語言風格和網絡行為,發現抑郁用戶社會活動少,消極情感更為嚴重,對人際關系和藥物的使用更為擔心,同時更注重宗教思想的表達。Park等[5]發現抑郁用戶使用消極情感詞和憤怒詞明顯較正常用戶多,用戶在社交網絡上不僅表達抑郁情感也會發布一些非常隱私的信息。
數據源方面,大多數相關研究使用了當前比較流行的社交網絡平臺,如Twitter[2-5,13-15]、Facebook[9-11,19]、論壇[16-17]、新浪微博[1,6-7,18]、人人網[20]等。也有利用用戶的其他上網痕跡,如網關記錄的網頁瀏覽、搜索行為等[21]。而Hiraga[22]使用了來自Yahoo Japan、Livedoor等多個blog平臺的數據。
特征選擇方面,被采用較多的特征主要包括語言特征、行為特征、屬性特征、社交關系特征等。語言特征是指用戶的社交網絡用語表現出來的特征,主要有情感詞、人稱代詞、表情符號的使用等[1,5-7,10,16-18]。行為特征主要有點贊數、轉發數、原創帖子數等[8],研究者認為不同心理健康狀態的用戶網絡行為表現不同。屬性特征是指社交網絡用戶的屬性,主要包括年齡、性別、職業等[2,8,11-12]。社交關系特征是社交網絡中錯綜復雜的社交關系的表現,主要有好友個數、互動頻數、親密度等[7]。由于LIWC詞典(Linguistic Inquiry and Word Count)[注]http: //liwc.wpengine.com/.是從心理學的角度描繪用戶的用詞特點,因此經常被用作心理健康分析的語言特征[5,16-18,23]。除以上幾類特征外,也有文獻直接利用文本中的n-gram、詞性(POS)等信息[22]。
相對其他用戶,社交網絡上的抑郁用戶數量非常少,因此采集的樣本通常是極度不平衡的,大量的研究工作采用高底分組的方法構建平衡訓練樣本。文獻[6]采用隨機抽取的方式,而文獻[24]則采用高低分組的方式,分別抽取了自殺風險最高的和最低的80%的用戶構成自殺用戶數據集。為了在訓練樣本中反映抑郁用戶和正常用戶的真實分布,文獻[21]采用非平衡采樣的方式,其中449個抑郁用戶、279個正常用戶。
分類模型的選擇方面,線性回歸[2,22]、多任務線性回歸[18]、SVM[4,22]、樸素貝葉斯[21]、貝葉斯網絡[6,22]、神經網絡[18,21]、決策樹[6,21]、規則決策表[6]等常用的分類模型大都被使用或比較過。
利用準私密社交網絡文本數據進行抑郁用戶檢測的可行性分析,主要包含六個階段: 數據采集與預處理,候選特征抽取與量化,訓練樣本選擇,相關性分析,檢測模型選擇,檢測效果評估與分析。本節僅介紹前五個階段,最后一階段在下一節介紹。
2.1.1 數據采集
通過用戶填寫抑郁自評問卷得到用戶抑郁狀況,即標簽;同時,收集用戶的QQ和微信賬號并獲取數據使用授權,采集得到用戶準私密社交網絡數據。本研究邀請了江西財經大學6 378位大一新生于2016年10月參與研究,所有參與者完成抑郁測評問卷,同時簽署數據保密協議,獲取參與者QQ空間和微信朋友圈數據(問卷截止日期前一年內的數據)。為了保證數據質量,采取了一系列措施,包括: 采用CES-D[注]流行學研究中心抑郁量表的縮寫.和BDI[注]貝克抑郁量表的縮寫.雙量表形式設計問卷,舍棄兩個量表分值相差過大的用戶;去除問卷得分為零分或滿分的特殊用戶以及問卷完成時間少于4min的用戶;去除無法采集到QQ空間及微信朋友圈數據的用戶。
CES-D和BDI是心理學上常用于測量抑郁癥的抑郁量表,從多個維度綜合考查了用戶的抑郁狀態,同時也是典型的4點李克特度量量表(每道題有四個選項,得分為0~3,對應抑郁程度由無到嚴重)。CES-D量表有20道題,得分區間在[0,60],分值分布區間為: “<=10分”為無抑郁,“11~20分”為可能有抑郁,“21~60分”為肯定有抑郁[25];BDI量表有21道題,得分區間在[0,63],“<=15分”為無抑郁,“16~35分”為輕度抑郁或中度抑郁,“36~63分”為重度抑郁[26]。合并兩個量表的分值分布區間得到問卷分值分布區間[0,123],本文設置正常用戶得分區間為[1,25],輕度抑郁用戶得分區間為[26,55],重度抑郁用戶得分區間為[56,123]。
經過以上篩選,獲取了1 522個有QQ空間數據的有效用戶,710個有微信朋友圈數據的有效用戶,這些用戶心理健康狀況分布如表1所示。本文獲取的準私密社交網絡數據與文獻[21]有較大的不同,數據不平衡問題更嚴重。在QQ空間用戶中,抑郁自評量表反映出正常用戶占60.5%,輕度抑郁用戶占36.7%,重度抑郁用戶占2.8%;而微信用戶中,正常用戶占36.8%,輕度抑郁用戶占61.3%,重度抑郁用戶占1.9%。導致這種分布差異的可能原因有兩個: 一是不同抑郁狀態的用戶在QQ空間和微信朋友圈的使用上有差異;二是由于部分用戶(特別是有重度抑郁傾向的用戶)的QQ空間設置了密碼無法抓取,導致樣本分布的改變。
對微信朋友圈和QQ空間中用戶發布的帖子數的統計顯示,大部分用戶發布帖子數量都在50條以下(截止填寫自評量表前一年內)。
2.1.2 數據預處理
數據預處理主要包括去除和轉換兩個操作。去除內容包括: (1)轉義字符,例如,以“ ”和“ ”的形式出現的空格和換行符;(2)偏僻字符,例如,“卐、※、ぷ”等;(3)英文文本,本研究只針對中文文本。
轉換操作: (1)將表情符轉換為
數據預處理還包括分詞,本文選用的分詞工具是NLPIR漢語分詞系統[注]http://ictclas.nlpir.org/.,它針對微博等數據有優化、有新詞識別能力,比較適合微博、微信、QQ空間上的文本。
當前研究對特征的選取主要有兩種方法: 一是借助心理學家對抑郁用戶社交文本、網絡行為、用戶屬性的統計和分析,歸納出抑郁用戶的特征[6,10];二是通過統計用詞或行為的頻率,根據相關性分析,得出抑郁用戶與正常用戶在用詞或行為上的不同[2]。本文使用了如下候選特征。
(1) 行為特征。行為特征是用戶在社交網絡上所表現出的行為,包括用戶發布帖子、用戶之間的互動等,本文考察的網絡行為特征主要有: 轉載帖子數、原創帖子數、點贊數、用戶在凌晨0點到6點之間發布的帖子數、@符號數、帖子評論數等。
(2) 語言特征。本文考察的語言特征主要來自LIWC,包括表情符號、第一人稱單復數等71個詞類。LIWC中的每個詞類被視為一個特征,特征值為樣本中包含該類詞的帖子數量。
(3) 文本內容特征: 利用用戶在準私密社交網絡上發布的文本來檢測其是否有抑郁傾向的問題,可以視為文本分類的問題,因此用于文本分類的特征可以被借鑒。本文在實驗中考察了以下特征:
BagofWords(BOW,或1-gram): 以用戶發布的文本中全部的詞為特征,以詞的TFIDF值為權重。
主題(Topics): 對數據集進行主題分析,以用戶發布的文本的主題分布為特征。本文利用Gensim工具[注]http://radimrehurek.com/gensim/.中的LDA模型進行主題分析。
詞向量(Word2vect): 將用戶發布的文本中的詞轉換為詞向量,并將文本中全部詞的詞向量平均值作為特征。本文利用Gensim工具,在維基百科數據上進行訓練,詞向量的維度設置為400。
對行為特征和語言特征采用了三種量化方式,以探討不同的量化方式對檢測效果的影響。根據相關工作中的研究結果,抑郁用戶和正常用戶在社交網絡上的行為和詞匯的使用上是有區別的,這種區別可以通過行為或詞匯的使用頻次、頻率的差異來度量。
頻次(TF,TermFrequency)。對語言特征,統計某用戶發布的全部帖子中包含第j類特征詞的帖子總條數。例如,對于第一人稱單數,統計包含第一人稱單數的帖子總條數。對行為特征,統計用戶帖子中包含或具有該行為特征的帖子總條數,例如,統計點贊數不為0(被點贊過)的帖子的總條數,如式(1)所示。
(1)
式(1)中,di是用戶發布的第i條帖子,wj是第j類特征詞,n是該用戶發布的帖子總數量。
歸一化頻率(NTF,NormalizedTF): 把某用戶第j類特征發生的頻次轉換為頻率,即映射到[0,1]之間,如式(2)所示。
式(2)中,TFj是某用戶發布的包含第j類特征的帖子數量(頻次),n是該用戶發布的貼子總數。
Z-Score標準化頻率(ZTF,Z-ScorenormalizedTF): 對全部用戶某一特征的歸一化頻率進行Z分值標準化,Z分值標準化如式(3)所示。
式(3)中,NTFj是式(2)所計算的歸一化頻率,μ和σ是NTFj在全部用戶上的平均值和標準差。
相對正常用戶,社交網絡上的抑郁用戶數量非常少,因此采集的樣本通常是極度不平衡的,如表1所示。大量的研究工作采用隨機選擇或利用高底分組的方法構建平衡訓練樣本。本文對是否需要構建以及如何構建平衡樣本進行探討。
在數據采集階段,用戶被分成了三組: 正常組,輕度抑郁組,重度抑郁組。實驗階段采用三種不同的樣本選擇方式來構建數據集。
(1) 非平衡高低分組樣本(UHLSG,unbalance high/low scores grouping): 選取表1中所有的正常用戶組和所有的重度抑郁用戶組的數據,構成數據集。
(2) 平衡高低分組樣本(BHLSG,balance high/low scores grouping): 由于重度抑郁用戶數量與正常用戶數量差異巨大,因此,為構建平衡樣本,根據抑郁問卷得分由低到高(分值越高,抑郁越嚴重)選取表1中與重度抑郁用戶組人數相同的正常用戶,與重度抑郁用戶組一起構成數據集。
(3)離散化高低分組樣本(DHLSG,discretized high/low scores grouping): 參照文獻[20]對用戶抑郁問卷得分由低到高進行排序,通過式(4)對用戶進行離散化:
其中,E(x)代表所有用戶抑郁問卷自評得分的平均值,σ(x)代表所有用戶問卷得分的標準差。將抑郁問卷分值的區間[1,123]劃分為三段,分值介于[1,α]的用戶為低分組用戶,分值介于[β,123]的用戶為高分組用戶,數據集由低分組用戶與高分組用戶構成。式(4)的實質是找分值有顯著差異的樣本。
本文對QQ空間數據集(簡稱QD)和微信朋友圈數據集(簡稱WD)都進行了如上三種樣本選擇,得到的樣本數量如表2所示。其中,低分組或正常組用戶被貼上normal或“+”標簽,高分組或嚴重抑郁組用戶被貼上depressed或“-”標簽。微信數據集因重度抑郁人數只有14人,樣本太少,實驗中放棄使用相應的平衡高低分組的樣本采樣方法。
由于文本內容特征中的主題特征Topics和詞向量特征Word2Vect是基于數據集分析的結果,不依賴于某個具體的詞或詞類,因此,相關性分析只在行為特征和語言特征兩類上開展。在QQ空間和微信朋友圈數據集上各得到78個語言和行為特征,但是并不是所有的特征都是與抑郁相關的。因此,本文通過分析各特征值與抑郁自評量表得分之間的相關性,選擇相關性較高且顯著的特征用于分類模型中。本文假設所有特征的取值服從正態分布,采用皮爾遜相關系數分析特征值與用戶抑郁自評量表得分之間的相關性。
2.2節中介紹了對QQ空間數據集和微信朋友圈數據集上的候選特征的三種特征量化方法,本文在三種不同的候選特征量化方法上分別進行相關性分析和顯著性分析。相關性分析結果顯示,選擇頻次TF量化方法時,兩個數據集上的各候選特征與抑郁自評量表得分的相關性都小于0.1,且相關性不顯著(顯著水平均遠大于0.05)。因此,本文后續實驗只考慮除頻次TF量化方法以外的其他兩種候選特征量化方法。本文選取顯著水平小于0.05的特征,即該特征有95%以上的可能性與用戶的抑郁自評量表得分是相關的。由于篩選后的特征主要為來自LIWC的語言特征,因此統稱它們為LIWC特征。
表3是在QQ空間數據集QD_BHLSG上通過相關性分析篩選得到的特征,特征量化方法為Z-Score方法。包括微信朋友圈數據集在內的不同數據集、不同特征量化方法上的特征選擇過程類似,選擇結果不再贅述。
表3 QD_BHLSG數據集上特征選擇結果(Z-Score量化)
續表
在檢測模型上,選擇了相關工作中分類效果較好的模型,同時也對比了其他具有代表性的分類模型,包括Na?ve Bayes、LibSVM、SMO、Voted Perceptron、SGD(Stochastic Gradient Descent),其中Na?ve Bayes、LibSVM、SMO、Voted Perceptron模型來自Weka,SGD (Stochastic Gradient Descent)模型來自Python scikit-learn,模型參數基于網格搜索法進行設置。
在QQ空間數據和微信朋友圈數據上均進行了同樣的實驗,限于篇幅,重點對QQ空間數據集上的實驗結果進行分析,同時也對微信數據集上的一些有趣的結果進行說明。
選用的評價指標有精確率P、召回率R、F1值,評測得分為十折交叉驗證的結果。實驗結果中,P-、R-和F-分別表示對抑郁用戶分類的精確率、召回率和F1值;P+、R+和F+分別表示對正常用戶分類的精確率、召回率和F1值。P±、R±和F±表示相應指標在兩類用戶上的加權平均,如式(5)所示。
式(5)中,X表示P、R或F,Per+和Per-表示正常用戶和抑郁用戶的比例。
Z-Score標準化是文獻中通常采用的一種特征量化方法[21],也是在本文的實驗中表現較好的特征量化方法,因此,在考察樣本選擇對抑郁用戶檢測的影響時,采用Z-Score標準化方法(ZTF)對特征進行量化,分類器用到的特征為LIWC特征。表4是不同的樣本選擇方法在分類器為LibSVM、VotedPerceptron、NaiveBayes、SMO和SGD上的表現。
表4中的實驗結果顯示: 總體上,非平衡高低分組樣本QD_UHLSG效果最差,平衡高低分組樣本QD_BHLSG比離散化高低分組樣本QD_DHLSG效果要好。在非平衡高低分組樣本QD_UHLSG上,P±、R±、F±均達到了0.9以上,然而P-、R-、F-卻非常小,表明在QD_UHLSG數據集上構建的模型無法識別抑郁用戶,將幾乎全部的抑郁用戶都識別成了正常用戶,原因是QD_UHLSG是一個極度不均衡的數據集,正常用戶921個,抑郁用戶42個,而本文所選擇的模型沒有處理樣本的不均衡問題。
表4 樣本選擇對抑郁用戶檢測的影響(特征: LIWC;特征量化方法: ZTF)
在平衡高低分組數據集QD_BHLSG上,大部分模型的評測分值均大于其在離散化高低分組數據集QD_DHLSG上的分值(Naive Bayes分類器上的R-稍小),表明平衡高低分組樣本選擇效果比離散化高低分組樣本選擇效果要好。對比QD_BHLSG數據集和DQ_DHLSG數據集上的實驗結果,如果僅從高低分組數據集的角度考慮,使用抑郁自評得分越極端的用戶,所訓練出的模型評測結果越優良。原因是,相對QD_DHLSG數據集(正負樣本各213個),QD_BHLSG數據集上樣本更少,正負樣本各42個,分值分布更極端,用戶更集中,抑郁特征更突出、更顯著,而離散化高低分組樣本的高分組中同時包含嚴重抑郁用戶和輕度抑郁用戶。
使用歸一化的特征量化方法NTF時,得到的實驗結論與ZTF上的結論是一致的。
表5顯示了在QD_BHLSG數據集上,選擇不同的特征量化方法對抑郁用戶檢測的影響。可以看出,使用Z-Score標準化頻率ZTF對特征進行量化比使用歸一化頻率NTF效果好。使用ZTF特征量化方法時,P±、R±、R-、F±和F-在所有分類模型上均大于或等于NTF方法,特別是LibSVM和VotedPerceptron兩個分類模型在R-上表現明顯。一個可能的原因是,由于QD_BHLSG數據集樣本數量有限,該數據集上的特征值波動較大,且特征值的分布與其實際分布有較大差異,ZTF量化方法降低了這種波動,而NTF卻沒有。
表5 特征量化方法對抑郁用戶檢測的影響(特征: LIWC;數據集: QD_BHLSG)
表4和表5列出了五種分類模型在不同數據集和不同特征量化時的表現??傮w上看,SGD分類器的性能表現更突出,其在QD_BHLSG數據集和ZTF特征量化時表現達到最佳,F±和F-的值分別為0.638和0.681。但表4和表5同時也顯示,在不同的數據集上、采用不同的特征量化方法時,不同的分類模型的表現并不完全一致,例如,在QD_DHLSG數據集上使用ZTF特征量化時,LibSVM較其他模型要好(表4)。
以上實驗所使用的特征主要是語言學特征,即LIWC特征。本節討論其他文本特征,包括BOW、Topics、Word2Vect。根據3.3節可知,在QQ空間數據集上,使用平衡高低分組的樣本選擇方法、Z-score標準化的特征量化方法,以及SGD分類模型,得到的檢測效果較好,因此本節的實驗延用這些方法。Z-score標準化還可以應對不同類型特征取值范圍的差異給檢測模型帶來的挑戰。
表6是在QD_BHLSG數據集上,SGD分類器在LIWC、BOW、Topics、Word2Vect上的檢測效果。其中Topics特征上,主題數設置為25,主題數對檢測效果的影響如圖1所示。
圖1 主題數對檢測模型的影響
實驗結果表明,相對于BOW和Word2Vect,LIWC特征的效果較好。原因有兩個方面,一是LIWC詞典本身是從心理學的角度對文本內容進行統計分析,二是2.4節中通過相關性分析保留了與抑郁自評結果相關性較高的詞類,減少了潛在的噪聲干擾。在LIWC、BOW和Word2Vect這三類特征中,詞袋特征BOW表現最差,這與其在其他文本分類問題中的表現類似。
相對于LIWC、BOW和Word2Vect,主題特征Topics的表現更佳,其F值達到0.753,而對抑郁用戶的檢測精確率P-達到0.813。主題特征考慮了上下文之間的語義關聯,從更深層次挖掘出了文本之間的語義關聯性,取得較好的效果。然而圖1也讓我們也看到,主題個數的選擇對于檢測模型有較大的影響。
比較意外的是,當在主題特征Topics的基礎上增加其他特征時,檢測的效果反而下降。但從另一個角度看,在LIWC、BOW和Word2Vect這三類特征的基礎上,增加主題特征Topics后,檢測效果都有顯著提高,這也證明了主題特征在抑郁用戶檢測中的重要作用。
表6 SGD分類器在文本內容特征上的效果(數據集: QD_BHLSG;特征量化方法: ZTF)
為進一步分析在準私密社交網絡數據上進行抑郁用戶檢測的可行性,本節介紹相關文獻中利用Twitter、微博、Blog、網關日志等數據檢測抑郁用戶的效果。
文獻[3]以476個用戶的Twitter數據作為數據集,其中抑郁用戶171個,正常用戶305個,定義了六種抑郁行為衡量方法,包括engagement、ego-network、emotion、linguistic style、depression language、demographics,通過相關性分析篩選得到與抑郁最相關的特征,選擇SVM為檢測模型,得到的最好結果中,精確率和召回率分別為0.742和0.629,顯著低于本文的0.753和0.738。
文獻[6]以中文新浪微博數據為數據源,在行為特征、交互特征和語言特征的基礎上,引入微博的情感特征,并借助心理學家對數據的觀察分析結果,利用Bayes、Trees、Rules等幾類模型進行抑郁用戶檢測,在抑郁和正常用戶各90個的數據集上,F值的最好效果為0.85。文獻[7]是在文獻[6]的基礎上,考慮社會關系(鏈接)特征后,檢測正確率達到0.95。進一步分析發現,文獻[6]和文獻[7]取得較好效果主要有以下兩個原因。首先,在數據集的采集上,除采用用戶自評量表外,還配合訪談的方式進一步確認用戶的抑郁傾向,較本文只采用自評量表的方式,采集的數據集質量更高,抑郁用戶和正常用戶之間的劃分更清晰,從而使得特征對數據的區分更強。例如,文獻[6]中微博數量特征和情感符數量特征與抑郁自評分值的相關顯著水平達0.002和0.003,遠低于本文表3中的最低值0.018。其次,使用了情感、社會關系等更豐富的特征,并且通過心理學家輔助特征的篩選。
文獻[21]以用戶的網關日志為數據源,把728個用戶分為449個抑郁用戶和279個正常用戶,組成訓練集,通過聚類和離散傅里葉變換分別得到了聚類特征和頻率特征,對抑郁用戶檢測的精確率和召回率最高分別為0.756和0.623,相應的F值為0.683,低于本文的F最高值0.703。
文獻[22]針對包括49個抑郁用戶和59個正常用戶的日語博客數據,利用character n-grams、token n-grams、lemmas(詞的原形)、詞性等特征,通過特征篩選后,用Na?ve Bayes、SVM、Logistic回歸等模型分類,得到最優結果的準確率達0.95,而最優結果所采用的特征僅為來自動詞和副詞兩種詞性且詞干化后的2007個詞,分類模型為Na?ve Bayes。文獻[22]分類效果較好,也與其數據集構建有密切關系,其中抑郁用戶和正常用戶的識別主要依據用戶在博客中是否用了“depression(抑郁”一詞并透露了他們是抑郁患者。盡管與“depression”主題相關的博客都在后來的實驗中被棄用,但與之相關的詞匯仍然會給分類器提供較好的指示。該數據集的不足在于它沒有包含那些沒在博客中用“depression”一詞透露其是抑郁患者的用戶,而這部分用戶相對更難識別,并且檢測出那些潛在的、未被確診的抑郁患者較確診的抑郁患者有更重要的意義。
與上述文獻相比,本文的優勢在于: (1)對抑郁用戶和非抑郁用戶檢測的平均F值達到0.734,而對抑郁用戶的檢測精確率P-達到0.813,優于文獻[3]和文獻[21];(2)不需要心理學家參與構建數據集和特征選擇,僅使用社會網絡用戶的自評量表,對數據質量的要求較文獻[6-7]和文獻[22]更低;(3)數據含蓋未確診的潛在抑郁用戶,較文獻[22]更接近真實數據。
從特征量化、訓練樣本選擇、模型選擇、文本內容特征四個角度考察了利用QQ空間這種準私密社交網絡數據進行抑郁用戶檢測的可行性。對比了常用的特征量化方式: 頻次、歸一化頻率、Z-Score標準化;對比了常用的訓練樣本選擇方式: 平衡高低分組方法、非平衡高低分組方法、離散化高低分組方法;對比了LibSVM、Voted Perceptron、Na?ve Bayes、SGD等分類模型。實驗發現: Z-Score標準化比其他兩種特征量化方法要好;平衡高低分組方法較其他樣本選擇方法要好;檢測模型則比較依賴于數據集、樣本選擇、特征及其量化方法。
實驗還分析了在平衡樣本上,不同的文本內容特征對抑郁用戶檢測的影響。結果發現,主題特征對抑郁用戶的檢測效果最好,其他特征如語言特征LIWC、詞袋BOW、詞向量Word2Vect等,在加上主題特征后對檢測效果有明顯改善。最后還對比分析了相關文獻中基于Twitter、微博、Blog、網關日志等數據檢測抑郁用戶的效果,明確了本文的優勢,進一步說明了使用準私密社交網絡數據檢測抑郁用戶是可行的。
從實驗以及與相關工作的對比可以看出,數據集、特征和檢測模型都是基于社會網絡數據的抑郁用戶檢測的關鍵,不同文獻在這幾方面的差異也較大,可比性不強。另外,已有工作中各種高達0.8以上的準確率都是在平衡樣本上得到的,與抑郁用戶的實際分布差異較大,也意味著在實際應用中還會面臨諸多挑戰。最后,采用自評量表的方式獲取的樣本受用戶填寫量表時的心情影響較大,而確診抑郁等心理問題需要更長期、更專業的觀察,因此,樣本采集需要結合心理醫生的診斷才更為準確。