◆鄭敬華 許成喜 汪松鶴
(電子工程學院 安徽 230037)
網絡空間用戶心理健康風險研究
◆鄭敬華 許成喜 汪松鶴
(電子工程學院 安徽 230037)
心理健康缺陷容易造成心理障礙甚至決策失誤,因此在網絡空間認知域領域的對抗中,能夠直接影響到戰爭的勝負,所以預測人的心理健康成為對抗雙方的重中之重。本文從預測流程、特征提取和預測建模三個方面綜述了國內外在互聯網絡用戶心理健康預測方面進行的研究,指出了研究中存在的問題,提出一些可能的研究思路和方法。最后,分析了網絡空間中用戶心理健康可能帶來的風險。
網絡空間;心理健康;風險;預測
網絡空間已經由物理域、信息域跨越到了認知域領域,網絡空間認知域的主體是人,換句話說,網絡空間安全的關鍵在于人,網絡攻防的目標也是人。心理戰正是以認知域為主戰場,運用多種對抗手段影響對手決策和意志,以控制認知域戰場主導權為主要目的的特殊作戰形式。為了取得認知域戰場的主導權,如何實現預測人的心理特征成為重中之重。分析對方心理特征的缺陷,針對性的實施心理干預,促使其心理狀態發生變化,導致心理、情緒甚至意識的改變,以至于產生決策失敗,從而為自己取得戰爭的勝利奠定堅實的基礎。
在互聯網絡成為人們依賴的同時,其對人們心理的控制和影響也更加凸顯。因此基于互聯網絡數據預測用戶的心理特征成為一種新的方式。心理特征有很多種類,本文主要研究基于互聯網絡數據預測用戶的心理健康。
心理是用于多方面刻畫一個人內心特征的屬性,它反映個人的社會存在,是個人行為的動因,并且主導個人的行為。也就是說,人的外在行為與內在的心理因素是息息相關的,因此不同的心理因素造成了外在行為的不同,這就是行為的一致性。基于行為的一致性,隨著社會計算技術的發展、互聯網的盛行,使得基于互聯網預測個體的心理特征成為可能。同時網上行為的可記錄、易計算等特點使得這一研究變得非常方便,從而成為研究熱點。
心理健康是人的健康不可分割的重要方面,是一種持續的心理情況,描述個體在各種環境中的一種高效且滿意的心理狀態,包括情緒健康、意志健全及行為協調等多個方面的內容。世界衛生組織將心理健康定義為[1]:個體的心理活動處于正常狀態,包括智力正常、善于協調和控制情緒、較強的意志和品質、人際關系和諧、保持人格的完整和健康等。
傳統心理健康的測量都是通過自陳量表的方式獲得的,常用的量表對抑郁和焦慮的預測較多,如流調用抑郁自評量表(Center for Epidemiological survey,depreesionscale,CES-D)、貝克抑郁自評量表(Beek depression rating scale,CES-D)、醫院焦慮抑郁量表(Hospital anxiety and depression scale ,HAD)、PHI(Psychological Health Inventory)七維度心理健康量表(包括功能紊亂、抑郁、焦慮、病態人格、多疑、幻想、狂躁)、90項癥狀自評量表(SCL-90)、生活事件量表(LES)以及青少年心理適應性量表等等,每種量表都有自己的側重點。如貝克抑郁自評量表是測量抑郁嚴重程度最廣泛的工具之一。
心理學指出個體周邊環境中能夠包含一些可以預測其心理健康狀況的信息[2],而互聯網絡已經成為現實社會對應的線上虛擬社會,個體的周邊環境,也是行為總體的一部分,同時通過網絡數據對心理健康的預測在國內外有著深厚的理論基礎和實踐經驗,因此借助網絡數據預測個體的心理健康是完全可行的。國內外不少學者已經展開了網絡數據和心理健康之間關系的研究,也取得了一些成果[3]。
Jim等人[4]旨在研究神經質和輕微的精神障礙之間的關聯模式。Campbell A J.等人[5]研究發現網癮與互聯網使用時間和頻率有關系。也有研究者研究發現網絡成癮與焦慮呈顯著正相關[6][8]。Peng W.等人[7]發現對網絡游戲的依賴與抑郁有著很明顯的正相關。管理等人[9]試圖通過微博語言特征與個體的自殺性行為之間的關系,識別出自殺可能性高的個體。最近也有研究表明通過社交網絡用戶發布的語言能夠識別出具有某種心理健康問題的個體,如自殺傾向、傷害他人傾向和精神分裂等[10-11]。Munmum D.等[12]研究表明語言特征可以用來預測用戶的抑郁癥和是否有自殺念頭。Mrinal K.等[13]第一次通過社交網絡研究推特效應,即自殺模仿效應。Danielle M.等[14]從數據挖掘的角度,研究了Twitter用戶抑郁癥分類的數據特征選擇問題。
研究者基于互聯網絡數據預測用戶心理健康的研究已經取得了一些成果,從開始的統計某種網絡特征與某種心理健康之間的關系,到現在的基于互聯網絡數據,運用機器學習方法進行預測建模,在這一領域取得了很大的進展。基于互聯網絡預測用戶心理健康的整個流程如圖1所示。

圖1 互聯網絡用戶心理健康預測流程
第一步,數據獲取。包括兩種數據的獲取,用戶的網絡數據和心理健康標簽數據。
(1)網絡數據的獲取一般是通過網絡爬蟲或者是網站提供的API(Application Programming Interface ,API)獲取。許多網絡都提供開放的API接口或者函數,允許第三方程序進行訪問。如新浪微博提供的開放平臺API;人人網提供開放平臺,并使用OAuth2.0作為驗證與授權協議,允許第三方應用在用戶授權的情況下訪問網站存儲的信息。
(2)心理健康標簽數據,基本上都是通過讓被試者填寫問卷調查獲得。選取網絡數據中有效數據的用戶,通過讓其回答心理健康量表,評價其心理健康狀況的得分。
第二步,數據預處理。
(1)噪聲處理。包括兩種噪聲的處理,一種是網絡用戶的噪音處理:將發布內容都是轉發的用戶刪除,將內容僅僅是超鏈接的用戶刪除,將不常更新的用戶刪除。第二種是用戶心理健康標簽數據的噪音處理:將問卷答案為空的、填寫答案只有一種的、填寫答案有規律的問卷刪除,選擇有效的問卷獲取標簽數據。
(2)規范化。將非數值型數據轉化為數值型,如將個人描述轉化為長度數值;將男女信息轉化為0和1數值;將地域信息規范為特定的數值標識等。
(3)歸一化。一般是通過函數將變化幅度較大的特征約束在某一范圍內,如(0,1)區間。
(4)文本數據特征處理。通過自然語言處理等方法提取文本信息,如提取第一人稱使用頻率、第二人稱使用頻率、@數、情緒詞使用頻率等特征。或者通過語義分析提取主題,并通過心理健康語料庫進行。
(5)語義分析。提取文本內容的情感、觀點、意見等主題信息,首先經過分詞、噪音處理、根據心理健康語料(如心理健康詞典Linguistic Inquiry and Word Count, LIWC)生成主題特征。
第三步,特征提取。提取與心理健康相關的數據特征,通過特征提取、特征選擇,確定用來創建預測模型的數據。
第四步,創建心理健康預測模型。主要通過機器學習算法實現,大部分采用傳統的有監督分類或回歸算法。
第五步,驗證模型的正確性并修正模型。通常采用預測相關性指標、預測誤差指標和分類準確性指標進行驗證。
基于互聯網絡對用戶心理健康進行預測,大部分研究是從用戶在網絡發布的文本信息來提取特征,包括語言特征及語義特征。也有一部分學者通過用戶社交網絡中微博數據進行預測。心理健康預測研究中使用的數據及算法如表1所示。
微博數據包括性別、年齡、朋友數、粉絲數、圖像信息等。Wald R等人[15]通過Twitter用戶的微博信息和文本信息,預測用戶精神變態癥狀。白朔天等人[16]通過提取新浪微博的微博特征預測用戶的抑郁和焦慮癥狀。Ferwerda B.等[17]通過采集 113名Instagram用戶的22398副照片信息,并提取圖片數據特征,如色調、亮度、飽和度等,最終驗證圖片的數據特征與人格特征之間是存在關聯的,如神經質與圖片的亮度相關聯,宜人性與圖片中黑暗與光明區域的多少相關聯。
語言學中很多研究證明,不同心理的人使用語言時的風格是不相同的[15][10][11],也就是說通過用戶在互聯網絡發表的一些文本數據,如微博內容、回復內容、自我描述等也能夠預測用戶的心理特征。另外也有學者通過提取用戶在互聯網絡中文本信息提取語義特征,分析出用戶的情感、觀點、意見以及人格魅力等信息,然后對用戶的心理健康進行預測分析。

表1 心理健康預測研究中使用的數據及算法
Randall W等[15][19]利用Twitter用戶的靜態信息和文本信息,通過構建邏輯回歸、多層感知器、隨機森林和支持向量機等四種分類模型來預測具備精神變態傾向的用戶;朱廷劭等[18]通過分析用戶網絡行為數據,基于PHI(Psychological Health Inventory)七維度心理健康量表,利用決策樹創建心理健康狀況預測模型,平均預測正確率為70%左右;白朔天[16]等采用多任務回歸學習預測社交網絡用戶的抑郁和焦慮兩種心理健康狀況,最終證明心理健康問題可以通過網絡行為反應出來。George G.等[10]使用聚類算法針對Reddit社交數據的語言信息,確定與心理健康相關的語言特征。通過分析不同心理健康問題的subreddits論壇內容(包括發布的帖子和評論內容),分析出16種覆蓋不同心理健康問題的語言特征。Margaret M.等[11]通過Twitter API采集了174位自認為存在精神分裂癥的Twitter用戶的3200個帖子,首先通過LIWC、LDA(LatentDirichlet Allocation)、Brown Cluster、Character Language Models和Perplexity等5種自然語言處理方法挖掘與精神分裂癥相關的語言特征,然后采用支持向量機SVM和最大熵MaxEnt兩種機器學習算法進行分類,其最好分類準確率分別為 82.3%和81.9%。
從表1可以看出,基于互聯網絡預測用戶的心理健康的預測研究,主要依據的還是網絡本身的數據,研究的對象主要是在網絡中發布的語言特征,研究的重點在于數據特征的選取,研究的方法主要是機器學習中的有監督分類算法。大部分研究者僅停留在具有某種心理健康問題的個體在互聯網絡中的語言特征分析上。
基于社交網絡預測用戶心理健康研究屬于跨學科領域的研究,涉及了計算科學、心理學、社會科學等多個學科領域。雖然該領域研究已經取得了很多成果,但是在預測研究方面仍存在著以下兩個問題:
第一,現實中,獲取大量而有效的互聯網絡用戶的標簽數據,是非常困難的,這樣不可避免的造成訓練數據樣本的缺乏。
第二,研究方法僅僅局限于單任務機器學習,即只是對某一種任務(如抑郁)數據及進行訓練,然后學習該任務的相關信息。
對于非常小規模的訓練樣本數據,如果分別訓練每一個任務,不可避免地會造成過擬合現象。同樣,心理健康雖然描述的是一個人不同方面的心理狀況,但是不同維度之間是存在一定關系的。以PHI七維度心理健康指標為例,心理健康指標七維度之間就存在一定的相關性的,如焦慮與抑郁之間,狂躁與功能紊亂之間都存在著正相關。而傳統的單任務機器學習方法,并不能夠充分利用多個任務之間的共享信息。因此可以考慮采取多任務學習方法,建立互聯網絡用戶心理健康預測模型,這就意味著,同時學習多個心理健康任務,不但充分共享了其間的關聯信息,而且也較好地解決了小樣本數據在訓練過程中帶來的過擬合現象,提高了預測精度以及模型的泛化性能。另外,一般來說具備某種心理健康問題(比如焦慮、抑郁等)的用戶,很可能不會再使用社交網絡,同時心理健康是一個逐漸變化的過程,鄰近區間的差異較小,因此研究社交網絡用戶具有某種心理健康問題的傾向性也許更為關鍵,研究通過其互聯網絡行為的演變規律去尋找心理健康的變化。
雖然目前心理健康預測領域的研究還不成熟,并且面臨著各種困難和障礙,但是從社會發展的長期趨勢來看,無論從攻防角度還是安全角度,關鍵的核心仍然是人,因此心理學與計算機科學以及社會科學之間的融合將成為未來的必然發展趨勢。
心理戰已經融入戰爭全程,其地位和作用也日益凸顯,成為影響戰爭全局的重要因素。心理戰中,信息成為了心理殺傷武器,構成了決定戰爭勝負的重要因素,可誘導心理殺傷,并降低戰斗力[20],這里的信息就是我們前面描述的預測互聯網絡用戶心理健康所使用的網絡數據。
2010年的“渦輪”網絡攻擊行動,通過竊取計算機設備信息,匯總形成用戶個人特征描述,提供監控人員決策是否對該用戶進行深入監控,最終成功入侵全球近10萬臺計算機。這足以說明網絡行為能夠真實地反映人的心理,通過分析其網絡行為,預測其心理、生理、觀念甚至意識方面的內容,尋找其心理特征的脆弱性,也就是說將人的意志、信念、思維、心理等作為對抗的目標,從而有針對性地實施網絡空間對抗,如針對性地對其推送能夠引發身心功能障礙的損傷信息,如虛假信息、恐嚇信息、易產生視覺差的圖片信息等,導致其認知域發生變化,從而可能出現意志下降等認知能力問題,決策錯誤等認知判斷問題,以及心理障礙等情緒變化問題,從而贏得勝利,這充分體現了“攻心為上,攻城為下;心戰為上,兵戰為下”的對抗思想。
相反,為了網絡空間安全,我們就要預測我方人員的心理特征,分析其脆弱性,針對性地對其進行干預和引導,彌補心理健康缺陷帶來的風險,避免為對方所利用,從而保護我方網絡空間的安全。
[1] Herrman H,Saxena S,Moodie R. Promoting Mental Health:Concepts,Emerging evidence,Practice:A report of the World Health Organization,Department of Mental Health and Substance Abuse in collaboration with the Victorian Health Promotion Foundation and University of Melboume[M]//World Heath Organization,2005.
[2] Brunswik E. Perception and representative design of psychological experiments[M],1956.
[3] Kosinski M,Stillwell D,Graepel T. Private traits and attributes are predictable from digital records of human behavior[J]//Proceedings of the National Academy of Sciences,2013.
[4] Jim V,Park S,Jone P.Neuroticism life events and mental healrh:evidence for person-environment correlation[J].British Journal of Psychiatry Supplement, 2001.
[5] Campbell A J,Cumming S R,Hughes I.Internet use by the Social Fearful:Addiction or Therapy[J].Cyber Psychology &Behavior,2006.
[6] 羋靜,張玉媛,韓慧,梅翠竹.網絡成癮與非成癮醫學認知狀況比較[J].現代預防醫學,2009.
[7] Peng W,Liu M.Online Gameing Dependency:a preliminary Study in China[J]. Cyberpsychology Behavior & Social Networking,2010.
[8] 張夢菡,趙笑顏,孫易蔓.大學生網絡成癮現狀及其對交往焦慮的影響[J].中國社會醫學雜志,2013.
[9] 管理,郝碧波,程綺瑾,葉兆輝,朱廷劭.不同自殺可能性微博用戶行為和語言特征差異解釋性研究[J].中國公共衛生,2015.
[10] George G.,Anika O.,Tim J H.Richard J D.The Language of Mental Health Problems in Social Media[C]// San Diego,California. Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology, 2016.
[11] Margaret M., KristyH., Glen C. Quantifying the Language of Schizophrenia in Social Media[C]// Denver,Colorado. Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology, 2015.
[12] Munmum D. C., EmreK., Mark D., et al. Discovering Shifts to Suicidal Ideation from Mental Health Content in Social Media[C]// CA USA. In Proceedings of 2016 Special Interest Group on Computer-Human Interaction(SIGCHI), 2016.
[13] MrinalK., MarkD., Glen C.,Munmun D C. Detecting Changes in Suicide Content Manifested in Social Media Following Celebrity Suicides[C]// Cyprus.26th ACM Conference on Hypertext and Social Media, 2015.
[14] Danielle M.,CraigB.,Mike C.Feature Studies to Inform the Classification of Depressive Symptoms from Twitter Data for Population Health[J]. https://arxiv.org/pdf/1701.08229.pdf,2017.
[15] Wald R,Khoshgoftaar T M,Napolitano A. Using twitter content to predict psychopathy[C]//Boca Raton,USA.Proceedings of the 2012 11th International Conference on Machine Learning and Applications,2012.
[16] Bai S T,Hao B B,Li Ang,Nie D,Zhu T S.Depression and anxiety prediction on microblogs[J].Journal of University of Chinese Academy of Sciences,2014.
[17] BruceFerwda.MarkusSchedl,MarkoTkalcic.Predicting Personality Traits with Instagram Pictures[J]. Springer International Publishing,2016.
[18] Tingshao ZYueN, Ang L. Using Decision Tree to Predict Mental Health Status based on Web Behavior[J].Proceedings of the 2011 3rd Symposium on web Socitey. Port Elizabeth, South Africa,2011.
[19] Golbeck J,Robles C,Tuener K.Predicting personality with social media[C]// New York,USA. Proceedings of the 2011 Annual Conference Extended Abstracts on Human Factors in Computing Systems,2011.
[20] 苗丹民,朱霞.心理戰信息損傷的概念與研究[J].心理科學進展,2006.
省部級重大項目(AWS13J003)、國家自然科學基金(61602491)。