王佳 張子杰 羅海吉 劉英豪 陳煒



[摘 要]隨著信息分享、交流、傳播等各種網絡社交行為的經常化,對泛在網絡中的大學生情緒信息進行分析及研究,有利于開展大學生群體的實時情緒監測、輿情發現、輿論引導等工作。使用集搜客網絡爬蟲軟件挖掘2017年7月至2018年7月百度貼吧中的高校貼吧的文本信息,獲得289萬份語料文本,經去噪、去重后獲得114萬份文本,基于基本情緒及大學生特有情緒分為“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類大學生情緒類別,基于詞頻統計數據確定各情緒類別核心詞,并使用基于Word2vec工具進行訓練,構建基于泛在網絡的大學生情緒語料庫,為大學生領域的情緒聚類研究提供支撐。
[關鍵詞]泛在網絡;大學生;情緒語料庫
[中圖分類號] G645 [文獻標識碼] A [文章編號] 2095-3437(2020)01-0189-03
隨著學業壓力、就業壓力的增大,大學生心理問題凸顯,各大高校紛紛尋求對策,圍繞心理健康教育、第二課堂活動、心理狀況篩查等方面開展了大量的工作,并取得了不少成績。可是目前大學生的心理健康測試普遍存在主觀性強、隱藏性強、準確性不夠的特點,這給心理危機事件的預防和處理帶來了困難。
新媒體環境下,泛在網絡已日益成為反映大學生學習、生活真實情緒的平臺。大學生不只能夠在各種網絡社交平臺中自由分享實時心情、動態等個人信息,還可以及時對他人提供的信息進行反饋和評論。泛在網絡中海量文本數據真實、全面、實時、互動的特點,為分析大學生群體的情緒提供了便利條件。
一、研究現狀
為了加強對文本的情感挖掘,國內學者先后研發了知網Hownet情感詞典、清華大學李軍中文褒貶義詞詞典、大連理工大學情感詞匯本體詞典等,并基于微博,通過計算情感詞的情緒權值[1]、反饋“異常情感”[2]、無監督情感分類、判斷情感傾向類別[3]進行了文本情緒挖掘的優化,將深度學習的方法引入文本情感識別工作中,用句法依賴規則和詞性特征[4]、Word2vec[5]、HMM[6-8]、卷積神經網絡[9]構建模型,預測情感強度。
相較于情感的內隱性、持續性等特點,情緒在第一時間產生,往往是伴隨著生理喚醒和外部表現的主觀體驗[10]。大學生情緒具有體驗豐富、波動強烈、反應敏感等特點,并隨著學業、就業等壓力的增大而日益凸顯。對大學生的實時情緒進行動態挖掘和分析,對于大學生心理健康教育有著非常重要的意義。
本文擬通過自然語言處理方法,對泛在網絡環境中的大學生文本進行情緒詞語采集和挖掘,并通過深度學習的工具方法,按照情緒類別和權值等性質排序,初步建立大學生情緒語料庫。
二、WEB文本數據采集
隨著互聯網的普及,大學生在泛在網絡環境中不斷發生大量的檢索、瀏覽、下載等行為,并在互聯網社交平臺中留下大量的數據痕跡[11]。相較于QQ、微信的隱私性以及微博用戶的不確定性,全球最大的中文社區、注冊用戶量已達到10億的百度貼吧具有明確的高校主題、準確的社區分類以及深度互動等特點,為大學生情緒文本的采集提供了便利條件。
2017年7月至2018年7月,課題組通過網絡爬蟲工具即集搜客,以“百度貼吧 高校”為關鍵詞進行搜索,連續采集600個高校貼吧中的主題帖以及跟帖數據,獲取共計289萬份貼吧文本數據,經去噪、去重處理后獲得114萬份文本數據。
三、文本預處理
大學生的網絡文本具有文本量大、文本長度短、表達不規范[12]等特點,這給情緒的準確識別帶來很大的困難。課題組基于以上特征,結合現有的分詞軟件功能,設立分詞預處理比較原則如下:①文本提取的完整性,文本保留得越完整越好。②按照最少切分原則,比較詞元個數,數量越少越好。③比較詞長平均長度,長度越平均越好。
課題組在百度貼吧中隨機抽取一份大學生文本,其原文如下:“畢設讓我要瘋了:有沒有哪位大神會m序列的特性分析用C語言編出來,我要瘋了,這都是什么鬼,完全是毫無頭緒。”課題組基于天據英眼、ROSTCM、IKAnalyzer、Paoding、jieba這5種常用的開源分詞工具對此進行分詞處理,結果如表1。
按照以上原則來分析會發現,IKAnalyzer、Paoding、jieba5都存在自定義擴展詞,天據英眼、IKAnalyzer的分詞結果中詞數量相對較多,ROSTCM6在文本完整性、詞元數量、詞平均長度方面均具有較好的效果,故將該工具作為文中大學生文本的預處理工具。
課題組將114萬份貼吧文本數據進行分詞、去噪,剔除12770項重復詞語,刪除出現頻率低于2的詞匯,確定42833個詞語作為大學生基本詞匯。
四、情緒分類及核心詞的確定
20世紀中葉,學者們基于面部表情等身體體征對情緒進行了界定和分類,取得了不少成果。隨著互聯網的發展,海量互聯網文本信息的有效獲取以及數據挖掘技術和分析技術的不斷提升,學者們逐步轉向對語言的情緒分類研究。
通過比較現有文本情緒分類的基本情緒分類,尤其是針對網絡微博的情緒分類,確定“高興、憤怒、悲傷、害怕、驚奇”5種文本基本情緒類別。結合大學生學習、經濟、就業、人際交往等應激源元素以及引發自殺的直接原因即心理痛苦[13],添加“痛苦”類情緒,建立“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類大學生情緒類別。借助武漢大學開源的ROSTCM6軟件對42833個詞語進行大學生基本詞匯詞頻統計和人工分類后,將各類情緒類別高頻詞按照數量高低統計如表3所示。
按照以上統計數據,確定詞頻數最大的高頻詞為該類情緒的核心詞。
五、語料訓練
(一)Word2vec模型選擇
Word2vec是google公司2013年推出的一款用于自然語言處理中詞向量訓練的開源軟件工具,通過計算機訓練給定文本的輸入和輸出,并不斷修正這個神經網絡中的參數,得到詞向量。
Word2vec有2種訓練框架: ①在給定上下文的情況下,詞 w的概率CBOW(continuous bag-of-words),其特點是訓練速度快,但窗口范圍外的詞匯關系難以正確被模型所捕獲。②在給定詞w的情況下,其上下文概率的 Skip-gram (continuous skip-gram) ,其特點是低頻詞的訓練效果較好[14]。考慮到泛在網絡論壇文本中新詞及低頻詞大量存在,因此選擇Skip-gram模型進行訓練。
(二)Word2vec的工程目錄
Word2vec項目中與訓練詞向量相關的語言文件主要是Learn.java、Word2vec.Java 2個文件,其中,Learn.java文件中包含了特征的訓練、訓練的模型、詞頻統計的實現,Word2vec.java包含了模型的加載以及相似度的計算。
(三)訓練參數比較
1.相同詞匯在不同數據量的相關性數據比較
相同詞匯在不同的數據量下,數據量的增大以及首次出現的新詞,導致相同詞匯與種子詞之間相關性的非線性變化,其結果如表4所示。
2.相同詞匯在不同窗口條件下的相關性數據比較
經過對去噪、去重等處理后的114萬份語料文本進行實驗后,在相同詞匯下的不同窗口中可以看出,在窗口大小為10的時候其相似度更大,而且在人工挑選時通過去噪、去重處理的無意義詞匯最少,其結果如表5所示。
獲取適用于大學生情緒詞特征提取的方法:在窗口大小為10的情況下選擇大樣本分析。
(四)實驗結果
114萬份語料文本經Word2vec訓練后,以“悲傷”為悲傷情緒的核心詞得到情緒詞362個,以“哭”為痛苦情緒的核心詞得到情緒詞272個,以“罵”為憤怒情緒的核心詞得到情緒詞304個,以“打”為恐懼情緒的核心詞得到情緒詞338個,以“酷”為驚奇情緒的核心詞得到情緒詞322個,以“好”為高興情緒的核心詞得到情緒詞302個。
通過各詞語與各類情緒核心詞的相似度計算,建立大學生情緒詞典語料庫如表6所示。
六、展望
本文通過挖掘百度貼吧中的高校大學生文本,并基于Word2vec方法初步建立具有針對性的大學生情緒語料庫。接下來,課題組將拓展泛在網絡中的大學生文本數據來源,繼續挖掘文本數據,并通過驗證和實驗進一步提升分詞效率,增強情緒值的準確性,不斷完善和更新語料庫,為更有效地開展大學生情緒聚類分析提供支撐和便利,從而為大學生心理健康教育和管理提供有效借鑒。
[ 參 考 文 獻 ]
[1] 陽愛民,林江豪,周詠梅.中文文本情感詞典構建方法[J].計算機科學與探索,2013(11):1033-1039.
[2] 孫波,陳玖冰,劉永娜.大數據背景下的學生情感詞典構建方法[J].北京師范大學學報(自然科學版),2015(4):358-361.
[3] 柳位平,朱艷輝,栗春亮,等.中文基礎情感詞詞典構建方法研究[J].計算機應用,2009(10):2875-2877.
[4] 鄧淑卿,李玩偉,徐健.基于句法依賴規則和詞性特征的情感詞識別研究[J].情報理論與實踐,2018(5):137-142.
[5] 楊小平,張中夏,王良,等.基于Word2Vec的情感詞典自動構建與優化[J].計算機科學,2017(1):42-47+74.
[6] 谷學靜.基于人工心理的HMM情感建模方法及虛擬人技術研究[D].北京:北京科技大學,2003.
[7] 張謙,高章敏,劉嘉勇.基于word2vec的微博短文本分類研究[J].信息網絡安全,2017(1):57-62.
[8] 李銳,張謙,劉嘉勇.基于加權 word2vec的微博情感分析[J].通信技術,2017(3):502-506.
[9] 張志華.基于深度學習的情感詞向量及文本情感分析的研究[D].上海:華東師范大學,2016.
[10] 傅小蘭.情緒心理學[M].上海:華東師范大學出版社,2016:5.
[11] 劉林.面向論壇文本的大學生情緒識別研究[D].武漢:華中師范大學,2016.
[12] 楊佳能,陽愛民,周詠梅.基于語義分析的中文微博情感分類方法[J].山東大學學報(理學版),2014(11):14-21+30.
[13] SHNEIDMAN E S. Commentary: Suicide as Psychache[J].Journal of Nervous & Mental Disease, 1993(3): 145-147.
[14] 王仁武,陳川寶,孟現茹.基于詞向量擴展的學術資源語義檢索技術[J].圖書情報工作,2018(19):111-119.
[責任編輯:龐丹丹]