白潔 尹明輝 劉偉強
摘要:介紹了一種基于語料庫的群體情感傾向度分析模型,該模型基于傾向性語料庫中的極性詞匯對集合中每一份素材文本進行分詞,統計并計算素材文本中出現的極性詞匯的強度值,得到整篇素材文本的傾向度,對集合中所有素材文本的傾向度進行統計并歸一化,帶入分段條件函數中進行傾向度判斷,得到網絡群體對該事件的情感傾向。通過對巴以沖突和中國空間站2個近期熱點事件的對照測試,驗證了模型的正確性。
關鍵詞:極性詞匯;語料庫;情感傾向度;向量分析
中圖分類號:TP311.5文獻標志碼:A文章編號:1008-1739(2021)23-54-4

0引言
國家管理者在決策活動中必然會涉及關乎民眾利益的社會客觀情況,以及民眾在認知、情感和意識的基礎上對社會客觀事件的態度(民意)[1]。隨著互聯網技術的發展,民眾越來越多地通過微博、論壇、微信等手段對公共事件或熱點事件發表意見、觀點、言論和態度,如何及時識別網民這一群體對某一事件的情感傾向,成為網絡輿情管理的重要研究課題[2-3],而不同群體情感傾向的偏差研究,是解決輿情群體情感傾向差異分析的重點[4]。本文提出了一種基于語料庫的網絡群體對事件的情感傾向分析模型,用于分析網絡上的群體對某個事件的情感傾向。該模型以網絡上某事件相關的微博、帖子等文本為素材集合,基于傾向性語料庫中的極性詞匯對集合中每一份素材文本進行分詞,統計并計算素材文本中出現的極性詞匯的強度值,得到整篇素材文本的傾向度,再對集合中所有素材文本的傾向度進行統計并歸一化,帶入分段條件函數中進行傾向度判斷,得到當前網絡群體對該事件的情感傾向是正面的、中立的還是負面的,從而及時采取相應的輿情管控手段加以引導。
1定義
1.1群體認知
群體是指按某種特征結合在一起的多個個體,群體與個體相對,是個體的集合。群體對事件的認知是指某個特定群體對事件的看法或態度。對一個事件的群體認知數據主要來源于個人微博、Twitter、QQ空間、朋友圈、論壇和貼吧等個人社交軟件產生的信息。
1.2情感傾向度
群體對事件的情感傾向即廣大個體對于特定事件的公眾認知。事件可以來自線上傳播,也可以來自媒體報道,事件傳播途徑多是通過互聯網上的各類社交媒體軟件、論壇和貼吧等?;ヂ摼W是一個任何人均可以發聲的大平臺,信息傳播是一種松散的網狀結構,存在于社會各個階層的網民是構成這個網的節點,他們掌握的或多或少的碎片化信息在節點間流動,雖然虛擬環境中仍然存在意見領袖和沉默螺旋效應,但缺少了社會群體中的監督機制和自我約束,導致群體情感傾向帶有更多的情緒和不理智因素。同時,群體對事件的情感傾向也不都以文字的形式體現,很多人并不直接發聲,而是對贊同的觀點點贊。同時,群體在使用社交媒體軟件時,經常會使用表情符號表達自己的情感,而有時表情符號會傳達出比文字更強烈的傾向性。
2模型應用
2.1模型原理
群體對某個事件的情感傾向性可歸類為正面、中立和負面。以一定平臺上的素材為基礎,事先構建傾向性語料庫,采集目標群體對特定事件的相關文本,利用自然語言處理技術提取文本中的詞匯和表情符號,基于語料庫進行分析計算得到對事件的傾向度,從而判斷目標群體對該事件的傾向性。群體傾向性分析流程如圖1所示。

(1)構建傾向性語料庫
使用網絡爬蟲從互聯網上采集近期常見的傾向性詞匯和表情符號,經過人工對詞匯和表情進行分類并設置權重后,再為詞匯和表情建立倒排索引,形成語料庫。
(2)提取事件相關文本的傾向性屬性
收集目標群體針對某事件的相關文本素材形成原始素材集合,為每一份文本素材構建情感傾向性屬性向量。
(3)計算事件的傾向度
對于包含傾向性屬性向量的文本素材,根據其傾向性屬性向量,結合語料庫中詞匯和表情符號的權重值計算每篇文本素材的傾向度。
(4)分析群體對事件的傾向性
遍歷原始素材集合中的所有素材,對集合內所有素材的傾向度進行帶符號累加求和后做歸一化處理,求出被分析群體對該事件的傾向度。
2.2模型設計
2.2.1構建傾向性語料庫
傾向性詞匯即包含情感傾向的詞匯,可以是形容詞或者副詞,比如幸福、漂亮、卑鄙、愚蠢等;也可以是動詞,比如支持、點贊、反對、作弊等;也可以是介詞短語,比如干的漂亮、有意境等。這些具有傾向性的詞匯出現在語句中,通常會表達出個體對事件的情感傾向是正面積極的,還是負面消極的。向傾向性語料庫中插入詞匯時,除了要包含正統詞匯外,還應盡可能多地包含網絡流行用語。每一個進入語料庫的詞匯除了要進行正面、負面分類外,還要對其情感強度進行評估,并預置一個強度值。
在社交媒體軟件中,比如新浪微博、微信、QQ等,表情符號也被用戶廣泛使用。用戶在表達具有情感傾向的觀點時,經常會在文本中附加表情符號,它近似刻畫了用戶的表情,能夠簡單、直觀地展現出用戶的情感傾向。根據表情符號的不同可以歸類到不同的傾向中,比如:笑臉符號可以歸類到正面傾向中;憤怒或哭泣的符號可以歸類到負面傾向中。而不同的符號傳達的情感強度也不相同,應當為其預置不同的強度值,比如:大笑符號的情感強度應當大于微笑符號。
當傾向性詞匯和表情符號共同出現時,可認為該組合比單純使用傾向性詞匯或表情符號傳達了更加強烈的情感強度。2.2.2提取傾向性屬性
為了分析群體對某事件的情感傾向是正面、中立,還是負面的,首先要采集該群體發布的與事件相關的文本素材,形成原始素材集合,再對集合中的每一個文本素材建模,形成情感傾向性屬性向量,每份文本對應一個屬性向量,全部相關文本的屬性向量形成一個向量集合。屬性向量將文本看成是一系列詞和表情符號的集合,這些詞的詞性可能是形容詞、副詞、感嘆詞,可能是語料庫中的詞匯或表情符號,也可能是詞匯與符號組成的表征詞組[5]。情感傾向性屬性向量包括7個屬性,各屬性描述如表1所示。
在構件文本的情感傾向性屬性向量時,首先利用分詞工具從文本中提取詞匯和表情符號,在語料庫中檢索提取出的詞匯和表情符號的情感傾向性分類和權重值,統計正面、負面數量后,填寫向量的各個屬性。

2.2.3計算素材傾向度
在情感傾向性屬性向量集合構建完成后,利用語料庫對向量進行進一步分析,計算每個向量的情感傾向度。
在事件相關文本中,包含的正面傾向的詞匯更多時,可認為群體對該事件的傾向性是正面的。相反,如果包含的負面傾向的詞匯更多時,則認為群體對該事件的傾向性是負面的[6]。在構建語料庫時根據詞匯或者表情符號的情感強烈程度設置了相應的權重值,通過對不同情感傾向分類的詞匯和表情符號計數并加權計算,可以得到該文本的總體情感傾向度,事件相關文本的傾向度計算如圖2所示。


2.3模型實現
在2.2節的模型設計基礎上用Java+JS語言、基于Spring Boot+VUE框架,開發實現了一個基于新浪微博的群體情感傾向分析軟件,能夠從新浪微博上爬取熱門事件的微博文本內容,對微博文本進行情感傾向性分析,之后再對熱門事件的整體情感傾向度進行計算,得出微博用戶群體對該熱門事件的情感傾向。
2.4應用分析
為了驗證模型的正確性,本文選取了2021年巴以沖突和中國空間站2個近期熱點事件作為測試用例,使用軟件爬取微博上的文章,分析微博用戶對事件的情感傾向性作為對照,再由人工對爬取的所有微博進行閱讀并判斷情感傾向,以驗證軟件分析結果的正確性。為了提升效率,測試僅對微博正文內容進行分析,不分析評論內容。
2.4.1測試結果對照
(1)2021年巴以沖突
2021年5月10日晚,以色列與巴勒斯坦加沙地帶邊界的局勢急劇惡化,巴以雙方爆發激烈沖突。本測試用例選取5月10日—6月20日的相關微博進行分析,共取樣92篇微博。巴以沖突事件模型分析結果與人工分析結果對比如表2所示。

從分析結果可以看出,微博網友對于巴以雙方在2021年爆發的沖突基本持中立態度,略偏向于負面。
(2)中國空間站
中國空間站的天和核心艙于2021年4月29日發射升空進入預定軌道,5月30日天舟二號貨運飛船成功與天和核心艙對接,6月17日神舟十二號載人飛船發射成功并與天和核心艙對接,3名中國宇航員進入中國自己的空間站。本測試用例選取4月29日—6月20日時間范圍內的相關微博進行分析,共取樣274篇微博。中國空間站事件模型分析結果與人工分析結果對比如表3所示。

從分析結果可以看出,微博網友對國產空間站的微博揚溢自豪之情,情感傾向基本全為正面。2.4.2測試結果分析
從2個測試用例的對比結果看,模型對熱點事件微博群體情感傾向度分析結果與人工分析結果基本一致,但正面和負面微博具體數量略有差異。在第1個案例中模型分析得出的負面微博數量略多于人工分析結果,經過分析發現主要是由于在第2個案例中模型識別出的幾篇負面微博主要是由于這幾篇微博有的是描述火箭殘骸處理的,出現了失控、墜毀、垃圾等負極性詞匯。另外幾篇微博是諷刺西方的,出現了被迫害、妄想等負極性詞匯。雖然人工和模型分析得到的情感傾向度數值存在差異,但誤差率在可控范圍內,基本不影響模型應用效果。
3結束語
本文提出的基于語料庫的事件群體傾向度分析模型能夠快速、高效地對微博等互聯網群體關于某個熱點事件的情感傾向進行分析,分析結果可用于支撐輿情管理。通過與人工分析結果進行對比,模型分析得到的結論基本正確,但使用基于模型的分析軟件僅需幾分鐘即可得到分析結果,而對照組的人工分析卻需花費數個小時逐一閱讀文本才能得到結果。使用模型對事件進行群體情感傾向分析在速度和效率上具有明顯優勢。在測試中通過對照分析也發現語料庫中的極性詞匯的權值設定的準確性還有待提高,后續工作中還需持續對語料庫進行改進和提升。
參考文獻
[1]張克生.國家決策:機制與輿情[M].天津:天津社會科學院出版社,2004.
[2]馮江平,史俊洋,陳虹,等.網絡社會事件發展過程中的輿情心理分析———以“躲貓貓”事件為例[J].云南師范大學學報(哲學社會科學版),2012,44(4):60-70.
[3]吳寧,尚坡利,彭琳茹.網絡輿情情感傾向分析模型研究[J].蘭州工業學院學報,2017,24(5):65-68.
[4]王林,李昀澤.情感傾向分析在輿情監控方面的研究[J].微型機與應用,2017,36(5):11-13,17.
[5]王國華.突發事件網絡輿情演變中意見領袖研究———以藥家鑫時間為例[J].情報雜志,2011,30(12):1-5.
[6]蔚敏潔,劉加海.基于表情符號和文本情感傾向分析[J].計算機產品與流通,2020(8):232.