繆廣寒
(無錫城市職業技術學院 實訓基地管理中心,江蘇 無錫 214000)
隨著社交網絡和計算機技術的不斷發展,更多的人借助博客、微博來發表觀點、表達情感[1]。微博具有互動性、原創性、便捷性、內容碎片化和傳播速度快等特點[2-3],其逐漸成為熱門話題以及事件討論的重要平臺[4]。微博通常帶有一定的感情傾向,使用數據挖掘技術來分析微博所表達的情感、了解事件的動態,已成為諸多學者、專家和科研機構的研究方向[5-7]。
微博情感分析,即分析微博內容中的文本和表情符等所表達出的主觀信息以及說話人的態度[8]。不同于傳統文本分類的是,該種文本分析的對象是一些主觀因素而不是客觀內容[9]。目前,情感分析的主要研究方法可以分為基于機器學習的方法和基于情感詞典與規則的方法。如文獻[10]使用標簽傳播算法構建中文情感詞典,來進行文本情感分析;文獻[11]構建了一種基于SVM和情感詞特征的情感分類模型;文獻[12]使用SVM和N-Grams模型對情感分類;文獻[13~14]使用多種特征融合的方式來分類中文情感。然而,這些文獻并未過多考慮不同情感詞匯的重要性,忽略了不同情感詞匯對分類精度的影響。因此,本文提出了一種基于詞頻重要性加權Word2vec[15]的特征和SVM[16]的微博情感分析模型。
Word2vec是谷歌公司在2013年開源的一款將文本詞匯表示為向量的工具。其可以將文本內容轉化為詞向量,并將文本語義上的相似度轉換為求解向量空間上的相似度?!?br>