吳 菲,郭汝靜(.南京工業(yè)大學浦江學院,南京0000;.安陽工學院,河南安陽455000)
隨著“互聯(lián)網(wǎng)+”時代的到來,人們可以利用微博、微信等社交平臺發(fā)布評論、商品信息,實現(xiàn)快速、及時的溝通交流。然而這些信息具有很強的隨意性,內容發(fā)散,短小,話題廣泛,而且還包含了大量無用的信息。這些評論無論對于政府部分的輿情分析,還是企業(yè)的商業(yè)活動,都有著重大的分析價值。因此,提取評論信息中的有效內容就顯得十分必要。
目前對于互聯(lián)網(wǎng)評論的研究還處于起步階段,針對這一現(xiàn)狀,本文參考了現(xiàn)有關于中文文本分析的相關文獻和研究成果,對現(xiàn)有的特征值提取值算法和權重計算算法進行改進,提高分類精度。
目前,互聯(lián)網(wǎng)評論的情感傾向性分析是一個熱門的研究領域。機器學習是這一領域目前國內熱門研究方向,劉志明等[1]研究了SVM等三種機器學習算法,并且對不同的特征提取方法進行了深入的研究,從而選取了信息增益方式,驗證了評論的適用性與評論的風格和主題內容相依賴。李澤魁[2]將目前情感分析方面已有的研究成果做出了一個全面的綜述,得出了一些比較有利的特征組合,這些研究內容可以為后續(xù)研究提供一個非常好的研究基礎與理論假設。
本文針對不同類型的評論進行分類,以主觀評論的情感傾向作為重點研究內容。首先過濾掉垃圾評論,提取主觀評論。然后通過改進的特征組合提取算法IG-S以及TF-IDF-S來構建向量空間,提高分類精度。
目前,向量空間模型方法(VSM)是最廣泛的文本表示方法。該模型的基本思想是將文本字符串表示成空間中的多維向量,并以詞或者詞頻等特征項作為向量空間中的一個維度,而每一個維的值對應的是特征項在文本中的權重。向量空間模型就可以表示為特征向量,表示為V(d)=[(t1,w1),(t2,w2),…(tn,wn)],其中ti(i=1,2,3,…,n)為文檔中特征項wi為ti的權重。
在復雜的互聯(lián)網(wǎng)評論中包含了大量的不同特征,這些特征之間會相互影響,因此提取特征值是情感分類中的一個重要步驟[3]。在這些特征中,大多數(shù)的特征只是無用特征,只有小比例的特征對分類結果有很明顯的影響。通常采用的特征提取方法有信息增益(IG)、互信息(MI)、卡方統(tǒng)計(CHI)特征提取方法等[4][5]。
傳統(tǒng)IG的算法如下:

公式(1)中m表示所有的評論類別。P(c)表示特征c在數(shù)據(jù)集中出現(xiàn)的概率。P()表示特征c不在數(shù)據(jù)集中出現(xiàn)的概率。P(gi)表示數(shù)據(jù)集中類型gi出現(xiàn)的概率。P(gi|c)表示數(shù)據(jù)集包含特征c,且同時又是類型gi的概率。P(gi)表示數(shù)據(jù)集中不包含特征c,但為類型gi的概率。由于傳統(tǒng)的IG算法無法對情感詞進行準確進行辨別,雖然在實際中可以識別出一部分特征,但是在效果上仍然不理想。針對于情感分析這個領域的研究應用,通常認為對于評論極性判斷最有效的方法是使用情感詞,所以在特征詞的提取中非常有必要加入相關的挑選比例,以此來提高情感分析的準確性。本文將以上IG算法進行改進,得到新的算法公式IG-S,如公式(2)所示

公式(2)中n為情感詞集合。IG(c)表示特征c的IG值,表示沒有表達情感的特征IG的平均值,并且通過α來調控挑選的情感詞。與公式(1)相比,公式(2)加大了情感詞的權重,而對于非情感詞本文作者認為不需要增加其權重,這樣也可以把出現(xiàn)頻率較高并且?guī)в忻黠@情感傾向的詞語挑選出來。通過改進的特征值提取方法計算出每個特征詞的IG值之后,將其根據(jù)值的大小進行從大到小排序,最后選取分數(shù)最高的若干詞組成特征詞集,得到所需內容。
傳統(tǒng)的TF-IDF方法存在著一些缺陷。首先,它無法區(qū)分情感詞和普通詞,而情感詞和普通詞在區(qū)分情感所屬類別的能力上有著明顯的差異,并且沒有考慮情感詞所處的相關位置因素,比如程度副詞之后是帶有明顯情感傾向的情感詞,那么就應該提高情感詞的權重。其次,該方法過高地估計了一些無用詞的貢獻度,從而造成不同類別之間的特征表示能力的減弱。針對這些不足,本研究改進特征權重的計算方式,提出了改進的TF-IDF-S方法,算法公式如下:

公式(3)中Q代表情感詞詞典,T代表程度副詞詞典,Si-1表示特征i前一個詞的內容,gni,j表示在一個評論句子中情感詞后面緊接著程度副詞,則將情感詞的權重加大為1.2倍,否則保持原有的權值不變。P(nk|ci)表示在類別ci中含有特征i的概率,ni,j表示在類別ci中包含特征i的總數(shù)。P(nk)?表示不在類ci中特征i出現(xiàn)的概率。采用公式(3)的方法既可以將情感詞區(qū)分出來,還能起到減弱稀疏特征的作用。
本文設計了改進的特征值提取方法和權值計算方法,以此來提高情感傾向性判斷的準確率。為了驗證算法的有效性,作者進行了實驗驗證。本文選擇了幾組有效的特征組合來驗證改進的算法,并將單一的分類算法作為參照實驗,實驗結果表明本文提出的方法在分類精度上較傳統(tǒng)方法有了一定的提高。
本文實驗數(shù)據(jù)采用通過爬蟲技術從互聯(lián)網(wǎng)評論中爬取得到的有關社會輿論的評論,在篩選直觀垃圾評論之后,形成3個話題的測試數(shù)據(jù)集。數(shù)據(jù)集1的測試集和訓練集比較相近,數(shù)據(jù)集2的測試集和訓練集相似度比較小,數(shù)據(jù)集3的測試集和訓練集出于同一個數(shù)據(jù)源。具體內容如表1所示。

表1 數(shù)據(jù)集示例
本實驗采取四組實驗,第一組是實驗室傳統(tǒng)的IG和TF-IDF方法,第二組使用的是改進的IG方法,第三組使用的是改進的TF-IDF方法,第四組使用的是改進的IG和TF-IDF方法。幾組實驗使用相同的特征值組合,實驗數(shù)據(jù)為第一個數(shù)據(jù)集。將該數(shù)據(jù)集分為6個標簽,分別為POT_P、POT_R、POT_F、NET_P、NET_R、NET_F。四種方法在不同標簽集上的實驗結果如表2所示。
從表2的實驗結果來看,改進的IG和TF-IDF方法對分類效果都有所改進,這說明本文使用的方法更有效。
使用本文的方法在三組不同的測試集上進行實驗,結果如表3所示。

表2 不同方法的比較結果

表3 不同數(shù)據(jù)集比較結果
從表3的實驗結果可以看出,測試集1和測試集2的各類指標有很大的區(qū)別。測試集1的數(shù)據(jù)和訓練集比較相近,測試集2的數(shù)據(jù)和訓練集相似度較小,所以測試集1的分類效果較好。測試集3和訓練集出于同一數(shù)據(jù)源,其結果比前兩個測試集好。可見同一數(shù)據(jù)源的測試集和訓練集能取得較好的分類結果。
本文采用改進的IG算法和TF-IDF算法來提取特征值,在情感分析中能夠更好地挑選出情感詞,并且對情感詞加大權重之后加入到向量空間中去。通過實驗表明,兩種改進算法的結合能夠取得很好的效果。
本文所使用的是有監(jiān)督的機器學習方式,對于相似度較大的訓練集可以取得較好的效果。在不同的訓練集上的效果并不是特別理想。怎樣在不同訓練集上取得較好的效果,這個問題有待進一步研究。