文/王倩,樂山職業技術學院
基于評論短句計算特征的觀點挖掘
文/王倩,樂山職業技術學院
為提高產品評論挖掘的準確率,本文通過計算細粒度屬性詞和程度副詞以及情感詞的詞匯的語義傾向度,設計了一種結合權重和評論短句計算特征的粗粒度情感傾向分析方法,由細粒度到粗粒度判定web評論的情感傾向性。本文設計了一種基于評論短句計算特征的情感分析方法,把結合屬性詞和副詞權重計算方法的結果進行二次分類,結果表明相對于直接分類或細粒度的情感分析結果,本文設計的結合權重和評論短句計算特征的情感分析方法,分類效果有所提升。
屬性提??;評論短句;觀點挖掘;語義傾向度
隨著互聯網和計算機技術的快速發展,國內外電子商務公司也得到了迅猛發展,網絡購物成為很多人購物的重要方式。在實際應用中,利用觀點挖掘技術能發現顧客的喜好及商品的不足之處,能夠使商家改善服務質量,提高商品性能,并且其他用戶也可以根據分析結果進行是否購物的參考。在中文評論挖掘中,情感傾向分析一般有詞典方式和分類算法兩類。詞典方式是根據詞匯的語義傾向性加權擴展到整句,在語義的基礎上研究;分類算法利用現成的工具提取特征,使用分類算法進行分類。基于詞典的方法準確率較高,但依賴性較高。而基于分類算法的普適性相對較好,缺點是在分類特征不明顯時,容易造成誤判。單一采用上述的某一種算法的準確率不高,因此結合兩種方法進行分析,,即使用評論短句這個計算特征,送到分類器中進行二次分類,提高判定結果的準確率。而在這個過程中,基于詞典的情感分析方法通過對詞匯的極性和權重的計算,謀求整句的情感傾向。因此,研究的開始,詞匯的極性和權重成為研究的重點。
使用TF或者TF-IDF算法作為屬性詞權重的方法忽略了屬性詞與屬性詞之間對于用戶而言也存在著不同的重要程度,文獻[1]采用出現次數的比例作為屬性詞權重的方式簡單易行,忽略了當出現次數的比例較小時,容易趨向于0而導致屬性詞之間的區分度不高。程度副詞的權重研究基本直接使用知網發布的情感詞集bata版中的副詞詞典,通過根據語感直接對其賦值的方式進行。
評論是使用網絡爬蟲下載的電商網站的評論,對評論進行初步去噪。本節主要介紹算法的前期準備工作,包含情感詞、屬性詞、評論短句提取過程,為算法的實現提供重要的基礎準備過程。1、提取情感詞存入本地數據庫中進行處理,主要有以下3類:評價性的形容詞;情感動詞;網絡新詞。2、屬性詞一般是名詞或名詞短語,在提取候選屬性詞時,對候選的屬性詞用頻數模型進行篩選,出現的次數降次排列,濾除少于3次的名詞。將附近位置存在情感詞的屬性詞提取為候選屬性。實驗表明窗口長度閾值選為5。
評論短句則指忽略次要因素,從紛雜的詞匯群中直接取出能夠明確表達評論者的情感傾向和主觀感受的句子。中文評論挖掘領域的研究者通過分析中文表達方式,從短語搭配的角度考慮提取過程。如侯敏等人[1]歸納總結出的普通詞和評價詞的組合搭配問題,分析了評價詞語的情感傾向。林政等人[2]則考慮了句子的位置信息,將句子分為關鍵句和細節句,從他們的研究工作得到啟發,結合商品評論的短文本分類的特點,本文采用規則模板的方法提出評論短句。通過對評論句的詳細歸納和歸總,提取以下四種規則模板:
(1)情感詞單獨成句、情感詞疊加
模板的表達方式:sent,sent+sent;如“不錯”、“小巧可愛”;
(2)包含屬性詞、程度副詞及情感詞的規則模板
模板的表達方式:feature+adverb+sentiment,adverb+senti?ment+feature;
經典的表達模式,涵蓋了描述對象、強度修飾、情感表達三個方面的內容。如“外觀很漂亮”、“很不錯的東西”等;
(3)包含屬性詞、情感詞的規則模板
模板的表達方式:feature+sentiment,sentiment+feature
如“產品不錯”、“粗糙的做工”等;
(4)包含程度副詞和情感詞的規則模板
模板的表達方式:adverb+sentiment,adverb+sentiment;
常用的表達模式,涵蓋了強度修飾、情感表達的兩方面的內容,盡管沒有直接出現屬性詞,隱含了描述的對象為產品本身,因此需要提取。例如“很喜愛”、“不好”等;以上四種規則模板表達方式可以提取八種表達方式,涵蓋了大部分的中文評論的表達方式,對于相對表達比較規范的商品評論而言,能夠提取大部分的中文表達。
屬性詞的權重設置主要解決分句的極性一正一反時,情感極性的傾向值。如對于評論句“相機像素很差,但是價格很好”類型的句子,使用均一的權重衡量方式就不能正確的檢測出來,判定的結果為0;本文設計的屬性方法可以判定出其極性傾向值。
本文在侯敏等人研究的基礎上進行改進。首先對知網情感詞典中的程度級別詞語進行人工賦值,以此作為基準副詞。對于給定副詞,作如下考慮:先查找基準程度副詞表,若該副詞存在表中,直接取出其權重;若不存在,則使用語義相似度計算,先計算該副詞與全部基準副詞的語義相似度,取計算的語義相似度值最高的10個值(Top10)的均值,作為該副詞的權重。
根據我們在第2節的采取的規則模板方法提取出的評論短句,在數據庫中查詢各評論短句對應的相關詞匯的權重,計算評論短句的極性,最后加權求和得到最后的整句的情感傾向,有以下規則:
(1)如果是在評論短句之內的,也就是處在同一個評論短句之內的詞匯的權重值進行加權乘積,如果在一個評論短句內的詞語數為m個,分別找出它們的權重值wt(wordj),進行加權乘積:

其中,word(j)指評論斷句中的第j個詞語,j=1,2,3…,m;m指該評論短句中包含的詞語數,wt(word(j))第j個詞語對應的權重值。
(2)由于在一個整句的評論句中,不止包含一個評論短句,設有n個評論短句,依照公式1分別求出每一個評論短句對應的極性值,wt(fs)1、wt(fs)2…wt(fs)n,對這些評論短句加權求和,最終得到整句的情感傾向計算值Wt(sentence)為:

其中,Wt(sentence)指整句的最終情感極性傾向值,n指一個整句中所有評論短句的個數,wt(fs)i指第i個評論短句的情感傾向權重值,i=1,2,3…,n。
綜合以上分析以上算法的優缺點,算法在普適性、分類的準確度方面有缺陷,且有人工參與,因此為了提高算法的普適性和分類的精度,減少人工干預度,從提取句子特征的角度對評論進行傾向性分析。歸納出了三類特征,這三類特征的來源的示意圖如圖1所示。

圖1 分類器特征來源示意圖
5.2.1 數據集
實驗使用的數據集Dataset1是從本地已下載評論中隨機抽取的不同領域商品的評價信息,考慮了數據集的平衡性,各抽取正負極性的句子3016條,合計6132條。
數據集二Dataset2是混合數據集,包含COAE中文傾向性評測公開的微博的數據集和1000條電商網站的商品評論信息,共計3152條,混合數據集綜合考慮了微博類和電商網站的商品評論信息,相對單一考慮電商網站的商品評論信息而言,更具有代表意義。
5.2.2 使用評論短句計算特征對結果的影響
在Dataset 1和混合數據集Datase 2上進行了實驗驗證,將評論短句計算特征作為分類算法的特征送入分類器中,結果如表1所示:實驗結果表明,加上fs計算特征后,在各分類算法上分類都有所提升,說明我們提出的結合fs計算特征的有效性。

表1 評論短句特征在Dataset2上的影響
本文主要研究產品評論情感傾向的判定,為了提高分類的準確率,本文中結合屬性詞和副詞權重的情感傾向分析方法的基礎上設計了一種利用評論短句計算特征的情感傾向分析方法,在不同的數據集上進行了實驗驗證,結果表明設計方法的有效性。本文設計情感傾向性分析方法仍然存在著不足之處,如在負面評價的判定上有著準確度不高的問題,規則模板提取評論短句的方法還存在著覆蓋不全的缺點,對多極性的情感分析未能在其他數據集上進行驗證等等問題,需要在未來的研究中進一步改進。
[1]侯敏,滕永林,陳毓麒.評價短語的傾向性分析研究[J].中文信息學報,2013,27(6):103-109.