王 倩
樂山職業技術學院
結合屬性詞和副詞權重的細粒度情感分析
王 倩
樂山職業技術學院
為了提高現有產品評論挖掘算法的準確率,通過計算細粒度的詞匯的語義傾向度,設計了一種結合屬性詞和副詞權重的情感傾向分析方法,采取了細粒度分析的思想,對評論的傾向性進行判定。本文設計了一種基于消費者關注程度的屬性詞權重計算方法,提高同一整句中正反極性同時存在情形下的極性判別準確率。結果表明相較于不考慮屬性詞權重的方法,結合屬性詞和程度副詞權重的情感分析能夠提高準確率6%左右。
屬性提取;情感分析;權重;
隨著互聯網和計算機技術的快速發展,以淘寶、京東等公司為代表的電子商務也得到了迅猛發展,網購成為很多人購物的重要方式。在實際應用中,利用情感分析技術能挖掘出顧客對商品的滿意程度和購物喜好以及商品在使用中的缺陷,為商家提高商品和服務質量具有重要促進作用。隨著電子商務網站的發展,產品評論挖掘受到越來越多的關注,中文評論觀點挖掘的研究處于起始發展階段,在中文評論挖掘中,對評論的情感分析一般可以分為基于詞典方式和基于分類算法兩大類。
本文采用兩者結合的方法進行情感傾向分析,將基于詞典方式的中間結果作為分類器的一個特征參與到分類中去,相當于在基于詞典的方法上進行二次分類,提高判定結果的準確率。對于屬性詞的權重,一般是應用在特征選擇過程中,作為情感傾向分析和屬性詞提取的結合點,屬性詞的權重問題在中文評論挖掘中較少作為重點進行研究,大多研究認為屬性詞對整句的情感傾向同等重要,有研究將TF或TF-IDF改進算法作為屬性詞的權重[2]。使用TF或者TF-IDF算法作為屬性詞權重的方法忽略了屬性詞與屬性詞之間對于用戶而言也存在著不同的重要程度,一般是在整個文檔上說明屬性詞的重要程度。
程度副詞的權重同樣是研究的重點,在目前的研究中,大都直接使用中國知網發布的情感詞集bata版[3]中的副詞詞典,通過根據語感直接對其賦值的方式進行[4]。此種方法忽略了如果對應的副詞不在程度副詞表中的情況,對此較少有研究者進行分析,在由詞匯的極性擴展到句子的情感傾向性的過程中,容易造成漏檢,從而降低檢測的準確率。對以上問題,設計了一種基于用戶關注程度的屬性詞權重計算方法。
評論是使用網絡爬蟲下載的電商網站的評論,在評論中,往往存在著噪聲,需要對評論初步去噪,去除明顯不屬于評論的噪聲如廣告句、不含對商品評論的句子等。
2.1 情感詞提取
消費者在發表評論時,基于自己的主觀感受以短文本形式進行描述的反映消費者對產品的主觀感受和評價的詞匯,稱為情感詞??梢詫⑶楦性~歸納為3類:
(1)評價性的形容詞:表達消費者主觀評價的形容性詞匯; (2)情感動詞;
(3)網絡新詞表
2.2 屬性詞提取
屬性詞反映了商品不同的特性,在屬性詞上對商品有針對性分析比在所有特性詞上進行分析更有效。因此,如何準確的提取這些屬性詞,成為情感分析的重要任務之一。考慮到小概率事件對語料庫影響較小,濾除次數少于3次的名詞。根據中文表達的慣性,一般屬性詞的附近位置都有對應的評價詞,用于評價屬性詞的具體特性,因此,在提取屬性詞時,將附近位置存在情感詞的屬性詞提取為候選屬性。實驗表明窗口長度為5時準確率較高,因此閾值選為5。
3.1 屬性詞權重設置
為了表示某個特征對整個數據集的貢獻程度,通常用數字來衡量其重要程度,常用的表示方式有布爾型權重、頻數型權重、信息熵、TF-IDF算法等。一般是在進行特征選擇進行加權時考慮。如對于評論句“相機像素很差,但是價格很好”類型的句子,使用均一的權重衡量方式就不能正確的檢測出來,判定的結果為0;本文設計的屬性方法可以判定出其極性傾向值。對用戶而言,“像素”之于“相機”要比“價格”之于“相機”重要,因此判定該句極性為負。
3.2 情感詞極性計算
情感詞極性計算時采取基于極性詞典和語義相似度的極性計算方法。構建的組合的極性詞典是通過知網的情感用詞集和NTUSD臺灣大學的極性詞典去重形成。
在情感詞極性計算時,首先查找組合的極性詞典,若存在則取其極性,同時存在或不存在采用基于Hownet的語義相似度計算極性。詞匯的語義相似度計算方法采用劉群等人[4]的計算方法。通過計算待定詞與種子集的語義相似度,取top10的和,設定合適閾值判定詞語的極性。
在驗證實驗中發現,若使用全部的Hownet極性詞典作為種子集,極性判定的準確率明顯不如經過精心選擇的種子集。本文在構建種子集時,參考了朱嫣嵐等人在文獻[5]中使用的40對基準褒貶詞對作為種子集,結合商品評論信息的特點進行適當改進,形成新的種子集。
實驗以數據集Dataset 1為例, 其中待定情感詞共計348個,判定的實驗結果如表1所示。

表1 情感詞極性計算結果
在嚴格定義的實驗結果中,發現單字情感詞大約占判定錯誤總數的1/3,如“高”、“低”、“大”、“小”等詞的極性判定,在基于詞匯粒度的情感分析方法時,準確率往往不高。原因在于單字情感詞必須要在實際的句子綜合考慮。
3.3 程度副詞權重設置
當前研究一般基于知網2007年發布的“情感分析用詞語集(beta版)的中文程度級別詞語,結合人的語感進行人工賦值。其中程度級別詞語合計219個,可分為極量級、高量級、中量級、低量級四個量級,分值從大到小,依照人的語感進行賦值。有一定的可行性,但過度依賴于人工建立的修飾詞詞典。
3.4 實驗結果
3.4.1 數據集簡介
實驗使用的Dataset1是編寫爬蟲從某電商網站爬取的關于相機的商品評論信息,經過處理后的評論有正樣本1869條,負樣本256條。為了更好的驗證結合屬性詞權重設置的情感傾向分析方法,在平衡數據集上Dataset 2上進行了實驗對比分析。數據集二Dataset2是從本地已下載評論中隨機抽取的不同領域商品的評價信息,各抽取正負極性的句子3016條,合計6132條。
3.4.2 屬性詞權重設置對結果的影響
為了驗證本文提出屬性詞權重設置方法,分別在Dataset1做了對比實驗,第一組使用文獻[2]中采用的屬性詞權重的設計方法;第二組將全部屬性賦值為1,表明有同等的重要程度;第三組實驗對屬性詞的權重采用本文的衡量方法進行設置,F1-score結果分別是0.656,0.661,0.667,說明本文方法有一定效果。

圖1 副詞權重改進前后在兩個數據集上的結果對比
3.4.3 程度副詞權重設置對結果的影響
使用改進后的屬性詞權重條件下,使用改進后的程度副詞的權重分別在Dataset1、Dataset2上的實驗,在Dataset1 上結果從0.667提升至0.685;(見圖1)
而在Dataset2上使用改進前的副詞權重,F1-score為0.67,使用改進后的副詞權重F1-score為0.731,分類結果準確率提升了6%。
本文設計了一種結合屬性詞和副詞權重的情感傾向分析方法;并對當前屬性詞權重和副詞權重的設置方法進行了改進,在不同的數據集上進行了實驗驗證,結果表明改進前后的分類性能均有所提升。實驗表明本文設計的兩種傾向性分析方法是有效的,但仍然存在著不足之處,如在負面評價的判定上有著準確度不高的問題缺點,對多極性的情感分析未能在其他數據集上進行驗證等等問題,都需要在下一步的研究中進行改進。
[1]劉群,李素建.基于《知網》的詞匯語義相似度計算[C]. / /第三屆中文詞匯語義學研討會論文集,2002.
[2]朱嫣嵐,閔錦, 周雅倩等.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006, 20(1):14-20.
[3]中國互聯網信息中心. 2013年中國網絡購物市場研究報告[R]. 2014年4月.
[4]施聰鶯,徐朝軍,楊曉江. TFIDF算法研究綜述[J]. 計算機應用,2009, 29:167-170.
上接(第9 6頁)知此知彼,方能百戰百勝。首先,一定要把網絡引入到旅游管理中,把每個子公司和總公司緊密相連,做到信息暢通、快捷,提高工作效率。其次,在經營中,用高科技手段替代人工操作,既節省了人力和財力,又提高了效能,減少了操作中的失誤,更好地為廣大游客服務。再次,旅行社的發展跟得上世界形勢,就必須大力發展網絡營銷。我國網絡市場巨大,是一個非常有潛力的市場。就目前世界排名來看,我國上網人數僅次于美國,位于世界第2。
3.4 樹立旅行社良好形象,打造知名品牌
在當代,企業文化是展現企業“軟實力”的重要指標,企業的特色就是靈魂。各旅行社更要視形象為生命,千方百計打造企業形象,樹品牌,提高企業知名度和信譽度。主要從以下幾方面入手:
第一,加大宣傳力度,提高旅行社的知名度。通過合適的媒體,如國內知名報刊、雜志、廣播等宣傳旅游服務項目、景點和特色。要從游客的需求出發,進行產品設計和宣傳。
第二,通過創意活動形式促進宣傳,提高旅行社的美譽度?;ヂ摼W讓世界成為“地球村”,創意廣告越來越熱,旅行社行業的宣傳手段層出不窮,花樣繁多。
第三,增強旅行社員工的形象意識,樹立員工的良好形象。良好的儀表總會給人留下美好的印象,也會在客觀上促進旅行社的整體形象樹立和發展。如:邀請專業人士為企業員工設計制服,無論是明亮醒目的顏色搭配,還是每一處的細節設置無一不彰顯了該公司團結協作、奮發向上的團隊精神。員工的精神風貌,反映了企業的精神風貌,特別是一線員工,直接服務于游客,因此,員工的良好形象是旅行社整體形象的重要組成部分,員工對游客的服務質量的高低,將直接影響游客對企業的印象。良好的員工形象加上良好的服務,這必將給旅游企業帶來一筆無形資產,為企業的發展提供經濟效益。
在國民生活水平日益增長的今天,我國人民開始追求高質量高品位的生活,這對我國的旅游業來說,無疑是迎來了它的巔峰時代。旅游企業應抓住這一契機,開動腦筋,運用現代化管理手段,完善市場策略,更健康更穩步地發展。
參考文獻:
[1]趙鵬、李享、劉磊.旅行社與汽車俱樂部經營自駕車旅游的比較研究[J].旅游學刊,2008年第1期
[2]李蕾蕾.旅游目的地形象策劃[M].人民郵電出版社.北京,2008年 5月第1版
[3]毛勇.北方經貿三峽重慶庫區國際旅游市場營銷策略研究[J].北方經貿,2001年09期
[4]李天元.市場定位還是形象定位——旅游企業市場營銷中的定位問題[J].旅游學刊,2001年第2期
樂山職業技術學院校級科研基金(KY2016001)
王倩(1986-),女,河南商丘人,樂山職業技術學院助教,碩士,數據挖掘、壓縮成像、智能交通。