大規模文本的觀點挖掘已成為研究熱點,基于機器學習技術的情感分析應運而生,特征降維是其中的關鍵環節。方法:常見的特征降維方法有DF、IG、MI和CHI,這些方法運用了統計的思想,沒有考慮特征詞之間的語義關系,在一定程度上影響了分類效果。針對中文產品評論的特點,采用依存關系對句子進行句法分析,并結合常見的降維方法進行情感屬性降維。最后,采用SVM分類器進行文本分類實驗。結果:降維后的特征詞能更好地表示文本。結論:基于依存句法關系的情感屬性降維方法能夠有效提高情感分類的效果。
隨著社交網絡與在線商城的融合,越來越多的用戶在線發表產品評論。產品評論是消費者根據自己對商品的使用體驗,從使用者的角度來描述商品屬性和評價商品性能。Podium于2016年的調查顯示,60%的網民至少每周都會瀏覽在線商品評論,其中93%認為商品評論影響了他們的購買決策。情感分析利用自然語言處理和文本挖掘等技術,自動識別和分析主觀性評論文本信息。其中,情感屬性的降維是影響情感分析效果的重要環節。本文以依存句法關系為基礎,對情感屬性的降維方法進行比較,旨在優化降維模型,從而提高情感分析的效果。
情感分類相關研究綜述
(一) 情感分類基本流程
網絡評論的情感分類是通過對非結構化的網絡評論文本進行分析,自動將其判斷為正面評價或負面評價,從而識別消費者的觀點?;具^程:經過預處理、文本表示(特征項選擇、特征項降維、特征項權重設置)、分類器處理,最終得到一個有關情感類別的輸出。
(二)特征項選擇方法
特征項選擇,即選取語義單元作為特征項。特征項既要真實地反映文檔的情感信息,也要對不同文檔有較強的區分能力,可以是詞、詞的組合、N元組等。
1、選取詞或詞的組合。徐軍等利用樸素貝葉斯和最大熵方法對新聞語料進行情感分類。實驗顯示,選擇形容詞和名詞作為特征項時,具有較高分類準確率,且分類性能好于只選擇形容詞[1]。周杰等針對新聞評論的特點,選取不同的特征集、特征維度、詞性進行分類測試,研究顯示,名詞和動詞的分類效果好于形容詞和副詞 [2]。
2、選取N-gram。Pang等分別以詞頻作為權重的Unigrams、以布爾值作為權重的Unigrams、Bigrams、Unigrams + Bigrams等作為情感特征項。實驗表明,使用布爾值作為權重的Unigram作為特征的分類效果最好,使用Bigram作為特征未達到預期的分類準確率[3]。Zhang ZQ等選取N-gram作為情感特征項,結果顯示,Bigram的分類效果好于Unigram 和Trigram[4]。Cui等指出Pang的語料較小,無法體現N-grams(n≥3)的優勢,高階N-gram項能夠提高情感分類準確率[5]。與Cui的結論相反,Ng等發現將Bigram和Trigram加入Unigram項后能夠提高SVM的分類性能,但單獨使用Unigram、Bigram或Trigram作為特征項,分類準確率隨著階數增加而下降[6]。
(三) 情感屬性降維
通過向量空間模型,非結構化的評論文本可以轉換成可機器處理的結構化數據。采用向量空間模型需要降維,即根據語料庫的文本生成特征項的初始集。
常用降維方法有:文檔頻率法(Document Frequency,DF)、信息增益法(Information Gain,IG)、統計量法(Chi-square Statistic,CHI)、互信息法(Mutual Information,MI)等。學者對特征項降維方法進行比較。劉勰等對DF、IG、CHI進行比較,實驗顯示DF法優于CHI和IG[7]。Yao等對DF、MI、CHI和IG進行比較,實驗顯示,DF 方法的分類效果較好,同時發現MI方法不適用于情感特征項的降維[8]。
此外,還需要設置特征權重。根據選取出的特征項,對訓練集和測試集的每一條語料進行權重賦值、歸一化等處理,將文本語料轉化為特征向量形式。
(四)依存句法分析
在進行情感分析的句子中,需要確定評論的主題和修飾它的詞。所謂“依存”是指詞與詞之間支配與被支配的關系,一個關系連接兩個詞語,這種關系不是對等的,而是有方向的,處于支配地位的成分即為核心詞語,而處于被支配地位的成為被稱為修飾詞語。直觀來講,依存句法分析識別句子中的“主謂賓”、“定狀補”這些語法成分,從而可以確定核心詞語與修飾詞語 [9]。
一般來說,依存句法分析的任務有三個:(1)判斷輸入的字符串是否屬于某種語言;(2)消除輸入的句子中詞法和結構等方面的歧義;(3)分析輸入句子的內部結構,如成分構成、上下文關系。常見的應用有以下兩種:(1)利用句法分析結果,對捜索問題的通用性改寫和答案標題匹配,提高改寫和匹配的質量,從而改善搜索結果的質量。(2)利用句法信息對機器翻譯結果做調序處理?;诖?,本文將依存句法分析引入情感屬性降維中,以期解決傳統基于詞頻統計的降維方法中存在的忽略文本語義信息的缺陷,提高情感屬性降維的準確性和可信度。
(五) 研究評述
在情感分析研究中,分類算法相對成熟,但是情感屬性降維方面仍存在不足。依存句法分析通過解析語言單位內部各成員之間的依存關系,挖掘詞語構成句子過程中發生的搭配關系并找出句子核心成分,基于此本文提出依存句法分析會對情感屬性降維效果起正向作用的實驗假設。因此,本文提出了基于依存句法關系的特征降維方法,將特征降維和依存句法分析相結合。依存句法分析有助于從句法結構找出支配地位的特征詞,讓情感屬性的特征降維結果更具代表性和準確性,彌補傳統特征提取中忽略文本結構信息的不足。
實驗設計
(一)實驗流程
實驗流程分為文本表示、語料訓練和文本分類。文本表示模塊,抓取在線評論語料進行預處理,單句依存句法分析并進行節點重要度計算;設立對比實驗,對照組采用DF\IG\MI\CHI方法進行特征項降維,實驗組結合依存句法分析進行特征項降維;特征項權重計算,構建空間向量表示文本。語料訓練模塊,采用SVM分類算法,對訓練集語料進行訓練。文本分類模塊,對測試集語料進行情感極性分類實驗,以文本分類精度驗證并比較降維效果優劣。
(二)語料庫
選擇手機作為評論主體。中關村在線是全球第一中文科技門戶,每日影響超過80%的采購用戶。因此選擇中關村在線的三星GALAXY Note 4(N9100/公開版/雙4G)評論。抓取10000條評論,7000條用于訓練,3000條用于測試,訓練集和測試集中的正類和負類評論均比為1:1,待分類文本屬于平衡數據。
(三)評論語料的預處理
選用哈工大社會計算與信息檢索研究中心研發的“語言技術平臺(LTP)” 進行依存句法分析。中文評論在語言組織、句式表達上較隨意。這會導致LTP在切詞、詞性標注的過程中產生大量空格,且會錯誤識別標點的詞性,對后續分類器的訓練結果造成影響。
為了后期處理單條評論的簡潔性和易讀性,人工將原始語料進行預處理。將空格、標點符號作為分句的依據。而對于“、”,比如“屏幕、電池都很好”,作為一個分句處理,無需分開。
(四)依存句法分析及節點重要度計算
依存語法通過分析語言單位內成分之間的依存關系,揭示其句法結構。利用依存關系確定關聯詞對,既可保證關聯詞對之間存在一定句法關聯,又可實現有向關聯,從而保證文本網絡構建的準確性。依存句法分析標注關系(共14種)。
在LTP中對單句的依存句法分析結果示例如下圖1:
LTP將句子切分成詞語視圖。其中,節點代表詞語;邊代表特征詞之間的語義關聯;邊的權重代表詞之間語義關聯的程度。由此得到:大→屏幕(SBV)、屏幕→手機(ATT)、效果→顯示(ATT)、好→效果(SBV)、好→很(ADV)等。
將LTP單句分析的結果批量導出,其中包含大量有標點符號產生的關聯對,LTP依存句法分析將其標注為WP。如圖3中的大→,(WP)。本文將其刪除,以得到最終的有效關聯詞對集。
(3)節點重要度的計算
文本網絡的邊由節點所代表的特征詞的依存句法分析結果確定。邊的權重由其所連接的節點代表的特征詞之間存在關聯的頻次決定,且需考慮邊的方向。本文參考了文獻[10]進行邊權重計算,公式如式(1)所示:
其中,wij表示由節點i指向節點j的邊的權重, fre(ti )和fre(tj )分別表示節點i和j代表的特征詞在文本Di中出現的頻次,fre(ti,tj )表示詞對“i→j”在文本Di的有效關聯詞對集中出現的頻次。
根據邊權重計算節點重要度的公式如式(2)所示:
其中,Qi表示節點i的節點重要度,wij表示由節點i指向節點j的邊的權重,wji表示由節點j指向節點i的邊的權重。
(五)特征項降維
1、特征選擇
若把所有切詞結果作為文本的特征項,特征向量空間的維數將過大,增加計算復雜度,也對分類器性能產生負面效應。特征選擇在保留文本核心信息表述的情況下,剔除不重要的詞,降低特征向量的維度,縮短訓練時間,提高分類處理的精度。本文參考文獻[7]選取特定的詞性特征來減少抽取成本、減少噪音。
文獻[10]的實驗結果顯示:在句子級別的情感分類中,名詞、形容詞、副詞、動詞單獨作為特征時達到的分類效果排序依次是:形容詞>動詞>副詞>名詞。形容詞最為關鍵,評論的情感傾向大多由形容詞表達;動詞作為分類特征時所能達到的分類效果較好;程度副詞和被修飾詞語一同作為特征詞對文本的情感極性有很大影響;名詞作為特征項產生的分類貢獻微乎其微,從分類成本上講,多一類詞性增加了選取和篩選成本。由此,本文選取詞性為形容詞、動詞、副詞作為文本特征項。
2、特征降維
特征降維方法DF、IG、MI、CHI的性能在不同的文本分類任務和不同的語言環境下結論不同。為此,本文將在后續電子產品評論情感極性判斷的研究中展開比較。
本文將降維方法計算出的特征項評分值和根據依存句法關系得到的節點重要度相結合,得到特征項的綜合評分值。實驗發現,DF\IG\MI\CHI特征項評分值和節點重要度歸一方程,確定量綱比例為1:0.5時分類效果最好。
3、特征項權重計算
在空間向量模型里,特征項的權重代表了它的表述能力、相關度和重要性。同時,特征項的權重大小將影響文本分類的效果。常用的方法有布爾權重、頻度權重、TF-IDF權重。
本文采用最簡便的布爾權重法,如果特征項在語料中出現,則其權重計為1;如果特征項在語料中不出現,則其權重計為0。
(六)文本分類器的選擇
常用的分類算法有:Rocchio、k-最近鄰算法(KNN)、樸素貝葉斯(NB)、支持向量機(SVM)、線性最小平方擬合(LLSF)和神經網絡法(NNet)等。
在情感分類領域,Pang等[11]、Ni等[12]、 Mullen等[13]和Whitelaw等[14]研究了SVM在情感分類中的表現,發現SVM比其他分類算法能達到更好的精度。因此,本文選擇SVM作為分類算法,并選擇臺灣大學開發的LIBSVM軟件包實施分類。
實驗結果分析
(一)特征抽取數量的閾值
特征數量的閾值是指令分類效果最佳的特征數目。數目較少時,每個文本的特性無法充分表達,分類效果顯然不佳;數目增加,文本充分表達,分類效果也會改善;當數目達到一定程度,再增加特征數目會加重分類成本,增加特征噪音,導致分類效果降低。為此,針對不同語料環境,需要通過實驗來確定特征最佳數目。在不同降維方法下,不同特征抽取數量下所能達到的分類精度,如表1所示。
共有4組實驗,分別以50、100、200、300為特征數量確定最佳抽取數量的范圍。結果顯示,分類精度先提高后降低。每種降維方法拐點基本都在100左右,最高精確度能達到78.79%。不同的情境下合理的特征數會有所不同,為此,下文比較不同特征降維方法時,特征抽取數量均取100。
(二)DF\IG\MI\CHI的特征降維結果
分別采用DF\IG\MI\CHI構造特征評估函數,計算特征項的評分值。表2分別給出各個特征降維方法下評分值排名前5位的特征項。
(三)基于依存句法關系的特征降維結果
根據公式(2),計算節點重要度。表2沒有考慮依存句法關系對評分值的影響。如果引入基于依存句法分析得到的節點重要度,可得到特征項的綜合評分值,如表3所示。
(四) 不同特征降維方法下的分類性能比較
1階段使用傳統的4種降維方法DF\IG\MI\CHI,2階段將依存句法分析結果和4種傳統降維方法結合,分別抽取100個特征詞,分別進行4次分類訓練實驗。實驗結果見圖2。
在特征抽取數量為100的情況下,得到以下結論:
(1)不同降維方法達到的分類精度略有不同,但是均保持在73%以上,因此本文的分類實驗是有效的,可作為推導以下實驗結論的基礎。
(2)單一使用傳統降維方法時,分類效果最好的是DF法,分類精度達到78.79%。將依存句法分析和傳統降維方法相結合,分類效果最好的是依存句法分析結合DF法,分類精度達到79.34%。
(3)圖2顯示,“結合依存句法分析”總位于“單一傳統方法”之上,即每組對比試驗中,結合了依存句法分析的降維方法之分類精度更高。由此得到趨勢假設,依存句法分析對降維效果起到正向作用。
(五)實驗結論
(1)特征項數量不足會導致文本信息表達不充分,導致分類精度下降。增加特征項數量能夠提高特征空間的維度,從而提高文本的分類精度。但是,過多的特征項也會造成信息紊亂,降低文本分類效率?;诖耍_定特征規模時應平衡效率和準確率的關系。在本文語料集規模下,特征數量在100附近分類效果最佳。因此,語料規模不同的情況,應通過實驗來確定特征項的數量以保證文本分類試驗準確度。
(2)選用不同詞性和詞性組合作為特征項,分類的效果也不同。實驗證明,選取形容詞為特征項的實驗分類效果比較理想,動詞、副詞次之。對大量文本進行分類時,可以選擇形容詞、動詞、副詞作為特征項,以提高文本分類的準確度。
(3)實驗結果表明,將特征降維和依存句法分析相結合,降維效果更好,彌補了傳統特征提取中忽略文本結構信息的不足,能夠在一定程度上提高文本分類的效果,為后續的情感分析奠定了基礎。
結語
以中文在線評論為研究對象,分別采用基于詞頻的降維方法、結合依存句法分析的降維方法選擇特征項。實驗研究證明,依存句法分析對情感屬性降維效果起到正向作用。今后將在以下幾方面進一步探討:
(1)依存句法分析中計算節點重要度方法。
(2)情感屬性降維結果和依存句法分析結果的擬合方法。
(3)非結構化的數據中的某些標點符號和表情符號也表達了強烈的用戶情感。希望在后續的研究中將納入數據集進行處理。