摘 要:隨著互聯網的快速發展和普及,網絡已經成為人們生活不可或缺的一部分。目前,隨著網絡上的評論信息劇増,評論數據的有效利用問題己經越來越收到人們的關注。面對大量的評論數據,如何從中挖掘到有用的信息對網站用戶、服務商、生產商都有著重要的意義。本文的主要任務包括對評論數據進行的情感分類和進行基于價值分類。
關鍵詞:情感分類;機器學習;數據挖掘
在電子商務的發展下,更多的消費者開始在電子商務網站上進行消費。目前,對用戶關于產品、人事的意見跟蹤的技術需求越來越迫切,從中產生出一系列關于文本挖掘的具有挑戰性的問題。意見挖掘就是一種能夠解決這些問題,使得人們對文本挖掘的興趣逐漸提高。使用數據挖掘技術字在大量的意向評論文本中進行價值分類和意向分類處理,可幫助消費者更好做出選擇。
一、評論分類的研究方向介紹
(1)情感分類
從網絡評論中對產品進行意向挖掘是一個復雜的過程,其需要的不僅僅是挖掘技術。在經過文本預處理之后,就需要對過濾后的文本進行情感分析。對于情感類別的分類,通常是采用分類模型對整個文檔進行基于情感的分類工作。但是也有使用詞的極性來進行分類。查找例如“質量不錯”、“視覺美妙”、“排版不協調”等暗示作者語義傾向的詞語,并且把送些詞語人工進行標注為正面清晰或者負面傾向,然后添加到特定的詞匯集中。
(2)基于機器學習的分類
機器學習被定義為“不需要對計算機顯式編程就能賦予計算機學習能力研究領域”。機器學習是一系列算法構成,能夠從數據中學習并且做出預測。其算法的運作是通過從樣本輸入數據中建立一個模型,目的是做出數據驅動的預測和決策,而不是單純嚴格的依照靜態變成指令進行的。這是由機器學習的一般流程是通過從預先分類好的文檔中自動構建一個自動文本分類器。機器學習方法優于知識工程方法的原因是工程師的工作從構建分類轉變成一個分類器的自動建立器,也稱作“學習者”。這就意味著學習者不需要定制就能得到,需要做的工作只是從一系列人工分類好的文檔中歸納、自動構建分類器。如果分類器本來就己經存在或者類別更新了,甚至是分類器需要應用到一個完全不同的領域中,需要進行的王作也是一樣簡單。
二、評論的情感分類流程介紹
(1)選擇進行分類測試的主題。對于評論主題的選擇應該符合包含不同類型的評論網站和覆蓋多個領域。本文選擇的主題分成4類,分別是,產品評論、論壇評論、視頻評論和電影評論。主題的不同使得評論文本特征也有相應變化,實驗可得到該分類方法在不同類型文本中的性能表現。(2)根據主題運行爬蟲從各個網站中根據相應規則進行評論文本抓取。(3)對語料進行預處理,分詞、詞性識別,確定范例詞集。(4)計算測試數據集在各個評論文檔的語義傾向值進行情感分類。(5)對測試結果進行分析。在一種極端情況下,評論文本中不存在任何情感詞,導致并不能對其進行情感分類。因此本流程的缺點在于情感詞的依賴導致情感分類結果的偏差,對此的一種改進是在評論的構建過程中對不存在任何情感詞的評論進行過濾。雖然這種方法能提高分類的精確率,但同時也會導致召回率的下降。
三、基于機器學習的評論分類方法
由于人工標注的工作量巨大,這里采用對部分進行根據評論的元數據自動分類,即評論頁面中的是否有用的數據,而對于部分沒有被標記過得評論采用人工判斷的方法進行標記,并把標注后的評論語料被分成兩部分,分別是訓練集和測試集。這里分別對經過顯式垃圾過濾的語料及沒有過濾的語料進行了測試,從中看出,后者訓練出的分類器表現出更巧地性能,表明語料中的噪聲會導致模型穩定性降低。同時,還對不同特征模版構建的分類器進行實驗對比,其結果顯示描述指代的引入使分類結果得到明顯的提高,說明在評論的價值分類問題中起到重要作用。從得到最高值的分類實驗結果看出,對于描述指代特征明顯的評論文檔分類結果較好,例如評論中沒有描述信息、僅有其他主題的描述信息、和僅有評論對象等。但對某些虛假評論僅能在一定程度上進行區分,如一條評論中的值過大,表示該文檔存在過多其他主題的評論信息,這種情況下為任意值,分類器都正確把其歸類。但對于很多與指向性描述數量無關的虛假評論則無法通過該方法簡單的對其進行特征描述。
四、總結
隨著互聯網的蓬勃發展,越來越多評論信息出現在網絡上。從人們的日常上網活動中,無時無刻都會碰到評論信息或者發表評論信息。評論數據量增長迅速,己經充滿了網絡上的各個角落。用戶、服務商和出廠商對評論信息分析、歸納的輔助工具也有著迫切的需求。要對評論數據進行分析需要對評論數據的特征進行分析。評論數據一般都存在著明確地情感傾向,也就是評論是表達正面的稱贊的意思還是表達負面的否定的意思。人們可通過閱讀評論得出這種傾向,也就是通過人工標注的方法對評論進行情感分類。但對于海量評論數據使用這種方法將會浪費大量人力物力,因此如何利用如此大量的評論數據己經成為研究者們的熱門關注話題。對此,本文對評論數據挖掘的應用進行深入研究,提出評論數據情感分類和基于機器學習分類的方法。
參考文獻
[1]Dave k,Lawerence S,Pennock DM.Mining the peanut gallery:opinion exlxactionand seamatic classsication of product reviews[C]//Proceedings of the emotional Word Wide Web Conference.2003.2003:519-528
[2]Tumey P D.Thumbs up or thumbs down:semantic orientation applied to unsupervised classication of reviews[J]Proceedings of nual Meeting of the Association for Computational Linguistics,2010:417-424.
[3]Morinaga S,Yamanishi K,Tateishi K,etal.Mining product reputatiosone Web[C]//ACM,2002:341-349.