覃鐐銘 柯寧寧


◆摘? 要:隨著我國人民大眾的生活水平普遍提高,對生活質量的越來越重視,越來越多的人選擇在空閑之余外出旅游,而且隨著互聯網的快速發展,再加上智能終端的普及,基本上人人都可以在任何時間任何網絡信號普及到的地方,通過旅游網站獲取旅游景點的信息及發表評論和分享旅游游記,旅游網站對這些評論數據缺乏有效的管理和利用,大部分企業的評論系統都會讓客戶在評論時評定一個“星級”或者“等級”來對旅游評論信息進行分類。但是這種分類方法不是很靈活,過于死板,本文針對這種狀況,設計一個基于貝葉斯分類的對評論數據文本自身進行分析,得出評論文本的情感傾向,并且過濾其中的惡意評論的系統。
◆關鍵詞:情感分析;樸素貝葉斯;自然語言處理;結構化感知機
在旅游領域,各大企業都對用戶評論、游記、旅游心得等用戶的直接反饋信息極為注重,這些用戶評論、游記、旅游心得等都是用戶在體驗自身企業服務或者游玩景點的時候的直接感受,而往往其他客戶在考慮是否出行時,受這些評論信息的影響是巨大的,既“好評”如潮的旅游景點往往更能吸引客戶的出行。因此大部分企業的評論系統都會讓客戶在評論時評定一個“星級”或者“等級”來對旅游評論信息進行分類。但是這種分類方法不是很靈活,過于死板,有時候“星級”高的旅游評論不一定是所謂的“好評”,而“星級”低的旅游評論信息也不一定都是完全的“差評”。因此傳統依賴用戶評分的去判斷情感傾向的分類方法已經不適應現在的網絡環境了,需要一個針對旅游評論文本信息本身的分類方法。
1評論數據處理框架
首先對獲取到的評論數據進行預處理,包括去掉重復的數據,然后使用預訓練的感知機分詞模型對去重后的數據進行分詞,然后就是去除其中的停用詞。在數據預處理完之后,使用預訓練的貝葉斯模型進行分類的預測,然后過濾其中的惡意評論,最終得出結果。評論數據處理框架的如圖1所示。
1.1機械去重
因為現在大多數的旅游網站都自帶評論功能,用戶不作評論的話會自動進行潛在評論,這些評論往往是重復的而且沒有什么實際意義。本文直接采取對比兩條評論是否一樣來去重。
1.2中文分詞
中文分詞是自然語言處理的一個極其重要的步驟,分詞的準確率對下一步的去停用詞和情感分析有極大的影響,本文采用結構化感知機去預測句子的切割序列。結構化預測就是給定一個模型λ及打分函數scoreλ(·),利用打分函數給一些備選結構打分,選取分數最高的結構作文預測輸出。
所以結構化感知機算法就應該如下:
(1)讀入樣本(x(i),y(i)),執行結構化預測公式(3)
(2)與預期結果對比,正確則獎勵特征函數的權重增加[ω←ω+Φx(i),y(i)],錯誤則[ω←ω-Φx(i),y(i)]
回到中文分詞,中文分詞可以看作是給文本進行序列標注的問題,即給每個字標注標簽,只有在在特定標簽的時候切割句子,本文定義了有四種標簽的標注集{B,M,E,S},分別代表這一個詞語的開始,中間,結束和單字詞語。序列標注的最大特點就是標簽之間的依賴性,在隱馬可洛夫模型中,這種模型是利用初始狀態向量和狀態轉移概率矩陣來體現這種依賴性。
1.3去除停用詞
停用詞一般是指文字中的代詞、語氣詞、稱謂詞和地點副詞等,這些詞語對于情感分析的影響不大,去除有助于提高系統的運行效率。本文通過將一些常用的無意義的符號和停用詞構建成停用詞詞典,然后使用詞典匹配的方式,過濾掉評論中的停用詞。
1.4貝葉斯分類
樸素貝葉斯是從古典的數學理論--貝葉斯原來得出的一種分類模型,它具有扎實的數學基礎和穩定的分類效率。貝葉斯分類是先用概率統計對訓練樣本進行分類,然后結合先驗概率和后驗概率,得出結果,避免只使用先驗概率來以偏概全。
1.4過濾惡意評論
惡意評論的過濾就是將前面貝葉斯分類中被分類到惡意評論的文本進行過濾。
2結束語
本文使用結構化感知算法訓練出一個線性模型,用來預測句子的分割序列,達到分詞的效果,結合樸素貝葉斯分類算法提取訓練樣本的特征,構建貝葉斯模型,預測評論文本的情感傾向,并且過濾其中的惡意評論。通過這種無監督的機器學習方法,克服了傳統的基于詞典的中文分詞和情感分析的對與OOV現象無可奈何的問題,擁有一定的解決新詞的能力,但是為了更好的適應網絡時代的發展,應該定期更新預料再次訓練獲取模型,從而達到更準確的結果。
參考文獻
[1]林欽,劉鋼.基于情感計算的商品評論分析系統[J].計算機應用與軟件,2014(12):39-44.
[2]肖江,王曉進.基于SVM的在線商品評論的情感傾向性分析[J].信息技術,2016(7):172-175.
[3]黃仁,張衛.基于word2vec的互聯網商品評論情感傾向研究[J].計算機科學,2014,34(8):2317-2321.
[4]宋恩梅,何帆.基于多網站的商品評論傾向性研究:以手機為例[J].圖書館學研究,2016(2):85-92.
[5]郭若男.基于Hadoop平臺的在線數據處理系統的設計與實現[D].北京郵電大學,2015.