劉思佳 華南師范大學計算機學院
互聯網的快速發展推動了電子商務的不斷普及,依托于電商平臺的商品不斷興起,而商品帶來的商品評論中的情感傾向性分析逐漸成為當前的研究熱點。本系統的目的是通過充分挖掘網上豐富的評論資源,研究并創建一個具有實用性的互聯網商品評價情感分析系統。此系統能夠自動分析來自互聯網的海量評論,同時分析結果的表達方式也因顧客的需求有所不同,這樣可以對商品的市場反饋進行分析,為生產商提供熱銷品的類別,同時也幫助顧客對商品進行了篩選。
面對如此所參差不齊的評論,商品的生產商或服務的提供商無法提供精準滿足客戶需要的商品,從而在生產的過程中做了很多無用功。而依據本文設計的系統生產商和服務商能夠及時了解本企業所提供的商品或服務的反饋信息,為改善產品性能、提高服務質量贏得更快和更有效的機遇,這相當于為企業節約了大量的市場調研和市場反饋信息獲取的成本,間接地加快了企業產品、服務升級的進程。

圖1 系統框架示意圖
2.1.1 自動獲取評論內容
為了提高程序運行速度、可讀性,提高編寫抓取程序的效率,本文運用了python的擴展庫lxml以及xpath。XPath可用來在XML文檔中對元素和屬性進行遍歷,可以在XML文檔中查找信息。而lxml庫則可以快速正確地分析xml文檔。將HTML看成是XML的特殊形式,所以可以使用Xpath來表示一個評論在此HTML文檔中的具體位置,并且xpath可以使用工具自動生成,保證了準確率和效率。此后使用lxml提供的方法,可以高效的提取出需要的信息。
2.1.2 預處理
經過自動獲取評論內容這個步驟之后,后續重要的一步是進行預處理。預處理包含兩個步驟,第一,去除噪音字符。此外,重復的標點符號再這一步也應該相應的去除。由于抽取出的文本不含結構化信息,是自然文本,所以如果存在兩個相同的標點,“斷句”處理勢必會造成錯誤,影響進一步的分析。此外空行空格也要去除。第二,“斷句”和“分詞”。漢語中要想表達一個完整的意思,最小的組成單位是一個句子,所以關鍵詞的選取必須要以“句”為基礎,之后再逐個分析句中詞匯,若斷句或分詞錯誤,勢必影響系統的最終結果。所以預處理是整個系統的前提,也是關鍵。
在日然語言處理過程中涉及的基本問題是詞性標注和分詞,但因為語言的復雜性,甚多情況下文本信息的提取有偏差,基于以上存在的問題,對文本進行語義理解和語法結構分析的時候采用了更為先進的自然語言處理技術。為了達到更高的句中感情細膩度的表達,首先對評價對象的特征進行了挖掘,并進一步找出其對應的情感詞,舉例來說評價對象為餐廳的話,其特征就有環境、服務、餐飲等。
本項目基于自然語言處理,機器學習技術,使用文本傾向性分析技術,自動分析提取評論關鍵內容,為用戶量身定制商品特征分類規則,顏色標記評論關鍵信息,評論結果以圖形形式顯示,最終設計并實現商品評論傾向性分析系統。使得用戶可以快速獲取海量評論信息的真正價值,其分析結果只管、清晰、界面友好。可根據用戶需要對商品特征進行歸類,對于類似商品的比對功能可以給用戶提供方便,使得用戶在選購商品時更加科學、高效、方便。