基于機器學習的在線評論傾向性分析

2021-06-25 06:44:26支世堯

科學技術創新 2021年15期

支世堯彭棟朱旭

(南京審計大學信息工程學院,江蘇南京211815)

1 概述

隨著社交網絡的迅猛發展,互聯網上的用戶評論和觀點激增。這些隱含用戶情感傾向的文本在產品推薦、輿情監控以及信息預測等方面具有重要意義,并得到了廣泛應用。本次研究以去哪兒網站上南京地區如家和漢庭酒店的客戶評論為分析對象,運用樸素貝葉斯方法對評論文本進行傾向性分析研究。

2 傾向性分析

2.1 相關文獻

Pang[1]等人于2002 年針對電影評論數據進行傾向性分析,此次試驗首次應用機器學習算法。結果表明,基于SVM、NB 等機器學習方法的得出的實驗結果要優于大部分基于規則的算法。Ye[2]等人使用了N-gran、NB 以及SVM 三種方法進行了文本分類研究,研究結果表明,當訓練集不斷增大,NB 的分類效果與其余兩種漸趨統一。

2.2 研究思路

研究思路分為以下步驟:先使用爬蟲從去哪兒網站爬取所需的評論數據,接著對文本數據進行清洗和預處理,預處理包括中文分詞、詞性標注、停用詞去除等步驟,然后運用樸素貝葉斯方法對處理好的文本進行傾向性分析,最后對分類結果進行LDA 主題挖掘,圖1。

圖1 研究流程與框架

2.3 實驗數據集

數據采集:(1)如家酒店和漢庭酒店在2019 年的“中國連鎖酒店品牌規模排行榜”上占據前兩名。因此本次實驗以去哪兒網作為數據來源,爬取了該網站上南京的如家和漢庭酒店的用戶評價。(2)譚松波博士分享的標注了褒貶類別的10000 條中文酒店評論語料。

2.4 文本預處理

數據清洗:去除沒有分析價值的文本語料,包括:存在emoji表情符號與亂碼文本、存在大量無意義字符的文本、語料太短的無意義文本。經過數據清洗,最終獲取如家用戶評價21362 條和漢庭用戶評價18341 條。中文分詞:中文分詞任務是按照需求將中文文本切分為詞序列。未登錄詞識別和歧義消解是中文分詞的兩大難點。未登錄詞是指分詞詞典中沒有的詞或詞組,歧義是指對同一個待切分字符串存在多個分詞結果[3]。中文分詞算法可以分為機械分詞法、統計分詞法以及理解分詞法三種。在中文分詞過程中,很多工具通常是結合使用機械分詞法與統計分詞法。比如本文選用的自然語言處理工具-結巴分詞,就先采用機械分詞法進行中文分詞,然后利用HMM 識別未登錄詞,圖2。

圖2 隱馬爾可夫模型

詞性標注:詞性表示一個詞的特點以及在上下文中的作用。詞性標注是指在中文分詞的基礎上,根據詞在句子中的含義,結合上下文確定該詞在句子中的詞性,例如名詞、動詞等,并添加標簽的過程。由于中文中的詞組不具有前綴、后綴且詞性不固定,導致了中文的詞性標注相比較英文更加困難。中文的詞性標注算法可以分為兩大類:一是基于規則的詞性標注；二是基于統計算法的詞性標注。本文選用的NLP 工具-結巴分詞,就是同時采用詞典和HMM 對文本進行詞性標注。停用詞去除:停用詞一般出現頻率較高但自身卻不具有實際意義。本文采用正則表達式法將其過濾[4]。

2.5 模型訓練

通過查閱資料發現,基于樸素貝葉斯算法判斷積極、消極情感傾向,對訓練樣本有著較強的依賴性。為了提高效率以及準確率,本文直接使用了中科院計算所的譚松波博士分享的標注了褒貶類別的10000 條中文酒店評論語料。其中積極評價7000條,消極評價3000 條。抽取積極評價樣本6000 條和消極評價樣本2000 條進行訓練,將剩余的各1000 條評價樣本進行測試。訓練結果如表1 所示。

表1 模型訓練結果

基于樸素貝葉斯方法進行傾向性分析,其中消極評價準確率達到了82%,召回率達到81%；積極評價準確率達到了86%,召回率達到83%。該算法能較好地反映文本針對酒店評論的意見傾向數值。但由于消極評價訓練集樣本較少,無法完全學習消極評價特征,導致消極評價準確率較低。

2.6 實驗結果分析

利用上文得到模型,對已清洗過的酒店評論數據進行情感分析并收集所有包含標簽的情感評論文本,得到表2 所示結果。

表2 評論數目

經過傾向性分析得知,如家酒店積極評價數占比77%,消極評價數占比23%；漢庭酒店積極評價數占比75%,消極評價數占比25%。兩家酒店的消費者消極評價占比接近總評價數的1/4,說明消費者對兩家酒店不滿意的情況較多。即酒店自身需要重點關注消費者的消極評價,并對消費者關注的領域進行改進完善。若想直觀體現兩家酒店各自的優劣勢,只關注傾向性分析的結果還遠遠不夠。為了進一步展示兩家酒店的利弊,下面使用LDA 主題模型挖掘消費者對如家酒店和漢庭酒店的滿意和不滿的地方。