999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的在線評論傾向性分析

2021-06-25 06:44:26支世堯
科學技術創新 2021年15期
關鍵詞:文本評價

支世堯 彭 棟 朱 旭

(南京審計大學信息工程學院,江蘇 南京211815)

1 概述

隨著社交網絡的迅猛發展,互聯網上的用戶評論和觀點激增。這些隱含用戶情感傾向的文本在產品推薦、輿情監控以及信息預測等方面具有重要意義,并得到了廣泛應用。本次研究以去哪兒網站上南京地區如家和漢庭酒店的客戶評論為分析對象,運用樸素貝葉斯方法對評論文本進行傾向性分析研究。

2 傾向性分析

2.1 相關文獻

Pang[1]等人于2002 年針對電影評論數據進行傾向性分析,此次試驗首次應用機器學習算法。結果表明,基于SVM、NB 等機器學習方法的得出的實驗結果要優于大部分基于規則的算法。Ye[2]等人使用了N-gran、NB 以及SVM 三種方法進行了文本分類研究,研究結果表明,當訓練集不斷增大,NB 的分類效果與其余兩種漸趨統一。

2.2 研究思路

研究思路分為以下步驟:先使用爬蟲從去哪兒網站爬取所需的評論數據,接著對文本數據進行清洗和預處理,預處理包括中文分詞、詞性標注、停用詞去除等步驟,然后運用樸素貝葉斯方法對處理好的文本進行傾向性分析,最后對分類結果進行LDA 主題挖掘,圖1。

圖1 研究流程與框架

2.3 實驗數據集

數據采集:(1)如家酒店和漢庭酒店在2019 年的“中國連鎖酒店品牌規模排行榜”上占據前兩名。因此本次實驗以去哪兒網作為數據來源,爬取了該網站上南京的如家和漢庭酒店的用戶評價。(2)譚松波博士分享的標注了褒貶類別的10000 條中文酒店評論語料。

2.4 文本預處理

數據清洗:去除沒有分析價值的文本語料,包括:存在emoji表情符號與亂碼文本、存在大量無意義字符的文本、語料太短的無意義文本。經過數據清洗,最終獲取如家用戶評價21362 條和漢庭用戶評價18341 條。中文分詞:中文分詞任務是按照需求將中文文本切分為詞序列。未登錄詞識別和歧義消解是中文分詞的兩大難點。未登錄詞是指分詞詞典中沒有的詞或詞組,歧義是指對同一個待切分字符串存在多個分詞結果[3]。中文分詞算法可以分為機械分詞法、統計分詞法以及理解分詞法三種。在中文分詞過程中,很多工具通常是結合使用機械分詞法與統計分詞法。比如本文選用的自然語言處理工具-結巴分詞,就先采用機械分詞法進行中文分詞,然后利用HMM 識別未登錄詞,圖2。

圖2 隱馬爾可夫模型

詞性標注:詞性表示一個詞的特點以及在上下文中的作用。詞性標注是指在中文分詞的基礎上,根據詞在句子中的含義,結合上下文確定該詞在句子中的詞性,例如名詞、動詞等,并添加標簽的過程。由于中文中的詞組不具有前綴、后綴且詞性不固定,導致了中文的詞性標注相比較英文更加困難。中文的詞性標注算法可以分為兩大類:一是基于規則的詞性標注;二是基于統計算法的詞性標注。本文選用的NLP 工具-結巴分詞,就是同時采用詞典和HMM 對文本進行詞性標注。停用詞去除:停用詞一般出現頻率較高但自身卻不具有實際意義。本文采用正則表達式法將其過濾[4]。

2.5 模型訓練

通過查閱資料發現,基于樸素貝葉斯算法判斷積極、消極情感傾向,對訓練樣本有著較強的依賴性。為了提高效率以及準確率,本文直接使用了中科院計算所的譚松波博士分享的標注了褒貶類別的10000 條中文酒店評論語料。其中積極評價7000條,消極評價3000 條。抽取積極評價樣本6000 條和消極評價樣本2000 條進行訓練,將剩余的各1000 條評價樣本進行測試。訓練結果如表1 所示。

表1 模型訓練結果

基于樸素貝葉斯方法進行傾向性分析,其中消極評價準確率達到了82%,召回率達到81%;積極評價準確率達到了86%,召回率達到83%。該算法能較好地反映文本針對酒店評論的意見傾向數值。但由于消極評價訓練集樣本較少,無法完全學習消極評價特征,導致消極評價準確率較低。

2.6 實驗結果分析

利用上文得到模型,對已清洗過的酒店評論數據進行情感分析并收集所有包含標簽的情感評論文本,得到表2 所示結果。

表2 評論數目

經過傾向性分析得知,如家酒店積極評價數占比77%,消極評價數占比23%;漢庭酒店積極評價數占比75%,消極評價數占比25%。兩家酒店的消費者消極評價占比接近總評價數的1/4,說明消費者對兩家酒店不滿意的情況較多。即酒店自身需要重點關注消費者的消極評價,并對消費者關注的領域進行改進完善。若想直觀體現兩家酒店各自的優劣勢,只關注傾向性分析的結果還遠遠不夠。為了進一步展示兩家酒店的利弊,下面使用LDA 主題模型挖掘消費者對如家酒店和漢庭酒店的滿意和不滿的地方。

3 基于LDA 的評論主題挖掘

3.1 LDA 主題模型介紹

2003 年,David Blei 等三人[5]提出具有重要意義的LDA 主題模型(潛在狄利克雷分布,Latent Dirichlet Allocation),掀起了主題模型研究的浪潮。該模型有特征詞層、主題層、文檔層三個層次,實質就是利用文本的特征詞的共現特征來挖掘文本的主題。

LDA 主要是通過無監督學習,在眾多文本中挖掘其中隱含著的主題信息,提高用戶了解文檔內容的效率。其主要思想為:整個文本集是基于主題的概率分布,而每個主題又是基于特征詞的概率分布[6]。

3.2 LDA 流程

3.2.1 對使用樸素貝葉斯分類器完成情感分析的語料進行分詞。

3.2.2 使用向量化工具對于文本集進行向量化。

3.2.3 調用LDA 函數,獲得主題識別結果[7]。

3.3 LDA 主題挖掘結果展示

LDA 結果只有一系列用于描述該主題的高頻關鍵字。經過梳理總結,得到表3 結論。

表3 積極評價主題挖掘結論

積極評論主題挖掘結論兩家酒店基本相同,可見兩家酒店的優勢無太大差異。消極評論主題挖掘結論才是影響消費者選擇的重點,表4-5。

表4 消極評價主題挖掘結論

表5 消極評價主題挖掘結論

兩家酒店的消極評論主題挖掘結論有部分差異,但也有許多相似點,這些可以說是經濟型快捷酒店的通病。

4 結論

本文對兩家酒店的用戶評論進行傾向性分析和LDA 主題挖掘,分析出兩家酒店各自的優點和缺點,為消費者的選擇提供了幫助。也希望兩家酒店的管理人員在發揚優點的同時對各自的缺點加以改進,為消費者提供更優質的服務。

猜你喜歡
文本評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統評價再評價
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 91无码人妻精品一区| 亚洲AV电影不卡在线观看| 国产后式a一视频| 亚洲精品在线观看91| 亚洲码一区二区三区| 国产簧片免费在线播放| 国产在线无码一区二区三区| 欧美69视频在线| 99热免费在线| 欧美曰批视频免费播放免费| 亚洲色图欧美视频| 麻豆精品视频在线原创| 亚洲男人在线| 久久精品最新免费国产成人| 亚洲综合婷婷激情| 97国产在线视频| 狠狠色综合久久狠狠色综合| 亚洲男女在线| 在线永久免费观看的毛片| 国产日韩久久久久无码精品| 美女国产在线| 欧美色图久久| 九九热在线视频| 无码专区在线观看| 亚洲天堂网在线观看视频| 在线亚洲天堂| 国产精品人人做人人爽人人添| 国产微拍精品| 伊人久久大香线蕉aⅴ色| 欧美精品三级在线| 草逼视频国产| 日韩精品毛片人妻AV不卡| 99性视频| 国产不卡网| 久久五月天综合| 久久久久久久久亚洲精品| 国产在线98福利播放视频免费| 国产综合在线观看视频| 色老头综合网| 嫩草国产在线| 波多野结衣一二三| 乱系列中文字幕在线视频| 国产视频入口| 九九热精品视频在线| 国内精自视频品线一二区| 伊人久久福利中文字幕| 免费一级全黄少妇性色生活片| 中文字幕无码制服中字| 亚洲αv毛片| 超碰91免费人妻| 久久人人妻人人爽人人卡片av| 国产精品露脸视频| 97国产一区二区精品久久呦| 国产精品任我爽爆在线播放6080| 毛片卡一卡二| AV熟女乱| 国产免费观看av大片的网站| 日本欧美午夜| 日韩天堂网| 国产成人一级| 在线播放真实国产乱子伦| 久久影院一区二区h| 国产日韩久久久久无码精品| 国产小视频a在线观看| 久久伊人操| 超碰精品无码一区二区| 国产成人91精品免费网址在线 | 国产一级毛片yw| 国产精品不卡片视频免费观看| 国模在线视频一区二区三区| 国产欧美在线视频免费| 伊人成人在线视频| 日本人妻一区二区三区不卡影院| 亚洲精品无码久久毛片波多野吉| 四虎成人精品在永久免费| 亚洲丝袜中文字幕| 亚洲V日韩V无码一区二区| 国产a在视频线精品视频下载| 亚洲第一视频免费在线| 国产一级裸网站| 国产经典免费播放视频| 久久国产亚洲偷自|