999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘和情感分析方法的“智慧旅游”服務質量感知研究

2023-06-25 12:14:08郭佳怡方博平陸欣怡王妮宋濤
現代信息科技 2023年6期

郭佳怡 方博平 陸欣怡 王妮 宋濤

摘? 要:智慧旅游是推動智慧城市發展的重要手段。隨著網絡評論在旅游生態中的地位顯著提升,如何通過網評文本反映游客的消費體驗、服務質量反饋與情感訴求,吸引游客消費、取得競爭優勢,成為景區管理人員與主管部門的一項重要工作。基于文本挖掘和情感分析方法,選取景區和酒店網評文本,識別旅游景點現狀的問題和痛點,設計科學、客觀的綜合評價體系,為景區與酒店等相關經營者、文旅部門做出更優決策提供理論支撐和數據支持。

關鍵詞:智慧旅游;情感分析;TF-IDF算法;DBSCAN聚類;LDA主題模型

中圖分類號:TP391;O235? ? 文獻標識碼:A? 文章編號:2096-4706(2023)06-0001-06

Research on Service Quality Perception of “Smart Tourism” Based on Text Mining and Sentiment Analysis Methods

GUO Jiayi1, FANG Boping1, LU Xinyi1, WANG Ni1, SONG Tao1,2

(1.School of Science, Huzhou University, Huzhou? 313000, China;

2.Huzhou Key Laboratory of Data Modeling and Analysis, Huzhou? 313000, China)

Abstract: Smart tourism is an important means to promote the development of the smart city. With the significant promotion of online comments in the tourism ecology, how to reflect tourists' consumption experience, service quality feedback and emotional demands through online comments text, so as to attract tourists' consumption and gain competitive advantages, has become an important task for scenic spot managers and competent departments. Based on text mining and sentiment analysis methods, the online comments text of scenic spots and hotels are selected to identify the problems and pain points of the current situation of tourist attractions, and a scientific and objective comprehensive evaluation system is designed to provide theoretical and data support for the scenic spots, hotels and other related operators and cultural tourism departments to make better decisions.

Keywords: smart tourism; sentiment analysis; TF-IDF algorithm; DBSCAN clustering; LDA theme model

0? 引? 言

在智慧城市的快速規劃和發展進程中,智慧旅游的建設源源不斷地為智慧城市建設提供動力。各類旅游網站和手機APP所轄的網評平臺為收集海量旅游用戶評論數據提供了方便。但如何對旅游景區滿意度進行用戶情感分析,快速有效篩選和分析有效的評論,成為亟待解決的問題[1-3]。針對此問題,劉曉彤等提出了基于機器學習方法的在線評論情感分析技術以實現游客評論的情感數據挖掘[1];謝宗彥等[2]基于word2vec工具,程海琪[3]基于情感分類方法對酒店評論進行情感分類和主題挖掘;石文華等基于情感傾向和對在線評論進行有用性影響因素研究[4];田韶存針對用戶評論提出了一種與評論主題相關的權重方式[5];羅新引入集成學習方法中的隨機森林算法進行了評論文本的分類模型研究[6];阮光冊采用LDA主題挖掘技術進行了文本主題挖掘研究[7]。然而,這些研究所提出的分類和排序模型依然存在準確度較低的問題,難以應用到大規模的旅游服務平臺中。

為了進一步提高游客評論信息在旅游服務平臺上的分析準確度,本文基于數據挖掘技術提出了針對游客評論數據的情感分類和有效篩選技術。利用收集自互聯網公開來源的景區酒店評價文本,采用TF-IDF算法對文本數據進行關鍵詞提取,結合語義網絡分析,獲取印象熱詞;選取K-means聚類算法獲取游客滿意度影響因素,建立基于情感分析的游客滿意度評價模型;利用隨機森林(Random Forest)依據多項指標篩選有效評論,構建文本有效性評價體系;最后將情感分類和LDA主題挖掘進行融合,建立LDA主題挖掘模型,挖掘景區酒店的亮點特色。

1? 數據預處理

1.1? 數據清洗

數據來源為互聯網公開渠道。數據清洗的過程主要包括文本去重、壓縮去詞、短句刪除等。利用Python程序判斷并刪除語料庫中存在的完全重復文本。使用同義詞詞庫和繁轉簡詞庫去除繁體字和近義詞。

1.2? 中文分詞

基于Python語言,預處理選擇中文分詞模塊jieba對評論進行分詞,采用精確模式用于去除文本標注的無效信息為后續進一步處理做準備。對于不帶情感的虛詞與實詞的組合也可以表達情感傾向這一問題,本文借鑒N-gram語言模型特點,以知網HowNet情感詞典為基礎,抽取評論預料中常見組合單元構建自定義分詞詞典。獲取每一個詞的TF-IDF值,采用Gensim模塊的Corpora函數以及Model函數進行處理,使用TF-IDF算法訓練數據,提取TF-IDF值靠前的100個詞匯作為自定義詞典,基于自定義詞典對網評文本進行分詞,得到更精確的結果。

1.3? 去停用詞

建立停用詞字典,結合中文停用詞表、哈工大停用詞表、百度停用詞表,在分詞以后去除停用詞和標點符號。對文本數據分詞后去停用詞的部分結果如表1所示。

2? 熱詞提取

2.1? 基于TF-IDF算法的關鍵詞提取

TF-IDF(詞頻-逆文檔頻次算法)是一種基于統計的計算方法,常用來評估在一個文檔中一個詞對某文檔的重要程度。基于TF-IDF算法,分別選取景區和酒店10個關鍵詞。結果如表2所示。

2.2? 語義網絡分析

研究景區及酒店評論的文本數據時,利用語義網絡分析可以挖掘出詞項之間的語義關聯,在一定程度上可以將由分詞所導致的凌亂的文本結構關系重新整合,從而還原出單獨詞項無法表達出的部分原始文本信息。語義網絡圖常被用于提取游客選擇目的地的關注點。由于中文分詞會打亂原來的語句結構、語義關系,通過語義網絡能夠很好地重建語義之間的聯系,從中得出潛藏的信息。使用Networkx生成所需語義網絡圖,實現分析網絡的結構、構建網絡的模型、設計新的網絡算法、繪制網絡等功能。

3? 游客滿意度評價模型構建

3.1? 熱詞挖掘

3.1.1? 定義熱度指標

熱詞,即熱門詞匯,反映了特定人群在某段時間普遍關注的問題和事物。綜合考慮,選取以下指標進行熱度評價,對每個景區和酒店分別計算熱度指標:

(1)該目的地的評論數量n,評論數量是熱度的重要表現。

(2)該目的地最早評論日期與最晚評論日期的間隔天數m,熱點問題往往在較短時間內集中產生。

(3)該目的地評論的正向情感次數a與負向情感次數b,評論中越多情感次數反映更多的關注度。

綜上,則目的地熱度公式為:

(1)

(2)

3.1.2? 熱度計算

基于以上提出的熱度評價指標體系,計算各景區、酒店熱度值。再利用公式計算每個詞的熱度值,最后得到每個景區及酒店中熱門詞熱度如表3、表4所示。

3.2? 游客滿意度因素分析

獲取景區及酒店游客滿意度影響因素過程在滿意度理論和相關研究的基礎上進行。提取TF-IDF值靠前詞匯作為游客滿意度二級影響因素,采用Word2Vec模型對二級影響因素詞匯進行向量化處理,最后采用K-means聚類獲取詞向量的聚類結果。綜合聚類與內容分析結果,定義服務、位置、設施、衛生、性價比五個指標為滿意度一級影響因素。景區和酒店綜合評價體系如表5、表6所示。

3.3? 基于情感分析的游客滿意度評價模型

3.3.1? 計算情感得分

將評論劃分為短句,應用情感傾向分析接口對包含主觀信息的文本進行情感傾向性類別(積極、消極和中性)的判斷。定義positive_prob、negative_prob、confidence分別表示評論的積極類別概率、消極類別概率和置信度。定義sentiment表示評論的情感傾向,sentiment有2種取值,0表示負向,1表示正向。

滿意度模型各指標構建如下所示:

(1)計算二級影響因素滿意度得分sj,sj表示第j個二級影響因素的滿意度得分,由于量化后的滿意度影響因素情感極性值在0~1之間,為了統一性,滿意度按照5分制滿分的評價標準進行計算:

(3)

其中? 表示第j個二級影響因素所包含評價單元的積極概率和的平均值, 表示消極概率和的平均值。

(2)計算二級影響因素權重ωij,ωij表示第i個一級影響因素下第j個二級影響因素測評指標的權重:

(4)

其中? 表示第i個一級影響因素下第j個二級影響因素的TF_IDF值的和, 為第i個一級影響因素下第j個二級影響因素的TF_IDF值。

(3)計算一級影響因素權重ωi,ωi表示一級游客滿意度影響因素中第i個測評指標權重:

(5)

其中, 表示第i個一級影響因素下第j個二級影響因素的TF_IDF值的和的均值。

(4)構建基于情感分析的游客滿意度評價模型,計算整體滿意度得分HCSI:

(6)

3.3.2? 滿意度劃分標準

綜合情感得分結果并結合游客滿意度相關研究,確定評價指標體系。以情感極性值為基礎來確定二級影響因素的滿意度得分,采用預處理中 TF-IDF算法得到的結果作為基礎,計算兩級影響因素的權重。根據二級指標的權重得到一級指標得分,最后根據一級指標權重計算整體游客滿意度得分,制定相關滿意度等級,劃分結果如表7所示。

游客滿意度為高,則該景區或酒店對應的綜合評價為高層次;游客滿意度為中,則綜合評價等級為中;游客滿意度為低,則對應的景區或酒店的綜合評價等級為低。

4? 基于隨機森林的信息質量有效性分析

4.1? 文本有效性評價指標體系

根據旅游評論信息的特點,從信息內容質量和信息表達形式質量兩個方面構建文本有效性評價指標體系。

4.1.1? 信息內容質量

(1)時效性。文本內容的時效性是指消費者一定時間內感受到內容價值的屬性,信息內容的時效性表明時間能夠決定信息的效用。本文設置參數σ,評論及時性(X_1)的取值范圍控制在[0-10],計算公式為:X_1=[T_max-(T_w-T_r)]/σ。其中T_max是評論發布時間和評論閱讀時間的最大差值,T_w是評論發布時間,T_r是評論閱讀時間,σ取值為T_max/10。

(2)情感性。評論文本中情感詞的頻率很難表達評論中表達的積極或消極情緒的強度,本文基于Hownet情感詞典,根據情感詞典中對應詞的相似度對采集到的文本進行評分,考慮程度副詞和否定詞對情感值計算的影響,加權計算句子情感強度,輸出評論文本的情感極性和強度。

(3)相關性。評論內容的相關性即評論中產品特征的豐富性,由評論中包含的目的屬性特征詞來量化。屬性特征詞通常為名詞或形容詞,是目的地本身及其相關服務的客觀表達。本文提取文本細節內容,通過分詞、詞性標注等處理得到目的地評論詞集合C1。根據TF-IDF詞頻的統計對名詞和形容詞進行要素量化,得到屬性特征詞集C2。構建空間向量模型,匹配評論詞集C1和屬性特征詞集C2,統計評論中每個特征詞的出現頻率。

4.1.2? 信息表達形式質量

(1)完整性。網評文本的深度主要是指對目的地特征的詳細描述。本文統計了每條評論的字數,統計所得字符數分布較為不均,對字符數進行取對數,Length=Ln(Nr),其中 Nr 為評論字數。

(2)可理解性。評論的可理解性指文本前后的關聯性。本文利用語義文本向量度量評論的可理解性。向量語義的概念是將一個單詞表示為多維語義空間的一個點。表示單詞的向量嵌入到特定的向量空間中。

4.1.3? 關聯分析

(1)DBSCAN聚類。聚類是一種簡單有效的數據挖掘技術。聚類是按照一定的標準將一些事物劃分為若干類別的過程。相似的被聚為一類,不相似的被聚為不同的類。聚類算法種類繁多,比較常見的有:K-means聚類、密度聚類、DBSCAN聚類等。

現采用的是DBSCAN聚類算法。DBSCAN聚類的模型構建思路如圖1所示。

(2)Apriori算法。Apriori算法是一種基本的發現頻繁項集的算法。Apriori算法由連接和剪枝兩個步驟組成。連接是找到Lk,通過L(k-1)與自己連接產生候選k項集的集合Ck;剪枝是通過計算每個k項集的支持度來得到Lk,為減少計算量,可利用到該算法的性質即如果一個k項集的(k-1)項子集不在L(k-1)中,則該候選也不是頻繁的,可以直接從Ck中刪除。其中支持度、置信度、提升度是用來衡量關聯性強弱的三個核心指標。

關聯規則的模型構建思路如圖2所示。

(3)關鍵技術路線。評論文本數據需要進行文本分析,研究技術路線復雜,涉及分詞、去停用詞、詞數統計等步驟。核心技術步驟如圖3所示。

4.2? 隨機森林分類模型

隨機森林算法具有泛化性強、穩健性、對噪聲不敏感、能處理連續屬性等特點,適合用于建立文本分類模型。在文本有效性評估時,選用隨機森林進行分類。

4.2.1? 參數選擇

建立隨機森林分類模型時設置3個重要可調參數:

(1)nodesize表示包含樣本的葉節點數,節點大小為1表示分類,5表示回歸,取nodesize=1。

(2)ntree表示森林中樹的數目,ntree值足夠大時,可保證隨機森林的總體誤差率趨于穩定。實證表明ntree=59時分類效果最好,準確率達到0.823 5。

(3)mtry表示每個節點的候選特征數,是影響隨機森林模型性能最明顯的參數。在分類中mtry建議值是整個變量個數的均方根,因此取mtry=7。

4.2.2? 隨機森林分類模型效果評價

對于有效性分類預測預實驗的評價標準,現采用統計學領域常見的精度(Accuracy)、查準率(Precision)、查全率(Recall)、F1值(F-measure)作為綜合評價指標。結果顯示準確率為82.35%,即所有被預測的樣本,預測正確的概率為82.35%;精確率為80.77%,說明分類器識別樣本的能力較好;召回率為98.45%,表示被預測的所有正樣本,能夠被正確預測的占比;F1值是一個綜合的評價指標,為78.02%。

4.3? 高效評論排序模型

分類模型在一定程度上降低了游客獲取信息的時間成本,但高效評論的數量仍然眾多。如何向游客優先展示最高效的評論是一個重要的問題。建立基于LDA的排序模型主要過程如下:

(1)數據預處理。對評論分詞,與停用詞表進行匹配,去除無用詞,減少評論的噪音。

(2)構建高效評論-詞頻矩陣。采用向量空間模型構造文本向量,用TF-IDF函數變換。

(3)LDA建模。主要使用的是建模后得到的評論主題分布表,得到每個主題詞在每條評論中的概率,為排序模型做準備。

(4)關鍵詞向量計算。提取所有評論關鍵詞,構造最優關鍵詞向量,取值為TF-IDF。

(5)基于LDA的排序模型構建。根據評論主題表,計算評論主題信息的熵值,并基于該值對評論進行排序。

5? 基于TextCNN的主題挖掘模型構建

采用TextCNN卷積神經網絡分類器對文本數據進行分類,將各情感單元分類到各二級影響因素下,為后續對各景區和景點的積極高效評論文本集進行主題挖掘,打好基礎,進一步發掘其各自優勢和特色。主題挖掘思路為:

(1)對使用卷積神經網絡分類好的文本進行分詞。

(2)使用Counter Vectorizer(Python中scikit-learn矢量化工具)對文檔集合進行向量化。

(3)在scikit-learn工具箱中調用Latent Dirichlet Allocation函數,在參數調整和可視化結合下,選定主題數為4。

(4)經過最多40次迭代,初步識別出主題。

LDA主題挖掘部分結果如表8所示。

6? 結? 論

本文通過構建合理的指標選擇和嚴謹的模型設計,以景區及酒店的評論文本集作為數據源,利用文本挖掘和情感分析技術,針對游客評論信息展開多角度研究。主要工作包括:

(1)將數據預處理后,首先根據構建的熱度計算指標體系,得到各家景區及酒店的熱度值;其次將提取的關鍵詞作為二級影響因素,選取K-means聚類法并結合內容分析法得到一級影響因素,計算情感得分,構建基于情感分析的游客滿意度評價模型。

(2)首先根據信息質量理論構建文本有效性評價指標體系,依據信息內容質量的三個指標和信息表達形式的兩個指標,利用隨機森林進行有效性分類,并對分類模型進行效果評價;其次構建基于主題挖掘的排序模型,根據分類和排序結果進行分析。

(3)基于評論短文本情感傾向性分析結果和有效性分析結果,得到一個積極且有效的評論文本集,并進行LDA主題模型訓練與構建,挖掘景區及酒店個性化特色。

本文基于數據挖掘技術提出了針對游客評論數據的情感分類模型和有效篩選技術,并構建了多指標有效性評價體系,下一步的工作是在獲得的計算機軟件著作權[8]的基礎上進一步優化情感和主題挖掘模型,開發識別準確率更高的旅游景區印象分析系統。

參考文獻:

[1] 劉曉彤,田大鋼.融合深度學習與機器學習的在線評論情感分析 [J].軟件導刊,2019,18(2):1-4.

[2] 謝宗彥,黎巎,周純潔.基于word2vec的酒店評論情感分類研究 [J].北京聯合大學學報,2018,32(4):34-39.

[3] 程海琪.基于情感分類的酒店評論短文本主題挖掘 [D].杭州:浙江工商大學,2020.

[4] 石文華,高羽,胡英雨.基于情感傾向和觀察學習的在線評論有用性影響因素研究 [J].北京郵電大學學報:社會科學版,2015,17(5):32-39.

[5] 田韶存.在線社區用戶評論有用性研究 [D].濟南:山東大學,2014.

[6] 羅新.基于隨機森林的文本分類模型研究 [J].農業圖書情報學刊,2016,28(11):50-54.

[7] 阮光冊.基于LDA的網絡評論主題發現研究 [J].情報雜志,2014,33(3):161-164.

[8] 郭佳怡,唐矛寧,宋濤,等.旅游景區印象分析系統V1.0:2022SR0471334 [P].2022-04-14.

作者簡介:郭佳怡(2001—),女,漢族,山東濟南人,本科在讀,研究方向:數據挖掘;通訊作者:宋濤(1980—),男,江蘇句容人,漢族,講師,博士,研究方向:復雜系統大數據分析、建模與仿真。

收稿日期:2022-10-28

基金項目:浙江省自然科學基金(Z22A013952);浙江省教育廳科研項目資助(Y202248528);浙江省大學生科技創新活動計劃項目新苗人才計劃(2022R431A016);湖州師范學院大學生創新創業訓練科研項目(202101172)

主站蜘蛛池模板: 国产精品一老牛影视频| 91系列在线观看| 色婷婷国产精品视频| 欧美国产日韩一区二区三区精品影视| 亚洲av中文无码乱人伦在线r| 日韩av无码DVD| 91免费精品国偷自产在线在线| 激情视频综合网| 亚洲三级色| 毛片免费视频| 亚洲无码免费黄色网址| 中国精品久久| 久久动漫精品| 在线观看精品自拍视频| 国产欧美精品午夜在线播放| 国产在线一区视频| 国产欧美日韩精品第二区| 午夜精品久久久久久久无码软件 | 亚洲欧美不卡中文字幕| 国产青榴视频| 99视频在线免费观看| 精品国产欧美精品v| 在线观看免费国产| 国产无码精品在线播放| 亚洲一区二区约美女探花| 日韩一区精品视频一区二区| 成人国产免费| 日本www色视频| 国产原创第一页在线观看| 日韩欧美视频第一区在线观看| 久久精品66| 亚洲精品制服丝袜二区| 欧美有码在线观看| 激情视频综合网| AV不卡无码免费一区二区三区| 亚洲中文久久精品无玛| 午夜精品久久久久久久无码软件| 久青草免费在线视频| av性天堂网| 亚洲日韩AV无码一区二区三区人| 国产一二三区视频| 亚洲一区二区在线无码 | 久久香蕉国产线看精品| 国产亚洲欧美在线视频| 无码日韩人妻精品久久蜜桃| 国产精品毛片一区| 久久午夜夜伦鲁鲁片无码免费| 亚洲精品不卡午夜精品| 亚洲an第二区国产精品| 天堂岛国av无码免费无禁网站| 狠狠色成人综合首页| 国产超碰一区二区三区| 丁香五月亚洲综合在线| 91在线播放免费不卡无毒| 精品91视频| 亚洲人成网站色7777| 中文字幕在线日本| 尤物国产在线| 男女性午夜福利网站| 人妻出轨无码中文一区二区| 激情综合图区| 天天躁夜夜躁狠狠躁躁88| 四虎永久在线视频| 无码精油按摩潮喷在线播放| 国产91九色在线播放| 4虎影视国产在线观看精品| 亚洲日韩精品无码专区97| 欧美日韩综合网| 国产一线在线| 国产精品私拍99pans大尺度 | 呦系列视频一区二区三区| 国产在线欧美| 国产欧美视频在线| 亚洲日韩高清在线亚洲专区| 五月天在线网站| 亚洲不卡av中文在线| 男女男精品视频| 日韩精品少妇无码受不了| 四虎成人在线视频| 亚洲美女久久| 日韩精品专区免费无码aⅴ| 99精品伊人久久久大香线蕉 |