999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的旅游目的地印象分析和評價研究

2025-03-26 00:00:00姚丹丹申峻強胡濤
電腦知識與技術(shù) 2025年5期

摘要:旅游目的地美譽度是旅游企業(yè)和政府部門關(guān)注的熱點。文章數(shù)據(jù)來自“泰迪杯”數(shù)據(jù)挖掘挑戰(zhàn)賽的數(shù)據(jù)集。首先分析景區(qū)及酒店數(shù)據(jù),得到Top熱詞及頻率。然后根據(jù)LDA主題模型構(gòu)成主題詞典,根據(jù)主題詞對每個景區(qū)酒店進(jìn)行匹配得出概率值,結(jié)合熵權(quán)法計算綜合得分。使用TF-IDF算法分析景區(qū)及酒店網(wǎng)評的有效性,利用K-means算法對景區(qū)及酒店聚類分析,得到高中低不同檔次群,結(jié)合熱詞算法得到每個類別的特征。最后結(jié)論表明影響游客滿意度的因素主要有5個方面,分別是服務(wù)、位置、設(shè)施、衛(wèi)生、性價比,特別是衛(wèi)生環(huán)境影響較大。政府部門和旅游相關(guān)企業(yè)可重點在這5個要素方面下功夫,為游客創(chuàng)造舒適的消費體驗,達(dá)到吸引游客、提升競爭優(yōu)勢的目的。

關(guān)鍵詞:TF-IDF算法;熵權(quán)法;K-Means;旅游目的地;美譽度

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2025)05-0054-04 開放科學(xué)(資源服務(wù)) 標(biāo)識碼(OSID) :

0 引言

旅游業(yè)已成為國民經(jīng)濟的重要支柱,提升旅游目的地形象至關(guān)重要。提升景點、酒店等旅游景點的知名度,已經(jīng)成為當(dāng)?shù)匚穆霉芾聿块T和相關(guān)企業(yè)的重要任務(wù),關(guān)系到如何穩(wěn)定客流、發(fā)揮同行優(yōu)勢,吸引更多游客進(jìn)行消費。

本文主要研究旅游目的地的景區(qū)及酒店的印象分析和評價,通過對數(shù)據(jù)集中的景區(qū)及酒店網(wǎng)評文本分析,圍繞游客印象因素建立模型,提煉特色并綜合評價景區(qū)和酒店。論文按數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、建立模型,得出結(jié)論等步驟實現(xiàn)。首先利用Python的數(shù)據(jù)分析函數(shù)和相關(guān)模塊,實現(xiàn)數(shù)據(jù)清洗等預(yù)處理,然后從景區(qū)酒店的評價、網(wǎng)評的有效性、特色分析等方面展開數(shù)據(jù)挖掘研究。分析影響目的地游客滿意度的因素,向相關(guān)部門和公司提出合理化建議,能有效地提高游客滿意度,最終提高目的地的聲譽。

1 算法介紹

1.1 TF-IDF 算法

詞頻是指文本中詞條的頻率。通常來說,某個詞在文檔中出現(xiàn)的詞頻越高,則在文檔中的權(quán)重越高,成為關(guān)鍵詞的可能性越大[1]。逆向文件頻率[2]:對于一個詞,可以用文檔總數(shù)來除以包含這個詞的文檔數(shù)量,將得到的商取得對數(shù)算出IDF。高權(quán)重的TF-IDF 值能剔除常見的詞,保留重要的詞。

1.2 LDA 主題模型

文檔主題生成模型[3]由3層結(jié)構(gòu)組成,包括詞、主題和文檔。通過無監(jiān)督的學(xué)習(xí)方法發(fā)現(xiàn)文本中隱含的主題信息,目的是要以無指導(dǎo)學(xué)習(xí)的方法從文本中發(fā)現(xiàn)隱含的語義維度。它是一種無監(jiān)督的文檔主題生成模型,認(rèn)為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程,這些主題被集合中的所有文檔所共享,每個文檔有一個特定的主題比例。

1.3 K-means 聚類

K均值聚類也被稱為一種快速聚類算法,它基于最小化誤差函數(shù)將數(shù)據(jù)劃分為預(yù)定類數(shù)數(shù)量k。該算法通俗易懂,易于處理大量數(shù)據(jù)。

K-means[4]的算法步驟為:

1) 從數(shù)據(jù)對象中任意選擇k個對象作為初始聚類中心a = a1,a2,...,ak。

2) 根據(jù)每個聚類對象的均值中心對象,計算每個對象與這些中心對象的距離,并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分。

3) 重新計算每個有變化聚類的均值中心對象。

4) 重復(fù)上面2、3兩步操作,直到每個聚類不再發(fā)生變化為止。

2 數(shù)據(jù)分析及挖掘模型構(gòu)建

2.1 景區(qū)及酒店的印象分析

酒店和景區(qū)各50家,酒店評論共25 226條,景區(qū)評論59 107條。利用Python的pandas庫,Jieba分詞等實現(xiàn)數(shù)據(jù)預(yù)處理。去除重復(fù)評論、英文、數(shù)字及特殊的標(biāo)點符號后,酒店評論有22 789條數(shù)據(jù),占原數(shù)據(jù)的90.3%,景區(qū)評論有58 411 條數(shù)據(jù),占原數(shù)據(jù)的98.8%,可以進(jìn)行數(shù)據(jù)挖掘。本文結(jié)合中文停用詞列表和百度停用詞列表,從文本中剔除離、都、很、比較等停用詞。景區(qū)、酒店的評論內(nèi)容用Pandas 中的GroupBy分組函數(shù)進(jìn)行聚合并讀取進(jìn)來,在循環(huán)中進(jìn)行對每一家的評論進(jìn)行分詞、過濾停用詞、寫入列表final,用Counter 將final 轉(zhuǎn)化成詞典,用counts.items() 進(jìn)行詞頻統(tǒng)計,然后根據(jù)詞頻用sorted()進(jìn)行降序排序,讀取前20熱詞與熱度,寫入以每家酒店、景區(qū)命名的.csv文件。如圖1和圖2所示。從圖中可以看出,A30景區(qū)評論集中在動物和動物園等詞,H13酒店側(cè)重在服務(wù)和早餐等方面。

2.2 景區(qū)及酒店的綜合評價

本模塊通過評論文本進(jìn)行分詞,利用LDA 主題模型對每個主題的300個主題詞進(jìn)行輸出,提取主題詞。根據(jù)讀取出的單詞來進(jìn)行挑選,將挑選出的詞作為景區(qū)主題的詞典。同理,酒店也可以這樣獲得主題詞典。再借助陳天琪等[5]對景區(qū)評價和繆章偉等[6]對酒店評價主題歸納的結(jié)果,對景區(qū)及酒店評價的相關(guān)主題詞進(jìn)行了擴充和豐富,分別歸納景區(qū)和酒店的評價維度和具體分類下的主題詞。景區(qū)的主題詞典如表1所示。

對景區(qū)酒店各個指標(biāo)進(jìn)行匹配統(tǒng)計,再與總數(shù)相除得出概率值寫入Excel表格。根據(jù)景區(qū)酒店每個指標(biāo)的概率對各個酒店景區(qū)進(jìn)行打分,得分結(jié)果在0~5 之間。通過用熵權(quán)法,對景區(qū)酒店的得分進(jìn)行比值歸一化處理,計算各個指標(biāo)的熵值,計算權(quán)系數(shù)得出酒店景區(qū)的指標(biāo)權(quán)重如表2所示。

因此,可以使用熵權(quán)法計算出的權(quán)值乘以對應(yīng)的指標(biāo)得分計算出綜合得分。計算出的得分結(jié)果保留兩位小數(shù),部分結(jié)果如表3所示。

2.3 網(wǎng)評的有效性分析

經(jīng)過之前的文本臟數(shù)據(jù)處理,得到了一個較為“干凈”的文本數(shù)據(jù)。文本的有效性[7]是用戶接收評論信息的效率。本文采用sklearn中的TF-IDF算法輔助提取關(guān)鍵詞根據(jù)。需要將文檔進(jìn)行歸并,再利用pan?das實現(xiàn)。然后,通過文本分詞、過濾停用詞,最后利用TF-IDF算法生成一個TF-IDF值得矩陣。 通過每個TF-IDF值來確定每個酒店或景區(qū)評論文本中的關(guān)鍵字。根據(jù)TF-IDF的值來進(jìn)行排序,封裝了一個sort()排序函數(shù),返回前30的熱詞,并保存文檔,如圖3所示。根據(jù)漢明距離算兩個文本的相似度,設(shè)定閾值確定是否需要去重。因此可去除文本中的模糊不清、相似的評論。

2.4 景區(qū)及酒店的特色分析

2.4.1 聚類分析模型構(gòu)建

構(gòu)建K-Means聚類分析模型[8-10],實現(xiàn)細(xì)粒度的酒店及景區(qū)劃分排名,并采用高、中、低3個檔次對它們進(jìn)行分組,以此種方式進(jìn)一步減少游客選擇上的麻煩。

利用sklearn中的函數(shù)完成K-Means的計算。計算的結(jié)果如圖4和圖5所示。景區(qū)的聚類雷達(dá)圖中景區(qū)群1在服務(wù)得分較高,短板在衛(wèi)生。酒店的聚類雷達(dá)圖中酒店群2和群3的得分相對平均,群1的其他得分較低,但性價比優(yōu)勢明顯。

2.4.2 結(jié)果分析

根據(jù)K-Means算法,可以得到3個特征分布清晰的聚類,如表4所示。

景區(qū)群1屬于檔次比較高,通過計算該組是5個,景區(qū)群3屬于中等檔次,有27家,低檔的景區(qū)群2有18家。可以看出景區(qū)中高檔的占據(jù)大多數(shù)。高檔酒店21家,中檔酒店23家,低檔的只有6家,反映出景區(qū)附近酒店的評價整體較高。從每個景區(qū)酒店分出的每個聚類中都選擇1個對象,并結(jié)合關(guān)鍵詞表來代表整個類別的特征項,如表5和表6所示。

分析高層次景區(qū)熱詞表可知,A39景區(qū)以動物園為特色,值得游玩;環(huán)境好,空氣清新;有動物表演,小朋友很開心,適合小朋友游玩。A36景區(qū)以陶藝為特色,帶有歷史風(fēng)貌;可以了解制作、燒制陶瓷的工藝,有明清的陶瓷以及陶瓷博物館。A25景區(qū)以溫泉為特色,環(huán)境舒適;帶有日式服務(wù),可以吃自助餐。水質(zhì)干凈,水果不錯。

分析高層次酒店熱詞表可知,H04 酒店以親子房、樂園游玩為特色,服務(wù)好;環(huán)境好,有水上親子間,父母可以跟孩子游玩樂園、游泳;設(shè)施好,值得入住。H35酒店以服務(wù)好、環(huán)境好為特色,房間干凈,服務(wù)好;出現(xiàn)事故,能及時溝通,有應(yīng)急處理方式,有維權(quán)。H39酒店以地理位置好、出行方便為特色,服務(wù)好、這家酒店性價比對游客來說適合優(yōu)先考慮;有停車場,有大巴車停靠,靠近機場,四通八達(dá);提供小吃,衛(wèi)生干凈,靠近步行街可以購物。

3 總結(jié)

隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展和旅游業(yè)信息的高度密集,在線評論平臺上出現(xiàn)了大量以評論和游記等為形式的非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的調(diào)研方式已無法滿足如今動輒上萬的數(shù)據(jù)挖掘需求。本文利用LDA模型構(gòu)建主題詞典,TF-IDF算法分析景區(qū)及酒店網(wǎng)評的有效性,最后利用K-means算法對景區(qū)及酒店進(jìn)行特色分析。從結(jié)論中可以看出景區(qū)的特色、服務(wù)更能吸引游客,酒店的地理位置、服務(wù)衛(wèi)生等配套設(shè)施直接影響顧客滿意度。由于本文的數(shù)據(jù)量有限,挖掘分析和評價的準(zhǔn)確度還有待改進(jìn)。本文的研究結(jié)論可為相關(guān)部門和公司提出合理化建議,如旅游目的地的酒店需要重視衛(wèi)生環(huán)境的管理,通過科學(xué)檢測裝備和手段落實管理指標(biāo)。通過對游客群體劃分,制訂符合不同群體需求的消費模式,提升酒店和景區(qū)的盈利同時,還能有效地提高游客滿意度,最終提高目的地的美譽度。

參考文獻(xiàn):

[1] 常耀成,張宇翔,王紅,等.特征驅(qū)動的關(guān)鍵詞提取算法綜述[J].軟件學(xué)報,2018,29(7):2046-2070.

[2] YI LIU, BAO JIGANG, ZHU YILING. Exploring emotion meth?ods of tourism destination evaluation: A big-data approach[J].Geographical Research, 2017,36(6):1091-1105.

[3] AREFIEVA V,EGGER R,YU J.A machine learning approachto cluster destination image on Instagram[J].Tourism Manage?ment,2021,85:104318.

[4] 王千,王成,馮振元,等.K-means聚類算法研究綜述[J].電子設(shè)計工程,2012,20(7):21-24.

[5] 陳天琪,張建春.基于文本挖掘的景區(qū)旅游形象感知研究:以杭州西溪國家濕地公園為例[J].資源開發(fā)與市場,2021,37(6):741-746.

[6] 繆章偉.酒店顧客滿意度評價體系研究:基于Tripadvisor.com的杭州高星級酒店評論數(shù)據(jù)[D].杭州:浙江工商大學(xué),2019.

[7] 尹麗,顏欣,田良.基于網(wǎng)絡(luò)文本分析的旅游目的地形象感知研究:以三亞市為例[J].特區(qū)經(jīng)濟,2019(1):100-102.

[8] 段銳,鄒統(tǒng)釬,梁未哲.大數(shù)據(jù)環(huán)境下的旅游目的地形象研究綜述:數(shù)據(jù)、方法和技術(shù)[J].旅游導(dǎo)刊,2023,7(5):66-93.

[9] 顧漸萍,王遠(yuǎn)斌,劉貴文,等.基于文本大數(shù)據(jù)的游客旅游意象感知挖掘研究:以重慶市為例[J].現(xiàn)代城市研究,2019,34(12):117-125.

[10] IKOTUN A M,EZUGWU A E,ABUALIGAH L,et al.K-meansclustering algorithms:a comprehensive review,variants analy?sis,and advances in the era of big data[J].Information Sciences,2023(622):178-210.

【通聯(lián)編輯:梁書】

基金項目:基于數(shù)據(jù)挖掘的旅游目的地印象分析(2024YB012)

主站蜘蛛池模板: 亚洲综合色区在线播放2019| 亚洲an第二区国产精品| 天天色天天综合| 成AV人片一区二区三区久久| 丁香五月激情图片| 朝桐光一区二区| 深爱婷婷激情网| 人妻无码AⅤ中文字| 黄色网在线| www精品久久| 日韩欧美中文字幕在线韩免费| 久久国产精品波多野结衣| 久久婷婷六月| 国产主播一区二区三区| 一级看片免费视频| 91小视频版在线观看www| 88av在线| 免费在线色| 久久亚洲美女精品国产精品| 波多野吉衣一区二区三区av| 亚洲中文无码h在线观看 | 亚洲Av综合日韩精品久久久| 麻豆精品久久久久久久99蜜桃| 欧美综合激情| 久久亚洲天堂| 999福利激情视频| 久久男人视频| 国产成年女人特黄特色毛片免| 亚洲精品少妇熟女| 97人人做人人爽香蕉精品| 熟女日韩精品2区| 欧美日韩亚洲国产| 久久久亚洲色| 这里只有精品在线播放| 日本免费a视频| 国产精品免费p区| 亚洲侵犯无码网址在线观看| 91久久偷偷做嫩草影院电| 国产精品久久自在自2021| 欧美成人精品在线| 久久99国产乱子伦精品免| 国产欧美视频在线| 国产va在线观看免费| 亚洲无码91视频| 国产黄色视频综合| 免费看a毛片| 久久黄色免费电影| 美女一级免费毛片| 免费全部高H视频无码无遮掩| 国产91全国探花系列在线播放| 五月六月伊人狠狠丁香网| 国产乱人免费视频| 午夜一区二区三区| 亚洲不卡网| 免费毛片全部不收费的| 午夜无码一区二区三区在线app| 青青青视频蜜桃一区二区| 久久99国产视频| 国产色婷婷| 宅男噜噜噜66国产在线观看| 97国产在线视频| 欧美一级专区免费大片| 国内精品小视频在线| 久久99国产综合精品女同| 国产色偷丝袜婷婷无码麻豆制服| 亚洲女同一区二区| 国产精品第| 国产91丝袜在线播放动漫 | 亚洲欧美成人在线视频| 熟女日韩精品2区| 亚洲第七页| 午夜啪啪网| 中文字幕欧美成人免费| 午夜精品一区二区蜜桃| 国产成人精品综合| 日本精品中文字幕在线不卡| 人妻熟妇日韩AV在线播放| 日韩一二三区视频精品| 婷婷综合色| 天天躁狠狠躁| 久久免费观看视频| 美女被操黄色视频网站|