陳紀(jì)銘 卜曉

摘要:本文研究旅游輿情系統(tǒng)的設(shè)計(jì),以及數(shù)據(jù)采集與分析,為下一步研究奠定基礎(chǔ)。研究網(wǎng)絡(luò)輿情對推動城市旅游良性發(fā)展具有現(xiàn)實(shí)意義。
[關(guān)鍵詞]旅游輿情數(shù)據(jù)采集數(shù)據(jù)分析
1引言
人們通過旅游網(wǎng)站可搜索熱門旅游城市的景點(diǎn)、酒店、美食、特產(chǎn)、攻略等信息,同時也會根據(jù)網(wǎng)友的評論,來對自己傾向的旅游地點(diǎn)進(jìn)行一個綜合的評估。旅游輿情對于城市旅游業(yè)的發(fā)展起著至關(guān)重要的作用,因此旅游輿情分析就成為了數(shù)據(jù)分析的熱點(diǎn)。對旅游輿情研究和分析,能清楚了解到網(wǎng)民的關(guān)注點(diǎn),以推動城市旅游業(yè)獲得更好地發(fā)展。
網(wǎng)絡(luò)旅游輿情信息量大,無法完全依靠人工來獲取數(shù)據(jù)和分析數(shù)據(jù),所以必須以信息技術(shù)為依托,建立基于數(shù)據(jù)挖掘的城市旅游輿情分析系統(tǒng),以利于政府機(jī)構(gòu)及時決策參考。
2需求分析
基于數(shù)據(jù)挖掘的城市旅游輿情分析系統(tǒng),首先要抓取城市旅游業(yè)相關(guān)數(shù)據(jù),再將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,并采用相關(guān)技術(shù)進(jìn)行數(shù)據(jù)分析。要抓取和分析的數(shù)據(jù)主要有:
2.1城市
進(jìn)入旅游網(wǎng),網(wǎng)民首先就是找到計(jì)劃去的城市,并且操作要高效。
2.2攻略
游客通過各種途徑搜索到其他游客的經(jīng)驗(yàn)帖,再制定適合自己的旅游路線。
2.3酒店
在旅行過程中,酒店必不可少。旅游網(wǎng)所提供的酒店信息相對詳細(xì),特別是游客對酒店的點(diǎn)評等級和分?jǐn)?shù),正是旅游輿情體現(xiàn)。
2.4餐廳
餐廳也是游客的重點(diǎn)關(guān)心對象。餐廳的營業(yè)時間以及其他客戶的品嘗感受,也是游客選擇餐廳前要關(guān)注的。
2.5特產(chǎn)
游客返程時常會帶上當(dāng)?shù)靥厣a(chǎn)品作為禮物贈送親友,所以特色產(chǎn)品的信息訪問量極大。旅游網(wǎng)也提供了城市特產(chǎn)及介紹。
2.6特色食物
除去特色餐廳,特色街頭小吃等,更是受年輕一代的喜愛。
3系統(tǒng)設(shè)計(jì)
3.1總體設(shè)計(jì)
基于數(shù)據(jù)挖掘的城市旅游輿情分析系統(tǒng),主要包括兩個模塊:
一個是數(shù)據(jù)采集;另一個是數(shù)據(jù)分析。該系統(tǒng)的主要是抓取攜程網(wǎng)等網(wǎng)站上的各城市旅游輿情數(shù)據(jù)并進(jìn)行分析。
3.2相關(guān)技術(shù)
網(wǎng)絡(luò)爬蟲以單一或者多個的原始網(wǎng)站為工作起點(diǎn),直到滿足所需的中斷要求才會停止工作。以城市數(shù)據(jù)采集為例,簡介如下:
第一步是“抓取”,對所要爬取的數(shù)據(jù)進(jìn)行定位和查找。首先定義一個對象數(shù)組,然后選定頁面地址,通過一個字符串接收頁面內(nèi)容,然后將獲取的頁面內(nèi)容轉(zhuǎn)換成Document類型,接下來定位到指定的類,再找到對應(yīng)的文本內(nèi)容,最后遍歷所需數(shù)據(jù)。
第二步是“存”,首先連接到對應(yīng)的數(shù)據(jù)庫,然后定義變量用來接收并創(chuàng)建表格,檢查表是否已存在,如果存在就先刪除,然后再重新創(chuàng)建,最后獲取的數(shù)據(jù)進(jìn)行儲存。
4系統(tǒng)實(shí)現(xiàn)
4.1數(shù)據(jù)采集
先采集有關(guān)數(shù)據(jù):
(1)城市數(shù)據(jù),包括城市名稱、首字母、城市名稱拼音等。
(2)攻略數(shù)據(jù),包括攻略名、攻略等。
(3)酒店數(shù)據(jù),包括店名、地址、開店時間、簡介、評分等。
(4)餐廳數(shù)據(jù),包括餐廳名稱、地址、營業(yè)時間、客戶評論等。
(5)特產(chǎn)數(shù)據(jù),包括產(chǎn)品名、種類等。
(6)特色食物數(shù)據(jù),包括食品名稱、所.在城市、商店等。
然后,將數(shù)據(jù)存儲到數(shù)據(jù)庫中。
4.2數(shù)據(jù)分析
以北京市為例,我們先對北京市在攜程網(wǎng)的相關(guān)數(shù)據(jù)進(jìn)行采集,再對北京的旅游輿情數(shù)據(jù)具體分析。以下簡介幾個分析情況:
4.2.1北京餐廳類型分析
北京餐廳類型分析,如圖1所示。
數(shù)據(jù)顯示:北京餐廳類型傾向于北京菜、快餐簡食,面包甜點(diǎn)以及火鍋。這極大程度是與北京當(dāng)?shù)氐纳盍?xí)慣與口味有關(guān)。北京生活節(jié)奏快,口味相對較重,所以偏愛于快餐簡食和川菜、粵菜、火鍋。另外北京作為國際大都市,也有很過文化美食交流,很多外國料理店入駐,這也吸引了游客的品嘗與駐足。
4.2.2北京餐廳評分分析
北京餐館評分分析,如圖2所示。
數(shù)據(jù)顯示:北京大部分餐廳的評分處于4分以上。處于中上等位置。但是評分等級較低的餐廳數(shù)量也較多,所以相關(guān)餐廳還需要繼續(xù)整改,做出相應(yīng)調(diào)整。
4.3.3北京酒店類型分析
北京酒店數(shù)據(jù)分析,如圖3所示。
數(shù)據(jù)顯示:北京酒店類型以經(jīng)濟(jì)型為主,舒適型為輔,豪華型、高檔型以及其他高端類別的酒店數(shù)量數(shù)量極少,只占全部數(shù)量的8%。
5結(jié)束語
通過本次的項(xiàng)目研究,我們將科學(xué)研究與社會環(huán)境與問題緊密結(jié)合,真正做到將技術(shù)應(yīng)用在實(shí)處。網(wǎng)絡(luò)輿情研究,不單單抓取和存儲,簡單的分析也不足以反映我們所需的全部信息。網(wǎng)絡(luò)輿情分析是很多研究者和科學(xué)家正在探索和研究的問題,因?yàn)榫W(wǎng)絡(luò)輿情不僅可以反映現(xiàn)在社會的一些現(xiàn)象,還可以給政府提供一些建設(shè)性思路;所以我們還要在此基礎(chǔ)上繼續(xù)研究和學(xué)習(xí)。
參考文獻(xiàn)
[1]郭功舉,通過網(wǎng)絡(luò)爬蟲獲取輿情數(shù)據(jù)分析人的行為習(xí)慣[J],測繪通報(bào),2018(S1):289-291+295.
[2]丁勝鋒,楊紹輝,數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究[J].大學(xué)教育,2016(11):173-174.
[3]柳淑婷,基于社交網(wǎng)絡(luò)的輿情關(guān)鍵技術(shù)研究[D].吉林大學(xué),2017.
[4]付業(yè)勤。旅游危機(jī)事件網(wǎng)絡(luò)輿情研究:構(gòu)成、機(jī)理與管控[D].華僑大學(xué),2014.
[5]張書海。基于Web數(shù)據(jù)挖掘的旅游者網(wǎng)絡(luò)用戶行為及用戶價值研究[D].廣州大學(xué),2016.