999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡爬蟲的旅游用戶數據分析

2020-01-07 04:00:16何彩娟于碧鵬李榮華
科學導報·學術 2020年52期
關鍵詞:旅游用戶

何彩娟 于碧鵬 李榮華

【摘?要】步入“互聯網+”與大數據時代,網絡爬蟲與用戶數據分析已經成為技術輿論新格局的重要組成部分,各個行業都在積極的朝著互聯網轉型,旅游行業也在不斷的在嘗試智能化轉型,其中用戶數據的分析也是最為熱門的話題之一。本文以馬蜂窩網旅行網的用戶在網站發表的行為數據,基Python這一時下流行的人工智能編程語言,做詳細的數據爬取、數據分析,為旅游組織方在旅游產品追求個性化、差異化的市場提供一個有效的優化方向。

1.分析背景

伴隨著經濟蓬勃發展及人們對生活品質的高要求,外加各國政府不約而同的采取優惠政策促進旅游服務產業發展,使得全球旅游產業保持快速、穩定的發展。近年來,中國旅游業競爭力呈現快速上升趨勢。據統計數據得出,2018年全國旅游出行人數超55億,總收入超5萬億元,與2017相比分別增長11.09%和11.98%;全國境外旅行人數約為1.5億人次,同比增長11.5%。消費升級的社會,全民旅游意愿、支出節節攀升,未來旅游產業市場仍是塊大蛋糕。

2.國內外研究現狀

用戶在選擇具體的旅游景點和規劃旅游路線時,國內大多數都是基于基本的旅游咨詢,根據用戶的旅游需求,結合景點一些對外開放的信息進行數據采集、分析,最后推薦給用戶。馬蜂窩旅游分享社區目共有 1.25億用戶,每月在線活躍的人數超過 1 億,用戶量廣,月產優質游記超過 13 萬篇。其中涉及國內外目的地攻略、游記、問答、點評等用戶真實分享的UGC信息,對服務企業規劃旅游路線有重要意義。

3.本文實現思路

本文研究主要由通過網絡爬蟲技術獲取馬蜂窩城市數據及用戶足跡數據,并將獲取到的用戶數據存儲至數據庫中。具體實現思路如下。

(1)以Python為編程語言,通過Scrapy分布式爬蟲框架獲取城市數據和用戶足跡數據,將獲取到的用戶數據以文檔的形式存儲到MongoDB數據庫中,數據存儲之后完成網絡爬蟲部分。

(2)統計數據中每個城市累積旅游人數和用戶游記中累積出現的詞語。將所有城市的出游情況通過熱力圖的形式附著至中國地圖上,以觀察國內整體旅游城市持有趨勢。另外根據Python提供的中文詞庫,對爬取的游記進行分詞統計,獲得出現次數較多的關鍵詞并可視化分析,通過這兩點對國內的旅游特點進行總體概括。

(3)從總體可視化方向對用戶具體的旅游行為進行分析,主要通過出行伴侶、出行天數、出行季節、人均花費四個特征對用戶的個人旅游特征概括,以達對用戶之間的區分。

(4)根據以上分析結果,將其結合至實際的旅游行業情況,得出一些優化旅游服務行業的方向以及個人旅游未來的趨勢。

互聯網時代的到來,網絡所容納的信息數量級已無法確切統計,對傳統的紙質記錄、電腦錄入、系統管理,如何將如此海量的數據收集到文本或者數據庫中,是個巨大的難題。面對如此龐大,錯綜復雜的網絡信息,一套自動獲取信息的網絡爬蟲系統孕育而生,以減少數據檢索,機器維護,網絡技術學習等各方成本。本論文以Python作為編程語言來完成相關數據的收集。

4.網頁爬蟲流程

網絡爬蟲的是給定一個需要訪問的URL,通過HTTP協議與服務器建立連接,得到對應頁面的數據,然后根據一定規則進行數據爬取,本文單個網頁爬取流程如圖1-1所示。

基本流程如下:

步驟1發送請求:給定需要訪問的URL,通過HTTP協議向站點發起連接請求(Request),等待響應與服務器響建立連接。

步驟2獲取響應內容:正常響應后建立連接,服務器返回一個攜帶網頁內容的Response,類型為HTM。

步驟3解析內容:通過Python提供的Beautifulsoup和Json庫對獲取內容進行解析,解析方式主要為Beautifulsoup提供的DOM文檔節點提取。

步驟4存儲數據:將所需的數據從對應節點中提取出來,并存儲到數據庫。

整體爬取過程:

(1)爬蟲引擎與起始URL建立站點連接。

(2)爬蟲引擎將URL封裝為請求,并通過下載中間器將其傳遞給下載程序。

(3)下載器把訪問服務器并下載返回內容,封裝成應答包,并發送給爬蟲。

(4)爬蟲解析Response,從網頁中抓取需要的信息,并將解析出信息傳送給實體管道

(5)若爬蟲解析出的是鏈接,則將鏈接返回存放給調度器。

(6)重復以上步驟直到調度器中沒有請求,結束對站點的爬取。

5. 總結

基于網絡爬蟲的旅游用戶數據分析模型是挑選馬蜂窩旅游社區用戶數據設計的分析模型,實現了從龐大的數據中從兩方面提取用戶的指定數據,一方面從馬蜂窩社區用戶的某個個人主頁進行數據獲取,數據獲取后通過其關注的用戶和訪客深究整個社區的其他用戶,直至窮盡所有。另一方面由旅游目的地為切入點,提取社區網站中的國內熱門旅游城市數據,其參考重點主要是所有城市的數據均有旅游用戶在網站發布的行為活動組成。

旅游的體驗聯系到生活的方方面面,希望旅游服務商以跨界為新思路。社交為例,有旅游+社交的模式,相同目的地且體驗心理一點的用戶可以有拼單的自駕游需求,從而推廣當地文化。希望未來中國旅游能出現新靈感方式。

參考文獻:

[1]邢琦. 旅游信息服務視閾下的智慧旅游概念[J]. 旅游縱覽,2019.

[2]米也塞·艾尼玩. 基于Python的維吾爾文文本聚類系統設計與實現. 新疆大學,2012.

[3]耿大偉. 基于Python技術的校園網搜索引擎的設計與實現[D]. 燕山大學,2015.

作者簡介:

何彩娟,1983年8月8日。

于碧鵬,1978年2月,漢,教師,研究方向:人工智能、計算機、物理學教育。

(作者單位:廣州大學華軟軟件學院;2廣州石化中學)

猜你喜歡
旅游用戶
我們一起“云旅游”
少兒科技(2022年4期)2022-04-14 23:48:10
小A去旅游
好孩子畫報(2018年7期)2018-10-11 11:28:06
旅游
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
旅游的最后一天
主站蜘蛛池模板: 亚洲无码高清视频在线观看| 国产门事件在线| 免费在线播放毛片| 久久夜色精品国产嚕嚕亚洲av| 国产女人水多毛片18| 又大又硬又爽免费视频| 天天干伊人| 国产jizzjizz视频| 一本一道波多野结衣一区二区 | 久久综合AV免费观看| 四虎在线高清无码| 国产第一页免费浮力影院| 精品第一国产综合精品Aⅴ| 亚洲国产精品无码AV| 黄色一及毛片| 中文字幕在线欧美| 91丝袜在线观看| 欧美日韩精品在线播放| 国产一区二区三区在线精品专区| 最新加勒比隔壁人妻| 欧美激情视频一区| 黄色网页在线播放| 色综合久久综合网| 91在线精品免费免费播放| 日韩国产高清无码| 熟妇丰满人妻| 久久女人网| 67194亚洲无码| 91成人免费观看| 亚洲视频色图| AV不卡无码免费一区二区三区| 国产成人亚洲精品无码电影| 草逼视频国产| 97视频免费在线观看| 久青草网站| 成人看片欧美一区二区| 国产精品制服| 欧美性猛交一区二区三区| av免费在线观看美女叉开腿| 亚洲欧美精品日韩欧美| 人人澡人人爽欧美一区| 国产一级做美女做受视频| 国产精女同一区二区三区久| 日韩AV无码免费一二三区| 国产色婷婷视频在线观看| 国产免费黄| 五月婷婷导航| h网站在线播放| 国产麻豆另类AV| 91国内在线视频| 亚洲综合香蕉| 国产一区二区网站| 欧美日韩另类国产| 美女扒开下面流白浆在线试听| 国产精品人成在线播放| 美女扒开下面流白浆在线试听 | 精品一区二区三区中文字幕| 亚洲视频免费播放| 波多野结衣无码AV在线| 色妺妺在线视频喷水| 久久青草热| 这里只有精品国产| 青青操国产| 亚洲一级毛片在线观播放| 99热国产这里只有精品无卡顿"| 在线看AV天堂| 一级不卡毛片| 国产福利一区二区在线观看| Aⅴ无码专区在线观看| 精品视频第一页| 亚洲无码久久久久| 欧美精品三级在线| 国产永久在线观看| 99久久精品国产精品亚洲| 伊人久久大香线蕉影院| 国产手机在线小视频免费观看| 91麻豆久久久| 亚洲天堂精品在线观看| 欧美精品在线免费| 激情六月丁香婷婷| 综合社区亚洲熟妇p| 成人午夜在线播放|