何彩娟 于碧鵬 李榮華

【摘?要】步入“互聯網+”與大數據時代,網絡爬蟲與用戶數據分析已經成為技術輿論新格局的重要組成部分,各個行業都在積極的朝著互聯網轉型,旅游行業也在不斷的在嘗試智能化轉型,其中用戶數據的分析也是最為熱門的話題之一。本文以馬蜂窩網旅行網的用戶在網站發表的行為數據,基Python這一時下流行的人工智能編程語言,做詳細的數據爬取、數據分析,為旅游組織方在旅游產品追求個性化、差異化的市場提供一個有效的優化方向。
1.分析背景
伴隨著經濟蓬勃發展及人們對生活品質的高要求,外加各國政府不約而同的采取優惠政策促進旅游服務產業發展,使得全球旅游產業保持快速、穩定的發展。近年來,中國旅游業競爭力呈現快速上升趨勢。據統計數據得出,2018年全國旅游出行人數超55億,總收入超5萬億元,與2017相比分別增長11.09%和11.98%;全國境外旅行人數約為1.5億人次,同比增長11.5%。消費升級的社會,全民旅游意愿、支出節節攀升,未來旅游產業市場仍是塊大蛋糕。
2.國內外研究現狀
用戶在選擇具體的旅游景點和規劃旅游路線時,國內大多數都是基于基本的旅游咨詢,根據用戶的旅游需求,結合景點一些對外開放的信息進行數據采集、分析,最后推薦給用戶。馬蜂窩旅游分享社區目共有 1.25億用戶,每月在線活躍的人數超過 1 億,用戶量廣,月產優質游記超過 13 萬篇。其中涉及國內外目的地攻略、游記、問答、點評等用戶真實分享的UGC信息,對服務企業規劃旅游路線有重要意義。
3.本文實現思路
本文研究主要由通過網絡爬蟲技術獲取馬蜂窩城市數據及用戶足跡數據,并將獲取到的用戶數據存儲至數據庫中。具體實現思路如下。
(1)以Python為編程語言,通過Scrapy分布式爬蟲框架獲取城市數據和用戶足跡數據,將獲取到的用戶數據以文檔的形式存儲到MongoDB數據庫中,數據存儲之后完成網絡爬蟲部分。
(2)統計數據中每個城市累積旅游人數和用戶游記中累積出現的詞語。將所有城市的出游情況通過熱力圖的形式附著至中國地圖上,以觀察國內整體旅游城市持有趨勢。另外根據Python提供的中文詞庫,對爬取的游記進行分詞統計,獲得出現次數較多的關鍵詞并可視化分析,通過這兩點對國內的旅游特點進行總體概括。
(3)從總體可視化方向對用戶具體的旅游行為進行分析,主要通過出行伴侶、出行天數、出行季節、人均花費四個特征對用戶的個人旅游特征概括,以達對用戶之間的區分。
(4)根據以上分析結果,將其結合至實際的旅游行業情況,得出一些優化旅游服務行業的方向以及個人旅游未來的趨勢。
互聯網時代的到來,網絡所容納的信息數量級已無法確切統計,對傳統的紙質記錄、電腦錄入、系統管理,如何將如此海量的數據收集到文本或者數據庫中,是個巨大的難題。面對如此龐大,錯綜復雜的網絡信息,一套自動獲取信息的網絡爬蟲系統孕育而生,以減少數據檢索,機器維護,網絡技術學習等各方成本。本論文以Python作為編程語言來完成相關數據的收集。
4.網頁爬蟲流程
網絡爬蟲的是給定一個需要訪問的URL,通過HTTP協議與服務器建立連接,得到對應頁面的數據,然后根據一定規則進行數據爬取,本文單個網頁爬取流程如圖1-1所示。
基本流程如下:
步驟1發送請求:給定需要訪問的URL,通過HTTP協議向站點發起連接請求(Request),等待響應與服務器響建立連接。
步驟2獲取響應內容:正常響應后建立連接,服務器返回一個攜帶網頁內容的Response,類型為HTM。
步驟3解析內容:通過Python提供的Beautifulsoup和Json庫對獲取內容進行解析,解析方式主要為Beautifulsoup提供的DOM文檔節點提取。
步驟4存儲數據:將所需的數據從對應節點中提取出來,并存儲到數據庫。
整體爬取過程:
(1)爬蟲引擎與起始URL建立站點連接。
(2)爬蟲引擎將URL封裝為請求,并通過下載中間器將其傳遞給下載程序。
(3)下載器把訪問服務器并下載返回內容,封裝成應答包,并發送給爬蟲。
(4)爬蟲解析Response,從網頁中抓取需要的信息,并將解析出信息傳送給實體管道
(5)若爬蟲解析出的是鏈接,則將鏈接返回存放給調度器。
(6)重復以上步驟直到調度器中沒有請求,結束對站點的爬取。
5. 總結
基于網絡爬蟲的旅游用戶數據分析模型是挑選馬蜂窩旅游社區用戶數據設計的分析模型,實現了從龐大的數據中從兩方面提取用戶的指定數據,一方面從馬蜂窩社區用戶的某個個人主頁進行數據獲取,數據獲取后通過其關注的用戶和訪客深究整個社區的其他用戶,直至窮盡所有。另一方面由旅游目的地為切入點,提取社區網站中的國內熱門旅游城市數據,其參考重點主要是所有城市的數據均有旅游用戶在網站發布的行為活動組成。
旅游的體驗聯系到生活的方方面面,希望旅游服務商以跨界為新思路。社交為例,有旅游+社交的模式,相同目的地且體驗心理一點的用戶可以有拼單的自駕游需求,從而推廣當地文化。希望未來中國旅游能出現新靈感方式。
參考文獻:
[1]邢琦. 旅游信息服務視閾下的智慧旅游概念[J]. 旅游縱覽,2019.
[2]米也塞·艾尼玩. 基于Python的維吾爾文文本聚類系統設計與實現. 新疆大學,2012.
[3]耿大偉. 基于Python技術的校園網搜索引擎的設計與實現[D]. 燕山大學,2015.
作者簡介:
何彩娟,1983年8月8日。
于碧鵬,1978年2月,漢,教師,研究方向:人工智能、計算機、物理學教育。
(作者單位:廣州大學華軟軟件學院;2廣州石化中學)