何梓翔
隨著移動互聯網和電子商務的發展,移動電子商務已經得到普及。據億邦動力網2019年1月發布的報告現實,2018年的中國移動互聯網月度活躍智能設備規模增至11.3億。基于移動互聯網和社交網絡的用戶存量,電商領域中產生了名為社交電商的新型交付平臺。社交分享不同于傳統的顧客評價,它側重于在社交網站上與朋友分享信息,而傳統的顧客評價是與不知名的在線購物者分享的。據研究顯示,83%的網購者愿意與朋友分享購物信息,67%的網購者可能會根據社區的推薦產生購買意愿或購物決策[2]。由于社交電商的興起,在線旅游平臺也紛紛嵌入社交功能,通過旅游平臺發布旅游消費體驗、旅游攻略等,使得在線旅游平臺加速發展,據艾瑞咨詢發布《2018年中國在線旅游行業研究報告》,數據顯示2018年在線旅游市場交易規模將突破1.48萬億元,相較于2017年的1.17萬億元,同比增長26.3%,再創歷史新高。隨著在線出行市場的成熟,該行業的增速從快速增長到相對平穩,在網絡中尋找旅游信息已經成為消費者的首選。
互聯網中消費者產生的信息在學術中稱為用戶產生內容(UGC, user-generated content),UGC有很多不同的形式,比如Twitter的推文, Facebook狀態更新,YouTube上的視頻等。經過學者們的研究發現,該類型的數據直接或間接地影響相關企業的績效,關于UGC的研究對企業具有強烈的管理意義,而如何批量采集UGC數據進行統計分析是技術上的關鍵一環。該文章旨在為無編程基礎的研究人員提供數據采集建議。
基于口碑營銷(WOM),消費者在使用產品或者服務之后傾向于與家人或朋友分享消費體驗,由于電子口碑營銷(e-WOM)的跨空間性,消費者能夠很容易地與廣大潛在消費者分享他們對產品或服務的看法,并引起他們的消費欲望(Albarq, 2014)。Gretzel and Yoo (2008)經過調查發現,超過70%的旅游者在計劃旅游時,會將網絡中其他有經驗的消費者的在線評論作為主要的參考信息。因此,從營銷學、旅游學和管理學的視角來看,對于在線旅游的消費行為研究是學者們的研究重點。
Parra-Lopez等(2011)分析了旅行者在計劃旅行時使用社交媒體意愿的影響因素,經過研究發現使用社交媒體的功能性、心理性、享樂性和社會性的感知利益顯著影響使用意愿。Aluri等(2016)通過比較使用嵌入式社交媒體渠道的酒店網站和沒有使用嵌入式社交媒體渠道的酒店網站的用戶體驗,研究了游客滿意度、滿意度和購買意愿之間的關系。目前多數學者主要使用TAM、ELM等模型,通過調查問卷來獲取數據,再進行結構方程模型或回歸分析后得出結論。值得注意的是,利用網絡爬蟲等抓取UGC的方式來對消費者行為進行研究已經成為一大熱點,目前,結合網絡爬蟲的技術對在線旅游消費者的研究尚有不足之處。
針對于旅游網站的數據采集需求有多種類型。Duan等(2008)通過采集yahoo!電影等三個電影評論網站的相關數據,考察了用戶的在線評論對日常票房表現的說服效應和認知效應。鄭聰(2017)使用爬蟲對網絡平臺上的旅游滿意度輿情數據進行采集和分析, 生成可視化圖表結果,為相較于以往的旅游滿意度調查提供一種新的思路。李勇等(2018)采用內容分析法對在線旅游平臺及問答社區的旅游提問信息文本進行,研究了用戶對九寨溝旅游相關信息的關注內容,發現不同游客對同一信息的側重點也不同,并提出了相應的管理建議。高佳美(2017)通過采集互聯網上的大量旅游文記,基于文本挖掘的方法改進個性化推薦技術,幫助用戶快速準確地找到適合自己需求的旅游攻略。綜上所述,利用網絡爬蟲技術采集在線旅游問答社區、在線旅游電商平臺等UGC,分析UGC對旅游商品或服務銷量的影響機制,或是利用文本分析的方法進行詳細的內容分析或情感分析等,用來探討企業績效的影響因素等。
本文以使用“八爪魚采集器”抓取攜程網(https://www.ctrip.com/)中“九寨溝景區”自由行攻略的UGC為案例,為無編程基礎的研究人員提供一個新的采集思路和收集數據方法,以達到論文研究的目的。
目前的爬蟲技術一般基于python語言編程,而由于python技術所需要的編程基礎相對較高,對于非計算機專業而又需要數據采集的研究人員來說,短時間掌握python比較困難。而八爪魚采集器(https://www.bazhuayu.com)的便捷性、易用性可以滿足上述人員的需求。
實驗前需要明確實驗框架,確定論文所需要的數據以及對所需數據的抓取流程。一般來說,需要抓取UGC的相關數據來撰寫論文的研究人員需要經過如下關鍵步驟:
(1)確定論文主題,建立論文研究模型,明確相關變量。研究者需明確論文研究的目的,在建模之后,擬定數據來源,目前消費者日常使用的網站或手機app中,由于平臺的防采集、反爬蟲很嚴格,部分數據是無法抓取或者比較難抓取的,并且每個平臺的數據不一定都會有顯示,例如京東商城的商品評價數超過一萬條時,不會顯示精確到個位數的數量。
(2)選取數據來源網站或平臺,利用八爪魚采集器抓取所需數據。在使用八爪魚軟件的過程中,框選研究所需要變量的數據,然后進行數據采集,目前八爪魚采集器僅限于采集網站數據,手機app應用的數據需通過fiddler或wireshark等抓包軟件進行抓包。
(3)清洗并整理數據。將采集的數據進行整理是必不可少的,這樣可以避免后續的數據分析產生偏差。如果研究人員跳過了清洗數據這一環,可能會導致將重復數據導入到分析軟件,從而使得研究結果不準確,最后給出的管理建議也會偏離標準。
(4)最后,進行相應的數據分析。將所需的數據進行整理之后,研究者需要依據論文的目的,進行不同的數據分析,例如回歸分析、內容文本分析等。
旅游者在制定旅游計劃時,消費者傾向于在網絡中搜尋相關信息,最終作出旅游相關決策,在旅行結束之后,部分消費者又會在社交電商平臺中分享旅游信息,從而產生一個信息傳遞閉環。
攜程網(https://www.ctrip.com/)作為中國領先的綜合型在線旅游服務平臺,擁有超過1億的用戶注冊量,提供全球超過60000個旅游目的地的旅游攻略評等相關資訊。本案例以采集攜程網為對象,采集“四川九寨溝”景點旅游攻略中,每條攻略的標題、發布者信息、瀏覽量、收藏量、評論數、評論內容等網頁中顯示的內容。
(1)打開八爪魚采集器,點擊自定義采集,在“網址”欄中輸入“九寨溝自由行攻略”的網站https://you.ctrip.com/place/jiuzhaigou25.html,并點擊保存。
(2)將頁面拉到底端,點擊“下一頁”按鈕,并選擇“循環選擇下一頁”,此時點擊軟件右上方的“流程”,可以看到已經建立了“循環翻頁”,這表示選擇采集該景點下所有頁面的旅游攻略。
(3)找到網頁中第一條攻略的“標題”,點擊“選擇全部”,選擇“循環點擊每個元素”,這一步驟即選擇采集該頁面中所有的九寨溝旅游攻略。
(4)進入到第一條攻略頁面之后,選擇攻略標題,點擊“采集該元素的文本”,同理選擇其他所需要的文本信息即可。選擇所有需要采集的信息之后,保存并點擊“開始采集——啟動本地采集”
(5)采集完成之后選擇“導出數據”,選擇需要保存的文件格式,并點擊保存,最后即完成數據采集,最終以可視化的方式呈現。
由于移動互聯網和社交電商的發展,對UGC進行深入研究是目前營銷學、管理學等多種學科中的研究重點。而相較于編程類的數據采集技術,使用八爪魚等數據采集軟件進行數據抓取所需的技術要求較低,對于非計算機專業或無編程基礎的研究人員來說,能夠通過簡單的實驗步驟輕松地獲取到所需數據。
使用采集軟件獲取數據雖然相對容易,但是也有許多局限性。八爪魚采集軟件是針對于各種網頁版的可見數據進行采集,目前許多企業已經關閉網頁版官網或商城,轉向投入到手機app應用的開發與研究,但對于八爪魚采集軟件來說,抓取手機app應用的數據目前是無法實施的。據了解,想要獲取手機app應用的數據,需要先下載研究對象的客戶端,在保持手機與電腦在同一局域網的情況下,使用Fiddler、Charles、Wireshark等抓包軟件進行抓包,結合python等編程語言進而達到數據抓取的目的。