衛俊杰
旅游業與大數據有著內在的本質的聯系,旅游者在旅游過程中的每一個階段都與數據有關。在旅游活動開始前旅游者就開始了搜集信息,在旅游過程中旅游者又通過社交媒體不斷的分享自己的旅游經歷,在旅游活動結束之后又面臨旅游者的各種活動的反饋。隨著互聯網及IT技術的飛速發展,旅游者的各種信息在保護隱私的前提下不僅可以完整的保留下來,而且可以用于旅游行業未來的預測以及服務的改進,這也是旅游業大數據研究的基礎。在這樣的背景下,如何快速有效的獲取數據也成為每一位從業人員和科研工作者所困擾的問題。本文從國內外現有案例的基礎上總結出目前旅游業大數據的主要來源和獲取方式,以期促進我國旅游業大數據研究的發展。
引言
數據是科研工作的重要基礎,大數據對與科學研究來說具有不可抗拒的魅力。國內外一些研究者和研究機構都給出了大數據的定義,麥肯錫在其一份商業報告中提出:“大數據指的是大小超出常規的數據庫工具獲取、存儲、管理和分析能力的數據集。”Mayer-Schonberger&Cukier認為大數據是在因特網廣泛發展的基礎上產生的不能用傳統類型的關系數據庫處理的大量數據。ViktorMayer-Sch?nberger認為大數據指不用抽樣調查這樣的捷徑,而采用所有數據進行分析處理。經過多個企業、機構和數據科學家對于大數據的理解闡述,雖然描述不一,但都存在一個普遍共識,即“大數據”的關鍵是在種類繁多、數量龐大的數據中,快速獲取信息。
在旅游研究中,傳統意義上的定量研究主要依賴于抽樣方法建立模型,通過假設檢驗從樣本推及到總體。在一個資源有限的時代,要收集總體的全部數據需要付出很高的代價,抽樣是定量研究的常用方法,因為其方便快捷獲得了研究者的偏愛。Nuzzo(2014)對傳統定量研究中模型中的假設檢驗提出了質疑,認為人們在數據量較小的情況下過高的估計了P值的作用。同時,在傳統的抽樣方法中,抽樣的過程往往有可能會存在研究者的偏見和對游客產生影響,導致獲取的數據不夠客觀。大數據記錄的是旅游者的平常狀態,這也會將研究者對旅游者的影響盡量減小。旅游學科的定量的研究因為大數據的收集與存儲發生了變化,數據不再局限于抽樣方法獲得的小樣本,在一定意義上我們甚至可以獲得總體的全部數據。在全數據模式下“樣本=總體”,社會科學的定量研究方法也將因此產生較大的改變。
社會科學的研究方法不能局限于理論模型的建立,更重要的是獲取更完整的數據和處理數據的工具。目前,大部分的研究都集中于數據的存儲和分析,大數據的獲取問題仍然是一個相對被忽視的領域,但是我們要認識到大數據的獲取應該與其他研究一樣重要。然而,僅有少數的公司有足夠的資源或者能力去獲得巨量的數據。因此不僅要掌握分析大數據的技能,更重要的是利用各種技術去收集數據,并把這些非結構化的數據轉換為我們可用的信息。
鑒于此,本文從國內外已有的案例出發,對旅游業大數據的獲取途徑和方法進行梳理,在總結各類方法的主要特點、優劣勢、使用范圍的基礎上,指出目前研究中存在的主要矛盾,以期拋磚引玉,促進我國旅游業大數據研究的進一步發展。
一、旅游業大數據來源分類
旅游意味著旅游者空間位置的變換,當下的旅游者在活動過程中往往會攜帶一些智能設備(比如手機),并用這些設備與旅游產業進行交互,在交互的過程中將會產生數量非常龐大的數據。根據公眾貢獻數據的主動性,可以把大數據分為主動式與被動式。其中,主動式大數據主要指旅游電商平臺購買后的評價和游記類網站的內容分享,本文中的主動式數據只要指旅游者的用戶生成內容(UGC)。被動式大數據是游客在使用智能設備時在運營商或旅游服務提供商后臺產生的數據,如使用網站交易數據、搜索引擎、網站的瀏覽痕跡、旅行GPS軌跡數據、運營商基站數據等,本文把被動式大數據來源分成了三類:搜索引擎,網站分析系統和現代追蹤設備。對這些海量多類型數據的獲取與分析能夠為旅游景區發展與旅游相關領域的研究帶來深遠影響。
所有的這些信息都可以用來分析旅游者的喜好、動機以及旅游過程中的體驗。當我們把所有的這些信息都整合在一起的時候,就會變的更加有說服力。
(一)搜索引擎
目前關于搜索引擎的研究主要集中在計算機科學與信息科學領域,主要關注的焦點是搜索引擎的排序算法。但是我們要認識到,旅游者作為搜索引擎的使用者,網絡搜索數據記錄了用戶的搜索關注與需求,為研究旅游經濟行為提供了必要數據基礎。搜索引擎已經成為旅游者查詢和篩選信息的最重要的途徑之一,同時也成為了旅游服務提供商發現潛在的旅游者的最佳方式。
來自于搜索引擎的大數據主要由旅游者的原始查詢記錄、搜索引擎提供的指數和大數據API三部分組成。Pan,B.(2006)通過Excite公司提供給匹茲堡大學的1025910次查詢記錄分析了與旅游相關的關鍵詞,他發現旅游者在每次搜索旅游目的地信息時大概使用三個關鍵詞,每個查詢過程至少要搜索三次,在搜索結果頁面旅游者會往后翻1.7頁。方世巧,馬耀峰(2012)以百度搜索結果為數據源,對西安市A級景區信息與旅游流進行耦合分析。
Google是世界上最流行的搜索引擎,Baidu是中國市場份額最高的搜索引擎,他們都提供免費的歷史搜索數據指數查詢,分別被稱為googletrend和baiduindex。黃先開(2013)以BaiduIndex為數據源,對北京故宮的游客進行了預測研究。王煉,賈建民(2014)以BaiduIndex為數據源,對黃金周期間的旅游需求進行了預測。ProsperF.Bangwayo-Skeete(2015)通過在googletrend中搜索“酒店和航班”得到的時間序列數據對未來的游客量進行了預測。RobertoRivera(2016)以GoogleTrend為數據源對波多黎各的酒店預定進行了預測。
隨著算法的改進和存儲技術的提升,搜索引擎每天處理的數據量越來越大,百度每天要處理近100PB數據,這對于大數據研究者也提出了挑戰,因為這么大的數據量不僅需要強大的計算服務器,而且需要非常完善的算法。為了避免這些問題出現,百度開放了專門的大數據旅游API接口。研究者可以通過程序設計與百度API對接來獲取數據。雖然API技術對于編程技術人員來說并不復雜,但是從我國的研究文獻來說,還沒有出現旅游業相關的研究。國外雖然有相關文獻,但是也并不多。
(二)網站分析系統
獲取網站流量統計資料通常有兩種方法:一種是采用自己開發的網站流量分析服務;另一種是通過在自己的網站服務器端安裝統計分析軟件來進行網站流量監測(如:百度統計,GoogleAnalytics)。這些數據大致可以分為三類,每類包含若干數量的統計指標。
因為這類數據的獲取需要在網站頁面中嵌入javascript代碼,多數的研究者并沒有實際運營網站或者是沒有權限嵌入代碼,所以這類工作主要由網站數據分析人員完成,因此國內外文獻并不多。BeatrizPlaza通過GoogleAnalytics分析了http://www.scholars-on-bilbao.info的游客訪問數據。
因為考慮到商業數據不愿被其他機構獲取,有些網站往往獨立開發自己的分析系統。房如華以酷訊旅游為例分析了如何獲取潛在的旅游者在網站的點擊行為、訪問路徑、訪問內容等,并通過數據的清洗、分析、挖掘來提高用戶的轉化率。
(三)現代追蹤技術
隨著通信技術的飛速發展,旅游研究的方法、管理的工具以及市場營銷的方式也發生了改變。現代追蹤技術及通信數據的積累讓研究者重新思考用一些新的概念和方法來研究旅游業。根據使用設備的不同,本文將其按照數據來源的不同分為移動電話、GPS和藍牙數據。
最早將移動電話追蹤定位技術用于旅游進行探索和概念研究的是Ahas,R.,&Mark,?.(2005)。JanikaRaun用EMT提供的在愛沙尼亞漫游的外地手機進行了研究,他的數據主要由兩部分組成,第一部分是來自于塔林和哈留的215643個電話的406590次訪問,第二部分數據來自于到訪saare的47377個電話的59401次訪問。隨后又有一些學者開發出了不同的數據源研究了旅游者更為深層次的空間行為。TelefónicaandRocaSalvatella在一份關于西班牙的旅游大數據報告中利用了電信運營商TelefónicaMóvilesEspa?a提供的到西班牙馬德里和巴薩羅那的680928個電話的漫游數據和BBVA銀行提供的168921張銀行卡跨境消費數據,這些數據涉及到的旅游者來自于21個不同的國家。中國旅游研究院和中國電信聯合實驗室利用電信提供的手機定位數據,形成了國內首份大數據鄉村旅游發展報告。但是我們從報告中可以看出,國內的報告無論是從形式上還是內容的處理上都顯得非常粗糙,都停留在簡單的數據描述上,還沒有對數據進行深入挖掘。雖然研究者們對電信運營商的數據的關注與日俱增,但是我們也應該清醒的認識到,它的使用仍然存在著諸多困難,尤其在對數據的監測和隱私的處理方面,往往很難取得平衡。
在許多學者的研究中,GPS都是非常重要的追蹤技術。國內也有學者利用GPS設備采集游客活動信息,但其樣本作為抽樣推斷都顯得有些單薄。作為研究旅游者行為的非常重要的數據來源,受到了許多學者的青睞。但是我們也要認識到,GPS技術本身也存在局限性。由于GPS技術的限制,精確度只能到5-8米,當旅游者進入室內時往往就會失去聯系。同時,當旅游者知道自己在參與某項研究的時候,往往也會對自己的路線進行限定,同時大規模應用GPS設備也會加大研究的費用。目前很多智能設備都提供了GPS功能,但是這種數據屬于游客的隱私,一般不能用于研究。
與GPS相比,藍牙設備發射的信號傳輸距離較短,因此它的定位數據在室內的表現更好。YujiYoshimura利用藍牙探測器在盧浮宮博物館收集了24452個設備的位置信息,用于分析博物館內的擁擠現象。Versichele,M.在根特節中利用藍牙掃描儀收集了80828個藍牙設備的152487個運動軌跡信息,分析了在事件旅游中的游客行為。
目前來源于追蹤定位技術的大數據方面的實證研究主要來自于國外的學者和研究機構,國內的相關研究主要還集中在方法和技術的討論,并沒有落到實處。
(四)旅游者用戶生成內容(UGC)
旅游者用戶生成內容主要由電商平臺的旅游產品評價和旅游類的社交媒體網站內容構成。電商平臺提供了消費者對商品進行交流、評價的空間,這也使得消費者與零售商的距離變的更近。研究者對與產品的電子口碑(eWOM)的關注也越來越多,這不僅體現在人們對于書籍、CD、電子商品的研究中,還體現在對旅游消費者的在線評論的實證研究上。WenjingDuan通過第三方公司收集了華盛頓地區最受歡迎的前十家酒店網站上的70103評價。Wang,Park,andFesenmaier(2010)用智能手機中排行前100的旅游類的app收集游客評價,并利用爬蟲采集了37133條評論,達到了總評論數的75%。通過分析他們發現,字數較少的評論主要都集中與情感評價,例如“喜歡”,“吸引人”,“失望”等,這些對旅游的體驗僅提供較少的信息;負面的評價大多和app的體驗有關。他們對于所有評論進行了文本分析,通過分詞系統分析了不同詞語出現的頻率。用twitter數據創立了美國經濟中的三個與工作相關的指數。
社交媒體(SNS)在過去的幾年里保存了非常龐大的用戶生成內容,對我們理解旅游者的行為和體驗,態度和偏好,旅游目的地的影像提供了非常有價值的信息。KohyaOkuyamaandKeijiYanai通過API獲取了旅游者在Flickr發布的20000張帶有位置標記的照片,并從游記圖片中分析游客的軌跡,進而提出旅游線路規劃系統。StepchenkovaandZhan從游客分享在Flickr的23000張照片中抽取了500張,分析了游客對秘魯的印象。Pan,MacLaurin用語義網絡的方法從旅游博客UGC分析了查南卡羅來納州的爾斯頓的旅游形象。還有更多的研究用網絡民族志和博客志的方法分析了游客對于旅游目的地和當地居民的印象(Hsu,Dehuang,&Woodside,2009;Woodside,Cruickshank,&Dehuang,2007)。吳靜采集了Flickr網站上的500位游客的1872張照片,分析了南京市游客旅游流動性空間特征。
二、在數據獲取中存在的問題
(一)隱私與數據所有權
國內外學者在獲取大數據時面臨的最大的問題就是隱私的保護。這其中既有數據隱私權的立法保護問題,也有因保護隱私而帶來的數據處理的困難。首先,健全的隱私保護法律制度,是學者在允許的范圍內自由取用數據基礎,也是大數據學術研究的基礎。在法律的真空區做研究,每個學者都會感到壓力重重,瞻前顧后。比如基于電信運營商數據的旅游研究,國外的報告一般都有專門的章節說明隱私的保護情況,在這些章節中我發現國外的數據保護立法相對國內來說好一些,但也不夠完善。其次,國外的研究往往將數據的獲取與分析過程進行分離,數據通過第三方機構的脫敏處理才能交給研究者。因為隱私保護,第三方機構在數據為了防止個人數據被追蹤,會將不同時間段的數據標記為不同的設備,這也造成了研究者的困擾。因為旅游者的旅游行為在這些報告中我們看到了國外的數據保護法有移動運營商在提供數據時,會將所有的個人信息隱去。這也將導致同一個設備,在不同的時間段內會被標記為不同的編號,給后續的跟蹤研究造成很大的麻煩。
(二)數據記錄與存儲的口徑不一致
各種不同來源的相同類型的數據匯總在一起,是大數據形成的基礎,但同時我們又認識到,各種不同類型的企業、平臺在之前的數據存儲的過程中并沒有考慮過整合,因此在匯總時就出現了因數據的口徑不一致而導致的整合困難。這種困難首先體現在存儲方式上,不同機構的數據存儲方式可能千差萬別,比如有些機構把數據存儲在關系型的數據庫中,有些機構把數據存儲在非關系型的數據庫中;有些機構把數據存儲在文本文件或者超文本文件中,還有些機構把數據存儲在圖片或者音頻、視頻中。各種存儲的類型之間差異巨大,如果要進行數據分析首先必須保證數據記錄與存儲的口徑一致。其次還體現在數據的格式方面,比如不同的網站在存儲用戶ID時的策略有可能不同,有些網站的ID時郵箱,有些是字母,有些是字母和數字的組合等等,這給數據整合帶來的問題是,當一名顧客在不同的網站注冊不同的ID并進行活動時,如何才能把他們識別為同一個人?
在數據收集與處理的過程中,數據清洗的很重要的作用就是保證數據的口徑一致,這也耗費了數據工作者非常大的精力。盡管“臟數據”不可避免,但是在未來的數據記錄與存儲的過程中,我們也應該提倡更加標準化的存儲方式,以減少數據清洗的壓力。
(三)行業,技術壁壘高
互聯網時代的到來,給我們的生活帶來極大的便捷,旅游者可以不出家門便預定到合適的旅游產品。可是對于企業來說,信息不對稱卻開始變得難以忍受,比如旅游產品的經銷商往往要付出巨額花費才能得到自己的數據。極少數的公司利用長期運營的優勢積累了大量的數據,長期休眠在自己的硬盤中,在大數據時代到來之后,這些公司才意識到這些數據將會是一筆巨大的財富。而新進入的公司卻因為沒有業務數據積累導致很難追趕已經存儲了大量數據的少數公司,這種情況可能還會隨著時間的推移繼續加劇。
如何打破這種壁壘,讓數據流動起來,并實現數據的整合,數據的價值才會被充分利用,或許這也是未來我們應該努力的方向。
大數據時代的旅游研究是一個全新的起跑線,此刻我們與國外的研究機構一同出發。在這一的研究領域,我們要充分利用我們互聯網的優勢,在立法保護的基礎上,更快更好的促進旅游業大數據科學的進一步發展。
(作者單位:山西師范大學歷史與旅游文化學院)