江 帆 林珊珊 應天煜 潘 冰 周亞慶
(1.浙江大學管理學院 浙江杭州 310058;2.美國賓夕法尼亞州立大學健康與人類發展學院 美國賓夕法尼亞州帕克 16802)
隨著信息技術高速發展和互聯網快速普及,人、機、物三元世界的高度融合引發了數據模式的高度復雜化和數據量的爆炸式增長,對經濟發展、社會治理、國家管理、人民生活等各方面都產生了重大影響。廣義上來說,大數據是指在指定時間內,無法使用傳統軟硬件工具和IT 技術獲取、管理、分析的數據(李國杰、程學旗,2012)。Gantz 和Reinsel(2011)總結了大數據的4V 特點,即Volume(體量大)、Variety(種類多)、Velocity(生成速度快)和Value(價值大但密度低)。大數據及相關技術為改進科學研究做出了巨大貢獻,旅游研究就是其中一個典型例子。用戶、設備和系統操作這三大數據來源提供了豐富的旅游相關大數據。首先,互聯網促進了社交媒體的快速發展,為傳播用戶生成內容(UGC)數據提供了廣闊的平臺。其次,由于物聯網(IoT)的蓬勃發展,各種傳感器設備不斷涌現,用于追蹤游客的活動和環境狀況,提供了大量的時空數據。最后,旅游是一個包含了一系列操作的復雜系統,如網絡搜索、網頁訪問、在線預訂等,它們產生了相應的網絡搜索數據、網頁訪問數據、在線預訂數據等事務型數據?;谶@3 個主要來源的大數據,學術界和業界可以更好地探索和理解游客行為和旅游市場(Li,Xu & Tang,et al.,2018)。大數據的出現為旅游學的深入研究奠定了堅實的數據基礎,彌補了傳統數據收集方法在代表性和準確性上的不足,也為公眾參與旅游平臺建設提供了新途徑(郝志剛,2016)。
國外旅游學界很早就開始關注大數據研究,并開展了豐富的實證和理論研究。已有學者對國外旅游大數據研究進行了詳盡的綜述,如Li、Xu 和Tang 等(2018)根據數據來源將旅游大數據分為用戶生成內容(UGC)數據、設備數據、事務型數據三大類,并從研究重點、數據特征、分析技術及未來研究方向4 個維度,對每一類數據的相關研究進行了系統綜述。
雖然社會各界都開始意識到大數據所蘊藏的巨大價值,但國內對旅游大數據的起步早關注晚,相關研究相對分散,尚未形成系統化的研究布局。目前旅游大數據的研究和應用在國內方興未艾,亟須更加理性的思考及反思(潘冰、李云鵬,2017)。在本文選取的358 篇文章中,有13 篇從不同角度對旅游大數據或其技術使用研究做了理論性綜述,其中2 篇是基于國外旅游大數據的文獻,探析了大數據在旅游研究中的運用(曾忠祿、王興,2020)及其研究熱點和具體特征(吳開軍,2019),但分析視角較為宏觀,未深入探討細分數據類型的具體情況。其他研究則聚焦旅游大數據研究的某一具體方面:或關注特定類型的旅游大數據研究,如旅游數字足跡(李君軼,2013)、地理標簽照片(王麗,2018)、追溯技術(藍牙、Wi-Fi 及GPS 數據)(袁雨果、鄭偉民,2019)、在線評論數據(張補宏、周旋、廣新菊,2017);或梳理具體數據分析技術的應用(王英杰、張桐艷、李鵬等,2020;楊敏、李君軼、徐雪,2020),但立足特定場景(林開淼、郭進輝、林育彬等,2020),缺乏對旅游大數據研究的整體把握。此外,這些文獻主要考察不同的研究領域,沒有充分考慮各數據類型所特有的數據特征和數據分析方法。上述綜述文獻多將國外研究作為目標文獻,未充分考慮中國本土研究情境,在數據類型上也未進行擴展和創新。因此,本文試圖彌補上述研究空隙,對旅游研究中不同類型的大數據進行全面的文獻綜述,并從研究主題、數據特征和分析技術3 個角度對各類型大數據進行系統分析,描繪國內旅游大數據研究的進展及未來發展趨勢的全景圖,以期推進國內旅游大數據研究的發展。
本文使用兩級關鍵詞進行交叉組合式檢索,一級關鍵詞為“旅游”“酒店”“目的地”“景區”“大數據”,二級關鍵詞為旅游大數據細分類型(如用戶生成/原創內容、線上/在線評論、線上/在線圖片)及數據分析方法(如數據挖掘、文本分析)。用于檢索的數據庫鎖定中國知網(CNKI)截至2021年1月13日發表的文獻,選取“SCI”“EI”“核心”和“CSSCI”作為期刊來源選項,只將期刊文獻作為研究對象,不包括書評、報告、學位論文等。經過進一步人工審核,篩選出關于旅游大數據的實證研究,最終選定358 篇作為本研究的文獻樣本。之后,研究團隊對文獻的基本信息(包括作者、年份、題目、期刊),以及文獻主題及數據信息(包括研究主題、數據類型、研究方法、數據收集方法、數據分析方法及數據來源等)分別進行背靠背提取、比對與整理匯總,為每一數據類型建立一個文獻數據庫,示例見表1。

表1 本研究數據庫示例Tab.1 An example of the database used in this study
從期刊來源看,發表數量前五位的期刊分別是《旅游學刊》《經濟地理》《資源開發與市場》《地域研究與開發》及《旅游科學》,文獻數量占本研究文獻總量的34.1%(見表2)。從發展趨勢來看,國內旅游大數據研究起步較早但關注較晚。2001年出現了第一篇相關研究,2001年至2008年是探索階段,年發文量低于3 篇,且部分年份沒有相關論文發表。2009年至2013年這一階段的發文量雖然不高,但相比第一階段,文章發表數量相對穩定,年均發文量5篇。2013年之后,國內旅游大數據研究進入了迅速發展期,發表的論文占查找論文總量的92%,年均發文量迅速增至41 篇。2018年達到頂峰,發表的文章達到65 篇。根據這一系列數據的趨勢判斷,今后幾年國內旅游大數據研究將會繼續發展,對這一領域的理性回顧對于剖析現存難題、豐富現有研究具有重要意義。

表2 文獻期刊來源(5 篇及以上)Tab.2 Source of journal articles(5 and above)
研究方法包括質性研究、定量研究、混合研究以及文獻綜述4 種。鑒于旅游大數據獲取的特殊性,本文進一步區分數據獲取方法,包括一手數據、二手數據以及混合數據3 種。統計發現:已有國內旅游大數據研究多以質性研究為主,占比54%;定量研究占比39%;混合研究僅占7%。研究數據多使用二手數據(89%),且大部分使用單一類型的二手大數據(85%),僅有4%使用了混合數據。對于具體的數據分析方法,筆者將根據3 種不同的數據類型依次進行深入剖析。
Li、Xu 和Tang 等(2018)根據數據來源的不同,將旅游大數據細分為3 類:用戶生成內容(UGC)數據、設備數據和事務型數據。UGC 數據指由游客產生的數據,而根據分享內容的不同,UGC 數據又分為在線文本數據和在線圖片數據。設備數據指由機器產生的數據,包括GPS 數據、藍牙數據、移動漫游數據、Wi-Fi 數據、RFID 數據以及其他設備數據。事務型數據指用戶與機器執行網上交互活動時產生的數據,包括網絡搜索數據、網頁瀏覽數據、在線預訂數據等。根據本文文獻檢索結果,國內暫時還沒有圍繞藍牙數據、Wi-Fi 數據、RFID 數據以及消費卡數據開展的相關研究,但筆者補充了中國情境所特有的微博簽到數據以保持相對完整性。結合旅游者游前、游中和游后的三階段行為,最終匯總之后的中國旅游大數據類型如圖1 所示:UGC 數據(在線文本數據、在線圖片數據、微博簽到數據);設備數據(GPS 數據、移動通信數據、氣象數據);事務型數據(網絡搜索數據、網絡瀏覽數據、在線預訂數據)。

圖1 中文文獻旅游大數據分類Fig.1 Classif ication of tourism big data studies in China
從圖2(a)可以看出,目前國內旅游大數據研究的數據類型分布十分不均勻:UGC 數據是應用最廣泛的數據類型,占所有數據類型的72%,其中在線文本數據的占比高達76%;設備數據和事務型數據分別占比17%和11%。數據可得性的差異是導致數據類型分布不均勻的主要原因。在所有類型的旅游大數據中,UGC 數據獲取成本和難度都最低,因此使用范圍最廣。其余數據的使用受制于隱私安全或獲取成本等客觀條件,所以獲得相對困難。如在線預訂數據和移動漫游數據中包含較多的隱私信息,只有特定企業和政府部門能夠獲取。部分學者通過購買獲取運營商數據,但成本過高,可行性有限。部分數據收集依賴專門的實驗器材和大量的人力資源,如雇傭游客使用GPS 手持機器設備收集GPS 數據,研究成本較高。圖2(b)匯總了每種數據類型的研究年份分布,從中可以發現,大部分數據類型的研究整體呈波動上升趨勢,其中2013年是一個明顯的增長點,2018年左右達到頂峰。早期學者使用較多的是氣象數據和GPS 數據,氣象數據的研究在2009年發表較多,但在其他新興數據崛起的移動信息時代逐漸衰落。2016年之后,隨著信息化技術的發展和各式共享平臺的出現,網絡搜索數據、在線文本數據、在線圖片數據等其他類型數據的相關研究開始出現。之后在線文本數據的研究一直處于領先位置,年發文量遠高于其他數據類型研究。值得注意的是,2018年,在其他類型數據發文量呈現上升趨勢時,在線文本數據研究出現了小波谷,這預示著國內學者的注意力開始從在線文本數據轉移到其他數據。一年之后,使用GPS 數據、網絡搜索數據和微博簽到數據的研究都大幅度增加。在線預訂數據、網頁瀏覽數據等受限于數據可得性,相關研究一直很少。表3匯總了各類旅游大數據的研究結果,后續將圍繞表中內容詳細展開。

表3 旅游研究中不同類型大數據的比較Tab.3 Comparison of diff erent types of big data in tourism research

圖2 數據類型比例及年份分布Fig.2 Distribution of data types and published years
社交媒體的普及為旅游者提供了可以自由分享信息的平臺,這些信息包括文字、圖片和志愿者地理信息(Volunteered Geographic Information),對應產生了在線文本數據、在線圖片數據和微博簽到數據。
在線文本數據具有方便、快捷、低門檻的特點,是旅游大數據的主要來源之一(李春曉、李輝、劉艷箏等,2020)。目前游客線上分享的文本內容主要包括兩類:在線評論和游記。
(1)研究主題
由于所表達的信息內容不同,在線評論數據和游記數據的研究主題也存在差異。評論數據更多表達旅游者對旅游產品的態度,因此常被用來衡量游客滿意度,探究滿意度的具體構成(繆秀梅、陳燁天、米傳民,2019)及其影響因素(黎冬梅、朱沆,2007),以評估和改善酒店的線上口碑(吳維芳、高寶俊、楊海霞等,2017)或有效提升景區管理水平(趙春艷、陳美愛,2019)。另外,在線評論數據也被廣泛運用于旅游目的地感知形象研究中(張珍珍、李君軼,2014)。值得注意的是,已有學者在單一旅游目的地感知形象研究的基礎上進行了拓展,如比較傳統方法收集的數據與評論數據在探究旅游形象感知上的異同(張珍珍、李君軼,2014)。UGC 評論數據還被用于旅游情感分析。如挖掘游客情感特征(叢麗、何繼紅,2020)并根據情感評價詞前的副詞和轉折詞區分情感強度(劉逸、保繼剛、陳凱琪,2017),或基于情感分析的結果計算情感傾向以便于了解網絡輿情(周倩、姜磊、程旅航等,2020)。除了將評論作為數據來源探究旅游者或目的地的相關特征之外,也有研究將在線游客評論看作影響因子,觀察其對景區接待量(賴勝強、唐雪梅、朱敏,2011)和消費者態度(楊穎、朱毅,2014)的影響。近年來,亦有學者分析評論數據本身,探究影響在線評論有用性(卓四清、馮永洲,2015)和可信度(張思豆、李君軼、魏歡,2016)的因素。
游記對旅游目的地形象塑造和傳播同樣具有重要影響(郭風華、王琨、張建立等,2015)。為彌補單向研究的局限性,有學者將游記數據和官方宣傳文本結合起來,對比游客感知形象和官方宣傳形象,發現二者之間存在的異同,由此提出針對性的營銷和發展建議(仲寧、吳小根、汪俠等,2018)。也有學者利用游記挖掘旅游地意象,如彭丹和黃燕婷(2019)利用網絡有機文本分析麗江古城旅游地意象,發現麗江古城旅游地意象的主題可以歸納為本真性的意象、浪漫性的意象以及商業化的意象3 類。此外,游記敘述了旅游故事和途中感受,因此成為除量表之外進行旅游體驗研究的重要數據來源。多數研究利用游記對旅游活動、景觀等的旅游體驗進行分析,有學者在此基礎上提煉理論模型,如徒步旅游中的旅游體驗本質模型(謝彥君、樊友猛,2017)及旅游體驗價值感知基礎模型(黃杰、馬繼、謝霞等,2017)。同時,作為數字足跡的一種,游記為旅游流和游客時空行為研究提供了大量的開放數據資源(嚴江平、唐萍、李巍,2016),且有利于優化現有的旅游推薦模型(孫文平、常亮、賓辰忠等,2019)。
盡管相較于游記和評論,微信數據包含更多的個性化信息,但受限于數據可得性及個人隱私,微信數據很少被用在旅游研究中。茍思遠、李剛和張可心等(2016)進行了首次探索,他們針對某一旅游者(W 教授)的朋友圈,根據其逐日活動記錄探究其時空行為特征。
(2)數據特征
在線文本數據主要來自國內主流旅游網站,如攜程旅行、去哪兒、馬蜂窩、驢媽媽等。其中,攜程旅行網是國內最大、受眾最廣的在線旅行社平臺(Online Travel Agency)。Trip Advisor 及其子網站到到網則是收集國外評論的主要網站。也有針對特定旅游類型的網站,如專注徒步旅游的窮游網、磨房網等主流戶外旅游網站(謝彥君、樊友猛,2017),專注騎行旅游體驗的“騎行圈”(李艷、嚴艷、贠欣,2015)等。研究還發現,57%利用評論數據的研究和76%利用游記的研究都使用了兩種及兩種以上的網站作為數據來源以保證樣本的代表性和可信度。
旅游網站的開放為旅游研究提供了豐富且海量的在線文本數據。目前國內研究常用網絡信息采集軟件進行在線文本數據的抓取,如火車頭采集器和八爪魚采集器,也有研究使用網絡爬蟲工具如Gooseeker、BeautifulSoup、PhantomJS、Selenium、Web Spider 等。這些數據抓取軟件和爬蟲工具的出現,大大降低了在線文本數據獲取的難度和成本。
(3)分析技術
在線文本數據的分析過程一般包括4 個階段:確定數據源、數據收集、數據預處理和數據挖掘。鑒于大數據分析的特殊性,本文將重點闡述后兩個階段的數據分析技術。數據預處理是分析處理在線文本數據的一個關鍵環節,決定了數據結論的準確性和有效性。這一環節可分為4 個步驟:①數據清洗,刪除不完整、不準確或是無用的記錄,刪除重復信息或明顯作假信息,剔除與研究主題不符的信息(鐘櫟娜,2015)。②數據轉化,即同義詞替換歸并和語言轉換(宋振春、趙彩虹、李旭東,2018)。③分詞,將完整的語句打散成為各類詞語的組合,剔除無效詞,保留旅游相關的關鍵詞及形容詞、程度副詞等。這一步可以利用分詞軟件輔助進行,如ROST Content Mining(簡稱ROST CM)、ICTCLAS 分詞系統以及分詞工具包IKAnalyzer、Word2Vec。④建立詞庫方便后續分析。
數據挖掘,即挖掘出數據中隱藏的人們感興趣的、有價值的信息,并將其提煉成可直接使用的知識(陶雪嬌、胡曉峰、劉洋,2013),這是在線文本數據分析的關鍵步驟。目前的研究多使用傳統文本分析方法,如內容分析法、扎根理論及重要性 - 表現性分析法(IPA)來分析旅游現象(賈衍菊,2017)。隨著網絡媒體發展,有研究者開始將傳統內容分析方法與網絡信息結合起來,形成與數字化環境相適應的網絡內容分析法,對網站和在線文字交流記錄進行分析(熊偉、許俊華,2010)。具體數據分析技術有詞頻分析、網絡語義分析、社會網絡分析、情感分析與聚類分析等?,F在已經開發了許多有效的數據挖掘工具和軟件包用于分析處理文本數據,如ROST Content Mining、UCINET、NVivo 和SPSS 等。其中武漢大學沈陽教授研究團隊研發的ROST CM 應用最為廣泛,是目前國內學者對網絡文本進行研究分析的常用工具之一(董正秀、黃震方,2018)。
除了上述傳統文本數據分析方法,已有學者引入深度學習、機器學習、神經網絡等人工智能中的數據挖掘技術來探究旅游現象。如李君軼、任濤和陸路正(2020)利用邏輯/算法編程方法、機器學習方法、深度學習方法挖掘評論數據,探索基于文本大數據的游客情感最優計算方法。馬超、李綱和陳思菁等(2020)使用機器學習和深度學習方法,識別多模態評論數據對其感知有用性的影響。李琴、李少波和王安虹等(2018)利用神經網絡語言模型,提出一種基于旅游在線評論人流量監控技術的新方法并提出景區門票浮動制。
網絡和社交媒體的發展,也催生了許多非結構化信息的共享平臺,如圖片分享平臺,游客可以在社交媒體或旅游網站發布帶有地理位置標記的圖片。
(1)研究主題
本研究搜集到基于在線圖片數據的旅游研究文獻共37 篇,根據具體研究對象,可進一步劃分成兩部分:對圖片內容的研究和對圖片所帶地理標簽的研究。根據凝視理論,圖片在一定程度上可以反映出游客對于旅游目的地的感知偏好及其行為特征(張坤、李春林、張津沂,2020),因此,對圖片內容進行分析的研究聚焦于旅游目的地形象(鄧寧、鐘櫟娜、李宏,2018;鄧寧、劉耀芳、牛宇等,2019)、旅游意象(孔令怡、吳江、魏玲玲等,2018)、旅游體驗(潘莉、張夢、張毓峰,2014)3 個方面。如果單純利用圖片的地理標簽進行研究,此時的在線圖片數據與GPS、Wi-Fi 和藍牙等其他追蹤技術所得數據所發揮的作用一致,可以實現對旅游者行為軌跡的刻畫,因此常被用于游客時空行為、旅游流和旅游興趣點挖掘這幾類研究中(王守成、郭風華、傅學慶等,2014;丁娟、李俊峰,2015;羅秋菊、梁思賢,2016)。
(2)數據特征
國內旅游研究的在線圖片數據的獲取主要有兩大來源:一是專業的圖片共享網站,最常見的是Flickr 和Panoramio(二者占所有圖片數據來源的45%),這些平臺都提供了免費開放的數據接口,方便獲得圖片數據及其元數據,且數據成本低。除了圖片本身,在線圖片數據還提供了元數據。元數據包含了用戶相關信息(照片ID 和用戶ID)、圖片時間信息(拍攝時間和上傳時間)、地理位置信息(照片拍攝地點的經緯度)以及描述性信息(標題)等,這些字段在旅游者時空行為等相關研究中發揮了非常重要的作用(羅秋菊、梁思賢,2016)。二是各大旅游網站,如馬蜂窩、攜程旅行等,通過軟件抓取獲得圖片數據。
(3)分析技術
作為一種特殊的數據類型,圖片是一種隱喻能力很強的視覺符號,能反映出游客心中深層次的真實感受。因此,對圖片中所蘊含的深層含義的挖掘是這一類型研究的重點。針對圖片內容進行分析的主要分析方法有內容分析法、隱喻抽取技術或符號學相關分析方法,以及社會網絡分析法。其中,內容分析法最為常見。隱喻提取技術是由哈佛商學院教授扎爾特曼(Zaltman)提出的一種質性研究方法,其主要思路是通過與深度訪談法結合,讓受訪者選擇圖片并講述圖片背后的獨特故事,以揭露受訪者內心的深層想法(潘莉、張夢、張毓峰,2014)??琢钼?、吳江和魏玲玲等(2018)就運用隱喻抽取技術,解析了鳳凰古城的目的地意象。符號學中的相關分析方法也能對圖片內容進行深入剖析,如李靜和戴光全(2019)使用羅蘭·巴特圖像符號學分析法,結合內容分析,從明示符號和隱含符號的分析角度探究節慶旅游體驗。社會網絡分析法是研究社會結構的最新方法,將關注屬性作為節點,探究各屬性之間的關系(Scott,2000)。王素潔、黃楷伊和董玉潔(2018)就利用社會網絡分析法構建了中國目的地形象屬性的共現關系網絡。上述幾種圖片內容分析方法相對傳統,近年來,已有學者引入計算機視覺學習和圖像處理的深度學習算法來輔助圖片內容識別及分類。其中,深度卷積神經網絡(Convolutional Neural Networks)已被廣泛應用于圖像分類、物體檢索、姿態估計、圖像分割、人臉識別等領域,極大提升了圖像識別的準確性(盧宏濤、張秦川,2016)。鄧寧、劉耀芳和牛宇等(2019)使用卷積神經網絡,對Flickr 上不同來源地旅游者拍攝的北京圖片的表征內容進行分析,并使用了哥倫比亞大學Chen 等基于圖片深度學習研發的分析工具——Deep Senti Bank,分析UGC 圖片所反映出的情感形象。張坤、李春林和張津沂(2020)使用殘差神經網絡這一場景識別模型,對北京入境游客拍攝的圖片進行視覺內容識別及分類,最終劃分出10 種感知類型和103 類場景類別。
針對圖片地理標簽,常見的分析步驟包括:(1)使用核密度估計或空間聚類分析法識別出游客地理興趣點。核密度估計是一種非參數密度的空間密度方法,能將點的信息擴展到面上(李春明、王亞軍、劉尹等,2013)。比較常見的空間聚類分析法有DBSCAN 聚類分析(丁娟、李俊峰,2015)、基于密度峰值的空間聚類(DPC)(徐志明、梁循、李志宇等,2018)。(2)運用GIS 空間分析方法,進一步分析其空間分布特征。質性分析軟件(如NVivo、UCINET)、空間技術分析軟件ArcGIS,以及可視化軟件(NetDraw、CoreDraw)的推出,簡化了在線圖片數據分析流程,對推進該領域研究具有重要作用。
位置服務技術(Location-based service,LBS)使得用戶可以通過移動設備記錄當前的位置、圖片等志愿者地理信息,產生“簽到數據”(王錄倉、嚴翠霞、李巍,2017)。簽到數據包含用戶活動的時空信息,能有效反映出用戶的行為軌跡(宋曉宇、許鴻斐、孫煥良等,2013),因此多被用于分析游客時空行為(張子昂、黃震方、靳誠等,2015)和旅游流時空特征及其結構演化(閆閃閃、梁留科、索志輝等,2017)。也有學者同時關注了地理標簽和微博內容,探究城市游客情感體驗的時空演變及其規律(李君軼、朱函杰、付利利,2020)。微博簽到數據可通過新浪微博的API 開放平臺獲取,選取時間、經緯度、用戶性別和常住地址等相關字段(陳曦、李嘯虎、關靖云,2019),之后通過百度LBS 開放平臺對地址信息進行解析,將其轉換為經緯度坐標并導入ArcMap,編寫屬性,轉化為GIS 平臺可以使用的位置數據,與研究區域地圖進行關聯匹配。與傳統旅游網站相比,微博具有信息量大、互動性強、方便快捷等特點(王錄倉、嚴翠霞、李巍,2017)。但微博文本的信息過于發散,并且形式多樣、結構復雜,因此數據清洗是數據分析前的一個關鍵步驟。除了要刪去不清晰不完整的數據外,據相關研究經驗,還需剔除獲取數據中用戶發布第一條和最后一條微博間隔時間為30 天以上的數據(王錄倉、嚴翠霞、李巍,2017),之后使用時間分層法和核密度分析方法進行數據分析(陳曦、李嘯虎、關靖云,2019)。
進入Web 2.0 時代后,物聯網已經滲透到旅游活動的全流程中,游客可以通過物聯網進行通信、定位以及信息獲取。各種設備(如傳感器)產生的數據已被廣泛運用在游客軌跡追蹤的研究中。此外,考慮到氣候對游客戶外活動和景區旅游業發展的重要影響,氣象站收集的氣象數據也包含在設備數據中。
作為一種定位數據,GPS 數據能有效觀測到游客移動,具有精度高、回應率高、數據格式便于后續處理和分析等諸多優勢,因此成為目前旅游研究中運用最廣的追溯技術(袁雨果、鄭偉民,2019)。
(1)研究主題
作為一種游客移動數據采集技術,GPS 對研究旅游者時空行為模式非常有效,因此GPS 數據最常用在旅游者時空行為模式挖掘及后續的旅游規劃研究中。具體來說,旅游者時空行為模式包括了游客活動節奏挖掘(黃瀟婷、張曉珊、趙瑩,2015)和旅游者行為模式演化(王章郡、溫碧燕、方忠權等,2018)。在上述研究基礎上,學者進一步擴展,提出了游客時空行為評價體系(黃瀟婷、李玟璇、張海平等,2016),設計出更加科學的產品和路線規劃方法。如黃瀟婷、朱樹未和趙瑩(2016)根據旅游者時空分布特征和旅游時空行為模式,對香港海洋公園的產品設計提出建議。趙瑩、張朝枝和金鈺涵(2018)探究了主題公園內的演藝活動對旅游者時空行為的影響。李淵、林曉云和江和洲等(2017)將游客時空行為模式的研究結果擴展到景區公廁優化配置和景區線路設計中(李淵、丁燕杰、王德,2016)。作為新興的軌跡數據,有學者將GPS 數據與傳統手段收集的數據進行對比。如黃瀟婷(2014)發現GPS 數據與傳統的日志調查數據在游客行為的研究中各有利弊。李淵、王秋穎和王德(2017)則對比了GPS 數據與傳統的日志調查數據的精度,指出傳統問卷調研與現代GPS 相結合的研究方法將是個體精細化行為建模研究等領域的重要趨勢。
(2)數據特征
目前GPS 采集游客移動信息的主要數據渠道有兩個:便攜式GPS 設備和智能手機中支持獲取GPS 的應用程序。前者是最主要的數據來源(在GPS 文獻中占比48%),所得數據回應度和精度都比較高,但存在樣本量較小且研究成本過高的問題。從現實角度考慮,傳統GPS 數據更適合封閉型景區的小范圍的時空行為研究;城市、區域、國家等較大尺度的大范圍研究則需要大樣本,使用GPS 數據成本過高,但近年來支持GPS 數據的手機應用程序的興起,為大范圍研究提供了便利。開放的APP 及專業的旅游GPS 軌跡數據平臺,如六只腳平臺,為旅游研究提供了免費的GPS 軌跡數據(呂旭濤、洪鵬飛,2018)。騰訊也開放了騰訊位置大數據網站(https://heat.qq.com),提供位置流量數據、區域熱力數據及人口遷徙數據,已經有學者將這些數據應用到旅游流研究中(潘竟虎、賴建波,2019;許珺、徐陽、胡蕾等,2020)。
(3)分析技術
黃瀟婷、李玟璇和張海平等(2016)使用手持GPS 設備數據,獲取有效GPS 軌跡511 條,用于數據分析的點達60.81 萬個,但是此研究獲取到的GPS軌跡數受限于設備數量及周轉次數。若采用手機APP 或者嵌入式GPS 模塊等數據收集方法,所搜集的海量數據無法用傳統的數據分析方法進行處理。針對這一類型的數據處理,常見的做法是:①將具有空間數據處理和空間分析功能的GIS 與具有精確空間定位能力的GPS 結合,采用地理信息技術實現地理數據可視化表達和測量(張自川、萬恩璞、田衛,2002)。如ArcGIS 技術將定位點轉換成線、面等更高維的表現形式,繪制出旅游者三維時空路徑,以更直觀地了解其運動軌跡。同時,結合停留點檢測,可發現最受游客歡迎的景點或探索新景點,以合理化游客時間分配。②對游客旅游行為模式進行探索。這一階段常用聚類分析,單獨根據軌跡進行聚類,識別不同的旅行軌跡;或根據不同要素(如軌跡、停留時間等)劃分不同時空行為模式的游客群體(劉培學、廖茂林、張捷等,2018)。有學者優化了GPS 數據處理的方法,設計了基于GPS 軌跡柵格化的旅游行為空間模式表達方法(郎月華、李仁杰、傅學慶,2019)。
相較GPS 數據(占設備數據旅游研究的59%),移動通信數據、氣象數據的相關研究則較少。移動通信數據由電信運營商收集,包括實名身份數據、用戶的實時上網行為、位置以及社交數據等,具有全面性、多維性、中立性、完整性的特點,對于旅游全流程研究有很大價值(李玲,2017)。近年來城市智慧旅游建設初見成效,已有政府開放其大數據平臺,如南京市政府率先使用移動運營商數據,開放“南京智慧旅游大數據運行監測平臺”,為研究者提供客流相關數據(戴文、丁蕾、吳晨等,2019)。但目前國內大部分移動數據還是掌握在運營商手中,獲取成本較高,加之涉及用戶隱私等問題,研究者獲取難度較大。因此,這一數據類型的研究處于探索階段,研究多在探討數據可靠性問題(趙瑩、張朝枝、金鈺涵,2018),完善基于移動通信數據的客流統計指標體系(宋廷山、郭思亮,2020),呼吁運營數據在學術研究中的運用(李玲,2017)等。移動通信數據的相關實證研究較少,只有少量的實證研究聚焦旅游流(段莉瓊、劉少俊、劉澤華等,2018;許丹丹、王茜雅、張建新等,2020)。
氣候是旅游業賴以生存的極為重要的自然資源,氣候變化會直接或間接作用于旅游業(閻友兵、張靜,2016)。目前研究中使用的氣象數據大部分來自氣象監測站點的統計數據,大多關注氣候舒適度的時空特征(柏秦鳳、霍治國、賀楠等,2009)和氣候舒適度評價(任健美、牛俊杰、胡彩虹等,2004;向寶惠,2015)。2016年后,越來越多的學者開始關注霧霾天氣對入境旅游的影響(閻友兵、張靜,2016)。劉俊、王勝宏、金朦朦等(2019)的最新研究結合微博簽到數據和氣象數據,提取出全國293 個城市的桃花觀賞日期數據集及時空格局,為賞花游客出行提供了數據和模型依據。
事務型數據是指廣義的人物交互或人機交互產生的一系列數據,包括網絡搜索數據、網頁瀏覽數據與在線預訂數據。
旅游服務的特殊性使得旅游決策往往伴有較高的風險,旅游者會采取各種方式優化決策,其中最主要的方法就是旅游信息搜索。游客主動進行信息檢索所留下的痕跡,可以反映出游客的真實興趣。
(1)研究主題
網絡搜索數據主要被用于旅游預測研究中,少數研究關注目的地網絡關注度(許艷、陸林、趙海溶,2020)。表4 列出了旅游預測領域利用網絡搜索數據進行的典型研究,可以看出,目前國內網絡搜索數據的研究尚處在發展階段,還有很大的探索空間。此外,現有的旅游預測研究大都關注游客量的預測,而隨著基于網絡技術的社會行為研究的深入,針對旅游行為的預測也逐漸受到研究者關注(黃先開、張麗峰、丁于思,2013)。

表4 網絡搜索數據在旅游預測領域的相關研究Tab.4 Tourism forecasting studies on Internet search data

續表
(2)數據特征
(3)分析技術
關鍵詞選取是進行網絡搜索數據相關性研究的關鍵環節之一。目前廣泛使用的關鍵詞選取方法包括技術取詞法、直接取詞法和范圍取詞法等(黃先開、張麗峰、丁于思,2013),國內研究主要采用后兩種,但面臨核心關鍵詞遺漏的風險(孫毅、呂本富,2011)。已有少數學者意識到了這一問題,開始探索關鍵詞提取的新方法,如構建旅游指數以提升準確性(魏瑾瑞、崔浩萌,2018)。傳統的旅游預測方法主要使用歷史數據,延遲性高且預測精度低。而與網絡搜索數據預測模型的結合克服了傳統預測方法的滯后性,具有更好的時效性(黃先開、張麗峰、丁于思,2013)。大部分研究直接使用原始數據,并將所選關鍵詞引入預測模型(李君軼、楊敏,2007),也有研究構建復合指數,如搜索指數(任武軍、李新,2018),使用協整檢驗與格蘭杰因果分析考察指數與實際游客量之間的關系(孫燁、張宏磊、劉培學等,2017),之后使用自回歸移動模型(ARMA)、ARIMA 預測模型、VAR 模型等常見旅游預測模型進行預測。
目前國內旅游研究使用最多的事務型數據是網絡搜索數據,相比之下,網頁瀏覽數據和在線預訂數據受數據可得性的限制,使用率低得多。現有的利用網頁瀏覽數據的實證研究主要關注影響網站流量的因素,如龐璐和李君軼(2014)利用大眾點評網站,研究顧客點評對餐廳網頁瀏覽量的影響,并進一步探究了哪些口碑因素是吸引消費者瀏覽餐廳網頁的關鍵因素。曠蕓(2013)以旅游網站網絡日志作為研究對象,通過回歸分析及相關分析模型,研究了網站流量的影響因素。而使用在線預訂數據的研究大都依據評論量和預訂量之間存在的線性關系,用在線評論數量近似替代同期網上預訂量展開研究(張夢、張廣宇、葉作亮,2011)。
大數據時代催生了多源異構數據,其蘊含的經濟價值、社會價值和研究價值使社會各界都開始重視大數據開發和應用,旅游領域亦是如火如荼地開展了大量的實證研究。本文借鑒Li、Xu 和Tang 等(2018)對旅游大數據的分類,根據國內研究現狀,分別從研究主題、數據特征和分析技術3 個維度系統闡釋了各細分類型大數據的研究進展。
首先,相比國外研究,國內旅游大數據研究處于較為前沿的位置,大數據很早就被應用到國內旅游研究中,且目前仍處于快速發展時期。根據Li、Xu和Tang 等(2018)的研究結果,國外旅游大數據的研究從2007年開始,最高年發文量為30 篇,而國內第一篇相關研究出現在2001年(宋靜、姜有山、張銀意等,2001),最多一年發文量高達65 篇。發表在國內學術期刊的旅游大數據論文的質量較高,但利用不同數據類型的旅游研究分布不均。UGC 數據是國內旅游大數據研究中的主導類型(占72%),被廣泛應用于游客滿意度、旅游目的地形象、旅游體驗和游客情感挖掘等研究領域,其中在線文本數據的研究占據“半壁江山”(占總體55%)。在Li、Xu 和Tang 等(2018)所提出的旅游大數據分類的基礎上,國內學者充分挖掘中國情境特點,將微博簽到數據應用到游客時空行為和旅游流等主題的研究中,還有學者嘗試利用微信數據開展研究(茍思遠、李剛、張可心等,2016),擴展了已有的旅游大數據研究框架。相比UGC 數據,設備數據(占17%)和事務型數據(占11%)的研究則相對較少,但這兩類數據在旅游者時空行為和旅游預測的研究中具有很高的價值。研究方法上,已有國內旅游大數據研究中以質性研究居多(占54%),多使用二手數據(占89%)。
在對每一細分類型大數據的相關文獻分別從研究主題、數據特征和分析技術3 個維度進行系統梳理之后,本研究發現不同類型的數據適用的研究主題與其數據特征有很大關系。如在線文本數據可以表達游客對旅游產品的態度和體驗,因此可被用于旅游滿意度和旅游體驗的研究中。網絡搜索數據可以反映出游客的真實興趣,有助于旅游預測和旅游目的地關注度的研究。一些研究主題可以使用不同類型的大數據進行探究,如旅游流研究可以使用在線圖片數據(元數據)、微博簽到數據、GPS 數據以及移動通信數據,但每一類數據的數據特征導致其適用范圍存在差異:在線圖片數據、微博簽到數據以及移動通信數據可用于宏觀層面的游客軌跡分析;GPS 數據精度較高,僅適用微觀層面的旅游流動研究。在線文本數據和在線圖片數據都可以被用在旅游目的地形象及旅游體驗研究中,但二者在所傳遞的信息及情感強度上存在差異:文本數據更能反映出游客的情緒和情感體驗,而圖片數據能體現更多的游客認知形象。
此外,本研究發現國內旅游大數據研究已經取得較大進展,研究主題和數據的選取充分融合中國情境,體現了中國特色,在很多方面也做出了創新。首先,在研究主題上,國內學者在傳統研究重點的基礎上進行了兩點創新:第一,對比傳統數據收集方法與旅游大數據在同一研究主題中得出的結果,如比較問卷調查數據和在線評論數據在探究旅游形象感知上的異同(張珍珍、李君軼,2014),對比游記數據和官方宣傳文本所折射的游客感知形象和官方宣傳形象的差異(仲寧、吳小根、汪俠等,2018),比較GPS 數據和傳統日志調查數據在游客行為研究中的差異(黃瀟婷,2014 ;李淵、王秋穎、王德,2017);第二,利用大數據擴展已有理論或提煉理論模型,如徒步旅游中的旅游體驗本質模型(謝彥君、樊友猛,2017)和旅游體驗價值感知基礎模型(黃杰、馬繼、謝霞等,2017)。
其次,在數據獲取上,雖然目前國內很多的設備數據和事務型數據都掌握在運營商或政府部門手中,但業界和政府都在努力拓寬數據渠道,推動學術界與政府和業界合作。地方政府已開始開放其大數據平臺(包含移動通信數據)供研究者使用,如南京智慧旅游監測平臺和浙江省旅游大數據平臺。也有專業的數據平臺免費開放GPS 軌跡數據,如六只腳平臺和騰訊位置大數據網站。
最后,在數據分析方法上,國內學者已經熟練掌握了傳統的大數據分析和挖掘方法,并從3 條途徑對現有技術進行了創新:第一,引入其他學科領域的數據處理技術,如應用深度學習、機器學習、神經網絡等人工智能中的數據挖掘技術來探究旅游現象(如:李琴、李少波、王安虹等,2018;李君軼、任濤、陸路正,2020;馬超、李綱、陳思菁等,2020)。第二,改進現有數據挖掘技術,提升旅游大數據分析的效率和精度。如劉逸、保繼剛和陳凱琪(2017)在旅游評論的情感分析中充分考慮中國游客表達的語義邏輯特征,對情緒詞匯前的副詞和轉折詞做出進一步解析并賦予不同系數,以此區分游客情緒的強弱。第三,開發專門針對中國語言環境的數據挖掘工具和軟件,如武漢大學沈陽教授研究團隊研發的ROST CM,被國內學者廣泛用于在線文本數據的處理和分析。
國內旅游大數據研究取得的成就需要肯定,但仍然可以從拓展研究領域和開發新的數據源及分析技術等角度來進一步提升現有研究水平。
首先,研究主題的擴展可從以下3 個角度展開。第一,目前游客滿意度、游客體驗及感知旅游目的地形象的相關文獻,多從單一游客群體切入,缺乏群體間的比較研究,而不同類型甚至是同一類型的旅游大數據,其行為主體也存在差異,因此,今后既要關注國內外跨文化群體的比較,也要關注中國本土情境的國內文化群體比較。第二,使用兩種及兩種以上大數據的研究僅占4%,其實,許多研究主題可以通過多源異構的旅游大數據進行探究,如在線文本數據和在線圖片數據都可以被用在旅游目的地形象及旅游體驗研究中,但二者所側重的內容不同。未來研究可以考慮在同一研究主題中使用不同類型的數據進行分析,實現優勢互補,豐富研究結論,并且對單一數據類型的研究結果進行交叉驗證。第三,旅游業是一個高敏感性產業,容易受到各種不確定因素的影響。近年來,國內外發生了許多突發事件(如2020年暴發的新冠肺炎疫情),這些公共突發事件給國內外旅游行業帶來了嚴重沖擊。而大數據相對傳統數據的一個最大優勢就是具有時效性和前兆性(孫燁、張宏磊、劉培學等,2017)。已有很多文獻證實了網絡搜索數據能夠很好地預測游客量,但很少有研究將這些結論延伸到旅游預警領域。網絡評論也能很好地反映事件發生之后游客對某一目的地的態度和意向轉變,從而輔助旅游預測和預警研究。
其次,相比國外大數據研究,國內研究的數據類型分布不均更為嚴重。國外研究中,UGC、設備數據和事務型數據的占比分別為47%、36%和17%(Li,Xu & Tang,et al.,2018),國內則為72%、17%和11%。雖然國內研究使用了微博簽到數據和微信數據等新數據,但所涵蓋的數據種類仍然少于國外研究,如Li、Xu 和Tang 等(2018)的研究中展示了14 種旅游大數據,而國內研究僅包含9 種。因此,研究者有必要進一步拓寬國內旅游大數據的數據源渠道,彌補數據類型上的缺失。根據數據可得性難易程度由高到低,分為如下3 種情況:① 被政府或特定組織管控的數據,如目前國內大部分的設備數據和事務型數據都掌握在運營商或政府部門手中,由于涉及用戶隱私問題,研究者很難獲取。這一問題是許多學科學術研究的痛點。雖然已有政府開始開放其大數據平臺供研究者使用,但想進一步解決這一問題,還需要依靠學術界與業界的聯動。② 有獲取渠道但成本過高的數據,如目前主要的GPS 數據收集方法還是借助專業GPS 手持設備,無論是人力成本還是設備成本都很高。研究者可以充分利用智能手機中支持GPS 功能的移動應用程序,或解鎖其他能提供嵌入式GPS支持的載體,如內置GPS 功能的手表、共享自行車等,來拓寬數據獲取渠道。③ 尚未出現在國內研究中但有研究價值的數據,如RFID 數據、藍牙數據、Wi-Fi 數據、消費卡數據。日常生活中也有很多值得研究但尚未引入的數據,如音頻/視頻數據與景區監控數據等,這些數據對解析游客行為模式能發揮重要作用。在未來研究中,學術界還可以考慮將中外旅游大數據研究進行整合和對比分析,從更全面的角度了解旅游大數據的實證研究成果。
最后,鑒于近年來大數據研究逐漸出現結構化、半結構化、非結構化3 種大數據融合的趨勢(孟小峰、慈祥,2013),學術界急需探究如何在不損毀數據價值的前提下進行數據的冗余縮減和壓縮(李學龍、龔海剛,2015)。在數據分析方法上,雖然已有國內學者引入了一些計算機領域和數據挖掘的新興數據分析技術,但大數據分析技術日新月異,新技術層出不窮。數據復雜性的增加也導致對分析技術的效率和精度的要求不斷提升。因此,今后旅游研究可以考慮與人工智能、數據挖掘領域的專家跨界合作,將更多數據挖掘方法引入旅游研究當中。