向征+于思
近十余年來,社交媒體的發展日新月異,并通過不同的渠道,以不同的形式,為我們認識、分析和解決眾多社會經濟問題提供了海量、豐富的數據,社交媒體分析學(social media analytics)由此應運而生。社交媒體分析學主要通過采集各種類型的社交媒體數據,使用文本分析、數據挖掘、機器學習及計量統計等方法,來發現、描述并解釋基于傳統數據和方法不易發現和認識的規律。社交媒體分析學在各個領域取得了長足的進展,旅游管理也不例外。近年來使用社交媒體數據的研究紛紛涌現,涵蓋旅游及酒店業各領域,涉及游客滿意度、旅游目的地形象、酒店收入業績分析等問題,不一而足。其研究對象、數據使用和分析方法可謂千姿百態,為旅游管理提供了前所未有的想象空間。
與實驗法、問卷調查法等傳統研究方法相比,社交媒體分析學的數據來源和構成不是由研究者預先設計而生成的,而是使用現成的二手數據。用Agarwal和Dhar的話來說,社交媒體數據總是“不完美的”。形象地說,社交媒體分析學在方法論上是一個吹糠見米的過程,即通過不完美的數據找到盡可能接近現實的答案。目前,社交媒體分析學尚處在初級階段,近年來,Ruths、Pfeffer和Tufekci等社會科學領域的研究人員對這種以數據為基礎的新研究范式提出了越來越多的批評,特別是對數據來源及數據本身的可靠性和合法性存有質疑。鑒于此,本文旨在介紹社交媒體作為研究數據的一些常見的質量問題,并針對性地探討旅游社交媒體研究中存在的潛在問題和挑戰。
社交媒體數據質量的不完美是指什么?所謂完美和不完美,對研究者來說是一個相對的概念。如果研究的目的是為了認識社交媒體本身的基本特征和規律,則社交媒體數據的不完美和造成這些不完美的原因正好為這些問題的探討提供了“完美的”觀察。但是,如果研究的目的是為了認識或發現數據中能夠代表特定人群的基本特征和規律,則不完美的數據會對研究的合法性造成影響。比如,用“谷歌趨勢”的數據預測人群中流感爆發的不準確,就是由于過高估計數據中非相關的搜索關鍵詞導致的。
那么,社交媒體數據質量的不完美是什么原因造成的呢?表現在哪些方面?要認識這個問題,必須理解社交媒體作為信息平臺的本質。
首先,盡管幾乎所有的社交媒體都能為消費者提供值得信賴、可以共享的社會知識,然而每個社交媒體平臺本身都是反映不同社會、文化和經濟價值取向的復雜技術系統,從形式和內容上講可謂千姿百態。例如,作為微博平臺,Twitter在信息的生成傳播和虛擬社交網絡的動態演變上有其獨有特征;在旅游在線平臺中,TripAdvisor屬于開放式的網站,而Expedia只對在該網站有購買經歷的消費者開放網評功能。從這個意義上講,不同社交媒體往往代表不同的消費者市場和特定的商業模式,其數據的代表性很大程度上取決于采集數據的平臺本身的特征。因此可以說,社交媒體數據質量有潛在的平臺偏見。
其次,社交媒體個人用戶也是造成數據不完美的重要原因。以網評為例,最近Streitfeld在《紐約時報》的一篇文章引用了一位評論人的話,認為產品的網評和打分往往是由“處于網絡底層的粉絲、仇恨者和操縱者”貢獻的,因而我們不應該對它們有過高的期望。Mkono和Tribe在Journal of Travel Research的一篇文章中談到,旅游產品在線評論網站的用戶不僅僅是評論人,而且往往扮演了其他重要的角色,比如活動家、社會精英,甚至惡搞者。從這個意義上講,參與社交媒體的人群本身就具有“選擇性偏見”。Stephens-Davidowitz的研究發現,在與Facebook類似的社交網站上,人們更傾向于分享“成功、富有、有吸引力、悠閑、聰明以及快樂”的經歷,但是這并不能夠代表大多數人的生活經歷。此外,社交媒體數據尤其是在線網評數據不可避免地存在一些錯誤信息,比如拼寫或輸入錯誤。因此可以說,社交媒體數據可能存在各種各樣的用戶偏見。
第三,除了個人用戶外,社交媒體的使用者還包括以營銷為主要目的的商家,因此這些數據是否都是由真正的消費者生成值得懷疑。例如,Anderson和Simester發現在某零售商網站上,很大一部分網評是由完全沒有購買該產品記錄的“用戶”提交,因此推斷這些所謂的網評其實是商家雇傭的“水軍”所為。同時,這些網評往往偏于負面,在語言特征上與虛假廣告類似。已有不少研究確認,某些商業利益會導致網評中參雜一定數量的垃圾信息,甚至是完全不實的信息。
由此可見,社交媒體數據是平臺、個人用戶和商家互動的結果。在更大范圍內講,社交媒體還受各種社會、政治、經濟和文化等大環境的影響。例如,社交網絡實名制的實施會對群體行為造成一定的影響。這些因素都會影響數據的真實性、可信性和代表性。筆者認為,目前旅游社交媒體分析研究中,主要存在以下數據質量相關問題:
· 數據采集自單一數據源。例如,在基于網評數據進行相關研究的文獻中,TripAdvisor是首選。由于存在平臺偏見的可能,這些研究發現和結論只能算是眾多的待選解決方案之一,其普適性值得商榷。
· 數據抽樣缺乏系統化的方法,對數據本身所代表的人群特征也缺乏足夠的認識。當前工作中的數據抽樣往往采用了一些經驗法則,比如在選擇網評數據時用字數限制作為數據質量的過濾器,而字數長度作為標準是沒有可靠依據的。更有甚者,很多研究對數據根本沒有運用任何基本抽樣方法,只是采用所有能夠使用或得到的數據。
· 對可疑數據缺乏有效的認識手段和可行的甄別方法。例如,在線評論數據中存在一些人為錯誤,同時還有灌水數據,甚至虛假數據,目前還沒有行之有效的方法對這些可疑數據進行識別和剔除。
值得一提的是,近年來社交媒體數據質量問題已逐漸引起旅游界學者的關注。在認識社交媒體平臺偏見方面,Mellinas等人發現預訂網站Booking.com在顯示用戶打分刻度時,可能會誤導用戶;Xiang等人在Tourism Management的一篇文章中,對美國三個最具代表意義的旅游在線評論網站(TripAdvisor,Expedia和Yelp)進行了對比分析,發現這三個網站的酒店網評在一些重要數據特征上存在明顯差異。在認識網評相關的情感和語義等重要測量指數的研究中,學者們也開始意識到數據質量問題,Park和Nicolau用Yelp的餐飲業網評數據進行分析研究,發現網評情感和用戶打分存在不對稱關系,這個發現在Xiang等人的研究中也得到了部分驗證。在鑒別數據噪音方面,Schuckert、Liu和Law用網評中的用戶總打分和分項打分之間的不一致性作為可疑網評的甄別手段。最近,Xiang等人的另一篇文章發現,當TripAdvisor在要求網評人填寫旅游目的時,用戶往往提供不準確的信息,形成數據噪音,由此,他們開發了一套基于高質量網評的排序算法,來有效剔除噪音。這些研究表明,在社交媒體分析學的研究中,有意識、系統化地進行數據采集、預處理和抽樣,對研究結論的合法性至關重要。
認識到社交媒體平臺的本質,我們就能夠有意識、有針對性地認識和處理社交媒體分析過程中可能存在的數據質量問題。當然,目前這些研究僅僅是一些探索性的工作,關于旅游相關的社交媒體研究的本體論和方法論基礎,仍然有很多值得深入探討的課題。比如,利用網評和博客來認識旅游目的地形象似乎正在成為一個趨勢,但是,究竟什么樣的數據能夠用來描述目的地形象,這也是個合法性的問題。
吹糠見米,去蕪存菁。筆者認為,對社交媒體數據質量的研究,不僅能夠給旅游管理提供可靠的方法論基礎,而且在假信息、假新聞泛濫的今天,更具有迫切的現實意義。
(第一作者系美國弗吉尼亞理工大學酒店和旅游管理系副教授,博士生導師,北京聯合大學客座教授;第二作者系北京聯合大學副教授,通訊作者;收稿日期:2017-08-11)endprint