陳京雷 杜姍姍 黃曉東 邱 茜
[內容提要]旅游是首都“四個中心”定位中的核心功能之一,旅游業是北京建設“國際一流的和諧宜居之都”的支柱產業和京津冀協同發展的紐帶產業。本文通過對北京市2017年帶位置簽到的新浪微博數據為例,在時間、空間聚類發現熱點區域的基礎上,采用詞頻—逆文件頻率(TF-IDF)模型、文檔主題生成模型(LDA)兩類典型的文本分析的方法,對北京市不同時空熱點區域的旅游主題進行挖掘,將北京市旅游空間熱點分為兩組團一聚集區及重要交通節點,依據主體劃分為皇家園林主題、徒步旅行主題以及舊城風貌主題。
旅游能夠帶給人主觀感受,使人產生對旅游地的情感,良好的旅游體驗感受和旅游地感知形象成為旅游地市場以及相同地區不同景區競爭的關鍵。隨著智能手機和網絡媒體的興起,游客在社交媒體上發表的游記產生了內容眾多、具有空間坐標的旅游用戶原創內容數據。利用社交媒體數據分析旅游關注度與空間熱度的研究在國外率先起步。Stepchenkova S對旅游文本進行分析,發現游客在旅游時的關注熱點及熱度空間;Tan等使用Python代碼獲取推特用戶的數據,使用核密度估計、熱點分析和空間滯后模型驗證城市空間與居民教育、娛樂、出行和生活等之間的關系。
國內城市旅游熱點區研究于21世紀開始進入黃金期。目前,國內的研究主要是利用旅游網站、百度指數和新浪微博等網站的相關數據,對旅游地的關注度、空間格局和演變因子進行了研究。熱點區域識別上基本利用POI點聚類及Voronoi圖等空間統計分析方法統計景點集聚熱度以及游客數量熱度。從社交媒體的內容屬性方面出發,自下而上式的旅游熱點區域的識別是重要的研究方向,仍有很大的研究空間,由此,本研究采用典型社交媒體微博數據,著重從文本內容角度對北京市旅游熱點區進行空間與時間的綜合感知,將為城市旅游熱點與空間關聯做出更深入的探索。
本文利用網絡爬蟲工具,獲取到2017年北京市的微博用戶數據八萬多條。數據中分別有微博文本、使用手機、發表時間、評論數、點贊數和位置坐標等內容,通過人工與機器學習清洗后得到數據31571條與北京市旅游相關,底圖數據來自ArcGISOnline。
①LDA主題模型
LDA主題模型由Blei等在2003年提出,是一個三層貝葉斯產生式概率模型,適合對大規模文檔集合進行建模。該模型假設文檔是由一系列潛在主題混合而成,主題是由詞項表中的詞匯組成,不同文檔的主要區別在于它們的主題組成及其比例不同。
②TF-IDF
TF-IDF,即詞頻-逆文檔頻率,詞頻(TF)是詞語在文本中出現的頻率,逆文檔頻率(IDF)是文檔頻率的倒數。計算公式如下:
其中,ni,j是詞語ti在j類所有文本中出現的次數,是j類所有文本詞語出現的次數總和,N是數據集中的文本總數,ni為包含詞語ti的文本數。
③核密度分析
采用核密度估計點要素在區域內分布密度來反映其空間聚集狀況,它能直觀地反映出數據的空間聚集程度。核密度計算公式為:
式中X點是該處的核密度估計值,n是觀測數值,K括號里的為核函數,其中x是柵格中心核密度,xi是核密度,h(h>0)為光滑參數。
1 熱點區域識別分析
對與北京旅游相關的31571條微博進行核密度分析,得出以下旅游空間熱點(見圖1),可將其分為兩個組團,包括北四環帶狀組團(見圖2)、內城組團(見圖3),一個集聚區即長城集聚區和首都機場、北京南站、北京西站三個重要交通節點。
圖1 北京市旅游相關微博數據核密度圖
圖2 北四環組團核密度圖
其中北四環帶狀組團分布的景點包括頤和園、圓明園、北京大學、清華大學、奧林匹克森林公園。這幾個景點在地圖上呈東西向橫向分布。內城組團分布的景點包括天安門廣場、故宮、天壇地壇、雍和宮、南鑼鼓巷、什剎海、前門、大柵欄、王府井等。這些景點都以故宮博物院為中心,向四周擴散,距離較近。
2 Gephi關聯矩陣分析
將清洗后的數據放入Pycharm軟件中進行關聯矩陣分析,詞頻最小值設置為300,輸出30×30的矩陣(見表1),并將矩陣導入Gephi中生成關聯組團(見圖4)。
表1 基于高頻詞的旅游熱點關聯矩陣
圖4 旅游熱點關聯組團分析
與北京最相關的(即連接線最寬的)旅游景點有長城、天安門、前門大柵欄、圓明園、王府井、南鑼鼓巷、頤和園和恭王府等,與Arcgis中核密度得出的結果非常相近。
3 主題分析結果
將清洗后的微博數據利用Pycharm軟件進行主題分析。經過多次試驗,總結出最優主題分布:特征關鍵詞為50個,每個主題輸出前5個關鍵詞,在此條件下主題詞間相似度、重合度最低。可分為三類主題,分別包含5個關鍵詞(見表2)。
表2 各主題排名前五位主題詞
主題一:關鍵詞為頤和園、圓明園、什剎海公園以及天安門。其中,頤和園為中國清朝時期皇家園林,前身為清漪園,是清代大型皇家園林;什剎海公園內也有清代規模最大的一座王府——恭王府;天安門則為現在人們進入故宮的最前門。其中的景點都與古代的皇家園林息息相關,將此主題概括為皇家園林主題。
主題二:關鍵詞為故宮、長城、鳥巢、水立方和王府井。在這些建筑之中,故宮是中國歷史上最早的一座皇宮,也被稱為“紫禁城”,坐落在北京的中軸線上;八達嶺長城、居庸關長城等長城連綿數萬公里;水立方、鳥巢坐落在奧林匹克風景區,兩個景點互相輝映;王府井大道東單三條到燈市口大街是北京著名的“金街”,是北京市著名的商業區。其中景點的瀏覽方式都以步行為主,將此主題概括為徒步旅行主題。
主題三:關鍵詞為南鑼鼓巷、前門、大柵欄、恭王府和胡同。南鑼鼓巷是740多年前建成的北京著名街道。前門是“京師九門”之一;大柵欄位于北京城的核心地帶,歷經500余年的變遷,已經形成了一條商鋪密集的商業街區;恭親王府邸作為清代的見證,有著豐厚的歷史和人文內涵;北京的胡同,是京城悠久的文化積淀,歷史底蘊深厚。此主題的關鍵詞大多是舊時的街區、建筑或商業街,具有強烈的回憶感和歷史感,將此主題歸納為舊城風貌主題。
研究發現北京城市旅游空間熱點可分為兩組團、一聚集區和重要的交通節點;在熱點區域中,歷史悠久、極具北京地域文化內涵的景點集聚程度較高,對于游客具有較強的吸引力,如故宮、天安門、王府井、前門、大柵欄等。經過LDA模型構建,將北京市旅游空間熱點分為三大主題:皇家園林主題;徒步旅行主題;舊城風貌主題。每個主題在空間分布差異較為明顯,皇家園林主題分布相對較為分散,空間距離較遠;徒步旅行主題主要位于北京市中軸線上;舊城風貌主題主要集中于內城附近,空間距離較近。
同時,本研究也存在一些不足,由于微博數據的局限性,無法非常準確地概括所有赴京旅游的人群,研究的對象多是使用微博的中青年群體用戶。在篩選標注微博文本中與旅游相關的內容時易受研究者個人主觀因素影響,需要進一步優化更準確客觀的機器學習模型。在將來的研究中需要加強對微博數據本身特點的分析,發散研究思維,如選擇特定節假日查看熱點,探尋京內京外游客愛去的不同熱點等,為城市空間資源的良好分配與旅游開發提供針對性的對策。