高珺



一、前言
伴隨著“互聯(lián)網(wǎng)+旅游”行業(yè)模式迅速發(fā)展與崛起,網(wǎng)絡游記成為人們記錄旅游體驗和分享旅游經(jīng)驗的重要載體。旅游推薦方法和地理信息系統(tǒng)的應用和發(fā)展,使得挖掘網(wǎng)絡游記中旅游推薦地和探究其空間分布規(guī)律為湖南省旅游業(yè)發(fā)展提供對策建議,進而研究區(qū)域旅游規(guī)劃如何更好帶動地區(qū)經(jīng)濟發(fā)展。本研究基于馬蜂窩網(wǎng)站的湖南省旅游網(wǎng)絡游記,使用子空間聚類算法得出最優(yōu)聚類下的湖南省4A、5A景區(qū)推薦集合。通過統(tǒng)計集中各個推薦景區(qū)和城市的詞頻和經(jīng)緯度信息,利用地理信息系統(tǒng)進行了推薦景區(qū)空間分布特征分析。最后,針對推薦景區(qū)的空間分布特征提出湖南省4A、5A景區(qū)的發(fā)展建議。
二、研究背景
湖南省位于我國華中地區(qū),擁有多樣的自然環(huán)境,孕育出獨特的湖湘文化,旅游資源極為豐富。湖南省旅游業(yè)發(fā)展為經(jīng)濟增長、社會穩(wěn)定、人民生活水平提升做出巨大貢獻。據(jù)2021年行業(yè)統(tǒng)計顯示,2021年湖南省旅游及相關產(chǎn)業(yè)增加值2463.78億元,按現(xiàn)價計算比上年增長7.12%,占GDP的比重為5.35%[1]。湖南省文化和旅游廳官方網(wǎng)站數(shù)據(jù)顯示,截至2021年底,湖南省A級景區(qū)數(shù)量553個,其中5A級景區(qū)11個,4A級景區(qū)152個[2],旅游資源豐富多樣,旅游業(yè)持續(xù)穩(wěn)定發(fā)展。
三、研究綜述
(一)子空間聚類算法
旅游推薦研究方法分為五類,包括基于協(xié)同過濾的推薦、基于內容的推薦、基于人口統(tǒng)計的推薦、基于知識的推薦、混合型推薦。本研究主要是利用協(xié)同過濾中的聚類推薦的方法,使用更適用于高維旅游數(shù)據(jù)的子空間聚類算法。
子空間聚類是聚類分析在數(shù)據(jù)挖掘領域中的關鍵技術之一[3],是實現(xiàn)高維數(shù)據(jù)集聚類的有效途徑。通常將子空間聚類算法分為兩類:硬子空間聚類和軟子空間聚類。硬子空間聚類主要是指對于各個集簇,從全部特征集合中選取某些特征子集組成其相應子空;軟子空間聚類是指在聚類過程中對集簇的各個特征賦予一個加權系數(shù),在聚類過程中得到不同集簇對應數(shù)據(jù)特征的重要性。軟子空間聚類按照對特征屬性加權方式和懲罰項選擇方式的不同可分為模糊加權子空間聚類和熵加權子空間聚類。Jingle等首次將模糊權重的信息熵設置成子空間算法的懲罰項,提出了EWKM目標函數(shù)[4]是:
(二)旅游地空間分布研究
國內外多數(shù)學者經(jīng)過對不同區(qū)域和不同類型的旅游地空間的分布研究,總結出研究區(qū)域中影響分布特征的相關因素,根據(jù)不同的影響因素,研究適合本地旅游發(fā)展規(guī)劃的相關問題。Goh等通過對旅游業(yè)在區(qū)域中空間分布特征進行分析后,進一步探討了關于旅游業(yè)分布格局對區(qū)域經(jīng)濟發(fā)展的影響,對于正處于發(fā)展中的地區(qū),旅游業(yè)對當?shù)亟?jīng)濟具有較大的拉動作用,對于發(fā)達地區(qū),影響力比較小[5]。Heping等通過對中國大陸入境旅游的空間分布特征進行研究,分析出其影響因素和未來的發(fā)展路徑,研究發(fā)現(xiàn)旅游地形象、產(chǎn)業(yè)結構等都對其空間分布特征產(chǎn)生不同的影響[6]。冼煒軒等借助GIS對北京密云地區(qū)POI數(shù)據(jù)中鄉(xiāng)村休閑旅游的空間分布特征和影響因素進行了研究,以微觀尺度研究鄉(xiāng)村休閑旅游差異化[7]。張杰等通過以湖南五星級鄉(xiāng)村旅游區(qū)為研究樣本,通過GIS研究其分布特征和影響因素,從地理環(huán)境、當?shù)卣叩榷喾矫嫣峁┙ㄗh[8]。
四、研究內容
(一)游記數(shù)據(jù)預處理
利用Python爬取馬蜂窩網(wǎng)站2018年至2022年有關于湖南地區(qū)的3451篇網(wǎng)絡游記。預處理目標是將數(shù)據(jù)轉換為“作者—景區(qū)”的數(shù)據(jù)結構,用于子空間聚類等聚類分析中。本文對游記數(shù)據(jù)進行非文本字符去除、空值去除、重復值合并。預處理完成后,剩余2783篇游記,約為原樣本量的80.7%,作為最終的樣本集。游記預處理前后對比如表1所示:
(二)景區(qū)字典構建
由于每位游記作者對景點的定義理解不同,本文只采取湖南省國家級4A、5A景區(qū)作為研究對象,獲取湖南省國家級4A景區(qū)154個,國家級5A級景區(qū)11個。在景區(qū)字典中,存在不同詞語表達表示相同含義,對其進行分開處理,在矩陣構建時再進行合并。
(三)關鍵詞提取
在Python中使用jieba庫進行中文分詞,按自定義的詞典提取關鍵詞,若在同一篇游記中作者重復多次提及某一地點,則不會重復返回該詞,只會提取一次這一地點詞語。每位作者在游記中提及的景點見表2所示。
(四)游記作者—景區(qū)矩陣構建
構建作者—景區(qū)矩陣方法是:設矩陣數(shù)據(jù)為D,景區(qū)字典集為P,以游記作者為行屬性,以湖南省旅游景區(qū)為列屬性,P中第j個詞記為pj,若pj與游記Ti中的某關鍵詞qj表示相同時,則將矩陣D的第i行第j列值設為1,否則設為0。即最終構建出維數(shù)為2783×165的“作者—景區(qū)”矩陣見表3:
(五)游記作者—景區(qū)矩陣子空間聚類分析及結果評價
通過Python和R語言的交互庫rpy2.robjects,調用R語言中的EWKM函數(shù)對作者—景區(qū)矩陣進行聚類分析。集簇數(shù)量設置范圍為2至10,可變權重分布值范圍為1到3,使得每個特征之間的權重分布呈現(xiàn)合理的分布狀況,將其設置為2。經(jīng)多次調試后選擇較好的一組聚類結果如表4所示:
作者—景區(qū)矩陣數(shù)據(jù)集聚類結果顯示,通過對10個不同集簇數(shù)的依次設置。CH指數(shù)越大,輪廓系數(shù)(S)越靠近1呈正數(shù),聚類效果較好;CH指數(shù)越小,輪廓系數(shù)(S)更靠近-1呈負數(shù),聚類效果較差。得出簇數(shù)為4時,聚類效果最佳。
(六)景區(qū)推薦結果匯總
在作者—景區(qū)矩陣這一高維度數(shù)據(jù)集中,在所有游客的游記中識別出的地點詞集合作為子空間;對矩陣數(shù)據(jù)進行子空間聚類后,得到被游客顯著提及特征的景區(qū)集簇;將集簇中包含的地點詞與其所在的子空間中的景區(qū)的交集作為推薦集。將所匹配的矩陣點返回并輸出為景區(qū)名稱,得出推薦景區(qū)如表5所示。
可觀察到不同作者推薦的景區(qū)數(shù)目不同,景區(qū)類型不同,部分作者更傾向于對人文景區(qū)的推薦,部分作者更傾向于對自然景區(qū)的推薦。
五、推薦景區(qū)空間分布特征研究
(一)詞頻統(tǒng)計與坐標拾取
對推薦景區(qū)集進行輸出整理后,利用Python進行詞頻統(tǒng)計,再與百度地圖API連接后拾取推薦景區(qū)的地理坐標點。根據(jù)詞頻進行排名,橘子洲景區(qū)被推薦的次數(shù)高達1434次,其次是鳳凰古城、岳麓山、武陵源景區(qū),推薦景區(qū)的前四名分別是湘東地區(qū)和湘西地區(qū)的旅游名片。
(二)推薦景區(qū)的空間分布特征
對湖南省推薦4A、5A景區(qū)進行空間分布特征分析時,利用ArcGIS10.2,通過最近鄰近指數(shù)、標準差橢圓以及核密度分析來探索其空間分布特征。
運用最近鄰指數(shù)(NNI)對點狀空間分布要素加以描述,當NNI=1時,為均勻分布,當NNI<l時,為聚集分布,當NNI>1時,則為分散分布。得出推薦景區(qū)的最近鄰指數(shù)比率約為0.75,z得分為-3.90,經(jīng)檢驗,置信區(qū)間為99%,說明推薦景區(qū)在空間上呈聚集分布。湖南省高級別景區(qū)旅游線路不夠豐富,吸引游客的景區(qū)較為集中,在旅游線路開發(fā)等方面仍有較大的潛力。
運用平均中心和標準差橢圓工具對推薦景區(qū)進行分析得到圖1,發(fā)現(xiàn)推薦景區(qū)的標準差橢圓的平均中心在湘潭市。橢圓的長半軸表示以10.93km為長半軸,以9.41km為短半軸的橢圓囊括推薦景區(qū)約60%的地點,并且這些地點的聚集區(qū)域大致呈西北—東南分布,說明具有相較顯著的方向性,短半軸越短,表示數(shù)據(jù)呈現(xiàn)的向心力越明顯。
運用核密度分析工具對推薦景區(qū)的頻次為統(tǒng)計字段進行核密度分析,計算出推薦景區(qū)在空間上的核密度值。搜索半徑設為65km,輸出柵格大小均采用默認值,使用幾何間隔法,分為7類。從圖2中可以看出,推薦景區(qū)在空間上呈明顯的不均衡性和極化特征,主要集聚在以長沙為中心的長株潭地區(qū)和以張家界為中心的湘西地區(qū),涵蓋了橘子洲、韶山、武陵源、岳麓山等景區(qū),而湘中地區(qū)以位于婁底市和益陽交界處的大熊山國家森林公園為中心,東南部地區(qū)以位于株洲的炎帝陵景區(qū)為中心,呈現(xiàn)明顯距離衰減規(guī)律。
六、結語
湖南東部區(qū)域的自然旅游資源相對較少,城市化程度高,自然資源開發(fā)利用成本高,旅游發(fā)展受到了較多限制。深入挖掘和使用其豐富的文化旅游資源,偉人故里、雷鋒故鄉(xiāng)等具有高認可度的文化資源,利用網(wǎng)絡宣傳、湖南臺轉播等方式充分宣傳,加強線下和線上的聯(lián)動;西部區(qū)域的自然旅游資源相對較多,城市化程度、產(chǎn)業(yè)發(fā)展以及旅游配套設施建設相對落后。對于西部地區(qū),借助自然旅游資源吸引游客的同時,加快基礎設施建設,培養(yǎng)專業(yè)的旅游服務隊伍。也可利用少數(shù)民族文化集聚的優(yōu)勢,開發(fā)文化旅游資源,擴大自身區(qū)域文化的影響力,比如舉辦鳳凰的苗族銀飾文化節(jié)、張家界土家文化節(jié)等,讓游客們在欣賞壯麗的自然景觀的同時,也感受到別具一格的人文風情,形成多元的旅游產(chǎn)業(yè)格局,從而促進整個區(qū)域的經(jīng)濟發(fā)展。
引用
[1]湖南省統(tǒng)計局.2022年數(shù)據(jù)解讀[EB/OL].http://tjj.hunan.gov.cn/hntj/tjfx/jmxx/2022jmxx/202209/t20220901_28483794.html.2022-09-01.
[2]湖南省文化和旅游廳.湖南省A級旅游景區(qū)名錄表[EB/OL].http://whhlyt.hunan.gov.cn/whhlyt/cyfz/ggxxcx/lyajjqcx/202208/t20220803_27573796.html.2022-08-03.
[3]李霞,徐樹維.子空間聚類改進算法研究綜述[J].計算機仿真,2010,27(5):174-177.
[4]朱林,雷景生,畢忠勤,等.一種基于數(shù)據(jù)流的軟子空間聚類算法[J].軟件學報,2013,24(11):2610-2627.
[5]Goh C,Li H,Li M.A Comparative Analysis of Domestic and International Tourism Spatial Distribution: Trends and Impacts[J].Journal of China Tourism Research,2014,10(4):388-413.
[6]Huang H,Zhong W,Lai Q,et al.The Spatial Distribution, Influencing Factors, and Development Path of Inbound Tourism in China—An Empirical Analysis of Market Segments Based on Travel Motivation[J].Sustainability,2020,12(6):2508.
[7]冼煒軒,尚國琲,劉玉,等.基于POI數(shù)據(jù)的鄉(xiāng)村休閑旅游地空間格局及其影響因素——以北京市密云區(qū)為例[J].江蘇農業(yè)科學,2021,49(8):15-22.
[8]張杰,麻學鋒.湖南省鄉(xiāng)村旅游地空間分異及影響因素——以五星級鄉(xiāng)村旅游區(qū)為例[J].自然資源學報,2021,36(4):879-892.