楊秀璋,武帥,張苗,夏換,李娜,項美玉,趙紫如,竇悅琪
(1.貴州財經大學信息學院,貴陽550025;2.貴州財經大學,貴州省經濟系統仿真重點實驗室,貴陽550025;3.貴州財經大學大數據應用與經濟學院,貴陽大數據金融學院,貴陽550025;4.中國船舶工業系統工程研究院,北京100094)
貴州作為多民族融合、旅游景區頗多的省份,發展生態旅游行業尤為重要。該省平原較少,92.5%的面積均為山地和丘陵,為其發展生態旅游提供了得天獨厚的優勢。旅游發展不僅能帶動地方經濟的增長,也能拓寬當地學者的研究領域。貴州省結合自身獨有的生態環境優勢,提出“鄉村振興、大數據、大生態”新三大戰略行動,旅游發展和生態文明建設在貴州起著重要作用,這也體現了繼承和發展的統一。研究貴州旅游發展歷程及主題不僅能明確貴州省旅游業的發展規律,同時能推動地方經濟發展,為現階段旅游發展提供可行的方向指引。
文獻作為學者進行學術研究的重要載體,記錄著相關研究領域的核心成果。通過文獻分析和文本挖掘能識別出研究領域的核心分類、學科主題,這已成為當下研究熱點,一定程度上反映該領域的前沿動態和研究水平。傳統的文獻計量方法通過對關鍵詞統計來確定研究熱點主題,或高被引論文的研究內容作為重要參考。僅能從宏觀層面反映研究熱點,缺乏代表性,且不利于深層次挖掘潛在主題的關聯關系和演化趨勢,存在一定的片面性。
因此,本文將從主題挖掘和數據分析的角度研究貴州省旅游發展現狀,以中國知網貴州旅游發展相關的期刊文獻為語料,采用層次聚類和社交網絡方法進行深入的文本挖掘。接著,結合文獻計量分析貴州省旅游發展的核心主題,從而揭示其旅游發展的歷程。該方法有效彌補了傳統的文獻分析方法側重于統計,缺乏量化思維,很難系統發展研究領域的潛在和語義信息。實驗結果表明,本文的方法能有效挖掘出貴州旅游發展熱點主題的分布情況及網絡關系,并就現階段旅游商業發展提供可行的方向指引,具有一定的研究意義和實用價值。
文獻計量是一種運用數學模式、統計方法進行定量分析的一種文獻研究方式。隨著文獻數據庫的開放以及計算機技術的發展,文獻計量逐步與之接軌,越來越多的專家學者致力于文獻基礎研究。范少萍等人[1]結合文獻計量方法,利用密度和熱度開展核心主題識別研究,最終識別醫學文獻的主題演化路徑。楊秀璋等人[2]運用文獻計量的方法對中國知網有關清水江文化的文獻進行分析研究,挖掘出核心研究主題,一定程度上對推動清水江流域文化起到積極的作用。王卓玉[3]通過對WOS、CSSC、CNKI數據進行文獻計量統計研究出國內外STEAM教育研究進度相對持平,主題相似,均集中于教育公平、學科整合、實踐教學、思維養成四大主題。
聚類共詞網絡分析旨在利用文獻集中共同出現的、表征文獻主題的關鍵詞來反映文獻各主題之間的關聯,進而確定文獻主題的熱點[4]。當兩個關鍵詞經常同時出現在某一篇文獻中,說明它們之間存在一定的關聯,共現次數越多,則兩者的關系越緊密。石道元[5]通過對近十年CSSCI教育信息化數據構建共詞網絡,分析出當前研究熱點。DAI Zongming[6]對傳統的共詞網絡進行了一定程度上的優化,通過構建二分興趣網絡(BNOI),從而將F值提升至93.2%。蔣明敏[7]通過構建機構合作共現網絡,確認核心中點為中國財政科學研究院和東北財經大學會計學院。
部分學者運用社交網絡方法結合計量統計的方法進行文本主題挖掘。Lee W H[8]構建了信息安全領域的關鍵詞共現網絡,利用社交網絡分析中的中心性指標發現當前的研究熱點,其認為中心性指標中的度、中間中心性和接近中心性這3項指標不但可以用于發現某一學科領域中當前的研究熱點,而且還能夠用來識別未來的發展趨勢[9]。王晰巍[10]運用Canopy和K-means算法進行聚類后,再進行社交網絡分析,提升社區發現效果。
本文旨在對中國知網(CNKI)中“貴州旅游”的期刊文獻進行文獻計量統計研究,結合層次聚類和社交網絡方法深度挖掘中國知網所收錄有關“貴州旅游”的1565篇期刊文獻。分別從文獻計量統計分析、主題挖掘兩角度挖掘潛在核心研究主題。
本文對中國知網數據庫中“貴州旅游”相關期刊文獻進行分析研究,研究框架圖如圖1所示。主要涉及4個部分,分別是:貴州旅游文獻數據采集、數據預處理、宏觀層面的文獻計量分析、微觀層面的主題挖掘研究。具體研究步驟如下:

圖1 貴州旅游文獻研究框架
(1)調用Python環境下的XPath自定義爬蟲,抓取CNKI數據庫中貴州旅游相關的期刊文獻。將其存于指定CSV文件中,并對存儲好的數據進行數據清洗,剔除無關數據(期刊廣告和期刊報告),共整理出貴州旅游相關文獻1565篇。
(2)對整理后的文獻數據進行數據預處理操作,主要包括中文分詞、去停用詞、殘缺值剔除以及異常值處理。
(3)對預處理后的數據進行文獻計量統計分析,結合時間分布、學科分類、期刊機構以發文機構進行有效的文獻分析。
(4)對預處理后的數據進行主題挖掘研究,包括共詞網絡分析、層次聚類分析、社交網絡分析和主題演化分析,從而識別貴州旅游核心主題及各主題間的關聯關系。
本文旨在挖掘中國知網數據庫中有關“貴州旅游”的期刊文獻,通過調用Python環境下的XPath自定義爬蟲。在中國知網數據庫開源供下載頁面,設定關鍵詞“貴州旅游”進行相關文獻數據檢索,將檢索文獻數據運用XPath自定義爬蟲進行采集,再結合正則表達式提取和過濾文獻數據,最終將分類好的數據存于CSV本地文件中。
由于CNKI數據庫中所采集的數據不僅僅只包含期刊文獻,還包含相關宣傳公告、專欄會議以及活動報告。因此,需對此類文獻信息進行剔除,同時對摘要、作者、關鍵詞缺失的期刊文獻數據進行再判斷,是否為期刊文獻論文。對清洗好的數據進行預處理,包括中文分詞、去停用詞、殘缺值剔除以及異常值處理,最終獲得較好的半結構化數據,便于后續對“貴州旅游”相關數據進行數據分析。
層次聚類分析是利用相似性算法發現高頻關鍵詞間親疏程度并進行自動分類的技術。本文首先將貴州旅游文獻關鍵詞的共現矩陣轉換為相異矩陣,接著使用Python層次聚類分析,簇間距離采用Ward方法統計,最終計算出各主題的樹狀圖。
本文對預處理后的1565篇“貴州旅游”相關的期刊論文進行文獻計量分析。分析結果結合ECharts可視化技術進行可視化呈現。文獻計量分析主要包括結合論文發表時間的時間線統計;結合論文涉及學科門類的學科統計;結合論文發表期刊的熱門期刊統計;結合論文作者單位的核心發文單位統計。
本文調用Python環境下ECharts模塊對“貴州旅游”相關文獻進行統計分析,繪制出如圖2所示的時間統計分析圖。其中,2000年以前論文發表相對較少,共計86篇,歸于2001年進行統計分析研究。

圖2 貴州旅游主題文獻發文趨勢
由圖2可以觀測出,“貴州旅游”主題期刊文獻年度發文量總體呈逐年遞增的趨勢,部分年份存在波動情況。2016年,“貴州旅游”相關文獻發表最多,共計135篇;其次是2017年發表的127篇和2012年發表的122篇。
學科門類統計分析能有效挖掘出該領域的學科關聯情況,能有效結合各學科的優勢實現產業和行業優化,從而更好地推動該領域發展。本文結合學科門類統計分析,得出表1所示的學科分類表。
“貴州旅游”主題期刊論文學科分類最多的為“經濟類”,共計1268篇;其次是“文化、科學、教育、體育類”共計118篇;之后是“藝術類”共計37篇。表1可以看出“貴州旅游”類期刊論文主要以“經濟類”的“旅游經濟”和“綠色經濟”為主。

表1 貴州旅游主題文獻的學科分類
本文對CNKI數據庫中“貴州旅游”主題的期刊論文進行計量統計分析,其結果可作為“貴州旅游”研究的重要參考文獻依據,最終統計出發表“貴州旅游”主題的前十名期刊,如表2所示。

表2 貴州旅游主題文獻的Top10期刊
其中,“貴州旅游”主題發文最多的期刊為《當代貴州》,共計發文130篇;其次是《旅游縱覽(下半月)》,共計發文77篇;再者是《貴州民族研究》,共計發文64篇。
國內發文機構主要以高校、科研院所以及事業單位為主。本文對抓取的1565篇有關“貴州旅游”期刊論文的第一作者所屬單位進行計量統計分析,繪制出如表3所示“貴州旅游”核心發文機構前十名。

表3 貴州旅游主題文獻的Top10發文單位
從表3可以看出前十名機構中,大部分機構為高校,還有《當代貴州》雜志社。發文最多的機構為“貴州師范大學”,共計發文174篇;其次為“貴州大學”,共計發文153篇;再者為“貴州財經大學”,共計發文113篇。由表可知,貴州省本地的高校機構長期致力于“貴州旅游”發展研究,提供著可行的建議,積極推動著當地旅游業的發展。
主題關鍵詞旨在反映論文的研究主題或熱點話題。想要深度挖掘“貴州旅游”相關文獻,應優先考慮研究其主題詞。本文通過構建共詞網絡挖掘主題詞間共現關系,再結合層次聚類和社交網絡分析方法深度挖掘主題詞間的關系,進一步發現潛在主題詞聯系,從而為貴州省的旅游商業發展提供可行的學術參考。
在中國知網數據庫關于“貴州旅游”主題的1565篇期刊文獻中,共涉及2773個核心主題詞,這些核心主題詞的詞頻數為5956次,平均每個主題詞出現2.15次。本文統計出如表4所示“貴州旅游”期刊文獻的錢60個核心主題詞。由表4可知,“貴州”出現次數最多,共計307次;“旅游業”(119次)、“鄉村旅游”(102次)、“旅游”(97次)、“旅游資源”(85次)、“旅游開發”(76次)等主題詞的出現次數均在50次以上,一定程度上可作為“貴州旅游”研究領域的熱點主題。

表4 貴州旅游主題文獻的Top60主題詞
共詞分析法旨在利用文獻集中共同出現的、表征文獻主題的關鍵詞來反映文獻各主題之間的關聯,進而確定文獻主題的熱點。當兩個關鍵詞經常同時出現在某一篇文獻中,說明它們之間存在一定的關聯,共現次數越多,則兩者的關系越緊密。
為了更好地分析“貴州旅游”研究的主題,采用共詞網絡法分析,并構建關鍵詞共現矩陣。如公式(1)所示,當兩個關鍵詞同時出現在一篇文獻中,則認為共現并構建關聯邊,其邊所對應的權重加1;反之,兩個關鍵詞不存在共現關系,其權重為0。

經過之前的統計分析,共發現2773個主題關鍵詞,在此構建2773×2773的共詞矩陣,接著進行共現網絡計算,得出8637組(頻次非零)共現主題詞組,其共現頻次為9616次,平均每組共現主題詞組出現1.14次。統計出如表5所示“貴州旅游”主題期刊文獻共現主題詞組前30名。由表可知,“<貴州,旅游資源>”主題詞組共現頻次最高,其值為33次;出現次數在15次以上的兩兩主題詞組還包括“<貴州,鄉村旅游>”(31次)、“<貴州,旅游>”(29次)、“<貴州,對策>”(15次)、“<貴州,可持續發展>”(15次)。它們在一定程度上也反映了“貴州旅游”文獻的研究熱點和關聯。

表5 貴州旅游主題文獻的Top30共現主題詞組
針對已構建的關鍵詞共現矩陣,利用Gephi繪制貴州旅游文獻的核心關鍵詞共現關系圖譜。為了更加精準地識別該領域文獻的關鍵詞及主題,本文過濾了較為單一的共現關系,結合普萊斯定律對節點進行篩選,設置共現閾值為5,共挖掘出36個核心節點和45條關鍵共現關系。通過計算該社交網絡的模塊化為0.214,符合模塊化效果。平均路徑長度2.451,平均聚類系數0.506,平均度2.5,平均加權度23。最終繪制出圖3所示“貴州旅游”主題詞社交網絡圖。
由圖3可知“貴州旅游”主題詞共分為4個部分。以主題詞“貴州”為核心的部分占大部分,涉及“鄉村旅游”“旅游產業”“旅游開發”“可持續發展”等領域;以主題詞“旅游業”為核心的部分,涉及“旅游產業發展”“旅游大省”“旅游者”“戶外運動”“山地旅游”等;以主題詞“旅游資源”為核心的部分,涉及“旅游開發”“喀斯特”等;以主題詞“民族村寨”為核心的部分,涉及“西江苗寨”“旅游扶貧”等。這些領域一定程度上也反映了貴州省旅游業的主題演化趨勢及各個時期旅游發展的熱點關系,從民族村寨旅游到生態旅游,從鄉村旅游到鄉村振興。

圖3 貴州旅游主題文獻的社交網絡
文本聚類旨在根據文檔內容的相似性,將無標簽的文檔集進行自動歸類。在將文檔集劃分為若干類過程中,盡可能地使得同類文檔的內容相似性較大,不同類文檔的內容相似性較小。常見的方法包括基于層次、基于劃分、基于密度和基于網絡的文本聚類方法。
本文通過Python的cluster.hierarch算法實現層次聚類,最終繪制如圖4所示的主題詞層次聚類圖。其橫向坐標軸表示各類別間的距離,縱向坐標軸表示各高頻關鍵詞。由圖可知,貴州省的旅游文獻主要包括“紅色旅游”“民族旅游”“鄉村旅游”“山地旅游”“全域旅游”“旅游扶貧”等主題詞。

圖4 貴州旅游主題文獻的層次聚類
整個旅游業的主題演化趨勢如下:
(1)最早以“紅色旅游”和“民族旅游”主題為主,包括“遵義會址”“西江千戶苗寨”“黃果樹瀑布”等著名景區吸引了大量的游客,與之關聯的主題詞包括“對策”“旅游產業”“發展”“民族村寨”等。
(2)隨著貴州提出“大生態”“大旅游”等戰略,并且“縣縣通高速”帶來了良好的交通便利,貴州逐漸以“生態旅游”和“全域旅游”主題為主,相關的主題詞包括“卡斯特”“生態文明建設”“可持續發展”等。
(3)隨著“鄉村振興、大數據、大生態”新三大戰略行動在貴州省的實施,旅游發展和生態文明建設在貴州起著重要作用,該時期出現以“鄉村旅游”和“旅游扶貧”為主題,相關的核心主題詞包括“鄉村振興”“旅游發展”“旅游產業發展”等。
期刊文獻作為研究成果的重要載體,對其系統分析研究,能夠有效明確貴州旅游的研究分類、研究群體以及核心研究主題,從而揭示貴州旅游戰略發展過程。本文通過對中國知網數據庫有關“貴州旅游”主題的期刊文獻計量統計分析,得出“貴州旅游”主題期刊論文學科分類最多的為“經濟類”,且以“旅游經濟”為主。熱門期刊包括《當代貴州》(130篇)、《旅游縱覽(下半月)》(77篇)、《貴州民族研究》(64篇)。核心研究機構包括“貴州師范大學”(174篇)、“貴州大學”(153篇)、“貴州財經大學”(113篇)。
同時運用層次聚類和社交網絡分析算法對CNKI數據庫中1565篇“貴州旅游”期刊文獻進行主題挖掘。研究結果表明,“貴州旅游”主題詞共分為4個部分,以主題詞“貴州”為核心的部分占大部分,涉及“鄉村旅游”“旅游產業”“旅游開發”“可持續發展”等領域;以主題詞“旅游業”為核心的部分,涉及“旅游產業發展”“旅游大省”“旅游者”“戶外運動”“山地旅游”;以主題詞“旅游資源”為核心的部分,涉及“旅游開發”“喀斯特”;以主題詞“民族村寨”為核心的部分,涉及“西江苗寨”“旅游扶貧”。同時,結合層次聚類挖掘出貴州省旅游發展經歷了“紅色旅游”和“民族旅游”、“生態旅游”和“全域旅游”、“鄉村旅游”和“旅游扶貧”為主題各個階段。
綜上,本文研究將為貴州旅游發展提供幫助,該方法能夠有效挖掘出貴州旅游發展熱點主題的分布情況及網絡關系,并就現階段旅游業發展提供切實可行的潛在發展方向指引,具有一定的研究意義和實用價值。