錢姊怡 張金玉 韓秀



摘要:書院在千余年的發展過程中凝結和創造了輝煌的書院文化,成為推動中國傳統文化普及、創新和發展的重要力量。本文以徐州書院為例,基于文本挖掘法,建立了LDA模型,對書院游客網絡評價進行情感主題分類,研究游客對于書院文化旅游的看法和評價,了解游客直觀感受和潛在需求,提出書院發展策略。
關鍵詞:書院文化;書院文旅IP;LDA模型
在文化旅游方面,書院具有極大的開發價值。我國歷史上的書院多建立在依山傍水之地,雖然大多建筑在歷史中損壞嚴重,但仍遺留大量古碑、古樹等?,F今留存的書院經過一系列的修繕和恢復,也能成為陶冶情操的旅游勝地。而書院文化對當今社會仍有極大的學習價值,書院文化的內在精神對當今社會的人極具文化熏陶作用。[1]
一、基于LDA模型對游客評價分類
(一)模型介紹
LDA是一種文檔主題生成模型,是通過 “以一定概率選擇某個主題,并從這個主題中以一定的概率選擇某個詞語”這樣的一個過程得到。文檔到主題服從多項式分布,主題到詞服從多項式分布。它采用了詞袋的方法,每一篇文檔包含詞、主題和文檔三層結構。[2]所謂生成模型是指,認為一篇文章的每個詞文檔視為一個詞頻向量,從而將文本信息轉化為易于建模的數字信息。
(二)模型構建
1.Step1:評論數據預處理
(1)數據獲取
本文采用網頁爬取軟件GooSeeker(集搜客)對當下比較受歡迎的網絡平臺的游客評論文本數據進行爬取,具體的游客網絡評論的數據構成詳見表1。
數據獲取首先要選擇定義爬蟲類,包括根據目標爬蟲各自合適的應用場景去選擇爬蟲種類,設置一個初始url,并生成一個能夠請求的 “解析”方法,最后在item類里得到了爬取的3 230條信息和15個相關主題帖子。
(2)數據預處理
本次預處理的主要工作是清除噪聲序列和消費者隨意發表的無意義數據,處理規則如下:
a.評論文本內容與用戶名均相同的數據視為水軍發表的,予以刪除。
b.評論內容完全為英文字母、數字和標點符號的,視為隨意發表的評論,予以刪除。
c.評論內容中出現重復的詞語需要進行壓縮,避免影響詞語頻數統計。
通過數據預處理,將原始數據中存在的噪聲去除,得到高質量、規范化以及可以進行后續分析的3 030條有效數據。
2.Step2:自動分詞
為了判斷句子中是否存在情感詞典中相應的詞語,需要把句子進行自動分詞。我們對比了現有的分詞工具,綜合考慮了分詞的準確性和在Python平臺的易用性,最終選擇了 “結巴中文分詞”作為分詞工具。
3.Step3:訓練情感詞典
訓練感情詞典是文本挖掘核心的部分,分為四個部分:積極情感詞典、消極情感詞典、否定詞典以及程度副詞詞典。為了得到更加完整的情感詞典,從網絡上收集了若干個情感詞典,并且對其進行整合去重,同時對部分詞語進行了調整,以達到盡可能高的準確率。[3]除了對網絡收集而來的詞典進行整合,還有針對性和目的性地對詞典進行了去雜、更新,加入了某些行業詞匯,以增加分類中的命中率。由于某些評論中出現多個感情詞時情感詞典的文本情感分類規則會較為機械化,為了使分類結果更加精確,設置權重累加判斷程序。在假設所有積極詞語、消極詞語的權重都是相等的、權值是線性可疊加的以及不區分感情詞程度的情況下,將每個積極情感詞語賦予權重1,將每個消極情感詞語賦予權重-1,并且假設情感值滿足線性疊加原理;接著將句子進行分詞,若分詞后的詞語向量包含相應的詞語,就加上向前的權值。其中,否定詞和程度副詞會有特殊的判別規則,否定詞會導致權值為負,而程度副詞則讓權值加倍。最后,根據總權值的正負性來判斷句子的情感。
(三)模型結果
1.書院旅游網絡評論情感傾向
將數據分為積極和消極兩個類別,依靠關鍵詞限定,按照一定的規則進行聚類,再加以判別分析進行檢驗,得到整合結果詳見表2。
利用Python進行信息爬蟲,其中有效信息為65.3%。表中可以看出在積極方面,游客評論多為 “推薦”“不錯”“贊”等,說明其游覽滿意度較高,對徐州的書院文化評價也較高;而觀察消極方面,游客評論多為 “無趣”“無聊”等,說明書院現有文化活動不足以吸引游客,傳統的開放方式對游客沒有足夠的吸引力,由此可見,書院文化內涵需要進一步豐富;而 “過時”“古板”則說明徐州部分書院的發展不符合現代化需求,需要創新思想。
2.基于口碑指數對網絡評論分析
為了更科學地進行數據可視化分析,我們引入受到廣泛認可且簡單易行的口碑指數概念。[4]這是通過分析產品的評論綜合計算得出的參考數值,這種方法與大數據技術獲取網絡輿情數據相結合,與當前實際情況有相當吻合度,在前期進行數據處理且分類嚴謹,可對徐州的書院文化旅游滿意度進行粗略評估。其計算公式為:
×100
其中, ζ為口碑指數, Np和Nn分別為正面情感評論數和負面情感評論數。書院的口碑指數為78%,整體口碑情況較好,說明游客對于徐州書院的總體態度是比較滿意的,但是仍然存在22%的評論屬于負面評論。上述LDA模型對于書院游客的觀感進行情感分類,此處口碑指數是對書院總體口碑情況進行綜觀,由此得到游客對于徐州書院文化旅游的情感傾向和整體評價情況。
3.基于詞云分析對評價的數據統計
(1)方法介紹
詞云分析是對文中出現頻率較高的 “關鍵詞”予以視覺化的展現,通過濾掉大量的低頻低質的文本信息,呈現出直觀的文本主旨結果。詞云分析通常通過爬蟲技術實現。[5]
徐州各大書院中,以云龍書院最為著名,為得到更為精準詳盡的評論導向,本文爬取各大網絡平臺中以 “徐州書院”和 “云龍書院”為關鍵詞的相關評論和相關文章進行文本挖掘。
(2)詞頻統計&詞云繪制
在中文分詞之后,本文對分詞結果進行了進一步的處理,由于有些詞語是一些沒有意義但是使用頻率又非常高的詞語,本文將 “此外”“如今”“作者”“近年來”“然而”“圖片”“另外”“然后”等詞語刪除,在詞頻統計的時候不會計入上述詞語。在Python中,建立一個待刪除的字典A,使用for循環將文本中的所有含字典A中內容的詞語刪除。待分詞數據處理好之后,用Python的wordcloud包進行詞頻統計。
詞頻統計之后,就可以制作詞云。用爬取的網絡數據評價得到的結果并繪制詞云圖,詳見圖1。
通過詞云繪制的結果,可以對徐州書院網絡評價進行歸納總結:
a.徐州漢文化城市形象已經深入人心,在對書院的評價中 “漢文化”“古風”“書香氣”等字眼層出不窮,由此可看出徐州城市文化底蘊深厚,為大力發展文化旅游產業提供發展契機。
b.書院講學文化是一把雙刃劍,一方面,書院講學能夠將國學文化進行傳播和推廣,對弘揚傳統文化有一定的積極作用;另一方面,游客對于書院的刻板印象難以改變,多數游客對于書院僅僅停留在 “國學文化”“講學”“古代”等印象中,現代書院的發展已經明顯不同于傳統講學書院,該刻板印象對書院的現代化發展有著一定的阻礙作用。
c.從詞云圖中可以看出 “地標”“旅游”等詞重復出現,這說明游客對于徐州書院的認識上升為 “城市地標”,這對打造書院文化旅游IP具有良好的促進作用。
二、書院發展策略
(一)政府支持和“書院造血”相結合
政府主要可以從兩方面來支持未來書院的發展:一是提供資金支持,二是對書院發展進行指導,帶領書院舉辦多元活動,以便書院的可持續發展。
由于書院活動大多為公益性活動,經費籌集較為困難,政府的資金支持能讓書院有更多的經費舉辦活動,更好地推廣書院文化。但以政府的資金支持維護書院運營并不是長久之計,這就需要書院利用自身文化優勢開發相關產業,建設書院自身 “造血”系統。政府可以通過聯合各地書院與當地書院舉辦多元活動,幫助書院突破活動的局限性。
(二)創新宣傳方式
文旅市場需要進一步發展,需要改變傳統的宣傳方式,積極利用網絡開展宣傳,同時開展口碑宣傳,通過游客口口相傳,達到提高書院文化旅游影響力的目的,增加潛在游客對徐州書院文化旅游的了解。
未來書院的宣傳方式需要創新性思維,改變書院宣傳缺乏活力的現狀,為書院發展提供更好的環境。未來書院的宣傳方式可以從兩方面進行:一是基于現有的宣傳方式,對現有的宣傳平臺進行創新,推送更為新穎且有吸引力的宣傳內容,突出書院文化的特點,找準書院文化吸引大眾的創新點;二是創新宣傳方式,很好地抓住對書院文化感興趣的現有及潛在游客。
(三)打造品牌,開發產業鏈
書院產業鏈的延伸開發是書院未來發展的長久之計,能更好地推動書院文化的弘揚。開發產業鏈要從書院本身延伸出去,一是從各書院的自身特點出發,如書院建筑物特點等,將書院特點進行產業化,讓其得到物化、產品化,更好地將書院特點宣傳出去;二是從書院的內涵文化出發,將其文化內涵進行產業化,例如,可將書院人文故事動漫化,能夠讓大眾更好地理解與接受,也起到了相應的宣傳作用,從而更好地弘揚書院文化。發展書院文創產品,形成書院文化產業鏈。
三、結束語
本文建立了LDA模型,對書院的網絡評價進行情感主題分類,對游客的評價及需求進行分析,并提出適合書院未來發展的策略。書院需創新宣傳方式,打造書院品牌,開發產業鏈,運用適當的方法將其市場化,生產出相應的文化產品。發展書院文化產業,挖掘書院的文化旅游價值,既能對我國的書院文化進行傳承,也能為書院創造相應的經濟價值。
參考文獻:
[1] 艾會雨.保定市旅游產業和文化產業耦合協調發展研究[D].保定:河北大學,2019.
[2] 張學民,趙明宇.基于LDA和情感分析的西塘古鎮旅游形象研究[J].河北工業大學學報(社會科學版),2020,12(3):23-30.
[3] 曹青.基于LDA模型的湖南特色旅游線路設計[D].北京:北京工業大學,2019.
[4] 季鵬飛,王先超,張順香.基于共現概率訓練的情感詞典的擴充[J].阜陽師范學院學報(自然科學版),2019,36(04):49-53.
[5] 李向宇.基于詞云分析的近5年核心期刊幼兒體育文獻研究現狀[J].運動,2014(05):79-81.