潘 芳,劉智宇,向 蘭,高丁亞
(1.深圳市匯星數字技術有限公司,廣東 深圳 518107;2.長沙學院 經濟與管理學院,湖南 長沙 410022;3.湖南大學 金融與統計學院,湖南 長沙 410006)
第52次《中國互聯網絡發展狀況統計報告》顯示,截至2023年6月,我國網民規模10.79億人、互聯網普及率76.4%。與之相伴的是各類網絡媒體平臺強勢崛起。相對于傳統媒體,網絡媒體環境下的信息在傳播主體和速度、靈活性、多樣性等方面具有明顯的優勢。這使得網絡媒體逐漸成為人們發布、獲取信息的主要渠道。在今日頭條、微博熱搜、知乎熱榜等網絡媒體上的新聞事件,常常成為社會關注和公眾輿論的焦點。一些關于文化遺產保護的負面事件,如2017年的“八達嶺長城被刻字”、2020年的“女子閉館日開車進故宮”等,都是先在網絡媒體上被傳播,引發強烈反響并成為輿情事件后,才受到相關各方的重視并加以整改,進而促進了文化遺產保護與管理水平的提高。網絡媒體的輿情能映射文化遺產保護的各方面,為各方感知和監督文化遺產保護提供重要的支持。因此,對網絡媒體環境下的文化遺產輿情大數據進行監測,非常有必要。
目前,文化遺產的輿情分析已經開始受到重視。中國遺產研究院多次對年度中國世界文化遺產的網絡輿情進行分析和報告[1];中國非物質文化遺產保護中心也在2021年的“文化和自然遺產日”對相關的網絡輿情進行了監測和分析。如“鳳凰古鎮門票事件”“麗江古鎮旅游利益相關者沖突事件”等事件的網絡輿情,也受到學者們的關注和分析[2-3]。盡管如此,在文化遺產輿情監測系統建設上,卻僅有2014年上線運行的“中國世界文化遺產監測預警總平臺”中建設了一個輿情監測的模塊[4]。實際上,網絡輿情大數據監測的方法與技術已不再是瓶頸,已有國內外學者對南海問題輿情監測、Twitter上的流行病輿情監測[5]、Twitter上的流行病輿情監測[6]等進行了研究。本文借鑒前人研究中的方法與技術,設計了文化遺產網絡輿情大數據的監測系統。該系統致力于為各方及時把握文化遺產的發展動態、發現文化遺產保護的現存問題、洞悉文化遺產保護的社會訴求,提供全新的方式與渠道。
系統設計為知識層(底層)、運行層(中層)、展示層(上層),系統模型和運行流程如圖1所示。系統能夠對各類網絡媒體上關于文化遺產的輿情大數據進行持續采集,并對采集的數據進行清洗、分類存儲及信息挖掘等,實現文化遺產網絡輿情的動態監測。監測內容包括,文化遺產的災害和事故、景區-游客沖突、民眾訴求、正負面新聞等。系統能夠自動生成輿情分析簡報定期發送給相關人員。當設定的監測指標超過閾值時,系統也自動生成輿情預警信息發送給相關人員。

圖1 系統模型與運行流程
系統包括5個模塊,各模塊名稱及其功能如下。(1)文化遺產知識庫模塊:本模塊對基于文化遺產相關的文獻資源、網絡媒體輿情資源,進行整理、歸類,總結文化遺產涉及的基本術語、術語關系、主體類型、事件類型、敏感詞庫、負面詞庫等信息,進而構建文化遺產領域本體,為輿情大數據監測與預警做好知識庫上的支撐。(2)文化遺產輿情采集模塊:本模塊基于文化遺產領域本體,爬取網絡媒體輿情大數據,并對爬取的數據進行清洗。之后,基于知識庫中的主體、事件類型等信息,對輿情數據進行分類,并存儲至文化遺產輿情數據庫中。(3)文化遺產輿情存儲模塊:本模塊首先基于文化遺產知識庫,通過對文化遺產輿情的主體、事件類型等方面的分析,在確定文化遺產輿情存儲數據庫的功能、結構后,構建文化遺產輿情存儲數據庫。(4)文化遺產輿情監測模塊:本模塊基于文化遺產輿情存儲數據庫,對輿情大數據進行定期的分析及可視化,包括主題提取、熱點話題分析等,并對敏感、負面輿情自動生成預警簡報,通過郵件、微信等方式發送給相關人員。(5)文化遺產輿情展示模塊:本模塊對輿情數據定期的自動分析結果進行可視化,并通過直觀圖表將輿情現況和輿情趨勢展示到瀏覽器端。同時,本模塊還包含人機交互部分,能為人工分析輿情數據提供接口。
已有研究中雖然具體方法或技術有所差別,但都是運用大數據技術、文本挖掘技術、機器學習等,對海量的網絡數據進行爬取、挖掘,最后生成監測報告等供相關人員參閱。由于本系統擁有一個底層知識庫的支撐,因此,還需要領域本體構建技術,這些關鍵技術的介紹如下。(1)本體構建技術:本體在計算機領域中用于描述語義知識,包含概念與概念之間的關系以及描述它們的屬性;本體構建方法比較著名的有骨架法、IDEF5法和七步法等,其中七步法是最受推崇的方法。(2)網絡爬蟲技術:網絡爬蟲(Web Crawler)是自動搜索和獲得網頁數據的計算機程序[7];網絡爬蟲通常從若干初始網頁的URL開始,分析頁面內容,提取新的URL并存入待爬行URL隊列,如此重復上面的過程,從而遍歷Web直到滿足終止條件[8]。(3)數據庫技術:文化遺產輿情存儲數據庫的建立。首先,創建基本表、設置約束條件、管理基本表;其次,創建和管理索引、創建和管理視圖;再次,向數據庫中輸入數據,并實現對數據查詢、修改、刪除等操作;最后,編寫存儲過程、觸發器等,并調試通過。(4)文本挖掘技術:文本挖掘(Text Mining)是基于計算機領域和統計分析領域的相關理論、方法和技術,從文本中發現和提取隱含規律或知識的過程[9];常見的文本挖掘任務有詞云圖繪制、高頻詞統計、語義網絡分析、文本主題提取等。
系統各模塊開發所涉及的開發工具如下。(1)文化遺產知識庫和輿情存儲模塊:兩個模塊都將使用到MySQL和Redis進行開發。MySQL數據庫能有效適配各種編程語言,同時支持在多種操作系統上使用。而使用Redis進行數據的緩存,能夠有效提升系統的數據響應速度,減輕MySQL數據庫的讀寫壓力。另外,文化遺產知識庫還將使用Protégé,它是本體構建的核心工具,也是開源且免費的。(2)輿情采集模塊和輿情監測模塊:2個模塊將使用Java和Python進行開發,二者均是目前非常受歡迎的編程語言,均擁有體系化第三方庫支撐以及完整的開發生態;同時,這2個模塊還將使用SpringBoot框架進行開發,SpringBoot框架的“開箱即用”特性能夠減少系統重復代碼,提高開發效率[10]。(3)輿情展示模塊:將使用HTML語言、Vue和Element UI進行開發,確保用戶使用不同的瀏覽器進入系統時都能夠具有良好的兼容性。
本文設計了文化遺產網絡輿情大數據的監測系統,系統能為把握文化遺產的發展動態、發現文化遺產保護中的問題、洞悉文化遺產保護的社會訴求提供新的渠道。系統設計的功能不僅可以從海量網絡輿情數據中挖掘出更有價值、更深層次的信息,還能大幅降低輿情信息獲取時間和人工成本。另外,系統的實現將綜合應用多種方法、技術和工具,將促進跨學科方法、技術的交叉與融合。