張立志,高宇斐,邊 興
(山西省城鄉規劃設計研究院有限公司,山西太原 030000)
基于網絡文本分析的遺址公園服務功能研究思路如圖1 所示。

圖1 基于網絡文本分析的遺址公園服務功能研究思路
傳統的公園綠地服務功能的評價獲取數據的方法上,多局限于以問卷調查為基礎,問卷調查過程費時費力,調查樣本量小、時間集中、代表性差。網絡文本數據(社交網絡數據)不僅具有大數據的5V 特性,即數據規模大、數據變化快、數據真實性高、數據種類多、數據應用價值高的特點,而且具有針對性強的特點。特別是游客在旅游結束后會對旅游目的地進行文字評論,大部分評論還具有主觀評分的功能。
本文選取攜程網、大眾點評和馬蜂窩作為本次調查研究的樣本數據。攜程網是中國目前最大的在線旅游服務平臺,2010 年成立的攜程網為游客提供了一個分享的公共平臺。攜程網站文本具有信息量大、資料集中、隨時獲取、真實客觀的特點,適合本次研究的數據來源。
為了數據有效性,本次數據爬取時間選擇在2022 年2 月7 日,爬取方法為利用Python 網絡爬蟲工具,檢索“西安遺址公園”得到的評論數據。通過人工篩選,共得到西安15 個遺址公園的評價信息11524 條,超過66.4 萬字,數據包括點評文本內容、評價星級(1~5 星)等。抓取評論日期主要集中在2022 年1—2 月。
將爬取得到的數據進行結構化處理,按照評價星級、評論文本、評論時間等游客行為信息進行整理,對無效和缺失的數據進行刪除,最后形成西安遺址公園評價數據庫。其中,大明宮遺址公園、大唐芙蓉園、華清池的評價信息最多,分別為3009、2999、3000 條,秦二世陵遺址公園點評數量最少,為13 條;木塔寺遺址公園、曲江池遺址公園、唐城墻遺址公園平均星級較高,分別為4.67、4.51、4.49 星,秦二世陵遺址公園、大明宮遺址公園、大唐芙蓉園平均星級較低,分別為4.23、4.22、4.05 星。統計各公園的平均星級和評論量,如圖2和圖3 所示。

圖2 西安15 大遺址公園評論數量和平均星級

圖3 西安15 大遺址公園星級評論數量和占比
在數據分析上,采用ROST Content Mining6 軟件對文本數據進行分析。RCM6 軟件是武漢大學沈陽教授研發的一種基于內容挖掘系統的軟件,主要針對網絡上的相關網站信息的統計分析,對文本資料進行分詞處理、高頻詞匯的統計,以及聚類、相關性分析、相似性、情感分析、共現、時序等分析,分析結果構建語義網絡、社會網絡、關系網絡等。
RCM 中具有自定義文本詞庫,它是用于文本分析的特征詞集合。自定義文本詞庫分為3 個分詞庫,即特征詞庫、歸并詞庫和過濾詞庫。特征詞庫是文本詞庫的核心。為了找到游客對遺址公園服務功能評價的影響因素,本文特征詞庫主要設計了三類特征詞型:吸引物名稱詞、旅游行為詞與旅游形象描述詞。
筆者根據游客的評論數據對應的星級,提取星級分為4、5 星的評價和星級分為1、2 星的評價進行預處理,首先進行歸并詞庫:將地名、景點等專有名詞同一表述轉換為統一表達;其次,完善特征詞庫:將景區內相關的地名、商鋪名、遺址遺跡的名城納入ROST 軟件的自定義詞典,使專用名詞“大唐芙蓉園”、“含元殿”等能夠被識別;最后,修改過濾詞庫:過濾掉無意義的詞匯,如“這樣”“覺得”等詞。
根據哈佛大學教授G.K.齊普夫所提出的詞頻分布定律(law of distribution for word frequencies),該定律認為文章中單詞的頻次(f)與其排列的序號(r)之間有固定的比例關系,即如果有一個包含n 個詞的文章,將這些詞按其出現的頻次遞減地排序,那么序號r 和其出現頻次f 之積fr,將近似地為一個常數,即fr=b,(式中r=1,2,3,…)。通過對大型郊野公園評價前20 詞頻排序,詞組序號和詞頻的乘積都在2500 上下浮動,符合詞頻分布定律,說明對網絡詞頻的統計是有意義的。
根據大遺址公園評價前40 詞頻排序(表1),結合對文本原文的分析可以發現,正面評價集中于旅游景點、公園環境、文化活動、文化氛圍等方面,負面評價集中于門票價格、游憩交通、陳展設施、導游服務等方面。

表1 大遺址公園評價前40 詞頻排序
將詞組按頻次大小順序排序,取前1500 位(圖4),發現結果符合統計學的帕累托分布(Pareto,又名二八定律)和長尾特征((Long Tail Keyword)。用“長尾特征”來解釋游客需求詞頻分布,即單個冷門需求頻數較少,但需求類型非常廣泛,因此,只需要取前300(20%)詞進行研究就能涵蓋80%的主體需求。

圖4 西安15 大遺址公園前1500 詞頻分析長尾特征
綜上所述,游客對遺址公園服務功能評價的影響因素歸納為以下7 大方面:文化氛圍、文化活動、旅游景點、景觀美學、導游服務、旅游管理、游憩交通。根據詞頻分析高頻詞匯結合前期現狀詳細調研,構建7 大因素的特征詞庫。
高頻詞通過提取詞組的本質屬性來反應事物的主要領域,但其局限性在于無法反應詞組在意義上的聯系和文本的深層次結構關系。語義網絡是通過概念和語義關系來表達知識的一種網絡圖,由一組節點和一組節點的弧構成,其中節點用來表示事物、概念、屬性、動作、狀態等,弧用來表示所連接的節點之間的語義聯系。共現詞詞頻是高頻詞組在文本形成時內在的邏輯關系共現次數,基于共現詞詞頻結果可以構建文本的語義網絡。
將上述得到的詞頻分析進一步進行語義網絡分析,生成正面語義網絡(圖5);負面語義網絡(圖6)。節點詞匯代表高頻高頻要素,節點越靠中心,頻數越大,節點間的連線代表共現頻率的高低,線條越粗代表共現頻數越高,兩個概念的關系越密切。

圖5 西安15 大遺址公園正面語義網絡

圖6 西安15 大遺址公園負面語義網絡
“西安”“遺址”“公園”歷史”“文化”“大明宮”等是正面語義網絡圖中的重要節點,同時“西安—大唐芙蓉園—晚上—演出”“大明宮—遺址—電影—感受—大唐—盛世”和“西安—事變—華清宮—楊貴妃—歷史”是三條重要的關系鏈,表明大唐芙蓉園內晚上演出、大明宮遺址公園內的IMAX 電影和華清宮內的歷史典故給游客帶來強烈感知并且評價較高[1]。
“西安”“景點”“門票”“不值”“性價比”“大明宮”等是負面語義網絡圖中的重要節點,同時“西安—景點—門票—不值”“景點—導游—講解”和“公園—演出—晚上—不值”是三條重要的關系鏈,表明景點內門票性價比、景點導游講解和公園內晚上演出給游客帶來強烈感知評價較低。