基于詞頻分析的微博點評與旅游點形象定位差異研究

2020-08-07 14:41:06白剛莫雅蘭

現代計算機 2020年18期

白剛，莫雅蘭

（桂林旅游學院旅游管理學院，桂林541006）

0 引言

隨著互聯網和通信技術的高速發展，社交網絡已逐步成為人們日常生活中不可或缺的部分[1]。在大數據時代，每天用戶都在社交網絡上創造海量的數據，這些基礎數據為社會經濟發展提供了可靠的研究樣本。

微博，作為起步早、用戶量龐大的社交平臺，匯聚了大量的針對城市旅游點的信息，該信息包括地理位置、用戶點評信息、點位標簽等數據。對例如桂林等旅游城市來說，用戶點評的內容聚焦與旅游點本身傳達的定位是否相符，可以從大量的點評數據中可以分析出來，進而為旅游點提供決策參考。

1 微博點評內容獲取

1.1 獲取方法

微博的數據具有空間非連續、數據離散以及數據量大等特點，其中的點評數據僅占總體數據的小部分，且相對分散，需要利用數據采集方法對數據進行采集。

本研究中微博點評內容的獲取采用爬蟲爬取的方式，獲取對象為微博位置的相關地理標簽，如桂林漓江風景區、獨秀峰王城、蘆笛巖等。本文進行對比分析采用的樣本標簽為“桂林·桂林漓江風景區”。采集時間段為2019 年7 月12 日至2019 年7 月17 日，該時間段為桂林旅游旺季，游客類型涵蓋面寬，樣本代表性強。

1.2 采集結果

爬蟲采集結果存入Excel 文件中，包含多個字段，格式如圖1 所示。

由于本次研究為詞頻對比分析，所以僅使用微博正文內容，也就是評論部分。評論部分采集的內容包含一些固有的對采集過程有用但無分析價值的信息，例如“桂林·桂林漓江風景區”此類的地點標簽。

刪除掉地點標簽等固有內容，最終可用的條目為959 條，共計119412 字。用戶來源地包括澳門、北京、福建、廣西、重慶等32 個省市地區，地理覆蓋滿足分析要求。用戶微博數量從37734 到1 篇，粉絲數從34 萬到15，說明采集到信息的微博用戶活躍度高低不等，樣本用戶網絡行為多樣性較高，能夠為研究提供較好的代表性。

表1

2 分詞及詞頻分析

2.1 算法邏輯

在自然語言中，詞是最小的能夠獨立活動的有意義的語言成分，分詞，就是將句或段的自然語言切分成最小的有研究意義的單位。

本研究中的樣本內容基本都是中文，所以涉及到中文分詞。中文分詞具有一些英文分詞不具有的難點，包括漢語是以字為單位，不像西方語言，詞與詞之間沒有空格之類的標志指示詞的邊界，分詞規范、詞的定義還不明確，歧義切分問題，交集型切分問題，多義組合型切分歧義等。

目前主流的漢語的分詞方法主要有三種。

（1）基于字典、詞庫匹配的分詞方法（基于規則）[2]

基于字符串匹配分詞，機械分詞算法。

（2）基于詞頻度統計的分詞方法（基于統計）[2]

相鄰的字同時出現的次數越多，越有可能構成一個詞語，對語料中的字組頻度進行統計，基于詞的頻度統計的分詞方法是一種全切分方法。

（3）基于知識理解的分詞方法[2]

該方法主要基于句法、語法分析，并結合語義分析，通過對上下文內容所提供信息的分析對詞進行定界，它通常包括三個部分：分詞子系統、句法語義子系統、總控部分。

本研究采用的分詞方法囊括以上三種，使用Python 的第三方中文分詞庫jieba。算法流程如下。

圖1 算法流程圖

2.2 算法實現及應用

（1）切詞算法實現代碼主要部分

（2）代碼應用

以上算法的使用需要帶參數，格式為：

其中，-i 后為輸入文件，內容為格式化后的點評文本，result.txt 為輸出結果文件。

最終對微博評論數據的分詞結果，總計字數68743個，詞8225 個。

使用該分詞結果對微博評論數據進行頻次分析，得到最終詞頻結果。

2.3 點評詞頻分析結果

詞頻分析結果輸出為文本文件，格式為第一列是分詞，第二列是該詞在點評中出現的頻次數。共切分出詞2994 個，頻次從900 次到1 次排列。

3 詞頻結果與旅游點形象定位對比分析

3.1 旅游點形象定位詞頻分析

對桂林漓江風景區的旅游形象定位詞條，選擇從桂林漓江風景名勝區旅游官網（http：//www.liriver.com.cn/）的宣傳文字材料獲取，共包括大美漓江、生態漓江、歷史漓江等共計45552 字。

對定位詞條進行分詞及詞頻分析后，共切分出詞1128 個，頻次從16 次到1 次排列。

3.2 微博點評與旅游點形象定位詞頻分析結果對比

對對比結果文本進行升序排序，發現相同詞共有15 個，一起、不同、以上、全部、回來、展開、感謝、我們、桂林、桂林山水、漓江、獨秀峰、甲天下、畫家、西湖，其中以上、全部、展開、感謝、我們等詞不具有實際對比分析意義，忽略，對其余詞的兩組詞頻進行對比，結果如下。

微博點評詞條中，以上詞出現的頻次如表2：

表2

旅游點形象定位詞條中，以上詞出現的頻次如表3：

表3

由于“桂林”和“漓江”為旅游點固有名稱詞，微博詞條和官方詞條中詞頻都占據首次位，而兩者由于樣本數量不同出現差異很大，對其他詞對此有顯著影響，故先刪除這兩個詞，再進行對比。

圖2 相同詞詞頻對比

其中，“西湖”一詞在微博詞條中原文為“桂林疊彩山，燈光效果真的很‘疊彩’。關于自然風景名勝區的燈飾工程設計，大家覺得全國哪個景區做的最好呀？我個人感覺還是杭州西湖，保俶山寶石山，燈光設計蠻匹配西湖的?！?，明顯可以看出是作為對比詞出現。在漓江風景區的定位詞條中，“西湖”一詞出現在“元代的石刻多為楷書，其中以郭思誠行楷《新開西湖記》為代表?！币痪渲?，此處的西湖為桂林西湖。

3.3 結果分析

微博點評詞條中，剔除無對比意義的名詞例如“微博”和有重復意義的詞后，排序前10 的詞如表4：

表4

旅游點形象定位詞條中，剔除類似“陽朔”“太白金星”等特殊地域或故事名詞等，排序前10 的詞如表5：

表5

桂林漓江風景區的官方詞條中，除了固有地點名詞外，包含了畫廊、工程、時刻、文化、整治等詞語，與官方宣傳的大美、歷史、文化、生態等關鍵詞意義相符。微博點評詞條中的視頻、先鋒、音樂含有較明顯的新媒體傳播意義，更符合互聯網思維。另外，我要、分享兩詞結合對比原文整句，意義集中在心情分享、情感表達方面。

相同詞詞頻對比發現，旅游點官方導向與微博點評詞條的分析結果基本相符，切合桂林漓江風景區的山水大美、歷史文化等定位，另一方面，“一起”、“回來”等詞表達了清晰的群體旅游和重復旅游概念，既有官方推薦，同時游客也自發表達了意愿。旅游點的形象定位和游客的感知大體符合。

但是，結合排序前十的詞可以發現，旅游點官方的營銷定位更趨于傳統化，而游客在微博詞條中的表達則趨向于新旅游吸引物的感知，例如視頻、音樂等新媒體表達物，這些事物同時具有很強的分享屬性，與“分享”一詞的出現頻次吻合。

4 結語

旅游點的形象定位是由旅游供給方傳達的，而游客的感知來自于各種渠道，傳達與感知是否吻合，決定了營銷是否達到了預想的效果。傳統上該測度主要依靠旅游人數的變化來反映。

詞頻的對比分析提供了一個新穎的方法來研究傳達與感知之間的異同，結果能夠為旅游供給方提供有價值的營銷參考依據。