【摘 要】在旅游過程中,網民總會遇到各種各樣的問題,網絡新媒體讓網民有了可以表達意見,傳播新聞的自由,形成網絡輿情。對于網絡輿情正確引導,還原游客意見構成、聽取游客訴求,有利于及時發現問題、化解矛盾、釋放壓力,實現旅游市場的良性健康發展。本文利用數據挖掘算法對輿情中文本關鍵詞的提取提出了自己的看法。人工對比實驗證明了該算法的有效性,有較高的準確率和召回率。
【關鍵詞】旅游;關鍵詞;輿情
一、前言
網絡新媒體解放了人類的嘴巴,逐步消解新聞制造者與新聞閱讀者之間的鴻溝,讓每位新聞閱讀者都擁有在公共領域自由表達的平臺,打破傳統媒體”一對多”的傳播霸權,不再是媒體一家之詞,新聞閱讀者也可以制造傳播新聞,形成了”多對多”的傳播格局,新聞閱讀者生產、新聞內容共享、自由的意見交流為特征的網絡新媒體時代。
二、發現處理旅游網絡輿情的重要性
在旅游過程中,網民總會遇到各種各樣的問題,會聽到或看到各種各樣的現象,則不可避免的在網絡空間針對這些聽到或看到遇到的各種現象和問題發表意見,爭取權益,建言獻策,交流思想、抒發感情。通過新聞評論、論壇社區、博客空間、即時通訊、微博和微信等網絡新媒體形式,網民可隨時爆料、由此產生新聞話題。不同意見觀點進入網絡這個自由市場,有些尖銳的意見之間形成博弈、交鋒、碰撞,與此同時,網絡新媒體與傳統媒體互相對接、引用和報道,傳統媒體越來越將獲取新聞線索和素材的重點放在網絡新媒體上,改變著輿論的生成與傳播機制,被官方壟斷的話語權由于網絡新媒體的出現而逐漸被下放和分解,形成旅游網絡輿情。旅游網絡輿情已成為旅游過程中游客社情民意的集中體現,是旅游管理方探察民情、傾聽民意的重要渠道。通過對旅游網絡輿情研究,還原游客意見構成、聽取游客訴求,有利于及時發現問題、化解矛盾、釋放壓力,實現旅游市場的良性健康發展。旅游網絡輿情作為我國現階段最集中、最接近真實的游客民意代表,為旅游管理部門審視政策利弊得失,提供了成本低廉、反應快速的平臺。某種程度上,旅游網絡輿情代表的游客民意已成為旅游管理部門制定政策的民間智庫。
根據新華網網絡輿情監測分析中心、武漢大學、中國社會科學院(2011)的研究結果顯示,地區網絡輿情事件的發生頻率和熱度高并不一定對該地形象產生負面影響,然而事件處理失當對地區形象的破壞卻是巨大的。旅游管理部門對旅游網絡輿情事件的應對是影響地區旅游網絡形象的關鍵。重視旅游網絡輿情、傾聽游客民意訴求、善用網絡建構和提升旅游地區形象的理念,已被越來越多的地方所接受。
旅游業具有綜合性、關聯性、依賴性和異地性等特征,當政治、經濟、社會、自然等危機事件發生時,旅游業是國民經濟最易遭受沖擊的行業之一。隨著我國旅游產業進入大眾化的全面發展階段,國內旅游規模迅速擴大、出入境旅游均有大幅增長,游客構成更加多樣、利益訴求逐步多元,加上網絡新媒體和傳統媒體監督報道的推波助瀾,提高了旅游危機事件的發生幾率和破壞程度。這會影響到旅游地區的聲譽,也在一定程度上危及整個旅游產業的安全。如上文所述,新媒體時代的危機事件在發生、演化和傳播上都與傳統媒體時代有巨大差異。因此,要科學有效的應對各類旅游危機事件、修復和維護政府、企業和個人的受損形象,采用網絡輿情的監測方法和管理手段必不可少。
三、旅游網絡輿情中關鍵詞提取的主要方法
關鍵詞提取主要包括以下幾種類別:(1)在基于有監督學習的關鍵詞提取算法中,詞頻,TF-IDF,N-Gram,詞長,出現位置,共出現頻率等常常被當做有效的特征加以使用。這種方法主要是對較多的訓練語料進行一定的訓練,在訓練中獲得各項系統的相關參數并建立一定的模型,最后利用這種模型對語料庫進行測試,從測試中檢測此種模型提取關鍵詞的效果,Kea算法是一個基于貝葉斯模型的非常有效的算法。基于“信息增益”(Information Gain)的英文關鍵詞提取系統是以實用性為最終目標的算法,稱為KPSpotter。(2)基于無監督學習的關鍵詞提取。Mihalcea和Tarau受Page Rank的啟發,把詞看做網頁,將詞與詞之間的語義關系看做鏈接,開發了Text Rank算法。他們提出了自己的短語合并算法。他們先將每個單詞作為基本元素參與迭代,迭代完之后,取出排名靠前的一部分詞作為候選。如果候選的詞在文中相鄰,則將他們合并成為短語。基于有監督學習的算法充分利用了各種先驗知識,實驗結果表現較好。但由于過度依賴訓練數據,使得實用性較差。基于圖的算法利用詞語間的語義相似度建立網絡,通過某種特定的規律構建一個比較復雜的網絡模型,也取得了不錯的成績。很多工作都注意到了短語級別的關鍵詞的重要性,同時也提出了相應的方法。
四、本文提出的關鍵詞提取算法
給定閾值k, k 為最近鄰對象個數
輸入: 要聚類的數據集D,參數k
輸出: 聚類好的簇列表S
對數據集D,計算所有對象的距離矩陣M,得到詞語語義距離后,對所有詞語進行聚類。
方法: repeat 判斷輸入點是否為核心對象P,P∈D
IF P為核心對象{以對象p 建立一個新簇C, 對簇C 內新加入的對象O, O∈C,遞歸將核心對象繼續聚到簇C 中,直到沒有新對象加入。
}
ELSE P為非核心對象{
如果P是一個邊界對象,P被標記為噪聲
}
until 所有輸入點都判斷完畢
repeat 針對所有核心對象的D領域所有直接密度可達點找到最大密度相連對象集合,合并密度可達對象。
util 所有核心對象的D領域都遍歷完畢
輸出聚類好的簇列表S={C1,C2,……Cm}
算法的主要思想是通過詞語間的語義距離,對詞語進行密度聚類,得到主題相關類,并簡化參數輸入, 同時能夠發現空間密度不同的簇。人工對比實驗證明了該算法的有效性,有較高的準確率和召回率。
五、總結
加強旅游行業網絡輿情引導機制的研究,應用信息化技術加強旅游業網絡輿情引導,營造一個有序、繁榮的旅游市場,隨著數據挖掘技術等大數據應用越來越多的融入到旅游的各管理領域,通過互聯網,指導人們的旅游行為和旅行計劃,從而實現方便快捷的智能化感知和交互性旅游體驗。今后旅游業還應在網絡輿情預警分析的研究和應用方面進行進一步的探索。
參考文獻:
[1]李 鋒.目的地旅游危機管理:機制、評估與控制[D].西安:陜西師范大學,2008.
[2]吳曉梅.十年發展鑄輝煌—十六大以來旅游業發展述評之一[N].中國旅游報,2012-9-12.
[3]劉 棟,張彩環.基于短語的中文標簽自動生成混合算法[J].計算機科學,2014.
注:
項目名稱:智慧旅游中的數據挖掘算法研究(項目編號:SKL2015C18)。
項目名稱:數據挖掘算法在智慧服務中的應用(項目編號:LYC15-16)。
作者簡介:
張貴紅(1973—),女,樂山師范學院計算機科學學院,講師,研究方向:數據挖掘。