【摘 要】 針對傳統僅依靠文本高頻詞進行體育賽事輿情分析而忽視文本中潛在語義關聯的缺陷,開發出了一套基于LDA(latent dirichlet allocation)主題模型的體育賽事輿論系統,來對賽事的輿情主題進行發現提取。
引 言
如今,互聯網作為一個開放的空間,有大量的觀點在其中快速傳播,具有發散性強、滲透性強、隱蔽性強的特點。而一件小事通過在互聯網中的傳播發酵,往往議論會超出事情本身,擴展到社會的政治、經濟、文化層面,形成強大的輿論力量,如南京馬拉松選手跑丟事件、中國乒乓球賽國乒退賽風波。對于一個體育賽事而言,網上的輿論不僅會影響到人們參與或觀賞賽事的意愿以及賽事品牌形象、贊助商等方面,甚至還會影響到舉辦地的形象及產業發展,從而對一個賽事的舉辦帶來巨大的影響。
1 體育賽事網絡輿情概述
1.1 網絡輿情概念
對于“輿情”的定義,諸多學者有著不同的理解,根據輿情的特征認為輿情是指在一定的社會現實環境中,大多數人民群眾對待社會事務和問題所表達出的情緒、思想、觀點、意見的總和,是廣大人民群體滿足自身利益需要的一種訴求和表達的集中體現[1]。認為輿情是指公眾關于現實社會以及社會中的各種現象、問題所表達的信念、態度、意見和情緒表現的總和,具有相對一致性、強烈程度和持續性,對會發展及有關事態的進程產生影響,其中混雜著理智和非理智的成分[2]。
1.2 體育賽事網絡輿情
綜合上述對網絡輿情定義,我們可以認為體育賽事網絡輿情是人們通過互聯網這個媒介,對發生的與體育賽事相關的事件所表達出的包含其意愿、態度、行為傾向的看法、評論的總和。體育網絡輿情由于其自身的特點而呈現出獨特的特征。
1.2.1 受關注程度高。我國作為體育大國,許多體育運動項目都擁有龐大的粉絲群體。并且對于一項體育賽事舉辦而言,必然會在當地引起極大的注意。再加上參賽成員、比賽結果、打破記錄等這些天然的話題,自然會成為眾多媒體追逐的焦點,滿足了網絡媒體需要吸引人眼球的需求。
1.2.2 話題擴展型強。隨著體育賽事商業化、職業化程度不斷加深,體育賽事與社會政治、經濟、文化的聯系不斷緊密。
1.2.3 體育賽事關注符合二八法則。雖然體育項目及賽事種類繁多,但其中只有少數項目的熱門賽事比賽能夠在網上引起巨大的討論,相反大多數體育賽事在現階段,特別是相對冷門的賽事所受到的曝光還并不是很多,所以一般也很難形成很大的網絡輿情。
2 LDA主題模型
2.1 LDA主題模型的基本原理
潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)是由D. M. Blei等人在2003年提出的生成式主題模型。該生成模型的思想是,每一篇文章的每一個詞都是通過一定的概率選擇了某個主題,并從這個主題中以一定的概率選擇了某個詞語。
如圖所示,“詞語-文章”可以分解為“詞語-主題”和“主題-文檔”兩個因子,這是一種典型的矩陣分解模型。LDA模型就是矩陣分解的基礎上在加上先驗概率和似然概率。LDA因此可以看做是一種3層貝葉斯概率網絡,包含文檔(d)、主題(z)、和詞(w)3層結構。其中詞表的大小為L,一個L維向量(1,0,0,…,0,0)表示一個詞。由N個詞構成的文章記為d=(,,…,)。假定一個賽事輿論數據集D由M篇文章構成,記為D=(,,...,)。M篇文章分布著K個主題,記為(i=1,2,3…,K)。記α 和β為狄利克雷函數的先驗參數,θ為主題在文檔中的多項分布的參數,其服從超參數為α的Dirichlet先驗分布,為詞在主題中的多項分布的參數,其服從超參數β的Dirichlet先驗分布。
LDA主題模型已經廣泛應用于文本主題挖掘和聚類、文本相似度計算等方面,彌補了只使用文章高詞頻發現主題時,無法對潛在語義進行識別的不足,有效解決了多種指代的問題,避免了詞語二義性的干擾。
3 實證檢驗與結果
本系統實驗環境為windows平臺、運用python語言進行數據處理。實驗數據為某馬拉松賽事的參賽者網上評論。系統使用結巴分詞系統,使用wordtovector算法進行特征向量選擇,最后使用LDA算法進行主題提取。
從LDA主題分析處理后的結果可以看出,參賽者對此次賽事的不滿之處主要在于賽道設計不合理,補給不足等方面,并希望賽事的舉辦者在下次舉辦時能夠進行調整。
結 語
隨著大數據時代的帶來,合理運用LDA主題分析對網上有關體育賽事的觀點和主題進行挖掘,有利于了解某項賽事在人群中普遍形象,方便體育賽事組織管理者及時發現賽事的長處和不足,調整相應的組織及營銷策略。
【參考文獻】
[1] 錢儲. 大學生網絡輿情現狀分析及對策研究[J]. 綠色科技, 2016(15):255-256.
[2] 趙叢聰. 網絡輿論的功能和調控[J]. 視聽, 2013(2):41-42.
作者簡介:孫恩澤(1994-),男,漢族,河南平頂山人,研究生,現就讀于上海體育學院經濟管理學院,研究方向:體育管理。