耿曉龍(天津理工大學計算機與通信工程學院,天津,300384)
?
高校網絡輿情分析系統的探究
耿曉龍
(天津理工大學計算機與通信工程學院,天津,300384)
摘要:隨著網絡技術在高校的迅速普及和發展,大學生的學習生活越來越依賴于互聯網,由于大學生常常對網絡虛擬社區中的 “焦點”、“熱點”問題發表一些具有明顯負面性的意見或者言論,導致負面的信息在互聯網上迅速傳播,而這些負面的高校網絡輿情如果不加以適當控制可能會對學校甚至社會帶來消極的影響。本文致力于高校網絡輿情分析系統的研究,力求尋找有效途經,探索新方法,開拓新思路,為加強高校網絡輿情監管體制的實效性提供有益的幫助。
關鍵詞:大學生;熱點;高校;網絡輿情 在輸入框中鍵入任意關鍵字,例如“天津理工大學”,便可持續監控微博、微信、校園BBS、論壇貼吧中此關鍵詞的輿情狀況。同時,可以立即得到該“天津理工大學”關鍵詞的相關信息,并會及時反饋詳細分析結果以及每天宏觀環形圖(如下圖)。
隨著網絡媒體、手機媒體、微博、微信等的興起,新媒體的發展正在改變著媒體生態,輿論引導實踐與研究日趨重要。中國互聯網絡信息中心(CNNIC)的《第37 次中國互聯網絡發展狀況統計報告》指出,截至2015年12月底,中國網民規模達6.88億,互聯網普及率達到50.3%,半數中國人已接入互聯網。手機網民規模達到4.82億,學生群體的互聯網普及率已經達到25.53%,遠高于其他群體。
隨著微博、微信等新型網絡社區的興起,高校學生網絡輿情呈現出許多新特點。不少網絡謠言、虛假新聞借助新媒體得到快速擴散,勢必會影響高校學生的價值觀、思想及其行為,從而造成學生思想上的迷茫、心理上的沖突甚至行動上的魯莽。因此輿情分析在思政管理中發揮著極其重要的作用,越來越多的高校已經意識到輿情分析的重要性。但中文語法錯綜復雜,歧義、斷句、一詞多義等問題都是輿情分析過程中面臨的難點,這導致了輿情分析發展困難。
由此,基于語法分析的輿情分析系統應運而出。與機器學習不同,語法分析是將漢語從語法角度進行解析,語法分析主要是從語義的角度將句子“讀懂”,而機器學習僅是通過計算向量,找到歸屬于自己那一類的“訓練模型”。語法分析可以真正意義上讀懂漢語,讀懂多義詞,分析同義詞,甚至是有歧義的句子。
近幾年來,最大熵模型在自然語言處理領域中,被譽為最好的機器學習算法之一。從理解什么是“熵”開始來理解“最大熵模型”?!办亍弊畛跤晌锢韺W家克勞修斯提出,在熱力學中,體系的熱力總是自發的趨于溫度均勻分布,這個過程是不可逆的;墨水滴入水中,也會自發趨于自由擴散,這個過程也是不可逆的,這些過程可以看作微觀世界中的無數大量微觀粒子,“熵”便是描述這些微觀粒子的位置、速度、狀態的函數,當溫度均勻分布、墨水均勻擴散后,熵值趨于最大。因此熵值越高表明無序性越強。
“最大熵模型”,也就是熵增原理,推崇在無外物作用下,熵值總是趨向于增大,即事物總是朝著混亂狀態發展。因此熵值最大便是事物最真實的狀態,對信息的研究來說,熵值最大的情況下,對信息的判斷最為準確,因此用“最大熵”對一個信息做評價。
使用最大熵分析語義,需要預先準備一套訓練集,程序經過N次迭代后,就可以根據之前通過迭代學習的語法關系,判斷新輸入的語句了,但是由于訓練集是一個封閉的測試集,所以要是放在開放的網絡中進行測試,效果就會差很多。
本文通過此方法進行了一系列測試,準確率只有60%~70%,可能原因如下:
(1)選取特征太注重詞語,語料庫無法覆蓋所有詞語的搭配情況;
(2)依存關系過多,導致識別難度過大;
(3)最大熵模型不是在線學習模型,無法根據語法關系確定其他詞的詞性。
國內許多處理自然語言的機構都采用最大熵的方式,如果擁有大數據入口,每天使用海量數據作為訓練模型,是可以達到高效分析的,但大數據入口掌握在少數互聯網龍頭公司,研究機構想要獲取信息只有通過網絡爬蟲進行抓取,獲取的消息質量與數量都得不到保證。
此外,K最近鄰域也是一種重要自然語言處理手段,該方法主要是將信息源向量化,把樣本劃分到k個聚類中,相似的度量方法有歐氏距離、夾角余弦或者考斯基距離等。在實際應用中,k值選擇變得尤其重要,由于當k選取過小的時候,近鄰數量太少,失去了分類的精度;當k選取過大的時候,近鄰數量太多,很多與信息并不相關的文本也被包含進來,使得分類結果并不準確。
K最近鄰域也有著其劣勢的一面。
(1)實時性效果不好,當訓練文檔集很大時,計算開銷很大,而且隨著訓練集的增加,分類過程會越發緩慢,常用辦法是減少訓練集規模,但這樣又會導致分類結果不準確。還有一種辦法是改進算法,減少相似計算的復雜度,這種方法雖然可以提高效率,降低k最近鄰域搜索計算的開銷,但無法保證結果是全局最優,當樣本集非常大的時候,很容易出現以偏概全的現象。
(2)有一種快速文本分類方法,可以借助數據庫檢索引擎的多維索引快速返回結果,但這樣會增加訓練過程,提高了訓練復雜度,但也不失為一種解決辦法。
本文研究的網絡輿情分析系統,主要特點是監控功能。用戶可以對任意關鍵字進行監控,如下圖所示。


實現過程使用百度提供的rss(簡易信息聚合)抓取api(應用程序編程接口)實現,該rss會提供相關關鍵詞在整個互聯網中的最新信息。由于百度提供的rss采用gb2312編碼,程序采用gogb2312包分析,并采用rss2.0協議抓取rss信息入庫,使用本文中介紹的語法分析技術對提取的數據進行分析,并繪制成表格。
從2016.1.5至2016.1.12,每天抓取1000條輿情數據分析,對輿情判斷與監控結果進行人工審核,得出語法分析準確度折線圖,如下圖所示。

從圖中可以看出,7天內最高準確率達90%,最低準確率達65%,平均準確率為78%。由于分析詞庫的準確率影響著語法分析效果,而目前分析詞庫還在完善中,對部分詞語的理解還不準確,因此語法分析還有很大的提升空間。
同時,還需關注新詞匯的出現,特別是網絡流行詞、流行句。從最近的流行詞,例如“點贊”、“活久見”、“壁咚”等詞的出現頻率來看,一星期最多出現1至2個流行的網絡詞匯,所以并不會給語法分析詞庫的完善帶來太大的負擔。
本系統根據語境分析詞語在句中的詞性,來確定詞語的極性,從而統計出整個句子的極性,特別是在語法復雜的語句中,有著比機器學習更好的表現。由此可見本文開發的語法分析算法,是一種非常良好的語義分析解決方案,尤其在解決微博、微信等新聞消息時準確率比機器學習高很多。
本文通過對高校網絡輿情監控重要性的分析及輿情分析方法的對比,自主設計了一款監控軟件,此軟件使用語法分析的自然語言處理技術。通過解析漢語語法,根據預訂確定詞語的詞性,從而提高對詞語詞性分析的準度。通過此系統可以有效的監控高校網絡輿情事件,從而阻止一些可能對高校聲譽、品牌造成嚴重的負面效應的輿情擴散,最終實現把高校網絡輿情風險降至最低。
參考文獻
[1]劉燕,劉穎.高校網絡輿情的特點及管理對策[J].思想教育研究,2009,(4):46-48
[2]王蘭成, 徐震. 基于本體的主題網絡輿情知識模型構建研究[J].信息工程大學學報, 2012, 13(2):229-234. DOI:10.3969/j.issn.1671-0673.2012.02.019.
[3]蘭月新,曾潤喜.突發事件網絡輿情傳播規律與預警階段研究[J].情報雜志, 2013, 32(5):16-19. DOI:10.3969/ j.issn.1002-1965.2013.05.004.
耿曉龍(1984-),男,河北衡水人,天津理工大學計算機與通信工程學院,講師,研究方向:思政管理。
The research of university network public opinion analysis system
Geng Xiaolong
(Tianjin University of Technology School of computer and communication engineering,Tianjin,300384)
Abstract:Along with the network technology in the rapid popularization and development of,and of the students' learning life increasingly dependent on to the Internet,because students often on network virtual community in the "focus", "hot spots" problem:some has obvious negative opinions or comments,resulting in negative information on the Internet quickly spread,and the negative of the network public opinion if not properly control may bring negative influence to the school and social.This paper is devoted to the study of network public opinion analysis system in Colleges and universities,in order to find effective ways to explore new methods,to explore new ideas,to enhance the effectiveness of network public opinion supervision system in Colleges and universities to provide useful help.
Keywords:college students;hot spots;colleges and universities;network public opinion
作者簡介