高慧



摘要:由于網絡輿情多維動態實際分類中,分類結果與實際情況存在一定誤差,比值比(odds ratio,OR值)較小,為此提出基于大數據的網絡輿情多維動態分類研究。通過對網絡輿情概念、網絡輿情特點等進行分析,構建網絡輿情多維動態分類指標體系、基于大數據的事件類型多維度指標聚類分析、網絡輿情數據分類判別,提出一種全新的分類方法。通過對比實驗證明,該分類方法OR值明顯增加,說明網絡輿情多維動態分類結果與實際情況更接近,分類更加精確。
關鍵詞:大數據;網絡輿情;多維;動態分類
中圖分類號:D523? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)14-0015-03
當前網絡技術的快速發展,使得網絡環境逐漸開放,隨著網民數量的快速增加,產生了一系列由于網民廣泛參與和傳播造成的重大社會影響事件發生[1]。一旦突發事件上傳到網絡當中,極易引發網民的輿論熱潮。網絡媒體是自報紙、廣播、電視之后出現的第四媒體。網絡已經成為反映人類社會輿情的主要載體[2]。只有在充分把握好事件發生時的本體特性和引發輿論特征之間的關系,才能夠在輿論發生及其后續產生的輿情波動方向進行更精準的分析。因此,對于網絡輿情的準確識別和分類,可以有助于為網絡恐怖主義的預防和控制提供實踐指導。基于此,本文結合大數據技術,開展對網絡輿情多維動態分類研究。
1 網絡輿情分析
1.1 網絡輿情概念
網絡輿情可以看作是,在各類事件發生后,通過互聯網形式的傳播,使得群眾對此次事件的所有認知、態度等言論的集合[3]。在網絡輿情爆發的初級階段,由于發布言論者的身份在網絡中是隱蔽的,因此網絡平臺在發帖的過程中缺乏對內容的合理監督,網絡平臺成為網民發泄情緒、溝通交流的空間環境[4]。在現實生活當中,人們可以通過網絡與他人進行溝通和交流,因此在網絡環境中,極易出現各類不同的言論內容。這些信息會在網民集聚的互聯網絡中得到迅速地傳播,從而使新的網民在群體效應下,加入傳播輿情的隊伍當中,從而使輿情的影響范圍進一步擴大,不僅在極大程度上影響著社會平穩發展的秩序,同時還會增加網絡管理部門對網絡輿情處理難度。
1.2 網絡輿情特點
結合可視化分析軟件,將網絡中進行傳播的關鍵詞匯,屏蔽詞頻為10以下的內容,得到如圖1所示的網絡輿論關鍵詞可視化圖譜示意圖。
當前網絡輿情的特點可從圖1中六個角度分析。圖中A區域主要從信息學的角度對網絡輿情當前發展過程中的潛伏期、擴散期和消退期進行分析;圖中B區域從新聞傳播學角度,對網絡輿情的特征度進行打分并分析;C區域是從心理學角度出發;D區域是從政治學角度分析;E區域是從社會學角度出發;F區域是從計算機角度出發。通過六種不同角度,得出網絡輿論具備多元性、自由性、交互性、偏差性和突發性等特點[5-6]。
2 基于大數據的網絡輿情多維動態分類方法
2.1 構建網絡輿情多維動態分類指標體系
本文根據網絡輿情的自身特點以及具體變化規律,遵循公正性的原則,從事件發生類型和輿情特征兩個維度上,確定網絡輿情多維動態分類指標[7]。結合k-means聚類分析軟件,將事件發生類型分為以下三種:常態特征指標中包含的不同主體其行為準則與社會容忍度均不相同;事件客體是具有一定知名度或一定社會地位的人群,在社會當中具備更高的關注度;異常特征是在常態特征的基礎上,與同類型事件相比具備的特征點;網絡信息特征主要用于描述網絡輿情在爆發時所處的環境特征。
將輿情特征分為以下兩種:信息敘述形式特征主要用于描述網絡輿情的質量指標;信息傳播方式特征主要用于衡量網絡輿情在傳播過程中的具體規模和爆發速度。
2.2 基于大數據的事件類型多維度指標聚類分析
將上述各項指標量化作為觀測值,并進行聚類分析得到聚類統計量。假設當前共有x個網絡輿情案例,結合大數據技術,采用SPSS2.0版進行聚類計算。首先,將所有涉及的x個網絡輿情案例分析出其對應的特征值[8]。其次,每項特征值分別進行量化,利用k-means對所有網絡輿情案例進程列表進行合并,最終以譜系圖形式輸出。將各個指標按照不同的特征值進行分類,對事件類型多維度指標聚類可利用如下公式表達:
[δ(l)=p(l)p(m+χn)/p(a)]? ? ? ? ? ? ? ? ? (1)
公式(1)中,[δ(l)]為多維度指標相度,l的取值范圍為l=1,2,3,...,x ;[p(a)]為多維度指標的聚類系數;[p(l)]為網絡輿情中待分類的多維度指標個數;[p(m+χn)]為相關指標個數。解讀輸出結果,合并相關性大的屬性,根據特征值確定譜系圖的分類距離,得到最終的分類方案[9]。
2.3 網絡輿情數據分類判別
在完成對事件類型多維度指標聚類分析后,還需要將所有網絡輿情案例的事件類型特征進行量化處理,并以每個案例具備的不同屬性作為觀測數值判別分析的統計量。具體操作步驟為:首先,對特征值進行量化處理,并將量化結果存儲在案例庫當中。其次,將案例庫當中的案例按照上述聚類方式進行分類,對分類結果依次按照A、B、C、D等命名,將實施案例的組別設置為“3”,即3組為空白變量組,采用分析—計算—判別的方式,將其他分組變量的組別分別送入相應位置,并點擊定義范圍,填入從1到最大的分組數[10]。再次,將變量全部放入到獨立分組框當中,將實施案例的特征值選入選擇變量,并單擊分類。利用網絡輿情案例及數據處理摘要表,查看有效處理的案例內容;利用特征值表,查看描述分類方案中具體指標的判別力;利用判別系數表,查看用于分析的判別系數;利用分類圖,查看描述聚類結果。
3 實驗驗證分析
3.1 實驗條件
實驗隨機選取中華網輿情案例庫中的10個輿情案例為實驗對象,利用此次設計方法與傳統方法對該10個輿情案例進行多維動態分類。首先根據表一對各個輿情的主體、客體、時間類型進行劃分;然后對輿情的多項指標進行聚類分析,設置輿情案例特征值,將特征值輸入到spss,并利用公式(1)計算多維指標相度,表1為輿情案例特征值及多維指標相度值。
根據表1內容為各個輿情案例數據判別分析,得到最終的分析結果。比較分析結果與實際值,利用GJIF軟件計算出OR值,OR值大于1,則說明分析結果與實際情況相符,OR值小于1,則說明分析結果與實際情況不符。將OR值作為實驗結果,對兩種分析方法對比。
3.2 實驗結果解讀
實驗根據OR值結算結果,對兩種方法進行對比,實驗結果如表2所示。
從上表可以看出,此次設計方法OR值均大于1,平均值為1.624,而傳統方法OR值平均值為0.681,十個網絡輿情多維動態分析,僅有兩個案例分析結果與實際相符,因此實驗證明了此次設計的基于大數據的網絡輿情多維動態分析在準確性方面優于傳統方法。
4 結束語
本文結合大數據技術,設計了一套新的網絡輿情多維動態分類方法,并通過實驗驗證了該分類方法具有良好的可行性和適用性,有助于實現復雜的網絡輿情問題數字化,為網絡輿情分析提供有利數據依據。但是此次研究尚且存在一些不足之處,從網絡輿情發展的潛伏規律來看,建立的指標體系不夠全面,在該方面還有待完善。
參考文獻:
[1] 張京坤,王怡怡.基于Spark的均值漂移算法在網絡輿情聚類中的應用[J].軟件導刊,2020,19(9):190-195.
[2] 王晰巍,邢云菲,韋雅楠,等.大數據驅動的社交網絡輿情用戶情感主題分類模型構建研究——以“移民”主題為例[J].信息資源管理學報,2020,10(1):29-38,48.
[3] 胡欣杰,路川,齊斌.基于SOM神經網絡的網絡輿情信息分類模型[J].兵器裝備工程學報,2019,40(3):108-111.
[4] 賈隆嘉,張邦佐.高校網絡輿情安全中主題分類方法研究——以新浪微博數據為例[J].數據分析與知識發現,2018,2(7):55-62.
[5] 杜少波.基于Hadoop平臺的并行kNN網絡輿情分類算法[J].電視技術,2018,42(3):58-62.
[6] 穆亭鈺.媒介融合與網絡輿情的多維生成——基于“視覺中國”事件的樣本考察[J].視聽,2020(6):185-187.
[7] 夏立新,陳健瑤,余華娟.基于事理圖譜的多維特征網絡輿情事件可視化摘要生成研究[J].情報理論與實踐,2020,43(10):157-164.
[8] 陳思詩.新冠肺炎疫情公共危機事件網絡輿情治理的多維審視[J].西部學刊,2020(9):131-133.
[9] 畢宏音.網絡輿情的基本共識及其動態規律再認識:多維視角考察[J].重慶社會科學,2019(1):6-16.
[10] 連芷萱,蘭月新,夏一雪,等.面向大數據的網絡輿情多維動態分類與預測模型研究[J].情報雜志,2018,37(5):123-133,140.
【通聯編輯:張薇】