秦 洋,鄭楠昱
(佛山科學技術學院,廣東 佛山 528051)
2021年2月3 日,中國互聯網絡信息中心公布的《第47次中國互聯網絡發展狀況統計報告》顯示,截至2020年12月,我國網民規模達9.89億,較2020年3月增長8 540萬,互聯網普及率達70.4%[1]。網絡是信息傳播的載體,而在這個信息高度發達的時代,輿情已經變成了汪洋大海。網絡輿情在這種環境下的輿論導向作用異常明顯。在當前的網絡環境下準確、及時地對網絡輿情的發展動態進行監控、預測和控制變得尤為重要。
2013年8月19 日,習近平總書記在全國宣傳思想工作會議上提出,在當今社會關系重構的社交媒體時代,要建構我國科學有效的社會輿情管理體系,必須正視輿論生態新變化,樹立大數據觀念,善用大數據技術預測和引導社會輿論。本系統基于大數據,運用人工智能、深度學習、多元統計等技術,對熱點話題數據進行分析,針對熱點話題的熱度和情感傾向進行展示,使用戶精準、及時地把握和預測輿情的走向。
本系統主要針對當下熱點話題的輿情進行分析。實事熱搜,熱點輿論,往往是都是輿論的戰場。網絡的多途徑又大大降低了人們發言成本,人們踴躍地在各大平臺發言。知乎、微博都有熱點話題的欄目,人們在熱點話題的輿論中,影響著輿論的同時也被輿論影響。
我國網民數量眾多,通過網絡的載體,每一個熱點話題在不同平臺都能產生大量的數據。單純的人工采集、抽樣調查等方式已經滿足不了需求。本系統利用分布式爬蟲技術從多個平臺的多個相關話題點獲取大量的輿情數據。因為需要海量數據,全面宏觀把控輿情為數據的質量提供了保障。
本系統將結果進行可視化,最終將輿情分析結果呈現出來。有助于公安、監管、權力等部門,進行實時監控,把握輿論的走向,對輿論做出相應的引導,防止公共事件的發生。有助于協助企業的輿情監測,為公關處理提供決策依據,避免輿情持續發酵損害企業利益[2]。
本系統輿情熱度主要集中于時事熱點、頭條話題。本系統從微博、百度貼吧、今日頭條等多個網絡社交媒體平臺進行話題提取,通過各大平臺的話題熱度排序,如微博的頭條排序等等,按照時間梯度進行熱度分析,以多平臺、多層次、多角度等方式對同一熱點話題進行多維分析,從而形成一定程度上的客觀熱度數據,便于本系統的輿情檢索及輿情分析。
本系統對于熱點話題的輿情走向的情感分析和精準把控,主要通過褒貶傾向性分析技術來發現輿論走向,以輿情事件的擴散路徑、輿情不同時間節點的傳播趨勢變化和評估報道在社交媒體的擴散情況等進行分析研判,同時也從傳播焦點、輿論熱議的焦點、媒體聚焦點、輿論關注矛盾焦點等方面進行深層次解讀,主要形成熱點話題情感傾向的積極與消極的二者偏差,實時把握輿情話題的情感傾向和輿情走向,便于對輿論傾向進行實時監控和有效引導。
本系統主要以實時動態的形式進行輿情監測,能夠根據用戶的需求,靈活高效地進行用戶個性化配置,通過系統提供定性定量的輿情分析數據,準確研判具體輿情或者某一輿情專題的發展變化趨勢,從而自動生成輿情報告和各種統計報表,提高輿情管理的質量和效率,輔助用戶掌握輿情動態,及時進行有效決策,并提供分析依據。
數據的來源既是輿情分析的數據基礎,也是把握輿情的質量保證。針對各大網絡平臺的主要對象可能有著年齡段、興趣領域等不同的特點,本系統采用分布式的爬蟲技術,針對同一相關熱點話題,對不同的網絡輿情平臺進行相關數據爬取。相關數據涉及話題點贊評論數、參與人數、評論內容、評論時間等。利用HDFS分布式存儲系統對其進行存儲。再利用數據清洗相關技術排除諸如“水軍評論”、無效評論等噪音的干擾。
自然語言處理技術是輿情分析當中最為主要的技術手段。本系統結合百度AI輿情分析技術與深度學習LTSM+Attention模型對話題的評論進行情感傾向分析。主要利用了百度AI情感傾向分析技術,調用其API,可直接對話題評論進行大規模打分。
由于自然語言處理技術對于應用場景較為敏感,所以面對熱點話題的多樣性以及實時性,單純利用百度AI情感傾向分析API就沒有很高的適應性。針對此問題,可采用深度學習LTSM+Attention模型,針對熱點話題涉及的場景領域進行訓練,具有較強的泛化能力。但因其訓練成本較大,所以將其作為百度AI分析結果后的熱點話題輿情結果的修正。
本系統的輿情評分系統主要展示了熱度和情感傾向兩個方面。熱度分析的主要屬性集中在點贊評論數和評論的時間屬性上。運用貝葉斯平均法和牛頓冷卻定律的結合方法對話題的熱度進行評估,并對熱點話題的熱點詞條進行提取。
通過自然語言情感分析技術,可以得到不同網絡平臺的多個相關話題點的多條情感分析結果。再將海量的情感分析結果進行綜合。本系統利用威爾遜區間法從單條情感分析結果維度、不同話題點維度、不同網絡輿情平臺維度3個維度進行評分計算,得到單個熱點話題的初始總分。為避免不可靠評分導致評分結果之間差異過大,可以采用貝葉斯平均法對3個不同維度以及不同的熱點話題進行評分修正,得到熱點話題的最終情感傾向得分。
輿情分析肩負著實時監控,及時把控的使命。所以,及時為用戶提供可視化較好的輿情分析結果至關重要。本系統采用Django框架,前端結合Echarts制圖工作,對后臺所提供的實時輿情分析結果進行Web端的可視化呈現[3]。動態地、多角度地展示輿情分析的相關結果,如熱點話題詞云圖、熱點話題情感變化曲線、熱點話題分布散點圖等,很好地起到了輿情可視化監測的作用。
該系統能夠快速有效的區分出網絡中的各個熱點話題的輿情情況,通過數據可視化的手段,將此類數據更加直觀地展示給決策者,從而對輿情風向進行一個判別。輿情分析為決策者提供及時、準確、客觀、全面的輿情信息,讓決策者弄清或測驗信息中本質性的事實和趨勢,協助決策者做出決策。
未來,隨著我國的物質水平不斷發展,人們的思想也會越來越開放。那時人們對于輿情態勢了解的需求更高,而企業、國家對于輿情的重視也將會越來越高。隨著相關技術的不斷發展與深入,輿情分析技術也在更多的領域大展拳腳,展現出更為強大的活力。