




摘要:【目的】為提高報業集團輿情相關工作的準確度和效率,文章研究熱度分析技術在吹哨系統中的實際應用效果。【方法】提出熱度及關聯度計算,通過熱度話題計算、關鍵詞的關聯相關度分析及關聯熱度計算,最后完成事件熱度預測。【結果】通過熱度分析技術實際應用,滿足日常工作中的熱點話題捕捉和及時跟蹤,對輿情管理具有重要實施。【結論】通過本研究證明了吹哨系統中所使用的熱度計算和關聯熱度計算等方法,極大地提高了吹哨系統的精確性,使用戶可以從海量新聞信息中高效、智能地獲得受關注、感興趣、有價值的目標新聞信息,從而更加有力地支撐輿情監測、新聞追蹤、新聞生產等業務工作。
關鍵詞:輿情;吹哨系統;熱度;關聯熱度;相關度" " " " " " "中圖分類號:P413" " " " " " " 文獻標識碼:A
文章編號:1671-0134(2023)05-134-05" " " " "DOI:10.19483/j.cnki.11-4653/n.2023.05.031
本文著錄格式:鄭創偉,謝志成,陳少彬,邢谷濤,陳義飛.熱度分析技術在輿情吹哨系統中的應用[J].中國傳媒科技,2023(05):134-138.
導語
輿情熱點事件是當下互聯網時代不可避免的事物之一,輿情熱點事件發生后,民眾往往會迅速對其熱切關注,并且在此過程中民眾會持續發表對該事件的觀點、態度或表達一定的情緒。[1]這類網絡輿情熱點事件從開始到發生一段時間后,最終往往會形成一個聚焦點,代表了網民的核心情緒和利益訴求。
在當前數據爆炸的時代,如何結合新聞信息的海量歷史數據,為編輯、記者等新聞媒體從業者提供快速、精準、“千人千面”的個性化新聞線索推薦和智能吹哨預警支持,增強輿情態勢感知能力和新聞洞察力,有效提升辦公效率和新聞創造能力,是當前需要解決的問題。[2]為解決這一問題,利用熱度分析技術可以從海量新聞信息中高效、智能地獲得受關注、感興趣、有價值的目標新聞信息,從而更加有力地支撐輿情監測、新聞追蹤、新聞生產等業務工作。
1.熱度分析技術相關研究
通過對熱度分析相關文獻整理,發現網絡輿情熱度分析可以從兩個角度來進行。第一是從用戶角度出發,分析用戶在論壇、微博等平臺上發布的話題情況,話題是由用戶對事件進行描述所產生的,熱點話題和普通話題的主要區別在于用戶使用多少信息量來對其進行描述、消耗了多少網絡資源,以及話題持續討論的時間等。第二是從媒體角度出發,分析新浪、搜狐等新聞網站對熱點事件轉發、排名等情況。一個話題的出現與傳播,是經過大眾廣泛討論并且媒體進行報道和轉載之后產生的,其中是否能成為熱點話題,往往會根據報道數量及頻率來進行衡量。[3]
近年來對網絡輿情分析的研究已經逐步深入到了普通學者的實驗課題探討中。課題一般聚焦于在微博、微信、論壇等社交網絡或應用中,這些社交場景中存在大量的活躍用戶,一旦有熱點話題出現,其傳播速度會以指數級增長。熱點網絡輿情主要是依托網絡進行傳播,一個輿情事件被大眾關注、評論、傳播,從而引起更廣泛的社會關注。在熱度分析方面,國內研究者運用影響力傳播模型描述熱點事件,這種模型通過對關鍵詞傳播次數進行計數,數值大則代表影響力高,反之代表影響力較低。影響力傳播模型可以用于評判社交網絡中不同使用者之間所產生的交互程度。同時,通過分析話題的相關消息,以及轉載次數等來評判其是否屬于熱點話題,利用用戶關注度來構建影響力傳播模型,通過關鍵詞的傳播次數反映某個事件影響力的大小。另外還有學者提出通過時間單元檢測發現熱點話題,即將某一話題限定在單元時間內,然后根據其特征分布情況來確定特征單元,再對其進行重組,最后生成熱度話題,以及進一步確定出該熱度話題所發生的時間段,達到更加精準預測的目的。[4]
本研究的熱度分析技術主要是針對網絡大眾感興趣的話題進行研究,使算力能聚焦于用戶關注的話題,避免資源浪費。通過計算話題的熱度,可以對不同話題的影響力進行排序,使得在吹哨系統中能夠對排名靠前的話題進行預警。從而根據預警信息提前做出相應準備,尤其是當遇到極端情緒等,可以對其進行正確引導,避免話題對其他民眾產生二次負面影響,成為社會不穩定因素。針對不同話題影響力,吹哨系統還可以采取不同級別進行處理,更加精準地開展引導工作,提高輿情分析的有效性。
2.熱度及關聯熱度計算
2.1" "熱度計算
在本吹哨系統中,要實現從熱點話題的發現及預測,兩者對媒體行業都至關重要。而現有的研究成果大多使用的方法是進行熱度計算,再結合以往經驗數據來進行驗證,判斷其是否具有有效性。這種方式往往具有一定滯后性,無法在一個話題剛出現的時候就能有效預測其發展趨勢,無法有效幫助政府部門及時、精準地調控輿論方向,也無法根據設定的監測規則來持續跟蹤監測話題。因此,本研究采用Z算法對文章熱度、敏感度等進行分析和歸類,并將分析和歸類結果保存,以便能夠及時發現熱點話題。[5]具體過程如下。
首先,將語義分解后的新聞輿情數據,即詞語化的數據,進行二元分布統計,統計各詞語出現的次數,得出二元分布統計結果。
接著,將二元分布統計結果利用標準分數Z-Score算法進行計算,得到各詞語的熱點值。公式如下:
其中,公式中X為詞項出現次數;為詞項出現次數平均數;S為標準差;結果Z是以標準差為單位的離均差,用以表示詞語的熱點值。[6]
將熱點值大于預設的熱點上限閾值的值存入熱點詞庫中的熱點活躍詞庫,將熱點值小于預設的熱點下限閾值的值存入熱點詞庫中的熱點惰性詞庫;熱點詞庫與領域詞庫相關聯,領域詞庫包括新聞、博客、論壇、社交網站等領域;每個熱點詞庫中的熱點詞來源于哪些領域都可以進行對應查詢。
再根據詞語熱點值和預設的熱點詞庫判定詞語化數據中的熱點詞的共現閾值。
根據新聞輿情數據中出現的詞項,通過如下公式計算熱點活躍詞的共現閾值P1:
其中Wx為新聞詞項集合,Wh為熱點活躍詞集合。再通過如下公式計算熱點惰性詞的共現閾值P2:
其中Wx為新聞詞項集合,Wc為熱點惰性詞集合。然后,根據熱點活躍詞和熱點惰性詞的共現閾值P1和P2,進行線性加權計算,得到熱度值。熱度值的計算公式如下:
其中Zi為第i個詞語的熱點值,P1為熱點活躍詞共現閾值,P2為熱點惰性詞共現閾值。然后,根據熱度值對新聞輿情數據進行熱度判定,對熱點值根據預設的熱度等級評判標準進行等級判定;將符合熱度等級評判標準的新聞輿情數據歸檔至熱點文檔,將不符合熱度等級評判標準的新聞輿情數據歸檔至非熱點文檔。[7]
在敏感度分析上,將熱點活躍詞庫與預設的敏感詞庫進行比對得到熱點活躍詞庫中包含的敏感詞數量,再通過下述公式計算敏感值作為新聞敏感度S:
其中Ws為包含敏感詞數量,Wn為領域詞庫中新聞中的熱點活躍詞數量。
2.2" "關聯相關度分析
輿情預測就是需要對話題未來的趨勢做出判斷,一般來說相關話題的熱度值越高則話題成為熱點的概率也越大,也就是說所需要預測的話題成為熱點的概率與其相關話題熱度或數量成一定的關聯關系。話題間的關聯關系分析主要包含了對時間、地點、人物及行為等不同類型的詞特征之間的關聯度計算,以及對其進行加權。[8]
2.2.1" "時間相關度計算
話題的時間相關度主要是指兩個話題發生的時間差是否在一個指定的范圍內。需要計算時間的間隔并以之判定相關度,如果在范圍內,則認為兩個話題在時間上是關聯的,且時間間隔越短,則關聯性越強,公示如下。其中,time(T1)代表某一個話題的時間,Ti和Tj則代表分別需要預測相關度的兩個話題。如果需要分析話題出現的先后順序,則將time(Ti)按照時間順序進行排列即可。
2.2.2" "地點相關度計算
在話題中的地點名稱等信息是計算該相關度的主要依據,用主要地點間的距離來計算該相關度值。因此需要構造一個地點相關的名詞集合,具體到城市的區級或農村的鄉級,并且要對應更高行政區域建立一個層次樹。如果預測的話題所屬地域之間,距離在一定的范圍內,則可以認為其是相互關聯的,關聯強度則可以根據間隔距離計算,距離越近則說明關聯程度越高。公式如下,其中locate(T1)表示話題發生的主要地點,其與locate(T2)之差則表示兩個話題發生地點在層次樹上的路徑長度。
2.2.3" "人物相關度計算
人物相關度主要是指被預測話題所涉及的人物或機構是否相互之間關注或有其他關系,如果存在好友或其他關系,則認為這兩個話題在人物上是關聯的。但往往在實際應用中,微博或微信好友關系是無法取得的,因此可以利用話題中的人名進行計算,例如通過人名重復的數量來進行計算。公式如下,其中people(T1)為某一話題中涉及人物名稱等的集合,Ti和Tj則代表兩個需要預測的話題。
2.2.4" "行為相關度計算
行為相關度主要是收集話題行為的特征詞來進行計算,如果涉及的行為相同或相近,則認為其是相關的。公式如下,其中A1和A2代表兩個話題中行為特征詞的集合,maxsim(w,Ai)則為詞語語義的相似度,IDF(w)是根據預料庫中詞信息量統計得到。
2.3" "關聯熱度計算
針對輿情熱度的計算與預測研究當前在學術界已經取得了一定的成果,但大部分算法主要是針對數據進行分析,沒有對網絡輿情本身的特點進行數據分析,尤其是忽視了網絡信息之間的互聯性。因此本研究在基于熱度計算的基礎上,結合了關聯分析的思想,綜合考慮時間、地點、人物、行為的相關性,對不同屬性的相關關系進行挖掘,構建具有關聯關系的輿情熱度預測模型,通過分析相關事件或信息的關系,對熱度建立相應的回歸模型,使得熱度值更加貼近實際情況。
關聯熱度計算主要就是根據話題熱度按時間對其進行分片,再根據命名實體對其進行識別,例如通過時間信息計算出時間相關度、通過地點信息計算出地點相關度、通過人物信息計算出人物相關度、通過行為數據計算出行為相關度,最后建立相關關系連接圖。[9]
在本吹哨系統中,建立新聞話題間的關系圖,再計算出熱度值,并將其設置為初始權重值,用于某一時間段內的關聯熱度計算。熱度計算完成后,再利用相關度算法來對話題熱度的變化趨勢進行預測和分析,實現吹哨系統預警。
2.3.1" "建立話題間關系
設定A=lt;V,Egt;為的關系圖,如圖1所示,其中為給定話題,集合為檢索到的與相關的話題集合,是邊的集合,值為話題間的相關程度,當且僅當兩個頂點間關聯度不小于閾值時,邊存在。
建立關系連接圖后,下一步將圖轉化為矩陣形式,矩陣中的行、列表示聯系圖中的點,矩陣中的值表示關系圖中點間的度。如以下圖2所示,其中Rij是節點i和節點j間的相關程度,相關度小于閾值的即不存在邊ij則值為0。
2.3.2" "相關話題關聯重要度計算
定義變換矩陣M,公式如下:
其中,d為阻尼系數,范圍介于0至1之間。該矩陣主要作用在于衡量每個點對待預測點的影響力。矩陣M具有唯一穩定分布。該模型的矩陣表示為:
得到的h值則可以用于表示話題在關系圖中的重要程度。
2.3.3" "熱度預測
在吹哨系統中,需要對具有少量當前信息的輿情短期熱度趨勢進行預測,判斷該話題是否會成為熱點話題,本研究采用灰度預測方法來進行趨勢預測。通常使用GM(1,1)模型來對話題熱度進行預測,計算過程如下[10]:
a.輸入初始序列;
b.對初始序列進行一次累加生成,
;
c.生成X1的緊鄰均值序列
d.即GM(1,1)的灰微分方程模型為
式中a為發展系數,b為灰色作用量。設為待估參數向量,即,則灰微分方程的最小二乘估計參數列滿足
其中,
e.求得微分方程得解為
f.還原到原始數據,得到
得到熱度趨勢預測區間,結束。
2.4" "熱度預測
在筆者實際工作中主要用到的方法是基于事件關聯的方法對輿情趨勢進行預測,并判斷其是否成為熱點話題。這種模型主要是基于假設“事件是相互關聯且相互影響的”,事件與事件之間存在著一定的聯系,并且可能會相互影響或約束,其算法框架如圖3所示[11]:
能夠看出其具體流程主要包括[12]:
(1)檢索出近段時間內與待預測話題相關的事件,在設置檢索詞時需注意特征詞的選取。
(2)對集團本地數據庫進行檢索,與互聯網上的檢索進行比對,并分析話題間的相互關系,獲得與輿情事件有關的文字信息數據。但在數據收集后需要對數據信息進行去噪等處理,保證一定的準確性。
(3)對整理出的文本信息采用聚類算法分析,提取出其可能包含的話題數量。
(4)對文本數據進行時間排序,按照實際需求來設定時間段,在每一個時間段根據事件發生的時間、人物、地點、行為等,計算出話題間的相關度,從而得到所有話題的關系,即關系連接圖。
(5)分析不同話題的重要程度,并且預測關聯熱度,最終計算出該話題或信息成為熱點的可能性。
3.實驗結果及分析
3.1" "實驗設計
本吹哨系統在對輿情熱度進行預測后,進一步利用后驗差檢驗方法來驗證實驗效果,具體步驟包括:
(1)計算原始序列的平均值;
(2)計算原始序列的均方差S1;
(3)計算殘差均值;
(4)計算殘差均方差S2;
(5)計算S2與S1的比值C
(6)計算小殘差概率P
3.2" "實驗結果
本研究分別使用P值和C值來衡量突發輿情的預測效果,并設計了相應的后驗差檢驗判別參照表(見表1)。
在數據庫中對“孫小果案”相關數據進行熱度預測,分別包括長期預測、短期預測、普通灰度預測和關聯熱度預測,所得到的實驗結果如下:
從表2 結果看出,關聯熱度計算的方法對突發輿情的預測效果非常好,驗證了該吹哨系統中所使用的熱度分析技術的可行性和有效性。
結語
本研究對報業集團吹哨系統中所使用的熱度計算、關聯相關度分析、關聯熱度計算,以及熱度預測等進行了深入分析,分別列出了相關公式和模型中涉及的相關因素,例如時間、地點、人物及行為等不同類型的詞特征,從而計算出事件之間的關聯度,并預測是否會發展成為熱點事件。通過上述方法和實際應用,證明報業集團吹哨系統具有較好的精確性,使用戶可以從海量新聞信息中高效、智能地獲得受關注、感興趣、有價值的目標新聞信息,從而更加有力地支撐輿情監測、新聞追蹤、新聞生產等業務工作。政府也可以借助該系統引導輿情方向,對重大輿論事件可以快速做出反應。這可以在一定程度上抑制大眾對輿論事件產生的消極情緒,將有利于政府正確引導輿情發展趨勢,以及保持社會和諧穩定。
參考文獻
[1]梁修明. 新媒體環境下公共危機傳播治理路徑[J]. 中國傳媒科技,2019(5):48-50.
[2]馮小東,李卓雅,史志慧. 基于網絡輿情熱度的自然災害影響評估分析[J]. 情報探索,2020(1):16-22.
[3]袁然. 全媒體傳播中數據技術的應用實踐[J]. 中國傳媒科技,2021(7):21-23.
[4]高萍,周恩. 大數據背景下政府危機公關的輿情引導及對策研究——以政務微博為例[J]. 陰山學刊,2019(6):88-94.
[5]毛通,謝朝德. 基于百度大數據的信用輿情指數構建與實證研究[J]. 征信,2020(1):11-20.
[6]王文妤,陰雪穎. 基于模糊評價法政府實時監控網絡輿情熱度模型構建[J]. 中國管理信息化,2019(23):170-173.
[7]鄒佳成,馬遠遠,劉婷,唐伯超,劉振國,高輝. 基于大數據的酒業輿情信息監測平臺[J]. 釀酒科技,2020(3):129-135.
[8]張丕翠,楊建武,施水才. 網絡空間的輿情態勢感知[J]. 信息安全研究,2019(11):1013-1020.
[9]李靖云. 新媒體環境中熱點事件的輿情治理策略[J]. 新聞潮,2019(10):44-45+48.
[10] 曾潤喜. 網絡輿情治理的關鍵是“治未病”[J]. 中國傳媒科技,2018(12):12-14.
[11]張源淇.影響網絡輿情熱度評價的識別因素探討[J].新聞研究導刊,2022(1):127-129.
[12]王茜儀,杜明坤,張山.基于深度學習的網絡輿情熱度研究[J].無線互聯科技,2020(22):16-17.
作者簡介:鄭創偉(1978-),男,廣東汕頭,高級工程師,研究方向為大數據、人工智能;謝志成(1980-),男,廣東汕頭,中級職稱,研究方向為大數據、云計算;陳少彬(1973-),男,廣東揭陽,中級職稱,研究方向為大數據;邢谷濤(1984-),男,海南文昌,研究方向為云計算;陳義飛(1981-),男,廣東湛江,中級職稱,研究方向為大數據。
(責任編輯:張曉婧)