文/賈盼斗 尹春華
微博作為當今具有重要影響力的主流社交網絡平臺,不僅所涵蓋的領域廣泛,而且用戶基數大,活躍用戶眾多,微博熱點事件所引發的討論也受到了社會各界人士的密切關注。微博網絡的輿情監管問題變得愈發重要。針對微博熱點事件的信息度量研究將為微博輿情問題的研究工作提供參考依據。因此,如何對微博信息文本進行度量成為重要研究內容。本文以香農信息理論為基礎,基于Bayesian方法對熱點微博事件信息進行度量工作。
目前,針對信息度量的研究工作處在不斷發展的階段,相關應用領域也變得更加廣泛。信息論之父Shannon排除語義等主觀因素的思想提出客觀信息量統計模型,從概率角度對信息進行量化[1]。Ben-Arie[2]提出運用bayesian樹模型,來輔助進行文本信息測量研究。Maria[3]探討了購買任務中消費者的認知反應如何受到網站內信息量的影響。袁梓皓[4]基于信息熵和互信息量測量兩個空間個體間任意非線性的相關性,進行非對稱相依程度的度量研究。何俊[5]用信息熵對網絡數據演化涌現性進行度量,并對演化行為和系統層次可能引入的誤差進行校正。
信息量是隨機變量不確定度的度量,Bayesian相關理論方法是處理不確定性信息的重要工具。本文針對微博熱點網絡事件,以香農信息理論為基礎,基于Bayesian方法對相關信息文本進行信息度量分析,在一定程度上對主觀性文本信息進行度量,為社交網絡輿情問題的研究提供參考依據。
熵,它是隨機變量不確定度的度量。對于離散型隨機變量,Shannon繼承和發展了Hartley關于排除語義等主觀因素的思想提出客觀信息量統計模型,從概率角度對信息進行量化[1]。信息熵公式為:

式中:H(X)為信息熵;X為文本信息可能出現的事件集合,即P為事件X的概率分布。
Bayesian網絡是以bayesian理論為基礎的一種概率網絡,同時它又是基于概率推理的圖形化網絡。Bayesian網絡最早由Judea·Pearl于1988年提出,用來表示變量集合連接概率的圖形模型。它提供了一種表示因果信息的方法。Bayesian網絡是由始于根節點,而后經由有向邊連接諸多級子節點構成的網狀結構樹。節點代表隨機變量,節點間的有向邊代表了節點間存在的關系。
考慮到短評文本信息本身帶有的主觀性、離散型特性,Bayesian作為能夠進行分類的方法之一,可以在一定程度上解決關聯性問題。在Shannon信息論的基礎之上,引入bayesian網絡進行微博熱點事件文本信息度量工作。Bayesian節點網絡是由始于根節點,而后經由有向邊連接諸多級子節點,從而構成的網狀結構樹。Bayesian網絡中的節點按級進行屬性分類。首先需要進行節點的分類,每一級的節點都代表了一種狀態,由上一級的節點到下一級節點,涉及到了節點的選取問題,也就是節點狀態的選取問題。從一級節點經有向邊到二級節點是一個條件概率,它表示在一級節點發生的情況下,從一級節點經由有向邊到二級節點發生的概率。
文本信息度量將通過聯合概率信息熵來實現,對于微博短信息的文本內容,可以被看做是由離散型隨機變量構成的文本狀態空間,信息文本通過Bayesian網絡的形式進行表示。在此,我們假設隨機變量x構成的狀態空間具有完整性,所有變量是相互排斥并且具有概率分布。給出如下信息量度量公式[2]:


當隨機變量不是相互獨立時,求解一組隨機變量的聯合概率將是一件非常困難的事情。為了解決這一問題,引入bayesian網絡,將使得隨機變量是獨立或者至少可以認為是條件獨立的。這就使得求解聯合概率得到了簡化,從而為解決文本信息度量提供了解決方法。下面將就微博的熱點事件進行具體信息度量分析。針對發生在2019年3月11日“中國停飛波音737-Max8”引發熱議,就這一熱點事件中的相關消息,進行相關文本信息量度量分析。
在進行信息量度量時,避免關聯性隨機變量對度量造成的困擾,引用bayesian網絡通過假設隨機變量是獨立的或者至少條件獨立。為了使得度量更具條理性,將節點進行層級分類,目前確定前三級的級的節點,并結合相關統計數據的分析,確定節點的條件概率。在此確定的根節點為“信息”,明確其概率為“1”,第二級的節點分別為郵件(0.35)、新聞(0.2)、語音(0.05)、會議(0.1)、書信(0.1)、其他(0.2)。第三級的節點分別為科技(0.1)、政治(0.2)、健康(0.1)、旅游(0.1)、體育(0.2)、娛樂(0.1)、商業(0.2)。之后級節點將依據具體的文本信息內容進行關鍵詞選取。每一個節點代表了一種狀態,由根節點順次連接各個級的節點直至終節點結束,從而將所選信息文本進行表示,繼而進行信息度量分析。這將為微博信息文本的主觀性分析提供一定的參考。
民航局發布了題為“民航局要求國內運輸航空公司暫停波音737-8飛機商業運行”的公告。具體節選主要內容為“3月10日,埃塞俄比亞航空一架波音737-8飛機發生墜機空難,這是繼去年10月29日印尼獅航空難事故之后,波音737-8飛機發生的第2起空難。鑒于兩起空難均為新交付不久的波音737-8飛機,3月11日9時,民航局發出通知,要求國內運輸航空公司于2019年3月11日18時前暫停波音737-8飛機的商業運行。”
在上一節中對前三級節點進行了相關規定,接下來是針對民航局發布的文本進行bayesian網絡構建。具體包括對文本信息的關鍵詞進行提取并將其作為節點,每一級節點共同組成這一級的狀態空間。從第四級節點開始,下一級節點要依據本級節點以及結合上一級節點的狀態進行本級節點狀態的擴充。在上述民航局發布的文本信息中提取到的關鍵詞有民航局、暫停、B737-800、運行。針對關鍵詞所處的不同狀態,其相關概率也會有所不同。以暫停為例,與其同級的節點分別為:開始(0.2)、中斷(0.2)、恢復(0.3)、結束(0.1)。具體如圖1給出了Bayesian節點網絡每一級的狀態以及相應狀態概率分布情況。
在此,為了進一步對Bayesian節點網絡方法進行應用說明。又選取了針對這一熱點事件的文本信息。由人民日報發表的題為“特朗普宣布:美國將禁飛波音737MAX所有機型”的微博評論文本信息。節選內容為:“美國總統特朗普在電視直播中宣布,他將下令停飛波音737 Max 8和Max 9機型。特朗普表示,美國聯邦航空管理局(FAA)將發布一項“緊急通知”,停飛上述兩款波音機型。”上述段落第四級節點為美國、英國、俄羅斯、中國、日本,下一級為宣布、通知、警告、提醒;波音737,波音747,波音738,波音757,波音733,波音787,波音777;禁飛、通航、延誤、變更。確定其相應概率。具體如圖2給出了Bayesian節點網絡每一級的狀態以及相應狀態概率分布情況。
通過上述對微博文本信息的Bayesian節點網絡表示之后,下面將用Bayesian網絡度量方法對上述兩段微博文本信息進行度量。由公式(2),可以得到圖1文本信息的信息量I1為:

同理,可以得出圖2文本信息的信息量I2為:


圖1:Bayesian節點網絡文本信息示意圖

圖2:Bayesian節點網絡文本信息示意圖
微博網絡輿情事關社會穩定,本文以信息論為基礎并應用Bayesian方法,通過對微博網絡中的熱點事件相關信息文本進行信息量度量分析,從信息量化角度對熱點事件文本信息進行度量,區別于傳統客觀信息量度量,定量對微博網絡熱點事件主觀性信息進行研究。鑒于信息量是隨機變量不確定度的度量,在此證明了采用基于信息論的Bayesian網絡方法的合理性。通過bayesian網絡結構,微博熱點事件的文本信息以節點狀態的形式進行呈現,完成了對于微博網絡的相關文本信息進行了度量分析。