羅泰曄
〔摘要〕本文提出了一種基于泊松分布和伽馬分布的網絡輿情熱點實時識別方法。該方法使用話題的人氣和時間間隔特征兩方面來識別輿情熱點,發現單位時間內(如1小時)參與話題討論的人數成泊松分布,回帖的時間間隔服從伽馬分布。本研究用歷史數據證明了該方法具有良好的識別效果。
〔關鍵詞〕網絡熱點;網絡輿情;伽馬分布;泊松分布;熱點發現;話題熱度
DOI:10.3969/j.issn.1008-0821.2017.01.014
〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821(2017)01-0077-04
〔Abstract〕A method was proposed in the paper to identify online hot topics based on Poisson distribution and Gamma distribution,which combined the popularity and time interval characteristics of hot topics.It was found that the number of people participating in a topic discussion per unit time(e.g.one hour)follows a Poisson distribution,and the time interval between two replies follows a Gamma distribution.Historical data was used to test the effectiveness of the method.
〔Key words〕online hot topics;online public opinion;gamma distribution;Poisson distribution;hot topic identification;topic hotness
中國互聯網信息中心第38次《中國互聯網絡發展狀況統計報告》顯示,截至2016年6月,中國網民規模達7.10億[1]。互聯網已成為民眾接收和發布消息的主要渠道,網絡輿情已具備較大規模。網絡輿情傳播由于具有傳播速度快、覆蓋范圍廣、互動性強等特點,已引起政府管理的高度重視,也成為學術界研究的流行內容。其中,對于網絡輿情的實時監測和分析是輿情研究的重點內容之一。
當前國內關于網絡輿情的監測主要可以分為兩大技術路線。一種是基于內容的分析,即對網絡信息文本進行關鍵內容的提取,再通過關鍵詞識別、支持向量機、K均值等分類或聚類的方法發現輿情熱點[2]。這方面的研究已經較多。另一種是基于輿情發展模式的分析,這條路線主要是從數量關系和時間特征上發現輿情熱點與普通網絡話題的區別[3-5],從而進行熱點的發現。目前這條路線的研究還相對較少。已有的研究主要存在兩種思路:一種是將單位時間內的回帖量與回帖人數是作為識別網絡輿情熱點的主要指標。另一種是利用回帖的時間間隔特征來反映話題帖的活躍度。從已有的文獻看,兩種思路都存在需要進一步解決的問題。對于第一種思路,以單位時間進行統計(比如1小時統計1次)可能出現遺漏潛在輿情熱點的情況,即在統計時段中后期才啟動的輿情話題,由于在數量上可能還達不到設定的閾值而在統計時未被識別出來。而輿情熱點的識別越早越好,能越早識別出潛在的熱點,就能夠進行很好的控制和引導。因此,需要對話題的發展趨勢做一個概率的判斷。此外,回帖量和回帖人數可能不在同一個數量級,如果簡單地將兩者結合起來使用,可能會弱化數量級相對較低的回帖人數的作用。為避免出現這種情況,需要對回帖量或者回帖人數進行一定的數學轉換,使二者處于同一數量級。對于第二種思路,回帖的時間間隔到底具備什么樣的特征,已有的研究也只是提出了一個抽象的函數f(t),而對于f(t)的具體內容沒有進一步分析。針對以上問題,本文提出一種將回帖人數和回帖時間間隔結合起來的網絡輿情熱點發現的方法。該方法基于兩個重要的統計分布:泊松分布和伽馬分布。
1網絡輿情熱點特征
網絡輿情熱點與普通網絡話題的區別主要體現在兩個方面。一是單位時間內參與熱點話題討論的人數眾多;二是回帖的時間間隔短。討論人數多,回帖的時間間隔短,則使得單位時間內回帖的數量大,從而形成輿情熱點。因此,人氣(回帖人數)和時間間隔這兩個變量可以用作發現網絡輿情熱點的指標。筆者以一個高校網絡論壇2008年4月和5月的歷史數據為例,探索運用這兩個指標實時發現網絡輿情熱點的方法。首先從2008年4月的數據中找出30個熱點話題帖作為素材,分析熱點話題在人氣和時間間隔上的特征。
1.1輿情熱點的人氣特征
其中A表示由每小時討論人數組成的向量,alpha為置信率。如果運行結果H=0,則表示A服從泊松分布。對熱點話題樣本運行的結果顯示H=0,因此每小時參與討論的人數服從泊松分布。
1.2輿情熱點的時間間隔特征
在單位時間內,輿情熱點的熱度與回帖的時間間隔是緊密相關的,回帖的時間間隔短,則回帖數量多,相應的輿情規模就大。伽馬分布是一種重要的統計分布,經常用于描述時間間隔的特征[8]。如果連續型隨機變量X的概率密度函數如公式(2)所示,則稱X服從伽瑪分布。
回帖時間間隔指的是相鄰的兩個回帖之間的時間間隔,用秒作為單位。計算公式為:ΔTi=Ti-Ti-1,i≥1。其中T0表示話題帖,Ti表示第i個回帖的發表時間。為檢驗回帖時間間隔是否服從伽馬分布,筆者計算出每個樣本帖的所有回帖之間的時間間隔,并使用matlab軟件進行K-S檢驗。經過運行檢測程序,發現H值為0,所以回帖時間間隔服從伽馬分布。
2輿情熱點識別方法設計
2.1輿情熱點人氣值
從上一節的分析得到每小時的回帖人數服從泊松分布。從公式(1)中可以看出,λ是一個重要參數,它決定了泊松分布的圖像形狀。熱點話題和普通話題在每小時參與討論的人數是不一樣的。熱點話題的回復人數要遠大于普通話題帖,這造成了每小時回帖人數的平均值的不同。而這一區別可以通過λ反映出來。因此,可以利用λ來計算一個話題帖的人氣值。
λ的值一般是通過歷史數據獲得的。對于每一個熱點樣本帖計算出其每小時討論人數的平均值,由此可以獲得30個平均值。再對這30個平均值求平均數,進而獲得λ的值。通過計算,λ約為25.36,取整數,將λ的初始值λ(0)設定為25,即對于熱點帖來講,平均每小時約有25個人參與討論。而對該論壇4月的所有話題帖平均每小時參與討論人數進行計算得到的值約為4.42,即不超過5個人,遠小于熱點帖。
對于一個待識別的新話題帖,以小時為單位進行統計,計算出該小時內參與討論的人數n(t),t=1,2,3…,并用n(t)對λ(t)進行修正:λ(t)=(n(t)+λ(t-1))/2,t=1,2,3…。進行修正的過程也就是判斷話題發展趨勢的過程。如圖1和圖2所示,圖1和圖2分別是一個熱點帖和一個普通帖前4個小時的泊松分布的圖像。兩個圖中“+”顯示的圖像是初始時刻(即λ=25)時的圖像。可以從圖1中看出,一個熱點帖每小時討論人數的泊松分布圖像始終在初始圖像的附近移動,說明在一個小時內出現回帖人數超過25人的概率仍然很大;而一個普通帖的圖像(圖2)則是完全往左移動,在1個小時內出現回帖人數超過25人的概率變得越來越小。因此,可以用這個帖在1小時內獲得大于25人回帖的概率來衡量這個帖的人氣值。
2.2輿情熱點規模
在單位時間內(如1小時),回帖的時間間隔分布的情況決定了輿情的規模。圖3是2個熱點帖和1個普通帖回帖時間間隔伽馬分布的圖像。從圖3中可以看到,兩個熱點帖(a=0.42和a=0.37)的圖像大致相同,而普通帖(a=1.71)的圖像在形態上與另兩個圖像有明顯區別。這種區別主要是由形狀參數a和尺度參數b決定的,所以可以利用這兩個參數來代表輿情規模。
以30個熱點帖第1小時的數據為例,首先計算出第一小時內所有回帖的時間間隔。利用最大似然估計法(MLE)對伽馬分布的兩個參數a和b進行估計,從而得到a和b的一個樣本數據。這樣總共可以獲得30個樣本數據。隨后,用這30個樣本數據與第1小時的回帖量(n)進行相關分析,結果如表1所示。
從表1中可以看出,第1小時的回帖量與伽馬分布兩個的兩個參數a和b呈顯著的負相關關系,即a和b的值越小,n越大。因此,可以用a和b來代表回帖的規模。
2.3輿情話題熱度計算
這種方法對于在統計時段中后期才啟動的話題也能起到識別作用。一個話題帖即便是在中后期啟動,在獲得回帖人數或回帖量上還達不到設定的閾值。一方面,由于回帖的時間間隔短,使得用最大似然法估計得到的a或b的值比較小,從而使其倒數的值比較大;另一方面,話題討論雖未形成較大規模,但已有一定數量的人參加,對λ(t)沒有進行過度的負修正(即沒有使λ(t)變得很小),從而使得R的值不至于過低,甚至可能存在正修正的情況,從而獲得一個較大的R值。根據公式(4),兩部分求和之后得到的H值也可能較大,從而識別出可能在下一個小時爆發的輿情熱點。
3熱點識別方法的效果檢驗
從表2中可以看出,熱點帖的實時熱度都在1以上,而普通帖的熱度除第1小時外,基本都小于1。這說明熱點帖被持續討論的時間和熱度都強于普通帖。普通帖一般只有在第1小時可能引起較多的關注和討論,隨著時間的推移,討論熱度逐漸減弱,整個討論持續的時間不超過5小時。因此,公式(4)能夠有效地實時識別熱點帖和普通帖。
4結語
本文發現單位時間內的回帖人數服從泊松分布,回帖時間間隔服從伽馬分布,并在此基礎上提出了一種網絡輿情熱點實時識別的方法,并用歷史數據證明了該方法的有效性。在實際使用時,可首先進行初步篩選,去除無回帖或只有幾個回帖的話題帖,對剩余的話題帖再使用本方法進行識別,從而提高效率。
本文使用的數據是一個高校網絡論壇2008年的歷史數據。鑒于當時的通信技術條件(如尚無移動互聯網),加之高校網絡論壇具有封閉性,即便是版面中最熱門的話題的規模從現在看來在絕對數量上仍顯得不是很大。但從相對值來看,文中所選的話題帖的規模已是普通話題的幾十倍,已經具備了輿情熱點的特征。未來的研究可以利用開放的網絡論壇或者微博中的素材來進一步檢驗文中所提方法的健壯性。
參考文獻
[1]中國互聯網信息中心.第38次《中國互聯網絡發展狀況統計報告》[EB/OL].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/,2016.8.
[2]王玉珍.網絡輿情熱點發現綜述[J].內蒙古科技與經濟,2015,(8):66-67.
[3]王麗英.高校BBS教育輿情的時空特征模型構建和熱點發現[J].現代情報,2016,(1):84-89.
[4]李文杰,化存才,何偉全.網絡輿情熱點事件的可控性和篩選數學模型分析[J].情報科學,2016,(6):37-42.
[5]曹樹金,鄭凌,陳憶金.網絡輿情突發異常識別及關鍵算法研究[J].圖書情報知識,2012,(1):43-51.
[6]徐國祥.統計學[M].上海:上海人民出版社,2007.
[7]劉超.Matlab基礎與實踐教程[M].北京:機械工業出版社,2011.
[8]Walid F.Nasrallah,M.ASCE and Rana Bou-Matar.Exponential,Gamma,and Power Law Distributions in Information Flow on a Construction Site[J].Journal of construction engineering and management,2008,(6):442-450.
(本文責任編輯:馬卓)