〔摘 要〕研究網絡新聞評論可以更好地分析網民對新聞關注程度的發展變化,對于網絡輿情研究也具有重要意義。本文首先選擇任意時間段內網絡上的熱點事件為樣本,繪制其評論增長曲線,進而使用自組織映射神經網絡方法將曲線分類,擬合出代表各類發展規律的曲線,最后利用所得結論判斷突發新聞的類別歸屬,預測其評論發展趨勢,并驗證方法的有效性。
〔關鍵詞〕網絡輿情;聚類;自組織映射神經網絡;曲線擬合;預測
〔中圖分類號〕TP183 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)12-0004-04
Public Opinion Research Based on Network CommentsPeng Dan Xu Bo Song Xianlei
(Institute of E-Business,School of Management,Hefei University of Technology,Hefei 230009,China)
〔Abstract〕The research of news comments on network can analyze the changes of netizens attention to news better,and it is also important to Network Public Opinion research.Firstly,the paper chose network hot spot events during the random time sections as samples,draws up the commentary building-up curves,then classifies these curves by SOM,fits curves that can represent the law of development of each kind,finally,determines the type of breaking news by the conclusion above,forecasts the development trend of its comments,and demonstrates the validity of the method.
〔Keywords〕network public opinion;clustering;SOM;curve fitting;forecasting
據CNNIC第23次中國互聯網發展狀況調查:截至2008年12月31日,中國網民規模達到2.98億人,普及率達到22.6%,超過全球平均水平,位居世界第二。互聯網的出現和勃興,極大地拓展了中國社會的輿論空間。網民通過網絡媒體不僅可以接收信息,還可以表達利益,宣泄情感[1]。輿情一旦在互聯網上出現,其后續傳播勢必會對我們的生活產生深遠影響,找出網絡輿情傳播的規律性,可以對一些可能引發社會穩定的問題提前進行預警從而使相關部門采取一定的措施,影響其傳播過程,這對政府的決策制定,網絡的凈化與繁榮以及和諧社會的建設都具有重要意義。對網絡輿情研究的第一步——如何選擇有用的信息,國內外開展的相關研究主要以web站點發布的各類信息為數據源,其結果反映了網絡媒體對信息的呈現狀況[2],卻無法有效地反映網民對信息的關注程度,因此也就很難反映網絡輿情的真實情況。而網絡輿情存在空間之一的新聞留言板是在網絡新聞報道后開設的供網民發表意見的BBS,將網民的新聞評論作為數據源,能直接對應于用戶行為[3],可以快速,真實地反映關于該事件的輿情。掌握輿情主體即網民發表的網絡新聞評論的特點主要應從量、度、維三方面研究,具體分別為評論的數量、意見和態度的程度問題以及方向問題,而以往的文獻僅對后兩者從語義或訪問頁面鏈接上進行研究,卻忽視了數量這一網絡輿情研究和監測的關鍵,本文旨在運用Web信息挖掘技術[4],通過對大量新聞評論數量歷史數據的收集、聚類和分析,建立網絡輿情傳播的先驗模式,用以預測[5]新事件的傳播趨勢。
1 實驗步驟及結果
1.1 準備工作
1.1.1 數據收集本次實驗數據均采集自騰訊網,共包含有效新聞及其評論1 000條,并依據騰訊網劃分的類別歸類記錄,即分為娛樂體育類、民生類、時事政治類、財經類,每類記錄250條新聞,記錄數據包括新聞標題、發布時間以及不同時間點的評論數量。
1.1.2 評論數據預處理由于每條新聞的發布時間不同,為了使時間數據統一,需把記錄的絕對時間相對化,即將新聞發布時間定為起始時間,評論時間與起始時間之差定為時間距離。例如:新聞發生時間為17∶00,即此時為起始時間,記為0,評論記錄時間若為19∶00,則此次記錄的時間距離為2。每條新聞的評論記錄時間都從0開始,192結束,單位為小時。考慮到評論數量增長的速度一般由快到慢,為了更好的研究其規律性,在評論發生0~2天之內,記錄頻率為1小時,2~4天之內為6小時1次,4~8天之內為1天1次。
1.1.3 缺失值處理對于新聞評論在某些時間點的缺失數據,我們采用線性擬合方式確定填充替代值。
1.2 評論曲線的聚類
1.2.1 減少模型的種類作出所有新聞評論的時間序列圖(橫軸為相對時間,縱軸為評論數量),從圖1可以看出,大多數新聞評論的增長規律類似,但在絕對值大小上差距很大,這使得新聞評論曲線形態千差萬別,若單純依據評論數量這一指標對曲線進行聚類,勢必會掩蓋曲線的內在特點,且聚類效果不理想。因此在聚類之前要做的工作就是消除量綱,減少模型種類,從曲線的動態增長方式上挖掘其相似點。
對于第i條新聞的時序評論數量集Ai={ai1,ai2,…,aim},(i=0,1,…,N)(M指記錄的時間個數,此處取61;N為新聞的個數,此處取1 000),評論增長數量的數據集為:Bi={bi1,bi2,…,biM}={a1,ai2-ai1,ai3-ai2,…,aiM-aiM-1}第i條新聞的評論增長速度xit為:xit=bitbit-1,(t=1,…M)(1)將評論增長速度累加,得到:yi1=xi1;yit=yit-1+xit,(t=2,…M)(2)可知,第i條新聞的評論增長速度累加曲線yi=(yi1,yi2,…,yiM)是一條消除了量綱且變化趨勢相對穩定的遞增曲線,原始評論曲線形態的多樣性被大大簡化了,如圖2所示。上述數據處理過程一方面消除了原始數據量綱的影響,保留了曲線增長的動態趨勢,另一方面對評論增長速度進行累加得到曲線形態更為簡單的yi曲線,可進一步減少模型的種類。
1.2.2 自組織映射神經網絡聚類自組織特征映射網絡[6-8](SOM)是一個由完全連接的神經元陣列組成的無教師自組織、自學習網絡,其網絡拓撲結構如圖3所示:
當某類模式輸入時,其輸出層某一節點得到最大激勵而獲勝,同時該獲勝節點周圍的一些節點因側向相互作用也受到較大的激勵,這時與這些節點連接的權值矢量向輸入模式的方向作相應的調整。當輸入模式類別發生變化時,二維平面上獲勝節點也從原來的節點移到其他的節點[6]。其學習算法[8]如下:(1)初始化輸入神經元到輸出神經元的連接權值;(2)提供新的輸入模式;(3)計算輸入樣本與每個輸出神經元之間的距離(此處取歐式距離),并計算出一個具有最小距離的神經元;(4)給出一個周圍鄰域;(5)修正輸出神經元及其鄰接神經元的權值;(6)計算輸出浮動閾值;(7)提供新的學習樣本來重復上述學習過程。用SOM方法將所有累加曲線進行初次聚類,對結果中相對分散的曲線簇視情況再次聚類。舍去最終結果中曲線個數<20的個別類,因為根據經驗,一般聚集程度較好的類別包含曲線數量也較多[9],最終得到如圖4所示的八類累加曲線。 1.3 實驗結果分析根據記錄時劃分的類別,每類新聞在上述八類中的分布如表1(只顯示比例大于10%的情況),若后面無時間范圍,則表示發布時間分布在全天各個階段。例如:第二行第三列的“32%(0∶00~6∶00)”表示32%的民生類新聞在(1)類中,發布時間都在0∶00~6∶00之間。表1 各類新聞在8類累加曲線中的分布(只例舉>10%的)
曲線類新聞類娛樂體育民 生政 治財 經(1)32%
(0∶00~6∶00)(2)36.2%10.5%
(0∶00~6∶00)(3)12.1%
(0∶00~6∶00)(7)38.8%
(0∶00~6∶00)27.2%(8)56%48.7%42.7%24%
1.4 評論曲線的擬合接下來要對圖4中的各類曲線進行擬合,為了照顧到每類中各條曲線的特征,也為了方便曲線擬合,我們選取對每類曲線的類均值曲線進行擬合。這樣,對一類曲線的擬合就變成了對一條曲線的擬合。例如對第j類曲線擬合,其包含k條評論曲線,則其類均值曲線可表示成:cjt=jt=1k∑ki=1yjit,(t=1,K,T)(3)現在只需對曲線cj=(cj1,cj2,…,cjT),(j=1,2,…,8)進行擬合。我們以包含曲線數量最多的第8類為例,將其帶入(3)式,繪制出類均值點并進行曲線擬合,選擇擬合效果最優的模型:MMFModel:y=ab+ctdb+td其中,a=3.4688427,b=1 018.3912,c=60.286081,d=2.0158328。其擬合優度為0.997,效果如圖5:
圖5 藍點為類均值點,紅線為擬合后的曲線 其他類別曲線可類似建立模型,如表2:
表2 曲線類別及其對應模型
類別號擬合模型常量取值(1)y=a(b-ect)a=75.687699,b=0.99341617,c=0.031964544(2)y=a(b-e-ct)a=75.738171,b=1.1044557,c=0.030683468(3)y=a(1-e-bt)a=111.68531,b=0.010774366(4)y=ab+ctdb+tda=0.41027705,b=69.50943,c=46.429644,d=1.4255683(5)y=ab+ctdb+tda=2.2353685,b=433.54498,c=56.275408,d=1.7202683 續表2
類別號擬合模型常量取值(6)y=a1+be-cta=47.954468,b=11.112949,c=0.097708055(7)y=a+bt+ct2+dt3+…a=0.23253753,b=1.7517241,c=-0.017479688,d=7.9340853e-5,e=-1.3509821e-7(8)y=ab+ctdb+tda=3.4688427,b=1018.3912,c=60.286081,d=2.0158328
2 新聞評論傳播趨勢預測
2.1 累加曲線的預測上述工作的目的除了對新聞評論從增長規律角度進行分類,得出各類的傳播規律外,更重要的是對日后突發新聞事件評論進行發展趨勢預測,其步驟如下:(1)根據新聞性質及發布時間確定其在表1中所屬類別,然后使用表2中對應公式可得出其發展趨勢曲線。對于根據此步無法判斷出所屬類別的新聞,可以采用下一步。(2)記錄事件評論最初增長情況,并將其依次代入表2公式中便可判斷其所屬類別,因為從圖3中可以看出:各類曲線在初始階段的形狀各不相同。由于第一步縮小了判斷范圍,因此工作量大大減少。例如,對于突發新聞邁克爾·杰克遜去世,根據語義判斷其所屬類別為娛樂體育類,查閱表1可將范圍縮小至(2)和(8)類,即現在只需關注這兩類新聞的發展趨勢,接下來記錄前6小時評論狀況,再使用METLAB來比較前兩類曲線初始6小時與其吻合程度,比較結果誤差分別為4.9966和30.6277,最終取(2)類模型作為本條新聞發展趨勢預測曲線。
2.2 返回到原始數據由判斷出的最終歸屬模型可求出t時刻的yt,相對應的xt=yt-yt-1(t=1,2,…,61),返回到原始數據值為:bt=bt-1xt。同樣以杰克遜去世的新聞為例,由此得出的預測數據與兩周后真實數據相比較,如圖6所示,可見有90%的預測數據的誤差都控制在10%之內,預測效果良好。
圖6 預測曲線與真實曲線的比較
3 總 結本文主要從量的角度對收集的網上新聞評論數據進行處理并聚類,通過分析實驗結果,我們能歸納出不同類別新聞事件在網上的傳播規律。此外,本文得出的擬合曲線模型,可對突發新聞評論發展趨勢進行預測,網上評論數據的挖掘處理方法以及實驗的結果也可提供給行為學專家和社會學專家,以幫助他們進行用戶行為和網絡熱點新聞的研究。在下一階段,我們將設計調查問卷,以獲取現實生活中人們對同事件的關注程度,并建立網上可知度和現實可知度的聯系,從而更系統地對新聞傳播規律進行研究。
參考文獻
[1]Fong J,Burton S.A cross-cultural comparison of electronic word-of-mouth andcountry-of-origin effects[J].ScienceDirect Journal of Business Research,2008,61:233-242.
[2]Manquan Y,Luo W H,Xu H B,et al.Research on hierarchical topic detection in topic detection and tracking[J].Journal of Computer Research and Development,2006,43(3):489-495.
[3]Huang W T,Zhao Y,Yang S Q,et al.Analysis of the user behavior and opinion classification based on the BBS[J].In Applied Mathematics and Computation,2008,205:668-676.
[4]王澤彬,金飛,李夏,等.Web數據挖掘技術及實現[J].哈爾濱工業大學學報,2005,37(10):1403-1405.
[5]Doganis P,Alexandridis A,Patrinos P,et al.Time series sales forecasting for short shelf-life food products based on artificial neural networks and evolutionary computing[J].Journal of Food Engineering,2006,75:196-204.
[6]Mangiameli P,Chen S K,West D.A comparison of SOM neural network and hierarchical clustering methods[J].European Journal of Operational Research,1996,93:402-417.
[7]Hagan M T,Demuth H B,Beale M H.神經網絡設計[M].北京:機械工業出版社,2002:285-301.
[8]李春華,李寧,史培軍.自組織特征映射神經網絡原理和應用研究[J].北京師范大學學報:自然科學版,2006,42(5):543-547.
[9]龍文,王惠文.曲線分類建模方法及其在多地區GDP預測中的應用[J].系統工程理論與實踐,2008,(3):72-75.
[10]周亞東,孫欽東,管曉宏,等.流量內容詞語相關度的網絡熱點話題提取[J].西安交通大學學報,2007,41(10):1142-1150.