徐會杰,蔡皖東,陳桂茸
(西北工業大學 計算機學院,陜西 西安,710129)
網絡論壇突發性熱點話題是指網絡論壇中由突發性公共事件引起的、在出現之前難以預知并且傳播周期較短、對社會輿論影響較大的話題。當網絡論壇中一些指向性強、易引起網民共鳴的突發性熱點話題出現時,往往會引發重大輿情危機。如何準確、高效地發現與跟蹤突發性熱點話題,對網絡輿情的識別與監控具有重要的現實意義。關于突發性熱點話題的發現,目前國內外研究者主要采用語義分析[1-5]和復雜網絡分析[6-10]2 種技術途徑,后來的很多方法都是這2 種方法的進一步擴展。基于語義分析和復雜網絡分析的方法雖然在一定程度上可以發現某一時間周期內的熱點話題,但采用上述方法存在以下問題:(1) 基于語義分析的熱點話題發現主要采用文本聚類、分類的方法,面對網絡論壇的海量數據,數據處理量大、效率低。同時由于網絡論壇內容與常規的語料相比更加口語化和非正規化,一般的語義分析技術難以滿足識別精度的要求;(2) 基于復雜網絡的熱點話題發現以簡單有效的帖子關系構建網絡,通過分析其網絡特性提取熱點話題。但以往該方面的研究往往以網絡特性參數數量上的累積作為判斷依據,而忽略了網絡的時變特性。例如,具有高入度值的帖子因不具備時間上的突發性則難以成為突發性熱點話題。針對以上問題與不足,本文提出一種基于噪音過濾和話題聚類的熱點話題快速發現方法。該方法充分考慮了網絡論壇結構、話題特征以及突發性熱點話題所具備的高關注度、時間突發特性,采用逐步求精的策略,通過噪音過濾、分詞、聚類實現突發性熱點話題的發現。
網絡論壇作為網絡輿情傳播的重要途徑,是一種為廣大用戶提供張貼特定或一般內容以及進行討論的Web 應用。論壇由很多的版塊(board)構成,組織形式是主題(thread)。論壇中用戶間的討論首先是以第一個作者發出一個主貼(entry post),該主貼有一個唯一的標題(title)和入口(entry),然后由其他用戶(可以是第一個作者)圍繞這個主貼通過發1 個或多個包含相應內容的回復帖(post)展開的。如圖1 所示為網絡論壇主題構成圖。網絡論壇的話題(topic)是由1 個或多個討論類似內容的主題集合,如圖2 所示為話題的層次視圖[11]。

圖1 網絡論壇主題構成圖Fig.1 Thread structure in web forum

圖2 網絡論壇中話題的層次視圖Fig.2 Topic level view
網絡論壇突發性熱點話題快速發現與跟蹤包括建立候選話題集、論壇數據噪音過濾、突發性熱點話題發現、突發性熱點話題跟蹤4 個步驟。建立候選話題集是將采集到的論壇數據建立以主貼標題為索引的話題集;噪音過濾是對獲取到的候選話題集進行去噪處理,移除掉熱度較低的主貼和不具有時間突發性的主貼,通過噪音過濾,可以過濾掉論壇中大部分不會演變成熱點話題的帖子。對剩余的帖子,通過分詞工具提取主帖標題中包含的主題詞并采用聚類算法對主貼進行合并,進而抽取出突發性熱點話題;針對發現的突發性熱點話題的時間序列,繪制其對應的回帖加速度變化曲線進行跟蹤。如圖3 所示為突發性熱點話題快速發現與跟蹤的整個流程。
研究發現,網絡論壇中主貼的標題一般直接代表了用戶討論的主題[12-13]。 根據2011 年中國互聯網輿情分析報告中列出的前10 大網絡熱點事件[14],本文以最具影響力的全球華人論壇天涯社區為例,檢索出社區中對應10 大網絡熱點事件的回復數最大的主貼,統計發現其主貼標題即能概括事件主題的占總統計量的80%以上。本文的突發性熱點話題發現方法很好地利用了這一特征,在數據采集之初僅采集論壇中各主貼的標題并建立以主帖標題為索引的話題集。

圖3 突發性熱點話題快速發現與跟蹤流程Fig.3 Flow diagram of detection and tracking for bursty topics
網絡論壇熱點話題的形成分內容驅動和形式驅動2 種不同的方式[15]。內容驅動是通過發表經特別制作的內容豐富的帖子,吸引網民大量瀏覽和回復該帖子,形成熱貼;形式驅動是網絡推動者通過調動大量“僵尸機器”及招募大量的網絡評論員發表大量有關事件的帖子,將該事件強行推入公眾視野,捧成熱點,進而吸引網民大量瀏覽和回復該帖子而形成熱點話題。這2 種驅動形式啟示我們,可以從帖子的瀏覽數、回復數進行熱點話題的發現。帖子熱度評分公式如下[16]:

式中:α,β,γ 為加權值;r(xi)為主貼xi的回復數;b(xi)為主貼xi的點擊數;avgr(X)為所有帖子X 的平均回復數;avgb(X)為所有帖子X 的平均點擊數;max(X)為所有帖子X 中最大回復數與點擊數之比。
一般而言,論壇用戶要點擊某個帖子才可以對它進行回復,所以,帖子點擊數一般要大于回復數。以r(xi)/b(xi)來描述用戶圍繞主貼xi討論的激烈程度,比值越大,表明該帖子相對應的話題受關注度越高。在確定式(1)中3 個指標相對于彼此的重要程度之前,加權值α,β 和γ 是未知的。本文采用AHP 法求解,根據Saaty“l-9”標度法,構造判斷矩陣為:

分別計算3 行元素的幾何平均值后作歸一化處理,并計算最后權重,計算公式為:

式中:Wi為權重;Wi′為判斷矩陣中每行元素的幾何平均值。則α,β 和γ 的計算結果為:α=0.194 7;β=0.088 1;γ=0.717 2。
式(1)雖然可以快速發現熱度排名靠前的帖子,但它反映的是帖子回復數和點擊數在數量上的累積,不能體現貼子熱度隨時間的變化特性。根據演化理論,帖子的生命周期也經歷突發、成長、衰退、消亡4 個階段[17]。處于衰退階段的帖子即使其熱度很高,已不可能演變成具有時間突發性的熱點話題。為避免這種評價指標的不足,受文獻[18]通過度加速度來描述在線社交網絡中某一突發過程鏈接創建率的啟發,本文引入回復加速度的概念來識別和量化帖子熱度隨時間的變化特性:

式中:a(xi)t為主貼xi的回復加速度;r(xi)t為主貼xi在時間t的回復數;Δt為介于r(xi)t之間的時間粒度。同時,為了有效標示帖子生命周期的不同階段,定義狀態函數S(xi)t:R→{acc,growth,dec,death}進行描述:

式中:acc 和dec 對應于帖子生命周期的突發和衰退階段,在這2 個階段,帖子的回復量急劇攀升(a(xi)>>0)或強烈衰減(a(xi)<<0);growth 對應于帖子生命周期的成長階段,在該階段帖子每天的回復數幾乎是恒定的(或在某一非零常量周圍振蕩);death 對應于帖子生命周期的消亡階段,在該階段帖子回復數為0;θ1和θ2為預先設定的閾值;c(xi)t為常量0。
通過對帖子的熱度度量和熱度隨時間變化特性的識別,不僅可以有效地過濾掉熱度較低或已處于衰退和消亡階段的帖子,保留處于加速或成長階段的貼子,還可以對回復加速度急劇增加的帖子給予足夠的關注,而這些帖子往往容易發展成為突發性熱點話題。由去噪后保留下來的帖子建立主題集合ST={h1,h2,…,hm}。
如圖2 所示,論壇中若干個主題討論的可能是現實生活中的同一話題。在對主題進行有效聚類之前,需要對主題進行分詞,以抽取其中反映熱點話題主體特征的主題詞。與英文標題不同,中文標題是連續的,需要采用專業的中文分詞工具進行處理。本文采用中科院ICTCIAS(Institute of Computing Technology,Chinese Lexical Analysis System)分詞系統進行分詞,如“朝鮮今日宣布正計劃進行第三次核試驗”這一標題,通過分詞可以得到如下分詞結果:朝鮮/n 今日/t宣布/v 正/d 計劃/v 進行/v 第三/m 次/q 核試驗/n,抽取其中的名詞和動詞,并刪除重用詞,可以得到集合{朝鮮,宣布,計劃,進行,核試驗}。
實際操作中,對集合ST中的每一元素hi分別進行分詞處理,并建立集合hi={termj|1≤j≤n}。同時,考慮到許多主題討論的話題是現實中的新事件,勢必其中會包含許多ICTCIAS詞庫沒有的新詞匯,如“房妹”,“房姐”等,在分詞之前需要手動添加到ICTCIAS 詞庫中。
由于論壇中的多個主題討論的可能是同一個熱點話題,所以,關于同一話題的集合中會包含有相同的主題詞。例如集合 h1,h2,h3,分詞以后為h1={term1,term2,term3,term4},h2={term2,term3},h1={term1,term2,term3}。定義2 個集合間的Jaccard系數作為它們的相似度:

式中:hi,hj∈ ST。合并多個hi的算法如下:
輸入:ST={h1,h2,…,hm}和預設閾值η。
輸出:熱點話題集合H={H(hi)}。
Step 1:初始化主題集合ST,分為m 個主題h1,h2,…,hm。
Step 2:對于h1,h2,…,hm,選取max|hi|并且有sim(max|hi|,hj)≥η,加入到熱點話題集合H(hi)={hi,hj}中,否則轉入Step 3。
Step 3:ST=ST-H(hi),迭代計算轉入Step 2,從ST中再次選擇最大max|hi|,直到集合ST為空。
為了分析所提出的突發性熱點話題發現與跟蹤方法的效果,本文采用文獻[19]的Web 信息采集系統抓取的網易新聞論壇(http://bbs.news.163.com)2011-03-01— 2011-05-01 間的數據集。數據的詳細描述如表1所示。
我們事先對該數據集中的4 248 個帖子進行人工標注,這些帖子共包含2 716 個話題,并且有超過2 000個帖子是孤立的,而突發性熱點話題往往包含多個帖子。這說明在網絡論壇中需要對突發話題進行歸納與總結,以方便用戶及時全面了解發生的突發事件以及與這些事件相關的事件,從而幫助用戶節約大量的瀏覽時間,同時提高瀏覽質量。

表1 實驗數據集描述Table 1 Description of experimental data set
根據表1 中的統計結果和式(1),對數據集中的4248 個主貼進行熱度評分,得到如圖4 所示的主貼熱度時間分布圖,對應圖中右上方區域即是所需要的熱帖,但這只是一個感性的認識,為了快速發現熱帖,需要通過量化手段對該圖進行有效區域劃分。

圖4 主貼熱度的時間分布圖Fig.4 Distribution of entry posts in time
主貼要最終演變成突發性熱點話題,其對應的回帖數的線性增長是不夠的,一定要有“指數”級別的增長,即回帖數與突發性熱點話題的關系是指數關系而非線性關系。所以,取主貼回復數與主貼平均回復數比值的對數即lg(r(xi)/avgr(X))作為橫坐標,得到如圖5所示的主貼熱度分布圖。

圖5 主貼熱度在lg(r(xi)/avgr(X))上的分布Fig.5 Distribution of entry posts in lg(r(xi)/avgr(X))
利用閾值Vhotness>0.431 8(主貼平均熱度值),lg(r (xi)/avgr(X))>1來發現熱帖,結果如圖5 所示。其中在2 條虛線構成的4 個區間中,右上角的區間即是需要的熱帖。通過閾值選擇的熱帖數目有406 個。
在熱帖突發性特征的判斷上,為了確定式(5)的臨界閾值,以這一時間區間發生的“藥家鑫”事件為例,從上述406 個熱帖中提取出與此主題相關的具有突發性特征的主貼共計6 個。由于“藥家鑫”事件本身是該時間區間的熱點事件,所以,以此作為訓練樣本具有較高的可信度。實驗中,令Δt=1 并隨機向樣本中添加7 個與此主題無關的突發性熱帖,根據不同的閾值進行7 組實驗。實驗結果如圖6 所示。

圖6 不同閾值下的突發性熱帖發現效果Fig.6 Detection for bursty hot posts under different thresholds
從圖6 可以看出:當θ1=30 時,召回率、精確率以及F1均較高。所以在計算回復加速度時,取閾值θ1=30。依據式(4)和(5)統計上述406 個熱帖在各時間節點上的回復加速度,并移除不在預定閾值范圍內的熱帖。通過主貼回復加速度閾值的選擇,確定具有突發性特征的主貼有11 個。這表明通過對候選話題集進行噪音過濾以后,原本需要處理的4 248 個帖子,現在只需要處理11 個帖子。這種過濾方法不僅減小了發現算法的復雜度,同時也提高了發現算法的準確率。對應的11 個主貼的回復加速度變化情況如圖7 所示。
對上述11 個主貼標題進行分詞并采用2.3 節的聚類算法進行標題合并,得到的結果如表2 所示。
在突發性熱點話題跟蹤方面,以“藥家鑫”突發性熱點話題為例,統計6 個對應主貼在各個時間點上的回復加速度,計算其平均值,繪制如圖8 所示的平均回復加速度變化曲線。通過與實際事件的發展進程進行比對,表明其跟蹤效果與實際事件發展基本吻合。

圖7 突發性熱帖加速度時間變化圖Fig.7 Reply acceleration of hot posts changing over time

表2 突發性熱點話題Table 2 Bursty topics

圖8 “藥家鑫”事件突發性熱點話題發現與跟蹤Fig.8 Detection and tracking for “YAO Jiaxin” event
(1) 在網絡論壇突發性熱點話題研究中,提出了一種能快速發現并跟蹤突發性熱點話題的方法。該方法主要有以下特點:與以往的突發性熱點話題發現與跟蹤方法相比,該方法基于逐步求精的策略,在運行具體的發現與跟蹤算法之前,首先對論壇數據進行過濾以移除大量與主題無關的數據;為了提高發現精度并描述帖子的時變特性,將演化理論引入發現方法中;引入帖子回復加速度的概念來識別和量化帖子熱度隨時間的變化特性。
(2) 該方法在不進行語義分析和復雜網絡構建的條件下,可以對網絡論壇中的突發性熱點話題進行快速識別和有效跟蹤。
[1] 陳友, 程學旗, 楊森. 面向網絡論壇的高質量主題發現[J]. 軟件學報, 2011, 22(8): 1785-1804.CHEN You, CHENG Xueqi, YANG Sen. Finding high quality threads in web forums[J]. Journal of Software, 2011, 22(8):1785-1804.
[2] 席耀一, 林琛, 李弼程, 等. 基于語義相似度的論壇話題追蹤方法[J]. 計算機應用, 2011, 31(1): 93-97.XI Yaoyi, LIN Chen, LI Bicheng, et al. Method for BBS topic tracking based on semantic similarity[J]. Journal of Computer Applications, 2011, 31(1): 93-97.
[3] 薛峰, 周亞東, 高峰, 等. 一種突發性熱點話題在線發現與跟蹤方法[J]. 西安交通大學學報, 2011, 45(12): 64-69.XUE Feng, ZHOU Yadong, GAO Feng, et al. An online detection and tracking method for bursty topics[J]. Journal of Xi’an Jiaotong University, 2011, 45(12): 64-69.
[4] MA Huifang. Hot topic extraction using time window[C]//IEEE International conference on machine learning and cybernetics(ICMLC). Guilin, China, 2011: 56-60.
[5] 邱云飛, 程亮. 微博突發話題檢測方法研究[J]. 計算機工程,2012, 38(9): 288-290.QIU Yunfei, CHENG Liang. Research on sudden topic detection method for microblog[J]. Computer Engineering, 2012, 38(9):288-290.
[6] 吳渝, 楊濤, 肖開洲. BBS 突發輿情分析及基于小世界網絡的預測模型[J]. 重慶郵電大學學報(自然科學版), 2010, 22(3):350-354.WU Yu, YANG Tao, XIAO Kaizhou. Analysis of emergent BBS sentimentandits prediction model based on small world network[J]. Journal 0f Chongqing University of Posts and Telecommunications (Natural Science Edition), 2010, 22(3):350-354.
[7] LIU Zheng, Yu J X. Discovering burst areas in fast evolving graphs[C]//The 15th International Conference on Database Systems for Advanced Applications (DASFAA). Tsukuba, Japan,2010: 171-185.
[8] 王林, 戴冠中. 基于復雜網絡社區結構的論壇熱點主題發現[J]. 計算機工程, 2008, 34(11): 214-216, 224.WANG Lin, DAI Guanzhong. Forum Hot topic detection based on community structure of complex networks[J]. Computer Engineering, 2008, 34(11): 214-216, 224.
[9] 莊經緯. 基于社會網絡分析方法和數據挖掘方法的網絡論壇定量分析[D]. 重慶: 重慶大學經濟與工商管理學院, 2010:36-41.ZHUANG Jingwei. The quantitative analysis of BBS based on social network analysis and data mining[D]. Chongqing:Chongqing University. College of Economics and Business Administration, 2010: 36-41.
[10] Saito K, Ohara K, Kimura M, et al. Burst detection in a sequence of tweets based on information diffusion model[C]//The 15th International Conference on Discovery Science. Lyon, France,2012: 239-253.
[11] ZHU Mingliang, HU Weiming, WU Ou. Topic detection and tracking for threaded discussion communities[C]//2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Sydney, Australia, 2008:77-83.
[12] 姚曉娜. BBS 熱點話題挖掘與觀點分析[D]. 大連: 大連海事大學信息科學技術學院, 2008: 36.YAO Xiaona. Hot topic mining and opinion analysis on BBS[D].Dalian: Dalian Maritime University. Information Science and Technology College, 2008: 36.
[13] 劉驊, 朱慶華. 基于標題的BBS 熱點話題挖掘—以南京大學小百合BBS 為例[J]. 現代情報, 2013, 33(1): 162-166.LIU Hua, Zhu Qinghua. Hot topic mining based on titles in BBS-Taking lily BBS in Nanjing University as an example[J].Journal of Modern Information, 2013, 33(1): 162-166.
[14] 祝華新, 單學剛, 胡江春. 2011 年中國互聯網輿情分析報告[EB/OL]. http://yuqing.people.com.cn/n/2012/0727/c209170-18615551.html, 2012-07-07.ZHU Huaxin, SHAN Xuegang, HU Jiangchun. Report of 2011 China Internet public opinion analysis[EB/OL]. http://yuqing.people.com.cn/n/2012/0727/c209170-18615551.html, 2012-07-07.
[15] 焦超. 網絡突發事件推手檢測與熱點預測研究[D]. 上海:上海交通大學信息安全工程學院, 2012: 14.JIAO Chao. Research on drive force detect and heat forecast of network emergency[D]. Shanghai Jiao Tong University. School of Information Security Engineering, 2012: 14.
[16] 盧珺珈, 張宏莉, 張玥. 基于BBS 的熱點話題發現與態勢預測技術的研究[J]. 智能計算機與應用, 2012, 2(2): 1-5.LU Junjia, ZHANG Hongli, ZHANG Yue. Research on the technology of hot topics foundation and trend forecast in BBS[J].Intelligent Computer and Applications, 2012, 2(2): 1-5.
[17] Chen C C, Chen Y T, Sun Y, et al. Life cycle modeling of news events using aging theory[C]//The 14th European Conference on Machine Learning(ECML). Cavtat-Dubrovnik, Croatia, 2003:47-59.
[18] Gaito S, Zignani M, Rossi G P, et al. On the bursty evolution of online social networks[C]//ACM International Workshop on Hot Topics on Interdisciplinary Social Networks Research (Hot Social). New York, USA, 2012: 1-8.
[19] 彭冬, 蔡皖東. 面向Web 論壇的網絡信息獲取技術及系統實現[J]. 計算機工程與科學, 2011, 33(1): 157-160.PENG Dong, CAI Wandong. The web forum crawling technology and system implementation[J]. Computer Engineering and Science, 2011, 33(1): 157-160.