基于Single-Pass的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)算法

2015-10-09 11:31:00格桑多吉喬少杰張小松元昌安

電子科技大學(xué)學(xué)報(bào) 2015年4期

關(guān)鍵詞：文本

格桑多吉，喬少杰，韓楠，張小松，楊燕，元昌安，康健

(1. 西藏大學(xué)藏文信息技術(shù)研究中心拉薩 850000; 2. 西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院成都 610031; 3. 西南交通大學(xué)生命科學(xué)與工程學(xué)院成都 610031; 4. 電子科技大學(xué)大數(shù)據(jù)研究中心成都 611731; 5. 廣西師范學(xué)院科學(xué)計(jì)算與智能信息處理廣西高校重點(diǎn)實(shí)驗(yàn)室南寧 530023)

基于Single-Pass的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)算法

格桑多吉1，喬少杰2，韓楠3，張小松4，楊燕2，元昌安5，康健2

考慮網(wǎng)絡(luò)事件的時(shí)間距離，基于半結(jié)構(gòu)化網(wǎng)頁中不同位置特征項(xiàng)重要程度的不同，提出改進(jìn)的single-pass文本聚類算法single-pass*，優(yōu)勢(shì)在于對(duì)Web文本不同位置特征項(xiàng)的加權(quán)處理，僅需計(jì)算新文檔與同類別種子文檔間的相似度。實(shí)驗(yàn)結(jié)果表明，相比single-pass，改進(jìn)算法極大減少了漏檢率和錯(cuò)檢率，降低了由于新文本流內(nèi)文檔進(jìn)行相似度計(jì)算導(dǎo)致系統(tǒng)性能的下降，平均提高Web文本聚類效率40%。將聚類后的Web文本應(yīng)用于網(wǎng)絡(luò)輿情分析，進(jìn)行主題關(guān)注度分析和話題熱度特性分析。

輿情分析; single-pass; 文本聚類; 話題發(fā)現(xiàn)

話題發(fā)現(xiàn)和跟蹤是指新聞專線和廣播新聞等來源的新聞數(shù)據(jù)流中自動(dòng)地發(fā)現(xiàn)話題并把話題相關(guān)的內(nèi)容組織到一起的技術(shù)。通過增量的文檔聚類的方法，信息流被聚集到有限的話題類簇中，類內(nèi)高度相似，不同的類間相似度較低，以此進(jìn)行海量數(shù)據(jù)的融合。熱點(diǎn)輿情話題是話題輿情中受關(guān)注度最大，影響也較為突出的輿情，旨在從半結(jié)構(gòu)化海量Web數(shù)據(jù)中獲取相應(yīng)的主題并進(jìn)行整合，以新的熱點(diǎn)事件分析并了解熱點(diǎn)話題事件的發(fā)展。熱點(diǎn)話題分析對(duì)輿情分析具有較大的實(shí)際意義，可以及時(shí)向網(wǎng)絡(luò)監(jiān)控部門提供網(wǎng)民關(guān)注焦點(diǎn)，輔助網(wǎng)絡(luò)輿情分析。

隨著網(wǎng)絡(luò)輿情及預(yù)警機(jī)制研究的廣泛深入和迫切性，話題發(fā)現(xiàn)和跟蹤的研究已經(jīng)成為當(dāng)前的研究熱點(diǎn)。卡內(nèi)基梅隆大學(xué)采用經(jīng)典的single-pass算法識(shí)別新聞中的事件[1]。文獻(xiàn)[2]結(jié)合新聞要素提出了基于動(dòng)態(tài)進(jìn)化模型的新聞事件話題發(fā)現(xiàn)算法，應(yīng)用基于時(shí)間距離的相似度計(jì)算模型自動(dòng)對(duì)新聞資料進(jìn)行組織，生成新聞專題。文獻(xiàn)[3]提出了利用single-pass對(duì)新聞事件在線聚類進(jìn)而實(shí)現(xiàn)話題發(fā)現(xiàn)的算法。文獻(xiàn)[4]提出了一種基于multi-agent的思想single-pass聚類，使用分散的自底向上和自組織策略對(duì)相似的數(shù)據(jù)點(diǎn)進(jìn)行分類。文獻(xiàn)[5]提出基于詞共現(xiàn)圖的識(shí)別中文微博新聞話題的方法，綜合相對(duì)詞頻和詞頻增加率這兩個(gè)因素抽取微博數(shù)據(jù)中的主題詞。文獻(xiàn)[6]基于文本重建的網(wǎng)絡(luò)話題發(fā)現(xiàn)模型，用主題區(qū)域發(fā)現(xiàn)話題并將其應(yīng)用于整個(gè)文檔中以區(qū)分子話題。文獻(xiàn)[7]提出了一種中文微博熱點(diǎn)話題發(fā)現(xiàn)方法，不足之處在于僅進(jìn)行了中文話題發(fā)現(xiàn)，不支持多語言的話題發(fā)現(xiàn)與跟蹤。本文研究的不同點(diǎn)在于：1)基于事件時(shí)間的先后引入了時(shí)間距離特性的相似度計(jì)算模型；2) 所提算法支持中、英、藏文等不同字符集的話題發(fā)現(xiàn)；3) 在話題發(fā)現(xiàn)基礎(chǔ)上進(jìn)行網(wǎng)絡(luò)輿情分析工作。

1 話題發(fā)現(xiàn)與跟蹤

1.1 文本特征提取

文本的表征有諸多方法，如布爾模型、向量空間模型、概率模型等，其中向量空間模型是在應(yīng)用中廣為采用的模型，首先被用于信息檢索系統(tǒng)。通常，文檔被表示為向量，每一維均對(duì)應(yīng)獨(dú)立的詞。每篇文檔，均可以表示為規(guī)范化的特征向量：

式中，ti表示第i個(gè)特征項(xiàng)；wi表示特征項(xiàng)ti在文本d中的權(quán)重，所有的文本向量構(gòu)成文本集的一個(gè)特征向量。文本向量中權(quán)重值的求取最為有效的方法是使用tf-idf模型，tf稱為詞頻，計(jì)算該詞描述一篇文檔內(nèi)容的能力。其中，idf稱為逆文檔頻率，計(jì)算該詞區(qū)分文檔的能力。

1.2 加權(quán)詞頻因子tf

tf-idf是詞頻和逆文檔頻率兩項(xiàng)的乘積，有多種方法用于獲取兩種統(tǒng)計(jì)詞頻的精確值。使用在某篇文檔中的原始詞頻是最簡(jiǎn)化的選擇，如詞t在文檔d中出現(xiàn)的次數(shù)。已知f(t, d)表示t的頻率，那么tf的計(jì)算公式是tf(t, d) = f(t, d)。值得注意的是，本文結(jié)合了出現(xiàn)在文檔中不同位置的詞的特性，如meta中keyword、title和description等關(guān)鍵詞在文檔中的權(quán)重，因此tf的計(jì)算公式表示為：

式中，f(body)表示特征詞t在Web文檔的body標(biāo)簽位置出現(xiàn)的次數(shù)；f(meta)是在文檔標(biāo)題與描述中特征詞出現(xiàn)的數(shù)目；w1、w2、w3是權(quán)重系數(shù)，取值分別表示某個(gè)事件的關(guān)鍵信息，即事件名稱、地點(diǎn)及組織這3個(gè)特征詞。為了保持一致，本文采用文獻(xiàn)[8]中權(quán)值的設(shè)置方法：

事件地點(diǎn)和組織的設(shè)置方法同事件名稱。w4= 3，表示網(wǎng)頁中meta中的keyword、title和description的權(quán)重。

1.3 逆文檔頻率idf

如果一個(gè)詞在很多文檔中出現(xiàn)過，則通過這個(gè)詞來區(qū)分文檔的區(qū)分度越小，可以用逆文檔頻率idf來度量，表示包含某個(gè)詞的文檔數(shù)目：

式中，n代表文檔的數(shù)量；m表示出現(xiàn)特征詞的文檔數(shù)量；0.01是為了防止n/m=0時(shí)對(duì)數(shù)值為1。綜上所述，特征詞的tf-idf值的計(jì)算公式如下：

1.4 話題模型和相似度計(jì)算

通常話題模型包含質(zhì)心向量方法和中心向量方法。不準(zhǔn)確中心向量的選擇極易導(dǎo)致后續(xù)增量聚類結(jié)果的錯(cuò)誤。對(duì)于一篇新文檔，需要遍歷在某指定類別中的所有文檔，這樣隨著文檔數(shù)量的增加，算法的運(yùn)行效率會(huì)降低。為此，本文提出了種子話題的概念，即在一個(gè)文檔類中，選擇若干文檔代表某一話題。此外，在文本相似度計(jì)算中，本文僅需計(jì)算新文檔和種子文檔間的余弦相似度。

式(6)和式(7)中，di表示新文檔的特征向量；dj表示某個(gè)話題的第j個(gè)種子話題的特征向量；M表示特征向量的維度；wik表示新文檔i的特征向量的第k個(gè)權(quán)重；wjk表示第j個(gè)種子話題特征向量的第k個(gè)權(quán)重；sim(di, dj)表示新文檔和一個(gè)類別中某一種子的相似度；表示新文檔特征向量和某類中第j個(gè)種子話題特征向量的平均相似度。

1.5 網(wǎng)絡(luò)事件的時(shí)效性

考慮到相似的事件可能在不同時(shí)間段發(fā)生的情況，本文引入報(bào)道時(shí)間距離的概念，對(duì)新聞報(bào)道與話題的相似性計(jì)算利用時(shí)間距離進(jìn)行綜合衡量。對(duì)大量新聞報(bào)道研究發(fā)現(xiàn)，時(shí)間相距較遠(yuǎn)的兩篇內(nèi)容相似報(bào)道中出現(xiàn)的特征詞往往非常相似。如果不考慮這兩篇Web報(bào)道的時(shí)間距離，single-pass聚類算法會(huì)將不相關(guān)話題聚為同一類，因此引入時(shí)間距離來進(jìn)一步區(qū)分文檔類別，時(shí)間距離計(jì)算方法如下：

式中，td表示報(bào)道d出現(xiàn)的時(shí)間；tch是與話題c相關(guān)第一篇報(bào)道時(shí)間；tce是話題c最近一篇報(bào)道時(shí)間。改進(jìn)后報(bào)道d和話題c間相似度計(jì)算公式如下：

式中，sim(d, c)利用式(6)計(jì)算；dis(d, c)由式(8)求取。改進(jìn)的文本相似度計(jì)算方法既考慮了文檔內(nèi)容相似度的影響，又考慮了時(shí)間因素的影響，α和β是對(duì)這兩種因素所賦予的權(quán)值，其中，α+β=1。

2 基于single-pass算法的話題發(fā)現(xiàn)

2.1 single-pass聚類算法

single-pass算法采用增量聚類的方式將文本向量與已有話題內(nèi)的報(bào)道進(jìn)行比對(duì)，計(jì)算文本相似度進(jìn)行匹配。若與某個(gè)話題類別匹配，則把該文本歸入該話題，若該文本域所有話題類別的相似度均小于某一閾值，則將該文本表示成新的種子話題。single-pass聚類算法步驟如下：1) 輸入新文檔d；2) 計(jì)算d與已有話題分類中每篇文檔的相似度，獲取與d相似度最大的話題并得到相似度值T；3) 若T大于閾值θ，則文檔d被分類到已知的話題類別，否則作為一個(gè)新的話題類別；4) 聚類過程結(jié)束。

2.2 single-pass*聚類算法

通過引入種子話題和在網(wǎng)頁中不同位置的文本信息要素加入權(quán)重，本文提出了一種改進(jìn)的single-pass*聚類算法，區(qū)別在于：1) 引入了種子話題；2) 計(jì)算網(wǎng)頁不同位置的特征項(xiàng)權(quán)重，僅計(jì)算新文檔和類別種子文檔間的相似度。算法如下：

算法 1 基于single-pass的話題發(fā)現(xiàn)算法。輸入：Web文檔集合T，話題種子文檔集合S；輸出：聚類后的話題文檔集合T′。

Initialize T and S;

for (Ti∈T) do{

for (Sj∈S) do{

if ((S= =null) && (T != null))

}

if (!C.isEmpty){

sort(C);

if (S.size() ξ)

{Sk←insertSeedDoc(Ti);}

}

else{

create a new topic t;

t.setId(S.size()+1);

t.setTopic(Ti);

S.add(t);

}

output(T′);

算法基本思想為：1) 對(duì)文檔進(jìn)行向量空間模型規(guī)范化處理(第1行語句)，每篇文檔都由一個(gè)對(duì)象集合組成，對(duì)新文檔集合進(jìn)行遍歷，計(jì)算新文檔與每個(gè)話題類中種子文檔對(duì)象間的平均相似度(第2～5行語句)，若相似度大于已知的相似度閾值θ，將此新文檔與當(dāng)前文檔類的平均相似度和類標(biāo)加入到集合C中(第6～9行語句)，2) 根據(jù)平均相似度大小對(duì)C中對(duì)象進(jìn)行排序，獲取平均相似度最大值所對(duì)應(yīng)的類標(biāo)，將新文檔加入到對(duì)應(yīng)的種子文檔中(第10～11行語句)。若當(dāng)前類標(biāo)的種子數(shù)目與原始話題種子話題數(shù)目的比值k大于閾值ξ，并且當(dāng)前種子文檔的數(shù)目小于l，將當(dāng)前文檔插入到本類文檔列表中(第12～15行語句)；若C為空，說明此時(shí)沒有相應(yīng)的類別與新文檔相似度大于閾值，新建文檔分類(第16～17行語句)，并將新文檔加入到此類的種子文檔集合中，根據(jù)當(dāng)前新文檔對(duì)象列表循環(huán)迭代上述操作(第18～22行語句)。最后，輸出聚類后的話題文檔集合T′(第23行語句)。

3 實(shí)驗(yàn)及算法性能分析

3.1 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

實(shí)驗(yàn)中采用的評(píng)測(cè)標(biāo)準(zhǔn)包括：漏檢率M、錯(cuò)檢率F和錯(cuò)誤識(shí)別代價(jià)Cost[9]。

表1 話題發(fā)現(xiàn)評(píng)價(jià)標(biāo)準(zhǔn)

定義漏檢率M=C/(A+C)，錯(cuò)檢率F=B/(B+D)。類似于F-measure，話題檢測(cè)與跟蹤引入了耗費(fèi)代價(jià)函數(shù)對(duì)結(jié)果進(jìn)行綜合評(píng)價(jià)，定義為：

式中，wm是漏檢率系數(shù)；wf是錯(cuò)檢率系數(shù)；p是文檔歸屬某一話題的先驗(yàn)概率。

3.2 實(shí)驗(yàn)數(shù)據(jù)

本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)網(wǎng)頁抓取器，實(shí)驗(yàn)中中文Web數(shù)據(jù)來源于新浪和搜狐網(wǎng)站的專欄，藏文數(shù)據(jù)來源于藏文門戶網(wǎng)站。其中，中文事件分為10類，藏文事件分為6類。

3.3 話題發(fā)現(xiàn)評(píng)價(jià)及分析

實(shí)驗(yàn)利用IKAnalyzer中文分詞工具包對(duì)中文進(jìn)行分詞，利用文獻(xiàn)[10]中使用的藏文分詞算法對(duì)藏文文本進(jìn)行分詞，構(gòu)建向量空間模型。single-pass算法中的閾值θ和ξ分別設(shè)置為0.02和0.15，取值依據(jù)是通過大量實(shí)驗(yàn)，參數(shù)調(diào)節(jié)得到的最優(yōu)值。

1) 中文話題發(fā)現(xiàn)評(píng)價(jià)

從中文實(shí)驗(yàn)語料庫中整理出10個(gè)話題，每個(gè)話題包括90～120篇報(bào)道。實(shí)驗(yàn)主要采用3.1節(jié)給出的話題檢測(cè)與跟蹤評(píng)價(jià)指標(biāo)，結(jié)果如表2～表4所示。

表2 single-pass算法中文話題發(fā)現(xiàn)結(jié)果

表3 single-pass*算法中文話題發(fā)現(xiàn)結(jié)果

表2和表3分別為single-pass和single-pass*文本聚類算法的實(shí)驗(yàn)結(jié)果，話題文本流被聚為10類，如馬航客機(jī)、云南昭通地震等。通過結(jié)果可以發(fā)現(xiàn)，single-pass*算法的性能明顯優(yōu)于single-pass。

表4 中文Web文本下算法性能比較

如表4所示，在實(shí)驗(yàn)參數(shù)和實(shí)驗(yàn)文本數(shù)據(jù)一致的情況下，single-pass*算法的平均漏檢率和平均錯(cuò)檢率均低于single-pass算法，漏檢率平均減少41.2%，錯(cuò)檢率平均減少27.3%。原因在于：對(duì)Web文本不同位置的特征詞加權(quán)值使文檔的屬性標(biāo)注更加準(zhǔn)確，同時(shí)對(duì)固定維度的種子文檔進(jìn)行文本相似度計(jì)算使文檔歸類更加有效，從而在漏檢率和錯(cuò)檢率指標(biāo)上都有所降低。

2) 藏文話題發(fā)現(xiàn)評(píng)價(jià)

從藏文實(shí)驗(yàn)語料庫中每個(gè)話題包括86～1 441篇報(bào)道，實(shí)驗(yàn)結(jié)果如表5～表7所示。

表5 single-pass算法藏文文本發(fā)現(xiàn)結(jié)果

表6 single-pass*算法藏文文本發(fā)現(xiàn)結(jié)果

表7 藏文Web文本下算法性能比較

改進(jìn)算法在處理藏文Web文本上優(yōu)勢(shì)依然明顯，在漏檢率和錯(cuò)檢率上較single-pass算法都有較大的改善，原因與中文話題發(fā)現(xiàn)相同。

3.4 算法運(yùn)行時(shí)間比較

本節(jié)討論single-pass*與single-pass運(yùn)行時(shí)間，實(shí)驗(yàn)結(jié)果如圖1所示?？梢园l(fā)現(xiàn)single-pass*算法的時(shí)間消耗明顯低于single-pass算法，平均降低40%。原因是改進(jìn)后的算法僅需計(jì)算新文檔與指定數(shù)目的代表事件類別的種子節(jié)點(diǎn)的相似度，不需要與包含所有事件的文檔進(jìn)行比較，減少了計(jì)算時(shí)間。

圖1 算法運(yùn)行時(shí)間對(duì)比

3.5 Web話題輿情分析

對(duì)Web文本應(yīng)用single-pass*算法進(jìn)行文本聚類的主要目的是在聚類產(chǎn)生的不同主題類中進(jìn)行輿情分析。主題關(guān)注度是指過去某一時(shí)間段內(nèi)，輿情主題被關(guān)注的程度。時(shí)間段t1～t2內(nèi)關(guān)于輿情主題S的主題關(guān)注度：

式中，rS(t)表示關(guān)于某一個(gè)輿情主題S的相關(guān)頁數(shù)隨時(shí)間的變化。

以固定時(shí)間間隔作為統(tǒng)計(jì)周期，主題關(guān)注度用Pi(i∈[1, 5])表示，如：P1={2009.4～2011.10}。表8顯示5個(gè)不同時(shí)間段內(nèi)部分輿情的主題關(guān)注度，圖2顯示熱點(diǎn)話題主題關(guān)注度隨周期的變化。

表8 話題主題關(guān)注度分析

圖2 藏文新聞主題關(guān)注度趨勢(shì)分析

為了進(jìn)一步驗(yàn)證輿情主題關(guān)注度算法的性能，觀察隨著文本數(shù)量的增加，主題關(guān)注度分析方法的時(shí)間性能的變化如圖3所示。通過圖3可以發(fā)現(xiàn)，算法運(yùn)行時(shí)間近似呈線性增長(zhǎng)，與式(11)的定義吻合。

圖3 不同文本數(shù)量下主題關(guān)注度算法運(yùn)行時(shí)間

4 結(jié) 束語

IT技術(shù)與互聯(lián)網(wǎng)的迅猛發(fā)展，數(shù)據(jù)存儲(chǔ)量爆炸性地增長(zhǎng)，并行處理與計(jì)算已經(jīng)成為越來越重要的數(shù)據(jù)挖掘的問題。從大數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的知識(shí)需要各種高效的數(shù)據(jù)挖掘算法。single-pass聚類算法能夠高效地發(fā)現(xiàn)話題，通過引入話題種子的概念，本文提出了改進(jìn)的single-pass聚類算法。實(shí)驗(yàn)結(jié)果表明，本文提出的Web文本聚類算法不僅能夠提高聚類的質(zhì)量，即在漏檢率、錯(cuò)檢率和時(shí)間開銷等方面均有所改善，而且對(duì)網(wǎng)絡(luò)輿情分析的研究具有較好的應(yīng)用價(jià)值。

[1] BAEZA-YATES R, RIBEIRO-NETO B. Modern information retrieval[M]. Boston, USA: Addison Wesley, 2000.

[2] 賈自艷, 何清, 張?？? 等. 一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2004, 41(7): 1273-1280. JIA Zi-yan, HE Qing, ZHANG Hai-jun, et al. A news event detection and tracking algorithm based on dynamic evolution model[J]. Journal of Computer Research and Development, 2004, 41(7): 1273-1280.

[3] GONG Z, JIA Z, LUO S, et al. An adaptive topic tracking approach based on single-pass clustering with sliding time window[C]//Proceedings of the 2011 International Conference on Computer Science and Network Technology. Washington DC, USA: IEEE Computer Society, 2011: 1311-1314.

[4] FORESTIERO A, CLARA P, GIANDOMENICO S. A single pass algorithm for clustering evolving data streams based on swarm intelligence[J]. Data Mining and Knowledge Discovery, 2013, 26(1): 1-26.

[5] 趙文清, 侯小可. 基于詞共現(xiàn)圖的中文微博新聞話題識(shí)別[J]. 智能系統(tǒng)學(xué)報(bào), 2012, 7(5): 444-449. ZHAO Wen-qing, HOU Xiao-ke. News topic recognition of Chinese microblog based on word co-occurrence graph[J]. CAAI Transactions on Intelligent Systems, 2012, 7(5): 444-449.

[6] ZHU Z, WANG P, JIA Z, et al. Network topic detection model based on text reconstructions[J]. Informatica, 2013, 37(4): 367-372.

[7] YANG C, YANG J, DING H, et al. A hot topic detection approach on Chinese microblogging[C]//Proceedings of the International Conference on Information Engineering and Applications (IEA) 2012. London: Springer, 2013: 411-420.

[8] 稅儀冬, 瞿有利，黃厚寬, 等. 周期分類和Single-Pass聚類相結(jié)合的話題識(shí)別與跟蹤方法[J]. 北京交通大學(xué)學(xué)報(bào), 2009, 33(5): 85-87. SHUI Yi-dong, QU You-li, HUANG Hou-kuan, et al. A new topic detection and tracking approach combining periodic classification and single-pass clustering[J]. Journal of Beijing Jiaotong University, 2009, 33(5): 85-87.

[9] 張曉燕, 王挺. 話題發(fā)現(xiàn)與追蹤技術(shù)研究[J]. 計(jì)算機(jī)科學(xué)與探索, 2009, 3(4): 347-357. ZHANG Xiao-yan, WANG Ting. Research of technologies on topic detection and tracking[J]. Journal of Frontiers of Computer Science and Technology, 2009, 3(4): 347-357.

[10] 康健, 喬少杰, 格桑多吉, 等. 基于群體智能的半結(jié)構(gòu)化藏文文本聚類算法[J]. 模式識(shí)別與人工智能, 2014, 27(7): 663-671. KANG Jian, QIAO Shao-qie, GESANG Duoji, et al. A semi- structured Tibetan text clustering algorithm based on swarm intelligence[J]. Pattern Recognition and Artificial Intelligence, 2014, 27(7): 663-671.

編輯蔣曉

An Internet Public Opinion Hotspot Detection Algorithm Based on Single-Pass

GESANG Duoji1, QIAO Shao-jie2, HAN Nan3, ZHANG Xiao-song4, YANG Yan2, YUAN Chang-an5, and KANG Jian2
(1. Tibetan Information Technology Research Center, Tibet University Lasa 850000; 2. School of Information Science and Technology, Southwest Jiaotong University Chengdu 610031; 3. School of Life Science and Engineering, Southwest Jiaotong University Chengdu 610031; 4. Big Data Research Center, University of Electronic Science and Technology of China Chengdu 611731; 5. Science Computing and Intelligent Information Processing of Guangxi Higher Education Key Laboratory, Guangxi Teachers Education University Nanning 530023)

By considering the time interval of Internet events as well as the importance of different feature items from semi-structured Web documents in different locations, an improved single-pass text clustering algorithm called single-pass* is proposed. The advantage is that it assigns the weight value to different feature items from different locations on the Web pages, and only needs to calculate the similarity between the new document and its seed document. Experimental results show that, compared to the single-pass algorithm, the improved algorithm can reduce the missing rate, the error detection rate, and the degradation of system performance caused by computing the topic similarity of documents in new Web data stream, and improve the clustering efficiency at an average rate of 40%. The clustered Web texts can be used to analyze the Internet opinion including the topic relevant degree and the hot degree.

public opinion analysis; single-pass; text clustering; topic detection

TP312

A doi:10.3969/j.issn.1001-0548.2015.04.021

2014 ? 11 ? 07；

2015 ? 05 ? 13

國(guó)家自然科學(xué)基金(61100045, 61165013)；高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(20110184120008)；中國(guó)博士后科學(xué)基金特別資助項(xiàng)目(201104697)；教育部人文社會(huì)科學(xué)研究青年基金(14YJCZH046)；中央高?；究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(2682013BR023)；科學(xué)計(jì)算與智能信息處理廣西高校重點(diǎn)實(shí)驗(yàn)室開放課題資助(GXSCIIP201407)；四川省教育廳資助科研項(xiàng)目(14ZB0458).

格桑多吉(1972 ? )，男，副教授，主要從事藏文信息處理、Web文本挖掘方面的研究.

基于Single-Pass的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)算法

1 話題發(fā)現(xiàn)與跟蹤

2 基于single-pass算法的話題發(fā)現(xiàn)

3 實(shí)驗(yàn)及算法性能分析

4 結(jié) 束 語

4 結(jié) 束語