999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于快速高效用項(xiàng)集挖掘的大規(guī)模消息流預(yù)測(cè)算法研究與應(yīng)用

2019-11-12 05:02:04穆曉芳鄧紅霞郭虎升太原師范學(xué)院計(jì)算機(jī)系山西太原0069

穆曉芳 鄧紅霞 郭虎升 趙 鵬(太原師范學(xué)院計(jì)算機(jī)系 山西 太原 0069)

2(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院 山西 太原 030024)3(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 山西 太原 030006)

0 引 言

隨著社交媒體、新聞APP以及自動(dòng)推薦系統(tǒng)的廣泛應(yīng)用,導(dǎo)致網(wǎng)絡(luò)中每天產(chǎn)生許多突發(fā)事件,成功預(yù)測(cè)出這些突發(fā)事件有助于遏制惡劣事件的傳播與發(fā)酵,或者及時(shí)地預(yù)知網(wǎng)絡(luò)的熱點(diǎn)信息[1-2]。網(wǎng)絡(luò)的話題預(yù)測(cè)方法大體可分為三種類(lèi)型[3]:(1) 搜索文檔集中的共生詞組,將其作為特征;(2) 比較文檔或消息流之間的相似性;(3) 通過(guò)預(yù)測(cè)詞匯關(guān)于話題的概率分布。上述三類(lèi)預(yù)測(cè)方法的計(jì)算成本與存儲(chǔ)成本均較高,難以應(yīng)用于大規(guī)模的互聯(lián)網(wǎng)場(chǎng)景。

根據(jù)許多相關(guān)研究的成果[4],對(duì)話題中的關(guān)鍵詞進(jìn)行分析,便足以識(shí)別出突發(fā)話題的趨勢(shì),僅分析話題的關(guān)鍵詞極大地降低了處理的難度[5]。詞頻是判斷突發(fā)話題的一個(gè)核心判斷依據(jù),詞頻高低反映了其熱門(mén)程度,但僅僅依靠詞頻一個(gè)指標(biāo)所獲得的檢測(cè)準(zhǔn)確率較低,因此許多研究人員將詞頻與其他的指標(biāo)進(jìn)行了結(jié)合,例如:詞頻與傳播影響力度量[6]、信息密度變化[7]、粉絲關(guān)系和用戶(hù)活躍度的話題傳播模型[8]等。這些方法對(duì)突發(fā)話題的評(píng)估指標(biāo)進(jìn)行了深入的分析,但在話題檢測(cè)的過(guò)程中需要針對(duì)大規(guī)模的消息流進(jìn)行搜索與排序處理,該處理過(guò)程的計(jì)算成本與存儲(chǔ)成本均十分龐大。

高效用項(xiàng)集(High Utility Itemset,HUI)挖掘[9]是一種針對(duì)實(shí)時(shí)消息流的處理模型,該模型中包括了多種有效的數(shù)據(jù)結(jié)構(gòu),例如:PreHU-tree[9]、HUIL-Tree[10]等,能夠有效地提高挖掘的時(shí)間效率與存儲(chǔ)效率。當(dāng)前的top-k高效用頻繁項(xiàng)集挖掘算法[11-12]對(duì)于稀疏數(shù)據(jù)庫(kù)的挖掘效率較好,但對(duì)于密集數(shù)據(jù)集的挖掘效率較低。

消息流的話題數(shù)據(jù)是一種大規(guī)模的密集數(shù)據(jù)集,為了提高top-k高效用項(xiàng)集挖掘算法對(duì)于話題類(lèi)密集數(shù)據(jù)集的挖掘效果,設(shè)計(jì)了動(dòng)態(tài)的top-k項(xiàng)集挖掘算法,在挖掘的早期階段大幅度地提高最小效用閾值。在挖掘過(guò)程中設(shè)計(jì)了三角項(xiàng)集效用樹(shù)結(jié)構(gòu)(Triangle Itemset Utility Tree,TIU-tree)數(shù)據(jù)結(jié)構(gòu)來(lái)保存項(xiàng)集的效用信息,降低了保存效用信息的存儲(chǔ)成本。針對(duì)話題設(shè)計(jì)了專(zhuān)門(mén)的Topic-tree數(shù)據(jù)結(jié)構(gòu),有助于提高候選項(xiàng)集的搜索速度與存儲(chǔ)效率。

1 高效用項(xiàng)集挖掘的問(wèn)題模型

設(shè)I={i1,i2,…,im}為一個(gè)項(xiàng)集,Tj={xl|l=1,2,…,Nj,?xl∈I}為一個(gè)會(huì)話,Nj是會(huì)話Tj的項(xiàng)目數(shù)量。若干的會(huì)話組成一個(gè)會(huì)話數(shù)據(jù)庫(kù)D,D={T1,T2,…,Tn},n為數(shù)據(jù)庫(kù)的會(huì)話總量。集合X{x1,x2,…,xp}?I表示p-項(xiàng)集。

定義1每個(gè)項(xiàng)目xi∈I的外部效用表示為ext_util(xi)。本模型中外部效用反映了每個(gè)詞匯在檢測(cè)新主題時(shí)的重要性。

定義2每個(gè)項(xiàng)目xi∈Tj的內(nèi)部效用定義為項(xiàng)目在會(huì)話中的頻率,表示為inter_util(xi,Tj)。

定義3每個(gè)項(xiàng)目xi∈Tj的總效用U(xi,Tj)計(jì)算為內(nèi)部效用與外部效用的乘積:

U(xi,Tj)=ext_util(xi)·iter_util(xi,Tj)

(1)

定義4會(huì)話Tj中項(xiàng)集X的效用表示為U(X,Tj):

(2)

定義5數(shù)據(jù)庫(kù)D中項(xiàng)集X的效用表示為U(X):

(3)

定義6會(huì)話Tj的會(huì)話效用TU(Tj)定義為:

(4)

定義7項(xiàng)集X的加權(quán)會(huì)話效用TWU(X)定義為:

(5)

定義8會(huì)話Tj中項(xiàng)集X之后的所有項(xiàng)集定義為T(mén)j/X。

定義9會(huì)話Tj中項(xiàng)集X的剩余效用RU(X,Tj)計(jì)算為:

(6)

定義10數(shù)據(jù)庫(kù)D中項(xiàng)集X的剩余效用RU(X)計(jì)算為:

(7)

定義11會(huì)話數(shù)據(jù)庫(kù)內(nèi)的項(xiàng)目按照TWU升序排列。

定義12最小絕對(duì)效用值定義為δ。δ的初始值設(shè)為0,挖掘過(guò)程中動(dòng)態(tài)地改變?chǔ)闹怠?/p>

定義13高效用項(xiàng)集挖掘初始化階段結(jié)束的δ值定義為δl。

定義14如果一個(gè)項(xiàng)集X的效用U(X)大于等于閾值δ,那么項(xiàng)集X定義為高效用項(xiàng)集。

定義15D中k個(gè)效用最高的項(xiàng)集定義為top-k-HUI。

定義16最優(yōu)的最小效用閾值δF定義為:

δF=min{U(X)|X∈top-k-HUI}

(8)

給定一個(gè)會(huì)話數(shù)據(jù)庫(kù)D與期望的HUI數(shù)量K,top-k高效用挖掘問(wèn)題簡(jiǎn)單描述為從D中選出K個(gè)效用最高的HUI。本文的目標(biāo)則是從D中高效率地挖掘出top-k-HUI。

2 top-k高效用項(xiàng)集挖掘

2.1 三角項(xiàng)集效用樹(shù)(TIU-tree)數(shù)據(jù)結(jié)構(gòu)

設(shè)(xi..xj)表示連續(xù)的項(xiàng)目序列,即(xi..xj)={xi,xi+1,xi+2,…,xj}。TIU-tree結(jié)構(gòu)是一種保存連續(xù)項(xiàng)集效用信息的三角矩陣:

LIU(xi,xj)=LIU((xi..xj))=LIU({xi,xi+1,…,xj})=

(9)

根據(jù)會(huì)話數(shù)據(jù)庫(kù)產(chǎn)生每對(duì)連續(xù)項(xiàng)集的TIU-tree,具體方法如算法1所示。理論上TIU-tree所需的空間為O(m2),m為項(xiàng)目數(shù)量,TIU-tree結(jié)構(gòu)的入口數(shù)量?jī)H為O(L2),L為會(huì)話的平均長(zhǎng)度。TIU-tree結(jié)構(gòu)有助于獲取連續(xù)項(xiàng)集長(zhǎng)序列的效用。估計(jì)效用共生結(jié)構(gòu)(Estimated Utility Co-occurrence Structure,EUCS)[13]是一種保存效用信息的常見(jiàn)數(shù)據(jù)結(jié)構(gòu),EUCS結(jié)構(gòu)對(duì)于挖掘HUI短序列的效果較好,TIU-tree結(jié)構(gòu)對(duì)于密集型數(shù)據(jù)集的效果優(yōu)于EUCS結(jié)構(gòu)。

算法1update_TIU算法

輸入:項(xiàng)i在T中的位置,會(huì)話T

輸出:TIU結(jié)構(gòu)

1.next_item=xi;

2.cum_util=U(xi,T);

3.for eachj∈[0,i-1] do

4.cur_util=xj,xj∈T;

5. ifcur_item

6.cum_util+=U(curr_item,T);

7.TIU(curr_item,xi)+=cum_util;

2.2 修改閾值的策略

屬性1效用累加屬性。假設(shè)X與Y是兩個(gè)任意不想交的項(xiàng)集(均為I的子集),那么U(X)+U(Y)≥U(X∪Y)。

證明:屬性的左式可擴(kuò)展為:

比較左式與右式的擴(kuò)展結(jié)果,左式總是大于等于右式。

屬性2效用下限屬性。項(xiàng)集Y的效用下限表示為ULB(Y),對(duì)于任意項(xiàng)集X?I,ULB(Y)的計(jì)算為:

ULB(Y)=U(X∪Y)-U(X)=

(10)

證明:式(10)的第1次擴(kuò)展是屬性1的應(yīng)用,第2次擴(kuò)展表示各個(gè)項(xiàng)的效用值之和不小于X的效用值,所以ULB(Y)并未被過(guò)度估計(jì)。

根據(jù)屬性2,使用項(xiàng)集Y的超集X∪Y與項(xiàng)集X來(lái)估計(jì)Y的效用下限值。

結(jié)合中國(guó)的實(shí)際情況來(lái)說(shuō),社區(qū)服務(wù)點(diǎn)是以服務(wù)于區(qū)域生活、商業(yè)中心為目的的快捷、便利的銀行服務(wù)場(chǎng)所。作為余額寶服務(wù)的延伸,社區(qū)服務(wù)點(diǎn)將承擔(dān)起未來(lái)開(kāi)拓零售業(yè)務(wù)市場(chǎng)的重任。站在余額寶的業(yè)務(wù)經(jīng)營(yíng)角度,社區(qū)服務(wù)點(diǎn)的發(fā)展將成為余額寶改變傳統(tǒng)業(yè)務(wù)模式,從“坐商”走向“行商”的重要一步。

定義17TIULB(x,y,q)定義為一個(gè)項(xiàng)集的估計(jì)下限,其中q是從序列(x..y)中刪除的項(xiàng)集,q?I。

定義18PQ_LB_TIU定義為項(xiàng)集的所有估計(jì)效用:

PQ_LB_TIU={TIULB(x,y,q)|(x..y)∈TIU,

q?I,|q|≤3}

(11)

本方法產(chǎn)生項(xiàng)集的子集,根據(jù)效用下限屬性(屬性2)估計(jì)項(xiàng)集的下限。將q設(shè)為定值3,從而限制產(chǎn)生的項(xiàng)集子集數(shù)量。算法2是通過(guò)修改閾值產(chǎn)生項(xiàng)集子集的算法,其中包括了效用計(jì)算與下限估計(jì)兩個(gè)重要步驟。

算法2修改閾值的算法

輸入:TIU,PQ_TIU,PQ_LB_TIU,δ

輸出:δ

1.for eachx,y∈TIUdo

2. for eacha∈(item1..itemn) do

3.util_LB=TIU(x,y)-U(a);

4. ifutil_LB≥δ

5. 將util_LB加入PQ_LB_TIU中;

6. for eachb=start_item(a)∈(item1..itemn) do

//獲得項(xiàng)集的第一項(xiàng)

7.util_LB=TIU(x,y)-U(a)-U(b);

8. ifutil_LB≥δ

9. 將util_LB加入PQ_LB_TIU中;

10. for eachc=succ(b)∈(item1..itemn) do

11.util_LB=TIU(x,y)-U(a)-U(b)-U(c);

12. ifutil_LB≥δ

13. 將util_LB加入PQ_LB_TIU中;

14.if |PQ_ALL={PQ_TIU∪PQ_LB_TIU}|≥K

15.δ=PQ_ALL中第K個(gè)值;

/*提高最小效用值*/

屬性3TIU的下限。PQ_ALL={PQ_TIU∪PQ_LB_TIU},如果|PQ_ALL|≥K,那么δ可提高至PQ_ALL中第K個(gè)值。

證明:對(duì)于TIU中每個(gè)連續(xù)的項(xiàng)目序列,PQ_LB_TIU中保存幾個(gè)項(xiàng)集的估計(jì)下限。因?yàn)檫@些項(xiàng)集子集均為當(dāng)前HUI的一部分,所以將δ提高至第K大的效用值不會(huì)影響最終結(jié)果的正確性。

2.3 基于三角項(xiàng)集樹(shù)的高效用項(xiàng)集(TIU_HUI)挖掘算法

如算法3所示,TIU_HUI算法是基于一階段效用列表的高效用項(xiàng)集挖掘算法。其步驟為:

Step1掃描數(shù)據(jù)庫(kù)D,計(jì)算所有1-項(xiàng)集的TWU。

Step2采用3.3節(jié)的方法確定δ,δ的初始值設(shè)為0。

Step2.1基于定義11排列會(huì)話中的項(xiàng)目;

Step2.2創(chuàng)建一個(gè)TIU矩陣,更新矩陣中的效用值;

Step2.3建立一個(gè)效用列表(Utility List,UL)。

Step3采用TIU的修改閾值策略來(lái)修改δ值(算法3的第9行)。

TIU_HUI算法的Step 3,設(shè)計(jì)了搜索算法來(lái)搜索話題候選項(xiàng)集樹(shù),見(jiàn)3.5節(jié)。本方法在每次迭代中動(dòng)態(tài)地改變?chǔ)闹?,所以每次迭代僅產(chǎn)生top-k的HUI,降低了計(jì)算成本與存儲(chǔ)成本。

算法3TIU_HUI算法

輸入:D,K

輸出:top-k-HUI

1.掃描D,計(jì)算所有1-項(xiàng)集的TWU;

2.for eachTs∈Ddo

3.newT={x|TWU(x)≥δ,?x∈Ts};

4. 排列newT;

/*定義11*/

5. for eachxi∈Tsdo

6.update_TIU(i,Ts);

/*算法1*/

7. 建立每個(gè)會(huì)話的UL;

/*文獻(xiàn)[14]*/

8.根據(jù)TIU計(jì)算PQ_TIU;

9.Modifythreshold_LB_TIU(TIU,PQ_TIU,{},δ);

/*算法2*/

10.top-k-HUI=serarch_tree(?,UL,δ);

/*3.5節(jié)的Topic_tree搜索策略*/

3 基于高效用模式挖掘的主題預(yù)測(cè)

TIU_HUI算法的目標(biāo)是同時(shí)搜索會(huì)話中頻繁且高價(jià)值的模式集。

3.1 算法總體設(shè)計(jì)

采用TIU_HUI實(shí)現(xiàn)對(duì)突發(fā)主題的檢測(cè)。圖1為消息流中會(huì)話與批的關(guān)系圖,圖2為本文方法的流程圖,總體的過(guò)程包括了詞匯效用的計(jì)算與最小效用的決定,通過(guò)TIU_HUI產(chǎn)生候選話題模式。

圖1 消息流中會(huì)話與批的關(guān)系圖

圖2 本文方法的總體流程圖

3.2 計(jì)算詞匯的效用

假設(shè)一個(gè)會(huì)話為T(mén)i,話題流為T(mén)S=T1,T2,T3,…。采用滑動(dòng)窗口技術(shù)提取話題流,TS表示一個(gè)話題序列,B1,B2,B3,…表示一批話題。外部效用表示了每個(gè)詞匯在檢測(cè)新主題時(shí)的重要性,TIU_HUI產(chǎn)生的高效用模式明顯地獨(dú)立于外部效用值。相鄰兩批的詞匯頻率是變化的,所以應(yīng)當(dāng)計(jì)算每批的詞匯效用。

每個(gè)話題的字符數(shù)量是有限的,所以特殊事件相關(guān)的關(guān)鍵詞頻率會(huì)快速升高。批Bt中詞匯i的頻率表示為f(Bt,i),批BL與批BL-1中詞匯i的頻率差異定義為diff(i):

diff(i)=f(BL,i)-f(BL-1,i)

(12)

如果diff(i)>0,那么詞匯i的頻率增加;如果diff(i)<0,詞匯i的頻率則降低。將批BL與BL-1之間詞匯i的頻率變化率定義為rate(i):

(13)

如果rate(i)>1,那么詞匯i的頻率提高;如果rate(i)<1,詞匯i的頻率則降低。批BL中詞匯i的外部效用定義為關(guān)于diff(i)與rate(i)的方程:

(14)

因?yàn)閐iff(i)≤0說(shuō)明詞匯i的頻率沒(méi)有增加,所以詞匯i的效用設(shè)為0,此類(lèi)詞匯不可能是新話題的關(guān)鍵詞匯。rate(i)表示詞匯頻率變化率,該值可能極大。

3.3 效用值的下限

(15)

將式(15)右側(cè)的3項(xiàng)分別表示為α、β、γ,那么,第1項(xiàng)α=∑tu(T)/∑l(T)表示詞集X屬于某個(gè)消息流T的平均效用,第2項(xiàng)β=∑l(T)/s(X)表示含有詞集X的消息流平均長(zhǎng)度,第3項(xiàng)γ=s(X)表示含有詞集X的消息流數(shù)量。

消息流的話題長(zhǎng)度動(dòng)態(tài)變化,包含的詞匯量也隨之改變,將選擇的詞匯比例表示為ρ,為消息流中話題的詞匯數(shù)量設(shè)立上下界。假設(shè)批BL中所有的詞匯數(shù)量為S,那么詞匯量計(jì)算為:

(16)

將δ定義為:

δ=avg(α)×avg(β)×avg(γ)

(17)

式中:avg(α)、avg(β)、avg(γ)分別表示α、β、γ的平均值。δ反映了X中含有關(guān)鍵詞匯的TWU,并且動(dòng)態(tài)地計(jì)算當(dāng)前消息流的δ。

3.4 基于高效用模式挖掘的候選話題模式

將3.2節(jié)、3.3節(jié)所獲得關(guān)于批BL的信息輸入TIU_HUI算法,產(chǎn)生滿足TWU(X)≥δ的高效用模式X。在TIU_HUI算法中,首先計(jì)算每個(gè)詞集的TWU,再刪除TWU小于δ的詞匯,最后將剩下的詞匯按照TWU值升序排列重建話題集。高效用模式挖掘重建的話題集作為候選話題模式。

3.5 提取話題模式

為了高效地刪除候選話題模式中的冗余模式,設(shè)計(jì)了一個(gè)話題搜索樹(shù)結(jié)構(gòu)Topic-tree。Topic-tree的每個(gè)節(jié)點(diǎn)包含一個(gè)項(xiàng)目標(biāo)簽與一個(gè)索引域,Topic-tree初始化為一個(gè)根節(jié)點(diǎn),節(jié)點(diǎn)的符號(hào)與頭表均置空,Topic-tree的候選話題模式插入方法為:

Step1如果頭表中不存在i1的節(jié)點(diǎn),則創(chuàng)建一條從根節(jié)點(diǎn)發(fā)出的路徑root→i1→i1→…→in,跳至Step 3,更新頭表。

Step2如果頭表中存在i1的節(jié)點(diǎn),那么遍歷頭表中節(jié)點(diǎn)i1的路徑L。

Step2.1如果遍歷L的過(guò)程中發(fā)現(xiàn)i2,i3,…,in,那么結(jié)束節(jié)點(diǎn)的插入操作。

Step2.2如果遍歷L的過(guò)程中未能發(fā)現(xiàn)i2,i3,…,in,那么創(chuàng)建路徑root→i1→i1→…→in,并且與已存在的根節(jié)點(diǎn)-葉節(jié)點(diǎn)路徑共享前綴項(xiàng)。跳至Step 3,更新頭表。

Step3對(duì)于新創(chuàng)建的節(jié)點(diǎn)ik(k=1,2,…,n)。

Step3.1如果頭表中不存在ik的節(jié)點(diǎn),那么在頭表中加入新的ik節(jié)點(diǎn),并且建立頭表中ik到樹(shù)中ik的索引。

Step3.2如果頭表中存在ik的節(jié)點(diǎn),那么建立從索引L最后一個(gè)節(jié)點(diǎn)到樹(shù)中節(jié)點(diǎn)ik的索引。

如果候選話題模式的插入順序發(fā)生變化,那么Topic-tree也會(huì)發(fā)生微小的改變。TIU_HUI通過(guò)一些規(guī)則產(chǎn)生候選話題模式,因此本文可通過(guò)按照TIU_HUI生成的順序插入所有的候選話題模式,從而保持Topic-tree穩(wěn)定。Topic-tree的構(gòu)建復(fù)雜度為O(nlw),其中:n為候選話題模式的數(shù)量;l是候選話題模式的最大長(zhǎng)度;w是Topic-tree的寬度。圖3為T(mén)opic-tree的構(gòu)建過(guò)程實(shí)例圖,假設(shè)按順序插入候選話題模式(e,c,b,d)、(e,c,d)、(c,d,f)、(c,b,d,f)。圖3(a)是第一個(gè)模式(e,c,b,d)加入樹(shù)的情況,因?yàn)槌跏蓟^表中不存在節(jié)點(diǎn)e,因此在頭表中加入一條路徑root→e→c→b→d;(b)是第二個(gè)模式(e,c,d)加入樹(shù)的情況,頭表中已經(jīng)存在節(jié)點(diǎn)e,檢查節(jié)點(diǎn)e所有列表中是否存在(c,d),因此不會(huì)重新加入(e,c,d);(c)是第三個(gè)模式(c,d,f)加入樹(shù)的情況,因?yàn)轭^表中存在節(jié)點(diǎn)c,檢查節(jié)點(diǎn)c所有列表中是否存在(d,f),路徑root→e→c→b→d中不存在節(jié)點(diǎn)f,因此,加入新鏈接root→c→d→f,并且更新頭表;(d)是第四個(gè)模式(c,b,d,f)加入樹(shù)的情況,路徑root→e→c→b→d中存在(b,d)但不存在節(jié)點(diǎn)f,路徑root→c→d→f中存在(d,f)但不存在b,因此路徑為root→c→b→d→f,該路徑共享前綴節(jié)點(diǎn)c。

(a) 加入(e,c,b,d)(b) 加入(e,c,d)

(c) 加入(c,d,f)(d) 加入(c,b,d,f)圖3 Topic-tree的構(gòu)建過(guò)程實(shí)例圖

在構(gòu)建的Topic-tree中,從root節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑對(duì)應(yīng)一個(gè)話題模式,采用模式效用指標(biāo)評(píng)估話題模式的優(yōu)劣,模式效用定義為:

(18)

式中:PU表示模式中詞集的外部效用之和,選出所有模式的top-k模式。對(duì)于每批消息流選出候選話題模式,并將候選集組成一個(gè)Topic-tree,隨著滑動(dòng)窗口移動(dòng),創(chuàng)建新的Topic-tree。

4 實(shí) 驗(yàn)

實(shí)驗(yàn)環(huán)境為Dell工作站,配置為:Intel Xeon 3.7 GHz處理器,64 GB主內(nèi)存,8 GB二級(jí)緩存,Linux操作系統(tǒng)。

4.1 實(shí)驗(yàn)數(shù)據(jù)集

采用文獻(xiàn)[15]的數(shù)據(jù)集,分別為三個(gè)子集FA Cup Final(FA) 、Super Tuesday(ST)、US Elections(US),這三個(gè)數(shù)據(jù)集是2012年的國(guó)際性事件。FA數(shù)據(jù)集共包含360個(gè)時(shí)段,每個(gè)時(shí)段包括1分鐘的推文。標(biāo)定數(shù)據(jù)包含了13個(gè)時(shí)段的13個(gè)話題數(shù)據(jù)。ST數(shù)據(jù)集共包含24個(gè)時(shí)段,每個(gè)時(shí)段包括60分鐘的推文。標(biāo)定數(shù)據(jù)包括8個(gè)時(shí)段的22個(gè)話題數(shù)據(jù)。US數(shù)據(jù)集共包含216個(gè)時(shí)段,每個(gè)時(shí)段包括10分鐘的推文。標(biāo)定數(shù)據(jù)包括26個(gè)時(shí)段的64個(gè)話題數(shù)據(jù)。

4.2 性能指標(biāo)的設(shè)定

采用話題召回率與話題相關(guān)性作為話題檢測(cè)的性能指標(biāo),話題檢測(cè)方法發(fā)現(xiàn)的話題包括所有的關(guān)鍵詞均屬于標(biāo)定話題,則認(rèn)為發(fā)現(xiàn)的話題被成功檢測(cè)。話題召回率為在標(biāo)定話題中話題的檢測(cè)率。話題相關(guān)性是發(fā)現(xiàn)的話題與標(biāo)定話題的相似性。

話題召回率定義為:

(19)

式中:A為未能檢測(cè)的標(biāo)定話題;B為成功檢測(cè)的正定話題。

話題的相關(guān)性定義為:

(20)

式中:C為與標(biāo)定話題匹配的話題數(shù)量;D為與標(biāo)定話題不匹配的話題數(shù)量。

選擇其他三個(gè)不同類(lèi)型的話題檢測(cè)算法與本算法進(jìn)行比較,分別為:基于特征的算法SFPM[16]、基于圖模式的方法KBTE[17]、基于話題概率模型的檢測(cè)方法WEEC[18]。這些方法均為近年三個(gè)不同類(lèi)型的話題檢測(cè)算法。

4.3 話題檢測(cè)的性能

圖4比較了4個(gè)話題檢測(cè)算法對(duì)于3個(gè)消息流的話題檢測(cè)效果。FA數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明本算法的話題召回率最高,而SFPM的召回率為0.846,SFPM的結(jié)果優(yōu)于KBTE與WEEC兩個(gè)算法,但是比本算法大約低8%。本算法對(duì)于ST數(shù)據(jù)集的話題召回率約為0.364,SFPM的話題召回率依然高于其他兩個(gè)算法,但是比本算法大約低5%。本算法對(duì)于US數(shù)據(jù)集的話題召回率約為0.453,高于其他三個(gè)算法。此外,本算法對(duì)于FA、ST兩個(gè)數(shù)據(jù)集的話題相關(guān)性結(jié)果優(yōu)于其他三個(gè)算法,但對(duì)于US數(shù)據(jù)集的話題相關(guān)性結(jié)果略低于KBTE。

(a) FA數(shù)據(jù)集

(b) ST數(shù)據(jù)集

(c) FA數(shù)據(jù)集圖4 話題檢測(cè)算法對(duì)于三個(gè)消息流的檢測(cè)性能

4.4 話題檢測(cè)的時(shí)間效率

表1為四個(gè)話題檢測(cè)算法對(duì)于消息流數(shù)據(jù)集的話題檢測(cè)平均時(shí)間。可以看出,本算法對(duì)于FA數(shù)據(jù)集與US數(shù)據(jù)集的檢測(cè)時(shí)間低于其他三個(gè)算法,對(duì)ST數(shù)據(jù)集的檢測(cè)時(shí)間略高于KBTE算法。FA、ST、US三個(gè)數(shù)據(jù)集的時(shí)段分別為1分鐘、60分鐘、10分鐘,而本算法對(duì)于三個(gè)數(shù)據(jù)集的檢測(cè)時(shí)間分別為0.31秒、8.80秒、3.83秒,因此本算法具有較快的響應(yīng)時(shí)間。

表1 話題檢測(cè)算法對(duì)于三個(gè)消息流的檢測(cè)時(shí)間 s

5 結(jié) 語(yǔ)

采用高效用項(xiàng)集挖掘方法處理消息流突發(fā)話題檢測(cè)問(wèn)題,分別設(shè)立了項(xiàng)集的內(nèi)部效用與外部效用。設(shè)計(jì)了三角項(xiàng)集樹(shù)的數(shù)據(jù)結(jié)構(gòu)保存項(xiàng)集的效用信息,降低內(nèi)存的存儲(chǔ)成本。設(shè)計(jì)了專(zhuān)門(mén)的話題Topic-tree數(shù)據(jù)結(jié)構(gòu),提高候選項(xiàng)集的搜索速度與存儲(chǔ)效率。設(shè)計(jì)了動(dòng)態(tài)的top-k項(xiàng)集挖掘算法,在挖掘的早期階段大幅度地提高最小效用閾值,降低候選項(xiàng)集的產(chǎn)生數(shù)量。

本算法通過(guò)高效用挖掘技術(shù)預(yù)測(cè)消息流的熱門(mén)話題,是一種新穎的設(shè)計(jì)方案,實(shí)現(xiàn)了較好的檢測(cè)性能與較快的響應(yīng)時(shí)間。本算法的局限性主要是僅能分析高效用的詞匯,對(duì)于新聞消息流、金融消息流等專(zhuān)門(mén)領(lǐng)域的預(yù)測(cè)處理容易受到冗余信息的影響。未來(lái)的研究重點(diǎn)是將本算法應(yīng)用于新聞消息流、金融消息流等領(lǐng)域,針對(duì)專(zhuān)門(mén)的領(lǐng)域給出相應(yīng)的效用評(píng)估方法,準(zhǔn)確地預(yù)測(cè)出重大的突發(fā)新聞與金融災(zāi)難。

主站蜘蛛池模板: 又黄又爽视频好爽视频| 91亚洲免费| 亚洲精品人成网线在线| 国产女同自拍视频| 8090午夜无码专区| 国产成人a在线观看视频| 91破解版在线亚洲| 精品超清无码视频在线观看| 中文字幕在线观看日本| 欧美激情视频一区| 国产福利在线免费观看| 国产欧美日韩综合在线第一| 真实国产乱子伦视频| 色婷婷久久| 国产美女在线免费观看| 久久久久人妻精品一区三寸蜜桃| 欧美色香蕉| 久久永久免费人妻精品| 在线视频一区二区三区不卡| 露脸国产精品自产在线播| 99尹人香蕉国产免费天天拍| 亚洲无线观看| 欧美yw精品日本国产精品| 国产精品人人做人人爽人人添| 三上悠亚一区二区| 亚洲综合精品香蕉久久网| 国产精品熟女亚洲AV麻豆| 亚洲男人的天堂在线| 日韩黄色精品| 思思99热精品在线| 国产精品成人久久| 亚洲视频一区| 久久精品国产精品国产一区| 无码一区18禁| 2021精品国产自在现线看| 中国精品自拍| 四虎永久免费在线| 欧美国产中文| 色综合五月婷婷| 亚洲区欧美区| 亚洲精品不卡午夜精品| 波多野结衣第一页| 青草国产在线视频| 久久黄色影院| 久久精品日日躁夜夜躁欧美| 欧美日韩精品在线播放| 精品国产一区二区三区在线观看| 亚洲国产中文在线二区三区免| 蜜芽一区二区国产精品| 亚洲中文无码h在线观看| 欧美精品成人一区二区在线观看| 日韩av无码DVD| 精品久久高清| 福利国产在线| 有专无码视频| 久久婷婷国产综合尤物精品| 中文字幕亚洲乱码熟女1区2区| 国产激爽大片高清在线观看| 91热爆在线| 成人午夜视频在线| 久久综合五月| 91小视频在线| 中文字幕丝袜一区二区| 亚洲AV成人一区国产精品| 国产欧美日韩免费| 五月婷婷欧美| 热这里只有精品国产热门精品| 国产粉嫩粉嫩的18在线播放91| 日本国产一区在线观看| 国产一在线观看| 日韩天堂视频| 免费一极毛片| 国产成人综合久久| 中文成人无码国产亚洲| 香蕉久久永久视频| 国产色图在线观看| 中文字幕亚洲另类天堂| 久久久久无码国产精品不卡| 欧美成人午夜在线全部免费| 久久国产精品77777| 欧美午夜小视频| 777午夜精品电影免费看|