999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)中基于時(shí)態(tài)特征和混合式搜索的博客篩選挖掘

2017-05-03 07:37:37張麗娜匡泰姜迪清
電信科學(xué) 2017年1期
關(guān)鍵詞:特征方法

張麗娜,匡泰,姜迪清

(浙江安防職業(yè)技術(shù)學(xué)院信息工程系,浙江 溫州 325000)

大數(shù)據(jù)中基于時(shí)態(tài)特征和混合式搜索的博客篩選挖掘

張麗娜,匡泰,姜迪清

(浙江安防職業(yè)技術(shù)學(xué)院信息工程系,浙江 溫州 325000)

針對現(xiàn)存很多博客篩選挖掘方法的相關(guān)性程度比較松散以及信息檢索方法的缺陷,提出一種基于時(shí)態(tài)特征和混合式搜索的方法??紤]到用戶評論是組合證據(jù)的重要來源以及時(shí)間因素的影響,提出的方法將博客文章的平均評論數(shù)量、消息來源的BM25的相關(guān)性分?jǐn)?shù)、最久博客文章的BM25分?jǐn)?shù)和最新相關(guān)博文和最舊博文的時(shí)間范圍作為時(shí)態(tài)特征集。另外,考慮到線性搜索的局部性優(yōu)勢以及差分進(jìn)化搜索的全局優(yōu)勢,將兩種信息搜索方式組合。實(shí)驗(yàn)使用BlogS06數(shù)據(jù)集,由博客主頁、XML源文件和其博客入口頁面組成,用于TREC 2007和TREC 2008的博客篩選挖掘?qū)嶒?yàn)。實(shí)驗(yàn)結(jié)果表明,提出的方法在運(yùn)行時(shí)間和有效性方面獲得了滿意的效果。

博客篩選挖掘;時(shí)態(tài)特征;線性搜索;差分進(jìn)化;大數(shù)據(jù);BM25

1 引言

近些年,社交網(wǎng)絡(luò)及其手機(jī)上的應(yīng)用軟件獲得了巨大的成功,如微信和Facebook,其中,微信擁有最多的使用者,其商業(yè)價(jià)值可想而知。而社交網(wǎng)絡(luò)的興起和成功也激發(fā)了博客的演變,將其從非正式討論或非正式站點(diǎn)演變成針對特定領(lǐng)域(如科技、時(shí)尚和財(cái)經(jīng))的專業(yè)平臺[1]。創(chuàng)建和管理博客平臺促進(jìn)了互聯(lián)網(wǎng)上博客社區(qū)的大規(guī)模發(fā)展。這種專業(yè)化信息資源使得博客用戶的興趣復(fù)雜化。因此,博客信息搜索挖掘[2]也成了大數(shù)據(jù)時(shí)代的重要研究課題。

博客篩選挖掘一般定義為搜索某一主題博客的過程,可以表述為文本查詢[3]。該任務(wù)可以概括為:用某一原理尋找對主題T經(jīng)常感興趣的博客。對于一個(gè)已知主題T,系統(tǒng)應(yīng)給出主題T的消息來源。

博客篩選挖掘按照提取工作一般可以分為以下兩種。

(1)使用博客消息來源[4]提供的信息,估計(jì)博客和某一特定主題的相關(guān)性

[5]結(jié)合消息來源層面(feed)與博客文章層面的相關(guān)分?jǐn)?shù),采用語言模型以檢索與一個(gè)特定查詢相關(guān)聯(lián)的消息來源。參考文獻(xiàn)[5]還提出了一個(gè)基于維基百科數(shù)據(jù)提取的查詢擴(kuò)展技術(shù)。其中,文本檢索會議(text retrieval conference,TREC)的博客篩選提取就采用該擴(kuò)展技術(shù)[3,4]。

[6]定義了一種投票模型,博客查詢與該博客相關(guān)的文章,檢索到的每篇相關(guān)博客文章都被當(dāng)作對該博客相關(guān)性的一次投票。采用不同的文本傾向性處理方法,對于較長篇幅、不同評論和字符權(quán)重進(jìn)行評述,使模型具有傾向識別能力。參考文獻(xiàn)[7]遵循資源選擇原理,綜合利用本體論和Folksonomy的優(yōu)勢,進(jìn)行二級分類。然后在分類算法的基礎(chǔ)上結(jié)合了用戶使用博客興趣,考慮了不同博客的表征信息。然而,對給定的查詢只能給出高排序的博客文章,對高度相關(guān)的博客比較有效。參考文獻(xiàn)[8]使用線性搜索(linear search,LS)檢索博客消息來源,LS是信息檢索中一種簡單有效的方法。其參數(shù)值被訓(xùn)練樣本(針對某一特定評價(jià)尺度)優(yōu)化,訓(xùn)練后的參數(shù)值使用一個(gè)實(shí)驗(yàn)樣本進(jìn)行評價(jià)。用一個(gè)或兩個(gè)參數(shù)值尋求窮舉搜索的最佳參數(shù)設(shè)定。但優(yōu)化過程是一個(gè)瓶頸,其計(jì)算成本會伴隨參數(shù)數(shù)量呈指數(shù)增長。另外,多種來源的信息組合問題也可以采用排序?qū)W習(xí)方法,如粒子群優(yōu)化[9](particle swarm optimization,PSO)和差分進(jìn)化[10](differential evolution,DE)等。

(2)越過消息來源,嘗試檢測該主題與個(gè)人博客間的關(guān)聯(lián)性[11]

如博客時(shí)間戳、鏈接分析或外部資源提供的信息,但使用頻率相比第一種很小。博客篩選挖掘其實(shí)是一個(gè)信息融合問題,需要將多種信息組合起來。該過程獲得哪些有效特征以及如何使用這些特征是問題的關(guān)鍵?,F(xiàn)有的很多方法相關(guān)性程度比較松散,為此,本文組合了多個(gè)證據(jù)源,將關(guān)聯(lián)信號(在博客或文章層面上)與多個(gè)異構(gòu)信號(社會時(shí)態(tài)特征)相結(jié)合,并使用混合方法檢索信息。本文的主要工作是:提出了一組基于社會性的時(shí)態(tài)信息估算博客的相關(guān)性;提出了一種混合的博客信息融合方法組合這些信息,以找到潛在的相關(guān)博客,整合了全局搜索和局部搜索的優(yōu)點(diǎn)。

2 博客相關(guān)性的估算

2.1 證據(jù)組合

一些選定的特征表示內(nèi)容匹配的證據(jù),與查詢主題相關(guān),而基于時(shí)態(tài)或基于社會特征則獨(dú)立于查詢。本文利用F代表消息來源,Q表示一個(gè)查詢,相關(guān)特征查詢用qd_featk(F,Q)表示。為了結(jié)合有效的特征,本文對qd_featk(F,Q)做如下歸一化:

其中,C表示消息來源的集合。而獨(dú)立查詢特征的正則化為:

其中,F(xiàn)表示消息來源,qi_featk(F)是獨(dú)立查詢特征,

C是消息來源集合。這種類型的正則化被廣泛使用,是一種較好的線性檢索方案。本文遵循線性結(jié)合方法,從獨(dú)立查詢特征和相關(guān)查詢特征組合中找到證據(jù)。

其中,qd_featnorm是正則化的獨(dú)立查詢特征,αi、βj是自由參數(shù)。通過線性結(jié)合獲得組合證據(jù)是一個(gè)簡單有效的方法。

2.2 信息檢索模型

一般有兩種不同模型評估文檔間的相關(guān)性,即BM25和狄氏(Dirichlet)平滑一元語言模型。BM25基于概率框架[5],本文使用Lemur的BM25匹配函數(shù)[12],即:

其中,tft,D是文檔D中t的頻率,tft,D是查詢Q中t的頻率,LD和Lave是文檔D的長度,即整個(gè)采集文檔的平均長度。而w則是倒排文檔頻率權(quán)值,w定義如下:

其中,N是采集中文檔的總數(shù)量,n是包含項(xiàng)t的文檔數(shù)量。狄氏平滑一元語言模型如式(6)所示:

其中,D是一個(gè)文檔,n是查詢項(xiàng)數(shù)量,tf(qi,D)是在D中qi的原始頻率項(xiàng),|D|是文檔長度,μ是調(diào)整平滑度的參數(shù),P(qi|C)是項(xiàng)qi在采集C中的出現(xiàn)概率(一般是最大似然估計(jì)量),本文使用默認(rèn)平化值μ=1 000。

2.3 消息來源層面的相關(guān)性特征

消息來源層面上的內(nèi)容匹配證據(jù)已被廣泛應(yīng)用于消息來源的篩選和提取任務(wù)中。本文提出的特征集可捕獲并查詢消息來源的不同子部分(如“標(biāo)題”“標(biāo)題+正文”以及“評論”)之間的匹配證據(jù),并應(yīng)用不同的搜索和查詢擴(kuò)展模型,使用下文的特征為消息來源相關(guān)性建模。

(1)BM25消息來源:標(biāo)題

通過串聯(lián)所有標(biāo)題和消息來源的博客文章得到查詢和文檔之間的相關(guān)性估計(jì)。消息來源中的標(biāo)題序列是博客討論主題的重要表示方式。

(2)BM25消息來源:標(biāo)題+正文

BM25和狄氏算法通過串聯(lián)所有標(biāo)題和消息來源的正文內(nèi)容以得到查詢和文檔之間的相關(guān)性估計(jì)[5]。此方法將消息來源全文表現(xiàn)出來,考慮到每篇博客文章的所有內(nèi)容。

(3)BM25消息來源:評論

BM25和狄氏算法通過串聯(lián)所有與任一博客文章相關(guān)聯(lián)的評論以得到查詢和文檔之間的相關(guān)性估計(jì)。

(4)擴(kuò)展消息來源:標(biāo)題+正文

應(yīng)用相關(guān)性反饋 (pseudo relevance feedback,PRF)和查詢擴(kuò)展(query expansion,QE)是一種高效的方法,一般情況下,基于經(jīng)典概率模型的信息檢索和語言建模方法是關(guān)聯(lián)的,但經(jīng)典概率模型的主要障礙是需要估計(jì)反饋模型,即求相關(guān)類的特征詞概率。而相關(guān)性模型(RM1 PRF)[13]只使用查詢來估計(jì)經(jīng)典概率模型中的概率,這解決了同義詞和多義詞的區(qū)別,可以產(chǎn)生高精度的關(guān)聯(lián)模型。因此本文選擇RM1 PRF方法。RM1模型定義如下:

(5)擴(kuò)展消息來源:評論

其相當(dāng)于擴(kuò)展消息來源——標(biāo)題+正文,但消息來源代表所有評論的串聯(lián)。

2.4 內(nèi)消息來源的相關(guān)性特征

這些特征并非聚集博客文章的所有內(nèi)容,而是通過分析查詢和博客文章之間的相關(guān)性推斷一個(gè)博客的相關(guān)性。

(1)查詢和博客文章間最大化BM25的相關(guān)性分?jǐn)?shù),由相關(guān)度最高的博客文章決定。

(2)查詢和博客文章之間的平均相關(guān)性BM25分?jǐn)?shù),該特征并未代表相關(guān)度最高文章的消息來源,而是選擇計(jì)算所有博客中的平均估計(jì)相關(guān)值。以這種方式可以估計(jì)消息來源的反復(fù)興趣是否與查詢主題重疊。

(3)查詢和博客文章之間的相關(guān)性BM25得分的方差。為得分趨勢建模,以分辨相關(guān)消息來源與非相關(guān)消息來源。

(4)基于索引消息來源的所有博客文章,對該索引運(yùn)行查詢,并對屬于某一特定消息來源的博客文章進(jìn)行計(jì)數(shù)。因此消息來源中的每個(gè)檢索博客文章為一個(gè)查詢和消息來源間的相關(guān)性進(jìn)行投票。

以上4個(gè)特征集有助于捕獲消息來源相關(guān)性的不同方面。第1個(gè)和第4個(gè)特征關(guān)注消息來源中最突出的博客文章,而第2個(gè)和第3個(gè)特征則分析相關(guān)性分?jǐn)?shù)的整體分布,以決定該博客在查詢主題下是否具有反復(fù)興趣。

3 提出的方法

3.1 提出的社會時(shí)態(tài)特征

消息來源中的評論流量是衡量博客文章影響度的一個(gè)重要指標(biāo),通常流行和權(quán)威的博客更能吸引群眾的關(guān)注,也收到了更多的用戶評論。因此評論成為證據(jù)的一個(gè)很有意義的來源[14,15]。另外,時(shí)間也是一個(gè)重要因素。例如,如果相關(guān)的博客文章非常過時(shí),那么很可能對用戶無用。因此,時(shí)態(tài)信息在消息來源中很重要,而且其有助于理解不同時(shí)間的博客主題。

因此總結(jié)如下社會和時(shí)態(tài)特征集為:博客文章的平均評論數(shù)目;消息來源中BM25相關(guān)性分?jǐn)?shù),這有助于確定查詢主題是否被消息來源的最新內(nèi)容定址;消息來源中最久文章的BM25分?jǐn)?shù),通過這種方式可以獲得查詢主題是否在早期被消息來源定址;最新的相關(guān)博客文章和最舊的相關(guān)博客文章之間的時(shí)間范圍。本文從所有消息來源中索引所有博客文章,對此索引運(yùn)行查詢,從每個(gè)消息來源中提取最新和最舊的博客文章,然后計(jì)算這些成對文章的日期(按天計(jì)算)。通常一個(gè)時(shí)間范圍狹窄的消息來源只會在一個(gè)小的時(shí)間窗口內(nèi)定址查詢主題,該消息來源可能比一個(gè)時(shí)間范圍較大的消息來源的相關(guān)度更低。

3.2 混合式搜索

本文的信息融合方法是包含參數(shù)的方法,信息通過合適加權(quán)組合起來,這里的加權(quán)值是式(3)中的參數(shù)αi和βj。本文選擇標(biāo)準(zhǔn)差分進(jìn)化算法執(zhí)行證據(jù)融合的權(quán)重參數(shù)優(yōu)化。此外,還選擇了信息檢索中常用的局部搜索方法(線性搜索),本文整合了這兩種方法的優(yōu)點(diǎn),即全局和局部搜索方法,并提出一種混合式方法。

線性搜索從參數(shù)空間的一個(gè)初始隨機(jī)點(diǎn)開始,在每個(gè)維度中進(jìn)行搜索,在一個(gè)維度中移動每個(gè)時(shí)間的參數(shù)值,同時(shí)固定其他維度的參數(shù)值。對于每個(gè)維度,選擇的樣本點(diǎn)在軸線中有相同的間距,為了評估每個(gè)點(diǎn)的最優(yōu)性,計(jì)算每個(gè)樣本的適應(yīng)值,并存儲適應(yīng)性最好的點(diǎn)。通常情況下,LS沿著高預(yù)期的方向。而差分進(jìn)化[16]是一個(gè)基于群體的搜索方法,根據(jù)一個(gè)簡單的向量交叉和變異計(jì)算式,結(jié)合現(xiàn)有的候選解,創(chuàng)造出新的候選解。其中心思想是使用差分向量在向量群中產(chǎn)生擾動,解決優(yōu)化問題。

對于微博的信息融合檢索問題,本文將差分進(jìn)化的全局搜索與線性搜索相結(jié)合,以利用這兩種方法的優(yōu)點(diǎn)。全局搜索在搜索空間的不同區(qū)域內(nèi)同時(shí)進(jìn)行探索,而線性搜索則以找到的最佳個(gè)體為中心在一個(gè)受限的區(qū)域內(nèi)搜索。利用線性搜索為群體中的個(gè)體在鄰近的區(qū)域做導(dǎo)向,對個(gè)體進(jìn)行微調(diào)。算法1如下所示。

算法1 混合式算法

(1)將群體隨機(jī)初始化

(2)repeat

(3)對于所有的在查詢的博客群體中的個(gè)體x

(4)取x1,x2,x3∈博客群體,隨機(jī)得到{x1,x2,x3},這里的x彼此不相同

(5)使R={1,…,n},其中,n是鏈長;

(6)for i=1,…,n

(7) ri取自均勻分布U(0,1);

(8) if(i=R)∨(ri<CR)

(9) yi←x1i+F(x2i-x3i);

(10) elseyi=xi;

(11){y=[y1,y2,…,yn]即新產(chǎn)生候選博客個(gè)體}

(12)if相關(guān)特征查詢函數(shù)f(y)<f(x)

(13) 用y替換個(gè)體x;

(14)如果該最佳個(gè)體的f(x)在三代后沒有得到提高,則從群體中選擇另一個(gè)個(gè)體;

(15)獲得一個(gè)當(dāng)前最佳個(gè)體y,將其作為LS算法的初始隨機(jī)點(diǎn),即LS算法(算法2)的原始隨機(jī)點(diǎn);

(16)判斷是否達(dá)到指定迭代次數(shù)或終止條件,如果是,則返回滿足要求的個(gè)體。

算法2 LS算法

(1)N=每個(gè)維度中樣本點(diǎn)的數(shù)量,D=維度數(shù)量,I=采樣間隔;

(2)選擇一個(gè)原始隨機(jī)點(diǎn);

(3)min←max(0,initial_position[d]-);(0是參數(shù)下限,d表示第d個(gè)維度,d≤D)

(4)max←min(1,initial_position[d]+);(1是參數(shù)上限)

(6)獲得最佳原始位置best_position[d]←min;

//定義在原點(diǎn)和新計(jì)算點(diǎn)之間的一條線。取在式(1)中每個(gè)維度里適應(yīng)值最高的參數(shù)值建立該新點(diǎn)。這條線代表高預(yù)期方向;

(7)對于維度中的每個(gè)樣本點(diǎn);

(8)設(shè)置步長p←min+increment×n;

(9)獲得新位置new_position[d]←p;如果fit(new_position [d])<fit(best_position[d]);

(10)更新最佳位置best_position[d]←new_position[d];

(11)for d←1:D //對于每個(gè)維度;

(12)max_dim[d]←max(initial_point[d],best_position[d]);

(13)min_dim[d]←mim(initial_point[d],best_position[d]);

for n←1:N

for d←1:D

(15)獲得新位置new_position[d]←mim_dim[d]+increment [d]×n;

(16)如果fit(new_position)<fit(best_position);

(17)更新最佳位置best_position←new_position;

(18)返回最佳位置best_position。

本文僅將線性搜索應(yīng)用于遺傳群體的最佳個(gè)體中,這減小了線性搜索所需的額外求值計(jì)算量,利于在進(jìn)化算法每次迭代末尾執(zhí)行受限制的最佳個(gè)體的搜索。線性搜索的參數(shù)N被設(shè)置為一個(gè)很小的值,實(shí)驗(yàn)中N取4。本文設(shè)置DE算法的群體包含個(gè)體32個(gè),迭代次數(shù)50次。對于LS算法,設(shè)置N=4意味著每次迭代中需要進(jìn)行32(2×24)次適合度值的計(jì)算。因此,線性搜索算法的一次迭代需要的適合度求值次數(shù)與進(jìn)化差分算法的一次迭代求值次數(shù)相等,這有利于提高并行性,即對群體成員進(jìn)行求值和LS對維度樣本求值的并行,降低了計(jì)算成本。另外,對于每個(gè)維度,使用小的采樣間隔,設(shè)其值為0.5,在進(jìn)化算法的每代中的計(jì)算量減少了0.85倍。最后,線性搜索的步驟數(shù)被設(shè)置為1,從第一個(gè)高預(yù)期方向的最終樣本點(diǎn)中選擇最佳個(gè)體。

4 實(shí)驗(yàn)評估

為了評估本文模型,博客篩選提取任務(wù)包括在一個(gè)給定主題T中找到有復(fù)發(fā)興趣點(diǎn)的博客。該任務(wù)被定義為一個(gè)經(jīng)典的線性搜索問題,系統(tǒng)必須要檢索與一個(gè)查詢(BlogS06數(shù)據(jù)集)相關(guān)的排名前100的博客消息來源。測試平臺分別由45個(gè)和50個(gè)查詢組成。BlogS06研究集[17]的具體數(shù)據(jù)見表1,該數(shù)據(jù)集用于TREC 2006、TREC 2007和TREC 2008中的博客跟蹤。每個(gè)TREC主題包括3個(gè)部分(標(biāo)題、簡介和敘述),且這些查詢對真實(shí)用戶的網(wǎng)頁查詢[3,4]具有很好的代表性。

4.1 適應(yīng)度函數(shù)和評估指標(biāo)

本文使用平均精度均值 (mean average precision,MAP)作為線性搜索度量,MAP是評估給定排序目標(biāo)有效性的單一度量。對于單一的信息需求,平均精度是在每次相關(guān)目標(biāo)被檢索后,從排序前k位的現(xiàn)有目標(biāo)中得到的平均精確值,即:

表1 BlogS06集的主要數(shù)據(jù)

其中,已知查詢的相關(guān)目標(biāo)集qi∈Q,Rjk是檢索結(jié)果達(dá)到排名靠前的目標(biāo)ok的集合,mj是查詢qj相關(guān)目標(biāo)的數(shù)量。

搜索系統(tǒng)的另一個(gè)重要評估方面是精度。P@10是一種比較流行的精確度量,表示檢索到的相關(guān)目標(biāo)前10位的比例。

4.2 實(shí)驗(yàn)結(jié)果討論

實(shí)驗(yàn)運(yùn)行的平臺為小型服務(wù)器,采用四核AMD 6376處理器 (64位)、512 GB的DDR3內(nèi)存和一個(gè)固態(tài)SSD硬盤。本文將每個(gè)查詢集(2007和2008)分為兩個(gè)同樣大小的子集,采用10倍交叉驗(yàn)證,檢查子集的各自表現(xiàn)結(jié)果。本文這樣做的原因是:如果不分割查詢集,直接應(yīng)用10倍交叉驗(yàn)證,最大查詢?yōu)?(測試平臺分別由45個(gè)和50個(gè)查詢組成,最大查詢?yōu)?0/10),不利于統(tǒng)計(jì)驗(yàn)證,會造成10倍交叉驗(yàn)證的困難(查詢數(shù)少)。而分割成兩個(gè)子集之后,查詢數(shù)大幅增加。很重要的一點(diǎn)是選擇怎樣的交叉驗(yàn)證,本文選擇10倍交叉驗(yàn)證,因?yàn)?0倍交叉驗(yàn)證是比較公認(rèn)的誤差評估最佳選擇。此外,在信息檢索中必須要評估至少25個(gè)查詢,更多的查詢是非常有益的。本文完整的訓(xùn)練和測試配置集合見表2,對于每個(gè)搜索算法,訓(xùn)練過程重復(fù) 5次。

表2 訓(xùn)練和測試配置

不同方法的比較結(jié)果見表3和表4,評估用的度量是MAP和P@10。選取的兩個(gè)基準(zhǔn)方法是將消息來源表示為“標(biāo)題+正文”的串聯(lián)搜索方式和基于索引消息來源的所有博客文章,對該索引運(yùn)行查詢的方法,這兩個(gè)方法并沒有將不同來源的證據(jù)結(jié)合起來。第一種方法利用BM25匹配函數(shù)進(jìn)行檢索,通過將這個(gè)模型納入評估,可以量化改進(jìn)的程度;第二種方法是一個(gè)投票模型,使用在博客發(fā)表后的目錄中,每個(gè)從消息來源中被檢索到的博客文章都視為對查詢和消息來源相關(guān)性的一張投票。這兩種方法沒有采用社會時(shí)態(tài)特征,“線性搜索”“差分進(jìn)化”“粒子群優(yōu)化”和提出的方法都采用了社會時(shí)態(tài)特征,但搜索的方法不同。前兩種方法與其他方法的比較是為了分析社會時(shí)態(tài)特征的效果,其他4種方法的比較是為了分析搜索方式的影響。

從表3可以看出,所有方法都在基準(zhǔn)方法之上。這說明了通過訓(xùn)練組得到的適應(yīng)值函數(shù)的最大值所導(dǎo)出的特征權(quán)重在該測試組中表現(xiàn)非常好。

表3 2007數(shù)據(jù)集的測試結(jié)果

2008 a實(shí)驗(yàn)結(jié)果見表4,其中每欄取5次運(yùn)行的平均值。提出的方法相對于2.3(2)的P@10改進(jìn)程度非常小,這可能是因?yàn)槌霈F(xiàn)一些“有趣的笑話”,這些檢索在排名最高位置上有較多的垃圾郵件文檔(TREC 2008博客跟蹤中包含大約15%的垃圾郵件文檔)。本文不包括垃圾郵件文檔的檢測。從2008a部分中的前10排序,可以觀察到投票模型基準(zhǔn)方法的表現(xiàn)同樣很低,垃圾郵件的影響比較大。

表4 2008數(shù)據(jù)集的測試結(jié)果

4.3 各方法的進(jìn)一步分析

綜上所述,提到的線性搜索、差分進(jìn)化等方法均在基準(zhǔn)方法之上。為了進(jìn)一步評估,在數(shù)據(jù)集2008b上的各方法訓(xùn)練集平均精度值與進(jìn)化點(diǎn)之間的關(guān)系如圖1(a)所示。結(jié)果顯示,本文提出的混合式方法最優(yōu),差分進(jìn)化MAP位列第二,線性搜索方法排第三,其后是粒子群優(yōu)化。這應(yīng)該是一個(gè)公平的比較,因?yàn)樗械姆椒ǘ加邢嗤倪m應(yīng)度函數(shù)。

從圖1看,線性搜索似乎是一個(gè)比較好的選擇,在優(yōu)化過程中,該算法表現(xiàn)較優(yōu)。但是線性搜索并沒有適當(dāng)?shù)靥剿髡麄€(gè)搜索空間,因?yàn)槠鋰?yán)重依靠原始點(diǎn)。如果最優(yōu)解的位置在搜索空間的極限處,那么線性搜索的表現(xiàn)會比全局搜索差得多。圖1(b)給出了計(jì)算時(shí)間的比較,從圖1(b)可以發(fā)現(xiàn)線性搜索具有較大的劣勢,線性搜索幾乎比進(jìn)化算法的執(zhí)行時(shí)間多了一倍。其他方法用了0.45 h完成50代,而線性算法幾乎用了1 h。

盡管本文采用并行代碼運(yùn)行,但線性搜索有設(shè)計(jì)上的同步瓶頸。這使得每個(gè)進(jìn)化點(diǎn)的累計(jì)時(shí)間增長比進(jìn)化算法快的多,如圖1(c)所示。本文提出的混合式算法將線性搜索應(yīng)用于每代中的最佳個(gè)體中,是對有效性和計(jì)算量的很好權(quán)衡。

本文提出的方法在問題規(guī)模變大時(shí)是線性的。為評估這一點(diǎn),實(shí)驗(yàn)使用了在基準(zhǔn)中不同數(shù)量的查詢,結(jié)果如圖2所示。和預(yù)期一樣,在50代中計(jì)算時(shí)間的進(jìn)化基本上是線性狀態(tài)。

另外需要說明的是,許多TREC的系統(tǒng)合并來自多個(gè)源的證據(jù)(如鏈接分析和垃圾郵件過濾),并采用大量的外部數(shù)據(jù)集(如維基百科)。本文方法無法負(fù)擔(dān)如此大的計(jì)算成本,因?yàn)槊糠N類型的特征并不在本文的研究范圍之內(nèi)。

數(shù)據(jù)集2008查詢和相關(guān)性評價(jià)的構(gòu)建方法可對博客進(jìn)行非二進(jìn)制評估,該評估由人擔(dān)當(dāng),當(dāng)一個(gè)博客包含足夠的主題文章時(shí),標(biāo)記為相關(guān)消息來源。這種松散的相關(guān)性概念可能會導(dǎo)致在主題區(qū)域內(nèi)沒有復(fù)發(fā)興趣的相關(guān)消息來源。而本文方法的一些特征直接估算了查詢主題在消息來源中的重復(fù)性程度。另外,本文方法可能并不適用于低相關(guān)度消息來源,但TREC系統(tǒng)也沒有。

圖1 不同方法在數(shù)據(jù)集2008b上的性能比較

5 結(jié)束語

本文將博客篩選與提取視為一個(gè)信息融合問題。博客圈中大量的消息來源(包括海量的博客文章和評論以及其他估計(jì)相關(guān)性的信息)將該問題變成一個(gè)大數(shù)據(jù)挑戰(zhàn)。本文將不同性質(zhì)的特征結(jié)合以估計(jì)消息來源的相關(guān)性,使用群體搜索方法和局部搜索方法結(jié)合的混合模式。實(shí)驗(yàn)結(jié)果表明,提出的博客篩選搜索方法在運(yùn)行時(shí)間和有效性方面獲得了滿意效果。

圖2 50代的平均執(zhí)行時(shí)間(查詢數(shù)量為5~25)

未來主要研究特征間的互動和依賴問題,通過引入一個(gè)特征選擇策略,提取識別度最高的特征。而且MapReduce、Hadoop或Apache Shark也可以納入使用。

參考文獻(xiàn):

[1]RUCCELL M A.社交網(wǎng)站的數(shù)據(jù)挖掘與分析[M].蘇統(tǒng)華,魏通,趙逸雪,等譯.北京:機(jī)械工業(yè)出版社,2015.RUCCELL M A.Mining the social web[M].Translated by SU T H, WEI T,ZHAO Y X,et al.Beijing:China Machine Press,2015.

[2]關(guān)靜怡.高質(zhì)量博客檢索中核心技術(shù)的研究 [D].北京:北京郵電大學(xué),2011.GUAN J Y.Research on core technology of high quality blog retrieval [D].Beijing: Beijing University of Posts and Telecommunications,2011.

[3]MACDONALD C,OUNIS I,SOBOROFF I.Overview of the TREC 2007 blog track [C]//16th Text Retrieval Conference, November 6-9,2007,Gaithersburg,Maryland,USA.New Jersey: IEEE Press,2007:1908-1910.

[4]翟姍姍,許鑫,夏立新.學(xué)術(shù)博客中的用戶交流與知識傳播研究述評[J].現(xiàn)代圖書情報(bào)技術(shù),2015,31(Z1):3-12.ZHAI S S,XU X,XIA L X.Review of the research on user communication and knowledge dissemination in academic blogs[J].New Technology of Library and Information Service,2015,31(Z1): 3-12.

[5]ELSAS J L,ARGUELLO J,CALLAN J,et al.Retrieval and feedback models for blog feed search[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval,July 20-24,2008,Singapore.New York:ACM Press, 2008:347-354.

[6]林旺,翁彧.一種面向博客群的主題傾向性分析模型 [J].中央民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,23(3):33-37. LIN W,WENG Y.A topicopinionanalysismodelfor blogosphere[J].Journal of Minzu University of China(Natural Science Edition),2014,23(3):33-37.

[7]鄭美玉.基于本體的中文博客二級自動分類研究 [J].情報(bào)科學(xué),2016,34(2):87-90. ZHENG M Y.Research on two level automatic classification of Chinese blogs based on ontology[J].Information Science,2016, 34(2):87-90.

[8]于航.基于圖模型的博客排序系統(tǒng)的研究與實(shí)現(xiàn) [D].北京:北京大學(xué),2011. YU H.Research and implementation of blog ranking system based on graph model[D].Beijing:Beijing University,2011.

[9]PARAPAR J,VIDAL M,SANTOS J.Finding the best parameter setting:particle swarm optimization [C]//The 2nd Spanish Conference on Information Retrieval(CERI 2012),June 18-19, 2012,Valencia,Spain.New Jersey:IEEE Press,2012:49-60.

[10]BOLLEGALA D,NOMAN N,IBA H.RankDE:learning a ranking function forinformation retrievalusing differential evolution [C]// Conference on Genetic and Evolutionary Computation,July 12-16,2011,Dublin,Ireland.New York: ACM Press,2011:1771-1778.

[11]LIN C,LIN C,LIN Z Y,et al.Hybrid pseudo-relevance feedback for microblog retrieval[J].Journal of Information Science,2013,39(6):773-788.

[12]范晨熙,黃理燦,李雪利.基于Lucene的BM25模型的評分機(jī)制的研究[J].工業(yè)控制計(jì)算機(jī),2013,26(3):78-79. FAN C X,HUANG L C,LI X L.Research on scoring mechanism of BM25 model based on Lucene[J].Industrial Control Computer,2013,26(3):78-79.

[13]LAVRENKOV,CROFTW B.Relevancebasedlanguage models[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval,September 9-13, 2001,New Orleans,USA.New York:ACM Press,2001: 120-127.

[14]付僅.論博客證據(jù)[D].重慶:重慶郵電大學(xué),2013. FU J.Study on blog evidence [D].Chongqing:Chongqing University of Posts and Telecommunications,2013.

[15]ZHANG S B,ZHANG B,ZHANG Y,et al.A search log sparseness oriented query expansion method[C]//International Conference on Systems and Informatics,November 15-17,2014, Shanghai,China.New Jersey:IEEE Press,2014:1050-1055.

[16]許斌,亓?xí)x,印溪,等.基于多策略離散差分進(jìn)化的移動互聯(lián)網(wǎng)個(gè)性化服務(wù)組合[J].電信科學(xué),2016,32(2):1045-1051. XU B,QI J,YIN X,et al.Personalized service composition based on multi-strategy discrete differentialevolution in mobile internet[J].Telecommunications Science,2016,32(2): 1045-1051.

[17]MACDONALD C,OUNIS I.The TREC blogs06 collection: creating and analysing a blog test collection[EB/OL].(2016-02-29) [2016-05-27].https://www.researchgate.net/publication/40704787_ The_TREC_Blogs06_Collection_Creating_and_Anal-ysing_a_Blog _Test_Collection.

Blog screening and mining based on temporal features and hybrid search in big data

ZHANG Lina,KUANG Tai,JIANG Diqing
Department of Information Engineering,Zhejiang College of Security Technology,Wenzhou 325000,China

Concerning that the correlation degree of the existing methods of blog screen and mining is loose and the information retrieval of the methods is deficient,a method based on temporal feature and hybrid search method was proposed.Considering the user reviews are important sources of evidence combination,the average number of reviews for blogs,the sources of BM25 relevance scores,the longest blog BM25 scores and time range between the latest related blog paper and the oldest related blog paper are being as the temporal feature sets.In addition, considering local search advantage of linear search(LS)and global search advantage of differential evolution(DE),the two kinds of information search methods were combined.BlogS06 data set was used in the experiment which was consists of blog home pages,XML source files and its blog portal pages,it was used for TREC 2007 and TREC 2008 blog mining experiments.Experimental results show that the proposed method can obtain satisfactory results in terms of running time and effectiveness.

blog screening and mining,temporal feature,linear search,differential evolution,big data,BM25

TP391

A

10.11959/j.issn.1000-0801.2017001

張麗娜(1980-),女,浙江安防職業(yè)技術(shù)學(xué)院講師,主要研究方向?yàn)閿?shù)據(jù)挖掘、圖形圖像、智能算法、云計(jì)算。

匡泰(1964-),男,浙江安防職業(yè)技術(shù)學(xué)院信息工程系主任、副教授,主要研究方向?yàn)榇髷?shù)據(jù)、人工智能。

姜迪清(1965-),男,現(xiàn)就職于浙江安防職業(yè)技術(shù)學(xué)院,主要研究方向?yàn)檩浨楣芾?、人事管理等?/p>

2016-05-30;

2016-09-14

浙江省2016年教育技術(shù)研究規(guī)劃課題支持項(xiàng)目(No.JB139)

Foundation Item:Educational Technology Research Prgram of Zhejiang Province in 2016(No.JB139)

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
如何表達(dá)“特征”
不忠誠的四個(gè)特征
學(xué)習(xí)方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产成人一区免费观看| 99久久精品美女高潮喷水| 欧美日韩亚洲国产主播第一区| 国产精品福利在线观看无码卡| 全午夜免费一级毛片| AV熟女乱| 国产剧情无码视频在线观看| 国产精品2| 91精品免费高清在线| 91亚瑟视频| 色偷偷综合网| 国产白丝av| 午夜国产大片免费观看| 久久精品亚洲专区| 国产精品偷伦在线观看| 国模沟沟一区二区三区| 欧美成人综合视频| 粉嫩国产白浆在线观看| 日本午夜影院| 2018日日摸夜夜添狠狠躁| 亚洲中文在线看视频一区| 伊人成人在线| 第一页亚洲| 国产你懂得| 国产视频a| 国产成人高清精品免费软件| 国产丝袜精品| 东京热av无码电影一区二区| 欧美日韩一区二区在线免费观看| 亚洲资源站av无码网址| 国产一区在线视频观看| 色婷婷亚洲综合五月| 日韩欧美中文在线| 国产女人18水真多毛片18精品| 国产精品一区二区国产主播| 国产女人18水真多毛片18精品| 国产第一页第二页| 天天躁日日躁狠狠躁中文字幕| 久久免费看片| 一级毛片视频免费| 中文字幕欧美日韩高清| 天天操天天噜| 久久精品亚洲热综合一区二区| 国产在线视频导航| 亚洲久悠悠色悠在线播放| 久久毛片基地| 欧美亚洲一区二区三区在线| 欧美中日韩在线| 色有码无码视频| 亚洲码一区二区三区| 人人看人人鲁狠狠高清| 99视频在线免费观看| 激情五月婷婷综合网| 女人一级毛片| 天堂岛国av无码免费无禁网站| 欧美在线伊人| 国产精品999在线| 69精品在线观看| 国产激情国语对白普通话| 国产视频 第一页| 五月天综合网亚洲综合天堂网| 色香蕉影院| 91精品亚洲| 中国一级特黄大片在线观看| 精品无码一区二区三区电影| 久久青草精品一区二区三区| 五月婷婷精品| 99国产精品一区二区| 成人蜜桃网| 在线播放91| 国产福利免费视频| 无码一区二区三区视频在线播放| 亚洲精品免费网站| 久热精品免费| 精品久久久久久中文字幕女| 亚洲欧美精品一中文字幕| 日韩资源站| 亚洲黄网视频| 人妻中文字幕无码久久一区| 99人体免费视频| 九九久久99精品| 色老头综合网|