999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Paragraph Vector模型的科研熱點(diǎn)發(fā)現(xiàn)方法

2018-10-24 07:46:16郭佳羅森林陳倩柔
電子設(shè)計(jì)工程 2018年20期
關(guān)鍵詞:語(yǔ)義文本信息

郭佳,羅森林,陳倩柔

(北京理工大學(xué)信息系統(tǒng)及安全對(duì)抗實(shí)驗(yàn)中心,北京100081)

隨著互聯(lián)網(wǎng)信息時(shí)代的到來(lái),信息在各個(gè)領(lǐng)域呈現(xiàn)爆炸式快速增長(zhǎng)的態(tài)勢(shì)。在互聯(lián)網(wǎng)上幾乎可以找到任意所需的信息,尤其是互聯(lián)網(wǎng)搜索引擎的出現(xiàn),更是大幅提升了信息查找的過(guò)程;但由于信息過(guò)多,從這些海量信息中去除冗余,挖掘有價(jià)值的信息較為困難。同樣對(duì)于科學(xué)研究者而言,情況也是類(lèi)似的??茖W(xué)研究者不僅需要時(shí)刻把握領(lǐng)域內(nèi)研究?jī)?nèi)容的變化趨勢(shì),還需要具備快速了解并掌握一個(gè)新方法的能力。閱讀相關(guān)領(lǐng)域的論文是科研工作者快速掌握知識(shí)的主要途徑,然而由于每個(gè)領(lǐng)域均有大量已發(fā)表的論文。同時(shí),新論文的發(fā)表也層出不窮。這使得科學(xué)研究者快速了解研究?jī)?nèi)容、跟進(jìn)研究熱點(diǎn)變得困難。緩解該問(wèn)題有效、可行的方法是利用熱點(diǎn)發(fā)現(xiàn)方法對(duì)一個(gè)領(lǐng)域隨時(shí)間變化的研究熱點(diǎn)做出檢測(cè)與總結(jié)。

1 相關(guān)工作

科研熱點(diǎn)發(fā)現(xiàn)是話題發(fā)現(xiàn)的一個(gè)分支。話題發(fā)現(xiàn)起源于話題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)[1]。近年來(lái),國(guó)內(nèi)外諸多學(xué)者針對(duì)科研熱點(diǎn)話題做出了眾多研究工作。稅等[2]使用Single-Pass聚類(lèi)算法進(jìn)行話題識(shí)別,并對(duì)已聚類(lèi)的報(bào)道進(jìn)行周期分類(lèi),提高了聚類(lèi)的準(zhǔn)確類(lèi)。為了取得更好的聚類(lèi)效果,路等[3]利用一個(gè)兩層的K-means和層次聚類(lèi)算法,并結(jié)合LSI話題模型,檢測(cè)并抽象出文本數(shù)據(jù)中的熱點(diǎn)話題。隨著研究的深入,文獻(xiàn)[4-5]引入了模擬數(shù)學(xué)模型改進(jìn)聚類(lèi)算法提高了話題發(fā)現(xiàn)效果。Oladimeji[6]利用一種融合k-means聚類(lèi)和神經(jīng)網(wǎng)絡(luò)的NED檢測(cè)算法,通過(guò)k-means與神經(jīng)網(wǎng)絡(luò)的融合方法能提高事件的檢測(cè)速率。宋[7]提出一種基于SOM聚類(lèi)的話題發(fā)現(xiàn)方法,結(jié)合詞向量模型抽取數(shù)據(jù)的特征和改進(jìn)的SOM進(jìn)行話題聚類(lèi)。Daniel等[8]利用Labeled-LDA模型,將文本數(shù)據(jù)的話題標(biāo)簽應(yīng)用于話題建模,并結(jié)合4S分類(lèi)模型對(duì)話題進(jìn)行細(xì)維度劃分。Weng等[9]針對(duì)社交數(shù)據(jù)短小的問(wèn)題,將同一用標(biāo)簽的數(shù)據(jù)整合成一個(gè)長(zhǎng)文檔,然后利用LDA進(jìn)行主題挖掘。L Qiu[10]等提出LDA+K-means的聚類(lèi)方法,通過(guò)LDA主題模型補(bǔ)充語(yǔ)義信息提高聚類(lèi)效果。Chen[11]等人提出一種基于隨機(jī)森林和圖結(jié)構(gòu)的OTD算法,提升語(yǔ)料語(yǔ)義信息的挖掘,比詞袋模型表示的話題更優(yōu)。EI-Kishky[13]利用關(guān)聯(lián)算法快速得到短語(yǔ)集,結(jié)合短語(yǔ)袋主題模型挖掘主題-短語(yǔ)的分布信息,生成主題短語(yǔ)來(lái)表述話題。方等[14]利用K-means對(duì)文本聚類(lèi),然后通過(guò)LDA模型對(duì)每個(gè)類(lèi)建模,并結(jié)合詞頻、詞長(zhǎng)和詞跨度計(jì)算每個(gè)話題詞的權(quán)重。

基于聚類(lèi)的話題發(fā)現(xiàn)方法存在文本特征語(yǔ)義表達(dá)能力不深的缺點(diǎn)。同時(shí),稀疏表示法在解決實(shí)際問(wèn)題時(shí)經(jīng)常會(huì)遇到維數(shù)災(zāi)難,且語(yǔ)義信息無(wú)法表示、無(wú)法揭示詞之間的潛在聯(lián)系等問(wèn)題。本文針對(duì)以上問(wèn)題,引入深度學(xué)習(xí)的Paragraph Vector(PV)模型表達(dá)文本特征。采用PV向量,緩解維數(shù)災(zāi)難問(wèn)題,且挖掘詞之間的關(guān)聯(lián)屬性,優(yōu)化向量語(yǔ)義上的準(zhǔn)確度。

2 科研熱點(diǎn)發(fā)現(xiàn)方法

2.1 算法框架

本方法首先對(duì)文本集合提取正文,獲得正文集合后進(jìn)行句子清洗,去停用詞后得到預(yù)處理結(jié)果。接著對(duì)預(yù)處理結(jié)果使用PV模型構(gòu)建向量表示,得到文本的語(yǔ)義表示向量。然后對(duì)語(yǔ)義表示向量計(jì)算相似度,進(jìn)行聚類(lèi)分析得到研究主題。對(duì)主題熱度排序時(shí)加入文獻(xiàn)的引用信息,選擇前N個(gè)主題作為研究熱點(diǎn),原理如圖1所示。

2.2 引用信息提取

引用信息提取指基于文本數(shù)據(jù)的結(jié)構(gòu)化特征獲取文本的引用信息,即引用次數(shù)。例如,Radev等[15]發(fā)布了AAN(ACL Anthology Network)語(yǔ)料。ANN中包括論文ID、作者信息、發(fā)表年份、論文來(lái)源和論文被引用信息。ANN中記錄如下:

C08-3004==>A00-1002

說(shuō)明論文編號(hào)C08-3004的論文引用了ACL中另一篇編號(hào)為A00-1002的論文。利用這些信息可統(tǒng)計(jì)論文被引次數(shù),及被引時(shí)間的變化趨勢(shì)。

2.3 Paragraph Vector分析

Paragraph vector[16]模型是一種無(wú)監(jiān)督的且不定長(zhǎng)文本的連續(xù)分布式向量表示方法。PV模型的框架,如圖3所示。每個(gè)段落對(duì)應(yīng)一個(gè)向量,對(duì)應(yīng)段落表示矩陣D中的一行。每一個(gè)詞也對(duì)應(yīng)一個(gè)唯一的向量,對(duì)應(yīng)詞表示矩陣W中的一行。段向量和詞向量加權(quán)共同預(yù)測(cè)語(yǔ)境中的下一個(gè)單詞。圖3輸入Paragraph ID 的段落向量,以及單詞“the”、“cat”和“sat”的詞向量,PV模型訓(xùn)練后可預(yù)測(cè)出下一個(gè)單詞為“on”。PV模型的推斷過(guò)程及參數(shù),如式所示。

ω1,ω2,...,ωt+k表示訓(xùn)練語(yǔ)料中的單詞,按詞序排列。yi是單詞ωi非標(biāo)準(zhǔn)化對(duì)數(shù)概率,計(jì)算方法如式(2)所示。

b,U是softmax函數(shù)中的參數(shù),h由段落表示矩陣D和詞表示矩陣W共同計(jì)算得出。

圖2 PV模型框架

2.4 主題檢測(cè)

本文采用余弦?jiàn)A角定義兩個(gè)向量之間的距離,余弦值越大代表兩個(gè)文檔之間越相似。向量dx={x1,x2...xn}和向量dy={y1,y2...yn}分別表示文檔dx和dy,相似度計(jì)算公式如式(3)所示。

文中采用K-means聚類(lèi)算法檢測(cè)主題,該算法的優(yōu)點(diǎn)是簡(jiǎn)單實(shí)用、時(shí)間復(fù)雜度較低適合大數(shù)據(jù)聚類(lèi),且適合高維度的文本聚類(lèi)。

2.5 主題熱度排序

主題熱度與兩方面因素有關(guān):1)該主題下包含的文本數(shù),數(shù)目越多說(shuō)明研究者越多,該主題研究熱度也越高;2)該主題下文本的平均被引次數(shù),文本的平均被引次數(shù)越多說(shuō)明文本的影響力越大,該研究主題越重要。根據(jù)主題內(nèi)文本的數(shù)量和平均被引次數(shù),主題熱度的打分策略如式(4)所示。

式中:H(Ci)為主題熱度,NCi為主題Ci的文本數(shù)量,表示主題Ci的平均被引次數(shù),參數(shù)θ用于調(diào)整主題內(nèi)文本數(shù)量與平均被引次數(shù)的權(quán)重。本文取θ=0.5。

3 科研熱點(diǎn)發(fā)現(xiàn)方法對(duì)比試驗(yàn)

3.1 實(shí)驗(yàn)?zāi)康暮蛿?shù)據(jù)源

為了驗(yàn)證本方法通過(guò)利用PV補(bǔ)充語(yǔ)義信息,能夠提高話題發(fā)現(xiàn)的效果。本實(shí)驗(yàn)采用ANN語(yǔ)料庫(kù)中ACL正刊會(huì)議集2012年收錄的168篇會(huì)議論文作為實(shí)驗(yàn)數(shù)據(jù)。

3.2 評(píng)價(jià)方法

3.2.1 ARI方法

蘭特指數(shù)(Adjusted Rand Index,ARI)計(jì)算方法如下。

RI如式(6),TP表示同一類(lèi)的樣本對(duì)被分到同一個(gè)簇的個(gè)數(shù);TN表示不同類(lèi)的樣本對(duì),被分到不同簇的個(gè)數(shù);FP表示不同類(lèi)的樣本對(duì),被分到同一個(gè)簇的個(gè)數(shù);FN表示同一類(lèi)的樣本對(duì),被分到不同簇的個(gè)數(shù)。

3.2.2 同質(zhì)性,完整性和V-measure

同質(zhì)性(homogeneity,h)是指,每個(gè)類(lèi)簇只包含一個(gè)真實(shí)類(lèi)別的樣本。完整性(completeness,c)是指,所有屬于同一個(gè)類(lèi)別的樣本均被劃分到同一類(lèi)簇中。同質(zhì)性和完整性的調(diào)和平均值為V-measure。已知數(shù)據(jù)集的真實(shí)聚類(lèi)結(jié)果為C,實(shí)驗(yàn)聚類(lèi)結(jié)果為K。計(jì)算方法如下。

H(C|K)是已知聚類(lèi)結(jié)果K,求真實(shí)類(lèi)別標(biāo)記的條件熵,C)是類(lèi)別的熵[17],其中,nc和nk分別表示真實(shí)類(lèi)別c和聚類(lèi)類(lèi)別k中樣本的個(gè)數(shù),nc,k表示從類(lèi)別c被分配到類(lèi)別k的樣本個(gè)數(shù),H(k|C)和H(K)使用相似的定義方法。

V-measure的計(jì)算方法,如式(11)所示。

h、c和v取值范圍為[0,1],越接近1說(shuō)明聚類(lèi)效果越好。

3.3 實(shí)驗(yàn)結(jié)果和結(jié)論

3.3.1 向量長(zhǎng)度和窗口長(zhǎng)度選擇實(shí)驗(yàn)

L表示PV模型生成向量的維度,W表示上下文詞的個(gè)數(shù)。采用網(wǎng)格法調(diào)整參數(shù),L從25~200步進(jìn)為25調(diào)整,W從3~11步進(jìn)為2調(diào)整。實(shí)驗(yàn)結(jié)果,如圖3所示。

由圖3可知,當(dāng)L=100,W=3時(shí),聚類(lèi)結(jié)果最優(yōu)。當(dāng)L不變,W增大時(shí),實(shí)驗(yàn)結(jié)果呈下降趨勢(shì)。說(shuō)明詞與周?chē)~的關(guān)聯(lián)度較大,W過(guò)長(zhǎng)會(huì)引入較大的噪聲,導(dǎo)致結(jié)果下降。

圖3 參數(shù)選擇實(shí)驗(yàn)

3.3.2 聚類(lèi)個(gè)數(shù)選擇實(shí)驗(yàn)

在向量長(zhǎng)度為100,窗口長(zhǎng)度為3的條件下,調(diào)整聚類(lèi)個(gè)數(shù)。聚類(lèi)個(gè)數(shù)K從3開(kāi)始,以2為步長(zhǎng)到81為止,結(jié)果如圖4所示。

圖4 聚類(lèi)個(gè)數(shù)實(shí)驗(yàn)

當(dāng)K值在[13,49]范圍內(nèi)變動(dòng)時(shí),ARI的值在0.45左右略微浮動(dòng)。一方面因本實(shí)驗(yàn)所用語(yǔ)料文本規(guī)模較小,主題劃分粒度不宜過(guò)細(xì);另一方面是因?qū)τ贏RI評(píng)價(jià)方法而言,當(dāng)聚類(lèi)個(gè)數(shù)增多時(shí)[18],ARI的值有趨向于1的趨勢(shì)。因此,本文K取13。

3.3.3 對(duì)比分析實(shí)驗(yàn)

本方法與2012年程輝提出的基于VSM的研究熱點(diǎn)發(fā)現(xiàn)方法以及基于LDA的話題發(fā)現(xiàn)方法進(jìn)行比較。

在聚類(lèi)個(gè)數(shù)為13,聚類(lèi)方法為K-means的條件下,得到實(shí)驗(yàn)結(jié)果如表1所示。

表1 對(duì)比實(shí)驗(yàn)結(jié)果

由表1可知,基于PV的熱點(diǎn)發(fā)現(xiàn)方法相比基于LDA及VSM的方法,無(wú)論在ARI評(píng)價(jià)標(biāo)準(zhǔn)或是HCV評(píng)價(jià)標(biāo)準(zhǔn)下,效果均有優(yōu)勢(shì),發(fā)現(xiàn)話題更為精準(zhǔn)。原因在于:首先,本文利用PV模型優(yōu)化向量語(yǔ)義上的準(zhǔn)確度。VSM基于詞性詞頻構(gòu)建文檔特征,不僅無(wú)法表示語(yǔ)義信息且還存在維數(shù)災(zāi)難的問(wèn)題。LDA引入隱藏層,構(gòu)建基于語(yǔ)義維度的文檔表示向量,然而由于LDA基于詞袋假設(shè)構(gòu)建模型,忽略了詞語(yǔ)上下文的信息,故語(yǔ)義表達(dá)能力仍有欠缺。PV低維空間表示法,緩解了維數(shù)災(zāi)難問(wèn)題,通過(guò)挖掘詞之間的關(guān)聯(lián)屬性,優(yōu)化向量語(yǔ)義上的準(zhǔn)確度,從而提高了話題發(fā)現(xiàn)的準(zhǔn)確度。其次,本文將論文的被引信息作為論文語(yǔ)義特征的補(bǔ)充。論文的被引次數(shù)及被引趨勢(shì),說(shuō)明論文的研究?jī)r(jià)值與意義,進(jìn)一步提高了話題發(fā)現(xiàn)的準(zhǔn)確率。

4 結(jié)束語(yǔ)

研究熱點(diǎn)發(fā)現(xiàn)可以幫助科學(xué)研究者快速掌握當(dāng)前研究熱點(diǎn)、研究?jī)?nèi)容的變化趨勢(shì),這對(duì)研究工作起到了更好的參考指導(dǎo)作用。針對(duì)研究熱點(diǎn)發(fā)現(xiàn)語(yǔ)義特征維數(shù)過(guò)高,且無(wú)法表示語(yǔ)義信息的問(wèn)題,本文利用深度學(xué)習(xí)的PV模型表達(dá)文本特征。PV模型的低維空間表示法,不但緩解維數(shù)災(zāi)難問(wèn)題,且還能挖掘詞之間的關(guān)聯(lián)屬性,優(yōu)化向量語(yǔ)義上的準(zhǔn)確度。同時(shí),本文挖掘文本的引用信息,將論文被引特征作為內(nèi)容表示的補(bǔ)充,從而提高了話題發(fā)現(xiàn)的準(zhǔn)確度,并降低了漏檢率。

猜你喜歡
語(yǔ)義文本信息
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
展會(huì)信息
如何快速走進(jìn)文本
語(yǔ)義分析與漢俄副名組合
主站蜘蛛池模板: 欧美不卡视频在线| 尤物国产在线| 99热国产这里只有精品无卡顿"| 国产69精品久久久久孕妇大杂乱| 手机精品福利在线观看| 久久永久视频| 亚洲国产天堂在线观看| 亚洲成a∧人片在线观看无码| 日韩在线视频网站| 色偷偷男人的天堂亚洲av| 久久亚洲中文字幕精品一区| 2048国产精品原创综合在线| 性做久久久久久久免费看| 中文成人无码国产亚洲| 国产精品久久久久久影院| 成年人免费国产视频| 白丝美女办公室高潮喷水视频| 亚洲久悠悠色悠在线播放| 婷婷六月激情综合一区| 亚洲天堂高清| 无码av免费不卡在线观看| 99热这里只有精品免费国产| 免费在线国产一区二区三区精品| 久久亚洲日本不卡一区二区| 国产视频大全| 国产精品密蕾丝视频| 麻豆a级片| 黄色福利在线| 国产激爽大片高清在线观看| 亚洲欧美在线综合图区| 亚洲婷婷丁香| 精品国产电影久久九九| 国产精品微拍| 国内精品视频在线| 99激情网| 少妇极品熟妇人妻专区视频| 成人在线亚洲| 在线观看国产精品第一区免费| 一级毛片中文字幕| 国产sm重味一区二区三区| 亚洲全网成人资源在线观看| 波多野结衣在线se| 婷婷色一区二区三区| 国产国模一区二区三区四区| 欧美在线一二区| 欧美在线国产| jizz国产视频| a毛片基地免费大全| 亚洲一区二区约美女探花| 亚洲Aⅴ无码专区在线观看q| 91在线丝袜| 三上悠亚精品二区在线观看| 精品无码国产一区二区三区AV| 88av在线| 国产一区二区三区精品久久呦| 亚洲色图欧美视频| 尤物国产在线| 欧美a级完整在线观看| 亚洲无码高清免费视频亚洲| 幺女国产一级毛片| 青青青视频免费一区二区| 亚洲综合18p| 漂亮人妻被中出中文字幕久久| 在线亚洲天堂| 欧美成人综合在线| 亚洲综合18p| 国产黄网永久免费| 亚洲精品男人天堂| 狠狠做深爱婷婷久久一区| 亚洲第一av网站| 日韩精品无码免费专网站| 无码中文AⅤ在线观看| 四虎成人精品在永久免费| 成人福利在线看| 国产Av无码精品色午夜| 91视频99| 青青青视频91在线 | 一本色道久久88| 日本尹人综合香蕉在线观看 | 亚洲福利网址| 亚洲va精品中文字幕| 日韩无码真实干出血视频|