基于文本空間表示模型的文本相似度計(jì)算研究

2013-01-01 00:00:00張文萍黎春蘭

現(xiàn)代情報(bào) 2013年2期

〔摘要〕在分析現(xiàn)有文本表示法的基礎(chǔ)之處，提出一種以段落、語(yǔ)句、詞語(yǔ)為層次結(jié)構(gòu)的文本表示方法——文本空間表示模型，并在此模型基礎(chǔ)上探討一種以文本段落為基本單位的相似文本計(jì)算算法，以實(shí)現(xiàn)相似文本檢測(cè)目標(biāo)。最后建立測(cè)試集并在測(cè)試集上執(zhí)行檢測(cè)實(shí)驗(yàn)，結(jié)果表明此方具有較好的相似文本發(fā)現(xiàn)效果。

〔關(guān)鍵詞〕文本相似度；文本空間表示模型；段落；算法

〔中圖分類號(hào)〕TP391.1〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821（2013）02-0021-03

文本相似計(jì)算具有重要作用和廣泛應(yīng)用，它主要應(yīng)用于基于著作權(quán)保護(hù)的文本相似檢測(cè)、信息檢索以及自動(dòng)文本摘要等領(lǐng)域。在文本復(fù)制檢測(cè)方面，相似文本的檢測(cè)可保護(hù)創(chuàng)作者的合法權(quán)益免受他人侵犯；在信息檢索領(lǐng)域，相似文本的檢測(cè)可以略去大量冗余信息；在自動(dòng)文本摘要領(lǐng)域，主要為web頁(yè)面自動(dòng)生成摘要，便于web信息檢索[1-2]。目前文本相似計(jì)算在信息檢索以及自動(dòng)文本摘要領(lǐng)域應(yīng)用較為普及，在文本復(fù)制檢測(cè)領(lǐng)域的主要實(shí)現(xiàn)方法是對(duì)整個(gè)文本進(jìn)行詞匯抽取，利用關(guān)鍵詞順序匹配的方法實(shí)現(xiàn)相似文本的檢測(cè)[3-4]。

對(duì)于一個(gè)大型數(shù)據(jù)集，當(dāng)給定任意一個(gè)待檢測(cè)文本，相似文本計(jì)算算法應(yīng)該能夠以較短的計(jì)算時(shí)間完成相似性檢測(cè)任務(wù)，即：發(fā)現(xiàn)與該文本在語(yǔ)言表達(dá)上有一定相似度的文本，如果系統(tǒng)中事先存在這樣的文本的話。基于算法執(zhí)行時(shí)間和執(zhí)行效率的考慮，本研究將文本分解為段落，進(jìn)一步將段落分解為語(yǔ)句，語(yǔ)句又分解為若干詞語(yǔ)的集合，以此構(gòu)成三維的文本空間表示模型。……

登錄APP查看全文

現(xiàn)代情報(bào) 2013年2期

現(xiàn)代情報(bào)的其它文章: 省級(jí)公共圖書館合作式數(shù)字參考咨詢服務(wù)調(diào)查分析; 學(xué)科館員專業(yè)能力及培養(yǎng)途徑探析; 高校圖書館中文圖書征訂書目分析與館藏建設(shè); 北京工業(yè)大學(xué)圖書館專利信息服務(wù)調(diào)查與分析; 數(shù)字化時(shí)代經(jīng)典閱讀的思維導(dǎo)圖推廣策略; 2001—2011年行政管理研究熱點(diǎn)、主題及方法演化