〔摘要〕在分析現(xiàn)有文本表示法的基礎(chǔ)之處,提出一種以段落、語(yǔ)句、詞語(yǔ)為層次結(jié)構(gòu)的文本表示方法——文本空間表示模型,并在此模型基礎(chǔ)上探討一種以文本段落為基本單位的相似文本計(jì)算算法,以實(shí)現(xiàn)相似文本檢測(cè)目標(biāo)。最后建立測(cè)試集并在測(cè)試集上執(zhí)行檢測(cè)實(shí)驗(yàn),結(jié)果表明此方具有較好的相似文本發(fā)現(xiàn)效果。
〔關(guān)鍵詞〕文本相似度;文本空間表示模型;段落;算法
〔中圖分類號(hào)〕TP391.1〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2013)02-0021-03
文本相似計(jì)算具有重要作用和廣泛應(yīng)用,它主要應(yīng)用于基于著作權(quán)保護(hù)的文本相似檢測(cè)、信息檢索以及自動(dòng)文本摘要等領(lǐng)域。在文本復(fù)制檢測(cè)方面,相似文本的檢測(cè)可保護(hù)創(chuàng)作者的合法權(quán)益免受他人侵犯;在信息檢索領(lǐng)域,相似文本的檢測(cè)可以略去大量冗余信息;在自動(dòng)文本摘要領(lǐng)域,主要為web頁(yè)面自動(dòng)生成摘要,便于web信息檢索[1-2]。目前文本相似計(jì)算在信息檢索以及自動(dòng)文本摘要領(lǐng)域應(yīng)用較為普及,在文本復(fù)制檢測(cè)領(lǐng)域的主要實(shí)現(xiàn)方法是對(duì)整個(gè)文本進(jìn)行詞匯抽取,利用關(guān)鍵詞順序匹配的方法實(shí)現(xiàn)相似文本的檢測(cè)[3-4]。
對(duì)于一個(gè)大型數(shù)據(jù)集,當(dāng)給定任意一個(gè)待檢測(cè)文本,相似文本計(jì)算算法應(yīng)該能夠以較短的計(jì)算時(shí)間完成相似性檢測(cè)任務(wù),即:發(fā)現(xiàn)與該文本在語(yǔ)言表達(dá)上有一定相似度的文本,如果系統(tǒng)中事先存在這樣的文本的話。基于算法執(zhí)行時(shí)間和執(zhí)行效率的考慮,本研究將文本分解為段落,進(jìn)一步將段落分解為語(yǔ)句,語(yǔ)句又分解為若干詞語(yǔ)的集合,以此構(gòu)成三維的文本空間表示模型。……