韓雅清, 李 軍, 鈕 焱
(湖北工業大學計算機學院, 湖北 武漢 430068)
?
基于罰分因子的論文相似度檢測研究
韓雅清, 李 軍, 鈕 焱
(湖北工業大學計算機學院, 湖北 武漢 430068)
提出一種特殊標記符和詞根沙普利值二步驟分詞模型,提高分詞的準確率,通過搜索引擎指數來識別新詞。在相似度比較方面,提出了帶行列順序罰分因子距離矩陣模型,該模型綜合了向量檢測、漢明距離和最長公共子串的特點,重新定義了距離矩陣。與傳統的論文相似性檢索相比,具有分詞準確,計算量小等優點。
中文分詞; 相似度比較; 距離矩陣
論文檢測以相似度計算為基礎,利用計算機自動計算文本間的相似度[1]。文本相似度的計算廣泛應用于信息檢索、機器翻譯、自動問答系統、文本挖掘等領域,是一個非常基礎而關鍵的問題,長期以來一直是人們研究的熱點和難點[2]。
當前文本相似度檢測的主要算法有:向量空間模型Vector Space Model(簡稱VSM)[3]、近似指數、隱性語義索引模型LSI(Latent Semantic Indexing)[4]、漢明距離[5]等。幾種主要的檢測方法存在一些問題[6],比如考慮了詞在上下文中的統計特性,而沒有考慮詞本身的語義信息、未能很好地考慮不等長度的文本以及文本中分詞順序的影響、論文回溯查找出處存在著局限性等[7]。本文從分詞及文本相似度研究入手,在總結分析主要的檢測技術基礎上,綜合主要模型的優點,針對抄襲、換詞、換序等幾種主要手段進行了針對性的建模[8]。給出了一種基于特殊標記符的分詞預處理和句級別的論文相似度比較模型。
特殊標識符是在文本句子中具有特殊意義和作用的詞或者是符號,由標點符號、單位符號、數學符號、數字符號、字母等非漢字類的標示符號以及漢字類的特殊標志詞共同組成。本文的分詞是基于特殊標識符的,因此在分詞之前,需要建立漢字類和非漢字類的特殊標識符詞典,然后按照以下步驟進行分詞:1)對輸入文本進行掃描,切分出文中的非漢字類特殊標識符;2)對上述結果進行再次掃描,切分出文中的漢字類特殊標識符。
對于上述分詞結果,采用沙普利值模型進行優化。假設初步分詞后某部分M需要進一步劃分,S={a1,a2,…,an},ai為不同的切詞組合(如一詞根、二詞根、三詞根等),Pre_M為該部分的前置語義,Fol_M為該部分的后置語義,M中各個切詞為合作博弈的關系,其劃分的方式使得最后的N-GRAM值最大。Max{V(Pre_S)+V(S)+V(Fol_S)},依據Shapley定理,存在著唯一的一個價值函數:
(1)

合作聯盟成員所得利益分配值成為Shapley值,通常記作φ(v)=(φ1(v),φ2(v),φ3(v)…,φn(v)),其中φi(v)表示聯盟中成員i的所得利益,用N-GRAM值來衡量,在不同的組合中,各個成員的收益不一樣,以最大的句級N-GRAM值下為最終的分詞結果。分詞過程如圖1所示。通過以上分析可以看出,本文采用的分詞算法在特殊標記符分詞的基礎上,又利用沙普利值模型對分詞結果進行了優化,將使分詞準確率更高,取得更加滿意的分詞結果。

圖1 基于特殊標記符的分詞流程
2.1 罰分因子
VSM模型(如TF-IDF方法等)綜合考慮了不同的詞在所有文本中的出現頻率(TF值)和這個詞對不同文本的分辨能力(IDF值),將文檔信息的匹配問題轉化為向量空間中的矢量匹配問題。漢明距離采用模2加運算,完全避開了在歐氏空間中求相似度的大量乘法運算,計算速度較快。這幾種方法具有各自的優點,但也存在著回溯慢、文本分詞順序未考慮等問題,例如:a)“詞匯之間的搭配方式繁多”b)“搭配的詞匯種類繁多”c)“英文詞匯之間的搭配繁多”,若不考慮順序,三種方式VSM和漢明距離以及最長公共子串相似度接近,但顯然a、c之間比a、b之間意思更為接近,因此,在比較句級別的相似性時考慮詞匯順序的影響,將帶來更為滿意的結果。
基于這樣的考慮,本文提出了罰分因子的概念,其作用就是在計算相似度的時候將詞語的順序因素考慮進來,使得相似度的計算結果更加準確。罰分因子建立步驟如下:
步驟一:建立句分詞向量,將待檢測論文和比較論文以句為單位分詞,得到了逐句的句分詞向量LA={A1,A2,A3,…,An}和LB={B1,B2,B3,…,Bn},得到了2個矢量,元素個數不同可用空詞補齊。計算:

(2)
其中,|LA′?LB|代表了2個句中相同分詞的最大個數,類似于最長公共子串,但不同于最長公共子串的是該方法考慮了多個相同的子串帶來的影響。LA′?LB結果將得到n×n的稀疏矩陣,2個分詞向量在相乘時采用~xor異或乘法,在分詞元素作乘法時,若為相同分詞結果為1,不同分詞結果為0。
步驟二:對矩陣中的非零元素分別按行統計,統計出每行第一個非零元素的列號,并形成集合,構造成列序表TA,代表著待檢測文本和句料庫文本間最長公共子串的分詞順序。若令句料庫中的分詞序號默認為(1,2,3,4,5),即原始句的分詞順序為TB={1,2,3,4,5},則對TA和TB2個數列用函數f(TA,TB)來計算罰分因子,此時將采用歐氏距離。f(TA,TB)定義如下:
f(TA,TB)=sqrt(∑|TAi-TBi|2)
(3)
其中i表示TA和TB中的第i個元素,n表示TA和TB中元素的個數,其計算結果作為罰分因子。
2.2 相似度計算
通過上節的分析和介紹,我們得出了罰分因子的概念和作用,在此基礎上對分詞結果進行建模,并計算相似度。本文提出的基于帶行列順序罰分因子的距離矩陣模型,它兼具有VSM和漢明距離以及最長公共子串3種模型的特點,通過不同的參數配置,可以實現這3種模型的轉化。文中,相似度的計算將采用以下公式
Sim(LA′,LB′)=
(4)
其中,如果將f(A,B)設為1,不考慮順序,則該模型演變成Dice系數VSM模型,在此基礎上若不考慮每個分詞的權重值以及順序,并設定分詞之間的乘法為與運算規則,則演變成了漢明距離模型。該模型中,k代表與矢量長度相關的常數,如果設定
并取出順序相同的最長連續分詞個數作為秩,通過補齊的方式設定為固定長度文本比較,每個分詞設定為1(不考慮權重),不考慮順序,則該模型演變為最長公共子串。若考慮順序,則結果為受順序罰分因子影響的最長公共子串。
3.1 分詞預處理
隨機選取了一個新聞網頁,并將其文字按照我們的分詞模型進行了單獨的分詞。在圖2中,第一步是按特殊標記符后分詞的結果,第二步表明了基于沙普利值的切詞方式后的結果,經過2步的分詞,分詞準確率達到了滿意的效果。

圖2 特殊標記符和沙普利值優化后的結果
3.2 考慮順序因素的相似度比較模型研究
實驗中,選取如下句子進行分析:
原始句Ps: 大家是世界的希望和未來
待檢測句Pa: 大家是世界的未來和希望
待檢測句Pb: 希望未來的世界是大家的
原始句Ps在句料庫中的結果如下:
大家 是 世界 希望 未來
經過分詞預處理后,各句的ID如下:
Ps= [150*503*204*350*180];
Pa= [150*503*204*180*350];
Pb= [350*180*204*503*150];
‘*’標識中間可能存在的其他分詞,經過異或乘法處理后,不相同的分詞為全0的行,剔除后可得到如下的矩陣:


按行統計矩陣中的非0行元素順序可得到句a比較后的行距離向量為:(1 2 3 5 4),同理句b比較后的行距離向量為:(4 5 3 2 1),設定原始句子的順序為:(1 2 3 4 5)。經過Matlab仿真運行后,三個行向量的分詞順序曲線如圖3所示。進一步比較3個曲線的歐氏距離見圖4、圖5。

圖3 三個句子的分詞順序曲線 圖4pa向量與原始分詞向量的歐氏距離

圖5 pb向量與原始分詞向量的歐氏距離
經過計算f(pa,s)后的結果為:1.4142,經過計算f(pb,s)后的結果為:6.1644。在分詞相同個數一樣的情況下,pa的罰分因子更小,說明pa與s更為相似,顯然與人工評估結果一致。
本文提出了基于特殊標識符的分詞算法及新詞的搜索引擎識別評估模型。句級別的相似度比較模型,能夠演化為3種主要的相似度檢測算法。并在模型中增加了順序罰分因子、近義詞處理的方法,能有效的應對添減詞、部分順序抄襲和替換詞等常見手段。經過實驗可以看出,該方法能夠對論文的相似性給出準確的評估結果。但由于對大規模的論文檢測需要大量的詞庫和數據預處理,以及建立大規模的檢索庫,在實現推廣上需要更多的統一規范才能取得較好的推廣效果。
[1]ChenFei,WangXiufeng,RaoYimei.AhybridapproachtoChinesewordsegmentation[C].TianJin,ActaScientiarumNaturallumofUniversitatisNakaiensis,2000(05):27-32.
[2] 桓樂樂. 基于馬爾科夫模型的文本相似度研究[D].武漢:湖北工業大學,2011.
[3] 周鳳玲. 基于向量空間模型的方面挖掘方法研究[D].哈爾濱:哈爾濱工程大學,2013.
[4] 王春紅,張 敏. 隱含語義索引模型的分析與研究.計算機應用,2007(05):1 283-1 285,1 288.
[5] 張煥炯、王國勝.基于漢明距離的文本相似度計算[J].計算機工程與應用,2001,19:21-22.
[6]ZhangChunxia,HaoTianyong.Thestateoftheartanddifficultiesinautomaticchinesewordsegmentation[J].JournalofSystemSimulation,2005(10): 138-143,147.
[7] 徐 波,孫茂松.中文信息處理若干重要問題[M].北京:科學出版社,2003:168-172.
[8]LiQinghu,ChenYujian,SunJiaguang.AnewdictionarymechanismforChinesewordsegmentation[J].JournalofChineseInformationProcessing,2003(04)17-19.
[責任編校: 張巖芳]
The Paper Similarity Detection Method Based on the Penalty Factor
HAN Yaqing,LI Jun, NIU Yan
(SchoolofComputerSci.,HubeiUniv.ofTech.,Wuhan430068,China)
A two-step segmentation model of special identifier and root Sharpley value was proposed in this paper, which can improve the segmentation accuracy and recognize new words through the search engine exponent. For comparing the similarity, a distance matrix model with row-column order penalty factor was proposed. This model integrates the characteristics of vector detection, hamming distance and the longest common substring, redefining distance matrix. Compared with the traditional paper similarity retrieval, the present method has advantages in the accuracy of word segmentation, low computation, reliability and high efficiency.
Chinese segmentation; similarity comparison; Ddistance matrix
2014-10-09
湖北省教育廳科學研究計劃資助項目(D20141403 )
韓雅清(1987-), 女,湖北宜昌人,湖北工業大學碩士研究生,研究方向為信息處理
1003-4684(2015)01-0036-04
TP393
A