999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于罰分因子的論文相似度檢測研究

2015-05-11 01:38:20韓雅清
湖北工業大學學報 2015年1期
關鍵詞:文本模型

韓雅清, 李 軍, 鈕 焱

(湖北工業大學計算機學院, 湖北 武漢 430068)

?

基于罰分因子的論文相似度檢測研究

韓雅清, 李 軍, 鈕 焱

(湖北工業大學計算機學院, 湖北 武漢 430068)

提出一種特殊標記符和詞根沙普利值二步驟分詞模型,提高分詞的準確率,通過搜索引擎指數來識別新詞。在相似度比較方面,提出了帶行列順序罰分因子距離矩陣模型,該模型綜合了向量檢測、漢明距離和最長公共子串的特點,重新定義了距離矩陣。與傳統的論文相似性檢索相比,具有分詞準確,計算量小等優點。

中文分詞; 相似度比較; 距離矩陣

論文檢測以相似度計算為基礎,利用計算機自動計算文本間的相似度[1]。文本相似度的計算廣泛應用于信息檢索、機器翻譯、自動問答系統、文本挖掘等領域,是一個非常基礎而關鍵的問題,長期以來一直是人們研究的熱點和難點[2]。

當前文本相似度檢測的主要算法有:向量空間模型Vector Space Model(簡稱VSM)[3]、近似指數、隱性語義索引模型LSI(Latent Semantic Indexing)[4]、漢明距離[5]等。幾種主要的檢測方法存在一些問題[6],比如考慮了詞在上下文中的統計特性,而沒有考慮詞本身的語義信息、未能很好地考慮不等長度的文本以及文本中分詞順序的影響、論文回溯查找出處存在著局限性等[7]。本文從分詞及文本相似度研究入手,在總結分析主要的檢測技術基礎上,綜合主要模型的優點,針對抄襲、換詞、換序等幾種主要手段進行了針對性的建模[8]。給出了一種基于特殊標記符的分詞預處理和句級別的論文相似度比較模型。

1 基于特殊標識符的分詞預處理

特殊標識符是在文本句子中具有特殊意義和作用的詞或者是符號,由標點符號、單位符號、數學符號、數字符號、字母等非漢字類的標示符號以及漢字類的特殊標志詞共同組成。本文的分詞是基于特殊標識符的,因此在分詞之前,需要建立漢字類和非漢字類的特殊標識符詞典,然后按照以下步驟進行分詞:1)對輸入文本進行掃描,切分出文中的非漢字類特殊標識符;2)對上述結果進行再次掃描,切分出文中的漢字類特殊標識符。

對于上述分詞結果,采用沙普利值模型進行優化。假設初步分詞后某部分M需要進一步劃分,S={a1,a2,…,an},ai為不同的切詞組合(如一詞根、二詞根、三詞根等),Pre_M為該部分的前置語義,Fol_M為該部分的后置語義,M中各個切詞為合作博弈的關系,其劃分的方式使得最后的N-GRAM值最大。Max{V(Pre_S)+V(S)+V(Fol_S)},依據Shapley定理,存在著唯一的一個價值函數:

(1)

合作聯盟成員所得利益分配值成為Shapley值,通常記作φ(v)=(φ1(v),φ2(v),φ3(v)…,φn(v)),其中φi(v)表示聯盟中成員i的所得利益,用N-GRAM值來衡量,在不同的組合中,各個成員的收益不一樣,以最大的句級N-GRAM值下為最終的分詞結果。分詞過程如圖1所示。通過以上分析可以看出,本文采用的分詞算法在特殊標記符分詞的基礎上,又利用沙普利值模型對分詞結果進行了優化,將使分詞準確率更高,取得更加滿意的分詞結果。

圖1 基于特殊標記符的分詞流程

2 基于帶罰分因子距離矩陣模型的相似度計算

2.1 罰分因子

VSM模型(如TF-IDF方法等)綜合考慮了不同的詞在所有文本中的出現頻率(TF值)和這個詞對不同文本的分辨能力(IDF值),將文檔信息的匹配問題轉化為向量空間中的矢量匹配問題。漢明距離采用模2加運算,完全避開了在歐氏空間中求相似度的大量乘法運算,計算速度較快。這幾種方法具有各自的優點,但也存在著回溯慢、文本分詞順序未考慮等問題,例如:a)“詞匯之間的搭配方式繁多”b)“搭配的詞匯種類繁多”c)“英文詞匯之間的搭配繁多”,若不考慮順序,三種方式VSM和漢明距離以及最長公共子串相似度接近,但顯然a、c之間比a、b之間意思更為接近,因此,在比較句級別的相似性時考慮詞匯順序的影響,將帶來更為滿意的結果。

基于這樣的考慮,本文提出了罰分因子的概念,其作用就是在計算相似度的時候將詞語的順序因素考慮進來,使得相似度的計算結果更加準確。罰分因子建立步驟如下:

步驟一:建立句分詞向量,將待檢測論文和比較論文以句為單位分詞,得到了逐句的句分詞向量LA={A1,A2,A3,…,An}和LB={B1,B2,B3,…,Bn},得到了2個矢量,元素個數不同可用空詞補齊。計算:

(2)

其中,|LA′?LB|代表了2個句中相同分詞的最大個數,類似于最長公共子串,但不同于最長公共子串的是該方法考慮了多個相同的子串帶來的影響。LA′?LB結果將得到n×n的稀疏矩陣,2個分詞向量在相乘時采用~xor異或乘法,在分詞元素作乘法時,若為相同分詞結果為1,不同分詞結果為0。

步驟二:對矩陣中的非零元素分別按行統計,統計出每行第一個非零元素的列號,并形成集合,構造成列序表TA,代表著待檢測文本和句料庫文本間最長公共子串的分詞順序。若令句料庫中的分詞序號默認為(1,2,3,4,5),即原始句的分詞順序為TB={1,2,3,4,5},則對TA和TB2個數列用函數f(TA,TB)來計算罰分因子,此時將采用歐氏距離。f(TA,TB)定義如下:

f(TA,TB)=sqrt(∑|TAi-TBi|2)

(3)

其中i表示TA和TB中的第i個元素,n表示TA和TB中元素的個數,其計算結果作為罰分因子。

2.2 相似度計算

通過上節的分析和介紹,我們得出了罰分因子的概念和作用,在此基礎上對分詞結果進行建模,并計算相似度。本文提出的基于帶行列順序罰分因子的距離矩陣模型,它兼具有VSM和漢明距離以及最長公共子串3種模型的特點,通過不同的參數配置,可以實現這3種模型的轉化。文中,相似度的計算將采用以下公式

Sim(LA′,LB′)=

(4)

其中,如果將f(A,B)設為1,不考慮順序,則該模型演變成Dice系數VSM模型,在此基礎上若不考慮每個分詞的權重值以及順序,并設定分詞之間的乘法為與運算規則,則演變成了漢明距離模型。該模型中,k代表與矢量長度相關的常數,如果設定

并取出順序相同的最長連續分詞個數作為秩,通過補齊的方式設定為固定長度文本比較,每個分詞設定為1(不考慮權重),不考慮順序,則該模型演變為最長公共子串。若考慮順序,則結果為受順序罰分因子影響的最長公共子串。

3 實驗結果及仿真

3.1 分詞預處理

隨機選取了一個新聞網頁,并將其文字按照我們的分詞模型進行了單獨的分詞。在圖2中,第一步是按特殊標記符后分詞的結果,第二步表明了基于沙普利值的切詞方式后的結果,經過2步的分詞,分詞準確率達到了滿意的效果。

圖2 特殊標記符和沙普利值優化后的結果

3.2 考慮順序因素的相似度比較模型研究

實驗中,選取如下句子進行分析:

原始句Ps: 大家是世界的希望和未來

待檢測句Pa: 大家是世界的未來和希望

待檢測句Pb: 希望未來的世界是大家的

原始句Ps在句料庫中的結果如下:

大家 是 世界 希望 未來

150 503 204 350 180

經過分詞預處理后,各句的ID如下:

Ps= [150*503*204*350*180];

Pa= [150*503*204*180*350];

Pb= [350*180*204*503*150];

‘*’標識中間可能存在的其他分詞,經過異或乘法處理后,不相同的分詞為全0的行,剔除后可得到如下的矩陣:

按行統計矩陣中的非0行元素順序可得到句a比較后的行距離向量為:(1 2 3 5 4),同理句b比較后的行距離向量為:(4 5 3 2 1),設定原始句子的順序為:(1 2 3 4 5)。經過Matlab仿真運行后,三個行向量的分詞順序曲線如圖3所示。進一步比較3個曲線的歐氏距離見圖4、圖5。

圖3 三個句子的分詞順序曲線 圖4pa向量與原始分詞向量的歐氏距離

圖5 pb向量與原始分詞向量的歐氏距離

經過計算f(pa,s)后的結果為:1.4142,經過計算f(pb,s)后的結果為:6.1644。在分詞相同個數一樣的情況下,pa的罰分因子更小,說明pa與s更為相似,顯然與人工評估結果一致。

4 結束語

本文提出了基于特殊標識符的分詞算法及新詞的搜索引擎識別評估模型。句級別的相似度比較模型,能夠演化為3種主要的相似度檢測算法。并在模型中增加了順序罰分因子、近義詞處理的方法,能有效的應對添減詞、部分順序抄襲和替換詞等常見手段。經過實驗可以看出,該方法能夠對論文的相似性給出準確的評估結果。但由于對大規模的論文檢測需要大量的詞庫和數據預處理,以及建立大規模的檢索庫,在實現推廣上需要更多的統一規范才能取得較好的推廣效果。

[1]ChenFei,WangXiufeng,RaoYimei.AhybridapproachtoChinesewordsegmentation[C].TianJin,ActaScientiarumNaturallumofUniversitatisNakaiensis,2000(05):27-32.

[2] 桓樂樂. 基于馬爾科夫模型的文本相似度研究[D].武漢:湖北工業大學,2011.

[3] 周鳳玲. 基于向量空間模型的方面挖掘方法研究[D].哈爾濱:哈爾濱工程大學,2013.

[4] 王春紅,張 敏. 隱含語義索引模型的分析與研究.計算機應用,2007(05):1 283-1 285,1 288.

[5] 張煥炯、王國勝.基于漢明距離的文本相似度計算[J].計算機工程與應用,2001,19:21-22.

[6]ZhangChunxia,HaoTianyong.Thestateoftheartanddifficultiesinautomaticchinesewordsegmentation[J].JournalofSystemSimulation,2005(10): 138-143,147.

[7] 徐 波,孫茂松.中文信息處理若干重要問題[M].北京:科學出版社,2003:168-172.

[8]LiQinghu,ChenYujian,SunJiaguang.AnewdictionarymechanismforChinesewordsegmentation[J].JournalofChineseInformationProcessing,2003(04)17-19.

[責任編校: 張巖芳]

The Paper Similarity Detection Method Based on the Penalty Factor

HAN Yaqing,LI Jun, NIU Yan

(SchoolofComputerSci.,HubeiUniv.ofTech.,Wuhan430068,China)

A two-step segmentation model of special identifier and root Sharpley value was proposed in this paper, which can improve the segmentation accuracy and recognize new words through the search engine exponent. For comparing the similarity, a distance matrix model with row-column order penalty factor was proposed. This model integrates the characteristics of vector detection, hamming distance and the longest common substring, redefining distance matrix. Compared with the traditional paper similarity retrieval, the present method has advantages in the accuracy of word segmentation, low computation, reliability and high efficiency.

Chinese segmentation; similarity comparison; Ddistance matrix

2014-10-09

湖北省教育廳科學研究計劃資助項目(D20141403 )

韓雅清(1987-), 女,湖北宜昌人,湖北工業大學碩士研究生,研究方向為信息處理

1003-4684(2015)01-0036-04

TP393

A

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产麻豆另类AV| 欧美va亚洲va香蕉在线| 国产精品美女自慰喷水| AV无码无在线观看免费| 92精品国产自产在线观看| 日韩a在线观看免费观看| 乱人伦视频中文字幕在线| 国产精品无码影视久久久久久久| 视频二区亚洲精品| 欧美日韩v| www.91在线播放| 91成人在线免费视频| 亚洲高清在线播放| 免费国产小视频在线观看| 精品福利视频导航| 在线看国产精品| 久久久久久国产精品mv| 午夜丁香婷婷| AV不卡在线永久免费观看| 亚洲综合天堂网| 欧美在线综合视频| 亚洲中文字幕在线观看| 亚洲日本韩在线观看| 一级毛片在线免费视频| 精品视频第一页| a级毛片免费网站| 亚洲欧美另类日本| 久久99国产综合精品1| 四虎成人精品在永久免费| 欧美色亚洲| 欧美日韩第三页| 久996视频精品免费观看| 欧美视频二区| 国产91视频免费| 人妻无码AⅤ中文字| 岛国精品一区免费视频在线观看| 中文字幕1区2区| 日韩在线观看网站| 再看日本中文字幕在线观看| 国产成人a在线观看视频| 国产成人亚洲欧美激情| 欧美精品导航| 国产成人啪视频一区二区三区| 亚洲毛片网站| 波多野结衣一区二区三视频| 久久中文无码精品| 国产香蕉在线视频| 欧美笫一页| 日韩欧美国产精品| 国产精品深爱在线| 高h视频在线| 久久久久久国产精品mv| 狠狠色狠狠色综合久久第一次| 亚洲成人动漫在线观看| 天堂va亚洲va欧美va国产 | 日韩欧美国产区| 青草视频久久| 亚洲人成影院午夜网站| 国产菊爆视频在线观看| 99国产精品国产高清一区二区| 激情成人综合网| 欧美A级V片在线观看| 国产欧美精品一区二区| 色综合狠狠操| 九九九久久国产精品| 久久婷婷综合色一区二区| 亚洲第一成人在线| 国产精品无码AⅤ在线观看播放| 欧美一区二区人人喊爽| 亚洲欧洲免费视频| 亚洲国产中文综合专区在| 无套av在线| 国产免费久久精品99re不卡| 国产特级毛片aaaaaaa高清| 国产亚洲高清在线精品99| 女人一级毛片| 69av在线| 爆乳熟妇一区二区三区| 欧美日韩另类国产| 欧美爱爱网| 亚洲最大综合网| 国产精品欧美在线观看|