999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本加權詞共現的跨語言文本相似度分析

2020-05-25 02:30:57張曉宇王永濱吳林
軟件導刊 2020年2期
關鍵詞:排序文本語言

張曉宇 王永濱 吳林

摘 要:跨語言文本相似度計算在跨語言信息檢索、數據挖掘、抄襲檢測等領域有著重要應用,但是跨語言文本相似度計算因為不同語言文法、結構等問題,在空間映射、特征選擇上與單語言文本相似度計算有很大差異。為解決上述問題,采用一種基于文本加權詞共現關系的跨語言文本相似度計算方法,通過平行語料庫構建跨語言詞共現關系模型,使用該模型進行跨語言文本映射,對不同語言的文本進行相似度計算。該模型實際反映了某種語言中某些關鍵詞共同出現時映射成另一種語言時的關鍵詞概率分布。實驗表明,該方法對跨語言文本排序的計算更接近人工評判標準。

關鍵詞:詞共現;文本相似度;跨語言;統計翻譯模型

DOI:10. 11907/rjdk. 191233 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)002-0092-04

英標:Cross-linguistic Text Similarity Analysis Based on Co-occurrence of Text Weighted Words

英作:ZHANG Xiao-yu,WANG Yong-bin,WU Lin

英單:(Key Laboratory of Convergent Media and Intelligent Technology, Communication University of China, Beijing 100024, China)

Abstract:Cross-language text similarity computation has important applications in cross-language information retrieval, data mining, plagiarism detection and other fields. However, cross-linguistic text similarity calculation differs greatly from single-language text similarity calculation in spatial mapping and feature selection due to the different grammar and structure of the languages. In order to solve the above problem, a cross-linguistic text similarity calculation method based on the co-occurrence relationship of text weighted words is adopted. This method constructs a cross-linguistic word co-occurrence relationship model by parallel corpus, and uses this model to map cross-linguistic texts, and calculates the similarity of texts in different languages. The model actually reflects the probability distribution of keywords in one language when some keywords appear together and map to another language. Experimental results show that the calculation of the cross language text sorting method is closer to the artificial evaluation standard.

Key Words:word co-occurrence; text similarity; cross-linguistic; statistical translation model

0 引言

隨著網絡技術的發展,信息存儲快速增長,如何從海量的互聯網信息中獲取需要的信息越來越困難,給信息處理技術帶來新的挑戰。文本相似度計算在各種信息處理應用中有著重要作用,例如搜索引擎、文本分類、文本聚類、信息檢索等[1-3]。基于同一種語言的文本相似度算法主要分為基于字符串的方法[4-5]、基于語料庫的方法[6-7]、基于世界知識的方法[8-9]和其它方法[10-11]。基于同語言的文本相似度研究趨于成熟,代表算法有向量空間模型[12]、基于文檔結構方法[13]、基于本體知識[14]等。但是,相對于同語言的文本相似度研究,跨語言的文本相似度研究很少。跨語言文檔相似度排序難點在于:首先,在跨語言信息檢索過程中,不同語言的文檔不屬于同一特征空間,不能直接對不同空間的文檔進行表示及進一步排序;其次,影響排序質量的因素十分復雜,即使同一算法對不同語言的文檔也不能復制使用,尤其是針對現今帶有眾多復雜特征的互聯網文檔,不能很好地直接以符合用戶需要的方式對文檔進行排序。

目前,跨語言文本相似度主要有以下幾種方法:

(1)基于全文機器翻譯方法[15-16]。該方法使用機器翻譯工具,將待檢索的源語言翻譯成目標語言,再使用單語言的文本相似度算法進行相似度計算。或者將源語言和目標語言都翻譯成同一種中間語言,再進行文本相似度計算。無論是否借助中間語言計算,基于機器翻譯的方法都極其依賴機器翻譯的質量,并且很難應用到多種語言。

(2)基于統計翻譯模型方法[17-18]。該方法需要在兩種語言之間生成翻譯概念詞典,建立翻譯概念詞典需要大規模對齊語料。本文使用的方法是基于統計翻譯模型的文本加權詞共現的跨語言文本相似度算法。

(3)CL-ESA算法(Cross-Language Explicit Semantic Analysis)。是基于平行語料庫的跨語言相似度算法,是ESA算法的擴展[19-20]。該類算法以兩種語言的平行語料庫為基礎計算相似度,其算法準確度主要依賴語料庫的規模和質量。要獲得較高的準確度需要大規模高質量的平行語料,而大規模的索引語料會增加算法的計算量。因此, CL-ESA算法的準確性和效率很難兼顧。

本文提出的方法屬于基于統計翻譯模型方法,不同的是,本文對翻譯概念詞典的建立基于語義思想,即認為同一關鍵字在不同的語義中有不同含義,結合上下文語義才能得到該關鍵詞的最佳翻譯結果。

1 文本相似度計算過程

1.1 算法總體流程

本文根據平行語料庫計算好關鍵詞的共現映射模型,并對待檢測文章和新加入的文章提取關鍵詞關聯關系存入數據庫,這樣可提高計算效率。算法應用過程分為映射階段和匹配階段,對目標文本進行關鍵詞映射,再通過跨語言的映射模型映射其它語言的關系矩陣,基于該矩陣對待匹配文本進行計算匹配,流程如圖1所示。

1.2 跨語言映射關系模型構建

本文基于語義思想構建跨語言映射關系,并且認為語義的確定基于語境。語境這一概念是英國民俗學家馬林諾斯基首先提出的,他認為語境對于理解語言必不可少。同一個詞在不同語境中可能代表不同的意思,例如英語中的hang就有“吊死、懸掛”的意思。因此,本文使用句子作為確定語境的最小單位,并使用一個句子中實詞的加權共現關系作為跨語言關鍵詞映射關系模型構建的依據。因此,對于語料庫選擇,必須選擇句子對齊的平行語料,具體方法如下:

(1)統計[L1]中詞[w1]出現過的所有句子,組成集合[S1]。[S1=s1,s2,s3,?,sn,其中si]是含有[w1]的一個句子。

(2)統計[S1]中每個詞出現的頻率[fi],過濾掉頻率太低的詞,對篩選得到的詞進行排序,得到新的集合:[F1=w1,f1,w2,f2,w3,f3,?,wn,fn]。其中:

(3)找到[L2]中所有與[S1]對應的句子,組成集合[S1'],[S1'=s1',s2',s3',?,sn']。

(4)對[S1']作與第(2)步相同的處理,得到[F1'。F1'=][w1',f1',w2',f2',w3',f3',?,wn',fn']。

(5)將第(2)步和第(4)步結果生成的[F1,F1']映射關系保存。

(6)對[L1]中的所有詞進行第(1)~第(5)步操作,生成[L1]對[L2]的映射模型。

其中[L1]、[L2]代表不同的兩種語言,[S1]、[S1']分別代表[L1]、[L2]中不同語言對齊的句子。如上述過程對平行語料庫處理完成后,得到[L1]對[L2]的跨語言映射關系模型。如需要[L2]對[L1]的映射關系模型,則對[L2]進行相同處理。該模型實際反映了某種語言中某些關鍵詞共同出現時映射成另一種語言的關鍵詞概率分布,能有效解決雙關鍵詞共現算法中某一句子同時出現“A B C”時,選用“AB”、“AC”還是“BC”作為共現詞對進行映射的問題。跨語言文本相似度計算基于本文所提出的跨語言映射關系模型實現。

1.3 文本相似度計算

本文使用的相似度計算基于前述構建的跨語言映射關系模型。不同于傳統的文本相似度計算方法,使用本文算法進行計算之前,要對待檢索的文檔數據庫進行預處理,將每篇文檔用關鍵詞分布頻率表示出來,形成檢索匹配向量,具體方法如下:

(1)對待檢索的[L1]語言[T1]進行句子拆分,把[T1]拆分成句子集合表示的形式,即[T1=s1,s2,s3,?,sn]。

(2)去停用詞后對[T]中的每個詞按句子統計共現詞內容和頻率。

得[F=w1,w2,fw1,w2,?,wm,wn,fwm,wn]。

(3)設定頻率閾值[θ],過濾掉[fwx,wy]<[θ]的共現詞對,計作向量[N],其中[N]的長度為n。

(4)對第(3)步中的每個共現詞對,根據跨語言關系映射模型映射成對應語言[L2]的向量,并截取排名前n的結果,將所有向量組合成矩陣[M]。

(5)計算矩陣乘積結果[N?MT],其中[MT]是[M]的轉置矩陣。

(6)將乘積結果相同的關鍵詞頻率合并,統計所有[關鍵詞,頻率],計作[r,f]并按照頻率從大到小排序,得到[T]的對應[L2]語言共現詞分布概率向量[R]。

(7)計算數據庫中每篇文章的共現詞分布概率[R'],計算[R]與每篇文章[R']的歐式距離[d],對結果從大到小排序即為相似度計算結果。其中:

上述計算過程的中心思想是根據關鍵詞共現映射模型,將[L1]語言的文本[T]映射成[L2]語言的共現詞分布概率,再通過計算[L2]的每篇文本共現詞分布概率的相似程度,完成文檔間相似度計算。其中[L2]語言的待檢索文本庫可以進行共現詞分布計算,將所有文檔用共現詞分布概率表示并存入另一個共現詞數據庫。當進行檢索時,可以直接從該數據庫中獲得數據,從而提升計算效率。對于新入庫的文本,也可直接對齊進行共現詞概率表示,同時存入兩個數據庫。

2 實驗

2.1 平行語料庫構建

平行語料庫是構建跨語言關鍵詞映射模型的基礎。根據本文的模型構建方法,要求平行語料庫是以句子為對齊單位的雙語語料庫。本文實驗采用中文和英文兩種語言,對齊語料來源于大量的電影字幕文件。由于電影字幕文件有精確的時間軸和準確的雙語語義信息,所以用其構建句子級對齊的平行語料庫事半功倍。

實驗使用爬蟲工具從字幕網站下載字幕文件,篩選文件格式為.srt的文件下載到本地,在本地對.srt文件進行解析,根據其時間戳進行雙語對齊,.srt文件格式如圖2所示。

將得到的中英文句子存入數據庫用作對齊語料庫,最終得到語料庫規模為120 994條對齊語料。

根據跨語言關鍵詞共現關系模型構建方法,對平行語料庫中的數據進行處理,構建出詞共現關系模型,存入另一個數據表中。該表保存了詞之間的共現關系及映射關系,用來對檢索文章進行映射。

2.2 跨語言文本相似度計算

本文所使用的文本相似度計算測試數據與實驗設備由智能融媒體教育部重點實驗室(中國傳媒大學)提供。其中,中文新聞文檔1 000篇,英文新聞文檔1 000篇。測評方法采用先進行機器計算,再對結果打亂進行人工打分。

(1)對每篇中文文章使用本文提出的方法進行跨語言文本相似度計算排序,即計算出和該篇中文文本相似的所有英文文章的相似程度并排序,截取其結果的前30篇作為人工打分備選。

(2)打亂這30篇文章順序,交給人工進行標注,人工標注為:人工認為和待檢索文章(即中文文章)相似或相關的英文文章打1分,認為不相似或不相關的打0分。

(3)定義相似準確率為[P1=tT],其中[t]表示算法計算排序為前[T]的文章中,人工標注結果為1的文章數,[T]表示選擇標準,本文選用排序的前10位作為標準。同理,不相似準確率為[P2=fF],其中[f]為排序倒數[F]的文章中,人工標注為0的文章數。本文依然選擇10作為[F]的具體參數,即認為相似度排序的計算結果中,排序21-30為不相似文章。

(4)對[P1]和[P2]進行加權調和平均處理,得出綜合指標[F=2P1P2(P1+P2)]。

該評估方法參考了機器學習中常用的準確率/召回率評估方法,不同的是本文并不同于文本分類問題,無法計算常規的準確率或召回率,轉而采用上述方法對排序結果進行評估,并且采用先使用算法計算再進行人工打分的方法,減少了人工標注時間。

為了對實驗結果進行對比分析,本文使用基于全文翻譯的文本相似度算法作為對照實驗,并采用上述方法對結果進行評估。對300篇中英文文檔分別進行相似度排序計算,取平均值作為最終實驗結果。

實驗結果如表1所示。

從表1可以看出,本文提出的基于文本加權詞共現的跨語言文本相似度算法優于基于全文翻譯的文本相似度算法,其對跨語言文本相似度的排序結果更接近人工排序結果。

3 結語

本文提出了一種新的跨語言文本相似度計算方法,該方法依據語義思想,基于文本加權詞共現關系進行跨語言文本相似度計算。通過使用平行語料庫實現跨語言的加權詞共現關系模型,通過模型間不同語言共現詞的映射關系進行跨語言文本相似度計算。本文詳細闡述了根據平行語料庫構建詞共現映射模型的過程,以及根據詞共現映射模型進行文本相似度計算的過程和實驗流程。實驗結果表明,本文提出的方法相對于基于機器翻譯的跨語言文本相似度計算,更接近于人工判斷標準。但是本文所提出的算法仍然存在改進空間:首先,語料庫的來源沒有針對性,本文所使用的句子級對齊語料庫來源于電影字幕文件,但是字幕文件往往偏口語化,專業性較差,沒有話題針對性;其次,詞共現關系研究還有待深入,需要挖掘詞之間更緊密的聯系與關聯。

參考文獻:

[1] LI H,XU J. Semantic matching in search[J]. Foundations & Trends in Information Retrieval,2014,7(5):343-469.

[2] HALL P,DOWLING G. Approximates string matching[J]. Computing Survey,1980,12(4):381-402.

[3] 吳多堅. 基于 Word2Vec 的中文文本相似度研究與實現[D]. 西安:西安電子科技大學,2016.

[4] 秦春秀,趙捧未,劉懷亮. 詞語相似度計算研究[J]. 情報 理 論 與 實 踐,2007,30(1):105-108.

[5] 劉萍,陳燁. 詞匯相似度研究進展綜述[J]. 現代圖書情報技術, 2012(7-8):82-89.

[6] LANDAUER T K,DUMAIS S T. A solution to Plato's problem: the latent semantic analysis theory of acquisition, induction, and representation of knowledge[J]. Psychological Review,1997,104(2): 211-240.

[7] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research,2003(3):993-1022.

[8] 劉群,李素建. 基于《知網》的詞匯語義相似度計算[J]. 中文計算語言學,2002,7(2):59-76.

[9] 孫琛琛,申德榮,單菁,等. WSR:一種基于維基百科結構信息的語義關聯度計算算法[J]. 計算機學報,2012,35(11):2361-2370.

[10] 李彬,劉挺,秦兵,等. 基于語義依存的漢語句子相似度計算 [J]. 計算機應用研究,2003,20(12): 5-17.

[11] JIANG J J,CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy[C]. Taiwan:Proceedings of the International Conference on Research in Computational Linguistics,1997.

[12] 胡吉明,肖璐. 向量空間模型文本建模的語義增量化改進研究[J]. 現代圖書情報技術,2014(10):49-55.

[13] ZHANG X L,YANG T,FAN B Q,et al. Novel method for measuring structure and semantic similarity of xml documents based on extended adjacency matrix[J]. Physics Procedia,2012(24):1452-1461.

[14] WACHE H,VOGELE T,VISSER U,et al. Ontology based integration of information a survey of existing approaches[C]. Seattle Proceedings of the IJCAI01 Workshop on Ontologies and Information Sharing,2001:108-117.

[15] OARD D W,HACKETT P. Document translation for cross-language text retrival at the university of Maryland[J]. Journal of Computer Science & Technology,1998,30(2):259-272.

[16] MAIKE ERDMANN,ANDREW FINCH. Calculating Wikipedia article similarity using machine translation evaluation metrics[C]. Procedings of the 2011 IEEE Workshops of International Conference on Advanced Information Networking and Applications,2011:620-625.

[17] WESSEL KRAAIJ,NIE J Y,MICHEL SIMARD. Embedding web- based statistical translation model in cross-language information retrieval[J]. Computational Linguistics,Sep,2003,29(3):381-491.

[18] ALBERTO BARRON-CEDENO, PAOLO ROSSO, DAVID PINTO,et al. On cross-lingual plagiarism analysis using a statistical model[C]. ECAI 2008 Workshop on Uncovering Plagiarism, Authorship, and Social Software Misuse,2008:9-13.

[19] MARTIN POTTHAST,BENNO STEIN,MAIK ANDERKA. A Wikipedia-based multilingual retrieval model[C]. Proceedings of 30th European Conference on IR Research,ECIR 2008, Glasgow, LNCS, Berlin Heidelberg, New York, 2008: 522-530.

[20] YANG Y M,JAIME G,CARBONELL, et al. Translingual information retrieval: learning from bilingual corpora[J]. Artificial Intelligence,1998,103(1-2):323-345.

(責任編輯:杜能鋼)

猜你喜歡
排序文本語言
排序不等式
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
恐怖排序
在808DA上文本顯示的改善
節日排序
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
累積動態分析下的同聲傳譯語言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 丰满人妻中出白浆| 亚洲毛片网站| 午夜一区二区三区| 日韩av在线直播| 精品国产美女福到在线直播| 欧美高清国产| 精品无码一区二区三区电影| 欧美笫一页| 成人日韩欧美| 91娇喘视频| 亚洲午夜18| 99精品高清在线播放| 欧美天天干| 欧美午夜久久| 亚洲AV人人澡人人双人| 亚洲一区二区三区麻豆| 国产欧美另类| 国产在线一区视频| 天天做天天爱夜夜爽毛片毛片| 精品综合久久久久久97超人| 亚洲永久色| 欧美高清三区| 啪啪啪亚洲无码| 欧美专区在线观看| 精品国产香蕉在线播出| 四虎永久免费在线| 97se亚洲综合在线| 99热这里只有成人精品国产| 欧美成人区| 国产无码性爱一区二区三区| 无码高潮喷水专区久久| 国产麻豆91网在线看| 喷潮白浆直流在线播放| 成人在线天堂| 国产又粗又猛又爽视频| 国产精品夜夜嗨视频免费视频 | 国产精品区网红主播在线观看| 精品無碼一區在線觀看 | 国产精品网址你懂的| 色综合五月| 午夜国产不卡在线观看视频| 亚洲AV永久无码精品古装片| 在线观看精品国产入口| 一级高清毛片免费a级高清毛片| AV网站中文| 国产95在线 | 国产成人无码久久久久毛片| 亚洲国产在一区二区三区| 国产福利一区视频| 国产女人18水真多毛片18精品| 青青操视频免费观看| 伊人网址在线| 国产资源免费观看| 中文无码毛片又爽又刺激| 九九久久精品免费观看| 色首页AV在线| 久久久久亚洲AV成人人电影软件| www.亚洲一区二区三区| 精品福利国产| 2021天堂在线亚洲精品专区| 成人国产精品网站在线看| 一本大道无码高清| 亚洲日韩精品综合在线一区二区| 欧美影院久久| 欧美在线一二区| 九九视频免费看| 国产91丝袜在线播放动漫| 超清人妻系列无码专区| 亚洲色无码专线精品观看| 午夜毛片福利| 亚洲天堂视频在线免费观看| 免费午夜无码18禁无码影院| 午夜国产小视频| 亚洲一区二区三区国产精品| 五月天婷婷网亚洲综合在线| 91口爆吞精国产对白第三集| 广东一级毛片| 日本一区中文字幕最新在线| 高潮毛片免费观看| 广东一级毛片| 午夜天堂视频| 国产精品无码翘臀在线看纯欲|