999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合策略的中文短文本相似度計算

2018-06-26 10:19:42宋冬云張祖平
計算機工程與應用 2018年12期
關鍵詞:語義文本方法

宋冬云,鄭 瑾,張祖平

中南大學 信息科學與工程學院,長沙 410083

1 引言

隨著互聯網信息技術的快速發展,人們可以方便地上傳或下載共享的文檔信息,這種以數字文檔為媒介的共享模式導致了海量文檔的存在。因此,如何在海量文檔中,快速精準地計算文檔相似度,從而進行有效的信息檢索變得尤其重要。

句子相似度是衡量文檔相似度的重要依據,廣泛應用于自動文本摘要、信息檢索、文本分類和機器翻譯等領域[1-5]。然而,由于中文句子的語法結構復雜多變,語義語境的多異性等因素,增加了中文句子相似度計算的難度。為了有效地計算中文句子之間的相似度,專家學者提出了大量的方法,主要分為兩類:基于向量空間模型的方法[6-10]和基于語法語義模型的方法[11-14]。

基于向量空間模型(Vector Space Model,VSM)的方法通過統計句子中詞語出現的頻率,將句子轉化成空間向量,從而將文本的相似度簡化為空間向量的距離。由于傳統的VSM方法只考慮詞語的頻率,忽略詞語在句子中的語義和語法結構,使得文本相似度計算不準確。因此,專家學者對傳統的VSM進行大量的改進[7-10]。文獻[7]在傳統VSM的基礎上,增加詞語的句法和語義信息,提高了詞語相似度計算的準確性。文獻[8]將概念作為句子的基本語言單元,通過概念抽象和專業分類,使得構建的空間向量在文本語義表達方面更為準確。考慮到專業詞匯在特定領域的重要性,文獻[9]使用領域權重概念對VSM進行改進,提高了VSM在特定領域的準確性。

基于語法語義模型的方法通過現有預料構建詞語知識庫,并將詞語在知識庫中的關系距離,作為詞語之間的相似度。文獻[11]以HowNet為知識庫,提取語義關聯的詞語,并結合詞語出現的頻率計算句子的相似度,取得了較好的效果。文獻[12]將命名實體的信息內容加權,并結合句子的語法語義特征,綜合評估相似度。文獻[13]考慮到語句中不同詞語對語句之間相似度的不同貢獻程度,提出一種基于頻率增強的語句語義相似度算法,使得計算的相似度更加接近人們的主觀判斷。

雖然,現有方法對傳統的VSM和語法語義模型進行了一定程度的改進,但是仍存在一定的局限性。基于VSM的方法通過向量的形式,機械地考慮了句子的字面語義,針對于特定領域的文本能取到較好的效果,但由于缺乏句型結構的分析,對于一般的文本,效果不佳,泛化能力有待提高。而基于語法語義的方法綜合考慮到了句子的成分組成和語法結構,計算的相似度更加符合人們的主觀判斷,但是,由于需要計算全部語法結構成分之間的相似度,因此,計算復雜度高,效率較低。因此,本文結合短文本的特點,分別使用基于層次聚類的關鍵詞權重計算和句子成分主干分析過濾的方法對兩者進行改進,并結合改進之后的方法,提出一種基于混合策略的文本相似度計算方法,完成中文短文本相似度計算任務。

2 基于混合策略的中文短文本相似度計算

文本相似度計算方法流程如圖1所示。首先,借助現有的工具對中文短文本進行預處理,得到詞語的詞性。然后,根據詞語的語義距離,使用層次聚類構建短文本聚類二叉樹,將文本的關鍵詞權重計算轉化為二叉樹中節點的深度問題,計算基于關鍵詞權重的相似度,與此同時,使用句子主干分析方法提取句子主要成分,改進傳統的語法語義模型,進而分別計算短文本的相似度。最后,綜合計算兩種相似度,得到文本最終的相似度。

圖1 算法流程圖

2.1 預處理

通常文本相似度計算是基于詞語進行的,因此需要對中文短文本進行分詞、詞性標注和停用詞過濾等預處理操作,得到有效的詞語序列,及其相應的詞性。其中預處理操作如下:

分詞:通過斯坦福分詞[15]工具對中文短文本進行分詞操作,得到一系列有序的詞語序列。

詞性標注:將分詞之后得到的詞語序列使用斯坦福詞性標注工具[16]進行詞性標注操作,得到詞語相應的詞性。

無效詞過濾:根據詞語詞性,將代表實際含義的實詞定義為有效詞,包括動詞、名詞、形容詞以及副詞,而將連詞、介詞、代詞等虛詞視為無效詞,并進行過濾,不予考慮。

將預處理后的詞語集合分別使用2.2節和2.3節中的方法,計算基于關鍵詞權重的相似度和主干成分的語義相似度。

2.2 基于關鍵詞權重的文本相似度計算

TF-IDF是信息檢索領域常用的加權方法,廣泛應用于多文檔相似度計算領域[17-18]。該方法通過統計關鍵詞的頻率和逆文本頻率綜合計算關鍵詞在文檔中的權重,減低文檔中高頻低區分度詞語對相似度計算的貢獻程度。其中,逆文本頻率的主要思想是包含某詞條的文檔越少,則該詞條IDF的值越大,說明該詞條具有很好的類別區分能力。然而,由于中文短文本的詞語數量較少,無法構建大量的統計信息,得到的關鍵詞的逆文本頻率不準確,進而,無法構建TF-IDF權重向量。考慮到文本中,語義差異大的詞語,區分文本相似度的能力越強,進而獲得較高的權重。因此,針對于中文短文本的特性,本文提出了一種基于層次聚類構建詞語權重向量的文本相似度計算方法,其主要步驟如下:

步驟1構建層次聚類單元。對句子Sen1和Sen2經過預處理之后,得到m和n詞語,將每一個詞語視為一個單獨的集合,記為C={cij},作為層次聚類的基本單元,其中cij表示第i個句子中第 j個詞語。將所有的集合C組合到一起,記為S={C1,C2,…,Cm+n}。

步驟2聚類單元合并與更新。根據公式(1)計算S中兩兩聚類單元之間的相似度,選取相似度最大的兩個單元Ci和Cj進行合并,形成新的單元Ck=Ci?Cj,并更新Ck與S中其他單元之間的相似度距離。其中dis(cuv,cmn)表示計算兩個詞語之間的語義相似度,具體計算采用文獻[19]中的方法,u≠m表示詞語cuv和cmn分別來自于不同的句子。

步驟3構建層次聚類二叉樹。重復步驟2,直到S中只含一個元素,構建層次聚類樹。圖2舉例說明句子“黨中央制定的路線方針政策得到落實”和“全黨自覺服從黨中央制定的方針政策”構建層次聚類樹的過程,其中節點中的編號表示聚類單元合并的順序。

圖2 層次聚類二叉樹

步驟4計算層次聚類樹的深度,構建權重向量W。計算步驟3中構建的層次聚類樹深度,記為H。將根節點的層次記為0,從上往下,依次統計每一個詞語所在的層次h。如果同一個詞語出現在樹的不同位置,則取均值,作為詞語的深度。然后,使用公式(2)計算每一個詞語的權重w,進而構建權重向量W。其中,對深度差加1的目的是為了避免詞語權重為0的情況。

步驟5空間向量構建。統計Sen1和Sen2中詞語的頻率,構建頻率向量P1和P2。然后,結合頻率向量P和權重向量W,根據公式(3)構建句子的加權空間向量,記為V1和V2。

步驟6基于關鍵詞權重的相似度計算。根據公式(4)計算向量V1和V2的余弦距離,并作為句子Sen1和Sen2之間的相似度。

2.3 基于主干成分的文本相似度計算

傳統的語法語義模型需要計算每一個詞語的相似度,效率較低,且實際中,通常句子的主要成分是決定句子語義的關鍵。因此,本文使用基于主干成分的方法對傳統語法語義模型進行改進,提高傳統語法語義模型的計算效率。

2.3.1 句法結構和依賴關系提取

斯坦福語法分析工具[20]是目前較為成熟的語法分析工具,并在自然語言處理領域得到了廣泛的應用[12,14]。該工具主要使用遞歸神經網絡(Recursive Neural Network,RNN),結合文本的詞性(Part-of-Speech,POS)以及語料庫中的依賴關系等特征,訓練得到語法分析模型,具有速度快、性能好等優勢。

本文借助斯坦福語法分析工具對2.1節預處理后的詞語序列及其詞性進行語法分析,得到中文短文本的句法結構和詞語之間的依賴關系。以句子“綁匪被警察制服了”為例,進行語法分析,其可視化結果如圖3所示。圖左側為可視化的句法結構樹,其中IP表示簡單從句;圖右側為詞語與詞語之間的依賴關系,例如nsubjpass表示被動名詞主語關系。

圖3 語法分析可視化結果

2.3.2 中心詞提取

中心詞是貫穿整個句子結構的詞語,且能高度概括句子內容,也是有效提取句子主干成分的關鍵。然而,中文文本句法結構較為復雜,不同的句法結構對應的中心詞依賴關系構成也不相同,因此,需要針對不同的句型采取不同的策略進行中心詞提取。考慮到中文文本的結構,將中文短文本分為名詞性短語和簡單從句兩種類型,并根據句型決定中心詞的提取。

首先,遍歷2.3.1小節中的依賴關系集合,統計每一個詞語對應的依賴關系的數量;然后,分別選取依賴數量最多的名詞和動詞作為候選中心詞。最后,根據句子的語法結構,判斷名詞或者動詞作為最終的中心詞,記為Core。其中,由于名詞性短語由名詞和對應修飾成分組成,因此選擇名詞作為中心詞;簡單從句通常由主謂、謂賓和主謂賓結構構成,謂語是貫穿句子結構的核心,因此選取動詞作為中心詞。

2.3.3 主干成分提取

根據中心詞,提取句子的主要成分,其包括主語成分集(Ss1,Ss2)、謂語成分集(Sv1,Sv2)、賓語成分集(So1,So2)和語態集(Sp1,Sp2)。對于只有主語成分的名詞性短語,將中心詞加入主語集合Ss中,并查找與Ss中有依賴關系的詞語,將與中心詞有并列依賴關系的名詞加入到Ss中。對于簡單從句主干成分,首先將中心詞加入謂語集合Sv,然后,根據中心詞與前后詞語之間的依賴關系,確定句子語態Sp。最后,遍歷語法樹,找到與中心詞存在依賴關系的詞語,并根據句子語態Sp,將語法樹中具有主語、名詞性主語、被動賓語等依賴關系的詞語存入主語集合Ss,將具有賓語、直接賓語、間接賓語、介詞賓語,被動主語等依賴關系的詞語存入賓語集合So。

2.3.4 集合相似度計算

假設集合S1和S2分別有m個詞語(c11,c12,…,c1m)和n個詞語(c21,c22,…,c2n),其中m

其中,dis(c1i,c2j)表示計算兩個詞語之間的語義相似度,ε為調節因子,具體的計算采用文獻[19]中的方法,其文獻中ε取值為0.2。

2.3.5 基于語法語義的相似度計算

綜合2.3.3小節中得到的主要成分集合和2.3.4小節中的集合相似度,使用公式(6)計算句子相似度。其中,if(Sp1,Sp2)用于計算語態相似度,如果語態相同,取值為1,否則,取值為0。

2.4 混合策略相似度計算

對句子Sen1和Sen2經過2.2節和2.3節之后,分別得到句子相似度SimVSM(Sen1,Sen2)和SimMP(Sen1,Sen2),根據公式(7)對兩者相似度加權計算最終的文本相似度。

其中,σ是權重調節因子,具體取值在實驗中進行分析。

通常,相似度算法計算文本相似度得分屬于[0,1]。為進行性能評估,設定相似度大于0.6的,則視為文本相似,否則視為不相似。

3 實驗及分析

本文基于HowNet[21]詞典,以Stanford工具進行句子的語法分析,在人工構建的測試集上,對算法的各個參數以及性能進行評價,并通過與其他的方法進行比較分析,以驗證本文方法的有效性。

3.1 數據集

目前國際上還沒有專門針對中文短文本相似度計算的公共測試集,文獻[14]中采用人工構建的50對中文語句作為數據集。本文為了能更好地體現算法的有效性,分別在兩個數據集上進行了實驗。數據集I是通過知網、百度、Google搜索等平臺,人工分析并組合,精心構建的200對句子,記為TEST-I,其中100對相似,100對不相似。數據集II是通過不同的翻譯工具生成的2 000組相似句子對,再隨機生成2 000組負類,共計4 000組句子對,記為TEST-II。

3.2 評估標準

本文采用信息檢索領域常用的召回率R、準確率P和F得分評估算法性能。其中F得分定義如下:

3.3 權重因子分析

本文將基于關鍵詞權重的相似度和主干成分的語義相似度進行加權,從而得到最終的文本相似度,因此對不同權重因子σ進行實驗,確定最優的權重因子。本實驗采用控制變量法,以0.1的步長對σ取不同的值,在TEST-II上進行實驗,結果如圖4所示。

圖4 不同權重因子的實驗結果比較

從圖4可以發現,隨著σ的變化,文本相似度的召回率R、準確率P和F得分大致呈現先增加后減少的趨勢。當σ在0.5附近時,召回率R、準確率P和F得分均達到最優,分別為0.925、0.874和0.899。其他情況下,算法性能均有所下降。因此本文對σ取值為0.5,進行后續的性能評估。

3.4 相似度算法性能評估

為了驗證本文方法的有效性,將本文方法與現有方法數據集I、數據集II數據集上進行實驗,其中:

方法1傳統的向量空間模型(VSM)的方法,具體細節詳見參考文獻[6]。

方法2基于語法語義的方法,具體細節詳見參考文獻[14]。

方法3本文基于關鍵詞權重的方法。

方法4本文基于主干成分的方法。

方法5本文基于混合策略模型的方法。

表1展示了不同方法在數據集I上的文本相似度計算性能。從表中可以看出,傳統的向量空間模型的召回率R、準確率P和F值分別為0.796、0.760和0.778,本文提出的基于關鍵詞權重的方法文本相似度計算性能分別為0.852、0.813、0.832,相對于傳統的向量空間模型,召回率R、準確率P和F值分別提高了0.056、0.053和0.054,這是因為本文基于關鍵詞權重的方法采用詞語語義距離和層次聚類相結合,從句子本身獲得關鍵詞權重,使得文本相似度計算更加準確,進而提高了文本相似度性能。此外,從表中還可以看出,本文基于主干成分的方法計算得到的文本相似度性能分別為0.836、0.821和0.828,相對于方法3在準確率相當的情況下,召回率也能有一定的提升。最后,將本文提出的基于關鍵詞權重和基于語法語義方法相結合,形成混合策略模型的方法,其計算的文本相似度性能分別為0.866、0.856和0.861,相對于單一方法,具有明顯的提高,這是因為本文提出的基于混合策略的模型,綜合考慮了詞語的頻率,權重和語法語義,使得文本相似度計算更加準確。

表1 TEST-I的評測結果

為了進一步驗證本文方法的有效性,將上述5種方法在更大的數據集TEST-II上進行實驗,其評測結果如表2所示。

表2 TEST-II的評測結果

從表2中可以發現,本文基于混合策略的文本相似度計算方法的召回率R、準確率P和F值分別為0.925、0.874和0.899,在大數據集上,性能仍然高于其他文本相似度計算方法,進一步說明了本文方法的有效性。

4 結束語

文本相似度計算是自然語言處理中的重要課題。本文針對中文短文本,提出了一種基于混合策略的短文本相似度計算方法。該方法考慮到關鍵詞權重對文本相似度計算的重要性,采用詞語語義距離和層次聚類構建詞語聚類二叉樹,并根據詞語在聚類樹中的位置,構建權重向量,改進傳統的基于VSM的方法。此外,根據中文的語義表達習慣,并從主干成分的重要性角度出發,提出一種基于句子主干成分的相似度計算方法,實現文本高效的語義相似度計算。最后,綜合關鍵詞加權相似度和主干成分相似度,得到最終的基于混合策略的文本相似度。將本文方法與現有方法在不同數據集上進行實驗,結果表明本文方法在文本相似度計算的召回率R、準確率P和F值上高于其他方法,說明本文方法的有效性。

[1]Ferreira R,Cabral L D S,Lins R D,et al.Assessing sentence scoring techniques for extractive text summarization[J].Expert Systems with Applications,2013,40(14):5755-5764.

[2]Yu L C,Wu C H,Jang F L.Psychiatric document retrieval using a discourse-aware model[J].Artificial Intelligence,2009,173(7/8):817-829.

[3]Liu T,Guo J.Text similarity computing based on standard deviation[J].Lecture Notes in Computer Science,2005,3644:456-464.

[4]Magnolini S,Vo N P A,Popescu O.Analysis of the Impact of machine translation evaluation metrics for semantic textual similarity[J].Lecture Notes in Computer Science,2016,10037:450-463.

[5]Nguyen H T,Duong P H,Le T Q.A multifaceted approach to sentence similarity[M]//Integrated Uncertainty in Knowledge Modelling and Decision Making.[S.l.]:Springer International Publishing,2015.

[6]Salton G.The SMART retrieval system—Experiments in automatic document processing[M].Upper Saddle River.NJ,USA:Prentice-hall,Inc,1971.

[7]Zheng C,Qing L I,Liu F J.Improved VSM algorithm and itsapplication in FAQ[J].ComputerEngineering,2012,38(17):201-204.

[8]Liang X,Wang D,Huang M.Improved sentence similarity algorithm based on VSM and its application in question answering system[C]//2010 IEEE International Conference on Intelligent Computing and Intelligent Systems(ICIS),2010:368-371.

[9]蘇小虎.基于改進VSM的句子相似度研究[J].計算機技術與發展,2009,19(8):113-116.

[10]Yang S,Lou X Y.Research on sentence similarity based on VSM with semantic of word[J].Journal of Chengdu University of Information Technology,2012.

[11]趙玉茗,徐志明,王曉龍,等.基于詞匯集聚的文檔相關性計算[J].電子與信息學報,2008,30(10):2512-2515.

[12]Nguyen H T,Duong P H,Le T Q.A multifaceted approach to sentence similarity[M]//Integrated Uncertainty in Knowledge Modelling and Decision Making.[S.l.]:Springer International Publishing,2015.

[13]廖志芳,邱麗霞,謝岳山,等.一種頻率增強的語句語義相似度計算[J].湖南大學學報:自然科學版,2013,40(2):82-88.

[14]廖志芳,周國恩,李俊鋒,等.中文短文本語法語義相似度算法[J].湖南大學學報:自然科學版,2016,43(2):135-140.

[15]Chang P C,Galley M,Manning C D.Optimizing Chinese word segmentation for machine translation performance[C]//The Workshop on Statistical Machine Translation,2008:224-232.

[16]Toutanova K,Klein D,Manning C D,et al.Feature-rich part-of-speech tagging with a cyclic dependency network[C]//ConferenceoftheNorth AmericanChapter of the Association for Computational Linguistics on Human Language Technology,2003:173-180.

[17]Erra U,Senatore S,Minnella F,et al.Approximate TFIDF based on topic extraction from massive message stream using the GPU[J].Information Sciences,2015,292:143-161.

[18]Mikhaylov D V,Kozlov A P,Emelyanov G M.An approach based on TF-IDF metrics to extract the knowledge and relevant linguistic means on subject-oriented text sets[J].Computer Optics,2015,39(3):429-438.

[19]劉群,李素建.基于《知網》的詞匯語義相似度計算[D].北京:中國科學院計算技術研究所,2002.

[20]Socher R,Bauer J,Manning C D,et al.Parsing with compositional vector grammars[C]//Meeting of the Association for Computational Linguistics,2013:455-465.

[21]Dong Z,Dong Q.HowNet-a hybrid language and knowledge resource[C]//Proceedings International Conference on Natural Language Processing and Knowledge Engineering,2003:820-824.

猜你喜歡
語義文本方法
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 黄色网在线| 国产成人久久777777| 在线国产资源| 亚洲系列中文字幕一区二区| 欧美日韩北条麻妃一区二区| 国产欧美专区在线观看| 日韩av无码精品专区| 欧美日韩福利| 在线精品自拍| 国产尤物jk自慰制服喷水| av在线人妻熟妇| 东京热高清无码精品| 日韩高清无码免费| 亚洲资源站av无码网址| 亚洲精品国产乱码不卡| 国产黄网永久免费| 在线欧美一区| 中文字幕天无码久久精品视频免费| 五月天久久综合国产一区二区| 经典三级久久| 欧美怡红院视频一区二区三区| 久青草免费在线视频| 国产成人久久综合一区| 亚洲床戏一区| 久久综合九九亚洲一区| 91欧美在线| 第一区免费在线观看| 91精品aⅴ无码中文字字幕蜜桃| 国产亚洲精久久久久久久91| 免费观看精品视频999| 激情亚洲天堂| 国产精品自拍合集| 国产青青草视频| 激情综合激情| 国产精品网址在线观看你懂的| 国产精品页| 亚洲青涩在线| 玖玖精品在线| 午夜无码一区二区三区| 久久福利网| 免费A∨中文乱码专区| 视频在线观看一区二区| 欧亚日韩Av| 国产免费福利网站| 亚洲人成在线免费观看| 国产免费福利网站| 在线观看免费人成视频色快速| 国产xxxxx免费视频| 欧美激情福利| 91精品国产麻豆国产自产在线| 伊人久久久大香线蕉综合直播| 婷婷色中文网| 国产精品私拍99pans大尺度| 国产成人AV大片大片在线播放 | 久久国产高清视频| 欧美怡红院视频一区二区三区| 91久久天天躁狠狠躁夜夜| 成年女人18毛片毛片免费| 国产91无码福利在线 | 伦伦影院精品一区| 亚洲色无码专线精品观看| 又黄又爽视频好爽视频| 高清无码手机在线观看| 制服丝袜在线视频香蕉| 99热精品久久| 日韩欧美成人高清在线观看| 99精品在线视频观看| 国产96在线 | 青青草原国产一区二区| 亚洲无码精彩视频在线观看 | 国产最爽的乱婬视频国语对白| 老色鬼欧美精品| 91免费国产在线观看尤物| 欧美综合激情| AV不卡国产在线观看| 奇米精品一区二区三区在线观看| 激情综合五月网| 久久亚洲高清国产| 91精品国产麻豆国产自产在线| 婷婷午夜影院| 亚洲精品波多野结衣| 国产视频欧美|