一種頻率增強(qiáng)的語句語義相似度計(jì)算

2013-01-01 00:00:00廖志芳邱麗霞謝岳山樊曉平

湖南大學(xué)學(xué)報(bào)·自然科學(xué)版 2013年2期

摘要：目前，在基于HowNet進(jìn)行語句語義相似度計(jì)算的算法中，沒有考慮語句中的不同詞語對語句之間相似度值的不同貢獻(xiàn)程度，以致計(jì)算結(jié)果不理想.為了更好地解決上述缺陷，提出了一種頻率增強(qiáng)語句語義相似度算法.該算法利用HowNet作為詞典庫，在同時(shí)考慮義原距離和義原深度的條件下，進(jìn)行詞語相似度計(jì)算；在此基礎(chǔ)上算法進(jìn)一步將詞語在語料庫中的頻率函數(shù)作為權(quán)重值，引入至語句的語義相似度計(jì)算中，以降低高頻率詞語在語句相似度值中的比重.實(shí)驗(yàn)表明，改進(jìn)的算法在語句相似度計(jì)算結(jié)果上與人們的主觀判斷更接近，結(jié)果更合理.

關(guān)鍵詞：HowNet；義原樹狀結(jié)構(gòu)；語料庫；語義相似度

中圖分類號：TP39文獻(xiàn)標(biāo)識碼：A

文本相似度＼[1＼]是表示兩個(gè)或多個(gè)文本之間匹配程度的一個(gè)度量參數(shù)，相似度越大，說明對比的內(nèi)容相似程度越高，反之越低.文本相似度計(jì)算廣泛應(yīng)用于文本挖掘、Web信息搜索和機(jī)器翻譯等，是自然語言處理中的一個(gè)重要研究領(lǐng)域＼[2＼].在長文本句子相似度計(jì)算中，主要分析相同的句子并且將句子分類＼[1＼]；在圖像修復(fù)中，根據(jù)嵌入圖像的描述文字進(jìn)行修復(fù)可以達(dá)到更高的精度＼[3＼]，在web內(nèi)容進(jìn)行搜索時(shí)，計(jì)算web頁面中的語句相似度能夠更加有效地推薦搜索結(jié)果＼[4＼].

當(dāng)前的文本相似度計(jì)算包括詞語相似度計(jì)算，語句相似度計(jì)算等，詞語相似度計(jì)算是指詞語之間在語義上的相似度計(jì)算，狹義地說，是指從字面上來計(jì)算兩個(gè)詞語之間的相似度＼[5＼]，其研究方法主要包括利用語義詞典以及詞典中數(shù)據(jù)的樹狀層次結(jié)構(gòu)關(guān)系，來計(jì)算詞語之間的語義相似度值；其次是利用統(tǒng)計(jì)學(xué)中的概率分布思想，結(jié)合語料庫，通過詞語在語料庫中出現(xiàn)的頻率來反應(yīng)詞語間的相似度.第一類方法的基礎(chǔ)是語義詞典庫，根據(jù)義原或者詞語本身構(gòu)成的樹狀結(jié)構(gòu)，來得到詞語的相似度值，這類方法的一個(gè)較明顯的缺點(diǎn)是詞典庫中經(jīng)常存在一些沒有登錄或記錄的詞匯.第二類方法的基礎(chǔ)是語料庫，該方法中假定當(dāng)詞語所在的上下文環(huán)境相似時(shí)，詞語之間才是相似的.但是這個(gè)方法中的一個(gè)缺陷是有時(shí)語料庫中的詞語頻率函數(shù)并不滿足某種概率分布＼[6＼].

但是，單純的詞語之間語義相似度計(jì)算還不足以滿足日常需要，人們在平常的工作生活中，接觸到的通常是以文本形式出現(xiàn)的信息，因此，詞語語義相似度計(jì)算還需要過渡到語句語義相似度計(jì)算層面上.在語義相似度計(jì)算方法中，主要包括將詞性和詞序結(jié)合的方法＼[7＼]、依存樹法、編輯距離方法和基于HowNet的方法＼[8＼]等，我們從復(fù)雜度、詞語權(quán)重信息、同義詞反義詞、數(shù)據(jù)稀疏、語義信息、語句結(jié)構(gòu)和算法可行度進(jìn)行分析發(fā)現(xiàn)，這些方法并不能完全滿足這些因素.

在以往的文本或者長句相似度匹配中，可以通過上下文關(guān)系中推斷出文本的語義，但是在短句中，由于詞匯量的問題，以往的語句相似度計(jì)算法在短句中的語義相似度計(jì)算中有效性不高＼[9＼]，因而文本中短句中相似度計(jì)算，如5～25個(gè)詞語組成的不講究語法的短句，已逐漸成為自然語言處理中的一個(gè)重要領(lǐng)域.

本文將HowNet作為語義詞典庫， HowNet是由董振東先生創(chuàng)立， HowNet的描述對象是漢語詞語和英語詞語所代表的概念，它揭示了概念之間以及概念屬性之間的復(fù)雜關(guān)系，并以此構(gòu)成一個(gè)組織龐大、內(nèi)容豐富的知識庫.

4結(jié)論

本文以HowNet為語義詞典庫，介紹了HowNet中義原相似度計(jì)算、概念相似度計(jì)算以及詞語相似度計(jì)算的細(xì)節(jié)和公式.最終，以此為基礎(chǔ)，研究了改進(jìn)的語句語義相似度計(jì)算.

在對語句相似度算法改進(jìn)時(shí)，將詞語在語料庫中的頻率函數(shù)作為權(quán)重系數(shù)加入到計(jì)算公式中.語料庫中詞語出現(xiàn)的頻率越大，對語句整體所起的作用越小，反之則越大，這個(gè)規(guī)律與人們?nèi)粘５挠^念也相符合.本文改進(jìn)的算法在一定程度上解決了目前基于HowNet的語句相似度算法中存在的計(jì)算結(jié)果不合理現(xiàn)象.最后，通過三種方法的對比實(shí)驗(yàn)證明，改進(jìn)后的語句相似度計(jì)算方法更合理.

參考文獻(xiàn)

[1]ALIGULIYEV R M. A new sentence similarity measure and sentence based extractive technique for automatic text summarization＼[J＼]. Expert Systems with Application ，2009，36 （4）： 7764-7772.

＼[2＼]涂承勝，魯明羽，陸玉昌.Web內(nèi)容挖掘技術(shù)研究＼[J＼].計(jì)算機(jī)應(yīng)用研究，2003，20（11）：5-9.

TU Chengsheng， LU Mingyu， LU Yucang. Web content mining technology＼[J＼]. Computer Application Research， 2003，20（11）：5-9.（In Chinese）

＼[3＼]CHIANG J H，YU H C. Literature extraction of protein functions using sentence pattern mining＼[J＼]. IEEE Transactions on Knowledge and Data Engineering，2005，17（8）：1088-1098.

＼[4＼]KO Y， PARK J， SEO J. Improving text categorization using the importance of sentences＼[J＼]. Information Processing and Management，2004，40： 65-79.

＼[5＼]LIN Dekang. An information theoretic definition of similarity semantic distance in wordnet ＼[C＼]//Proceedings of the Fifteenth International Conference on Machine Learning1998：296-304.

＼[6＼]田久樂，趙蔚.基于同義詞詞林的詞語相似度計(jì)算方法＼[J＼].吉林大學(xué)學(xué)報(bào)，2010，28（6）：602-608.

TIAN Jiule，ZHAO Wei. Words similarity algorithm based on tongyici cilin in semantic web adaptive learning system＼[J＼]. Journal of Jilin University， 2010，28（6）：602-608.（In Chinese）

＼[7＼]車萬翔，劉挺，秦兵，等.基于改進(jìn)編輯距離的中文相似句子檢索＼[J＼].高技術(shù)通訊，2004（7）：15-19.

CHE Wangxiang，LIU Ting， QIN Bing. Similar chinese sentence retrieval based on improved editdistance＼[J＼].High Technology Letters，2004（7）：15-19. （In Chinese）

＼[8＼]劉群，李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算＼[C＼]//第三語義學(xué)研討會論文集.臺北：臺北中央研究院，2002：149-163.

LIU Qun， LI Sujian How netbased lexical semantic similarity calculation＼[C＼]//Third Semantics Workshop Proceedings. Taipei： Academia Sinica， 2002：149-163.（In Chinese）

＼[9＼]AMINUL Islam，DIANA Inkpen. Semantic text similarity using corpusbased word similarity and string similarity＼[R＼]. Ottawa， Canada：University of Ottawa，2008.

＼[10＼]LIAO Zhining， ZUHAIR A. Bandar， James D. O’Shea，Keeley Crockett. Termbased approach for semantic similarity of short texts＼[R＼].Manchester， England：Manchester Metropolitan University，2012.

湖南大學(xué)學(xué)報(bào)·自然科學(xué)版2013年2期

湖南大學(xué)學(xué)報(bào)·自然科學(xué)版的其它文章: 自適應(yīng)半主動懸架系統(tǒng)控制策略; 混凝土砌塊砌體墻受剪性能的有限元模擬; 鋼筋混凝土構(gòu)件模型的配筋率及保護(hù)層厚度研究; 多態(tài)不確定性環(huán)境下城市固廢管理模型及求解; 小鼠NPC細(xì)胞RFX1ChIPSeq數(shù)據(jù)分析; 考慮加速蠕變的巖石蠕變過程損傷模擬方法