宋冬云,鄭 瑾,張祖平
中南大學 信息科學與工程學院,長沙 410083
隨著互聯網信息技術的快速發展,人們可以方便地上傳或下載共享的文檔信息,這種以數字文檔為媒介的共享模式導致了海量文檔的存在。因此,如何在海量文檔中,快速精準地計算文檔相似度,從而進行有效的信息檢索變得尤其重要。
句子相似度是衡量文檔相似度的重要依據,廣泛應用于自動文本摘要、信息檢索、文本分類和機器翻譯等領域[1-5]。然而,由于中文句子的語法結構復雜多變,語義語境的多異性等因素,增加了中文句子相似度計算的難度。為了有效地計算中文句子之間的相似度,專家學者提出了大量的方法,主要分為兩類:基于向量空間模型的方法[6-10]和基于語法語義模型的方法[11-14]。
基于向量空間模型(Vector Space Model,VSM)的方法通過統計句子中詞語出現的頻率,將句子轉化成空間向量,從而將文本的相似度簡化為空間向量的距離。由于傳統的VSM方法只考慮詞語的頻率,忽略詞語在句子中的語義和語法結構,使得文本相似度計算不準確。因此,專家學者對傳統的VSM進行大量的改進[7-10]。文獻[7]在傳統VSM的基礎上,增加詞語的句法和語義信息,提高了詞語相似度計算的準確性。文獻[8]將概念作為句子的基本語言單元,通過概念抽象和專業分類,使得構建的空間向量在文本語義表達方面更為準確。考慮到專業詞匯在特定領域的重要性,文獻[9]使用領域權重概念對VSM進行改進,提高了VSM在特定領域的準確性。……