孫程程+李愛平+黃九鳴
摘要:近年來文本相似度計算在文本聚類、智能檢索、網頁問答、結果去重等其他許多自然語言處理領域具有舉足輕重的地位,尤其是在搜索引擎中。該文簡單論述了文本相似度計算的常用方法,以及本系統如何利用文本相似度計算判斷多文本的同一性。更重要的是提出了迭代搜索的概念,進一步細化信息檢索工作,盡可能確保信息檢索的正確性,提高效率,解放人工。
關鍵詞:空間向量;相似度;迭代搜索
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2014)19-4460-03
Text Similarity Calculation Based on Search System
SUN Cheng-cheng, LI Ai-ping, HUANG Jiu-ming
(National University of Defense Technology, Changsha 410000, China)
Abstract: In recent years, text similarity calculation has played a decisive role in text clustering, Web intelligent information retrieval, question answering system, Webpage duplicate removal, Natural Language Processing and many other files, especially in the search engine. This article briefly discusses the commonly used methods of text similarity computing, as well as the system of how to use text similarity calculation to determine the same multiple text. More important thing is proposing the concept of the iterative search, which made further refining information retrieval, as far as possible to ensure correctness, information retrieval to improve the efficiency, the liberation of artificial.
Key words: space vector; similarity; iterative search
1 概述
經濟的發展使得計算機走進了千家萬戶,成為了人們日常工作、生活中獲取信息,了解新聞資訊,甚至是購物等的重要幫手。網絡的發展給人們的生活帶來了極大的便利,從網上查找信息與看報紙、聽新聞相比更加快捷和全面,越來越多的網民習慣于一鍵上網,獲取所需的資訊。然而,我們都曾經或正在遭受著TB級數據的困擾,如何快速在這浩如煙海的信息中,快速準確的獲取相關信息不僅僅能夠節省大量的時間,提高工作效率,也是測評搜索系統性能的關鍵。又由于漢語具有的不同于英文的獨特的特點,使得針對于漢語言的具有針對性的搜索更加富有挑戰性。為了提升系統性能,滿足用戶從互聯網上得到對于特定問題更精確的答案,本系統應用余弦向量計算出依據用戶搜索條件返回的文本之間的相似度,去除無關重要的噪音信息,確保系統的可靠性能。……