面向協調搜索的文本相似度計算方法

2014-08-14 00:13:30孫程程李愛平黃九鳴

電腦知識與技術 2014年19期

孫程程+李愛平+黃九鳴

摘要：近年來文本相似度計算在文本聚類、智能檢索、網頁問答、結果去重等其他許多自然語言處理領域具有舉足輕重的地位，尤其是在搜索引擎中。該文簡單論述了文本相似度計算的常用方法，以及本系統如何利用文本相似度計算判斷多文本的同一性。更重要的是提出了迭代搜索的概念，進一步細化信息檢索工作，盡可能確保信息檢索的正確性，提高效率，解放人工。

關鍵詞：空間向量；相似度；迭代搜索

中圖分類號：TP391 文獻標識碼：A 文章編號：1009-3044（2014）19-4460-03

Text Similarity Calculation Based on Search System

SUN Cheng-cheng， LI Ai-ping， HUANG Jiu-ming

（National University of Defense Technology， Changsha 410000， China）

Abstract： In recent years， text similarity calculation has played a decisive role in text clustering， Web intelligent information retrieval， question answering system， Webpage duplicate removal， Natural Language Processing and many other files， especially in the search engine. This article briefly discusses the commonly used methods of text similarity computing， as well as the system of how to use text similarity calculation to determine the same multiple text. More important thing is proposing the concept of the iterative search， which made further refining information retrieval， as far as possible to ensure correctness， information retrieval to improve the efficiency， the liberation of artificial.

Key words： space vector； similarity； iterative search

1 概述

經濟的發展使得計算機走進了千家萬戶，成為了人們日常工作、生活中獲取信息，了解新聞資訊，甚至是購物等的重要幫手。網絡的發展給人們的生活帶來了極大的便利，從網上查找信息與看報紙、聽新聞相比更加快捷和全面，越來越多的網民習慣于一鍵上網，獲取所需的資訊。然而，我們都曾經或正在遭受著TB級數據的困擾，如何快速在這浩如煙海的信息中，快速準確的獲取相關信息不僅僅能夠節省大量的時間，提高工作效率，也是測評搜索系統性能的關鍵。又由于漢語具有的不同于英文的獨特的特點，使得針對于漢語言的具有針對性的搜索更加富有挑戰性。為了提升系統性能，滿足用戶從互聯網上得到對于特定問題更精確的答案，本系統應用余弦向量計算出依據用戶搜索條件返回的文本之間的相似度，去除無關重要的噪音信息，確保系統的可靠性能。……

登錄APP查看全文

電腦知識與技術 2014年19期

電腦知識與技術的其它文章: 基于工作流的辦公自動化系統的設計與實現; 妙用Word提高辦公效率; 社交型學習平臺的構建; 高職院校辦公系統的設計與實現; 基于模糊綜合評判的分層課程評價體系研究; 社區衛生服務管理系統的研究與構建