黃承寧 李雙梅 景 波
(1.南京工業大學浦江學院 南京 211222)(2.南京審計大學 南京 211812)
當前搜索引擎已成獲取信息之快捷工具,然即便是最受歡迎的搜索引擎返回的搜索結果也不令人滿意。用戶確實輸入了正確的關鍵字,而搜索引擎卻返回了涉及這些關鍵字的文本頁面,大多數結果是不貼切的。搜索機制的性能好壞取決于解決兩個重要問題:一是如何提取相關的文本的主題,二是給出了一組潛在相關的頁面如何對它們根據相關性進行排名[1]。評估搜索機制在查找和查找中的有效性和排名結果,需要語義相似性的度量。在傳統方法中,用戶提供相關性或語義相似性的手動評估[2],而這非常耗費成本。詞之間句之間的語義相似性研究[3],這是信息檢索的重難點部分。語義相似性是一個概念,其中衡量語義單詞之間的相似性是網絡上各種任務中的重要組成部分提取[4]。在信息檢索中,主要問題之一便是要檢索一組文檔數據集,計算給定的用戶查詢在語義上的相關度。高效估計之間的語義相似度單詞對于諸如詞意之類的各種自然語言處理任務至關重要。在基于字典的方法中,詞之間的語義相似性是可查詢的,但是當涉及到網絡文本時,它已成為現今極具挑戰性的任務。
基于深度神經概率語言模型的特征提取器可以提取與大量文本數據來計算任務相關的特征,這些方法亦被稱為自然語言理解(NLU)模塊。它們功能也可以用于計算文本樣本之間的相似度,這對于基于實例的機器學習最近鄰算法很有用。……