潘夢真 湖南師范大學數計院
自屬性論被提出以后,不少的學者和研究人員都對其進行了深入的研究和學習,并提出很多優秀的改進意見和方案。從屬性論在信息檢索領域應用的情況來看,己有不少的研究人員利用屬性論來為相似度計算以及信息檢索進行模型的搭建。
利用文檔向量和查詢向量來對文本的核心重心進行描述,可以得到信息之間的內在邏輯推理關系,使用文本屬性的坐標系來對屬性和元素之間的關系程度進行展現。
通過上面的兩個重心公式可以知道,文本的向量與檢索向量只是一種的關系。在這種情況下,如果使用歐式距離計算來算出相似度的值是沒有實際的意義的。
另一方面,關于模型的不足如在文獻[1]中的所提出的:查詢向量用查詢線與文本重心相交點表示,此時信息量與原本的信息量相比有一定的損失。因此,計算相似度的關鍵點在于如何將文本的重心考慮進來且不用歐式距離計算方式來找出一個更加合理的算法。
借鑒屬性坐標學習分析法的構建,滿意度函數可以解釋為:在一個量綱的成績單純形中,可以量測心理標準與在這個成績單中的某一個績點的距離。該心理標準點是從心理學的角度出發的,以機器學習的方式來實現決策者的權重平衡點的獲取。這個時候,對成績點與心理標準點之間的距離是通過基于坐標的滿意度函數來計算的,已經不屬于歐式距離的范疇。
而對于信息查詢來說,用戶每一個查詢需求對應的是一個坐標系中的查詢向量:。這個向量與坐標軸所組成的投影點組成了一個為(n-1)維的查詢向量單純形,與此同時,文本向量也可以用這種方式得到一個維文本的單純形。在構建的屬性坐標系中,與前文所提到的屬性坐標學習分析法是非常相似的,本文的文本中心點與學習分析法的心理標準點是一樣的,都是對單純形的一個評價點。交點即在單純型中的待評價的交點。基于上述的信息,可以得出:在文本的重心點與匹配點的距離就可以使用來作為文章與檢索詞之間的相似度判斷,該函數所得到的值越大,就說明它們的相似程度就越高。


這個單純形的文本重心表示為:

將公式3和公式4結合起來,得出匹配基準點的坐標:


相似度的公式如下:

總的來說,本文所改進的相似度算法在文本相似度計算上表現較好,精確度能夠滿足需求。本文的算法適合對查詢需求明確、專業的領域,在這些領域有著良好的應用能力,也為后來者提供了借鑒的思路。當前對于查詢來說,只是與文本進行了相似性的分析,還沒有涉及到對事物的本質進行分析研究。隨著研究的深入,這些問題會逐步得到解決,將模型應用到發掘事物的本質和關系推理的處理能力是未來研究的重點方向。
[1]Zarovy S, Costello M. Extended State Observer for Helicopter Mass and Center-of-Gravity Estimation[J]. Journal of Aircraft,2015, 52(6):1-12.
[2]You S, Lu Y, Zhang W, et al. Micro-lens array based 3-D color image encryption using the combination of gravity model and Arnold transform[J]. Optics Communications, 2015,355(2):419-426.
[3]Golpira H, Messina A R. A Center-of-Gravity-based Approach to Estimate Slow Power and Frequency Variations[J].IEEE Transactions on Power Systems, 2017, PP(99):1-1.