


摘要:為提高搜索引擎相關排序算法的搜索結果相關度低下問題,因此提出基于用戶日志分析的搜索引擎相關排序算法優(yōu)化研究。通過構建搜索引擎排序算法的向量空間檢索模型來預估排序算法迭代向量,按照用戶關注點的不同進行迭代向量分類集合計算,以便求出用戶興趣向量,進行用戶興趣搜索分類,最后由于受分類影響降低了排序結果相關度較低的網頁點擊率,因此引入時間反饋因子優(yōu)化迭代排序計算。經實驗證明,基于用戶日志分析的搜索引擎相關排序算法有效提高了搜索結果的相關性,因此具有更強的排序能力。
關鍵詞:用戶日志分析;搜索引擎;排序算法;優(yōu)化
中圖分類號:TP301.6 文獻標識碼:A
文章編號:1009-3044(2020)18-0099-03
開放科學(資源服務)標識碼(OSID):
由于用戶日志詳細記錄了每個用戶的搜索行為,因此對用戶日志的挖掘能夠最直接地發(fā)現用戶搜索規(guī)律和搜索意圖[1]。通過預估排序算法迭代向量和優(yōu)化迭代排序計算提高相關排序算法適用性,并在用戶日志分析的基礎上,對用戶搜索行為特征進行深入研究,從而進行用戶興趣搜索分類。相關度作為一個布爾值,用以衡量關鍵詞與行業(yè)領域的緊密程度,基于用戶日志分析的搜索引擎排序算法的設計思路是:若關鍵詞在文檔中出現的頻度越高,且在文中的位置越重要,則認定為此網頁與查詢關鍵詞的相關度就越高,在返回結果中的位置就越靠前。但經過興趣搜索分類后,網頁點擊率隨著排序結果相關度的減小而降低,該網頁往往會排序位置靠后,致使人為造成其相似性下降,造成不能及時被用戶搜索到。針對這一問題,需要從提高搜索引擎的質量人手,優(yōu)化搜索引擎相關排序算法。
1 基于用戶日志分析的搜索引擎相關排序算法設計
1.1超前預測搜索引擎排序算法迭代向量
要想設計搜索引擎的相關排序算法,需要進行排序算法的迭代向量預估,該預估過程主要通過構建搜索引擎排序算法的向量空間檢索模型來實現[2]。
首先,根據關鍵詞和關鍵字詞對用戶查詢請求和文檔進行矢量化處理。接下來,通過計算兩個向量的夾角余弦來計算文檔和查詢請求向量之間的相似度,采用數學上的向量夾角余弦值來計算向量之間的相似度[3]。向量間的夾角余弦計算公式如公式(1)所示:
其中m,n表示向量,.表示向量的點乘,|m|表示向量的模,或者說是向量的長度。余弦值越小,兩個向量之間的距離越近,兩個文檔之間的相似度越高。檢索到的相關網頁內容返回結果依照與查詢請求間相似度的緊密程度以降序排列,構建向量空間檢索模型。基于向量空間檢索模型計算方法,預估搜索引擎相關排序算法初始向量。統(tǒng)計每列中值為1的人站鏈接總數并計算總和,然后計算每個網頁的人站鏈接總數與所有頁面人站鏈接總數的比值,將該比值作為每個網頁的迭代向量A的初始值。預估的搜索引擎相關排序算法迭代向量,可以在一個向量空間坐標系中表示出來,如下圖1所示。值,該值決定了搜索結果顯示的排序規(guī)則。另一方面,U(AIong)所代表的用戶長期興趣向量則為搜索排序動作提供了擴展預測的方向。綜合該用戶歷史搜索結果,可以對該用戶的興趣方向、興趣類別和興趣偏好,進而可以推測出該用戶的工作性質、專業(yè)領域等延伸信息,這些延伸信息與該用戶當前搜索的關鍵詞的合集共同決定了搜索引擎的驅動字段,結合擴展后的興趣領域與興趣方向,在搜索行為中對數據庫做出了嚴格的限定,大幅減少了搜索運算量,縮短了搜索時間,在滿足用戶當前搜索需求的基礎上加以擴展,超前預測出用戶可能感興趣的周邊信息,實現“智能化”搜索,建立用戶興趣向量集。
1.2結合迭代向量集完成對用戶興趣搜索結果分類
在用戶日志中記錄著用戶使用搜索引擎的全部歷史記錄,對這些歷史記錄進行分析,尋找其中隱含的規(guī)律,隨后將用戶興趣向量轉化為具體數據進行分析。
用戶在其特定興趣愛好的背景下,在統(tǒng)計學角度觀察,其使用搜索引擎的行為具備一致性與穩(wěn)定性,通過分析用戶使用日志,發(fā)現用戶基于特定興趣背景進行查詢操作時,其搜索目標與興趣有相關性。因此,基于用戶日志分析方法有助于分析用戶實際需求,作為爬行程序獲得網頁的條件,按照用戶的興趣類別將其分類。用戶興趣搜索分類過程如下圖2所示。
用戶對某個搜索結果是否感興趣,可作為用戶短期興趣向量,適應了用戶當前的興趣特征,是通過用戶短期內的興趣特征來決定的。而這一系列短期興趣向量的分類集合,則構成了用戶的長期興趣權重,是用戶長期使用搜索引擎的比較穩(wěn)定的興趣特征。這一轉變的關鍵舉措是通過對搜索引擎訪問歷史加以分析歸類,按照類別相似度劃分為不同的興趣類目,實現將用戶的短期興趣轉化為用戶的長期興趣。具體做法為:在用戶長期興趣分析結果的基礎上,通過分類器確定搜索結果網頁的類別,將頁面分成不同的類別,類別越細致,則搜索引擎工作時限定條件越多,搜索速度越快。在分類時,采用余弦相似度算法對搜索結果進行劃分,實現用戶興趣搜索分類。
1.3優(yōu)化迭代排序計算
經過用戶興趣搜索分類后,發(fā)現隨著分類的進行,搜索內容進行分流,導致搜索結果相關度較低的網頁用戶點擊率下降,因此引入時間反饋因子提高點擊時間權重,以此進行迭代排序計算的優(yōu)化。引入網頁時間反饋因子Yt,定義一個網頁被搜索引擎訪問的周期次數為T,則時間反饋因子可表示為:
Yt= a/T
(4)
式4中,a為經驗常數,其取值受到迭代排序算法關鍵字長度的影響。隨后在引入時間反饋因子的迭代過程中,通過比較前后迭代向量的2 -范數差大小來判斷停止迭代時機,當Residential=( )時,停止迭代。當迭代滿
公式(6)中Pi(j)表示在第i次迭代中,網頁排名Pi當中排名第i名的網頁,共有n個網頁,至此完成迭代排序計算的優(yōu)化。經過優(yōu)化后的迭代排序計算使得搜索結果相關度不同的網頁具有同等的檢索機會。
2 實驗驗證
為證明設計的基于用戶日志分析的搜索引擎相關排序算法的有效性和實用性,采用設計實驗的方式,測試搜索結果排序的正確性。設置設計的基于用戶日志分析的搜索引擎相關排序算法為實驗組,傳統(tǒng)的搜索引擎相關排序算法為對照組進行對比試驗,實驗次數設置為10次。
2.1 實驗設計
本次實驗的環(huán)境設置為Lucene開源搜索引擎框架,Java開發(fā)語言,Eclipse 3.4集成開發(fā)環(huán)境,服務器為開源的Tomcat6.0,數據庫為SQL Server 2005。用實驗組排序算法和傳統(tǒng)排序算法分別部署到2臺相同配置的計算機上。
實驗方法:首先,利用Lucene提供的網絡蜘蛛功能模塊在互聯網上進行網頁抓取分析,獲取到有效網頁327169張,建立用戶搜索點擊日志,記錄用戶相關搜索點擊信息。在此次抓取索引數據量的基礎上,用兩種算法分組進行比對測試。其次,隨機針對10個關鍵詞通過兩組算法進行搜索,在搜索結果中自主選擇認為和關鍵詞相關的網頁進行瀏覽。最后,進行搜索結果相關度統(tǒng)計分析。
2.2 實驗結果分析論證
通過上述對比實驗,將搜索10個關鍵詞得到的實驗結果,通過折線圖直觀顯示出來,結果如圖3所示。
通過圖3對比,可以明顯看出,設計的基于用戶日志分析的搜索引擎相關排序算法的搜索結果與用戶真實搜索意圖的相關性更高,更能滿足用戶的需求,排序算法的搜索結果相關度更高,證明實驗組排序算法優(yōu)于對照組排序算法,具有更加良好的排序能力。
3 結束語
搜索引擎的出現有效解決了如何在眾多雜亂的信息中迅速檢索到有效信息,以及搜索結果是否滿足用戶需要等問題,對互聯網的進一步普及產生了巨大的影響。由于搜索引擎數據量巨大,而排序算法的接受能力有限,致使網頁排序不均勻,排序靠后的網頁往往不能及時被用戶瀏覽到,因此進行基于用戶日志分析的搜索引擎相關排序算法優(yōu)化。用戶日志方面的分析和研究是提升搜索引擎檢索質量的一個新的方向。影響排序算法排序能力的因素有很多,通過預估排序算法初始向量、進行用戶興趣搜索分類和優(yōu)化迭代排序計算,實現搜索引擎相關排序算法的優(yōu)化。但是排序結果的準確性仍有待提高,希望通過對基于用戶日志分析的搜索引擎相關排序算法優(yōu)化的研究,能夠給未來搜索引擎相關排序算法的發(fā)展帶來一定的啟發(fā)和幫助。
參考文獻:
[1]嚴承希,王軍,王珂,中國大學生的網絡使用:基于大規(guī)模日志分析的模式識別新方法[Jl.圖書情報工作,2019.63(14):83-93.
[2]周翔,張鵬翼,王軍.移動購物用戶信息瀏覽特征及對購買的影響研究——基于移動電商APP點擊流日志的分析[J].數據分析與知識發(fā)現,2018,2(4):1-9.
[3]王新才,謝宇君.知識發(fā)現系統(tǒng)與通用學術搜索引擎文獻資源比較研究——以超星發(fā)現和百度學術為例[J].福建論壇(人文社會科學版),2018(4):164-172.
【通聯編輯:張薇】
基金項目:江西省高等學校教學改革研究省級課題(JXJG-18-30-5)
作者簡介:汪瀅(1984-),女,江西井岡山人,碩士,副教授,研究方向為算法分析。