趙冰漫
摘 要 隨著計算機系統性能的提高和網絡技術的不斷進步,如何在互聯網這個龐大的信息資源中提供高效的搜索服務,幫助用戶在海量的數據中快速找到需要的信息是搜索引擎亟待解決的問題。通常用戶只關心返回的排在前面的結果,然而當前搜索引擎返回的查詢結果與用戶需求的相關性并不高。于是搜索引擎的相關性設計--按照與用戶查詢的相關程度對搜索引擎的索引文檔進行排序,成為當前研究的重點。
關鍵詞 搜索引擎 相關性 用戶查詢 索引
中圖分類號:TP391 文獻標識碼:A
0引言
本文對搜索引擎的相關性進行了深入的研究,主要工作歸納為以下幾點:
(1)文本搜索引擎的相關性排序模型,采用向量空間模型。
(2)文本搜索引擎數據源采用網絡爬蟲實現。
(3)文本搜索引擎數據分類采用樸素貝葉斯算法。
1相關性分析與實現
TF-IDF:是一種常用的檢索系統的加權技術。
基本思想:是每個字詞的重要性隨著它在文件中出現的次數成正比,與在其他文件中出現的次數成反比。
TF:Term Frequency:關鍵詞詞頻,是指一篇文章中關鍵詞出現的頻率,比如在一篇M個詞的文章中有N個該關鍵詞,則: TF=為該關鍵詞在這篇文章中的詞頻。
IDF:Inverse Document Frequency :逆向文本頻率,是用于衡量關鍵詞權重的指數,由:IDF=log()計算而得。
D:表示文章總數,DW:表示關鍵詞出現過的文章數。
2基于向量空間的余弦算法
算法步驟:預處理→文本特征項選擇→加權→生成向量空間模型后計算余弦。
(1)預處理。預處理主要是進行中文分詞和去停用詞。然后按照停用詞表中的詞語將語料中對文本內容識別意義不大但出現頻率很高的詞、符號、標點、及亂碼去掉。例如:“這,的,和,會,為”等詞出現在任何一篇中文文本中,但是他們對這個文本所表達的意思幾乎沒有任何貢獻。使用停用詞表來剔除停用詞的過程,就是一個查詢過程,對每一個詞條,看其是否位于停用詞表中,如果是則將其從詞條串中刪除。
(2)文本特征性選擇與加權。過濾掉常用副詞、助詞等頻率高的詞之后,根據剩下詞的頻度確定若干關鍵詞。頻度計算參照TF公式。
(3)加權是針對每個關鍵詞對文本特征的體現效果小大不同而設置的機制,權值計算參照IDF公式。
(4)向量空間模型VSM及余弦計算。向量空間模型的基本思想是把文檔簡化為以特征項(關鍵詞)的權重為分量的N維向量表示。
假設一篇文檔中有a、b、c、d四個特征項,那么這篇文檔就可以表示為D(a,b,c,d),對于其他要與之比較的文本,也將遵從這個特征項順序。對含有n個特征項的文本而言,通常會給每個特征項賦予一定的權重表示其重要程度,即D=D(T1,W1;T2,W2;…;Tn,Wn)簡記為D=D(W1,W2,…,Wn)把他叫做文本D的權值向量表示,其中Wk是Tk的權重,1≤k≤N。
兩個文本D1和D2之間的內容相關度SIM(D1,D2)常用向量之間夾角的余弦值表示,即
式中W1k、W2k表示文本D1和D2第k個特征項的權值,1≤k≤N。
3樸素貝葉斯算法設計與實現
樸素貝葉斯的思想基礎是:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬于哪個類別。
文本分類在搜索引擎中屬于必備語言處理模塊,每篇文章都由成百上千個詞語組成,可以當做個向量集W=(w1,w2,w3,…,wn),其中wi即表示其中第i個詞語。文章的分類也可以視為一個分類標記集合C=(c1,c2,c3,…,cm)。在wi出現的情況下,文本是文本分類C的概率,可根據貝葉斯計算,公式為:
在文本分類的角度理解貝葉斯公式為:在wi詞出現的情況下是否是文本類別取決于在文本分類cj情況下wi出現的概率,以及wi在所有詞中出現的概率。p(w)的意義在于如果這個詞在所有文檔中出現,那么用wi去判定是否是cj的概率越低,越不具備代表性。
樸素貝葉斯是一種有監督的學習方式,可以利用伯努利模型以文件為粒度進行文本分類。可以歸納樸素貝葉斯大致分為數據準備、分類器訓練及分類識別三個階段。
(1)數據準備。語料庫的準備工作階段,這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據具體情況確定屬性特征,并對每個屬性特征進行適當劃分,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。這一階段的輸入是所有待分類數據,輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質量對整個過程將有重要影響,分類器的質量很大程度上是由特征屬性、特征屬性劃分及訓練樣本質量決定的。
(2)分類器訓練。這個階段的任務是生成分類器,主要工作是計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。這一階段是機械階段,根據前面討論的公式可以由程序自動計算完成。
(3)分類識別。這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關系。這一階段也是機械性階段,由程序完成。
4結語
搜索引擎相關性的研究在未來還將是研究熱點,學者將會從更加全面的角度剖析相關性的影響因素,增加用戶習慣、需求等因素;檢索功能也將不斷得到補充,多媒體檢索、移動檢索等檢索技術將成為未來各個搜索引擎企業重點研究的檢索功能;同時,除了檢索效率、網頁相關性的評價研究外,檢索結果排序、檢索信息重復率、網頁死鏈或響應時間等問題也將成為下一階段亟待研究解決的重要問題。
參考文獻
[1] 王黎.搜索引擎的相關性排序算法研究[D].合肥:中國科學技術大學,2010.
[2] 王亮.搜索引擎及其相關性排序研究[D].武漢:武漢大學,2004.
[3] 孫靖.基于云平臺的數據庫搜索引擎實現方法的研究[D].南京:南京郵電大學,2014.