河北農業大學信息學院 徐 琳 尹 悅 趙曉卓
隨著當今社會的發展,被計算機存儲設備攜帶的電子類的信息越來越多。專利文獻特征:1.明顯的知識產權特性2.實用性非常強3.著錄格式規范4.將科技與法律融為一體。5.有很多重復信息,而且數量巨大。
從狹義上理解信息檢索,就是說從信息集合中尋找所需信息的過程,即我們經常說的信息搜索。
檢索大致過程如下圖所示:
用戶任務——信息需求——問題——問題提煉——搜索引擎——結果——數據庫
1.2.1 原理示意圖
為了滿足檢索的需要,需要收集大量的數據并對其進行處理,以滿足檢索者快速準確檢索的需要。下面是信息檢索原理的示意圖:

1.2.2 檢索模型
(1)檢索模型引出:
所有索引基本上分為三個部分:文檔表示部分、查詢表示部分和匹配功能部分。文獻表示部分體現的是文獻的存儲形式,文獻表示部分可以是一些關鍵詞或者標引詞,它也可以是一些數據;查詢表示部分是指用戶表達信息的愿望。匹配功能部分用于將處理后的文檔表示部分和查詢表示部分放入系統中進行匹配,并通過使用不同的匹配函數獲得不同的輸出結果。
(2)標引詞權重
標引詞的權重,用于描述標引詞和文獻內容相關程度。
(3)三種模型及其簡單函數
A.布爾模型
檢索X由邏輯運算符和/或非邏輯運算組成。檢索系統的索引系統中的每個索引在文檔中只有兩種狀態:出現和不出現。索引字的權重是q_ij屬于{0,1}。
B.向量空間模型
對于向量空間模型,二元組(Di,Kj)的權值是正非二值數。文件Kj的向量可以表示為。其中,表示第i標引詞Di在文檔Kj中權重。的取值范圍是[0,1],這樣某文檔就可轉為高維空間中一點。
標引詞權值主要由于標引詞的頻率統計,即:局部權值和全局權值。
全局權值(IDFi):是指第i個標引詞在整個系統中文檔集的權值,IDFi=log(N / ni)。
N——系統中文檔總數;ni——系統含標引詞Ki的文檔數;FREqij為標引詞Ki在文檔Dj中的出現的次數; MAXTfj表示文檔Dj中所用標引詞出現次數最大的值。
C模糊模型
用模糊數學語言描述標引詞的權重和其他關系而建立的模型。
1.3.1 分詞意義
無論是文檔還是查詢,都要變成標引項的某種形式,文檔可以用多個標引項的集合來表示,一般用詞來表示,還可以用其他形式的語言單位表示,還有一種特殊的標引詞就是關鍵詞。這就需要我們將文檔進行分詞來找到標引詞及其數目來作為每篇文章的特性。
1.3.2 中文詞法分析
1.3.3 停用詞消除
1.3.4 中文重疊詞還原
檢索的使用方法分成單項檢索和組合檢索兩種
1.4.1 單項檢索
單項檢索將需要檢索的檢索詞輸入即可
如:想了解金銀花,檢索“金銀花”
1.4.2 多項檢索技術
多個檢索技術有兩種方式,第一種是單個檢索中的一些單詞或單詞的組合,第二種是一些檢索點的組合檢索,也就是說在同一搜索點中設置多個檢索詞,或者同時設置多個不同的檢索點再加以不同的條件,在這之后再執行檢索。
如:關鍵詞=(磁流體and(密閉or泄露))not(華東理工大學or華東化工學院)
搜索引擎。說起搜索引擎,都清楚它需要具備內容全面、查詢內容準確、查找速度快等作用。此外,搜索引擎需要對各種文本進行分類。
信息采集。
下載從因特網收集的信息通常被稱為機器人、蜘蛛和爬蟲,它們被下載、預先組織和在線。
投入大規模硬件進行采集和存儲
2.2.1 相似度計算
將查詢轉換為向量,將文檔轉換為向量,將其更改為向量,然后求向量的相似性。相似性的計算被認為是三個因素:文檔中出現的單詞的數量,出現在單詞中的文檔的數量,以及接近度的比較。
2.2.2 鏈接分析
被越多網頁指向,而且被越重要的網頁指向,它就越重要。PageRank較大的網頁才會被檢索,保證了結果。
2.3.1 倒排索引
建立倒排文件、使用倒排表搜索,使檢索速度更快。
2.3.2 計算剪枝技術
由于很多用戶只會看前兩頁,所以并不是所有網頁都會參與運算,因此,根據某種規則預先刷掉很多網頁或者分級。通過減少數量來加快速度。
2.3.3 緩存技術
將常用的放在內存,如檢索結果、索引等,加快檢索速度。
大量的按人力分類的文件作為學習資料(稱為訓練集),由人力分類的一批文件的成本遠遠低于從這些文件中總結準確規則的成本。
計算機主動從原來給出的大量人力分類資料中(即訓練集),提取有效的分類規則。這個過程稱為訓練,而這個總結出來的規則集就叫做分類器。
訓練完成之后,用分類器對未知文檔進行分類。
