基于雙層PDF和Lucene技術的全文檢索研究與實現

2014-08-18 12:20:22向禹吳世明

現代情報 2014年6期

向禹+吳世明

〔摘要〕通過建設雙層PDF全文數據庫、創建索引和全文檢索等實現過程來闡述相關技術的研究和運用。以建設全文數據庫為基礎，研究結構化信息與非結構化數據的合并管理，對目錄數據和全文數據的同步索引，基于Lucene技術，實現檔案管理系統的一站式智能化檔案全文檢索，提升檔案查全率。

〔關鍵詞〕雙層PDF；全文檢索；檔案管理；Lucene

〔中圖分類號〕TP391〔文獻標識碼〕B〔文章編號〕1008-0821（2014）06-0075-04

由于檔案的憑證性、惟一性和不可替代性，導致用戶和檔案行業更注重查全率。傳統的檔案管理手段，由于對標引和著錄標準的理解、執行和操作、人員責任心等方面的差異，導致著錄信息和檢索效果不盡人意。基于Lucene技術，依托雙層PDF文檔，對結構化和非結構化信息合并管理，在檔案管理系統中實現一站式全文檢索，具有很重要的現實意義。

1檔案檢索研究現狀

傳統檔案檢索，主要是對檔案信息著錄和標引進行研究，編制檢索目錄和目錄檢索系統，常見的檢索工具有主題、分類、字序、文號等多種方式，檢索系統有簡單檢索、復合邏輯組配表達式檢索等。著錄和標引質量提高，檢索工具完備均能提高查全率，但存在缺陷，且效率較低。要實現高查全率，必須研究在檔案文檔中實現內容檢索。

Lucene是一個非常優秀的全文本型檢索框架[1]，在文本型的全文檢索方面得到廣泛的支持和運用；然而，對紙質檔案進行數字化掃描加工，最好的存儲方式仍為圖片格式的非文本型文檔，要實現全文檢索并非易事；基于圖像的檢索技術的研究也還不成熟，效果并不理想。

2全文檢索思想與技術

檔案資源數據有多種類型：一是結構化數據，有固定格式和長度，如數據庫或者元數據，數據表格等；二是非結構化數據，特點是不定長和無固定格式，如Word、PDF、JPG等文檔；三是半結構化數據，如XML、HTML等，這類數據比較靈活，可根據需要按結構化處理，也可按非結構化處理，在使用Web Service方式的系統集成對接時，協議中采用的數據傳輸格式大多為XML。對于結構化的語句，采用SQL語句很容易實現檢索。非結構化的數據，通常稱作全文數據，檢索方式有兩種[2]：一種是順序掃描法，對每一個文檔都從頭至尾進行掃描，搜索出包含檢索詞的文檔，如Windows系統中的查找功能，但這種方式，搜索效率低，速度慢；另一種方式便是我們要重點討論的全文檢索。

2.1全文檢索思想

由于結構化的數據格式是有規律的，用算法容易實現很高的檢索效率。全文檢索的基本思想便是：把全文數據中信息提取出來，重新進行組織成索引，使其結構化規律化，再按一定的算法對其進行檢索。從過程上來看，可簡單地分為索引和檢索兩個過程，但在實際處理過程中，包含的模塊構成有：前端查詢平臺、中文分詞、解析引擎、后臺管理等。

2.2雙層PDF技術

非結構化的數據，又分為文本型和非文本型。對于文本型或者超文本型的文檔，全文檢索的研究應用已經比較廣泛和成熟。而非文本型的文檔無法直接實現全文檢索，雙層PDF文檔技術便是解決這一問題的最佳方式之一。

雙層PDF文件是一種包含Text層和Image層的多層結構PDF文件，兩層內容位置上相對應，Image層是原始圖像，保留了原始檔案的效果；Text層是Image層的OCR識別結果，支持選擇、檢索和復制等功能。通過程序控制可實現兩個圖層的任意顯示和切換，可實現檢索詞的精確定位。雙層PDF文檔可以是圖像型通過檔案數字加掃描加工而成；也可以是文本型，通過文本文件如WORD轉換。

2.3全文檢索引擎Lucene

Lucene是目前最為流行的基于Java開源全文檢索工具包[3]。它并不是一個完整的搜索程序[4]，不能直接嵌入系統中使用；而是一個類庫，一種思想和架構。Lucene提供簡單的工具包，方便軟件開發人員在應用系統中實現全文檢索功能。Lucene具備五大優點[5]：索引文件格式獨立于應用平臺；可分塊索引，為增量文件建立小索引，通過與原索引合并，提升效率；面向對象的架構，便于擴充；獨立的文本分析接口，與語言和文件格式無關；具備強大的查詢引擎，包括布爾邏輯、分組查詢、模糊查詢等，開發人員無需再編寫代碼。

Lucene的源碼由7個模塊（包）組成：分詞模塊、索引管理、檢索管理、數據存儲管理、查詢分析器及公用類庫。為了對文檔進行索引，Lucene提供了5個基礎的類，Document、Field、IndexWriter、Analyzer、Directory。全文檢索系統功能強大，實現起來也比較復雜，但從實現過程來看，主要分為索引和檢索兩大功能。

3全文檢索的實現

主要運用lucene技術，基于PDF文檔，對中文分詞、解析引擎、索引、過濾、專業詞庫等方面進行了重構與優化，由前端查詢、索引模塊、分詞、搜索引擎、后臺管理等模塊構成。通過全文檢索的分詞系統、索引系統、引擎系統將海量數據快速展現在用戶面前，并支持多關鍵詞、同義詞、近義詞等檢索。

3.1創建雙層PDF全文數據庫

建設雙層PDF全文數據庫是實現全文檢索的基礎，減少對紙質檔案的使用，從某種意義上來說，也保護了紙質檔案。市場上已經有許多產品或者生產線，可以實現檔案的雙層PDF數字化加工。在檔案數字化加工過程中，將紙質檔案掃描加工后的圖片轉換處理成雙層PDF文檔，在掛接到檔案管理系統中的相應案卷和卷內文件目錄之后，原文的存放地址信息自動存入數據庫的原文關系表中，通過ID號（Recid）與案卷和卷內文件目錄Recid對應，對檔案文檔的Text層文本內容及其元數據等相關信息建立永久聯系，形成數據包。

基于節約成本和利于管理考慮，對雙層PDF文檔進行了格式固化，它的Image層是圖片格式，與原文件保持一致，可以閱讀和打印；Text層支持內容自由復制。為了使系統處理數據方便，我們通過后臺程序把上傳的其他文本格式的文檔也自動轉換成雙層PDF文檔。雙層PDF全文數據庫不僅為檔案在線編研、數據挖掘、開展檔案主動服務等打下了基礎，全文數據直接利用還使檔案得到保護和永久性保存。endprint

3.2創建索引

數字化加工后的雙層PDF文件和數據包通過調用全文檢索子系統內核函數建立對應的索引文件，抓取和解析數據。本系統中的創建索引的過程，實際上就是將雙層PDF文檔中的text層、文檔對應的卷內目錄和案卷目錄及有關元數據（也可以說是結構化和非結構化數據）信息提取并創建索引文件的過程。目前，主要有3種索引技術：簽名、后綴數組、倒排文檔。Lucene采用的是倒排文檔，倒排文檔的性能和效率都非常高，因而被廣泛采用。

索引過程可分為4個階段：準備待索引文檔和數據；對文檔進行語法分析和語言處理形成一系列詞（Term）；經過處理形成詞典和倒排文檔（索引）；通過存儲過程將索引寫入索引庫。具體過程分析如下：

（1）建立索引器indexWriter，生成index對象，把Document對象加到索引中來。

（2）建立信息字段對象Field，描述文檔的屬性，如文件標題和內容可以用兩個Field對象分別描述。

（3）建立文檔對象Document，用來描述文檔，內容可以從DOC、EXCEL、TXT、HTML、XML等文檔及關系型數據庫等多種途徑獲得，一個Document對象由多個Field對象組成的。也可以把一個Document對象看作數據庫中的一個記錄，而每個Field對象就是記錄的一個字段。我們通過編寫Object2DocumentUtil.class類來實現數據對象與Document對象的轉換。

在文檔被索引之前，首先需要對文檔內容進行分詞處理，這部分工作就是由Analyzer類來完成。Analyzer類是一個抽象類，它有多個實現，針對不同的語言和應用需要可以選擇適合的Analyzer，本系統中采用的是StandardAnalyzer。Analyzer把分詞后的內容交給IndexWriter來建立索引。在分詞時，如果用來進行索引的文檔不是純文本，先使用OCR或者其它技術轉換成純文本才能再進行操作。值得注意的是，同一索引，用來建立索引與查詢的分詞器必須是同一個，才能保證得到正確的查詢結果。

（4）將Field添加到Document里面，再將Document添加到IndexWriter里面。

（5）優化indexWriter對象，Directory類代表了本系統索引的存儲位置，它是一個抽象類，有兩個實現：一個是FSDirectory，它表示一個存儲在文件系統中的索引的位置；其次是RAMDirectory，它表示一個存儲在內存當中的索引的位置。

創建索引的方法如下：

public void createIndexWriter（String sDir）{try{

boolean flag=true；∥標記是否重新建立索引，true為重新建立索引，false表示增量索引

File indexDir=new File（sDir）；∥索引文件存放目錄

Directory dir=SimpleFSDirectory.open（indexDir）；∥創建Directory

Analyzer sAnalyzer=new StandardAnalyzer（Version.LUCENE30）；∥分詞器

indexWriter=new IndexWriter（dir，sAnalyzer，flag，MaxFieldLength.UNLIMITED）；∥索引工廠

}catch（Exception e）{logger.error（″indexWriter Exception：″，e）；}}

索引創建成功后便生成索引文件，一個索引（index）存放在一個文件夾中，比如文書類的行政檔案卷內文件索引為E：/index/T319。基于lucene技術的全文檢索，根據不同的配置會產生不同的文件，本系統中的行政卷內文件索引如表1所示。

0.cfx復合文件，當compound啟用時，被多個段（Segment）共享的單獨文件集添加進獨立的compound文件，擴展名為cfx；

2fnm保存域（Field）的元數據信息，一個段包含多個域，每個域都有元數據信息；

2frq詞語頻率數據文件，記錄了詞語所在文檔的文檔列表（docID）和應該詞語出現在文檔中的頻率信息；

3.3索引管理

查看索引，讀取指定路徑索引中是否存在；索引中包含的文檔，詞條情況，是否需經過優化等；最后一次修改的時間，路徑信息，含有的文檔數目等；讀取索引詞條相關基本信息。

刪除索引，刪除指定序號的文檔之后，自動刪除對應的索引文件，編寫方法delete（IndexData indexData）{}來實現；恢復被刪除的文檔及索引。

更新索引，更新索引中的某個文檔；索引同步處理，用戶可根據需要自己定制創建索引時間，可定時或實時更新。增量索引、保存索引、修改索引分別編寫方法incrementIndexWriter（String sDir）{}、save（IndexData indexData）{}、update（IndexData）{}調用lucene相應的類，在更新索引時，采用方法closeIndexWriter（）來關閉IndexWriter。特別是在update方法中采用indexWriter.updateDocument（term，Object2DocumentUtil.object2document（indexData））來實現，當數據量很大時，采用“刪除再創建”效率更高，updateDocument等價于delete（indexData）+save（indexData）。

3.4檢索過程及結果處理endprint

全文檢索在程序內部實際上是一個復雜的過程，通過分析，可總結為以下步驟：用戶輸入查詢語句；詞法分析和語言處理；搜索索引，得到符合條件的文檔；對結果的相關性進行排序；將查詢結果返回給用戶界面。

采用計分器QueryScorer qs來記錄結果的相關性（權重值），根據權重值大小在界面上進行排序；采用Lucene處理關鍵字高亮顯示；Highlighter利用段劃分器Fragmenter將原始文本分割成多個片段，片段默認的大小為100個字符，將包含檢索詞的片段顯示在檢索結果中，便于用戶瀏覽查看選擇。系統還需進行特殊字符過濾、多重排序、結果分頁等處理。

3.5原文瀏覽

通過檢索過程，在用戶界面得到了查詢結果。接下來，需要瀏覽PDF原文，并查出檢索詞在原文中的具體位置。我們使用Acrobat Reader，結合檔案管理系統，來實現檢索詞在原文中的自動定位。Reader軟件本身對雙層PDF文檔的查找、文本復制、雙層切換等功能都提供了支持，“搜索”窗口允許在多個PDF查找項目。

在全文檢索頁面，瀏覽PDF全文是通過在頁面內嵌套PDF控件的方式實現。通過程序傳遞參數給PDF控件，實現檢索詞在文檔中的定位。

而在檔案管理系統內部，案卷和卷內目錄鏈接的全文，需要點擊鏈接，通過管理系統內嵌的閱讀器來打開，與全文檢索頁面的實現有些區別。

4一站式智能檢索設計

檔案管理系統必須具備專業檢索和一站式智能檢索等檢索途徑，專業檢索提供更為復雜的邏輯表達式組配，適合檔案人員處理復雜用戶需求時使用；而一站式檢索帶來的是便捷的用戶體驗，檔案用戶不必了解具體的檔案分類和細節，通過一個檢索入口便可以獲得所需的信息。

包含全文檢索的一站式檢索具備異構檔案資源庫和分布式資源庫處理能力，對結構化與非結構化信息合并管理，對目錄數據和原文必須進行同步索引。首先通過JDBC（Java Data Base Connectivity）連接數據庫找到要索引的門類，通過卷內文件目錄和案卷目錄的ID號（Recid），查找原文關系表中的Recid，原文表中的這條記錄有文件存放路徑（Filepath）等信息，然后根據信息找到對應的原文（雙層PDF文檔），這樣便可以對目錄數據和原文進行同步索引。接下來，指定生成Index目錄。而在檢索時，只需要對索引進行訪問，便可以很快的在各類檔案目錄庫和全文庫檢索到用戶需要的信息。

5實現效果

通過測試，系統自動從索引中檢索出相關的信息，如果檢索詞包含在文檔中，系統還使檢索詞在文檔中自動定位，免去翻頁查找的麻煩。若要縮小檢索范圍，只需要再增加檢索詞，檢索詞之間默認為邏輯“AND”的關系，檢索結果按相關度排序，根據文檔片段值的大小，將包含檢索詞的文檔片段內容顯示在檢索結果界面，供用戶瀏覽。

運行表明，基于雙層PDF文檔技術的一站式全文檢索，提高了工作效率。通過對跨數據表，跨數據類型，案卷、卷內目錄數據和雙層PDF的Text層同步索引，查詢時訪問索引而不訪問數據庫，有效減輕數據庫和系統的壓力。系統可以支持1 000萬級的數據，毫秒級的響應時間，每秒500人的并發訪問；可以適應不同的操作系統平臺，支持多種數據庫接口；具備通用搜索引擎的構架和功能，用戶可任意輸入檢索信息，可多關鍵字、關鍵詞組合搜索。

全文檢索是檔案管理系統中很重要的檢索途徑，彌補了目錄檢索的不足，也解決了目錄著錄不全、不規范等問題，大幅度提高了查全率。全文檢索無須編制任何檢索目錄，完全實現智能化、高效率檢索，極大地提高了工作效率。雖然不同的檔案管理系統可能會采用不同的編程語言和技術架構來實現，對Lucene規范中的技術取舍、采用和配置各有不同，但遵循Lucence架構的雙層PDF全文檢索的總體實現思想大同小異。雙層PDF全文數據庫為檔案編研和數據挖掘提供了資源[6]；也為檔案信息聚合（RSS）的研究、定向主動的檔案信息服務研究或者更深層次的檔案服務成為可能。

參考文獻

[1]管建和，甘劍峰.基于Lucene 全文檢索引擎的應用研究與實現[J].計算機工程與設計，2007，（2）：489-491.

[2]forfuture1978.Lucene學習總結之一：全文檢索的基本原理[EB/OL].http：∥forfuture1978.iteye.com/.

[3]胡長春.基于Lucene的中文自然語言搜索引擎[D].上海：上海交通大學，2009：32-35.

[4]解鵬飛.Lucene搜索引擎技術在國家海洋數字檔案館示范系統中的實現及應用[J].海洋環境科學，2008，（8）：117-121.

[5]yingsuixindong.全文檢索引擎Lucene優點[EB/OL].http：∥blog.csdn.net/yingsuixindong/article/details/5580983.

[6]向禹.基于SOA架構的高校檔案資源管理系統設計與實現[D].長沙：中南大學，2013：61-67.

（本文責任編輯：馬卓）endprint

3.5原文瀏覽

在全文檢索頁面，瀏覽PDF全文是通過在頁面內嵌套PDF控件的方式實現。通過程序傳遞參數給PDF控件，實現檢索詞在文檔中的定位。

而在檔案管理系統內部，案卷和卷內目錄鏈接的全文，需要點擊鏈接，通過管理系統內嵌的閱讀器來打開，與全文檢索頁面的實現有些區別。

4一站式智能檢索設計

5實現效果

參考文獻

[1]管建和，甘劍峰.基于Lucene 全文檢索引擎的應用研究與實現[J].計算機工程與設計，2007，（2）：489-491.

[2]forfuture1978.Lucene學習總結之一：全文檢索的基本原理[EB/OL].http：∥forfuture1978.iteye.com/.

[3]胡長春.基于Lucene的中文自然語言搜索引擎[D].上海：上海交通大學，2009：32-35.

[4]解鵬飛.Lucene搜索引擎技術在國家海洋數字檔案館示范系統中的實現及應用[J].海洋環境科學，2008，（8）：117-121.

[5]yingsuixindong.全文檢索引擎Lucene優點[EB/OL].http：∥blog.csdn.net/yingsuixindong/article/details/5580983.

[6]向禹.基于SOA架構的高校檔案資源管理系統設計與實現[D].長沙：中南大學，2013：61-67.

（本文責任編輯：馬卓）endprint

3.5原文瀏覽

在全文檢索頁面，瀏覽PDF全文是通過在頁面內嵌套PDF控件的方式實現。通過程序傳遞參數給PDF控件，實現檢索詞在文檔中的定位。

而在檔案管理系統內部，案卷和卷內目錄鏈接的全文，需要點擊鏈接，通過管理系統內嵌的閱讀器來打開，與全文檢索頁面的實現有些區別。

4一站式智能檢索設計

5實現效果

參考文獻

[1]管建和，甘劍峰.基于Lucene 全文檢索引擎的應用研究與實現[J].計算機工程與設計，2007，（2）：489-491.

[2]forfuture1978.Lucene學習總結之一：全文檢索的基本原理[EB/OL].http：∥forfuture1978.iteye.com/.

[3]胡長春.基于Lucene的中文自然語言搜索引擎[D].上海：上海交通大學，2009：32-35.

[4]解鵬飛.Lucene搜索引擎技術在國家海洋數字檔案館示范系統中的實現及應用[J].海洋環境科學，2008，（8）：117-121.

[5]yingsuixindong.全文檢索引擎Lucene優點[EB/OL].http：∥blog.csdn.net/yingsuixindong/article/details/5580983.

[6]向禹.基于SOA架構的高校檔案資源管理系統設計與實現[D].長沙：中南大學，2013：61-67.

（本文責任編輯：馬卓）endprint