電子公文全文檢索系統的設計及實現

2022-02-25 14:45:22張紅玲

微型電腦應用 2022年2期

關鍵詞：系統

張紅玲

(陜西警官職業學院, 法律系，陜西, 西安 710021)

0 引言

1 知識本體

本體即事物的主體或自身，事物的來源或根源。在信息科學領域對“本體”存在著不同的定義，根據Neches等[10]的說法，本體是“給出構成某一領域詞匯的基本關系和術語，并利用構成的規定對詞匯外延規則的定義”。隨著計算機、智能領域的發展，Fensel[11]將本體定義為“一個特定領域重要概念的共享的形式化描述”，體現了Ontology的4個含義：概念化、明確化、形式化、共享化。概念化：對客觀事件某些現象建立抽象化的模型，該模型獨立于具體環境狀態。明確化：所有概念和關聯關系都有精確定義。形式化：采用計算機可讀的精確數學描述。共享化：Ontology中表征的知識是該領域公認的概念集。

在對本體進行具體表征時，則需要采用某種描述語言進行特征表述。目前應用較多的描述語言包括Ontolingua、Loom等，但要將本體概念應用于計算機網絡應用程序，則需要考慮到標準化問題，即采用一個標準化語言表征本體，可省略各種描述語言描述本體間的轉化問題。由于XML已經是Web上數據交換的標準語言，因此，目前開發的SHOE、XOL、OML等都是基于XML語言的描述語言。

2 基于本體的全文檢索引擎

Lucene作為一類高性能、可伸縮的信息搜索庫，本身只關注文本的索引和搜索[12]。Lucene提供了簡單的函數調用接口進行數據的訪問和管理，將嵌入在各種應用中進行全文索引/檢索功能。在Lucene的輸入輸出結構類似于數據庫的表、記錄和字段，因此傳統的應用文件、數據庫等都可連接到Lucene的API接口，因此，Lucene本質是一個支持全文索引的數據庫系統。

2.1 Lucene系統結構

Lucene系統結構基于面向對象的設計思想，首先定義一個與平臺無關的索引文件格式，將系統核心部件設計為抽象類，將與平臺相關的文件封裝為類，通過面向對象的編程處理，形成一個低耦合、高效率的二次開發檢索引擎系統[13]。圖1為Lucene體系結構示意圖，整個系統由基礎結構封裝、索引核心、對外接口構成，直接索引作為系統的核心，將檢索產生的索引文件構成索引庫。基礎結構封裝主要對不同類別的數據文件處理成類，對外接口實現不同數據類型的傳輸。

圖1 Lucene體系結構

Lucene以JAR文件形式發布組件包，其中包括7個類包，3個核心類包，具體為：①org. Apache.lucene.analysis類包用于分詞類，由Analyzer擴展類實現，參照Lucene的StandardAnalyzer類編輯分詞分類器類；②org. Apache.lucene.index類包為系統提供數據庫對接接口，常見索引、更新引擎；③org. Apache.lucene.search提供檢索接口，可根據需求輸入條件，獲得查詢結果集。

2.2 基于本體的檢索模型

為保證全局信息檢索系統查全率和查準率，提出基于本體的Lucene語義檢索系統模型，如圖2所示。

圖2 基于本體的Lucene語義檢索系統

系統首先構建相關領域的電子政務公文本體庫，用戶由查詢接口輸入需要的查詢內容，由查詢預處理模塊對輸入內容處理，轉化為標準化的內容并提交給信息檢索模塊。信息檢索模塊根據相似度法則確定超過設定相似度臨界值的相似概念集，并利用鄰域本體通過Jena推理進行概念檢索，由相關度來確定計算結果與用戶查詢內容間的相關性排序，將排序結果在應用界面中展現。

2.3 系統流程

系統實現對text、pdf、Word、Excel等多種格式的數字化公文檢索，針對政府部門的實際需求和應用規則，將整個全文檢索系統劃分為3個模塊，圖3給出了系統流程圖。

建筑企業要想在復雜殘酷的市場競爭中生存發展，首先要提高企業自身的綜合素質。綜合素質的提高對建筑企業能否在市場中立足至關重要。綜合素質的高低是一個企業的面貌體現，是能否在市場競爭中占據主導地位的體現。如建筑企業綜合素質較低，就無法對市場需求與走向進行理性分析與研究，導致逐漸被市場所淘汰或者摒棄。所以，建筑企業應該加強工程施工管理模式的創新，只有創新的理念才是提升企業綜合素質的基礎與保障。

圖3 本體的Lucene全文檢索系統流程

整個系統分為公文抽取模塊、索引模塊、搜索模塊。公文抽取模塊利用建立的本體數據源進行數據抽取，索引模塊對存儲到Lucene終端公文文本進行倒排索引，搜索模塊提供數據查詢，由Lucene索引功能按照相關程度顯示搜索結果。

2.3.1 公文抽取模塊

部門接受到不同類型的數字化公文時，以Lucene為數據庫來抽取文本數據。若數據為Word、Excel格式文本，采用POI技術抽取文件信息，若為pdf格式文本，采用PdfBox抽取文本。將文件中的文本信息以字段的形式保存在Lucene數據庫中，同時將數字文檔中的文件名、標題、發文單位等信息以字段的形式保存在Lucene中。

2.3.2 索引模塊

不同格式的文件中的文件信息抽取文本后，由索引模塊轉化為固定格式，便于對內容進行索引和存儲。這是系統支持各種格式文件的根本所在。采用Lucene選擇一個合適的分詞器，將文檔內容與單詞的形式進行劃分，建立索引過程的具體步驟：將不同數據源作為Document類型對象；對數據對象分析，文本先由Analyzer分析，將分詞后的內容交給IndexWriter建立索引；按照Lucene的索引格式寫入索引文件。

2.3.3 搜索模塊

公文文件索引完成后，系統即可為用戶提供搜索服務。搜索模塊提供搜索界面，接收到檢索請求后，訪問Lucene索引數據庫，按照相關度對檢索記錄集進行排序，并返回給用戶搜索結果。

Lucene支持B/S方式對系統內容進行全文檢索，其中包括對公文正文、批閱文件內容的全文檢索，全文檢索無需設定關鍵詞，能夠對字、詞、數字、數據的檢索[14]。為便于用戶檢索，Lucene同時支持簡單檢索和高級檢索兩類，通過點擊公文標題、主題詞等相關信息常用項得到相應數據，也可通過And、OR邏輯組合檢索。

當用戶在圖4中提出搜索請求時，如“黨務”，由search.jsp頁面的

表單將文本信息交給SearchServlet。Lucene分析器接收用戶請求并根據搜索詞將處理文本按某種算法排序，將信息返回文本。本系統按照降序排序，相關度由Sort對象參數構造函數，基于Lucene中文檔的Score和DocID建立文檔評分機制。搜索結果采用HTTP消息報形式給用戶瀏覽器，完成搜索操作，如圖5所示，可點擊搜索結果標題查找公文詳細內容。

圖4 搜索請求頁面

圖5 索索結果頁面

3 系統性能測試

為對本文提出的電子公文全文檢索系統進行檢測，通過將本文提出的基于本體的Lucene檢索方法與傳統檢索方法進行比較，驗證檢索性能特征。

在信息檢索中，選擇采用查全率和準確率為技術指標進行評價。查全率是檢索相關文檔與文檔集中所有文檔的的比例，查準率是檢出相關文檔占所有文檔比率。即查全率=返回正確答案個數/后備庫中正確答案數量。查準率=返回正確答案個數/返回答案總數量。本系統選擇某大學近些年發布的100篇電子文檔，涉及教務、黨委、學工處、科研處、后勤等多個部門，對整合的數據集進行測試，獲得測試結果如表1所示。其中，A類表示全文檢索，B類表示普通查詢，C類表示導航查詢。

表1 不通查詢結果的測試結果表

由表1中可以看出，在全文檢索中，查全率最高，相應的查準率最低。這主要是由于全文檢索是以文檔的全部內容根據本體分詞來建立索引，只要該文檔出現該詞匯，即可查詢到，且根據該次出現的頻率進行排序，這樣不論該文檔主體與詞語是否相關均可以被檢索出來，使得查準率較低。

普通查詢方式的查準率最高，查全率最低。由于普通查詢是根據公文主題詞的檢索匹配，只需要根據主題詞匹配出結果，通常與檢索內容相關性較大，但是公文主題詞通常較少，因此難以全面完整地表達整篇公文內容，同時普通查詢知識對主題詞進行簡單的匹配，并未獲得主題詞的擴展信息。

導航查詢的查全率和查準率介于二者間，這是由于導航查詢通過主題詞匹配檢索，查詢過程依據JESS定義的規則推理，使得與用戶相關但不完全匹配的信息檢索，造成查全率較高。而JESS定義的規則滿足的應用場合有限，因而推導出部分結果不滿足用戶要求。

4 總結

數字化全文檢索系統建設不僅是通過各類電子設備實現公文電子化過程，還是一種管理新聞的電子化，通過利用數字化優勢來擴大應用范圍，提供滿足時間和空間的公文管理平臺。本文在傳統信息檢索方式基礎上，提出一種基于本體的全局智能檢索。根據“本體”語義特征，將描述語言轉化為標注化語言表征本體，由用戶語義相關度返回結果集，從中尋找到最相似且相關的全面內容。采用Lucene全文檢索系統實現對公文正文、批閱文件內容的簡單檢索，也可通過And、OR邏輯組合進行檢索，在有效保證查準率的基礎上，達到提高對電子公文的查全率檢索。