張紅玲
(陜西警官職業學院, 法律系, 陜西, 西安 710021)
本體即事物的主體或自身,事物的來源或根源。在信息科學領域對“本體”存在著不同的定義,根據Neches等[10]的說法,本體是“給出構成某一領域詞匯的基本關系和術語,并利用構成的規定對詞匯外延規則的定義”。隨著計算機、智能領域的發展,Fensel[11]將本體定義為“一個特定領域重要概念的共享的形式化描述”,體現了Ontology的4個含義:概念化、明確化、形式化、共享化。概念化:對客觀事件某些現象建立抽象化的模型,該模型獨立于具體環境狀態。明確化:所有概念和關聯關系都有精確定義。形式化:采用計算機可讀的精確數學描述。共享化:Ontology中表征的知識是該領域公認的概念集。
在對本體進行具體表征時,則需要采用某種描述語言進行特征表述。目前應用較多的描述語言包括Ontolingua、Loom等,但要將本體概念應用于計算機網絡應用程序,則需要考慮到標準化問題,即采用一個標準化語言表征本體,可省略各種描述語言描述本體間的轉化問題。由于XML已經是Web上數據交換的標準語言,因此,目前開發的SHOE、XOL、OML等都是基于XML語言的描述語言。
Lucene作為一類高性能、可伸縮的信息搜索庫,本身只關注文本的索引和搜索[12]。Lucene提供了簡單的函數調用接口進行數據的訪問和管理,將嵌入在各種應用中進行全文索引/檢索功能。在Lucene的輸入輸出結構類似于數據庫的表、記錄和字段,因此傳統的應用文件、數據庫等都可連接到Lucene的API接口,因此,Lucene本質是一個支持全文索引的數據庫系統。
Lucene系統結構基于面向對象的設計思想,首先定義一個與平臺無關的索引文件格式,將系統核心部件設計為抽象類,將與平臺相關的文件封裝為類,通過面向對象的編程處理,形成一個低耦合、高效率的二次開發檢索引擎系統[13]。圖1為Lucene體系結構示意圖,整個系統由基礎結構封裝、索引核心、對外接口構成,直接索引作為系統的核心,將檢索產生的索引文件構成索引庫。基礎結構封裝主要對不同類別的數據文件處理成類,對外接口實現不同數據類型的傳輸。

圖1 Lucene體系結構
Lucene以JAR文件形式發布組件包,其中包括7個類包,3個核心類包,具體為:①org. Apache.lucene.analysis類包用于分詞類,由Analyzer擴展類實現,參照Lucene的StandardAnalyzer類編輯分詞分類器類;②org. Apache.lucene.index類包為系統提供數據庫對接接口,常見索引、更新引擎;③org. Apache.lucene.search提供檢索接口,可根據需求輸入條件,獲得查詢結果集。
為保證全局信息檢索系統查全率和查準率,提出基于本體的Lucene語義檢索系統模型,如圖2所示。

圖2 基于本體的Lucene語義檢索系統
系統首先構建相關領域的電子政務公文本體庫,用戶由查詢接口輸入需要的查詢內容,由查詢預處理模塊對輸入內容處理,轉化為標準化的內容并提交給信息檢索模塊。信息檢索模塊根據相似度法則確定超過設定相似度臨界值的相似概念集,并利用鄰域本體通過Jena推理進行概念檢索,由相關度來確定計算結果與用戶查詢內容間的相關性排序,將排序結果在應用界面中展現。
系統實現對text、pdf、Word、Excel等多種格式的數字化公文檢索,針對政府部門的實際需求和應用規則,將整個全文檢索系統劃分為3個模塊,圖3給出了系統流程圖。
建筑企業要想在復雜殘酷的市場競爭中生存發展,首先要提高企業自身的綜合素質。綜合素質的提高對建筑企業能否在市場中立足至關重要。綜合素質的高低是一個企業的面貌體現,是能否在市場競爭中占據主導地位的體現。如建筑企業綜合素質較低,就無法對市場需求與走向進行理性分析與研究,導致逐漸被市場所淘汰或者摒棄。所以,建筑企業應該加強工程施工管理模式的創新,只有創新的理念才是提升企業綜合素質的基礎與保障。

圖3 本體的Lucene全文檢索系統流程
整個系統分為公文抽取模塊、索引模塊、搜索模塊。公文抽取模塊利用建立的本體數據源進行數據抽取,索引模塊對存儲到Lucene終端公文文本進行倒排索引,搜索模塊提供數據查詢,由Lucene索引功能按照相關程度顯示搜索結果。
2.3.1 公文抽取模塊
部門接受到不同類型的數字化公文時,以Lucene為數據庫來抽取文本數據。若數據為Word、Excel格式文本,采用POI技術抽取文件信息,若為pdf格式文本,采用PdfBox抽取文本。將文件中的文本信息以字段的形式保存在Lucene數據庫中,同時將數字文檔中的文件名、標題、發文單位等信息以字段的形式保存在Lucene中。
2.3.2 索引模塊
不同格式的文件中的文件信息抽取文本后,由索引模塊轉化為固定格式,便于對內容進行索引和存儲。這是系統支持各種格式文件的根本所在。采用Lucene選擇一個合適的分詞器,將文檔內容與單詞的形式進行劃分,建立索引過程的具體步驟:將不同數據源作為Document類型對象;對數據對象分析,文本先由Analyzer分析,將分詞后的內容交給IndexWriter建立索引;按照Lucene的索引格式寫入索引文件。
2.3.3 搜索模塊
公文文件索引完成后,系統即可為用戶提供搜索服務。搜索模塊提供搜索界面,接收到檢索請求后,訪問Lucene索引數據庫,按照相關度對檢索記錄集進行排序,并返回給用戶搜索結果。
Lucene支持B/S方式對系統內容進行全文檢索,其中包括對公文正文、批閱文件內容的全文檢索,全文檢索無需設定關鍵詞,能夠對字、詞、數字、數據的檢索[14]。為便于用戶檢索,Lucene同時支持簡單檢索和高級檢索兩類,通過點擊公文標題、主題詞等相關信息常用項得到相應數據,也可通過And、OR邏輯組合檢索。
當用戶在圖4中提出搜索請求時,如“黨務”,由search.jsp頁面的