999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子公文全文檢索系統的設計及實現

2022-02-25 14:45:22張紅玲
微型電腦應用 2022年2期
關鍵詞:系統

張紅玲

(陜西警官職業學院, 法律系, 陜西, 西安 710021)

0 引言

1 知識本體

本體即事物的主體或自身,事物的來源或根源。在信息科學領域對“本體”存在著不同的定義,根據Neches等[10]的說法,本體是“給出構成某一領域詞匯的基本關系和術語,并利用構成的規定對詞匯外延規則的定義”。隨著計算機、智能領域的發展,Fensel[11]將本體定義為“一個特定領域重要概念的共享的形式化描述”,體現了Ontology的4個含義:概念化、明確化、形式化、共享化。概念化:對客觀事件某些現象建立抽象化的模型,該模型獨立于具體環境狀態。明確化:所有概念和關聯關系都有精確定義。形式化:采用計算機可讀的精確數學描述。共享化:Ontology中表征的知識是該領域公認的概念集。

在對本體進行具體表征時,則需要采用某種描述語言進行特征表述。目前應用較多的描述語言包括Ontolingua、Loom等,但要將本體概念應用于計算機網絡應用程序,則需要考慮到標準化問題,即采用一個標準化語言表征本體,可省略各種描述語言描述本體間的轉化問題。由于XML已經是Web上數據交換的標準語言,因此,目前開發的SHOE、XOL、OML等都是基于XML語言的描述語言。

2 基于本體的全文檢索引擎

Lucene作為一類高性能、可伸縮的信息搜索庫,本身只關注文本的索引和搜索[12]。Lucene提供了簡單的函數調用接口進行數據的訪問和管理,將嵌入在各種應用中進行全文索引/檢索功能。在Lucene的輸入輸出結構類似于數據庫的表、記錄和字段,因此傳統的應用文件、數據庫等都可連接到Lucene的API接口,因此,Lucene本質是一個支持全文索引的數據庫系統。

2.1 Lucene系統結構

Lucene系統結構基于面向對象的設計思想,首先定義一個與平臺無關的索引文件格式,將系統核心部件設計為抽象類,將與平臺相關的文件封裝為類,通過面向對象的編程處理,形成一個低耦合、高效率的二次開發檢索引擎系統[13]。圖1為Lucene體系結構示意圖,整個系統由基礎結構封裝、索引核心、對外接口構成,直接索引作為系統的核心,將檢索產生的索引文件構成索引庫。基礎結構封裝主要對不同類別的數據文件處理成類,對外接口實現不同數據類型的傳輸。

圖1 Lucene體系結構

Lucene以JAR文件形式發布組件包,其中包括7個類包,3個核心類包,具體為:①org. Apache.lucene.analysis類包用于分詞類,由Analyzer擴展類實現,參照Lucene的StandardAnalyzer類編輯分詞分類器類;②org. Apache.lucene.index類包為系統提供數據庫對接接口,常見索引、更新引擎;③org. Apache.lucene.search提供檢索接口,可根據需求輸入條件,獲得查詢結果集。

2.2 基于本體的檢索模型

為保證全局信息檢索系統查全率和查準率,提出基于本體的Lucene語義檢索系統模型,如圖2所示。

圖2 基于本體的Lucene語義檢索系統

系統首先構建相關領域的電子政務公文本體庫,用戶由查詢接口輸入需要的查詢內容,由查詢預處理模塊對輸入內容處理,轉化為標準化的內容并提交給信息檢索模塊。信息檢索模塊根據相似度法則確定超過設定相似度臨界值的相似概念集,并利用鄰域本體通過Jena推理進行概念檢索,由相關度來確定計算結果與用戶查詢內容間的相關性排序,將排序結果在應用界面中展現。

2.3 系統流程

系統實現對text、pdf、Word、Excel等多種格式的數字化公文檢索,針對政府部門的實際需求和應用規則,將整個全文檢索系統劃分為3個模塊,圖3給出了系統流程圖。

建筑企業要想在復雜殘酷的市場競爭中生存發展,首先要提高企業自身的綜合素質。綜合素質的提高對建筑企業能否在市場中立足至關重要。綜合素質的高低是一個企業的面貌體現,是能否在市場競爭中占據主導地位的體現。如建筑企業綜合素質較低,就無法對市場需求與走向進行理性分析與研究,導致逐漸被市場所淘汰或者摒棄。所以,建筑企業應該加強工程施工管理模式的創新,只有創新的理念才是提升企業綜合素質的基礎與保障。

圖3 本體的Lucene全文檢索系統流程

整個系統分為公文抽取模塊、索引模塊、搜索模塊。公文抽取模塊利用建立的本體數據源進行數據抽取,索引模塊對存儲到Lucene終端公文文本進行倒排索引,搜索模塊提供數據查詢,由Lucene索引功能按照相關程度顯示搜索結果。

2.3.1 公文抽取模塊

部門接受到不同類型的數字化公文時,以Lucene為數據庫來抽取文本數據。若數據為Word、Excel格式文本,采用POI技術抽取文件信息,若為pdf格式文本,采用PdfBox抽取文本。將文件中的文本信息以字段的形式保存在Lucene數據庫中,同時將數字文檔中的文件名、標題、發文單位等信息以字段的形式保存在Lucene中。

2.3.2 索引模塊

不同格式的文件中的文件信息抽取文本后,由索引模塊轉化為固定格式,便于對內容進行索引和存儲。這是系統支持各種格式文件的根本所在。采用Lucene選擇一個合適的分詞器,將文檔內容與單詞的形式進行劃分,建立索引過程的具體步驟:將不同數據源作為Document類型對象;對數據對象分析,文本先由Analyzer分析,將分詞后的內容交給IndexWriter建立索引;按照Lucene的索引格式寫入索引文件。

2.3.3 搜索模塊

公文文件索引完成后,系統即可為用戶提供搜索服務。搜索模塊提供搜索界面,接收到檢索請求后,訪問Lucene索引數據庫,按照相關度對檢索記錄集進行排序,并返回給用戶搜索結果。

Lucene支持B/S方式對系統內容進行全文檢索,其中包括對公文正文、批閱文件內容的全文檢索,全文檢索無需設定關鍵詞,能夠對字、詞、數字、數據的檢索[14]。為便于用戶檢索,Lucene同時支持簡單檢索和高級檢索兩類,通過點擊公文標題、主題詞等相關信息常用項得到相應數據,也可通過And、OR邏輯組合檢索。

當用戶在圖4中提出搜索請求時,如“黨務”,由search.jsp頁面的

表單將文本信息交給SearchServlet。Lucene分析器接收用戶請求并根據搜索詞將處理文本按某種算法排序,將信息返回文本。本系統按照降序排序,相關度由Sort對象參數構造函數,基于Lucene中文檔的Score和DocID建立文檔評分機制。搜索結果采用HTTP消息報形式給用戶瀏覽器,完成搜索操作,如圖5所示,可點擊搜索結果標題查找公文詳細內容。

圖4 搜索請求頁面

圖5 索索結果頁面

3 系統性能測試

為對本文提出的電子公文全文檢索系統進行檢測,通過將本文提出的基于本體的Lucene檢索方法與傳統檢索方法進行比較,驗證檢索性能特征。

在信息檢索中,選擇采用查全率和準確率為技術指標進行評價。查全率是檢索相關文檔與文檔集中所有文檔的的比例,查準率是檢出相關文檔占所有文檔比率。即查全率=返回正確答案個數/后備庫中正確答案數量。查準率=返回正確答案個數/返回答案總數量。本系統選擇某大學近些年發布的100篇電子文檔,涉及教務、黨委、學工處、科研處、后勤等多個部門,對整合的數據集進行測試,獲得測試結果如表1所示。其中,A類表示全文檢索,B類表示普通查詢,C類表示導航查詢。

表1 不通查詢結果的測試結果表

由表1中可以看出,在全文檢索中,查全率最高,相應的查準率最低。這主要是由于全文檢索是以文檔的全部內容根據本體分詞來建立索引,只要該文檔出現該詞匯,即可查詢到,且根據該次出現的頻率進行排序,這樣不論該文檔主體與詞語是否相關均可以被檢索出來,使得查準率較低。

普通查詢方式的查準率最高,查全率最低。由于普通查詢是根據公文主題詞的檢索匹配,只需要根據主題詞匹配出結果,通常與檢索內容相關性較大,但是公文主題詞通常較少,因此難以全面完整地表達整篇公文內容,同時普通查詢知識對主題詞進行簡單的匹配,并未獲得主題詞的擴展信息。

導航查詢的查全率和查準率介于二者間,這是由于導航查詢通過主題詞匹配檢索,查詢過程依據JESS定義的規則推理,使得與用戶相關但不完全匹配的信息檢索,造成查全率較高。而JESS定義的規則滿足的應用場合有限,因而推導出部分結果不滿足用戶要求。

4 總結

數字化全文檢索系統建設不僅是通過各類電子設備實現公文電子化過程,還是一種管理新聞的電子化,通過利用數字化優勢來擴大應用范圍,提供滿足時間和空間的公文管理平臺。本文在傳統信息檢索方式基礎上,提出一種基于本體的全局智能檢索。根據“本體”語義特征,將描述語言轉化為標注化語言表征本體,由用戶語義相關度返回結果集,從中尋找到最相似且相關的全面內容。采用Lucene全文檢索系統實現對公文正文、批閱文件內容的簡單檢索,也可通過And、OR邏輯組合進行檢索,在有效保證查準率的基礎上,達到提高對電子公文的查全率檢索。

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 美女被操91视频| 国产00高中生在线播放| 中国国产A一级毛片| 亚洲视频四区| 无套av在线| 5555国产在线观看| 亚洲熟妇AV日韩熟妇在线| 青青草原偷拍视频| 就去色综合| 欧美黄网在线| 日韩欧美亚洲国产成人综合| 国产91精选在线观看| 免费毛片网站在线观看| 欧美国产日韩在线| 一区二区三区成人| 最新亚洲人成无码网站欣赏网| 99久久人妻精品免费二区| 亚洲 成人国产| 欧美日韩北条麻妃一区二区| 国产日韩欧美一区二区三区在线 | 久久超级碰| 国产91九色在线播放| 麻豆精品在线播放| 日韩欧美国产另类| 日韩激情成人| 三上悠亚一区二区| 久久精品亚洲热综合一区二区| 欧美亚洲国产精品第一页| 国产精品对白刺激| 精品人妻AV区| 日本欧美视频在线观看| a在线亚洲男人的天堂试看| 亚洲欧洲日韩久久狠狠爱| 91在线国内在线播放老师| 亚洲成人免费在线| 国产导航在线| 91精品福利自产拍在线观看| 免费无码网站| 青青草原国产| 久久香蕉国产线看精品| 国产精品原创不卡在线| 伊人久久久久久久| 玖玖精品视频在线观看| 欧美一级黄片一区2区| 亚洲第一区精品日韩在线播放| 一级毛片免费的| 亚洲精品片911| 中文字幕在线永久在线视频2020| 狠狠色综合网| 综合五月天网| 欧美一级在线播放| 久久网欧美| 四虎影视永久在线精品| 久久这里只有精品66| 国产日韩欧美一区二区三区在线| 色老二精品视频在线观看| 尤物特级无码毛片免费| 精品少妇人妻无码久久| 成人毛片在线播放| 日韩不卡高清视频| 国产美女91呻吟求| 91网红精品在线观看| 中文字幕无码中文字幕有码在线| 亚洲综合色在线| 国内毛片视频| 久久99国产精品成人欧美| 在线免费不卡视频| 久久香蕉国产线| 在线视频亚洲色图| 夜夜拍夜夜爽| 欧美成a人片在线观看| 亚洲欧美极品| lhav亚洲精品| 欧洲成人免费视频| 亚洲婷婷在线视频| 国产高清免费午夜在线视频| 国产另类视频| 最新国产成人剧情在线播放| 国产人前露出系列视频| 国产亚洲美日韩AV中文字幕无码成人| 欧美亚洲欧美区| 亚亚洲乱码一二三四区|