999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海量圖書檢索信息的快速查詢系統優化設計研究

2017-04-10 20:28:46高玉平
現代電子技術 2017年6期
關鍵詞:信息檢索

高玉平

摘 要: 以往依據關鍵詞的檢索方法,在對海量圖書檢索信息進行查詢過程中,無法滿足海量信息的大批量檢索需求,存在查詢效率低和誤差高的缺陷。因此,設計基于分布式架構的海量圖書檢索信息的快速查詢系統,系統中的各組件通過并行數據庫和分布式存儲實現交互。該系統的功能模塊包括用戶管理模塊、數據抽取模塊、索引創建模塊、文本查詢模塊及索引檢索模塊。分析了系統各功能模塊的設計和實現過程,這些功能模塊共同對外提供圖書信息的快速查詢服務。實驗結果表明,所設計系統可實現海量圖書檢索信息的快速、精確查詢,并且具有較高的索引創建和索引檢索性能。

關鍵詞: 海量圖書信息; 信息檢索; 快速查詢系統; 分布式架構

中圖分類號: TN911?34; TP39 文獻標識碼: A 文章編號: 1004?373X(2017)06?0005?05

Abstract: The previous keywords retrieval method can not meet the retrieval requirements massive information in the query process of information retrieval for mass books, and has defects of low query efficiency and high error. Therefore, a fast query system for massive bookinformation retrievalthe is designed. Each assembly in the system realizes their interaction by means of parallel database and distributed storage. Function modules of the system are user management module, data extraction module, index creation module, text query module and index retrieval module. The process of each function module′s design and implementation of the system is analysed. These function modules provide a fast query service of book information. The experimental results indicate that the system can realize fast and accurate query of retrieval information of massive books, and has high index creation and index retrieval performance.

Keywords: massive book information; information retrieve; fast query system; distributed framework

0 引 言

隨著信息技術和互聯網技術的快速發展,當前的信息總量不斷增加。圖書是重要的信息存儲方式,圖書信息的數量和規模也呈現膨脹式增長趨勢。從海量圖書信息中快速獲取用戶所需的數據,成為相關人員著手解決的關鍵問題[1?3]。而以往的依據關鍵詞的檢索方法,對海量圖書檢索信息進行查詢過程中,無法滿足海量信息的大批量檢索需求,存在查詢效率低和誤差高的缺陷[4?5]。文獻[6]通過分詞方法完成海量圖書檢索信息的查詢,該方法按照相應的規范和方法對文本進行自主分詞,再對檢索結果進行詞匯匹配分析,完成圖書檢索信息的快速查詢,但是該方法無法對中文進行有效分詞,存在查詢準確率低的缺陷。文獻[7]分析了依據局域網以及純文本種類的圖書信息查詢系統,該種系統需要對各接口進行二次開發,存在工作量高的缺陷,導致圖書信息查詢效率大大降低。文獻[8]提成了依據關鍵詞全文檢索的圖書信息查詢方法,但是關鍵詞通常無法準確反映用戶的查詢意圖,該方法會向用戶顯示大量的信息,存在查準率低的問題。文獻[9]設計了依據Web的圖書信息查詢系統,采用Web技術從海量圖書檢索信息中查詢用戶所需信息。但是海量的圖書信息會降低用戶查詢興趣度,并且從海量信息中采集滿足用戶的有價值信息,需要耗費大量的時間。文獻[10]依據關鍵詞的檢索方法,對海量圖書檢索信息進行查詢過程中,無法滿足海量信息的大批量檢索需求,存在查詢效率低和誤差高的缺陷。

針對上述問題,設計了基于分布式架構的海量圖書檢索信息的快速查詢系統。實驗結果表明,所設計系統可實現海量圖書檢索信息的快速、精確查詢,并且具有較高的索引創建和索引檢索性能,取得了令人滿意的效果。

1 海量圖書檢索信息的快速查詢系統優化設計

1.1 系統的架構設計

基于分布式架構的海量圖書檢索信息的快速查詢系統的結構圖如圖1所示。從圖1可以看出該系統包括用戶界面、HTTP攔截器、數據庫連接器、數據抽取器、索引器、索引檢索器、文本查詢器及索引分布式連接器等組件。這些組件間實現交互的連接件為并行數據庫 Oracle和分布式存儲。

用戶界面組件通過JSP技術完成界面的展示,通過Struts2技術分析用戶提成的圖書信息查詢申請,采用JDBC技術訪問Oracle數據庫,實現數據庫數據的讀寫操作,塑造依據B/S體系結構的Web應用程序。

數據庫連接器、數據抽取服務、HTTP攔截器、索引更新服務組件,用于實現海量圖書信息數據抽取以及文本索引維護。數據庫連接器、文本查詢服務、HTTP攔截器以及索引檢索服務組件實現關鍵詞查詢,主要有海量圖書信息全文查詢和文本信息查詢兩部分。其中,數據庫連接器實現JDBC同Oracle數據庫間的連接。數據抽取器實現對數據庫的CRUD處理,分布式連接器實現應用程序同分布式存儲間的連接,進而采用相關服務,完成索引的管理和信息查詢。HTTP攔截器實現用戶申請和響應申請。索引檢索器可控制分布式存儲中的檢索服務,實現海量圖書信息索引的檢索。文本查詢器完成通過rowid及其他查詢條件查詢數據庫的操作任務。分布式存儲是依據全文索引的分布式存儲系統,其在Lucene服務引擎中集成了大量接口,確保用戶調用相關操作命令,完成圖書信息的查詢操作。分布式存儲可將圖書信息的全文索引分割成不同的分段、分片以及分片副本,并分別保存在分布式存儲集群中不同數據節點并可對不同的分片進行操作和協助,確保不同數據節點間通信的均衡化。一個索引由不同的分片構成,各分片可看成微小的搜索引擎。

對索引進行查詢是分布式處理過程,也就是分布式存儲應查詢索引中的不同分片中的數據復制,并將查詢結果匯總至單一結果集中。同種硬件條件下,該種查詢方式可支撐海量的信息負載查詢,實現海量圖書檢索信息的快速查詢。系統中的數據庫存儲Oracle RAC組件,完成數據的并行存儲。

1.2 系統功能模塊的設計與實現

設計的海量圖書檢索信息快速查詢系統通過HTTP服務方式對外提供服務。該系統的功能模塊包括用戶管理模塊、數據抽取模塊、索引創建模塊、索引重構模塊、文本查詢模塊及索引檢索模塊。這些模塊共同對外提供圖書信息的快速查詢服務。

系統中的用戶管理模塊對用戶信息進行管理,依據不同的用戶種類,修改用戶權限信息和登錄信息等;數據抽取模塊采集數據庫中的文本備份數據,將數據集反饋給索引創建模塊完成數據的操作。索引創建模塊讀取采集的文本數據集,通過分布式存儲創建索引引擎,塑造文本索引,同時將索引寫入文件系統中;索引檢索模塊實現用戶的圖書信息檢索,可檢索相應分區中的索引數據集,并且將獲取的索引數據集當成文本查詢模塊的查詢條件;文本查詢模塊采集數據庫中文本數據,將滿足rowid的匹配數據集合,通過多線程手段打包返回。

1.2.1 數據抽取模塊的設計與實現

設計的數據抽取模塊采用Quartz 定時器技術,在每天的0:00運行數據抽取模塊的定時任務,并將抽取出的文本信息結果集當成索引創建模塊的輸入信息。設置創建索引的終止時間為定時任務的開始時間,采集數據庫中低于該時間的全部分區數據,依據分區名創建索引。如果創建索引失敗,則結束本次創建索引任務,等待下次創建索引任務開始。

Quartz定時器能夠同J2EE 和J2SE應用程序融合,運行十個、百個、甚至萬個Jobs的日程序表。通過Java庫發布文件(.jar文件)開發Quartz,該文件中存在全部的Quartz功能,這些功能的關鍵接口(API)為Scheduler接口,該種接口可實現任務在日程中的融合和終止。Quartz定時器內的任務可為Java代碼,定時器通過調用作業,確保作業處于工作時間。定時器可創造可循環的調度表。定時任務通過Quartz定時器,在固定的時間內運行數據抽取模塊,采集數據庫中不同分區數據,并將采集到的數據讀入內存,向文本索引創建過程提供依據。圖2時序圖描述了定時任務采用數據抽取模塊完成文本信息采集的流程。

1.2.2 索引創建模塊設計與實現

采用類IndexTaskManager完成索引創建模塊,該類采用Quartz定時任務器申請運行,通過數據抽取模塊、數據庫連接請求執行以及分布式存儲索引庫連接器交互,實現索引創建模塊的運行。圖3給出了索引創建模塊的運行流程圖。

1.2.3 索引檢索模塊的設計與實現

塑造全文索引過程中,各分區名以及索引名間相互對應。依據不同的發送日期劃分不同的數據分區。因此,當用戶查詢條件中不存在起始和終止時間,則檢索索引索引文件;否則按照用戶申請的時間,檢索相應的索引分區名,極大增強了圖書信息的檢索效率。索引檢索模塊的結果為rowid的集合,是文本查詢模塊進行分析的依據。索引檢索模塊的運行流程圖如圖4所示。

1.2.4 文本查詢模塊的設計

通過文本查詢器運行文本查詢模塊,其采用數據連接器同Oracle 數據庫相連,檢索數據庫分區表,同時將檢索結果反饋給用戶。文本查詢模塊的時序圖如圖5所示。文本查詢模塊采用文本查詢線程,運行數據庫查詢任務。該線程采集全局共享緩存區中的 rowid信息,同時依據用戶查詢條件,構成SQL 語句,對數據庫進行查詢,最終向數據庫臨時表中存儲查詢結果,為用戶界面進行導出數據提供服務。文本查詢模塊通過SQL查詢數據庫,因為 Oracle數據庫要求SQL的最高長度為4 500個字符,因此,設置rowid每次查詢700個,利用In方式查詢。文本查詢模塊的運行流程圖如圖6所示。

2 實驗分析

通過實驗對本文設計的基于分布式架構的海量圖書檢索信息的快速查詢系統的性能進行測試。實驗通過表1和表2 的多條件檢索和單關鍵詞查詢條件檢索測試用例,檢測本文系統的測試結果的有效性。

通過表1和表2可以看出,本文系統可準確查詢出多條件檢索和單關鍵詞查詢條件檢索結果,是有效的圖書檢索信息查詢系統。

實驗對基于關鍵詞的信息查詢系統和本文系統的性能進行檢測時,主要對兩種系統的索引創建以及檢索性能進行測試。檢測數據是單臺Oracle數據庫服務器中的3.5億條圖書信息記錄,分布式存儲以及檢索服務器模擬3個服務器,同時模擬6個分片以及單個備份節點當成檢測環境,對本文系統的查詢性能進行檢測。

分析兩種系統的CPU占用率、內存占率、I/O的使用率等指標,對本文系統的索引創建性能進行檢測。兩種進行圖書檢索信息查詢過程中的索引創建壓力測試結果如圖7和圖8所示。

具體性能值如表3,表4所示。

分析圖7、圖8以及表3和表4可得,相對比基于關鍵詞的圖書信息查詢系統,本文系統創建索引的效率和性能較高,并且會增加文件存儲空間;本文系統的I/O讀寫更為頻繁,吞吐量更高。說明本文系統能夠完成海量圖書檢索信息的快速、準確查詢。

表5和表6分別是基于關鍵詞的圖書信息查詢系統以及本文系統的索引檢索性能測試結果,包括樣本數量、吞吐量以及平均值三個參數。其中,樣本數量表示發送到服務器的全部用戶申請數量;吞吐量值是系統服務器單位時間操作的用戶查詢申請數;平均值是系統進行圖書信息查詢過程中的總運行時間同申請數的比值。

對比表5和表6可以看出,本文系統的樣本數量、吞吐量以及平均值均優于基于關鍵詞的信息查詢系統,本文系統具有較高的索引檢索性能。

通過上述實驗可得相對于基于關鍵詞的信息查詢系統,本文系統的索引創建性能和檢索性能都較高,可以滿足用戶的查詢需求。

3 結 論

以往的依據關鍵詞的檢索方法,在對海量圖書檢索信息進行查詢過程中,無法滿足海量信息的大批量檢索需求,存在查詢效率低和誤差高的缺陷。因此,本文設計基于分布式架構的海量圖書檢索信息的快速查詢系統,該系統中的各組件通過并行數據庫和分布式存儲實現交互。該系統的功能模塊有用戶管理模塊、數據抽取模塊、索引創建模塊、索引重構模塊、文本查詢模塊及索引檢索模塊。分析了系統各功能模塊的設計和實現過程,這些功能模塊共同對外提供圖書信息的快速查詢服務。實驗結果表明,所設計系統可實現海量圖書檢索信息的快速、精確查詢,并且具有較高的索引創建和索引檢索性能。

參考文獻

[1] 羅芳,李春花,周可,等.基于多屬性的海量Web數據關聯存儲及檢索系統[J].計算機工程與科學,2014,36(3):404?410.

[2] 劉鵬.基于Hadoop的結構化電子病歷存儲檢索系統研究與改進[J].中國數字醫學,2015,10(1):40?42.

[3] 孫霞,禹龍,田生偉,等.基于一致性Hash的分布式海量分子檢索模型[J].計算機應用,2015,35(4):956?959.

[4] 李維乾,李莉,張曉濱,等.Hadoop平臺下突發水污染應急預案并行化處置[J].西安工程大學學報,2015,29(6):733?739.

[5] 曹鋒.基于細微特征區分的海量圖像檢索模型仿真[J].計算機仿真,2015,32(9):368?371.

[6] 董岳珂.發現系統引發的關于信息素養教育的思考[J].圖書館論壇,2014,34(4):58?63.

[7] 宋一兵.基于本體的文獻情報信息檢索方法研究[J].青島理工大學學報,2015,36(4):82?86.

[8] 張廣慶,葛唯益,賀成龍.基于Simhash的海量相似文檔快速搜索優化方法[J].指揮信息系統與技術,2015,6(2):61?65.

[9] 萬艷麗,雷行云,王巖,等.基于層次化深度學習的海量醫學影像組織與檢索研究[J].醫學信息學雜志,2015,36(5):46?51.

[10] 黃杰,曹錦梅,努爾艾拉·阿布力孜,等.維吾爾語在圖書館數據庫查詢系統中的應用[J].電腦與信息技術,2014,22(5):53?55.

猜你喜歡
信息檢索
基于同態加密支持模糊查詢的高效隱私信息檢索協議
基于信息檢索課的大學生信息檢索行為調查研究
高職院校圖書館開設信息檢索課的必要性探討
基于MOOC理念的“翻轉課堂”教學改革探索——以海南大學《文獻信息檢索與利用》課程為例
網絡環境下數字圖書館信息檢索發展
山西青年(2018年5期)2018-01-25 16:53:40
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經網絡的個性化信息檢索模型研究
地理信息檢索中空間相似性度量的一種模糊方法
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 国产精品流白浆在线观看| 中文字幕资源站| 波多野吉衣一区二区三区av| 国产99热| 91色在线视频| 免费观看欧美性一级| 一本大道香蕉久中文在线播放| 日本一区二区三区精品国产| 成人福利在线观看| 亚洲欧美h| 日韩欧美国产另类| 欧美一区二区自偷自拍视频| 成人免费一级片| 狂欢视频在线观看不卡| 日韩东京热无码人妻| 99久视频| 久久久久亚洲av成人网人人软件 | a级毛片在线免费| 国产精彩视频在线观看| 大陆国产精品视频| 日韩黄色大片免费看| 国产在线八区| 99热这里只有免费国产精品| 黄色在线不卡| 996免费视频国产在线播放| 91福利在线观看视频| 亚洲午夜综合网| 欧美在线免费| 欧美国产成人在线| 麻豆AV网站免费进入| 免费国产高清精品一区在线| 99久久国产综合精品2023| 精品一区二区三区波多野结衣 | 亚洲精品波多野结衣| 日韩在线视频网站| 四虎永久在线精品影院| www.国产福利| 国产在线91在线电影| 丁香婷婷激情综合激情| 日本不卡在线视频| 精品国产一区91在线| 日韩黄色在线| 无码国产偷倩在线播放老年人 | 日本黄色不卡视频| 亚洲va欧美ⅴa国产va影院| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 无码AV动漫| 综合天天色| 久久不卡国产精品无码| 国产精品无码久久久久AV| 久久免费视频播放| 国产高清精品在线91| 91丨九色丨首页在线播放| 在线另类稀缺国产呦| 国产成人夜色91| 女高中生自慰污污网站| 日韩高清无码免费| 欧美啪啪网| 国产午夜福利片在线观看| 国产一级毛片yw| 国产精品福利一区二区久久| 午夜啪啪网| 亚洲第一精品福利| 亚洲午夜福利在线| 又大又硬又爽免费视频| 人妻中文字幕无码久久一区| 国产精品久久精品| 国产在线观看成人91| 97久久精品人人| 欧美日韩国产在线播放| 欧美中文字幕在线二区| 日韩欧美亚洲国产成人综合| 中文国产成人精品久久一| 亚洲成人一区在线| 无码丝袜人妻| 国产精品露脸视频| 91九色视频网| 亚洲综合久久一本伊一区| 免费啪啪网址| 亚洲精品国产成人7777| 国产丝袜一区二区三区视频免下载| 伊人久久婷婷|