999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hubble.net的倉儲系統設計與實現

2017-10-23 02:16:47楊偉超馬增軍
計算機技術與發展 2017年10期
關鍵詞:搜索引擎數據庫圖書館

楊偉超,馬增軍,耿 衛

(中國人民解放軍信息工程大學 圖書館,河南 鄭州 450001)

基于Hubble.net的倉儲系統設計與實現

楊偉超,馬增軍,耿 衛

(中國人民解放軍信息工程大學 圖書館,河南 鄭州 450001)

科學技術的飛速發展,各類知識信息的爆發式增長,對高校的專業設置及其教學內容均帶來了巨大的影響。圖書館作為學校文獻資料的綜合保障中心,面臨著知識爆炸的嚴峻挑戰。為此,借鑒當前最新的搜索引擎技術,設計并開發實現了基于Hubble.net的倉儲資源服務系統。該系統根據數字資源存儲的特點,通過對圖書館資源進行對接整合并構建面向讀者的數據庫系統來存儲和索引數據,同時內置了Web服務功能,以實現對圖書館內部電子信息與文獻資料資源的充分利用。運行情況表明,所設計構建的倉儲服務系統能夠滿足用戶快速獲取知識的需求,具有較強的穩定性和實用性,能夠更加便捷有效地為圖書館用戶提供高質量的服務。

Hubble.net;搜索引擎;倉儲管理;海量數據

0 引 言

信息社會數字資源極大豐富,呈知識爆炸的狀態,如何使用龐大的知識資源庫,為讀者提供有效的服務,而不是讓讀者迷失在知識的海洋中,是長期數字文獻資源服務工作中一直存在的難題。近年來,隨著搜索引擎和云存儲的飛速進步,出現了解決這一難題的曙光。

系統建設中專門成立課題組,充分考慮圖書館資源的特點,認真進行用戶需求分析和詳細設計,組織專家、教授對建設方案的內容和系統設計進行嚴格調研論證,明確每個成員的具體分工。實施階段,成員各司其職,積極行動,把學到和掌握的新技術、新知識毫無保留地應用到系統設計中。經過多次爭論,對于系統的結構和功能進行多次調整,使其趨于合理完善。在系統建設過程中,嚴格遵循技術規范,保證系統開發的規范性、統一性和標準化。

系統研制開發力圖兼顧圖書館和讀者兩方面需求,盡可能保證有更好的穩定性,更快的檢索速度,更強的兼容性;具有統一安裝維護界面和一體化發布系統;提供多種數據庫配置方案,方便靈活地增加檢索數據庫;提供友好簡捷的管理系統,實現異構資源統一檢索系統的一體化管理。

文中創新點在于:站在全局的高度,開展多方位、多層次的調查搜集,深入了解各種統一檢索系統的特點及其變化趨勢;集成了業界先進搜索引擎技術,建立專用的索引結構,使千萬級的數據秒級響應;采用專門的采集和數據轉換工具,快速轉換異構數據,方便數據更新和管理;開發出章節檢索和全文檢索功能,向用戶提供深度的知識點搜索功能;提供廣泛參與的服務,為專業學科、教師提供建站云端,可以使更多的人或組織快速搭建專業的站點,提供專業的服務。

1 系統搜索引擎技術

1.1Hubble.net搜索引擎技術

系統的搜索引擎是基于Hubble.net開發而成的。Hubble.net[1]是基于.net framework的全文搜索引擎。目前關系數據庫提供全文搜索的功能相對較弱,不能很好地滿足實際應用需要,而一些組件只提供了全文搜索功能,缺乏和關系數據庫的關聯。Hubble.net整合了全文搜索和關系數據庫,可以方便地通過SQL語句對數據庫進行全文搜索,Hubble.net提供了一個和對應關系數據庫的映射關系,通過SQL語句操作Hubble.net的數據庫和數據表,Hubble.net將自動和對應的關系數據庫實體進行關聯。Hubble.net提供Index cache,Query cache,Data cache三種級別的緩存方案,設計了非常完善的并發控制機制,用戶的增刪改查可以同時進行,不會存在任何沖突。

1.2Hubble.net和Lucene.net的對比

Hubble.net采用被動方式Append Only模式對數據庫現有表進行索引。Lucene.net[2]則是從數據庫讀取記錄進行索引[3-4],數據存儲在Lucene.net索引中。Hubble.net以系統服務存在,不會像Lucene那樣和應用程序共用內存。Hubble.net設計了一套內存管理機制,設置最大內存使用數量,一旦Hubble.net使用內存超過這個數量,Hubble.net就會自動啟動內存整理程序,將一些不經常使用的緩存從內存中清理掉以騰出更多的內存空間給用戶。多關鍵字情況下,Hubble.net比Lucene.net具有明顯的優勢,Match方法大概比Lucene.net快5~10倍,而Contains方法則比Lucene.net快上百倍。在單個關鍵字時,Lucene.net和Hubble.net的搜索速度是接近的,但隨著關鍵字的增多,兩者的差距明顯增大,Hubble.net具有明顯的優勢。

2 系統總體設計

系統建設中主要基于“以用戶為中心,綜合考慮應用現狀和發展需求,重點突出”的設計思想,根據高校圖書館的現狀和需求分析,數字圖書館的建設將重點實現種類繁多、異構、分布式資源[5]數據庫的整合服務;用Hubble.net作為其核心搜索模塊,在成熟、經濟、易用、可擴展、可持續發展等因素綜合平衡下進行應用系統的選型和建設。

整個系統分為采集層、數據層、應用層和服務層四部分,如圖1所示。

采集層:完成各種類型數據源的元數據的采集入庫工作,并逐步實現部分全文數據的采集入庫工作。

圖1 系統架構

數據層:對所有采集來的元數據及數據實行統一的倉儲化管理,統一放入資源倉儲數據庫,為實現資源的整合發布奠定數據基礎。倉儲化管理意味著所存儲的不僅包含文字,還包括圖片、文檔、視頻、flash等各類數字對象。在資源倉儲數據庫的基礎上,可建立面向主題的數據倉庫,實現各種專題服務。通過對用戶訪問行為[6-7]的動態監控,以及通過交互軟件積累下來的用戶行為信息,形成用戶交互數據庫。此外,還包括實際建設過程中產生的其他各類數據庫。

應用層:是從數據到服務的中間層,對數據進行加工處理,為讀者提供多樣化的數據服務模式和服務內容;此外,還包括針對用戶需求開發的其他方面的服務。

服務層:讀者獲取資源和服務。可通過網頁、桌面端以及信息系統等多種形式獲取服務。

從以上四個層面有序開展建設,不但完成文獻資源的整合、存儲管理與網站發布等功能,還對整合資源進行多角度挖掘、加工處理,實現從數據到有價值信息(知識)的智能轉化、智能提供,為用戶提供高層次的信息服務;針對用戶對特殊文獻資源的需求,形成以全方位用戶服務為核心的圖書館在線服務系統;將對特殊文獻資源有著同類需求的用戶[8],形成用戶社區,為相互之間溝通交流、互助提供平臺;針對圖書館對文獻資源的管理與研究需求,可開發相應的研究系統或者工具等。最終形成一個以文獻資源池為核心的、擁有活躍用戶群體的一體化服務系統。

3 系統功能設計及運行試用

海納倉儲系統根據數字資源存儲的特點,自主設計了面向讀性能優化的數據庫系統,來存儲和索引數據,并內置搜索引擎[9-10]和Web服務。該系統基于64位系統,優化支持多線程,可充分發揮多CPU以及大內存的優勢。

3.1系統核心服務

(1)采集監視服務。

采集系統能夠有效實現對列表式資訊類頁面的定期自動監視和采集,采集結果統一進入倉儲數據庫。對入庫數據可以即時發布,也可以利用數據采編工具進行編輯后再發布。采集系統采用先進的網頁分析與提取技術,使用者只需進行簡單的配置就可以實現對資訊類頁面的有效抓取。

(2)數據采編、著錄服務。

數據采編工具用來錄入、修改數據庫數據。該工具支持對word、pdf、圖片、影音文件等多類數據源的采編。既可以用于對數字資源進行方便的標引工作,支持截取封面圖、數據源作為關聯數字對象上傳等功能;又可以用于網站各類動態信息、靜態信息的錄入、修改等。簡單地說,既可以作為圖書館的編錄系統,又可以作為網站的內容管理工具。

(3)快速搭建虛擬專題庫服務。

可以方便地從實體數據庫中通過關鍵詞檢索與分類檢索、檢索點檢索、聚合檢索等方式,迅速從倉儲數據庫中抽取所需數據,組成虛擬數據庫。且生成的虛擬數據庫可以便捷、迅速地發布到網頁上。借此功能,使得建立各類專題數據庫成為輕松容易的事情。

(4)分類聚合服務和特征聚類服務。

海納倉儲系統,采用漸進深入的搜索模式,提供對海量資源的強大搜索能力。用戶使用簡單方便,對檢索詞的命中分布一目了然,通過漸進深入的分類限定和特征限定可以快速縮小搜索范圍。

(5)快速建站發布服務。

快速自助建站系統用于完成網頁界面的搭建與服務模塊的添加與管理維護。通過倉儲管理與發布服務器將網頁建設系統所生成的文件,解析成HTML文件,并且從數據倉儲管理系統中提取網頁建設系統中所配置服務模塊指定的數據。快速建站系統在頁面搭建方面具有強大優勢,可以自由、靈活、快捷地構建個性化網頁框架,在此基礎上按需添加功能模塊。快速建站系統在數據倉儲管理方面,采用高速內存技術結合先進的倒排索引技術,支持海量數據的高并發、快速搜索服務;該搜索服務采用全新展示模式,只需輸入一次檢索詞,便可一次性搜索出在各欄目下、不同檢索點、不同數據倉儲庫以及各特征聚類點的檢索結果集,只需在檢索結果界面上點擊,便可即時切換查閱各組合檢索結果集,真正實現快捷、高效、一站式搜索服務。

(6)資源訪問監控服務。

資源訪問監控服務可以有效監控用戶的網頁、數字資源訪問行為。對惡意下載等情況進行報警、追查封死IP等。可以按照多種方式對數字資源(網頁)訪問情況進行統計分析、自動生成統計報告。基于對用戶訪問行為[11-12]的記錄和挖掘,可以進一步實現知識挖掘等服務。

(7)學術直通車服務。

基于數字資源倉儲管理服務系統,為了能更好地為用戶提供個性化服務[13-14],開發了專門的個人桌面服務客戶端(學術直通車)。學術直通車集成了用戶統一認證功能、訪問代理服務功能、單點登錄功能、跨庫檢索功能、數字資源倉儲發布網頁瀏覽功能。利用該客戶端,可以有效實現數字資源的跨區域訪問。

3.2前臺功能實現

資源檢索提供輸入框,只需輸入檢索詞,在搜索框下列舉整合數據庫中的檢索結果。比如“軍事期刊(26692)”表示在軍事期刊中所有檢索點中的命中數為26 692條。只需點擊數據庫,系統自動定位到該數據庫的檢索結果集。中心部分顯示了所選數據庫的檢索結果。如圖2所示,在該庫所有檢索點中共計命中26 692條,在所有整合數據庫的所有檢索點中共計命中32 088條。而搜索耗時小于0.01 s。

3.3后臺管理

倉儲服務器實現海量數字資源的倉儲化管理。倉儲管理工具實現對倉儲服務器的管理應用。主要功能包括:

(1)物理數據庫管理:新建、克隆、修改、刪除后臺數據庫;對數據庫進行預處理、索引、清除記錄等操作;對數據庫記錄進行瀏覽查看、檢索、增刪改等操作;對數據庫進行發布設置等。

(2)虛擬數據庫管理:新建、刪除虛擬數據庫;設置、修改虛擬庫提取條件,單個或批量進行數據提取、預處理、索引操作;人工對虛擬庫所提取記錄進行增刪等操作。

(3)數據導入工具。針對不同來源的數據提供相應的導入工具。

倉儲管理工具如圖3所示。

圖2 數據庫檢索結果

圖3 倉儲管理工具

3.4運行試用

目前基于Hubble.net的倉儲系統已推廣試用。系統采用的硬件環境:DellR710,CPU為6520*2,內存為8*8 G,硬盤為2TSAS *6。軟件環境:Win2008 R2。開發平臺:基于微軟的.Net 4.0平臺開發而成,開發語言為C#。

經測試,系統搜索性能優異,數據量在3億多條的情況下,搜索速度為0.3 s,并發連接超過一千時,速度稍微下降。系統在推廣使用中,學校讀者整體反映良好,操作使用方便,在進行信息保障服務時,節省了廣大讀者查閱文獻信息資源的時間,提高了查檢信息資源的效率。

4 結束語

系統開發實現對文獻資源元數據級的統一整合,形成統一的整合資源庫;以此為基礎,為讀者提供統一入口的服務。基于統一的整合資源庫,可以快速方便地從圖書、論文、期刊、報紙、多媒體等多種形式的數據中,按照關鍵詞、分類法及來源等抽取出相關數據,形成全方位的專題資源庫,打破了以往需要到各處找數據再一條條錄入的局面。這使得快速滿足學科教學、讀者學習成為現實。初期運行情況表明,該系統具有較強的穩定性和實用性,受到了廣大用戶的肯定。今后,將對用戶行為與倉儲整合資源進行關聯研究,以提高用戶服務質量。

[1] 趙 英.搜索引擎Hubble.Net的機制分析及基礎應用[J].裝備制造技術,2011(12):53-56.

[2] 郎小偉,王申康.基于Lucene的全文檢索系統研究與開發[J].計算機工程,2006,32(4):94-96.

[3] 孫西全,馬瑞芳,李燕靈.基于Lucene的信息檢索的研究與應用[J].情報理論與實踐,2006,29(1):125-128.

[4] A Pache Lucene6.2.1[EB/OL].2016-09-20.http://www.apache.org/dyn/closer.lua/lucene/java/6.2.

[5] 霍 林,黃俊文,潘英花,等.大規模分布式資源搜索技術研究進展[J].計算機應用研究,2010,27(11):4006-4009.

[6] 周滿英,任樹懷.圖書館用戶體驗案例研究—以麻省理工學院圖書館實踐為例[J].圖書館論壇,2012,32(6):49-52.

[7] 包 凌,蔣 穎.圖書館統一資源發現系統的比較研究[J].情報資料工作,2012,33(5):68-73.

[8] 陳定權,盧玉紅,楊 敏.圖書館資源發現系統的現狀與趨勢[J].圖書情報工作,2012,56(7):44-48.

[9] 李學勇,歐陽柳波,李國徽,等.搜索引擎中網絡蜘蛛搜索策略比較研究[J].計算技術與自動化,2003,22(4):63-67.

[10] 曹元大,賀海軍,涂哲明.中文Web文檔全文檢索系統的設計及實現[J].北京理工大學學報,2002,22(1):68-71.

[11] Miller G A.WordNet:a lexical databas for english[J].Communications of the ACM,1995,38(11):39-41.

[12] Voorhees E M.Query expansion using lexical-semantic relations[C]//Proceedings of 17th annual ACM SIGIR conference on research and development in information retrieval.[s.l.]:ACM,1994:61-69.

[13] 鄭 煒,梁戰平,梁 建.面向用戶意圖的智能搜索引擎框架研究[J].現代圖書情報技術,2014(3):65-72.

[14] Massimo P,Takahiro K,Terry P R,et al.Semantic matching of web services capabilities[C]//First international semantic web conference.Sardinia,Italy:[s.n.],2002:333-347.

DesignandImplementationofMassiveDataStorageServiceSystemBasedonHubble.net

YANG Wei-chao,MA Zeng-jun,GENG Wei

(Library,PLA Information Engineering University,Zhengzhou 450001,China)

The rapid development of science and technology and emergence of various types of knowledge and information on the outbreak of growth have brought a huge impact on classification of discipline in universities and colleges.As a comprehensive safeguard center of the school literature,the library faces the severe challenge of knowledge explosion.Therefore,in reference of latest search engine technology,the storage resource service system based on Hubble.net integrated with library resources in accordance with the characteristic of digital resource storage is designed and implemented to construct a database system for readers.The built-in Web services capabilities have been employed the internal library of electronic information and document resources fully have been utilized.The operation status shows that it has met the needs of the users to get the knowledge rapidly with higher stability and practicability and has provided the library users with high quality service more conveniently and efficiently.

Hubble.net;search engine;storage management;mass data

TP311

A

1673-629X(2017)10-0181-04

2016-04-11

2016-08-04 < class="emphasis_bold">網絡出版時間

時間:2017-07-11

河南省科技攻關項目(132102210244)

楊偉超(1980-),男,碩士,館員,研究方向為信息技術、數據庫。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170711.1452.012.html

10.3969/j.issn.1673-629X.2017.10.038

猜你喜歡
搜索引擎數據庫圖書館
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
數據庫
財經(2017年2期)2017-03-10 14:35:35
飛躍圖書館
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
圖書館里的是是非非
基于Nutch的醫療搜索引擎的研究與開發
去圖書館
主站蜘蛛池模板: 国产美女无遮挡免费视频网站| 亚洲成人黄色网址| 国产亚洲高清在线精品99| 在线a网站| 久久婷婷国产综合尤物精品| 福利在线不卡| 亚洲综合极品香蕉久久网| 成人毛片免费在线观看| 激情乱人伦| 人妻丰满熟妇啪啪| 亚洲人成网18禁| 亚洲欧美天堂网| 亚洲国产天堂在线观看| 日韩在线成年视频人网站观看| 91精品啪在线观看国产60岁| 色综合中文字幕| 国产伦精品一区二区三区视频优播 | 国产精品自在在线午夜| 国产精品久久久久久影院| 日本一区二区不卡视频| 黄色网址免费在线| 中文字幕无码制服中字| 人妻中文久热无码丝袜| 一本大道视频精品人妻| 国产亚洲视频播放9000| 日韩无码黄色| 日本亚洲欧美在线| 久久综合伊人77777| 欧美特级AAAAAA视频免费观看| 人妻丰满熟妇AV无码区| 国产成熟女人性满足视频| 在线观看免费人成视频色快速| 超碰免费91| m男亚洲一区中文字幕| 91麻豆精品国产高清在线| 国产精品部在线观看| 欧美天堂在线| 国产无码制服丝袜| 国产成人免费高清AⅤ| 香蕉视频在线精品| 亚洲女人在线| 国内精品视频区在线2021| 久久夜色精品| 91久久精品日日躁夜夜躁欧美| 亚洲swag精品自拍一区| 99久久亚洲综合精品TS| 婷婷综合缴情亚洲五月伊| www.日韩三级| 91精品国产综合久久香蕉922| 国产一区二区三区在线无码| 18禁色诱爆乳网站| 免费A级毛片无码免费视频| 黄色国产在线| 伊伊人成亚洲综合人网7777| 精品久久综合1区2区3区激情| 幺女国产一级毛片| 搞黄网站免费观看| 成人一级免费视频| 久久伊人操| 国产精品漂亮美女在线观看| 亚洲精品午夜天堂网页| 好久久免费视频高清| 国产自在线播放| 亚洲欧美另类中文字幕| 成人午夜精品一级毛片| 国产精品久久自在自2021| 欧美综合区自拍亚洲综合绿色| 国产内射一区亚洲| 中文字幕亚洲精品2页| 少妇露出福利视频| 粉嫩国产白浆在线观看| 国产精品美女免费视频大全 | 爽爽影院十八禁在线观看| 国产精品美女自慰喷水| 日韩a级毛片| 久久人妻xunleige无码| 国产精品无码久久久久久| 久草国产在线观看| 亚洲大尺码专区影院| 狠狠色狠狠色综合久久第一次| 国产h视频在线观看视频| 亚洲色图另类|