谷參


摘 要: 針對目前普遍采用的基于單式中心服務的信息檢索搜索時間長、不準確等缺點,結合數據挖掘、數據庫管理等技術,在B/S模式和C/S模式的基礎上開發基于P2P平臺的分布式結構數字圖書館信息檢索系統,完善和優化了圖書館信息檢索的功能,實現了高效、實用、方便、快捷的圖書館信息服務,為用戶提供了更好的圖書館服務體驗。
關鍵詞: 分布式結構; 數字圖書館; B/S模式; C/S模式; P2P; 信息檢索服務
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2017)01?0083?03
Abstract: Since the commonly?used information retrieval system based on simplex center service has the shortages of long time and low accuracy for information retrieval search, in combination the technologies of data mining and database management, the distributed digital library information retrieval system based on P2P platform was developed on the basis of B/S mode and C/S mode. The system improved and optimized the library information retrieval function, realized the efficient, practical, convenient and quick library information service, and provides a better library service experience for users.
Keywords: distributed structure; digital library; B/S mode; C/S mode; P2P; information retrieval service
0 引 言
在當今信息技術快速發展的環境下,圖書館已經由傳統的人工紙質化狀態進入數字信息時代,傳統的信息檢索系統已經不能滿足人們對圖書館的服務要求,對信息的搜索效率已經成為衡量數字化圖書館先進與否的關鍵因素。信息檢索中最早出現的是集中搜索模式[1],它由一個服務中心集中收集處理信息并將信息反饋給各個子搜索中心。這種單一的搜索系統容易出現交通阻塞、信息滯后繼而出現系統崩盤等隱患,穩定性和安全性極低[1]。分布式搜索模式的出現克服了以上缺點,圖書館的信息檢索系統利用分布式信息搜索模式實現了圖書信息檢索的高效智能化。
2004年,第一個基于P2P架構的數字圖書館系統在英國的蘭開斯特大學由Walkerdine等人設置完成[1];2004年Haase等聯合開發了Bibster系統;2005年美國麻省理工學院的Jcremy等設計并開發了一種基于DHT的分布式合作數字圖書館系統OverCite[1];Hao Ding在數字圖書館環境中基于P2P結構創建了數據搜索模型算法[2];德國馬克斯·普朗克信息學研究所的Matthias Bender等人首次將信息檢索技術與P2P技術結合實現了對數字圖書館信息的檢索功能,以上對數字圖書館搜索系統的設置都有一定的進步與改善,但也存在著擴展性差、搜索擁堵、運行維護成本高等缺點。通過對歷史背景的研究及現狀的評估,本文提出基于P2P技術的分布式圖書館信息檢索系統,此系統避免了傳統的單一搜索模式的弊端,在服務器端與客戶端分別設置B/S模式和C/S模式[3],形成了分布式檢索形式,在此基礎上,將P2P技術加入分布式搜索模式中進行算法優化與改進,使圖書館信息檢索能力大大提高,對圖書館信息智能化的發展具有重大意義。
1 P2P搜索技術
1.1 P2P搜索算法
計算機對等(Peer?to?Peer,P2P)[1]技術是當今信息網絡的一種熱門研究技術,主要對網絡信息資源進行研究。P2P搜索算法可分為結構化搜索和非結構化搜索[4],如圖1所示。結構化算法是指點對點的網絡搜索,網絡結構中的每個點都有確定的ID,因此在進行搜索任務時要將關鍵信息從頭到尾逐一查詢,造成搜索重復冗余、網絡結構龐大刻板;非結構化的網絡布局中每個網點分布隨機在需要時及時加入結構,網點的位置和數目隨著搜索任務的變化而變化,在進行搜索時,指針有策略地對網點進行搜索,同時及時更改搜索路線即算法,因此,非結構化的P2P搜索模式相對靈活簡單,但是容易出現搜索不完全、陷入死循環等[5]。
1.2 P2P搜索模式
P2P搜索模式分為中央索引模式[1]和分布式索引模式。中央索引模式如圖2所示,在進行信息檢索時子端信息只能傳輸到中央網點,再由中央網點進行下一級信息傳遞,這樣的傳輸模式共享性差,資源利用率低;分布式索引模式如圖3所示,其中沒有中央服務器,每個網點具有相同的功能與職責,他們之間可以自由進行信息傳輸(只要線路存在),當某個網點進行搜索時會向周邊網點傳遞信息,周邊網點會將此信息向外擴張,直到完成信息的整個檢索[6]。分布式索引避開了集中索引模式的許多弊端,使整個系統靈活快捷,但是這種模式占用太多內存,容易出現擁堵狀況,因此可以將集中式與分布式結合實現混合P2P搜索模式。
2 基于P2P的數字圖書館分布式搜索系統分析
如今,人們處于多元化社會,出現了諸多一詞多義、模糊詞語、一語多關的現象,傳統基于集中式的搜索模式已經不能滿足人們搜索目標的要求,因此引入P2P分布式搜索模式系統[7],在原有基礎上,進一步將語義進行肢解與關聯,達到準確快速搜索的目的。
2.1 分布式搜索系統結構模型及關系
基于P2P的數字圖書館分布式搜索系統結構模型分為分層搜索節點模式和數據資源模式,此結構模式首先對信息進行查詢服務,對用戶輸入信息進行判斷,如果信息符合驗證將進行查詢解析,同時相對應的數據資源將對信息進行注冊驗證查詢[8],然后在數據資源庫中進行搜索,最后將搜索結果進行傳輸,呈現在用戶查詢結果頁面,結構模型示意圖如圖4所示,服務器之間的關系如圖5所示。
2.2 文件共享與分布式搜索流程
文件共享[1]是指根據用戶提供的信息,在網路節點之間進行信息交流與傳遞,對文件進行詳細解剖,根據文件的具體內容與特征分配不同的網點進行處理與承接反饋[9];文件搜索與文件共享類似,首先由用戶輸入信息發出搜索請求,請求的指令傳輸到網絡拓撲結構中,由具體網點進行接收,然后判斷處理搜索內容,對內容進行解析,進入下一環節。圖6,圖7分別為信息共享流程圖和分布式搜索流程圖。
3 B/S模式和C/S模式和數據庫分析
服務器的B/S模式可以完成對查詢信息的訪問,主要是完成瀏覽器與服務器之間的連接;C/S模式可以完成對輸入信息的訪問,主要是完成客戶端與服務器的連接。B/S模式和C/S模式的采用可以合理分工信息流傳處理過程,使要查詢的檢索信息按照預定的通道傳輸,不會出現差錯與混亂[10],采用B/S模式,可以將要查詢的信息通過服務器完成,只需要將用戶輸入的信息加載到瀏覽器的系統中就能實現搜索功能,大大減輕了服務器的負荷;采用C/S模式可以將服務器要完成的任務交于客戶端進行,減輕了服務器的擁堵狀況,使整個道路暢通。系統總體模型圖如圖8所示。
來自客戶端和服務端的數據需要經過數據庫進行收集整合,數據庫一方面從服務器端獲取數據,一方面從客戶端獲取客戶錄入的數據,將雙方數據進行資格認證,將查詢內容準確無誤地傳輸給用戶[11],數據流程圖如圖9所示。
4 結 論
基于集中搜索模式的圖書館搜索系統已經不能適應當今時代的需求,分布式搜索模式能夠有效地解決集中式系統搜索效率低、內存占用大、系統易崩潰等缺點,為圖書館搜索服務提供更好的技術支持。本文提出的基于分布式的搜索系統加入了P2P技術,解決的問題主要體現在:
(1) 本文在圖書館數據庫管理系統中加入B/S模式和C/S模式,使得信息查詢和結果反饋流程規范簡化,減輕了服務器與客戶端的負荷,使得信息在客戶端輸入時不會產生信息阻塞,這樣輸入的信息不會對后續搜索產生影響,在服務器端將要搜索的信息直接傳遞給瀏覽器,不僅使服務器的負荷減輕還使得信息搜索更加廣泛,搜索的結果更加多樣化,結果更加準確。
(2) 本文在分布式的搜索系統中加入了P2P技術,詳細分析了P2P的搜索結構模式和搜索流程,P2P使得分布式搜索模式更加有效,降低了分布式搜索模式的搜索風險,通過對關鍵詞和特征詞的具體剖析,提高了搜索的準確率,適應了當代詞義的變化,給用戶提供更多的選擇。
(3) 采用混合P2P模式,成功地避免了單一搜索模式的諸多弊端,改善了搜索查詢機制性能,使得搜索模式具有更大的擴展性,搜索更加全面高效。在加入P2P的搜索模式中,搜索語言更加多元化,算法得到了改進,與數據挖掘等技術可以有效結合。能夠形成更強大的搜搜引擎。
參考文獻
[1] 馬率廣.基于P2P的數字圖書館分布式搜索引擎研究[D].秦皇島:燕山大學,2007.
[2] 王哲.數據挖掘技術在高校圖書館個性化服務中的應用研究[D].重慶:重慶大學,2012.
[3] 譚鑫鑫.分布式圖書館信息檢索與引導服務系統[D].長沙:湖南大學,2012.
[4] 秦健.基于信息可視化與數據挖掘的高校圖書館推薦系統的設計與實現[D].北京:北京交通大學,2014.
[5] 趙捧未,馬亭,竇永香.基于P2P和Web Service的數字圖書館資源共享框架研究[J].信息資源管理學報,2011(2):55?58.
[6] 張麗君.圖書館信息資源知識管理模式構建[J].圖書與情報,2010(6):134?136.
[7] 蔡學森.基于B/S的學生成績管理系統[D].長春:吉林大學,2008.
[8] 沈濟南,梁芳.基于C/S與B/S混合模式的學生成績管理系統設計與實現[J].牡丹江師范學院學報(自然科學版),2006(4):18?19.
[9] 張瑤,陳維斌,傅順開.基于大數據的高校圖書館推薦系統仿真研究[J].計算機工程與設計,2013(7):2533?2541.
[10] 張路路.基于數據挖掘的高校圖書館藏推薦系統模型研究[D].淄博:山東理工大學,2012.
[11] 王斌.數據挖掘在高校圖書館服務中的應用研究[D].西安:西安理工大學,2010.