董志娜


摘要:現代數字圖書館作為信息融合中心,是各類信息資源的關鍵載體,如何實現信息高效利用備受關注,并成為現階段極為重要的課題。為此,基于數字圖書館信息檢索的研究日益深入,尤其是為適應用戶多元化信息檢索需求,一種個性化信息檢索服務被提出和應用。結合數字圖書館個性化信息檢索,探討該系統服務的關鍵技術、設計與實現,通過技術闡釋、模塊分析和系統結構等研究,為數字圖書館服務進階提供有益參考。
關鍵詞:數字圖書館;信息檢索;智能Agent技術;信息過濾
一、前言
數字圖書館是時代變革的產物,為適應數字技術發(fā)展和應用特點,數字圖書館改變了傳統信息采集、存儲及服務方式,實現數字圖書館運行的品質化升級,使得信息服務功能愈發(fā)豐富,滿足了各領域對信息資源應用的迫切需求。但數字圖書館信息資源的豐富,除了緩解信息供求矛盾外,也會帶來一定的挑戰(zhàn),即普遍存在的信息檢索問題。目前,數字圖書館的信息檢索方式,普遍是運用常規(guī)的信息檢索引擎,雖然滿足大部分用戶的基礎需求,但在智慧化時代的背景下,始終缺少個性化的服務體驗。為實現數字圖書館信息檢索服務優(yōu)化,個性化信息檢索被廣泛提及,更成為未來推動服務升級的關鍵所在。
二、數字圖書館的個性化信息檢索概述
(一)數字圖書館的發(fā)展
1991年,美國國會圖書館正式提出“數字圖書館”的概念,成為全球數字圖書館發(fā)展的先驅。所謂“數字圖書館”即在數字化時代,利用計算機、網絡等信息技術手段,將實體圖書館的文獻、資料、信息等數字化處理,并通過網絡形式提供給用戶使用的一種新型圖書館[1]。
數字圖書館的發(fā)展歷程中,包括了多個里程碑事件,為數字圖書館的全球發(fā)展奠定了基礎。如1993年,加州大學伯克利分校的Alexandria數字圖書館計劃啟動,標志著數字圖書館正式進入實踐階段。到了1995年,歐洲的數字圖書館Europeana項目啟動,旨在將歐洲各國的文化遺產數字化,提供給全球用戶。2004年,中國國家圖書館也順應時勢,啟動中國數字圖書館建設工程,實現了信息資源的傳播與共享。事實上,數字圖書館極大促進了數字化建設和服務水平,為讀者提供了更加便利、快捷的閱讀體驗,同時也為知識的傳播和文化遺產的保護發(fā)揮了重要的作用。
(二)個性化信息檢索的內涵
個性化信息檢索(Personalized Information Retrieval,簡稱PIR)是指根據用戶的個性化需求和興趣,為用戶提供符合其需求的信息檢索服務[2]。隨著信息技術的發(fā)展和互聯網的普及,信息爆炸現象愈發(fā)嚴重,用戶在海量信息中尋找所需內容變得越來越困難。因此,個性化信息檢索成了信息檢索技術的一個重要方向,旨在為用戶提供更準確、更有用的檢索結果。在此過程中,PIR技術通過對用戶的興趣、歷史檢索記錄、社交網絡等數據進行分析,構建用戶興趣模型,并利用該模型對文檔進行過濾、排序和推薦,以提高用戶獲取信息的效率和準確性。目前,PIR技術依托其技術創(chuàng)新優(yōu)勢,在電子商務、社交網絡、個性化推薦等領域得到廣泛應用,具備極大研究和發(fā)展?jié)摿Α?/p>
三、數字圖書館的個性化信息檢索關鍵技術
(一)智能Agent技術
目前,關于Agent技術的概念頗具爭議,得到普遍認同的觀點由英國Wooldridge博士和Jennings教授所提出,即認為Agent技術屬于一個具有自主性、社會能力、反應性和能動性等性質的計算機系統[3]。綜合智能Agent技術的特點,包括了智能性、代理性、自主性、機動性、合作性等。在數字圖書館的個性化信息檢索中,智能Agent技術屬于其中的關鍵所在,利用Agent技術的基本結構,可以構建起較為靈活的服務網絡。基于智能Agent技術的設備層看,由適配器模塊、引擎模塊、知識模塊、庫模塊、視圖模塊等構成。
智能Agent技術在實際應用中,通常通過分析用戶信息需求,以智能Agent方式啟動檢索程序,基于用戶信息需求分析基礎上,自動與數字圖書館服務器對話,并在Web頁面實施自動檢索、分析和處理,并將所獲取的內容依據用戶習慣進行轉化,再將最終成果向用戶提供。這種服務方式改變了以往的機械化應用,使信息檢索的體驗得到大幅增強。
(二)信息過濾技術
在數字圖書館技術應用中,由于其中涵蓋海量信息資源,為快速縮小信息檢索的范圍,信息過濾技術應用顯得十分必要。實際上,信息過濾技術(Information Filtering,IF)屬于一種人工智能技術,它會根據用戶個性化的信息檢索需求和興趣,從大量信息中篩選出符合用戶需求的信息,對數據進行特征提取,例如抽取關鍵詞、提取文本特征、提取圖像特征等,以便更好地區(qū)分不同的數據類型和內容,以此提高信息檢索的準確性和效率[4]。
目前,為適應數字圖書館個性化信息檢索要求,信息過濾技術摒棄了傳統的檢索模型,開始積極擁抱智能化信息檢索技術,即利用布爾羅邏輯模型、向量空間模型等實施信息檢索,以此滿足不同的信息過濾需求或特點。通常情況下,由于數字圖書館的信息源與用戶需求并不直接互通,導致用戶興趣難以被挖掘,而信息過濾技術可以介于兩者之間完成銜接,即將信息源中的信息過濾給用戶,有效攻克信息過載的現象。
(三)信息推送技術
信息推送技術(Push technology)是一種主動向用戶推送信息的技術。它能夠根據用戶的興趣、歷史行為、位置等信息,自動篩選和推送符合用戶需求的信息,提高信息獲取的效率和便捷性。在數字圖書館個性化信息檢索中,依托其檢索的主動性、新穎性、及時性特點,為用戶提供優(yōu)質的信息推送服務。
具體而言,信息推送技術的核心是信息獲取,當用戶在使用數字圖書館信息檢索服務時,可以依據自己的個性或偏好定制相關內容,服務器對用戶的需求進行存儲與處理,并通過信息推送技術在用戶需要時,及時向用戶推送相關的信息內容,而無需用戶重復登錄數字圖書館頁面,大幅提升了信息檢索的效率,并且所呈現的內容也符合用戶個性,為用戶提供更加精準的信息資源。目前,信息推送技術的推送方式,通常包括頻道式推送、郵件式推送、網頁式推送、專用式推送等,具體由CGI服務器、用戶Aengt和PUSH服務器予以實現[5]。
四、數字圖書館的個性化信息檢索的設計與實現
(一)結構體系
針對數字圖書館個性化信息檢索需求,在技術應用與設計優(yōu)化中,主要將其劃分為四大層次,即用戶、個性化信息檢索模塊、用戶建模模塊、用戶信息收集模塊等,如圖1所示。在該結構中,用戶信息的收集、加工、整理及儲存等功能,通常由用戶信息收集模塊負責,在完成用戶信息采取后針對性建模,形成用戶專屬的用戶模型,以便為用戶提供個性化信息檢索。另外,個性化信息檢索模塊屬于結構中的核心構成,它可以依據用戶的個性化需求,對數字圖書館中多元化信息資源進行處理,并將篩選結合向用戶傳遞[6]。當用戶獲取相關的推送信息后,可以對服務進行相關度評價,系統將對用戶評價進行反饋,并對用戶模型進一步優(yōu)化,從而提升個性化信息檢索的匹配度。
(二)系統模塊
1.用戶信息收集模塊
數字圖書館個性化信息檢索,核心在于對用戶需求及偏好進行收集,以判斷用戶的信息檢索特點。因此,在系統設計中的用戶信息收集模塊,屬于提供個性化服務的基礎單元,通常是實現用戶的量身定制服務,其中對于用戶信息的收集至關重要。
在用戶信息的收集方式上,一般會包括諸多方式:
(1)通過網絡調查收集。以頁面、APP等為基礎平臺,對用戶進行相關需求的調查了解,采取網上問卷、在線調查、征集活動等,全方位采取用戶的相關信息及檢索傾向,更好地了解用戶需求和興趣。
(2)通過系統自動收集用戶信息。在用戶登錄數字圖書館系統過程中,服務器及后臺會實時整理所檢索的數據,并利用數據挖掘技術篩選類似信息。在收集中通常會以網頁關鍵詞、借閱記錄等為主,有效判斷用戶的信息檢索行為。
(3)通過電子郵件收集。在用戶與數字圖書館之間的電子郵件往來中,可以收集用戶的檢索內容,在信息傳遞中及時收集用戶需求,從而分析用戶在一段時間內的信息特點,再結合其他要素進行匹配,制定個性化服務的方案。
2.用戶建模模塊
在有效收集用戶的需求信息后,則應將相關數據交由系統進行處理,針對用戶的實際需求建模,通過技術處理的方式構建個性化服務模型。比如,根據系統所掌握的用戶基礎數據和信息偏好,可以從興趣的維度進行分析,包括用戶在某一段時間對何種信息、哪類圖書、哪類網頁感興趣,再實施數據的綜合處理和分析,以此定義用戶的信息檢索行為,再結合數字圖書館數據資源,對類似信息進行提取和推送。從用戶建模模塊的實現而言,需要從不同的維度進行分析和計算,通常需要涉及兩種比較成熟的方式。
(1)通過調查關鍵詞計算興趣度。根據《數字圖書館現狀與發(fā)展》中對于個性化信息檢索的研究,認為用戶信息檢索關鍵詞與用戶的興趣度具有緊密關聯性,即可以通過定量分析的方式掌握其興趣度[7]。比如,當某用戶在一定時間內所檢索的關鍵詞,會形成不同的信息端點,而利用這類信息端點可以進行區(qū)域連接,所形成的線段及覆蓋的區(qū)域則為用戶的興趣區(qū)域,系統可以根據相關趨勢進行分析計算,判斷檢索詞與內容間的關系,再以此為依據向用戶提供所需內容。
(2)通過訪問時間和頻率計算用戶興趣。在針對用戶的信息檢索興趣分析時,往往會由于用戶訪問的隨意性,使計算產生一定的誤差,但其中也會呈現出某種規(guī)律,如用戶在訪問時會在感興趣的頁面停留更長的時間,或者出現重復訪問的情況,這些均可以作為興趣判斷的依據。在實際分析和計算時,可以按照相應的公式 進行計算,其中,節(jié)點訪問次數用n表示;訪問的總次數以N表示;節(jié)點訪問所消耗的時間以t表示;網頁訪問的總時間以T表示;訪問的節(jié)點數用l表示;網頁的總節(jié)點數用L表示。
從分析與計算的特點來看,其中會受到諸多因素的干擾,如用戶訪問的時間存在差異,以及網頁長度因素變化等,使得系統在用戶需求的分析中,每次興趣度分析均有意義。在計算過程及結果中可發(fā)現,當n、t、l的數據越大,則F數據就越大,表明對用戶興趣度的判斷越準確。
3.個性化信息檢索模塊
所謂個性化信息檢索模塊,即以用戶模型為基礎向用戶提供檢索內容及相應策略的模塊,重點在于實現檢索信息與用戶需求的高度匹配,以完成向用戶提供個性化信息檢索服務的功能。結合個性化信息檢索模塊的特點,可以在數字圖書館信息檢索服務中實現三個方面的功能。
(1)檢索矢量的模式轉換。即以用戶建模模塊所提供的信息為基礎,利用檢索矢量將其信息轉化為適應檢索引擎的檢索提問,用于替代用戶直接檢索的行為。在具體的技術設計及實現中,為適應當前主流的個性化信息檢索模式,仍然采用布爾檢索系統的智能Agengt封裝策略,其優(yōu)勢在于能夠保持良好的穩(wěn)定性和兼容性,并幫助用戶解決繁瑣的檢索過程,也可以提升系統的檢索效率。
(2)聚類用戶所有感興趣的信息。在數字圖書館個性化信息檢索中,為適應用戶信息檢索的需求,可以采取層次式聚類的技術方式,將用戶所感興趣的所有信息進行聚合,為用戶提供離線式的信息檢索服務[8]。具體而言,即采取有效的定時處理機制,對執(zhí)行層的相關信息資源進行更新和存儲,形成一種行之有效的聚類算法,以數字圖書館中的文檔為基礎,通過預處理、詞分類映射的自組織、詞分類映射、文檔編碼、文檔映射的自組織、文檔映射等流程,以實現具體的感興趣信息的聚類工作,從而在海量資源中為用戶提取相應信息。
(三)實現結構
現階段,數字圖書館已經成為一種信息服務新選擇,它具備強大的信息資源服務功能,能夠滿足大部分領域的信息需求。為實現個性化信息檢索功能,必須建立起相對完整的技術結構,突出“以用戶為中心”的技術服務理念,搭建技術服務框架和功能。其中,用戶既是個性化信息檢索的執(zhí)行者,更發(fā)揮著對于信息檢索服務的反饋作用,可以為數字圖書館個性化信息檢索提供客觀建議,以進一步優(yōu)化信息檢索服務的功能。當前,結合數字圖書館的個性化信息檢索特點,已經形成了比較完善的實現結構,總體由客戶端與服務器端進行信息交互,具體實現結構如圖2所示。
根據圖2的實現結構分析,客戶端所承載的功能主要是對用戶以及用戶信息建模分析,使后續(xù)個性化信息檢索得以實現。同時,在服務器端主要是以個性化信息檢索為核心,對所獲取的信息數據加以處理和反饋,保證數據信息收集和應用的準確性,體現出個性化信息檢索的功能特點。但在該實現結構中仍然存在一定的缺點,即由于需要收集大量的用戶信息,并要求實現用戶模型的相互傳輸,這將導致在信息處理過程中出現隱私侵犯風險。基于目前數字圖書館的個性化信息檢索而言,該結構越來越突出合作式的個性化信息檢索,更好地發(fā)揮了服務器實現的優(yōu)勢,其信息安全風險也得到有效控制,具有極強的實用價值。
五、結語
綜上所述,伴隨信息時代發(fā)展進程加速,越來越豐富的新興技術被廣泛應用,在數字圖書館信息資源服務領域,同樣在現代技術的推動下變得愈發(fā)完善。個性化信息檢索作為一種重要功能,旨在通過簡化用戶信息檢索流程,提升用戶數字圖書館應用體驗,因此更需要依賴于創(chuàng)新的理念和全新的技術予以支持。本文通過對數字圖書館個性化信息檢索研究,有效梳理了個性化信息檢索原理和功能,并且能夠在其中挖掘更大價值,即通過服務算法及功能模塊的擴展,使其具備更豐富的個性化服務功能。特別是在當前信息爆炸的時代背景下,數字圖書館應當加強自身技術創(chuàng)新,結合最新的技術優(yōu)勢及創(chuàng)新服務理念,為用戶提供多元化、個性化的信息檢索服務,實現數字圖書館發(fā)展的全面支撐。
參考文獻
[1]呂亞娟.數字圖書館信息檢索技術的智能化發(fā)展趨勢[J].中國科技投資,2022(27):104-106.
[2]吳榮.基于大數據分析技術的數字圖書館信息檢索模型設計[J].數字技術與應用,2021,39(5):121-123.
[3]董蘭軍.“用戶導向”理念下數字圖書館信息檢索服務的優(yōu)化策略[J].山西檔案,2017(3):100-102.
[4]楊屹.數字圖書館中文本信息檢索技術的研究與實現[J].科技創(chuàng)新導報,2020,17(2):243,245.
[5]張小英.Web集成信息檢索在數字圖書館中的應用研究[J].價值工程,2017,36(29):202-204.
[6]黨小琴.基于本體論的數字圖書館信息檢索技術[J].科技通報,2022,38(8):110-113.
[7]張靜,劉璐,馬玉華.數字圖書館信息檢索系統的設計研究[J].科技展望,2017,27(3):8.
[8]張馥郁.論數字圖書館中多媒體信息檢索系統的構建[J].信息記錄材料,2019,20(12):134-135.
作者單位:中共天津市委黨校