孫海蒂 閻靜輝 陳 冉
(海軍大連艦艇學院圖書館 遼寧大連 116001)
高校圖書館為高校教學、科研提供服務保障,信息檢索是圖書館的核心服務之一。當前,傳統檢索系統不能很好滿足讀者的個性化檢索需求、無法分析隱藏信息;而智能化信息檢索系統,則引入了現代人工智能的技術與方法,使之具有聯想、比較、判斷、推理、學習等能力,能夠提高檢索的深度和效率,更好地滿足讀者需求。如何快速準確高效地從海量的圖書館信息資源中獲取所需信息,是當前研究的熱點。本文研究基于代理技術、自然語言處理的圖書館智能化信息檢索系統,為讀者及時、有效地獲取所需要的資源,提供有效方式。
(一)高校圖書館傳統檢索工具存在的問題。高校圖書館傳統檢索工具諸如CNKI等這些數據庫檢索系統,面臨著嚴峻的挑戰,功能的單一已越來越不能滿足讀者日益增長的個性化檢索需求。
1.基于關鍵詞及關鍵詞組配的檢索方式功能滯后。關鍵詞及關鍵詞組配無法表達讀者的檢索需求,關鍵詞所表達的內容比較寬泛,導致查全率、查準率低,需要讀者進行篩選。
2.無法適應讀者興趣變化的需要。讀者檢索時有其特定的興趣和背景,而現有大部分信息檢索系統對任何讀者都是一種模式,很容易讓讀者感到迷茫,使得讀者無法準確地表達自己的興趣。
3.檢索系統對文本處理能力不夠。傳統檢索系統對文本的處理僅僅局限于關鍵詞匹配及文獻分類,無法進行對文本的自然語言處理,無法揭示文獻的特征,無法挖掘文本內在的和潛在的信息與知識。
4.檢索算法缺乏智能性。傳統檢索系統采用的相關度匹配策略具有一定局限性,沒能支持推理檢索技術。
(二)高校圖書館智能化信息檢索系統的優點。高校圖書館信息檢索系統的智能化、個性化、主動化,實際是相輔相成的整體趨勢,智能化、個性化、主動化服務需要智能技術的支持,智能化涵蓋了個性化的內涵,個性化也拓寬了智能化的外延。因此我們所研究的智能化檢索系統是集多種發展趨勢于一體的服務體系。[1]一個較成熟的智能化信息檢索系統一般具備以下幾種能力。
1.大規模的知識庫是智能信息檢索系統的基礎,它有一個強大的推理系統支持,能夠處理自然語言文本,它利用知識庫的有關知識進行語法、語義分析,從內容上真正理解并準確描述所檢索的主題。
2.能夠通過一系列智能程序實現系統與用戶的交流,了解讀者的背景,掌握讀者興趣的變化,跟蹤讀者的需求過程,實現不同讀者、不同背景、不同興趣的同一檢索詞或檢索時的不同信息供給,提高讀者檢索的效率和準確率。
3.有良好的反饋機制,能及時有效地和讀者溝通,確定適合讀者的檢索策略,并通過對檢索結果反饋的分析,根據讀者的興趣點,更準確地提供檢索服務,提高效率和準確性。并將有效信息及時更新相關知識庫。
4.有較好的機器學習能力,對讀者提交的樣本能進行學習,進行分析、信息提取、歸納總結,及時了解用戶的需求與興趣,更新讀者興趣庫,把讀者特征和檢索信息匹配起來,為下一步的搜索提供較準確的信息。
5.能根據讀者需求提供主動推送服務,對讀者的檢索需求能跟蹤信息源的變化,及時將最新的信息提供給讀者。
6.對數據和文本應有挖掘能力,能挖掘文本中潛在的知識,解釋文本的深刻內涵,并將這些分析結果以知識形態存放于知識庫中,使檢索結果成為讀者可以直接加以利用的信息,提高信息檢索的準確性和全面性,進而提高信息檢索的服務深度。
(一)高校圖書館智能化信息檢索系統層次結構。高校圖書館智能化信息檢索系統的實現需要功能不同又相互支撐的功能層來共同協作完成,這些功能層可以完成檢索的智能化需求。一個功能完善的智能化信息檢索系統的功能結構大體可以分為四個層次:知識生成層、智能接口層、智能代理層和智能搜索層。
1.知識生成層。知識生成層是智能化信息檢索系統的基礎和核心,是信息檢索系統實現智能化的關鍵所在。知識生成層直接決定了其他各層功能實現的水平。知識生成層的形成與增長就如同人腦知識的增長,也處于一種自增長自循環的狀態,它的豐富程度決定著檢索程度的高低。
2.智能接口層。智能接口層是系統與讀者之間交流的橋梁,是智能信息檢索系統的首要功能,可以實現友好的“人機交互”;[2]能對讀者的自然語言進行處理和查詢、對檢索過程進行全面的跟蹤和反饋、對檢索結果的智能輸出以及對知識庫的操作等。
智能接口層是讀者與檢索系統的友好交互,自然語言的提問和反饋是交互的基礎,只有深刻理解了讀者的檢索意圖與檢索要求,才能使檢索系統更好地履行職責,為讀者提供高質量的服務。智能接口層同時又是知識生成層的建立與維護的通道,知識庫是一個動態的、不斷完善的知識表示和描述,需要專家對其進行補充和完善,良好的通道有助于專家與系統的交流。
3.智能代理層。智能代理層是基于多代理的智能體,是一個程序組,[3]用以實現檢索系統對讀者興趣變化的跟蹤、讀者提交樣本的學習、對檢索結果的過濾與反饋以及提供信息推送服務等功能,是讀者提問與信息搜索的中間過程,是提高信息檢索的準確性、快捷性、針對性和主動性的重要保障,使檢索系統真正做到在檢索過程中有的放矢,大大提高了檢索效率。
4.智能搜索層。智能搜索層是指其具有從數據集合中搜索特定信息或知識有序整合功能的結構層,是對信息源的搜索過程。[4]傳統意義上的搜索,如數據庫的檢索、搜索引擎的檢索,主要是基于關鍵詞匹配的檢索,以網絡信息檢索為例,網絡信息檢索是指從大量網絡文件的集合中找到與給定的查詢請示相關的、恰當數目的文件子集。
(二)高校圖書館智能化信息檢索系統模型。將智能代理技術運用到信息檢索系統中來,可以使信息檢索系統具有智能化,從而提高其檢索性能。[5]信息檢索系統通過智能代理可以完成學習、過濾、反饋和推送等工作,并結合自然語言處理等技術生成知識庫,從而實現滿足讀者個性化需求的智能檢索功能。
高校圖書館智能化信息檢索系統的智能代理模塊是由系統代理、用戶代理、學習代理、過濾代理、反饋代理和推送代理等模塊組成。
(一)系統代理模塊。系統代理是整個代理模塊的運轉中心,全面負責系統的集成與管理、讀者與系統之間的需求溝通與信息反饋、各代理模塊之間的溝通與協作。系統代理及獨立存在,有滲透于系統的各個模塊之中,是智能系統的大腦與中樞,是實現系統智能化的核心模塊。
(二)用戶代理模塊。讀者把檢索需求傳遞給用戶代理模塊,用戶代理模塊再根據讀者的指令來收集信息并協調系統完成檢索任務。它能根據讀者的需求變化,來領會讀者的檢索意圖,負責生成讀者興趣庫并更新數據庫,是實現個性化檢索的重要手段。用戶代理與讀者的溝通是智能化的、個性化的,溝通的程度決定著系統檢索的深度與廣度。
(三)學習代理模塊。系統與讀者溝通的一個重要內容是了解讀者的興趣,其中一個重要手段是讀者向系統提交樣本,學習代理模塊通過樣本進行內容特征分析,以此掌握讀者興趣,進而更新讀者興趣庫,為下一步進行個性化信息搜索與特征匹配做準備。[6]主要過程有特征篩選、特征匹配等,方法有向量空間模型(VSM)法、構造詞條加權評估函數等。
(四)過濾代理模塊。傳統檢索系統的檢索結果已越來越不能精準地滿足讀者的需求,對檢索結果進行多次過濾,就能夠有效解決這個問題,過濾代理模塊能夠過濾掉那些不符合讀者要求的、內容重復的結果,使讀者更快捷、更精準的在眾多檢索結果中找到所需的內容。
(五)反饋代理模塊。讀者在檢索過程中一般不會一次性獲得滿意結果,這就需要系統和讀者之間進行多次的信息溝通和結果反饋,才能更加準確地獲得讀者的需求,通過反饋和再檢查,從而提高檢索效率和檢索準確率。
(六)推送代理模塊。檢索系統的推送代理模塊能夠跟蹤讀者的檢索行為從而提供主動完成服務,并定期更新檢索內容,把檢索結果積累起來,以一定的方式把新的檢索結果推送給用戶。
自然語言處理是知識生成層的技術基礎,是生成知識庫的重要保證。自然語言處理過程主要包括詞法分析、句法分析、語義分信息和語境分析,分析過程要借助于知識庫,[7]包括靜態知識庫和動態知識庫,靜態知識庫屬于知識生成層,是自然語言處理的核心。
(一)詞法分析。詞法分析是指將輸入的字符串序列分解出單詞并確定詞性,也稱關鍵詞預處理。詞法分析主要依靠知識庫和分詞詞典,對自然語言進行切分,如:“我想學習醫學方面的知識”,可通過知識庫和分詞詞典知道“我”“學習”“醫學”“知識”分別為不同的詞組。詞的選取應首先遵循三個規則:一是去掉含有較少語義信息和不能作為特征的詞,如的、了等;二是將短語(詞)提取出來;三是僅選取名詞、動詞等有意義的詞作為特征。
(二)句法分析。句法分析是對讀者檢索時輸入的單詞序列進行分析,根據語法知識庫檢查是否為合法的句子結構,并在此基礎上構造出相應的表示句法關系的句法樹。
(三)語義分析。語義分析是在句法分析的基礎上進行的,是指對各級語言單位(詞、詞組、句子、句群)所包含的意義和在語言使用過程中所產生的意義進行分析。
(四)語境分析。是指根據上下文分析,確定所表達的具體意義。[8]例如“小王打針去了”這句話,我們至少要知道小王是病人還是護士,這就要從上下文中去弄清楚。語境分析的過程就是把分析語境得到的信息存放到一個動態的知識庫中,檢索系統的分析程序參照這個動態知識庫,進行自然語言處理。
當前,國內大部分高校圖書館的信息檢索系統都是通過分類主題目錄與關鍵詞匹配等方式進行檢索,雖然分類主題目錄和關鍵詞匹配的方式比較方便、高效,但也有信息更新不及時、無法了解讀者的實際檢索請求等缺陷,導致圖書館提供的檢索服務個性化程度不夠。隨著讀者個性化需求的不斷增強,能理解自然語言、具有推理能力的智能化信息檢索系統就成為了建設熱點。智能化信息檢索系統能夠有針對性地幫助讀者完成信息服務任務,不斷提升信息檢索效率。本文通過智能化信息檢索系統的層次結構與模型、智能代理模塊功能及自然語言處理的流程與原理這幾個方面,對于高校圖書館智能化信息檢索系統的建設展開了分析,可供參考。