布艷艷
(西安科技大學高新學院圖書館,陜西西安 710109)
圖書館已趨于數字化,圖書館將眾多高科技應用于信息資源中,實現信息資源的管理[1-3]。數字圖書館存在檢索信息與用戶所輸入檢索詞相關度較低,無法滿足用戶需求的缺陷[4-5]。以往圖書館信息檢索模型僅將關鍵詞作為搜索的主要元素,未考慮文獻間的關聯,無法體現檢索信息間的語義關系,導致查詢結果具有較高的誤檢率以及漏檢率。程煜華等人研究基于D-S 證據理論的信息檢索模型[6-7],利用D-S 證據理論建立信息檢索模型,存在檢索信息相關性較差的缺陷;李莉研究基于多Agent 技術的數字圖書館個性化信息服務檢索模型,可有效提升檢索精度,但檢索實時性較差[8-10]。
人工智能技術包含機器學習、自然語言處理與自動化、機器視覺、語義網、貝葉斯網絡等,為了提高圖書館信息檢索正確率,提出了基于人工智能技術的圖書館信息檢索模型,為圖書館信息實時檢索提供理論依據。
基于人工智能技術的語義網建立圖書館信息檢索模型,如圖1 所示。從圖1 可以看出,所建立圖書館信息檢索模型包括用戶請求模塊、信息檢索處理模塊以及資源庫3 部分。用戶輸入關鍵詞或語句等查詢請求后發送至信息檢索模塊,資源庫利用圖書館信息資源通過標準化以及規劃化表達方式和工作步驟創建本體,信息檢索處理模塊選取貝葉斯網絡作為推理機,通過語義邏輯推理、語義抽取以及語義查詢處理用戶所輸入關鍵詞或語句,獲取邏輯表達式,從知識庫中尋找理想結果,將檢索結果排序后輸出結果至用戶界面。

圖1 圖書館信息檢索模型
通過語義網處理海量圖書館信息資源,獲取理想的信息檢索結果。利用語義網的概念檢索技術及資源標注技術與語義字典等工具結合,建立可體現圖書館信息資源領域知識的領域本體模型。建立領域本體模型過程中需充分利用領域專家的經驗及知識來獲取該領域內詞匯,依據形式化模式獲取不同詞匯關系的具體定義,所獲取領域本體可實現資源庫內文檔的標引[11-12]。利用本體更新器依據資源庫內信息變化擴展領域本體,更新器可依據網絡信息更新本體知識,并將不需要的知識進行實時刪除以及修改。
通過標準化以及規范化表達方式和工作步驟建立模型本體,依據待建立本體的層次、原則、用途、評價標準選取建立本體所需的描述語言和建立模式[13]。選取中國圖書分類法構建圖書館信息檢索模型知識本體,利用OWL 語言作為建立本體的描述語言,OWL 語言是語義互聯網內的本體描述語言標準,利用斯坦福大學開發的本體開發工具Protégé軟件建立本體,本體開發過程以及生命周期如圖2 所示。利用領域專家輔助建立包括本體目的、范圍、實現本體形式化程度的規格說明書,利用中國圖書分類法獲取不同信息間的關聯知識,利用不同信息資源關聯知識建立概念模型,通過識別領域詞匯表呈現問題,并提出相應解決方案,實現模型本體創建。

圖2 本體開發以及生命周期
1.3.1 擴展貝葉斯網絡
選取雙術語層體現術語節點內的關聯。設R與Ri分別表示原始術語層以及術語節點,將存在于原始術語層R內的全部術語節點Ri復制,所獲取的術語節點用來建立新術語層,用R′表示。不同層次內術語節點間弧的指向用基于本體關聯的術語節點間聯系獲取[14],其過程如下:

1.3.2 概率估計
設為隨機存在的根術語節點,需明確與該根術語節點相關的邊緣概率,設給定集合內全部術語節點的概率相同,可得根術語節點相關邊緣概率為:

式中,M表示集合內術語節點總數。
根術語節點不相關概率公式如下:

貝葉斯網絡內節點的父節點決定隨機非根節點的概率,設Ri為集合內隨機非根術語節點,pa(Ri)內各術語變量相關與不相關取值組合也用pa(Ri)表示,以此得到一般正則模型概率函數,計算公式如下:

其中,vij表示術語影響術語Ri的權重。
當術語Ri存在眾多父節點時,可得權重vij為:

其中,η與Srd分別表示調節參數以及術語節點集合內術語本體關聯度之和。
術語本體關聯度之和的最大值為:

術語相關詞對術語影響之和小于術語對自身的影響[15-16],當i=j,0.5 ≤η≤1.0 時,表現明顯。
設Bj表示集合內存在的文檔,得其條件概率為:

其中,pa(Bj)與wij分別表示pa(Bj)內各術語變量相關以及不相關取值的組合以及文檔Bj的索引術語Rj的權重。以上公式需滿足wij≥0(?i,j),。當ri∈pa(Bj)時,表示pa(Bj)內相關術語權重之和。
Bj的相關概率值在pa(Bj)內相關術語越多時越高。選取TF-IDF 算法計算wij,如式(7)所示:

其中,γ為時的規格化常數,且滿足?Bj∈B,rfij與ibfi分別表示術語頻度以及倒排文檔頻度。
1.3.3 推理與檢索
設Q為用戶查詢以及提交的信息,相關度P(Bj|Q)表示查詢Q時獲取文檔Bj的條件概率,獲取相關度步驟如下:
1)屬于Q術語的邊緣概率在用戶提交查詢信息Q時,被實例化。當∈Q以及?Q時,分別獲取結果為。
2)依據以下公式獲取隨機術語Ri在術語層R內的后驗概率:

3)通過以下公式計算查詢信息Q與文檔Bj間相關度P(Bj|Q),即文檔Bj最終后驗概率:

所獲取與查詢信息Q相關度最高的文檔Bj即為與用戶所查詢信息最相關文檔,即用戶所需文檔,通過以上過程實現圖書館信息檢索。
選取Cornell 大學的SMART 11.0 系統測試文中所建立模型檢索信息的有效性,該系統是利用向量空間模型建立的信息檢索仿真系統,通過該系統可評價不同模型索引以及檢索功能,是研究信息檢索功能的實用平臺。選取常用于信息檢索測試的citeseer 圖書館科學標準數據集作為實驗樣本,該樣本包含2 564 篇文檔、6 854 個術語索引項、10 854 個詞以及56 個查詢。數據集內包含數據挖掘、人工智能、科學計算、地理等眾多領域內容,選取大數據分析、模式識別、支持向量機、圖像特征、神經網絡、電磁波衰減作為測試詞語。
測試圖書館信息檢索模型檢索性能的指標眾多,選取檢索相關度、檢索精度、查全率、查準率、查全率/查準率曲線作為模型檢索性能測試指標。用Q與R分別表示用戶查詢信息以及相關文檔集,|R|與A分別表示集合內文檔數量以及檢索后返回的文檔集合,|A|與|Ra|分別表示文檔集合的總數量以及文檔集合R與文檔集合A內存在相同文檔的數量,可得查全率B以及查準率C,公式如下:

查準率/查全率曲線是指查全率以及查準率分別為橫軸以及縱軸時所獲取的曲線。檢索精度是指實際檢索相關文檔數與全部檢索獲取文檔總數之比。
輸入測試詞語時,統計所獲取檢索結果與測試詞語相關度,并將該文模型與D-S 證據理論模型(參考文獻[6])以及多Agent 模型(參考文獻[7])對比,統計結果如圖3 所示。通過圖3 測試結果可以看出,采用該文模型檢索信息所獲取文檔的相關度明顯高于采用D-S 證據理論模型以及多Agent 模型檢索信息所獲取文檔的相關度,有效說明采用該文模型檢索所獲取結果與測試詞語相關度較高,具有較高的檢索性能。

圖3 檢索相關度對比
統計不同模型檢索測試詞語的檢索精度,對比結果如圖4 所示。通過圖4 測試結果可以看出,采用文中模型檢索測試詞語的檢索精度明顯高于采用D-S 證據理論模型以及多Agent 模型檢索精度,文中模型的檢索精度高達99%以上,有效驗證了文中模型具有較高的檢索精度。

圖4 檢索精度對比
統計不同模型檢索測試詞語的查全率,對比結果如圖5 所示。由圖5 測試結果可以看出,輸入不同測試詞語后該文模型檢索的查全率明顯高于D-S 證據理論模型以及多Agent 模型,驗證了該文模型具有較高的查全性能。

圖5 不同模型查全率對比
統計不同模型檢索測試詞語的查準率,對比結果如圖6 所示。由圖6 測試結果可以看出,采用該文模型檢索測試詞語獲取的查準率明顯高于D-S證據理論模型以及多Agent 模型,有效說明了采用該文模型檢索測試詞語的準確性高于另兩種模型。

圖6 不同模型查準率對比
依據以上測試結果繪制不同模型的查全率/查準率曲線圖,如圖7 所示。由圖7 測試結果可以看出,當查全率為10%以及20%時,3 種模型查準率相差較小,主要原因是查全率較低時,3 種模型可檢索文檔數量較少,所檢索文檔相關度較高,因此查準率相差不大。隨著查全率不斷提升,該文模型的查全率明顯高于另兩種模型,所檢索文檔數量也高于另兩種模型,因此具有較高的查準率。

圖7 查全率/查準率曲線
查全率、查準率以及檢索精度是檢測信息檢索性能的重要指標,從以上測試結果可以看出,該文模型不僅具有較高的檢索精度,且檢索不同測試詞語所獲取的查全率以及查準率均明顯高于另兩種模型,有效驗證了該文模型具有優越的檢索性能。
大數據背景下圖書館信息檢索需求有所提升,將人工智能技術應用于圖書館信息檢索中具有較高的應用性。人工智能技術可符合用戶信息采集需求,提升圖書館信息檢索效率,推動數字化圖書館的不斷進步及穩定發展。圖書館作為用戶提供信息服務的載體,需充分考慮用戶需求,知識化以及智能化集成數字信息資源和服務是數字化圖書館的重要發展方向。文中所采用的語義網技術可通過語義層次實現用戶的信息檢索需求,為數字圖書館智能化發展提供理論基礎。