劉家材
(武漢職業技術學院 湖北 武漢 430000)
互聯網技術的發展以及網絡技術的興起在極大程度上加速了數字化建設的進程,以此為基礎的線上圖書館在應用方面表現出的便捷性使用戶群體在短時間內實現了大幅增加[1-2]。但是值得注意的是,由于公共圖書館線上數據庫信息的規模較大,且資源之間的關聯關系較為復雜,導致在信息檢索階段的時間開銷較長,用戶檢索結果的滿意度較低[3]。針對該問題,部分學者以線上數據庫信息檢索為目標,展開了對應的研究。其中,蘇珂等[4]提出在對排序學習與預訓練模型進行融合的基礎上,設計了一種檢索排序方法。在一定程度上提高了檢索結果與用戶檢索目標的一致性,用戶的滿意度實現了有效提升。但是其在排序階段的時間開銷較長,難以滿足現階段高效的檢索需求。梁少博等[5]以公共數字文化資源為研究對象,通過聯合實體識別與翻譯機制,實現了信息的跨語言檢索,提高了檢索的執行效率。在一定程度上縮短了對目標信息的檢索時間,但是由于對實體的識別需要借助額外的輔助結構,因此在應用方面存在一定的局限性。結合上述信息檢索的研究情況可以看出,進一步深化對信息檢索方法的研究是十分必要的。
為此,本文提出基于區塊鏈技術的公共圖書館線上數據庫信息檢索方法研究,借助區塊鏈技術的優勢,建立數據庫信息資源之間的關聯關系,確保檢索階段能夠根據輸入的內容在數據庫內實現對目標資源的快速、準確定位。
公共圖書館線上數據庫信息檢索,有利于提高信息數據挖掘效果,為線上數據資源整合提供技術支撐。根據公共圖書館線上數據關聯屬性,將工作量證明機制作為區塊鏈的共識協議,構建信息存儲結構,降低線上資源數據重復搜索概率。采用相似度計算方式,提高公共圖書館線上數據庫信息最終檢索結果的可靠性,以偏差系數為依據得到滿足檢索目標的尋優結果,實現公共圖書館線上資源檢索,有效降低了檢索時間開銷,增強公共圖書館線上數據庫信息交互處理能力。
在信息檢索階段,由于基于公共圖書館線上數據庫中包含的資源規模總量較大,且資源的種類較多,這就導致在以檢索內容為基準在數據庫內匹配目標資源時需要進行大量的重復計算[6-7]。這不僅增加了檢索的時間開銷,同時也降低檢索結果的可靠性。為此,本文首先借助區塊鏈技術構建了具有關聯屬性的信息存儲結構。結合區塊鏈技術的運行機制,本文對公共圖書館線上數據的存儲交易建立在數字簽名驗證的基礎上,并以當前區塊為基準,對數據屬性進行證明,確認滿足要求后,將當前區塊添加到對應區塊鏈的尾部。在具體的設置過程中,本文將工作量證明機制作為區塊鏈的共識協議,對應的公共圖書館線上數據區塊鏈結構如圖1所示。

圖1 區塊鏈技術的數據庫信息結構
按照圖1所示的方式,利用工作量作為區塊加入的判斷標準,以此確保整個數據結構中各個節點信息的共識程度保持一致。當公共圖書館中的任意數據存儲在區塊上時,表明該數據資源與對應的數據鏈中所有區塊節點均有相同的屬性,并且這一屬性具有不可更改和持久的特點[8]。在此基礎上,當數據成功存儲到區塊鏈上后,則對應數據為元數據,也就是具體的公共圖書館資源也存儲到了該區塊鏈。通過圖1中的數據庫信息結構可以看出,本文為區塊鏈上公共圖書館資源構建的標簽包括記錄號、關鍵詞以及數據簽名。通過這樣的方式降低在檢索階段對海量可連接數據重復搜索的問題,利用關鍵詞可以最快速度確定目標信息的檢索范圍。對于數據簽名的設置,本文以公共圖書館資源的特定屬性為基礎,具體的計算方式可以表示為:

其中,k表示數據簽名的設置結果,x表示經過某規則檢索后的屬性參數,Q表示某公共圖書館資源中包含的所有屬性信息。
通過這樣的方式,構建以區塊鏈技術為基礎的公共圖書館線上數據資源庫。通常將數據集(水平劃分)作為一個域,將其元數據作為公共圖書館線上數據庫信息結構,為后續的檢索機制執行提供可靠基礎。
研究人員在完成對公共圖書館線上數據庫信息結構的構建后,為了提高最終檢索結果的可靠性,降低檢索過程的重復操作。本文以檢索內容為基準,與區塊鏈結構下的公共圖書館線上數據庫信息進行相似度計算[9-10]。
假設檢索欄輸入的檢索內容為y1,首先借助工作量證明機制計算與其對應資源鏈,在此基礎上,匹配其與當前區塊的相似度。具體地方計算方式可以表示為:

其中,sim(y1,y2)表示檢索內容與當前區塊y2資源的相似度,d表示區塊鏈結構下數據庫的最大深度參數,x1和x2分別表示y1和y2的經過規則檢索后的屬性參數,dis(x1-x2)表示x1和x2之間的偏差系數。根據式(2)可以看出,dis(x1-x2)的取值結果越小,則資源y2與檢索內容y1的相似度sim(y1,y2)越大。對應資源y2與檢索內容y1的匹配程度越高。也就是說,鏈上信息資源與檢索內容的屬性偏差系數越小,二者之間的擬合度越高,對應資源與檢索目標越接近。結合這一理論基礎,對于目標信息檢索問題就轉換為了對最小dis(x1-x2)的尋優問題。
對于具體的尋優方式,本文設計了如圖2所示的執行方案。

圖2 檢索信息匹配結果尋優方式
如圖2所示,在對檢索信息匹配結果尋優的過程中,本文根據y2資源的記錄號對具體的尋優方向進行控制。當dis(x1-x2)為負值時,則沿數據鏈向前與對應區塊上的資源進行相似度計算;當dis(x1-x2)為正值時,則沿數據鏈向后與對應區塊上的資源進行相似度計算。直至計算結果滿足

將對于區塊上的資源作為最終的檢索結果,輸出的交互頁面。由此完成對信息的檢索。
在對本文設計的基于區塊鏈技術的公共圖書館線上數據庫信息檢索方法應用效果進行測試階段,分別采用蘇珂等[4]方法和梁少博等[5]方法作為測試的對照組,通過對比上述三種方法的檢索結果,對本文設計方法的應用價值進行分析。
本文以某數字圖書館數據庫內的資源子集作為基礎測試環境,對應的信息規模總量分別為10.0 T、20.0 T、30.0 T、40.0 T、50.0 T。在此基礎上,分別設置了10 條不同的固定檢索內容作為檢索信息,采用三種方法實施檢索。考慮到除了檢索結果的可靠性外,信息檢索的執行效率也是評價檢索方法的重要指標之一。因此,本文對不同檢索方法的響應時間進行約束,根據現階段檢索方法的平均響應時間,以30 s 作為臨界標準,當信息檢索方法未能在30 s 內針對檢索內容做出反饋,則判定對應的測試失敗,測試結果取0。
對于測試結果的評價,本文結合信息檢索的實際需求,分別設置召回率、查準率作為評價指標。其中,利用召回率對檢索結果的查全情況進行分析,利用查準率對檢索結果的精準情況進行分析。
首先,統計了三種方法在不同規模數據子集下的召回率,得到的數據結果如表1所示。

表1 不同檢索方法召回率統計表
通過對比表1中的檢索結果可以看出,隨著測試數據庫子集規模的不斷增大,三種方法的召回率測試結果均出現一定程度的下降。其中,蘇珂等[4]方法的下降幅度最大,當檢索數據子集的規模由10.0T 增加到50.0 T 時,召回率降低了4.22%。相比之下,梁少博等[5]方法的下降程度與之相比幅度較小,但是也達到了3.77%。而在本文設計方法的檢索結果中,召回率的下降程度僅為1.86%,與對照組的兩種方法相比表現出了更高的穩定性。不僅如此,通過對具體的召回率進行分析可以發現,蘇珂等[4]方法的召回率最大值僅為84.44%,梁少博等[5]方法的召回率最大值也僅為86.02%。而在本文設計方法的測試結果中,召回率的最大值達到了88.45%,分別高于蘇珂等[4]方法和梁少博等[5]方法4.01%和2.43%。測試結果表明本文設計的基于區塊鏈技術的公共圖書館線上數據庫信息檢索方法能夠實現對信息的全面檢索。
其次,統計了三種方法在不同規模數據子集下的查準率,得到的數據結果如圖3所示。

圖3 不同檢索方法查準率對比圖
通過觀察圖3中的測試結果可以看出,在三種檢索方法中,蘇珂等[4]方法和梁少博等[5]方法對應的查準率表現出明顯的下降趨勢。隨著測試數據子集規模的增加,兩種方法查準率的整體下降程度基本相同,當測試數據子集的規模達到50.0T 時,對應的查準率分別為80.44%和79.62%。但是相比之下,本文設計方法的檢索結果查準率雖然也呈現出了一定程度的下降,但是下降程度明顯低于蘇珂等[4]方法和梁少博等[5]方法。當測試數據子集的規模達到50.0 T 時,對應的查準率也達到了88.60%,分別高于對照組8.16%和8.89%。不僅如此,從整體角度分析,本文設計方法的查準率也始終明顯高于另外兩組測試結果,表明本文設計的基于區塊鏈技術的公共圖書館線上數據庫信息檢索方法能夠實現對目標信息的精準檢索,在線上公共圖書館中具有一定的應用價值。
為了提高用戶對線上圖書館的使用感受,本文從信息檢索的角度出發,設計了一種基于區塊鏈技術的公共圖書館線上數據庫信息檢索方法,通過建立數據之間的關聯關系,提高了檢索信息與數據庫資源之間的匹配效果,使得檢索過程更加高效,檢索結果也更加準確。通過本文的研究,希望能夠為實際的線上數據庫信息檢索機制構建提供參考價值,提高公共圖書館資源的利用率。