富國瑞
(山東大學圖書館,山東濟南 250100)
Top-k 查詢算法是根據不同方式,對查詢對象進行規劃處理的手段,按照查詢模式的不同可分為三類:Top-k 選擇查詢、Top-k 聚集查詢、Top-k 分層查詢。其中,選擇查詢能夠在待定義群體中挑選最重要的服務對象,并為其賦予一系列的附屬應用規則;聚集查詢主要面對集合式數據群體,可同時定義信息傳輸流的頭、尾節點,以降低電子信號之間的搜索相似性;分層查詢可按照數據信號所屬級別命名與參量節點相關的查詢角標,以達到促進分類算法快速實施的目的[1-2]。
隨著待處理圖書館電子資源總量的提升,很難在遵循分類查詢規則的同時,實現對信號參量的快速、準確查找。傳統CID 引擎索引器通過用戶接口之間的無縫對接,完成對正序資源分詞的抓取處理,再聯合選擇性推薦機制,確定相鄰電子節點間的最短傳輸距離。但在高水平分類精準度的支持下,該方法所需的查詢等待時間過長,不能完全符合實際化應用需求。為解決此問題,引入Top-k 查詢算法,研究全新的圖書館電子資源分類搜索方法。
Top-k查詢模式包含聚集化、分層化、節點化3種基本處理行為。其中,聚集化查詢主要針對圖書館電子資源中的自定義用戶,以.//condition 命名數據信號前的位置節點,可將完成處理后的參量數據包由頂層查詢機構直接傳輸至底層查詢機構中[3]。分層化查詢主要針對圖書館電子資源中的隱藏數據參量,以.//attributes 命名數據信號的中間傳輸結構體,在平層查詢單元中不限制信息參量的最遠傳輸距離,具備較強的資源分類適應性[4]。節點化查詢主要針對圖書館電子資源中的必要數據參量,以.// tuple命名數據信號后的位置節點,可將處于散亂狀態的信息參量,從底層查詢機構反饋回頂層查詢機構[5]。詳細的查詢模式應用規則如表1 所示。

表1 Top-k查詢模式應用規則
在執行電子資源分類搜索的過程中,所有信息參量都具備明顯的獨立性,因此很難在單位時間內實現對待搜索節點的定向安排,而數據和查詢確定性的存在,則有效避免了上述情況的發生,不僅能夠將既定搜索節點妥善安排在指向性位置上,也能避免因電子差異化傳輸,而造成的搜索分類精準度下降等問題。在不考慮其他影響條件的情況下,可將數據確定性、查詢確定性分為兩個互不干擾的獨立分量[6-7]。所謂數據確定性也叫電子資源的查詢妥善性,受到信號輸出均值qˉ、Top-k 查詢上限參量e1、Top-k 查詢下限參量e0的共同影響。信號輸出均值描述圖書館電子資源在單位時間內的分布情況,通常情況下,隨著物理搜索時間的延長,該項物理量的數值水平不會發生改變。查詢確定性也叫信息分類穩定性,是指在既定搜索區間內,所有圖書館電子資源數據均能保持相對穩定的輸出形式,且不受查詢時長等其他物理量的直接影響。設數據確定性指標為y′,查詢確定性指標為w′,聯立上述物理量,可將y′與w′分別表示為:

其中,μ代表既定數據查詢系數,r0、r1分別代表兩個不同的電子資源負載信息,i代表查詢節點處的電子資源信號承載條件,p代表與圖書館電子資源相匹配的分類搜索權限。
排名函數是與Top-k 查詢算法相關的電子資源分類部署原則,可按照相鄰搜索節點間的實際限定關系,確定由一個圖書館電子資源數據到另一個圖書館電子資源數據間的最短傳輸距離,從而縮短電子信息參量查詢所需的平均等待時間[8-9]。假設在一個固定搜索周期t內,排名在前的搜索節點所負載的圖書館電子資源總量始終高于排名在后的節點,且隨著查詢精度要求的不斷提升,節點與節點之間的資源數據也一直處于流動性分布狀態。為使Top-k 查詢算法的約束能力得到最大化發揮,電子資源的分類搜索步長值必須在ε0~ε1之間來回波動,且最大化分類指標的實際表現數值也不得超過L,聯立式(1),可將基于Top-k 查詢算法的圖書館電子資源分類排名函數定義為:

其中,χ1、χ2分別代表兩個不同的圖書館電子資源分類化查詢標量值。
搜索器是圖書館電子資源分類搜索指令的核心實施部件,以Map/Reduce 服務器作為主體搭建結構,可在各類Web API 節點的作用下,實現對數據信號的挖掘處理,從而生成滿足實際分類與搜索需求的評價指令[10]。應用電子可直接作用于Map/Reduce服務器主機,在輸出多類型圖書館電子數據源信號的同時,建立聚集化搜索、分層化搜索、節點化搜索3 種基本查詢模式[11-12]??傮w來講,搜索器具備較為完善的查詢適應性,隨著Top-k 算法執行能力的增強,結構體內部的信息負載量也開始逐漸累積,直至與圖書館電子資源的實際分類需求完全匹配。搜索器結構如圖1 所示。

圖1 搜索器結構圖
信息索引模型規定了Top-k 查詢算法的實際作用范圍,可按照圖書館電子資源的現有存儲形式,確定分類搜索處理的實際實施規劃區間。通常情況下,待處理的物理區間范圍越大,所需的信息索引數量也就越多,反之則越小[13-14]。若以圖書館電子資源數據總量f作為實際參考標準,在不出現其他干擾影響的情況下,信息索引模型的建立直接受到數據分類標準、搜索度量值兩項物理量的直接影響。數據分類標準可表示為h,在Top-k 查詢算法的支持下,該項物理量始終保持較強的應用穩定性。搜索度量值可表示為k,與實際搜索耗時保持相同的變化趨勢,對最終的索引模型構建條件始終起到正向促進作用。在上述物理量的支持下,聯立式(2),可將圖書館電子資源的信息索引模型定義為:

其中,f′代表圖書館電子資源數據的實際應用誤差量,k′代表與搜索度量值相關的補充系數項,代表電子資源信號的單次最大搜索量。
分類節點興趣代理是圖書館電子資源分類搜索方法搭建的末尾處理環節,可在Top-k 查詢算法的作用下,直接操控核心搜索界面,再按照關鍵詞與特征參量的分類形式,確定與代理服務器相關的數據匹配資源[15-16]。在圖書館電子資源存儲數據庫中,所有信息參量均保持連續性傳輸的調度形式,規定代理服務器始終處于良性連接的應用狀態,則與信息數據聯系越緊密的信號參量,越能代表最終的實際分類搜索需求,分類節點興趣代理流程如圖2 所示。

圖2 分類節點興趣代理流程圖
至此,實現各項應用結構的連接與關鍵性指標的計算,在Top-k 查詢算法的支持下,完成新型圖書館電子資源分類搜索方法的搭建。
為驗證基于Top-k 查詢算法圖書館電子資源分類搜索方法的實際應用能力,設計如下對比實驗。對整個圖書館內的所有電力資源進行編號,將這些電子信號全部輸入到監控主機中,分別以搭載新型分類搜索方法和傳統CID 引擎索引器的實驗主機,作為實驗組與對照組的數據分析元件。分析電子信息查詢等待時長、電量信號分類精度的具體變化情況。電子資源監控如圖3 所示。

圖3 電子資源監控
電子信息查詢時間、電信號分類精度均能反映圖書館電子信息參量的實際搜索速率,通常情況下,查詢時間越短、分類精度越高,電子信息的搜索速率也就越快,反之則越慢。
調節資源監控設備,使電子信息查詢量在10×109T~90×109T 之間來回波動,記錄各個特征節點處實際查詢等待時間的具體數值水平。電子信息查詢等待時間對比結果如表2 所示。

表2 電子信息查詢等待時間對比表
分析表2 可知,在兩次數值記錄結果中,實驗組查詢等待時間的波動變化趨勢相對較小,全局最大值0.48 ms 與全局最小值0.45 ms 之間的差值結果僅為0.03 ms;對照組查詢等待時間則一直保持不斷增大的變化趨勢,全局最大值1.43 ms 與實驗組極值相比上升了0.95 ms,與全局最小值1.33 ms 的差值結果為0.1 ms,遠高于實驗組數值水平。
根據電子資源監控設備中顯示的數值可知,在實驗時間處于10~90 min 之間時,電量信號分類精度的反應數值最為平穩,表3 反映了實驗組、對照組的具體實驗結果。
分析表3 可知,在整個實驗過程中,實驗組電量信號分類精度始終保持先下降、再上升的變化趨勢;對照組電量信號分類精度則保持先下降、再穩定的變化趨勢,全局最大值為68%,與實驗組極大值90%相比,下降了22%。

表3 電量信號分類精度對比表
綜上可知,應用基于Top-k 查詢算法的圖書館電子資源分類搜索方法后,電子信息查詢時長得到有效控制,而信號分類精度卻出現明顯上升,可在嚴格遵循分類查詢規則的基礎上,完成對圖書館電子信息參量的快速查找。
新型圖書館電子資源分類搜索方法,在傳統CID 引擎索引器的基礎上,針對查詢等待時間長、分類精度低的問題進行改進,且隨著Top-k 查詢算法的不斷完善,整體查詢模式也逐漸向規范化方式演變。分析排名函數定義可知,信息索引模型能夠完全滿足分類節點興趣代理的處理需求,實現快速查找圖書館電子信息參量的實際應用要求。