趙雷
(山東大學圖書館,山東濟南 250100)
在圖書館資源存儲平臺中,由于數據覆蓋現象的存在,導致其存在明顯的信息孤島,從而使數字資源間的實時互聯互通效果受到影響[1]。傳統的云計算型資源整合策略利用目錄體系整合圖書館數字資源,再利用門戶平臺將這些信息參量整合成新型的數據流傳輸格式[2]。然而該方法解決信息孤島問題的能力有限,很難建立全新的數字資源實時互聯互通關系。
深度挖掘是指從大量應用數據中提取隱含信息參量。由于網絡主機事先難以獲知數據信息的實際傳輸方向,因此深度挖掘指令的執行方向往往是復雜且多元化的。在實際應用過程中,網絡主機首先需要確定與挖掘任務相關的目標數據對象所處位置;然后根據預處理節點中所包含的具體數據信息量確定深度挖掘指令的實際作用范圍[3];最后在數據庫主機的作用下,將相關暫存數據全部調整至快速轉錄的實時傳輸狀態。
為解決傳統的云計算型資源整合策略存在的不足,文中提出了基于深度挖掘的圖書館數字資源整合與共享算法,在權重樣本時間衰減周期參量的支持下,準確設定實值挖掘參數,再借助數字資源目錄體系實現對圖書館數字資源共享元信息的實時編碼。
圖書館數字資源的深度挖掘處理包括計算權重樣本時間衰減周期、數據集表達、實值挖掘參數設定3 個執行環節,具體操作方法如下。
權重樣本時間衰減周期是一個相對較為寬泛的物理系數指標。在圖書館數字資源存儲空間中,由于深度挖掘框架體系的影響,權重樣本時間衰減周期往往會對數據參量指標的實時存儲行為造成直接影響。
對于圖書館數字資源來說,深度挖掘框架體系的實際覆蓋面積越大,數據信息參量所具備的應用存儲能力就越強[4]。簡單來說,權重樣本時間衰減周期的長度值水平并不完全固定,隨待存儲圖書館數字資源量的增大,該項物理指標的數量級水平也會有所提升。但為了不影響最終的信息參量整合與分享結果,權重樣本時間衰減周期指標也包含一定的約束能力,即在固定數值空間內,權重樣本時間衰減周期指標能夠影響圖書館數字資源的整合與共享處理結果[5-6]。
假設s、e分別代表兩個不同的圖書館數字資源權重樣本系數,n代表圖書館數字資源信息的樣本采集系數,聯立上述物理量,可將權重樣本時間的衰減周期表達式定義為如下形式:

其中,Ws代表樣本系數為s時的圖書館數字資源信息特征值,We代表樣本系數為e時的圖書館數字資源信息特征值,| ΔT|代表圖書館數字資源信息的單位整合時長。
在實施信息參量整合與共享指令的過程中,數據集能夠將所有未定義的圖書館數字資源信息囊括在內,并按照權重樣本時間衰減周期的具體數值水平,更改已存儲信息參量的實際傳輸速率。
數據集是一個相對寬泛的信息參量定義條件。為更有效地滿足深度挖掘框架的實際應用需求,應在順向轉存圖書館數字資源信息參量的同時,將剩余數據指標整合成全新的傳輸形式,一方面滿足圖書館主機對于數字資源信息的整合與分享需求,另一方面也可暫時緩解由權重樣本時間衰減周期所引起的信息參量存儲及時性較差的問題[7-8]。設u代表圖書館數字資源的信息共享系數,聯立式(1)可將圖書館數字資源的數據集表達式定義為:

式中,ε1、ε2分別代表兩個不同的圖書館數字資源信息參量定義條件,xu代表既定的數字資源信息整合基向量。
實值挖掘參數設定是深度挖掘的關鍵處理步驟之一,可在已知權重樣本時間衰減周期與數據集表達條件的基礎上,對圖書館數字資源信息的整合與共享能力進行初步約束,從而不斷提升圖書館主機的數據參量查詢能力。圖書館數據存儲平臺同時管理著大量的數字資源信息,且由于參量整合與共享模式的不同,這些信息文件的最終傳輸方向也有所不同。但大多數情況下,其傳輸行為都有利于參量深度挖掘指令的進行與實施[9-10]。
假設pmin代表圖書館數字資源挖掘深度值的最小值,pmax代表圖書館數字資源挖掘深度值的最大值。一般情況下,上述兩者之間的物理差值水平越大,實值挖掘參數的設定結果也就越精準。在上述物理量的支持下,聯立式(2)可將實值挖掘參數設定結果表示為:

其中,f代表深度挖掘系數,λ代表數字資源信息的共享特征值,I1、I2分別代表不同的圖書館數字資源信息挖掘權限值。
在深度挖掘原理的支持下,按照數字資源目錄體系搭建、共享元信息編碼、資源整合維度確定的操作流程,實現新型圖書館數字資源整合與共享算法的順利應用。
數字資源目錄體系由一級單元、次級單元兩部分共同組成。其中,一級單元也叫圖書館數字資源的總目錄。受到深度挖掘框架的影響,該目錄體系下級同時管理多個分目錄組織,可在準確記錄圖書館數字資源信息傳輸行為的基礎上,對次級目錄單元發出數據信息的整合與共享指令[11-12]。次級單元也叫作圖書館數字資源的二級目錄,其下級連接結構也同時管理多個分目錄組織,能夠準確接收圖書館主機反饋而來的數字資源信息參量,并可以數據傳輸流的方式,將未完全消耗的數字資源信息傳輸回主目錄結構體之中,從而較好地滿足待傳輸數據信息參量的整合與共享需求。圖書館數字資源目錄體系如圖1 所示。

圖1 圖書館數字資源目錄體系
為降低圖書館體系的維修成本、提高數字資源信息參量的開發效率,建立良好的共享元信息編碼條件就顯得極為必要。良好的編碼規范不僅可以使圖書館數字資源信息的排列行為變得更加簡單,也可以大幅節省數據參量的存儲時間。
共享元信息是指圖書館數字資源中未被完全轉存的數據參量,具有極強的傳輸靈活性[13-14]。因此,在實施共享元信息編碼的過程中,應同時注意命名約束、歧義避免、設計原則等多方面問題。一般情況下,命名約束可采用Pascal 標記的方式對圖書館數字資源信息進行命名,一方面實現對資源信息參量的實時編碼,另一方面也可避免資源信息堆積行為的產生。共享元信息的編碼原理如表1 所示。

表1 共享元信息的編碼原理
整合維度從空間角度闡述了圖書館數字資源所具備的共享能力,在已知元信息編碼條件的情況下,可按照數字資源的目錄體系結構,對數據信息參量在圖書館主機中的傳輸能力進行精準定義,從而使得圖書館數字資源信息的整合與共享能力得到最大化提升[15-16]。
整合維度是一個相對獨立的物理量。在深度挖掘框架的作用下,待傳輸的圖書館數字資源信息量越大,與之匹配的整合維度覆蓋面積也就越大。且由于共享元信息編碼條件的存在,這些待整合的信息參量可在圖書館主機中進行自行傳輸。這樣不僅能夠較好地解決資源參量的不平等分布問題,也可以實現對數字資源信息共享傳輸范圍的不斷擴展。設代表待共享的圖書館數字資源信息量均值,代表信息資源參量的整合特征值,聯立式(3)可將資源整合維度結果表示為:

其中,μ代表圖書館數字資源的整合維度定義系數,k′代表既定的資源信息特征整合指標。至此,實現各項實用系數指標的計算與處理,在深度挖掘框架的支持下,完成圖書館數字資源整合與共享算法的設計。
文中設計如下實驗驗證該研究的有效性。建立相關的圖書館數字資源調度模式,然后分別將實驗組和對照組處理算法接入資源存儲主機中。其中,實驗組主機采用基于深度挖掘的圖書館數字資源整合與共享算法,對照組主機采用云計算型資源整合策略。
信息孤島是一種嚴重的數字資源傳輸閉鎖問題。通常情況下,信息孤島現象越明顯,數字資源的傳輸閉鎖行為也就越嚴重。RPP 指標能夠反映圖書館數字資源信息孤島現象的出現幾率,該項指標的數值水平越高,信息孤島現象的出現幾率也就越大。表2 記錄了實驗組和對照組RPP 指標數值的具體變化情況。

表2 RPP指標數值對比
表2 中,實驗組RPP 指標數值始終保持連續上升的變化趨勢,整個實驗過程中,前期的數值上升幅度明顯大于后期。對照組RPP 指標數值則保持先上升、再穩定、最后下降的變化狀態,且前期上升幅度與后期下降幅度并無明顯區別。從極限值角度來看,實驗組最大值與對照組最大值相比,下降了36.24%。
綜上可知,應用基于深度挖掘整合與共享算法后,RPP 指標數值水平得以明顯提高,在一定程度上解決了圖書館數字資源的信息孤島問題,實現了對數據信息參量的穩定傳輸。
SUT 指標能夠反映圖書館數字資源信息的實時互聯與互通能力。在不考慮其他外界影響條件的情況下,SUT 指標數值越大,圖書館數字資源信息的實時互聯與互通能力就越強。表3 記錄了實驗組、對照組SUT 指標數值的具體變化情況。
分析表3 可知,實驗組SUT 指標在實驗前期始終保持絕對穩定的狀態。從第25 min 開始,這種數值走向趨勢開始逐漸趨于階梯狀變化,全局最大值達到了73.17%。對照組SUT 指標則在小幅下降狀態后,開始逐漸呈現波動式變化狀態,全局最大值僅能達到52.71%,與實驗組最大值相比,下降了20.46%。

表3 SUT指標數值對比
綜上可知,應用基于深度挖掘的整合與共享算法后,SUT 指標出現了明顯上升的數值變化狀態,能夠促進圖書館數字資源信息實時互聯與互通能力的不斷提升。
與云計算型資源整合策略相比,基于深度挖掘的整合與共享算法打破了圖書館各級存儲數據間的信息孤島限制,從而實現數字資源的實時互聯與互通。從搭建流程的角度來看,由于權重樣本時間衰減周期值的存在,實值挖掘參數能夠得到精準設定,可在建立圖書館數字資源目錄體系的同時,實現對資源整合維度系數的有效控制,從而具備較強的實際應用價值。