摘 要 “標簽體系+檢索算法”是人們在進行資源管理,例如圖書館的館藏資源管理、電子商務中商品管理、客戶資源管理等資源管理工作中一種通用的解決問題的思路。本文介紹一種基于標簽體系的快速檢索算法,該算法可一定程度上解決多標簽體系的場景下,對高維數據進行多關鍵字組合搜索引起的數據庫進行大量關聯運算的問題,提高檢索效率,該算法和標簽體系結合和形成一套高效的“標簽體系+檢索算法”解決方案,可應用于多種資源管理的場景。
關鍵詞 標簽體系 檢索算法 高維數據索引 資源管理 高職院校圖書館
中圖分類號:TP312 文獻標識碼:A 文章編號:1007-0745(2021)05-0057-02
1 背景概述
“標簽體系+檢索算法”是人們在進行資源管理,例如圖書館的館藏資源管理、電子商務中商品管理、客戶資源管理等資源管理工作中一種通用的解決問題的思路。本文介紹一種基于標簽體系的快速檢索算法,該算法可一定程度上解決多標簽體系的場景下,對高維數據進行多關鍵字組合搜索引起的數據庫進行大量關聯運算的問題,提高檢索效率,該算法和標簽體系結合和形成一套高效的“標簽體系+檢索算法”解決方案,可應用于多種資源管理的場景。在我們的前期論文《高職院校圖書館信息系統中的標簽管理功能探討》[1]已對這一算法應用于高職院校圖書館的館藏資源管理進行探討,本文從另一角度進行更高抽象程度的梳理和探討,以期待讀者對這一解決方案和算法有更深的理解,能將這一解決方案和算法應用于更多的場景。
2 算法的數學基礎
這一算法的數學基礎是我們在2003年一份數據挖掘課程研究報告《一種基于神經生物學原理的多維數據索引算法》中提出的:公比為2的等比數列有一個重要的特性:數列中兩個任意不完全相同的子列,兩個子列各自的元素之和必定不相等,這一特性可用于高效的多維數據索引算法的實現;選擇公比為2是為了各子列的元素和數盡量小,從而使算法能支持更多的維數和索引值。[2]
3 算法數學基礎的證明
這里證明算法的數學基礎,即證明數學命題:公比為2的等比數列,對于數列中任意兩個不完全相同的子列,兩個子列各自的元素之和必定不相等,這個命題在文獻[2]中已給出嚴格證明,這里整理一個相對容易理解的證明過程如下:
(1)設有公比為2等比數列的子列A(a1,a2,a3,a4,a5),公比為2等比數列的子列B(b1,b2,b3,b4,b5),兩個子列不完全相同,不妨設從右往左逐個比對,第一對不同的元素是a3和b3,且a3 (2)設有公比為2等比數列的子列A1(1,2,4,8,...,a3),則子列A1的元素和大于或者等于子列A的子列A2(a1,a2,a3)的元素和。 (3)根據公比為2等比數列的性質,即使在b3最小、也就是b3=2*a3的情況下,也有子列A1的元素和等于b3-1,從而得出在各種情況下,子列A1的元素和都小于b3,因此各種情況下,子列A2的所有元素和都小于b3,進而小于b1+b2+b3。 (4)綜合(1)(2)(3),易得子列A的所有元素和小于子列B的所有元素和,子列A和子列B各自的元素之和不相等。 (5)綜上所述,問題得以證明。 4 數據庫設計要點 在數據庫設計時,有這樣一個“索引和數表”,每條記錄的結構是:(記錄ID,資源ID,索引和數);在數據庫中有一個“標簽基本信息表”,每條記錄的結構是:(標簽ID、標簽種類、標簽值、標簽索引值)。 5 算法的關鍵步驟 (1)在設置標簽體系的時候,每類標簽的每一個標簽值,例如文獻[1]中提及的圖書館圖書標簽體系中,2019年入館教育標簽體系中的“建筑工程技術”專業標簽,在數據庫中有這樣一條記錄與其對應(“標簽ID1”、“2019年入館教育”、“建筑工程技術”、“32”),其中32為公比為2的等比數列中的第6個數,標簽體系中的每一條標簽的記錄中的“標簽索引值”都和等比數列中的某一個數形成一一對應關系。 (2)以文獻[1]中提及的圖書館圖書的標簽管理為例,在為圖書打標簽的時候,系統會在數據庫中,為這本圖書加入一條或多條“索引和數表”記錄,結構為(記錄ID,圖書ID,索引和數),例如,假設“圖書ID1”已經有索引值為“1”、“4”的兩個標簽,在打索引值為“32”的標簽的時候,系統會在“索引和數表”中加入(“記錄ID101”、“圖書ID1”、“32”),(“記錄ID102”、“圖書ID1”、“33”),(“記錄ID103”、“圖書ID1”、“36”),(“記錄ID104”、“圖書ID1”、“37”)四條記錄,分別代表標簽“1”、“4”、“32”可能出現的四種新組合;每本圖書搭每一個標簽都執行上述算法步驟。 (3)以文獻[1]中提及的圖書館圖書的標簽管理為例,在取消某一標簽時,參考上述過程易設計出從“索引和數表”減少相關記錄的算法步驟。 (4)以文獻[1]中提及的圖書館圖書的標簽管理為例,在檢索圖書時,系統根據用戶所選擇的標簽,計算出“目標索引和數”,采用計算出的“目標索引和數”查找“索引和數表”中“索引和數”值和“目標索引和數”相等的記錄,查找到的記錄對應的圖書就是符合標簽組合要求的圖書,這一算法過程只需查詢一次數據庫的表,就可以快速檢索出符合用戶標簽要求的圖書。 6 算法性能提升的重要原因 以文獻[1]中提及的圖書館圖書的標簽管理為例,從上述算法關鍵步驟可以看出,算法搜索性能提升的重要原因是在查找符合多標簽組合要求的圖書時,這一算法只需查詢一次數據庫的一張表,可以快速檢索出符合用戶標簽要求的圖書,避免了數據庫進行多次大量的關聯運算;這一優勢在圖書總量大、標簽體系復雜豐富的情況下特別明顯。 從算法運行效率的時空分布情況看,算法是采用“打標簽和取消標簽時多花一點運算時間”換取“大量讀者進行各種多標簽組合檢索檢索時的高效率”的做法,對于實際業務情況來說,這種做法是合理的,有明顯的效益。 7 算法應用場景探討 在上述介紹算法過程中,為了方便讀者理解,我們以圖書館中,館藏圖書的管理作為例子,實際上很多涉及資源管理的場景都可以用上述高效的“標簽體系+檢索算法”的解決方案,例如圖書館的館藏資源管理、電子商務中的商品管理、客戶資源管理等資源管理工作等。 7.1 算法在圖書館館藏資源管理中的應用 在圖書館的館藏資源管理中,主要可能用到的標簽體系有:A行業分類標簽體系;B入館教育標簽體系等。綜合考慮各標簽體系隨時間的變化情況,結合上述算法,可形成一套高效的用于圖書館館藏資源管理的解決方案。具體的結合詳細方法可參考文獻[1]中所述。這一解決方案在圖書館特色館藏建設管理、參考咨詢業務改進、入館教育改進等業務工作中有重要用途[3-5]。 7.2 算法在商品管理中的應用 在電子商務的商品管理中,主要可能用到的標簽體系有:A商品用途標簽體系;B商品品牌標簽體系;C商品生產信息標簽體系;D商品存儲信息標簽體系;E商品銷售情況標簽體系等。綜合考慮各標簽體系隨時間的變化情況,結合上述算法,可形成一套高效的用于電子商務中商品管理的解決方案。 7.3 算法在客戶資源管理中的應用 當前,在新一代信息技術不斷發展的情況下,數字經濟空前活躍,數字化轉型升級已成為各企業面臨的一個重要工程;在數字化轉型工作中,對企業相關的各類客戶通過客戶信息系統進行管理和分類,掌握精準的客戶畫像,從而支撐實現“精準地把產品和服務銷售給需要的客戶”是一項重要的工作;在完成這一項重要工作的過程中,“標簽體系+檢索算法”是一個重要的工作工具。各企業可根據自身業務和客戶群的特點,設計符合自身情況的標簽體系,結合上述算法,實現對客戶的高效管理和對目標客戶的精準查找,助力自身數字化轉型工作的進步。 7.4 算法在其他應用場景中的應用 除了上述三類舉例的應用場景,本文提出的解決方案在各類資源管理類的場景中都有用武之地,有相對廣闊的應用前景。 8 結語及工作展望 綜上所述,本文在綜合總結前期工作的基礎上,提出了一種基于標簽體系的多用途快速索引算法,介紹了算法的數學基礎、算法數學基礎的證明過程、算法實現過程中數據庫的設計要點、算法的關鍵步驟、算法性能提升的重要原因、探討了算法的應用場景。本文提出的算法和標簽體系結合,形成一套“標簽體系+檢索算法”的解決方案,一定程度上解決多標簽體系的場景下,對高維數據進行多關鍵字組合搜索引起的數據庫進行大量關聯運算的問題,提高檢索效率,可用于多種資源管理場景;下一步工作可進一步拓展應用場景,讓算法發揮更大作用。 參考文獻: [1] 周雅琳.高職院校圖書館信息系統中的標簽管理功能探討[J].科學與財富,2020,11:3. [2] 謝勤.一種基于神經生物學原理的多維數據索引算法[Z].數據挖掘課程研究報告,2003. [3] 周雅琳,謝勤.高職院校圖書館效益提升思路研究[J].知識經濟,2016,388(08):164. [4] 周雅琳,謝勤.淺談如何提高高職院校圖書館參考咨詢服務[J].卷宗,2016,06(02):38. [5] 周雅琳.高職院校圖書館新生入館教育內容體系改進方案研究—以廣東建設職業技術學院為例[J].廣東教育(職教),2020,08:25-26.