周雅琳
(廣東建設(shè)職業(yè)技術(shù)學院,廣東 廣州 510000)
“標簽體系+檢索算法”是人們在進行資源管理,例如圖書館的館藏資源管理、電子商務中商品管理、客戶資源管理等資源管理工作中一種通用的解決問題的思路。本文介紹一種基于標簽體系的快速檢索算法,該算法可一定程度上解決多標簽體系的場景下,對高維數(shù)據(jù)進行多關(guān)鍵字組合搜索引起的數(shù)據(jù)庫進行大量關(guān)聯(lián)運算的問題,提高檢索效率,該算法和標簽體系結(jié)合和形成一套高效的“標簽體系+檢索算法”解決方案,可應用于多種資源管理的場景。在我們的前期論文《高職院校圖書館信息系統(tǒng)中的標簽管理功能探討》[1]已對這一算法應用于高職院校圖書館的館藏資源管理進行探討,本文從另一角度進行更高抽象程度的梳理和探討,以期待讀者對這一解決方案和算法有更深的理解,能將這一解決方案和算法應用于更多的場景。
這一算法的數(shù)學基礎(chǔ)是我們在2003 年一份數(shù)據(jù)挖掘課程研究報告《一種基于神經(jīng)生物學原理的多維數(shù)據(jù)索引算法》中提出的:公比為2 的等比數(shù)列有一個重要的特性:數(shù)列中兩個任意不完全相同的子列,兩個子列各自的元素之和必定不相等,這一特性可用于高效的多維數(shù)據(jù)索引算法的實現(xiàn);選擇公比為2 是為了各子列的元素和數(shù)盡量小,從而使算法能支持更多的維數(shù)和索引值。[2]
這里證明算法的數(shù)學基礎(chǔ),即證明數(shù)學命題:公比為2的等比數(shù)列,對于數(shù)列中任意兩個不完全相同的子列,兩個子列各自的元素之和必定不相等,這個命題在文獻[2]中已給出嚴格證明,這里整理一個相對容易理解的證明過程如下:
(1)設(shè)有公比為2 等比數(shù)列的子列A(a1,a2,a3,a4,a5),公比為2 等比數(shù)列的子列B(b1,b2,b3,b4,b5),兩個子列不完全相同,不妨設(shè)從右往左逐個比對,第一對不同的元素是a3 和b3,且a3 (2)設(shè)有公比為2 等比數(shù)列的子列A1(1,2,4,8,...,a3),則子列A1 的元素和大于或者等于子列A 的子列A2(a1,a2,a3)的元素和。 (3)根據(jù)公比為2 等比數(shù)列的性質(zhì),即使在b3 最小、也就是b3=2*a3 的情況下,也有子列A1 的元素和等于b3-1,從而得出在各種情況下,子列A1 的元素和都小于b3,因此各種情況下,子列A2 的所有元素和都小于b3,進而小于b1+b2+b3。 (4)綜合(1)(2)(3),易得子列A 的所有元素和小于子列B 的所有元素和,子列A 和子列B 各自的元素之和不相等。 (5)綜上所述,問題得以證明。 在數(shù)據(jù)庫設(shè)計時,有這樣一個“索引和數(shù)表”,每條記錄的結(jié)構(gòu)是:(記錄ID,資源ID,索引和數(shù));在數(shù)據(jù)庫中有一個“標簽基本信息表”,每條記錄的結(jié)構(gòu)是:(標簽ID、標簽種類、標簽值、標簽索引值)。 (1)在設(shè)置標簽體系的時候,每類標簽的每一個標簽值,例如文獻[1]中提及的圖書館圖書標簽體系中,2019 年入館教育標簽體系中的“建筑工程技術(shù)”專業(yè)標簽,在數(shù)據(jù)庫中有這樣一條記錄與其對應(“標簽ID1”、“2019 年入館教育”、“建筑工程技術(shù)”、“32”),其中32 為公比為2 的等比數(shù)列中的第6 個數(shù),標簽體系中的每一條標簽的記錄中的“標簽索引值”都和等比數(shù)列中的某一個數(shù)形成一一對應關(guān)系。 (2)以文獻[1]中提及的圖書館圖書的標簽管理為例,在為圖書打標簽的時候,系統(tǒng)會在數(shù)據(jù)庫中,為這本圖書加入一條或多條“索引和數(shù)表”記錄,結(jié)構(gòu)為(記錄ID,圖書ID,索引和數(shù)),例如,假設(shè)“圖書ID1”已經(jīng)有索引值為“1”、“4”的兩個標簽,在打索引值為“32”的標簽的時候,系統(tǒng)會在“索引和數(shù)表”中加入(“記錄ID101”、“圖書ID1”、“32”),(“記錄ID102”、“圖書ID1”、“33”),(“記錄ID103”、“圖書ID1”、“36”),(“記錄ID104”、“圖書ID1”、“37”)四條記錄,分別代表標簽“1”、“4”、“32”可能出現(xiàn)的四種新組合;每本圖書搭每一個標簽都執(zhí)行上述算法步驟。 (3)以文獻[1]中提及的圖書館圖書的標簽管理為例,在取消某一標簽時,參考上述過程易設(shè)計出從“索引和數(shù)表”減少相關(guān)記錄的算法步驟。 (4)以文獻[1]中提及的圖書館圖書的標簽管理為例,在檢索圖書時,系統(tǒng)根據(jù)用戶所選擇的標簽,計算出“目標索引和數(shù)”,采用計算出的“目標索引和數(shù)”查找“索引和數(shù)表”中“索引和數(shù)”值和“目標索引和數(shù)”相等的記錄,查找到的記錄對應的圖書就是符合標簽組合要求的圖書,這一算法過程只需查詢一次數(shù)據(jù)庫的表,就可以快速檢索出符合用戶標簽要求的圖書。 以文獻[1]中提及的圖書館圖書的標簽管理為例,從上述算法關(guān)鍵步驟可以看出,算法搜索性能提升的重要原因是在查找符合多標簽組合要求的圖書時,這一算法只需查詢一次數(shù)據(jù)庫的一張表,可以快速檢索出符合用戶標簽要求的圖書,避免了數(shù)據(jù)庫進行多次大量的關(guān)聯(lián)運算;這一優(yōu)勢在圖書總量大、標簽體系復雜豐富的情況下特別明顯。 從算法運行效率的時空分布情況看,算法是采用“打標簽和取消標簽時多花一點運算時間”換取“大量讀者進行各種多標簽組合檢索檢索時的高效率”的做法,對于實際業(yè)務情況來說,這種做法是合理的,有明顯的效益。 在上述介紹算法過程中,為了方便讀者理解,我們以圖書館中,館藏圖書的管理作為例子,實際上很多涉及資源管理的場景都可以用上述高效的“標簽體系+檢索算法”的解決方案,例如圖書館的館藏資源管理、電子商務中的商品管理、客戶資源管理等資源管理工作等。 在圖書館的館藏資源管理中,主要可能用到的標簽體系有:A 行業(yè)分類標簽體系;B 入館教育標簽體系等。綜合考慮各標簽體系隨時間的變化情況,結(jié)合上述算法,可形成一套高效的用于圖書館館藏資源管理的解決方案。具體的結(jié)合詳細方法可參考文獻[1]中所述。這一解決方案在圖書館特色館藏建設(shè)管理、參考咨詢業(yè)務改進、入館教育改進等業(yè)務工作中有重要用途[3-5]。 在電子商務的商品管理中,主要可能用到的標簽體系有:A 商品用途標簽體系;B 商品品牌標簽體系;C 商品生產(chǎn)信息標簽體系;D 商品存儲信息標簽體系;E 商品銷售情況標簽體系等。綜合考慮各標簽體系隨時間的變化情況,結(jié)合上述算法,可形成一套高效的用于電子商務中商品管理的解決方案。 當前,在新一代信息技術(shù)不斷發(fā)展的情況下,數(shù)字經(jīng)濟空前活躍,數(shù)字化轉(zhuǎn)型升級已成為各企業(yè)面臨的一個重要工程;在數(shù)字化轉(zhuǎn)型工作中,對企業(yè)相關(guān)的各類客戶通過客戶信息系統(tǒng)進行管理和分類,掌握精準的客戶畫像,從而支撐實現(xiàn)“精準地把產(chǎn)品和服務銷售給需要的客戶”是一項重要的工作;在完成這一項重要工作的過程中,“標簽體系+檢索算法”是一個重要的工作工具。各企業(yè)可根據(jù)自身業(yè)務和客戶群的特點,設(shè)計符合自身情況的標簽體系,結(jié)合上述算法,實現(xiàn)對客戶的高效管理和對目標客戶的精準查找,助力自身數(shù)字化轉(zhuǎn)型工作的進步。 除了上述三類舉例的應用場景,本文提出的解決方案在各類資源管理類的場景中都有用武之地,有相對廣闊的應用前景。 綜上所述,本文在綜合總結(jié)前期工作的基礎(chǔ)上,提出了一種基于標簽體系的多用途快速索引算法,介紹了算法的數(shù)學基礎(chǔ)、算法數(shù)學基礎(chǔ)的證明過程、算法實現(xiàn)過程中數(shù)據(jù)庫的設(shè)計要點、算法的關(guān)鍵步驟、算法性能提升的重要原因、探討了算法的應用場景。本文提出的算法和標簽體系結(jié)合,形成一套“標簽體系+檢索算法”的解決方案,一定程度上解決多標簽體系的場景下,對高維數(shù)據(jù)進行多關(guān)鍵字組合搜索引起的數(shù)據(jù)庫進行大量關(guān)聯(lián)運算的問題,提高檢索效率,可用于多種資源管理場景;下一步工作可進一步拓展應用場景,讓算法發(fā)揮更大作用。4 數(shù)據(jù)庫設(shè)計要點
5 算法的關(guān)鍵步驟
6 算法性能提升的重要原因
7 算法應用場景探討
7.1 算法在圖書館館藏資源管理中的應用
7.2 算法在商品管理中的應用
7.3 算法在客戶資源管理中的應用
7.4 算法在其他應用場景中的應用
8 結(jié)語及工作展望