彭燕
摘 要:文章首先對聚類分析算法的含義進(jìn)行了簡明扼要的概括,并對“聚類”、“簇”等聚類分析算法涉及的重點(diǎn)詞匯進(jìn)行了說明,然后又介紹了聚類分析算法——K-均值算法,和以該算法為基礎(chǔ)所延伸出的改進(jìn)算法,最后通過理論與實(shí)際相結(jié)合的方式,以圖書、讀者這兩個(gè)圖書管理工作主體為切入點(diǎn),對圖書管理系統(tǒng)中聚類分析算法的實(shí)際應(yīng)用進(jìn)行了分析,希望本文所討論的內(nèi)容能夠在某些方面為圖書管理工作的開展提供參考或幫助。
關(guān)鍵詞:圖書館;聚類分析算法;圖書管理系統(tǒng)
隨著科學(xué)技術(shù)的進(jìn)步,各圖書館在對圖書進(jìn)行管理時(shí)應(yīng)用的系統(tǒng)與之前相比也出現(xiàn)了相應(yīng)的變化,將聚類分析算法應(yīng)用其中已成為大勢所趨。通過實(shí)踐能夠發(fā)現(xiàn),在圖書管理系統(tǒng)中對聚類分析算法進(jìn)行合理應(yīng)用,不僅能夠?qū)ψx者前往圖書館的主要目的加以了解,還能夠以讀者需求為導(dǎo)向,對服務(wù)工作進(jìn)行相應(yīng)的優(yōu)化,除此之外,在采購圖書資源時(shí),工作人員也具有了更加科學(xué)、系統(tǒng)的參考依據(jù)。由此可以看出,本文所研究課題具有一定的現(xiàn)實(shí)意義。
1 聚類分析算法的概述
作為數(shù)據(jù)挖掘領(lǐng)域應(yīng)用頻率極高的技術(shù)之一,聚類分析計(jì)算的關(guān)鍵在于“聚類”。聚類指的是將抽象或是物理對象集合轉(zhuǎn)化為由類似對象組成的簇的全過程;對作為數(shù)據(jù)對象集合而存在的簇而言,同一簇所包含的對象往往存在高度的一致性,不同簇所包含的對象則具有高度相異性,這是需要人們準(zhǔn)確掌握的內(nèi)容[1]。只有對上文所提及的內(nèi)容進(jìn)行了解和掌握,才能準(zhǔn)確、科學(xué)的應(yīng)用聚類分析算法,也才能保證對數(shù)據(jù)分布特征進(jìn)行深入的挖掘和掌握。
現(xiàn)階段,聚類分析算法已經(jīng)被廣泛應(yīng)用在諸多領(lǐng)域中,例如,模式識別、圖像分割、數(shù)據(jù)挖掘等。在商務(wù)領(lǐng)域,聚類分析法主要被用于對客戶信息進(jìn)行分析,保證人們能夠發(fā)現(xiàn)潛在客戶群體,并在購買模式的輔助下對客戶群體具有的特征進(jìn)行刻畫。除此之外,聚類分析算法還能夠被應(yīng)用在對挖掘算法進(jìn)行預(yù)處理的過程中,例如,人們可以應(yīng)用該法對某些數(shù)據(jù)進(jìn)行聚類,然后再以所得出結(jié)果為基礎(chǔ),開展相應(yīng)的研究或是處理工作,保證工作質(zhì)量和效率均能夠得到應(yīng)有的提升。
2 聚類分析算法——K-均值算法的概述
2.1 K-均值算法
作為聚類分析法中相對典型的劃分方法,K-均值算法的本質(zhì)為迭代聚類算法,通過在迭代過程中對簇集成員進(jìn)行不斷移動的方式,保證理想簇集的得出。通過實(shí)踐能夠發(fā)現(xiàn),K-均值算法具有的優(yōu)勢主要體現(xiàn)在簡單和快速這兩個(gè)方面。在應(yīng)用該法展開計(jì)算時(shí),需要將對象劃分為n個(gè)簇,并保證每個(gè)簇所包含對象具有高度相似性,另外,不同簇所包含的對象應(yīng)當(dāng)具有高度相異性。但是通過實(shí)踐發(fā)現(xiàn),K-均值算法受初始值影響較大,也就是說,如果初始值不同,運(yùn)行效率也會隨之發(fā)生變化。因此,想要保證運(yùn)行效率的有效提升,相關(guān)人員以K-均值算法為基礎(chǔ)提出了相應(yīng)的改進(jìn)算法。
2.2改進(jìn)算法
通過對K-均值算法的應(yīng)用過程進(jìn)行分析能夠發(fā)現(xiàn),如果能夠在數(shù)據(jù)分布相對密集的區(qū)域中心處對初始聚類中心進(jìn)行選擇,那么,位于該中心周圍的數(shù)據(jù),便能夠被劃分至最近類當(dāng)中,聚類收斂的速度自然能夠得到提升,迭代次數(shù)也會因此而減少。也就是說,以數(shù)據(jù)分布特點(diǎn)為主要依據(jù),對初代聚類中心進(jìn)行選取是十分重要的。想要保證針對數(shù)據(jù)分布情況所開展分析工作的全面性和科學(xué)性,必然需要花費(fèi)更多的時(shí)間。根據(jù)數(shù)據(jù)具有的隨機(jī)分布這一特點(diǎn)可以看出,聚類數(shù)據(jù)應(yīng)當(dāng)位于數(shù)據(jù)均值周圍,除此之外,對數(shù)據(jù)分布進(jìn)行評價(jià)需要應(yīng)用到的指標(biāo)還包括標(biāo)準(zhǔn)差,因此,改進(jìn)算法和K-均值算法最大的區(qū)別體現(xiàn)在對初始聚類中心進(jìn)行選取的方面,改進(jìn)算法在選取初始聚類中心時(shí),需要應(yīng)用到的數(shù)據(jù)包括均值和標(biāo)準(zhǔn)差。
可根據(jù)實(shí)際情況在1……n的范圍內(nèi)進(jìn)行選取[2]。通過實(shí)踐能夠發(fā)現(xiàn),與K-均值算法相比,改進(jìn)算法在準(zhǔn)確率和計(jì)算效率方面都具有十分明顯的提升,因此,下文所開展研究工作應(yīng)用的均為改進(jìn)后的聚類分析法。
3 圖書管理系統(tǒng)中,聚類分析算法的實(shí)際應(yīng)用
3.1 圖書數(shù)據(jù)的聚類分析
在應(yīng)用聚類分析算法對圖書進(jìn)行聚類分析時(shí),需要應(yīng)用到的數(shù)據(jù)包括圖書流通總次數(shù)以及圖書當(dāng)年流通次數(shù),也就是說在開展相關(guān)分析工作前,工作人員首先需要對上述數(shù)據(jù)進(jìn)行調(diào)查。圖書聚類分析的結(jié)果能夠?qū)D書借閱頻率的高低進(jìn)行準(zhǔn)確、直觀的呈現(xiàn),工作人員便可以在此基礎(chǔ)上對符合圖書利用情況、讀者需求情況的決策進(jìn)行制定,并對館藏資源以及布局加以優(yōu)化。圖書聚類分析步驟具體如下:
3.1.1對數(shù)據(jù)進(jìn)行預(yù)處理
通過實(shí)踐能夠發(fā)現(xiàn),對數(shù)據(jù)進(jìn)行預(yù)處理時(shí)需要花費(fèi)挖掘全過程約70%的成本和時(shí)間,由此可以看出,想要保證數(shù)據(jù)挖掘工作的高效開展,關(guān)鍵在于對數(shù)據(jù)預(yù)處理工作的質(zhì)量和效率進(jìn)行提升。完整的數(shù)據(jù)預(yù)處理工作分為四個(gè)步驟,分別是數(shù)據(jù)的清洗、集成、轉(zhuǎn)換和消減。
在應(yīng)用聚類分析法對數(shù)據(jù)進(jìn)行預(yù)處理時(shí),需要工作人員對數(shù)據(jù)主要屬性進(jìn)行重點(diǎn)關(guān)注,正常情況下,主要屬性不應(yīng)當(dāng)出現(xiàn)空值的情況,若在實(shí)踐過程中發(fā)現(xiàn)有某些屬性出現(xiàn)空值,則需要參考挖掘內(nèi)容和表的屬性,及時(shí)對空值進(jìn)行相應(yīng)的填充。具體來說,在對圖書數(shù)據(jù)進(jìn)行聚類分析時(shí),需要應(yīng)用到的分析屬性包括圖書流通總次數(shù)以及圖書當(dāng)年流通次數(shù),如果圖書館中存在某些從未被讀者借閱過的圖書,那么這兩個(gè)字段就為空值,在實(shí)際處理的過程中,工作人員應(yīng)當(dāng)用0對空值處進(jìn)行填充,保證工作的順利進(jìn)行[3]。除此之外,如果需要挖掘的數(shù)據(jù)分散于數(shù)據(jù)庫的不同表內(nèi),工作人員還需要對數(shù)據(jù)庫字段進(jìn)行整合,并形成完整的表,這樣做的目的在于保證運(yùn)行效率能夠得到一定程度的提高。
3.1.2應(yīng)用聚類分析算法對圖書數(shù)據(jù)加以分析
在對圖書數(shù)據(jù)進(jìn)行聚類分析前,工作人員首先需要對聚類個(gè)數(shù)進(jìn)行設(shè)置,在本文中,聚類個(gè)數(shù)被設(shè)置為3,分別代表具有較高利用率、中等利用率和較低利用率的圖書,然后再應(yīng)用上文所介紹的改進(jìn)算法,針對圖書借閱次數(shù)展開聚類挖掘工作,得出相應(yīng)的聚類情況和統(tǒng)計(jì)結(jié)果。此時(shí),工作人員便可以將聚類分析結(jié)果作為主要依據(jù),從3個(gè)聚類中對圖書群體存在的共性特征進(jìn)行分析,明確對圖書利用率產(chǎn)生影響的主要因素,為后續(xù)關(guān)聯(lián)規(guī)則的挖掘工作奠定良好基礎(chǔ)。endprint
3.2 讀者數(shù)據(jù)的聚類分析
在應(yīng)用聚類分析算法對讀者進(jìn)行聚類分析時(shí),需要應(yīng)用到的數(shù)據(jù)為讀者對圖書進(jìn)行借閱的次數(shù),也就是說,工作人員在掌握讀者借閱次數(shù)后,便可以開展相應(yīng)的聚類分析工作。
3.2.1對數(shù)據(jù)進(jìn)行預(yù)處理
應(yīng)用聚類分析法對讀者數(shù)據(jù)進(jìn)行聚類分析的步驟與圖書數(shù)據(jù)分析相同,本文不再贅述,具體參考上文。
3.2.2應(yīng)用聚類分析算法對讀者數(shù)據(jù)加以分析
在對讀者數(shù)據(jù)進(jìn)行聚類分析前,工作人員同樣需要對聚類個(gè)數(shù)進(jìn)行設(shè)置,本文將聚類個(gè)數(shù)設(shè)置為3個(gè),分別代表了活躍讀者、一般讀者以及不活躍讀者,然后再通過對改進(jìn)算法加以應(yīng)用的方式,針對讀者所借閱圖書的數(shù)量展開聚類挖掘工作,得出相應(yīng)的聚類情況和統(tǒng)計(jì)結(jié)果。通過對計(jì)算結(jié)果進(jìn)行分析能夠發(fā)現(xiàn),不同類型讀者的圖書利用情況存在著十分明顯的差別,此時(shí),工作人員便可以對原有的借閱標(biāo)準(zhǔn)進(jìn)行改進(jìn),增加活躍讀者能夠借閱的圖書數(shù)量,減少不活躍讀者能夠借閱的圖書數(shù)量,這樣做不僅能夠?qū)Σ煌x者具有的需求進(jìn)行最大限度的滿足,還可以在一定程度上使圖書利用率得到提升。
除此之外,工作人員還可以將統(tǒng)計(jì)結(jié)果作為主要依據(jù),針對不同讀者制定相應(yīng)的服務(wù)計(jì)劃,對活躍讀者具有的借閱習(xí)慣進(jìn)行分析,并推薦符合活躍讀者需求的圖書;對不活躍讀者則可以進(jìn)行相應(yīng)的問卷調(diào)查,了解導(dǎo)致他們較少借閱圖書的原因和需求,在此基礎(chǔ)上對館藏資源進(jìn)行優(yōu)化,這樣做能夠使不活躍讀者的借閱次數(shù)得到相應(yīng)的增加。
4 結(jié)論
通過對上文所敘述的內(nèi)容進(jìn)行分析能夠看出,文中所應(yīng)用聚類分析算法是以K-均值算法為基礎(chǔ)所延伸出的改進(jìn)算法。將改進(jìn)后的算法應(yīng)用在對圖書進(jìn)行管理的系統(tǒng)中,能夠?qū)D書數(shù)據(jù)以及讀者數(shù)據(jù)進(jìn)行準(zhǔn)確、高效的聚類分析,工作人員則可以通過對統(tǒng)計(jì)結(jié)果進(jìn)行分析的方式,了解圖書館內(nèi)現(xiàn)有圖書的利用率以及讀者的需求和愛好,再以此為基礎(chǔ)開展相應(yīng)的圖書管理工作,則可以取得事半功倍的效果。
參考文獻(xiàn)
[1]丁麗,詹林,孫高峰,馬健.數(shù)據(jù)挖掘技術(shù)在高職院校圖書管理中的應(yīng)用[J].綏化學(xué)院學(xué)報(bào),2013,3306:121-125.
[2]肖健,刁洪祥.聚類分析算法在數(shù)字圖書館中的應(yīng)用研究[J].當(dāng)代圖書館,2013,03:14-17.
[3]張衛(wèi)東.基于多維度屬性權(quán)重優(yōu)化的FCM聚類算法的圖書管理數(shù)據(jù)聚類研究[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2016,2806:50-57.endprint