〔摘 要〕讀者細(xì)分是圖書館管理中迫切需要解決的問題,“被動(dòng)服務(wù)”的圖書館服務(wù)模式逐漸轉(zhuǎn)向“讀者驅(qū)動(dòng)”,所提供的個(gè)性化服務(wù)應(yīng)該符合讀者的實(shí)際需求,因此這種個(gè)性化服務(wù)對于目前單一的讀者屬性細(xì)分方式提出了更高的要求。本文采用系統(tǒng)聚類算法建立了圖書館讀者細(xì)分模型,進(jìn)而提出了四種不同的細(xì)分方式,并用圖書館流通數(shù)據(jù)對模型進(jìn)行了測試,驗(yàn)證了該細(xì)分模型的實(shí)用性和有效性。
〔關(guān)鍵詞〕圖書館流通;個(gè)性化服 務(wù);系統(tǒng)聚類算法;讀者細(xì)分模型
〔中圖分類號(hào)〕G252 〔文獻(xiàn)標(biāo)識(shí)碼〕C 〔文章編號(hào)〕1008-0821(2009)09-0158-04
A Segmentation Model of Library Reader Based on System Clustering AlgorithmNie Zhen
(Library,Chongqing University of Technology,Chongqing 400050,China)
〔Abstract〕Reader segmentation is an imperative problem to the library management.L ibrary services mode characterized by“passive service”has gradually transforme d to“reader-driven”,which requires to provide personalized service solution inaccordance with the actual needs of the readers.So personalized service put uphigher requirements for the current single property division of readers.This pap er adopted system clustering algorithm to set up a reader segmentation model oflibrary,further presented four different division methods.After the model was te sted by a large number of realistic library circulation data,the practicality an d validation of the model was proved.
〔Key words〕library circulation;personalized service;system cluster algorithm;reader segmentation model
圖書館作為服務(wù)型行業(yè),對讀者需求和讀者特點(diǎn)的深刻把握才是提高服務(wù)質(zhì)量的關(guān)鍵,作為分析讀者方法的讀者細(xì)分已成為圖書館管理中重要的工具,主要是指圖書館在明確的戰(zhàn)略和服務(wù)模式下,根據(jù)讀者的需求和偏好等綜合因素對于讀者進(jìn)行分類,對不同的讀者群提供具有個(gè)性化的圖書借閱服務(wù)模式,其優(yōu)點(diǎn)主要表現(xiàn)在以下幾個(gè)方面:
(1)讀者細(xì)分是讀者管理的基礎(chǔ):當(dāng)前管理者應(yīng)該對其最寶貴的讀者資源進(jìn)行精細(xì)化管理,比如根據(jù)讀者的價(jià)值對其進(jìn)行分級(jí)管理、為圖書借閱率不同的讀者設(shè)定不同的借閱時(shí)限、為書籍閱讀模式和閱讀能力不同的讀者設(shè)計(jì)不同的新書推薦等。讀者管理越來越成為圖書館管理者的核心和主線,而識(shí)別新讀者、提升現(xiàn)有讀者價(jià)值以及對讀者流失傾向的察覺等方面都需要建立在對讀者細(xì)分的基礎(chǔ)上。
(2)讀者細(xì)分可以增強(qiáng)圖書借閱服務(wù)的針對性:通過讀者細(xì)分發(fā)掘讀者對服務(wù)的特定需求,從而提供個(gè)性化的服務(wù),使管理者在流通服務(wù)日趨同質(zhì)化的今天獲得讀者的青睞。除了圖書流通服務(wù)外,讀者對管理人員服務(wù)質(zhì)量的感受還來源于接受服務(wù)的所有接觸點(diǎn)上,比如電子書籍服務(wù)、期刊借閱廳和外文借閱廳。
(3)圖書借閱服務(wù)創(chuàng)新取決于管理人員細(xì)分讀者的能力:圖書借閱業(yè)務(wù)創(chuàng)新能夠?yàn)閳D書館管理創(chuàng)造新的借閱量增長點(diǎn)、提高資源利用率降低管理成本、滿足讀者需求。而只有通過準(zhǔn)確的讀者細(xì)分把握讀者需求的差異性,圖書館管理者才能根據(jù)讀者的特定需求開發(fā)出“以人為本”的新業(yè)務(wù)。由于讀者細(xì)分能夠揭示新業(yè)務(wù)讀者群體的借閱水平,有利于圖書館在業(yè)務(wù)創(chuàng)新時(shí)更有效地控制管理成本。此外圖書館通過讀者細(xì)分能夠發(fā)掘某一讀者群體的潛在需求,根據(jù)這一讀者群體的需求特征設(shè)計(jì)出獨(dú)具特色的圖書借閱業(yè)務(wù),因此讀者細(xì)分有助于圖書館挖掘書籍流通中被忽略處,通過借閱差異化建立起服務(wù)優(yōu)勢,從而提升自身的競爭力。
本文根據(jù)圖書館讀者服務(wù)需求,分析了圖書館讀者細(xì)分模型,對模型體系結(jié)構(gòu)、模型數(shù)據(jù)準(zhǔn)備、模型挖掘算法、模型樣本庫生成等步驟進(jìn)行了闡述,另外對模型在圖書館中的應(yīng)用也做了詳細(xì)的介紹。
1 模型的體系結(jié)構(gòu)
根據(jù)圖書館流通的特性,本文將讀者細(xì)分模型分為數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)訪問三層。讀者細(xì)分的基礎(chǔ)是對讀者的信息和資料進(jìn)行收集和整理,通過比較找出他們之間的差異,然后對其進(jìn)行分類。如圖1所示:圖1 模型體系結(jié)構(gòu)
數(shù)據(jù)應(yīng)用層:對數(shù)據(jù)倉庫市中數(shù)據(jù)進(jìn)行分析和聚類,建立讀者細(xì)分模型,形成圖書館管理和決策工作所需的讀者細(xì)分信息。
數(shù)據(jù)存儲(chǔ)層:實(shí)現(xiàn)對圖書館業(yè)務(wù)數(shù)據(jù)倉庫中數(shù)據(jù)和元數(shù)據(jù)的集中存儲(chǔ)與管理,并可根據(jù)需求建立面向圖書館流通部門主題的數(shù)據(jù)倉庫。
數(shù)據(jù)獲取層:將圖書館流通部日常借閱數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換,并加載到數(shù)據(jù)倉庫。
2009年9月第29卷第9期現(xiàn)?代?情?報(bào)Journal of Modern InformationSep.,2009Vol.29 No.92009年9月第29卷第9期一種基于系統(tǒng)聚類的圖書館讀者細(xì)分模型Sep.,2009Vol.29 No.92 模型的系統(tǒng)聚類算法
根據(jù)圖書館流通性質(zhì),要進(jìn)行讀者細(xì)分就需要根據(jù)讀者屬性劃分讀者集合,這就需要對樣本進(jìn)行聚類分析,本文采用統(tǒng)計(jì)學(xué)聚類分析中最為廣泛的系統(tǒng)聚類法。下面介紹系統(tǒng)聚類法的基本原理:
(1)將n個(gè)樣本或指標(biāo)各自看成一類,得到n個(gè)類;
(2)計(jì)算樣本(或指標(biāo))之間的親疏程度,也就是它們的距離;
(3)將親疏程度最高(即距離最近)的兩類合并為一類,形成一個(gè)新的類。
(4)考慮合并后的類與其他類之間的親疏程度,再進(jìn)行合并。重復(fù)這一過程,經(jīng)過n-1次合并后,所有的樣本(或指標(biāo))成為一類。
(5)聚類圖,將上述合并的全部聚類過程用直觀圖畫出。
(6)決定類的個(gè)數(shù),并由上述步驟得到相應(yīng)的聚類分析結(jié)果。
下面介紹系統(tǒng)聚類法的基本步驟:
第一步:規(guī)定距離(歐氏距離),計(jì)算各樣本兩兩距離,并記載在分類距離對稱表中。記為D(0),這就是第0步的表,每個(gè)樣本為一類。duv表示兩個(gè)樣本之間的距離,Duv表示每兩個(gè)類之間的距離。
第二步:選擇其中的最短距離,設(shè)為Duv,則將Gu和Gv合并成一個(gè)新類,記為Gr,Gr={Gu,Gv}。這就是Gr類,表示由Gu類和Gv類組成。
第三步:計(jì)算新類Gr與其他類之間的距離,定義
Drk=mini∈Grj∈Gk{dij}=minmini∈Guj∈Gkdij,mini∈Gvj∈Gkdij
實(shí)際上是判斷Duk和Drk的大小,將小的距離作為新類Dr和Dk之間的距離。
第四步:作D(1)表,將D(0)中的第u,v行第u,v列刪去,加第r行r列,第r行r列元素為Dr與其它類的距離,這樣得到一個(gè)新的距離對稱表,記為D(1)表,表示經(jīng)過一次聚類后的距離表,D(1)表下注明Dr是包含哪兩類。
第五步:對D(1)按從第二到第四步的步驟重復(fù)類似D(0)的聚類工作,可以得到D(2)表,這就是經(jīng)過二次聚類得到的一個(gè)新的分類距離對稱表。
第六步:重復(fù)聚類,直到最后只剩下兩個(gè)類為止。
在這個(gè)方法的實(shí)施步驟中,類與類之間的距離計(jì)算是非常重要的,也就是如何定義類與類之間的親疏程度,本文采用聚類分析中最常用的歐氏距離。
3 讀者細(xì)分模型的建立
3.1 讀者細(xì)分的數(shù)據(jù)模型
首先要在建立細(xì)分模型之前,根據(jù)圖書館流通性質(zhì)找出影響讀者細(xì)分模型的屬性字段,建立讀者細(xì)分的數(shù)據(jù)模型。然后建立數(shù)據(jù)模型,就需進(jìn)行數(shù)據(jù)抽樣,采取分層隨機(jī)抽樣的方法從讀者基本信息表(readerinfo.mdf)中抽取1 500個(gè)樣本,形成讀者樣本庫存放于表readerinfosample.mdf中,根據(jù)讀者編號(hào),從讀者詳細(xì)借閱表(borrowdetail.mdf)、讀者借閱匯總表(borrowsum.mdf)、讀者借閱均值表(avgborrowsum.mdf)中提取讀者相關(guān)數(shù)據(jù)。圖2 數(shù)據(jù)預(yù)處理流程圖
最后,數(shù)據(jù)統(tǒng)一匯到一張表readerborrowdetail中,作為讀者細(xì)分的數(shù)據(jù)模型,其sql語句如下:
CREATE TABLE[dbo].[readerborrowdetail](
[readerid][decimal](10,0)NOT NULL,
[readername][varchar](16)NOT NULL,
[telnumber][varchar](16)NOT NULL,
[readerdepartment][varchar](20)NULL,
[readerage][varchar](10)NULL,
[readermark][varchar](20)NULL,
[totalborrow][decimal](16,2)NULL,
[monthborrow][decimal](16,2)NULL,
[cultrueborrow][decimal](16,2)NULL,
[noncultrueborrow][decimal](16,2)NULL,
[avgtotalborrow][decimal](16,2)NULL,
[avgmonthborrow][decimal](16,2)NULL,
[avgcultrueborrow][decimal](16,2)NULL,
[avgnoncultrueborrow][decimal](16,2)NULL
)ON[PRIMARY]
3.2 讀者細(xì)分模型的建立
單一的讀者屬性劃分方式很難滿足圖書館管理和決策工作的需要,本文從不同的角度全方位地對讀者屬性進(jìn)行劃分,以滿足圖書館經(jīng)營者和管理決策者的不同需求。從圖書館流通的需求來看,由于年齡、專業(yè)、受教育程度等方面的不同,讀者對圖書館流通的需求呈現(xiàn)多層次、個(gè)性化、差異化的趨勢,具體劃分如下:
3.2.1 按讀者借閱類型構(gòu)成比例劃分的細(xì)分
第一步:選取細(xì)分變量avgmonthborrow/avgtotalborrow、avgcultrueborrow/avgtotalborrow、avgnoncultrueborrow/avgtotalborrow。
第二步:用系統(tǒng)聚類法對1 000個(gè)用戶聚類。
第三步:將avgmonthborrow/avgtotalborrow、avgcultrueborrow/avgtotalborrow、avgnoncultrueborrow/avgtotalborrow作為模型的輸入,第二步得出的聚類結(jié)果作為模型輸出。
第四步:模型的應(yīng)用,輸入任意個(gè)用戶的字段值,用第二步得出的聚類模型進(jìn)行計(jì)算,得到期望的細(xì)分結(jié)果。
3.2.2 按讀者專業(yè)對借閱量貢獻(xiàn)細(xì)分
第一步:選取細(xì)分變量readerdepartment、readermark、avgtotalborrow、avgmonthborrow、avgcultrueborrow、avgnoncultrueborrow,根據(jù)圖書館信息部提供的數(shù)據(jù),字段readerdepartment的可選值為:數(shù)理學(xué)院、經(jīng)濟(jì)與貿(mào)易學(xué)院、計(jì)算機(jī)科學(xué)與工程學(xué)院、汽車學(xué)院、人文社會(huì)科學(xué)學(xué)院、會(huì)計(jì)學(xué)院、電子信息與自動(dòng)化學(xué)院、工商管理學(xué)院、材料科學(xué)與工程學(xué)院、外國語學(xué)院、化學(xué)與生物工程學(xué)院、體育教學(xué)部、成人教育學(xué)院、應(yīng)用技術(shù)學(xué)院、商貿(mào)信息學(xué)院、知識(shí)產(chǎn)權(quán)學(xué)院。字段readermark的可選值:學(xué)生、教師、職工。
第二步:將readerdepartment與readermark組合成5類,每一類的avgtotalborrow、avgmonthborrow、avgcultrueborrow、avgnoncultrueborrow的值進(jìn)行聚類,得出的聚類結(jié)果作為模型的輸出。
第三步:模型的應(yīng)用,輸入任意個(gè)用戶的字段值,用第二步得出的聚類模型進(jìn)行計(jì)算,得到期望的細(xì)分結(jié)果。
3.2.3 按讀者借閱類型構(gòu)成細(xì)分
第一步:選取細(xì)分變量avgtotalborrow、avgmonthborrow、avgcultrueborrow、avgnoncultrueborrow,單位:次。
第二步:用系統(tǒng)聚類法對1000個(gè)用戶進(jìn)行聚類。
第三步:將avgtotalborrow、avgmonthborrow、avgcultrueborrow、avgnoncultrueborrow作為模型的輸入,第二步得出的聚類結(jié)果作為模型輸出。
第四步:模型的應(yīng)用,輸入任意個(gè)用戶的字段值,用第二步得出的聚類模型進(jìn)行計(jì)算,得到期望的細(xì)分結(jié)果。
3.2.4 按讀者年齡對借閱量貢獻(xiàn)細(xì)分
第一步:選取細(xì)分變量readerage、readermark、avgtotalborrow、avgmonthborrow、avgcultrueborrow、avgnoncultrueborrow,根據(jù)圖書館提供的數(shù)據(jù),字段readerage的可選值為:20歲以下的用戶;20到30歲之間的用戶;30歲以上的用戶。字段readermark的可選值:學(xué)生、教師、職工。
第二步:將readerage與readermark組合成5類,每一類的avgtotalborrow、avgmonthborrow、avgcultrueborrow、avgnoncultrueborrow的值進(jìn)行聚類,得出的聚類結(jié)果作為模型的輸出。用系統(tǒng)聚類法對1000個(gè)用戶聚類得出模型。
第三步:模型的應(yīng)用,輸入任意個(gè)用戶的字段值,用第二步得出的聚類模型進(jìn)行計(jì)算,得到期望的細(xì)分結(jié)果。
4 圖書館讀者細(xì)分模型的應(yīng)用
本文建立模型以后,通過圖書館所提供的大量的現(xiàn)實(shí)數(shù)據(jù)加以驗(yàn)證,測試該模型的有效性和實(shí)用性。以“讀者專業(yè)對借閱量貢獻(xiàn)細(xì)分”為例,模型細(xì)分結(jié)果如下所示。圖3 圖書館讀者細(xì)分模型特征對話框
圖4 圖書館讀者細(xì)分模型特征圖
圖5 分類特征圖(按借閱總量劃分)
可以看到,對于不同的劃分方式得到了五類讀者,結(jié)果顯示了每一類讀者所占的比例和人數(shù)以及這一類讀者所具有的特征,每一類之間具有顯著的差異和不同的特性,類間沒有重復(fù)和交叉,這驗(yàn)證了細(xì)分模型的合理性,可以滿足圖書館管理決策者對讀者的不同細(xì)分需求。
5 結(jié) 論
本文利用數(shù)據(jù)挖掘聚類方法中的系統(tǒng)聚類算法設(shè)計(jì)了相應(yīng)的體系構(gòu)架,結(jié)合重慶理工大學(xué)圖書館讀者借閱業(yè)務(wù)需求,建立了圖書館讀者細(xì)分模型。通過該校圖書館所提供的大量的現(xiàn)實(shí)數(shù)據(jù)的訓(xùn)練,得到的細(xì)分結(jié)果驗(yàn)證了模型的合理性和實(shí)用性,為圖書館服務(wù)和決策提供了有力的技術(shù)支持??紤]到讀者細(xì)分是隨著時(shí)間推移相對變化的,不同時(shí)期的讀者借閱特點(diǎn)有可能會(huì)發(fā)生變化,因此圖書館管理者應(yīng)該隨時(shí)關(guān)注讀者的變化,對其讀者細(xì)分模型策略進(jìn)行調(diào)整。
參考文獻(xiàn)
[1]宋瓊.論信息網(wǎng)絡(luò)環(huán)境下高校圖書館讀者服務(wù)創(chuàng)新之根本[J].現(xiàn)代情報(bào),2008,28(4):85-86.
[2]劉靜春,余玲.數(shù)字圖書館中讀者偏好智能分析系統(tǒng)[J].情報(bào)雜志,2008,27(5):107-109.
[3]劉勇,徐雙.基于讀者知識(shí)的圖書館讀者服務(wù)創(chuàng)新[J].圖書館論壇,2008,28(3):114-116.
[4]張兵.從讀者分層論視角看圖書館服務(wù)熱點(diǎn)[J].高校圖書館工作,2008,(6):74-76.
[5]嚴(yán)京生.基于MBR技術(shù)的圖書館讀者群構(gòu)建及研究[J].現(xiàn)代情報(bào),2007,27(11):14-17.
[6]羅仕健,朱光磊.網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用[J].情報(bào)雜志,2004,(6):22-24.
[7]辛艷玲.關(guān)注讀者群變化做好針對性服務(wù)[J].圖書館界,2007,(6):19-21.
[8]Jiawei Han,Micheline Kamb.Data Mining-Concept and Techniques[M].北京:機(jī)械工業(yè)出版社,2007:162-168.