張 艷
(陜西省考古研究院,陜西西安710054)
圖書(shū)館作為信息集散地與知識(shí)傳播的主要渠道,其核心價(jià)值集中體現(xiàn)在服務(wù)質(zhì)量的優(yōu)劣及效率的高低。目前,隨著信息化程度的加深,圖書(shū)館傳播信息、分享知識(shí)的環(huán)境發(fā)生了巨大的變化,如信息渠道增多、信息量幾何倍數(shù)增長(zhǎng),讀者需求層次趨于多樣化,查找信息的速度要求更快等。顯然,傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)分析和查詢檢索機(jī)制,已不能滿足讀者日益增長(zhǎng)的需求。因此,圖書(shū)館迫切需要建立一個(gè)現(xiàn)代的資料管理與用戶信息分析系統(tǒng),幫助管理者進(jìn)行科學(xué)決策,以提升圖書(shū)館的服務(wù)質(zhì)量。
基于基礎(chǔ)數(shù)據(jù)知識(shí)和信息挖掘,是一種“從現(xiàn)存的大量的、不完全的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,抽取或識(shí)別出隱含的、未知的、但又確實(shí)存在的信息,幫助決策者和管理者尋找數(shù)據(jù)潛在的關(guān)聯(lián),發(fā)現(xiàn)對(duì)決策者有價(jià)值的關(guān)系和模式,用于預(yù)測(cè)未來(lái)的趨勢(shì)及決策行為”的思想方法與技術(shù)體系。因其所獲信息一般具有先前未知、有效和實(shí)用的特征,現(xiàn)已廣泛地應(yīng)用于電信、電子商務(wù)及市場(chǎng)管理等領(lǐng)域。

圖1 數(shù)據(jù)與知識(shí)挖掘的處理過(guò)程
數(shù)據(jù)挖掘技術(shù)可以簡(jiǎn)單而有效的分析集中數(shù)據(jù)。對(duì)圖書(shū)館而言,首要的目的是利用它從模糊的數(shù)據(jù)中,獲得對(duì)讀者有用的知識(shí),對(duì)管理者決策有用的信息,如發(fā)掘用戶的興趣,為個(gè)性化服務(wù)提供數(shù)據(jù)支持;評(píng)估和預(yù)測(cè)館藏資源的建設(shè),為采購(gòu)項(xiàng)目的種類和數(shù)量提供有力地決策依據(jù),從而提高圖書(shū)館和用戶之間的互動(dòng)質(zhì)量。
正確地使用數(shù)據(jù)挖掘,首先就得了解其一般的運(yùn)作過(guò)程及相應(yīng)的數(shù)據(jù)分析方法與技術(shù)。為了直觀地顯示數(shù)據(jù)挖掘應(yīng)用的一般過(guò)程,我們基于對(duì)其功能與分析方法,構(gòu)建了一個(gè)基于知識(shí)與數(shù)據(jù)挖掘的決策流程示意圖(如圖1)。
如圖1所示,知識(shí)挖掘的一般過(guò)程可以描述為相對(duì)獨(dú)立又相互關(guān)聯(lián)的六個(gè)步驟。
第一步,數(shù)據(jù)的選取。這是整個(gè)過(guò)程中最為重要的環(huán)節(jié)。數(shù)據(jù)選取應(yīng)緊緊圍繞關(guān)注的問(wèn)題和預(yù)期目標(biāo)展開(kāi)。如想了解讀者的需求、使用模式及最優(yōu)的館藏資源配置,指導(dǎo)圖書(shū)館的建設(shè),就要選擇與其相關(guān)的讀者借閱情況、書(shū)籍流通情況等數(shù)據(jù)。這些數(shù)據(jù)可以容易地從圖書(shū)館的基礎(chǔ)數(shù)據(jù)找到。
第二步,數(shù)據(jù)的清洗。通過(guò)建立挖掘數(shù)據(jù)庫(kù),對(duì)選取的數(shù)據(jù)進(jìn)行進(jìn)一步甄別,剔除孤立的、不完整的和不具有任何含義的數(shù)據(jù)(如因操作員錯(cuò)誤產(chǎn)生的不完整的數(shù)據(jù)等),以免導(dǎo)致挖掘過(guò)程錯(cuò)誤的發(fā)生。
第三步,數(shù)據(jù)的濃縮。前一步進(jìn)行的同時(shí),利用圖書(shū)館以外的數(shù)據(jù)(如調(diào)查問(wèn)卷等資源所得的數(shù)據(jù)),進(jìn)一步補(bǔ)充、豐富數(shù)據(jù)庫(kù)內(nèi)容,以彌補(bǔ)現(xiàn)有數(shù)據(jù)的不足,使知識(shí)挖掘過(guò)程更加高效,并產(chǎn)生更好的效果。
第四步,數(shù)據(jù)的編碼和轉(zhuǎn)化。挖掘數(shù)據(jù)建立完善后,要將對(duì)不同的來(lái)源與格式的數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)挖掘算法的可用形式,以使所有的數(shù)據(jù)都適應(yīng)計(jì)算機(jī)的處理要求(例如更改出生日期年齡,由“是/否”改為“1/0”,改變男/女到 M/F)。
第五步,知識(shí)挖掘的執(zhí)行。選擇一種有效的知識(shí)挖掘算法與模型,對(duì)數(shù)據(jù)進(jìn)行分析,得出對(duì)決策有用的信息。分析內(nèi)容主要包括:①實(shí)體之間的關(guān)聯(lián)規(guī)則,如30%的學(xué)生沒(méi)有在規(guī)定的時(shí)間歸還借出的圖書(shū)等;②分類信息,如讀者群的分類、借閱圖書(shū)的主題的分類;③傾向與分歧分析,如用戶借閱資料興趣偏好、或某類材料讀者群傾向;④途徑信息分析,如圖書(shū)館的網(wǎng)站上訪問(wèn)的最流行的路徑。
第六步,報(bào)表的生成。結(jié)果的有效性某種程度上取決于其表現(xiàn)形式。數(shù)據(jù)挖掘的結(jié)果一般應(yīng)采取圖形圖像、計(jì)劃、圖表等直觀的形式來(lái)展現(xiàn),以清楚地顯示數(shù)據(jù)之間的相關(guān)性。因?yàn)槠淠康脑谟趲椭^察者發(fā)現(xiàn)結(jié)果的意義,做出正確的決定。
需要說(shuō)明的是,數(shù)據(jù)挖掘的過(guò)程是一個(gè)不斷反饋的過(guò)程,各步驟也不是一次完成的,部分或全部可能還要反復(fù)的進(jìn)行,直到達(dá)到預(yù)期結(jié)果。
為了進(jìn)一步理解如何利用數(shù)據(jù)技術(shù)提高圖書(shū)館管理,在此我們舉一個(gè)有關(guān)圖書(shū)館館藏建設(shè)與讀者個(gè)性化服務(wù)信息決策分析過(guò)程的案例進(jìn)行詳細(xì)說(shuō)明。
首先,根據(jù)設(shè)定的問(wèn)題與目標(biāo),數(shù)據(jù)選取應(yīng)重點(diǎn)選擇與館藏材料借閱及用戶組群信息相關(guān)的數(shù)據(jù),尤其是兩者之間具有關(guān)聯(lián)性的數(shù)據(jù)。具體而言,其內(nèi)容與來(lái)源可分為以下八類:
1)用戶查找與使用的館藏資源數(shù)據(jù)。包括資料的標(biāo)題、專題類別、學(xué)科分類、材料形式等。這些數(shù)據(jù)可以很容易地在圖書(shū)館的在線目錄查詢?nèi)罩疚募姓业健?/p>
2)有關(guān)用戶身份、職業(yè)、供職部門的數(shù)據(jù)以及他們所借材料的類別,數(shù)量,時(shí)間長(zhǎng)短,特定時(shí)期內(nèi)借閱的頻度,歸還材料的及時(shí)與否等。這些數(shù)據(jù)可以從計(jì)算機(jī)管理日志系統(tǒng)中查找。
3)有關(guān)用戶訪問(wèn)圖書(shū)館的網(wǎng)站路徑數(shù)據(jù)。假設(shè)我們已經(jīng)命名了網(wǎng)站的網(wǎng)頁(yè)(例如,A,B,C,D等),在每個(gè)用戶訪問(wèn)時(shí),我們就可以查詢用戶登陸路徑(例如,如果從A頁(yè)轉(zhuǎn)到C頁(yè),然后到D頁(yè),最后到B頁(yè),其訪問(wèn)路徑就可描述為“ACDB”)。利用這些數(shù)據(jù),可以找到最熱門的網(wǎng)址和瀏覽一個(gè)網(wǎng)站最流行的路徑。這些數(shù)據(jù)存儲(chǔ)在圖書(shū)館的Web服務(wù)器日志文件中。
4)有關(guān)圖書(shū)館的“期刊集”(印刷或電子)的數(shù)據(jù)。有價(jià)值的數(shù)據(jù)包括:期刊名稱,借閱人或部門、類型(印刷或電子式)、作者、供應(yīng)商以及其它合集時(shí)期。另一重要的數(shù)據(jù)可能是期刊使用頻率與用戶數(shù)。這些數(shù)據(jù),印刷材料可以從雜志的借閱登記表中獲得;電子材料可以從保存在電子期刊托管服務(wù)器web日志文件接收。
5)相關(guān)館際互借資料的數(shù)據(jù)。如用戶群體、資料來(lái)源、獲得資料時(shí)間及費(fèi)用成本要求等??捎糜诜治龅臄?shù)據(jù)是用戶的類別、部門,材料供應(yīng)商,獲得資料的時(shí)間及成本。
6)有關(guān)資料費(fèi)用的數(shù)據(jù)。像書(shū)本、期刊(紙質(zhì)的、電子版的),視聽(tīng)材料、電子訂閱、電子書(shū)籍等。有價(jià)值的數(shù)據(jù)主要是資料題目,材質(zhì)種類,收購(gòu)的花費(fèi)。
7)從研究機(jī)構(gòu)獲取的各種參數(shù)。如每類學(xué)校成員總數(shù)與各類成員的數(shù)量、部門數(shù)量及部門內(nèi)課程設(shè)置類型和數(shù)量,即為圖書(shū)館分配的預(yù)算。事實(shí)上,很多時(shí)候上述參數(shù)常被作為決策過(guò)程中的一個(gè)標(biāo)準(zhǔn)。
8)問(wèn)卷調(diào)查數(shù)據(jù)。通常涉及到用戶對(duì)于圖書(shū)館所提供的服務(wù)的滿意程度。被選擇用于分析數(shù)據(jù)包括:每一個(gè)評(píng)級(jí)(滿意、非常滿意、一般)百分比和用戶數(shù)量(例如30%或120名本科生-回答他們非常滿意),用戶類別,用戶部門、用戶的出生日期,用戶的學(xué)歷等。
其次,對(duì)選取的數(shù)據(jù)進(jìn)行預(yù)處理,建立知識(shí)挖掘數(shù)據(jù)庫(kù)。本研究案例中,主要希望發(fā)現(xiàn)兩個(gè)關(guān)系:一是用戶組和他們所借材料類型的關(guān)系;二是用戶組和材料借用時(shí)間之間的關(guān)系。同時(shí),我們也希望有一個(gè)指標(biāo),或者定義一個(gè)有關(guān)“材料的使用和它的可用性”指標(biāo),并據(jù)此看是否有增加或減少某個(gè)特定的材料的需要。由此,該任務(wù)中數(shù)據(jù)庫(kù)內(nèi)容至少應(yīng)該包括用戶信息、館藏資源信息、借閱材料信息三大部分內(nèi)容,各自信息數(shù)據(jù)可以作為數(shù)據(jù)庫(kù)的一個(gè)字段。這里我們簡(jiǎn)單列出三部分內(nèi)容所需數(shù)據(jù)字段表(表1,表2,表3)。

表1 用戶信息表

表2 資料信息

表3 借閱數(shù)據(jù)表
根據(jù)以上表格,可以通過(guò)空位填充來(lái)豐富完善分析所需數(shù)據(jù)。需要注意的是,填表前首先對(duì)原始數(shù)據(jù)信息進(jìn)行轉(zhuǎn)化與編碼處理,以適應(yīng)計(jì)算機(jī)處理的通用形式。譬如可以把一個(gè)部門的名稱轉(zhuǎn)變成用數(shù)字代表(如管理和生產(chǎn)工程用11;礦物資源工程用12,環(huán)境工程用13等),把用戶特征用大寫(xiě)英文字母代替(如本科生用P;碩士研究生用M;博士生用D;教授用PR、員工用E等)。如此編碼,就可使數(shù)據(jù)量大大減少,從而提高數(shù)據(jù)處理的速度。對(duì)于材料的特征形式,一般可以分兩類:一類是自然科學(xué),包括數(shù)學(xué)、計(jì)算機(jī)、物理等;另一類是人文學(xué)科,包括哲學(xué)、文學(xué)、藝術(shù)等。
第三,使用SPSS Clementine數(shù)據(jù)挖掘算法,對(duì)數(shù)據(jù)進(jìn)行聚合與分類,建立上述數(shù)據(jù)之間的關(guān)聯(lián),得出不同用戶和借閱的材料類型(即每組用戶群借閱不同類型材料比例),如圖2。用戶和歸還材料時(shí)間之間(即每組用戶歸還材料時(shí)間的對(duì)比)關(guān)聯(lián)性結(jié)論,如圖3。

圖2 不同讀者群借閱資料學(xué)科類別比例對(duì)比

圖3 不同讀者群歸還材料時(shí)間比例對(duì)比
要說(shuō)明的是,本案例研究中并沒(méi)有使用所有最初插入的數(shù)據(jù),但他們可以用于其它不同的相關(guān)性分析中。由于他們已經(jīng)插入表中,要獲得其他相關(guān)性是非常容易的。導(dǎo)出類似的相關(guān)性的表也是非常簡(jiǎn)單的,只要在分析項(xiàng)目中加入相關(guān)的參數(shù)。最重要的是,確定適當(dāng)?shù)囊仃P(guān)系,以及最想獲得的信息類型。
第四,分析統(tǒng)計(jì)表,對(duì)結(jié)果進(jìn)行評(píng)估與解釋,進(jìn)而做出決策。首先,從圖二中可以看出,64%研究生借的是關(guān)于科學(xué)方面的書(shū),只有36%借閱文學(xué)書(shū)籍。不同讀者群的閱讀興趣取向由此得以清楚表現(xiàn),再結(jié)合服務(wù)不同讀者的群數(shù)量比例參數(shù),我們就可以館藏資源進(jìn)行合理的優(yōu)化配置。從圖3可以看出,83%教授還書(shū)的時(shí)間延遲,和其他人員形成了明顯反差,據(jù)此我們可以制定有針對(duì)性制度建。
另外,仔細(xì)觀察材料用途的數(shù)據(jù),我們還可以通過(guò)關(guān)聯(lián)材料的“借出數(shù)量“和”預(yù)訂數(shù)量“,確定一個(gè)關(guān)于利用率指標(biāo)公式.即:
材料的直接利用指標(biāo)(IDAM)=預(yù)訂用戶數(shù)量/借出的數(shù)量
這個(gè)公式表示一種材料在一定時(shí)期內(nèi)預(yù)定與借出數(shù)量之間的關(guān)系,并顯示借出這種材料一個(gè)直接的可利用率。只要該指標(biāo)隨時(shí)間增加,對(duì)于這種材料的需求也隨之增加。例如,在一年的一段時(shí)期內(nèi)材料A被借10次,并在同一期間被預(yù)定5次,這意味著這種材料有5次不滿足需要。它的IDAM指標(biāo)是5∶10=0.5。及時(shí)增加這種資料的數(shù)量,這個(gè)指標(biāo)將得到改善,也就不會(huì)有那么多的預(yù)定,且會(huì)被更多的使用。通過(guò)使用這些指標(biāo),我們可以確定一個(gè)界限,根據(jù)它可以很容易地確定是否有必要增加這種特定材料,以滿足用戶的需求。除此,認(rèn)真觀察分析后的數(shù)據(jù),我們可以發(fā)現(xiàn)更多指標(biāo),幫助獲得關(guān)于各種關(guān)系的有用結(jié)論。這些結(jié)論可以運(yùn)用于圖書(shū)館的其他管理程序之中,幫助圖書(shū)館管理者看清楚圖書(shū)館發(fā)展趨勢(shì)與方向,以提升圖書(shū)館的整體服務(wù)質(zhì)量。
本文以圖書(shū)館各區(qū)域的日?;A(chǔ)數(shù)據(jù)為分析對(duì)象,旨在說(shuō)明數(shù)據(jù)挖掘技術(shù)是如何選擇、使用和分析這些數(shù)據(jù)從而得出有用的結(jié)論和信息,提升圖書(shū)館的運(yùn)作和服務(wù)。文中給出了圖書(shū)館所有數(shù)據(jù)資源的詳細(xì)列表,并一步一步的詳細(xì)描述了基于“知識(shí)發(fā)現(xiàn)和發(fā)掘”技術(shù)的分析方法和過(guò)程,介紹了一個(gè)應(yīng)用該技術(shù)的基于真實(shí)數(shù)據(jù)的研究案例。另外,界定了一個(gè)提高館藏資料利用率與可用性的指標(biāo)。這個(gè)分析方法最終目的,是利用最新的數(shù)據(jù)挖掘技術(shù),通過(guò)對(duì)已選取數(shù)據(jù)的分類、統(tǒng)計(jì)、分析進(jìn)而得出有益的信息,幫助決策者進(jìn)行決策和戰(zhàn)略規(guī)劃,從而構(gòu)建一個(gè)更有效的內(nèi)部程序機(jī)制,提升圖書(shū)館的服務(wù)質(zhì)量與效果。
[1]楊 輝.基于數(shù)據(jù)挖掘技術(shù)提高圖書(shū)館服務(wù)質(zhì)量[J].信息與電腦,2012(7):173-174.
[2]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利出版社,2003.
[3]李文闊,李永先.數(shù)據(jù)挖掘在數(shù)字圖書(shū)館中的應(yīng)用研究綜述[J].新世紀(jì)圖書(shū)館,2012(2):30-32.
[4]葉新友,晁成春.數(shù)據(jù)挖掘技術(shù)在高效圖書(shū)館中的應(yīng)用[J].新世紀(jì)圖書(shū)館,2005(1):50-51.
[5]陳京民.據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[6]張永生,劉苗苗.基于數(shù)據(jù)挖掘的圖書(shū)館管理模式分析[J].科技資訊,2010(3):245.
[7]元昌安.數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典[M].北京:電子工業(yè)出版社,2009.
[8]Meletiou A,Katsirikou A.Qualitative indicators of services of libraries and management of resources:methodologies of analysis and strategic planning[C]//Paper presented at the 15th Congress of Academic Libraries,San Antonio,TX,May,2006.