唐吉深
(河池學(xué)院圖書館,廣西 宜州 546300)
20世紀(jì) 90年代以來,數(shù)據(jù)挖掘技術(shù)已成為數(shù)據(jù)庫研究最活躍的分支之一。數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識的過程[1]。通過數(shù)據(jù)挖掘機器算法可以幫助決策者從海量的數(shù)據(jù)中自動發(fā)現(xiàn)隱藏其中有價值的關(guān)系和模式,從而對未來可能發(fā)生的行為進(jìn)行預(yù)測。
隨著圖書館網(wǎng)絡(luò)化、自動化的普及,數(shù)據(jù)庫技術(shù)在圖書館的應(yīng)用中迅速發(fā)展。圖書館日常管理產(chǎn)生大量數(shù)據(jù),如:圖書館書目數(shù)據(jù)、讀者流通借還數(shù)據(jù)、書目檢索記錄、Web訪問記錄等。采用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)加以挖掘分析,將對圖書館的采訪、流通、參考咨詢、數(shù)字圖書館建設(shè)等有著很強的指導(dǎo)作用。同時可為圖書館決策及開展服務(wù)創(chuàng)新提供強有力的科學(xué)依據(jù)。
在國外,數(shù)據(jù)挖掘技術(shù)活躍于各行各業(yè),如加州理工學(xué)院噴氣推進(jìn)實驗室與天文科學(xué)家合作開發(fā)的SKICAT系統(tǒng),能夠幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類星體;電子商務(wù)領(lǐng)域利用數(shù)據(jù)挖掘技術(shù)識別顧客的購買行為;生物學(xué)研究領(lǐng)域用數(shù)據(jù)挖掘技術(shù)對 DNA進(jìn)行分析;銀行利用數(shù)據(jù)挖掘技術(shù)對客戶詐騙行為進(jìn)行預(yù)測;IBM公司開發(fā)的 AS(Advanced Scout)系統(tǒng)針對 NBA的訓(xùn)練比賽數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術(shù)組合 ,等等[2]。
在 Thomson Reuters的 “Science Citation Index Expanded”數(shù)據(jù)庫中檢索有關(guān)數(shù)據(jù)挖掘技術(shù)及其在圖書館應(yīng)用方面的論文被 SCI收錄的情況,以“主題=(data mining)and入庫時間 =(2003—2009)”為檢索條件(簡稱檢索方式 1),得到 13 693條結(jié)果記錄;以“主題 =(data mining)and主題 =(library)and入庫時間 =(2003—2009)”為檢索條件(簡稱檢索方式 2),得到 27條結(jié)果記錄。按發(fā)表論文時間排列得到表 1(以上檢索時間為 2010年 5月 28日)。
SCI收錄的文章數(shù)量能夠反映某一問題研究的熱度與創(chuàng)新程度。從表 1可以看出,2003—2009年間,SCI收錄數(shù)據(jù)挖掘技術(shù)方面的文章總計 13 693篇,且逐年遞增,呈明顯的上升趨勢。這表明國外學(xué)者在數(shù)據(jù)挖掘技術(shù)研究領(lǐng)域相當(dāng)活躍,成果頗豐。而 SCI收錄數(shù)據(jù)挖掘在圖書館這一特定領(lǐng)域應(yīng)用的文章為 27篇,不及總量的 0.2%。這表明數(shù)據(jù)挖掘在圖書館領(lǐng)域的應(yīng)用相對較少,且高質(zhì)量的研究成果不多。

表1 國外數(shù)據(jù)挖掘論文被SCI收錄情況
在國內(nèi),數(shù)據(jù)挖掘技術(shù)應(yīng)用同樣廣泛,尤其以電子商務(wù)、電信等商業(yè)領(lǐng)域的應(yīng)用居多。國內(nèi)圖書館自引入基于數(shù)據(jù)庫的自動化管理系統(tǒng)后,數(shù)據(jù)量劇增。海量數(shù)據(jù)蘊藏著不菲的研究價值,但由于圖書館本身技術(shù)力量薄弱,往往只能憑借業(yè)務(wù)管理系統(tǒng)自帶的數(shù)據(jù)分析功能,對數(shù)據(jù)進(jìn)行諸如查詢、統(tǒng)計等表面化的分析。缺乏內(nèi)在的、深層次的問題分析,其分析效果不盡理想。鑒于此,一些學(xué)者嘗試?yán)脭?shù)據(jù)挖掘這種新興技術(shù)來解決所面臨的問題,以求服務(wù)質(zhì)量有所突破。
以下通過對中國知網(wǎng)“中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫”收錄的 2003—2009年間有關(guān)國內(nèi)數(shù)據(jù)挖掘技術(shù)在圖書館應(yīng)用研究方面的論文進(jìn)行定量、歸納分析,以展示其研究現(xiàn)狀。采用檢索條件式“主題 =(圖書館)并且主題 =(數(shù)據(jù)挖掘)并且時間 =(2003—2009)”進(jìn)行檢索,得到有效記錄 533條(以上檢索時間為 2010年 5月 28日)。
對上述檢索結(jié)果按照發(fā)表論文年代排列得到表2。從表 2可以看出,國內(nèi)數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用研究所發(fā)表的論文數(shù)量逐年遞增,且呈線性上升態(tài)勢。學(xué)者在這一領(lǐng)域的研究熱情持續(xù)升溫,數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用具有廣闊前景。

表2 國內(nèi)圖書館數(shù)據(jù)挖掘技術(shù)研究論文年代分布情況
533篇公開發(fā)表的論文分布在省級以上的 56種刊物中,其中圖書館專業(yè)期刊 36種,共刊載論文 398篇,占總發(fā)表量的 74.7%。對 56種刊物按其刊載量進(jìn)行排序,選取前 10位得到表 3。從表 3可以看出,前 10種期刊共刊載論文 180篇,占總發(fā)表量的 33.8%,其中 7種期刊為中文核心刊物,刊載論文 135篇,占前10種期刊刊載量的 75%。這表明其研究成果主要集中在核心刊物,且學(xué)術(shù)成果價值較高,學(xué)者在這一領(lǐng)域的研究得到了圖情界主流的認(rèn)可。

表3 圖書館數(shù)據(jù)挖掘技術(shù)論文載文量前 10位的期刊
這些公開發(fā)表論文的作者分散在 186個學(xué)術(shù)機構(gòu)中(其中高校 152個、其他機構(gòu) 34個)。以機構(gòu)發(fā)表論文數(shù)量排序,選取前 10位得到表 4。從表 4可以看出,排在前 10位的機構(gòu)有 9個為高校,有 1個為科研所。有關(guān)這一領(lǐng)域研究的學(xué)者多數(shù)來自高校,公共圖書館在這一領(lǐng)域開展的研究較少,其原因是高校在學(xué)術(shù)環(huán)境、實驗設(shè)施、人力資源等方面較公共圖書館有優(yōu)勢。但筆者認(rèn)為公共圖書館擁有龐大的讀者群,且讀者層次不一,利用數(shù)據(jù)挖掘技術(shù)對讀者開展個性化服務(wù)很有研究價值。由于高校對這一問題研究相對活躍,公共圖書館可以嘗試與高校開展合作研究,充分利用高校的優(yōu)勢資源,推進(jìn)數(shù)據(jù)挖掘技術(shù)在公共圖書館的應(yīng)用。

表4 國內(nèi)發(fā)表圖書館數(shù)據(jù)挖掘技術(shù)論文數(shù)量前 10位的機構(gòu)
對檢索到的 533篇論文,按照其在圖書館業(yè)務(wù)中的應(yīng)用范疇進(jìn)行分類得到表 5。從表 5可以看出,有關(guān)讀者個性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的論文居首,表明圖書館傾向于利用數(shù)據(jù)挖掘技術(shù)解決如何高效、高質(zhì)量地為讀者提供個性化服務(wù),最大限度滿足讀者需求的問題。以下選取檢索結(jié)果論文中具有代表性主題的文章進(jìn)行歸納分析。

表5 發(fā)表論文研究范疇分類
數(shù)據(jù)挖掘技術(shù)在讀者個性化服務(wù)中的應(yīng)用,主要表現(xiàn)為通過對讀者信息、讀者借閱和 Web使用記錄等進(jìn)行挖掘,建立讀者興趣模型,并根據(jù)模型對讀者開展有針對性的服務(wù)。如:史艷梅“建立了一種 CMPS系統(tǒng)模型來獲取用戶興趣”[3];郭家義“探討數(shù)據(jù)挖掘技術(shù)在個性化檢索系統(tǒng)中的作用以及如何發(fā)現(xiàn)用戶興趣”[4];柳炳祥等“將粗糙集和模糊聚類數(shù)據(jù)挖掘算法應(yīng)用到圖書館個性化服務(wù)中”[5];曹強“將數(shù)據(jù)挖掘技術(shù)與 RSS推送技術(shù)有機結(jié)合,設(shè)計、實現(xiàn)個性化信息服務(wù)模型”[6]。
數(shù)據(jù)挖掘技術(shù)在文獻(xiàn)采訪工作中的應(yīng)用,主要表現(xiàn)為通過對讀者信息、書目數(shù)據(jù)、讀者借閱數(shù)據(jù)、文獻(xiàn)檢索記錄等信息利用關(guān)聯(lián)分析、聚類分析進(jìn)行挖掘,發(fā)現(xiàn)讀者與借閱讀書之間的關(guān)系、不同讀者群的借閱傾向及不同學(xué)科間的聯(lián)系等,以指導(dǎo)采訪員科學(xué)選書。如:遲春佳等“針對如何科學(xué)制訂高校圖書館圖書采購計劃的問題,提出了將數(shù)據(jù)挖掘技術(shù)用于高校圖書館圖書采購計劃制定決策輔助的方法”[7];劉淑瑞“采用 k-means算法將讀者分為活躍讀者、一般讀者、較少讀者三類,并根據(jù)不同類讀者的借閱興趣,調(diào)整采購策略”[8];王伊蕾等“將數(shù)據(jù)挖掘技術(shù)與運籌學(xué)相結(jié)合,提出了一種基于庫存理論的圖書訂購策略”[9]。
數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館的應(yīng)用,主要表現(xiàn)為提供智能搜索引擎服務(wù)、圖書館 Web挖掘、多媒體數(shù)據(jù)挖掘、Web信息抽取等。如:鄒凱等“闡述了數(shù)據(jù)挖掘技術(shù)在智能搜索引擎服務(wù)中的個性化知識決策功能”[10];黎琳論述了“文本自動摘要、文本分類和文本聚類等 Web內(nèi)容挖掘技術(shù)在數(shù)字圖書館中的應(yīng)用”[11];張英等“介紹了圖像挖掘、視頻挖掘、音頻挖掘等多媒體挖掘方法,并提出了一種適合多媒體數(shù)據(jù)挖掘的系統(tǒng)框架”[12];宋玉忠“認(rèn)為Web數(shù)據(jù)抽取技術(shù)是 Web信息挖掘的關(guān)鍵,并提出了一種面向 XML描述的 Web數(shù)據(jù)抽取模型”[13]。
數(shù)據(jù)挖掘技術(shù)在參考咨詢工作中的作用,主要表現(xiàn)為利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)隱性知識,以使館員在解答讀者咨詢問題時更為客觀、全面。如:楊亞華“將知識管理、知識挖掘和參考咨詢服務(wù)有機結(jié)合,提出了一種新的參考咨詢服務(wù)體系結(jié)構(gòu)”[14]。
近年來,隨著計算機技術(shù)及互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,各種新技術(shù)不斷涌入圖書館,圖書館進(jìn)入 3.0時代,云計算、移動閱讀將主導(dǎo)未來圖書館的發(fā)展方向。如何將數(shù)據(jù)挖掘技術(shù)與這些新技術(shù)融合,已成為亟待解決的問題。筆者就新形勢下,數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用創(chuàng)新提出以下設(shè)想。
當(dāng)前,國外許多圖書館自動化業(yè)務(wù)管理系統(tǒng)已整合了數(shù)據(jù)挖掘功能(如 Mylibrary系統(tǒng))。國內(nèi)數(shù)據(jù)挖掘技術(shù)在圖情界的研究相對活躍,但主要是針對如何利用的問題在進(jìn)行探討,真正可操作性強、能夠指導(dǎo)實際業(yè)務(wù)的成熟產(chǎn)品很少,僅有少數(shù)大學(xué)圖書館自行開發(fā)有供本館使用的個性化服務(wù)系統(tǒng),如中國人民大學(xué)開發(fā)的 KBDL系統(tǒng)。由于圖書館一般技術(shù)力量比較薄弱,自主開發(fā)數(shù)據(jù)挖掘系統(tǒng)困難較大。由專業(yè)公司開發(fā)具有數(shù)據(jù)挖掘功能的圖書館自動化業(yè)務(wù)管理系統(tǒng),在圖書館進(jìn)行推廣使用,將促進(jìn)數(shù)據(jù)挖掘技術(shù)在圖書館應(yīng)用的普及。
隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展成熟及 3G手機的普及,移動閱讀越來越受到讀者青睞。中國國家圖書館、重慶大學(xué)圖書館等率先推出手機圖書館 WAP網(wǎng)站,以滿足手機讀者用戶的需求。手機圖書館的推出大大便利了讀者,讀者足不出戶即可獲得圖書館的資源。如何為手機讀者開展個性化服務(wù),將成為手機圖書館當(dāng)前面臨的巨大挑戰(zhàn)。圖書館可嘗試在手機圖書館 WAP網(wǎng)站后臺部署讀者興趣挖掘模型,通過模型對手機讀者的訪問記錄及借閱情況進(jìn)行挖掘,找出讀者感興趣的資源。一旦發(fā)現(xiàn)圖書館有其感興趣的資源,就可利用模型推送技術(shù)向手機讀者發(fā)送短信告知。由此可見,利用數(shù)據(jù)挖掘技術(shù)解決手機圖書館個性化服務(wù)具有可行性。
自 Google提出云計算框架以來,云計算得到了廣泛的應(yīng)用。所謂“云圖書館”即“圖書館云”,這是建立在云計算模式下的一種服務(wù),是整個云計算模式架構(gòu)中的一個功能層,是互聯(lián)網(wǎng)上的一朵云[15]。由此可見,云計算環(huán)境下,“云圖書館”本質(zhì)上是一種服務(wù),來自五湖四海的圖書館終端共享“云圖書館”的基礎(chǔ)設(shè)施,共同構(gòu)成一個存在于互聯(lián)網(wǎng)中的大型數(shù)據(jù)庫。“云圖書館”應(yīng)用數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)深層次的知識,使“云圖書館”服務(wù)更具人性化。
基于數(shù)據(jù)挖掘思想,通過對國內(nèi)外學(xué)者公開發(fā)表的有關(guān)圖書館數(shù)據(jù)挖掘應(yīng)用方面的論文進(jìn)行深層次分析,并對其未來發(fā)展方向進(jìn)行探討,以期能夠反映其發(fā)展軌跡與趨勢,進(jìn)而推進(jìn)數(shù)據(jù)挖掘技術(shù)在圖書館的更廣泛應(yīng)用。
[1]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利電利出版社,2003:2.
[2]李菁菁,培 基,亦 瀟.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究[J].管理工程學(xué)報,2004(3):10—14.
[3]史艷梅.個性化服務(wù)中挖掘用戶興趣的 CMPS[J].現(xiàn)代圖書情報技術(shù),2005(3):85—87.
[4]郭家義.個性化檢索系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)分析[J].現(xiàn)代圖書情報技術(shù),2003(8):93— 97.
[5]柳炳祥,鄧歡軍,高淑妍,等.基于數(shù)據(jù)挖掘的圖書館個性化服務(wù)系統(tǒng)[J].現(xiàn)代情報,2007(3):108—109.
[6]曹 強.圖書館個性化信息服務(wù)模型的設(shè)計與實現(xiàn)[J].情報雜志,2007(4):80— 83.
[7]遲春佳,毛志勇.基于數(shù)據(jù)挖掘的高校圖書館圖書采購計劃輔助決策研究[J].現(xiàn)代情報,2007,29(7):108—110.
[8]劉淑瑞,秦文珍,張 聰.基于數(shù)據(jù)挖掘技術(shù)的圖書館采購管理研究[J].重慶文理學(xué)院學(xué)報(自然科學(xué)版),2010,29(1):110—112.
[9]王伊蕾,李 濤,王福生,等.一種基于庫存理論的圖書訂購策略[J].情報科學(xué),2008,26(5):698—700.
[10]鄒 凱,汪全莉.智能搜索引擎與數(shù)字圖書館個性化服務(wù)[J].情報科學(xué),2004,22(7):874— 877.
[11]黎 琳,趙 英.Web內(nèi)容挖掘在數(shù)字圖書館中的應(yīng)用[J].圖書館學(xué)研究,2006(2):19—21.
[12]張 英,趙艷君.數(shù)字圖書館中多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)和方法[J].數(shù)字圖書館技術(shù)論壇,2008(1):92—94.
[13]宋玉忠.Web抽取技術(shù)在數(shù)字圖書館中的應(yīng)用[J].四川圖書館學(xué)報,2009,3(169):46— 49.
[14]楊亞華.基于知識管理與知識挖掘中的參考咨詢服務(wù)探討[J].科技情報開發(fā)與經(jīng)濟,2007,17(29):28—30.
[15]致齋主.云圖書館就是圖書館云[EB/OL].[2009-09-24].http://www.linhq.net/archives/48.