基于數據挖掘技術的圖書館流通數據的關聯分析

2009-04-29 00:00:00陸覺民馬國棟鄭宇

現代情報 2009年9期

〔摘要〕運用改進的Apriori算法，對具有代表性的與分析任務相關的數據進行樣本抽取，利用Weak作為數據挖掘算法開發工具，產生了一系列強關聯規則。根據這些規則，我們可以解讀出一些現象，它不僅能揭示隱藏在大量數據后的重要關系信息，同時也為這種關系提供了量化描述手段。這些定性定量的信息不僅能對圖書館的各項工作提供技術上的支持，還可對學校的教學，課程的設置，學科的交叉滲透等提供信息。

〔關鍵詞〕數據挖掘;關聯規則;圖書館

〔中圖分類號〕G250.7 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)09-0108-03

The Association Analysis for Library Circulation

Data Based on Data Mining TechniqueLu Juemin Ma Guodong Zheng yu

(Library，Shanghai University，Shanghai 200072，China)

〔Abstract〕This paper presented an improved algorithm based on the analysis of the Apriori method，collected typical samples related to our task analysis，used WEKA as Development Tools to discover strong association rules.According to these rules，we can reveal important relations between mass data and quantize the relations.Those quantized information not only provided support for routine work in library，but also for education，curriculum and interpenetration.

〔Key words〕data mining;association rules;library

隨著圖書館數字信息化的進展，信息的種類越來越多，且變化頻繁，信息資源呈爆炸性的增長。與此同時，知識的不斷更新和科研課題的時間性和階段性，使高校讀者對信息的需求具有針對性、及時性和新穎性，并呈多元化和個性化的特征。

然而，在信息需求多樣化、個性化的趨勢下，人們發現要準確、快速地查找自己所需的信息并非容易。從需求內容上，他們要求提供的信息更具全面性和精確性，不再僅僅滿足獲得信息載體方面的信息，還需要權威性相關信息，并希望進一步得到經過整合、創新，能解決問題的知識內容;從需求時效上，他們要求個人的信息需求及時得到滿足。在這樣的背景下，高校圖書館傳統的服務方式受到了嚴峻的挑戰，高校圖書館不僅需要根據用戶明確提出的個性化要求提供信息服務，而且需要通過認真分析用戶個人特征和使用信息的習慣等來發現其潛在需求并主動地向他們提供可能需要的服務。為此，2008年上海市圖書館學會將此作為立項課題。

1 研究的內容

用戶需求是圖書館工作存在和發展的前提，只有加強用戶需求信息需求行為特點的研究，才能有針對性地開展工作。就目前數字圖書館個性化信息服務系統普遍比較單一，個性化智能程度不高的特點，本文提出利用數字挖掘技術進行圖書館個性化技術的研究，我們以上海大學圖書館部分流通數據作為研究對象通過用戶的歷史訪問記錄，采用關聯規則挖掘技術，發現用戶潛在可能的興趣，進行針對性的提煉整合和更高層次的分析。

1.1 運用改進的Apriori算法

通過對經典的Apriori算法的改進，采用JAVA作為數據挖掘矩陣算法的開發環境，針對其算法性能瓶頸，根據頻繁項集的性質和二進制邏輯運算的基本思想，提出基于矩陣的數據挖掘算法。挖掘關聯規則的關鍵問題在于提高算法的效率，對于類似圖書館這樣的信息量大且數據分散的大型數據庫系統矛盾更為突出，采用矩陣的數據挖掘技術較好避免了Apriori系列算法固有的缺陷，算法占用內存小，I/O操作少，執行速度快，系統效率大大提高。

1.2 數據的預處理

數據預處理的質量直接影響后續工作，高質量的數據預處理，不僅能節約系統資源，而且能提高數據挖掘過程的精度和性能，提高系統效率。

對具有代表性的與分析任務相關的數據進行樣本抽取，讀者的借閱習慣與其所從事的專業有很大的聯系，因此需要從圖書館系統的數據庫中根據讀者專業屬性提取借閱數據，將相關數據庫轉換整合，數據歸約，把用戶空間分成若干相似用戶聚類群，實現與數據挖掘矩陣算法的對接。

我們著重跟蹤上海大學機電工程與自動化學院及知識產權學院2005級大一及大三學生借閱O-數理學科和化學類，H31-英語類，D-政治法律類，I-文學類，TP-自動化及計算機技術類書籍的數據，總計12 747條記錄，分類統計見表1。

1.3 用戶隱私安全與保護問題

為了更好地開展個性化服務，用戶的個人信息是不可缺少的，這就涉及到了用戶的隱私問題。由于個性化信息服務需要對用戶的基本信息和查詢行為進行基本的分析，因此有關用戶日常行為日志、個人信息、注冊信息等都在用戶個性化特征分析之中。個性化信息服務應該使用戶相信其個人信息不會被濫用，而是用于有效滿足用戶的需求。同時應該在用戶中樹立良好的信譽感，制定出較為完善的隱私保護政策，保證用戶個人信息不被第三方使用。

2 關聯挖掘結果及評估

經統計05級自動化學院、知識產權學院和文學院參與關聯分析的5類書籍借閱人數占總借閱人數的比例都在90%以上，樣本選取合理，可信度高。05級自動化學院、知識產權學院文學院大一、大三學生借閱率變化如圖1。工科類的借閱率呈下降，文科類的借閱率呈上升。文科大一大三的借閱率都高于工科。

根據統計，學校的文理科都有這個變化趨勢。我們分析主要原因是當今社會科技發展日新月異，工科專業類的圖書更新相對落后于需要，上網查資料成了學生解決問題的重要途徑。而文科則不同，隨著學習的深入，需要的是更經典，更具有積淀的資料，這些專業信息，圖書館的藏書更多于網上能提供的資源。總的來說網絡是影響借閱率的主要因素之一。

課題利用Weka作為數據挖掘算法開發工具，Weka的全名是懷卡托智能分析環境，是一款免費的、非商業化的，基于JAVA環境下開源的機器學習以及數據挖掘軟件。它和它的源代碼可在其官方網站下載。WEKA能承擔對數據進行預處理，分類、回歸、聚類、關聯規則以及在新的交互式界面上的可視化。而開發者則可使用Java語言，利用Weka的架構上開發出更多的數據挖掘算法。頻繁項目集L={O，D，H31，I，TP}，取最小置信度minConfidence為0.66。關聯挖掘的結果如下:

05級大一自動化，時間:2005年9月-2006年7月

讀者數N=315，最小支持度為0.2，得到頻繁三項集L3={O，I，H31}。自動化05級大一強關聯規則見表3。

05級大三自動化，時間:2007年9月-2008年7月

讀者數N=293，最小支持度為0.1，得到頻繁三項集L3={TP，I，H31}。自動化05級大三強關聯規則見表4。

05級大一知識產權，時間:2005年9月-2006年7月

讀者數N=156，最小支持度為0.2，得到頻繁三項集L3={D，I，H31}。知識產權05級大一強關聯規則見表5。

05級大三知識產權，時間:2007年9月-2008年7月

讀者數N=172，最小支持度為0.1，得到頻繁三項集L3={D，I，H31}。知識產權05級大三強關聯規則見表6。

關聯挖掘得出的結果與圖書館實際工作及讀者調查相比較，結果是很相近的。現選擇典型的加以說明。

(1)根據所選取的關聯規則最小支持度，機電工程與自動化學院1，3年級得到的頻繁三項集分別為L3={O，I，H31}和L3={TP，I，H31}。從實際情況來看:自動化專業的學生在整個大學的學習過程中一般很少有借閱政治法律類書籍的需要，大一的學生對數學等基礎課程的圖書借閱比較集中而對自動化及計算機技術類書籍的借閱量相對少，到了大三隨著基礎課程的結束和專業課的開設學生對數理學科和化學類書籍的借閱急劇減少，對自動化及計算機技術類書籍的借閱量卻大大增加了。

(2)知識產權學院1，3年級所得到的頻繁三項集沒有變化L3={D，I，H31}，O(數理學科和化學類)和TP(自動化及計算機技術類)不參與各年級的關聯規則的運算。這個結果也是很顯然的。

(3)表3~表6中，H31英語類書籍出現在較多的強關聯規則里，從宏觀上來說英語是學校工科、文科各年級的主要借閱書籍。從另個角度看，整個大學期間學生在外語上花費了大量的時間和精力。

(4)表4中，H31=>TP，I=>TP的作用度分別是3.32和1.41，表明自動化大三年級期間，相對于文學書籍而言，外語類書籍與專業書籍相關性更高些。在表6中，因為I=>D的作用度小于1，所以文學類書籍與法律類書籍的關聯是無效的。

(5)用圖表分析后，表5和表6中的D=>I、I=>D作用度的變化，我們可以解釋為由于大三專業課的增加，知識產權學院的學生相對于大一借閱法律書籍數量大大增多，而借閱文學書籍的學生稍有減少。

3 結束語

數字圖書館的流通信息為我們提供的是最基礎的原始的數據，通過對流通數據的關聯挖掘，不僅能揭示隱藏在大量數據后的重要關系信息，同時也為這種關系提供了量化描述手段。這些定性定量的信息不僅能對圖書館的各項工作提供技術上的支持，還可對學校的教學，課程的設置，學科的交叉滲透等提供信息。從表3~表6中我們得到了許多強關聯規則，數據挖掘工具能夠發現滿足條件的關聯規則，但它不能判定關聯規則的實際意義。對關聯規則的理解需要熟悉業務背景，豐富的業務經驗對數據有足夠的理解，也可以通過篩選技術排除虛假規則，只有這樣才能去其糟粕，取其精華，充分發揮關聯規則的價值。

參考文獻

[1]陸覺民，鄭宇.基于矩陣的數據挖掘技術在數字化圖書館中的應用[J].現代情報 2007，27(12):92-93，98.

[2]魏育輝，潘潔.圖書流通數據的關聯挖掘量化分析方法[J].現代情報，2005，(11):108-110.

[3]鮑靜，范生萬.基于數據挖掘的圖書數據預處理大學[J].圖書情報學刊，2008，26(2):31-33.

[4]王偉，張征芳，王明海.基于數據挖掘的圖書館讀者行為分析[J].現代圖書情報技術，2006，(11):51-54.

[5]李虹.面向用戶的數字圖書館信息服務模式研究[J].情報雜志，2007，(8):134-136.

現代情報2009年9期

現代情報的其它文章: 基于Ｌｙａｐｕｎｏｖ指數的高校圖書館圖書借閱流量混沌預測; 一種基于系統聚類的圖書館讀者細分模型; 新疆高校教學科研數字圖書館建設技術與模型研究; 基于改進遺傳神經網絡的圖書采購模型研究; 異構資源統一檢索平臺的研究; 高校數字圖書館建設研究