畢長泉 曹健 王朝陽
河北理工大學圖書館,河北唐山 063009
基于高校圖書館流通日志的數據挖掘
畢長泉 曹健 王朝陽
河北理工大學圖書館,河北唐山 063009
通過對一定時期內學生讀者群流通日志數據,應用關聯規則進行數據挖掘分析,發現讀者閱讀傾向及各學科知識之間隱含的相互關聯,從而更好地指導圖書館開展資源建設工作,實現合理資源配置、優化館藏結構,為教學科研做好服務工作。
在信息資源高度數字化的今天, 圖書借閱仍然是高校圖書館開展信息服務的最基本、最主要的內容。高校圖書館自動化管理系統中每天產生著大量的統計數據和表單,為了避免陷入數據豐富、信息貧乏的局面,從海量數據中提取有用信息,更是我們需要考慮和解決的問題。特別是流通系統,更是圖書管理子系統的重中之重,通過對流通日志數據的分析,可以得出讀者的閱讀傾向,而讀者的閱讀傾向決定了館藏結構是否合理,對圖書館館藏建設有著很強的指導作用。如何對大量的流通數據進行分析,目前比較有效的方法就是通過數據挖掘技術。
數據挖掘(Data Mining—DM)技術就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的模式的過程。模式也就是所挖掘出的信息和知識。人們把原始數據看做是形成知識的源泉,就像從礦石中采礦一樣。原始數據可以是結構化的,也可以是非結構化的。如文本、圖形、圖像數據,甚至是分布在網絡上的異構數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等,還可以用于數據自身的維護。
數據挖掘過程主要包括三個階段:數據準備、數據挖掘、結果解釋和評價。
(1)數據準備:數據準備又可以分為2個子步驟:數據選取、數據預處理。數據選取的目的是確定發現任務的操作對象,即目標數據。是根據用戶的需要從原始數據庫中抽取的一組數據;數據預處理一般包括消除噪聲、推導計算缺值數據、消除重復記錄、完成數據類型轉換(如把連續型數據轉換為離散型數據,以便于符號歸納;或是把離散性數據轉換為連續型數據,以便于神經網絡計算)以及對數據降維(即從初始特征中找出真正有用的特征以減少數據挖掘要考慮的變量個數)。
(2)數據挖掘:數據挖掘階段首先要確定數據挖掘的目標和挖掘的知識類型。確定挖掘任務后,根據挖掘的知識類型選擇合適的挖掘算法,最后實施數據挖掘操作,運用選定的挖掘算法從數據庫中抽取所需的知識。
(3)結果的解釋和評價:數據挖掘階段發現的知識,經過評估,可能存在冗余或無關的知識,這時需要將其剔除;也有可能知識不滿足用戶的要求,需要重復上述挖掘過程重新進行挖掘。另外,由于數據挖掘是最終要面臨用戶的,因此,還需要對所挖掘的知識進行解釋,以一種用戶易于理解的方式(如可視化方式)供用戶所用。
我們選取了06級資環學院、計控學院、外國語學院、理學院和文法學院的學生讀者共計848人,對其借閱總量和英語類、文學類、自動化及計算機技術、理化類、政治、法律類等圖書借閱量分別進行了統計分析,并運用數據挖掘方法計算出其相關的支持度,見(表一)。

表一 借閱量統計及相關的支持度
通過對表一的分析,發現如下特點:
(1)文學類圖書占據借閱量的首位,支持度平均可到30%左右。這說明文學類書籍仍是高校讀者課外閱讀的首選。大學生讀者對語言學習及文學、藝術的學習、欣賞的需求已經大大超過了專業及基礎學科學習的需求。
(2)借閱高峰集中在大一、大二階段,他們對文藝類圖書的需求也相對集中,支持度最高達到56%。但是,這部分讀者只是借助文學作品來消遣和娛樂,他們閱讀傾向于流行、時尚相關聯的文學作品,讀書不再單純上的知識獲得,很大程度上還是精神消費。
(3)專業圖書占據借閱量的第二位,比如計控學院對計算機類圖書,理學院對理化類圖書、文法學院對政治法律類圖書的需求均比較大,外語學院對外語類圖書的需求甚至超過了文學類圖書占據首位。這也說明我校學生對專業知識的渴求度較大,他們以專業學習為主,在課堂以外,需要借助各類參考書來彌補自己的知識不足,提高專業水平。
(4)不同專業學生對于非本專業圖書有一定的需求。特別是計算機類和外語類圖書,主要是大學階段要面臨英語四六級考試、計算機等級考試、考研以及近年來畢業生找工作時用人單位都比較注重畢業生的計算機和外語的能力等。
(5)資源、計控、理學院等學院的學生很少借閱政治法律類圖書,而外語、文法學院的學生又很少借閱計算機類和理化類的圖書。表明理工類和文科類兩大學科之間的交叉項較小。
(1)數據挖掘時要選擇合適的讀者群確定挖掘目標。對于過寬泛的讀者群會使我們在龐雜的數據中,很難發現任何有價值的信息。
(2)確定合理的時間段和適當的數據規模,可以保證數據挖掘工作的順利進行。過小的數據量很難說明普遍性的問題,容易使結果產生偏差;過大的數據量則會明顯增加挖掘的難度,降低計算的效率。
(3)實際操作過程中可根據規則產生的實際數量和預定的目標對最小支持度和最小可信度標準作適當的調整,以避免過多或過少規則的出現。
基于流通日志的數據挖掘技術可以發現讀者的借閱模式和借閱喜好,同時,能夠發現龐雜的流通數據中存在的隱含關系,將讀者需求從定性分析上升到定量分析,這無疑對圖書館的信息服務工作起到很好的指導作用。它不僅是圖書館建設合理的信息資源保障體系的重要依據,也是圖書館開展以讀者需求為導向的各項服務工作的基礎。
[1]王偉,張征芳,王明海.基于數據挖掘的圖書館讀者行為分析[J].現代圖書情報技術.2006, (11): 51-54
[2]馮進.利用數據挖掘技術深入挖掘圖書館工作[J].現代情報.2005,3(3):131-132
[3]羅鳳莉.基于關聯規則挖掘的圖書流通信息分析.晉圖學刊.2007(1):28-29
[4]Alex Berson,StephenJ.Smith,Data Warehousing,Data Mining,&OLAP[M],McCraw-Hill Book Co,1997
G258.6
A
10.3969/j.issn.1001-8972.2011.04.040
河北理工大學教改重點項目(項目編號:Z0814-14)
畢長泉,碩士,教授高工,主要研究方向:信息技術、數據挖掘等。
圖書流通;關聯規則;數據挖掘;館藏結構