

摘 要:隨著學生和圖書館里文獻資料的數量增漲,圖書館管理系統的數據正呈指數增長。使用傳統的人工統計方法不可能進行完整的、如此大量的數據分析,如何巧妙的提取需求的信息然后進行充分的利用成為了一個讓人頭疼的問題。而利用數據挖掘技術可以很輕松的解決上述問題。文章通過使用k-means算法進行聚類挖掘得到了一個完整高效的統計結果,進而根據統計結果對圖書館的管理進行改善,可以提供更好、更人性化的服務。最后,文章對未來數據挖掘技術在圖書館的數據管理方面的應用進行了展望和暢想。
關鍵詞:數據挖掘;圖書館管理;個性化服務
隨著科學技術和文化水平的飛速發展,人們對知識的需求也越來越強烈,想要更好的工作環境和生活水平,與自身的知識水平是密不可分的。因此,越來越多的人選擇不斷汲取知識來武裝自己,而圖書館是汲取各種知識、了解國內外最新動態的最快捷、方便、省時省力的地方。由于越來越多的人選擇了圖書館,圖書館中的資料、讀者信息、借閱信息等等也越來越繁多和復雜,如何更好的處理與充分利用這些信息,成為了圖書館管理與發展的重大轉折點。
所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。非常適合進行圖書館數據的挖掘、管理和應用。例如我們可以采用數據挖掘的方法分析讀者的行為,總結其一般的借閱規律,從而采取相應的措施,為讀者創造方便的環境和提供不同的個性化的服務。
實例分析:分析讀者行為,獲取讀者需求
聚類分析是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。我們可以采用聚類分析的方法把不同的讀者進行分類,然后對不同類型的讀者提供不同的服務,這樣可以更好的管理讀者的借閱情況,也可以給有特殊需求的讀者提供特殊的服務。下面根據一些讀者的借閱數據進行了具體的挖掘實驗,實現了聚類分析在圖書館數據管理方面的應用。
第1步:數據準備
我們這里只是做一個比較簡單的挖掘分析,所以我們只考慮近兩年讀者的借閱情況,因此我們要先做一下數據的預處理,把兩年之前的借閱信息棄掉不用,這兩年每年的借閱數量和總借閱數量留待下一步聚類分析使用。由于讀者的情況變化可能會很大,因此近兩年的數據更具代表性,用來進行分析也會更加貼近讀者的真實需求。
第2步:對數據進行聚類
在這里我們使用k-means算法對第一步中清理出來的數據進行聚類挖掘,設置聚類個數為3.代表把讀者一共分成3個大類,一類為頻繁借閱者,一類為普通借閱者,一類為偶爾借閱者.分好類之后我們就可以針對不同的讀者提供不同的、更加符合讀者需求的、個性化的服務了。
按照以下幾個步驟對收集的數據進行聚類分析:(1)把目標對象劃分成n個非空子集(聚類);(2)計算每個聚類中所有點的坐標平均值,并將這個平均值作為每個聚類的中心;(3)計算每個點到聚類中心的距離,將每個點聚類到離該點最近的聚類中心的聚類中去反復執行(2)、(3),直到聚類中心不再進行大范圍移動或者聚類次數達到要求為止下面是虛擬的聚類結果(見表1、表2):
第3步:挖掘統計結果分析
上文介紹的挖掘方法比較簡單,僅僅是從借閱數量方面衡量了讀者的需求情況。但是在實際應用中也有很大的可應用、可擴展潛能。對于挖掘出來的第一類頻繁借閱者,我們可以適當的增加其借閱數量的上限,這樣可以更好的滿足他們的需求;對于第三類偶爾借閱者,我們可以繼續采用其他的挖掘方法挖掘他們的興趣范圍和較少借閱的原因,從而相應地改善圖書館的服務,為讀者們創造更好的閱讀條件。這樣把讀者分類之后再進行數據分析,可以更加精確地挖掘出不同讀者的不同需求,可以給不同需求的讀者提供更加個性化的服務。
數據挖掘在圖書館中的應用是多種多樣的,例如利用關聯規則分析圖書借閱種類方面的聯系,從而改善圖書館的布局;利用決策樹的方法來對讀者的閱讀方向進行分類。從而提供個性化的推薦服務等等。本文僅從一個方面對于數據挖掘在圖書館的應用進行了分析,窺一斑而知全豹,數據挖掘在圖書館數據處理方面的應用是廣泛而有效的,可以進行更深一步的研究與開發。在現如今這個知識大爆炸的年代,各方面的知識和數據都應該受到廣泛的重視與深入的研究,然而,這些信息魚龍混雜,如何取其精華棄其糟粕就成為了當務之急,通過一些現代化信息技術的使用,我們可以提升獲取信息的速度、分離出有價值的信息、根據這些信息改善服務水平。隨著技術的不斷發展,圖書館的服務也正在從被動化服務轉向主動化服務,從簡單的信息接收轉向為信息檢索、信息利用。總而言之,數據挖掘技術在圖書館數據管理與應用方面的應用前景非常的廣闊,隨著科學技術和圖書館硬件設備的快速發展,數據挖掘技術在圖書館的應用將實現巨大的發展和長足的進步。
參考文獻
[1]廖志平.數據挖掘在學校圖書館的應用[J].科技創新導報,2012,(12):211-213.
[2]Randall Matignon. Data Mining Using SAS Enterprise Miner[M]. Wiley-Blackwell (an imprint of John Wiley & Sons Ltd, 2007,(8):91-105.
[3]劉軍.數據挖掘在讀者閱讀需求偏好研究中的應用[J].圖書館論壇,2012(5):89-93
[4]M.Goebel and L Grucnwald.A survey of data mining and knowledge discovery software tools [J].SIKDD Explorations.1999;1(1):22-33.
[5]J.Quinlan,C4.5 Programs for Machine Learning[M].Morgan Kaufmann Publishers,1993.
[6]牛根義.國內圖書館數據挖掘研究[J].現代情報.2009,29(1):128-133.
作者簡介:宋麗軍(1988-),女,山東省嘉祥縣,現同濟大學軟件學院研究生,碩士學位,研究方向:信息系統,分布式系統。