張靖
摘 要:本文概述了數據挖掘的相關知識和理論,分析了數據挖掘技術在高校圖書館中的應用情況。
關鍵詞:數據挖掘;圖書館
隨著數據庫技術在高校圖書館數據庫中的廣泛應用,面對數據積累越來越多以及讀者不知如何從海量的圖書資源中快速找到自己感興趣的信息的問題,啟發(fā)我們將數據挖掘技術運用到高校圖書館中,以實現對不同的讀者提供個性化的信息推薦服務。
1 數據挖掘的定義
當前比較公認的數據挖掘定義是由U.M.Fayyad等人提出來的,所給出的定義是:“數據挖掘就是從大型數據庫中提取出人們感興趣的知識,而這些知識是隱含的、先前未知的、對決策有潛在價值的;提取的知識可以表示為概念、規(guī)則等形式。這些規(guī)則蘊涵了數據庫中一組對象之間存在的特定關系,揭示出某些有用的信息,可以為市場策劃、金融預測、經營決策等提供依據。”簡單來說,數據挖掘就是從大量數據中提取或者“挖掘”知識,但這些數據是不完全的、模糊的、含噪聲的和隨機的,而數據挖掘就是要從中提取出那些隱含的、未知的和有價值的潛在的信息的過程。它也可以看作是一種決策支持過程,通過對各組織的海量數據進行分析,歸納推理并從中挖掘出潛在的模式,其結果將可為管理層的決策提供支持。
數據挖掘的過程實際上就是一個知識發(fā)現的過程,通過運用各種數據處理技術從大量事實數據和觀察數據的集合中挖掘出潛在的模式或規(guī)則,幫助我們真正理解這些數據的含義,并對數據之間所存在的關系產生更好的理解。通過數據挖掘,可以從大型數據庫或數據倉庫中的相關數據集中抽取出潛在的、有效的、新穎的、有價值的、最終可理解的知識信息,并從不同的角度顯示,從而使存放有大量豐富可靠資源的大型數據庫為知識歸納服務。因此,數據挖掘被認為是解決目前“數據豐富,但信息貧乏”問題的一種有效方法。許多人把數據挖掘視為另一個常用術語“數據庫中知識發(fā)現(KDD)”的同義詞。而另一些人只是把數據挖掘視為KDD過程的一個基本步驟。因此在通常情況下,人們對數據挖掘與KDD不進行嚴格區(qū)分。
2 數據挖掘在高校圖書館中的應用
高校圖書館最基本和最主要的工作就是面向讀者的圖書借閱服務,而要做好圖書借閱服務工作的一個重要環(huán)節(jié)就是要了解讀者的借閱需求并掌握他們的借閱規(guī)律和習慣。做好圖書借閱服務是高校圖書館開展以讀者為主體的各項圖書館服務工作的基礎,也是圖書館建設合理的信息資源保障體系的重要依據。數據挖掘在高校圖書館中的應用,主要有以下幾個方面:
2.1 圖書文獻推薦工作中的應用
利用數據挖掘技術對讀者的歷史借閱數據進行聚類分析或者關聯分析,可以發(fā)現讀者所借閱的圖書文獻之間存在一定的關聯規(guī)則,即讀者在借閱一類圖書的同時也會借閱其他相關類別的圖書,通過計算這種關聯規(guī)則的支持度和置信度,得到讀者的借閱模式,建立圖書推薦數據庫,在讀者發(fā)生借閱行為時通過分析比較為讀者推薦相關有價值的圖書文獻資源。例如,通過關聯分析發(fā)現大多數讀者在借閱了計算機編程語言教程圖書的同時又借閱了數據庫方面的書籍,說明這兩類圖書之間有較強的關聯,那么在其他讀者借閱前一類圖書時可以為讀者推薦后一類圖書的相關資料。這樣就可以幫助讀者更好地學習,同時節(jié)省讀者的大量查找時間,從而提高圖書館服務的質量。
2.2 文獻檢索中的應用
文獻檢索是反映高校圖書館個性化信息推薦服務的重要方面。傳統(tǒng)的文獻檢索功能只能為讀者提供簡單的文獻信息,而不能根據讀者的閱讀興趣愛好提供個性化推薦服務。利用數據挖掘技術可輕松實現為讀者提供個性化推薦服務的目的。首先,準備所需要的數據。收集有關讀者借閱行為的大量數據信息,包括圖書館系統(tǒng)數據庫中的讀者借閱記錄、預約信息和續(xù)借信息等。其次,數據的篩選和處理。對所收集的數據進行消除噪聲數據、重復數據等篩選操作,再對篩選后的數據進行預處理和轉換等,建立結構化數據庫,這樣有利于數據挖掘算法的運行。再次,挖掘數據。對先前建立的數據庫進行聚類分析和關聯分析,從中可以分析出不同類型讀者所借書目的集合、閱讀興趣愛好特征等信息。最后,利用數據挖掘的結果結合可視化技術為讀者提供個性化的文獻檢索服務。當讀者檢索文獻時,通過數據挖掘形成的推薦集,檢索結果會自動為讀者推薦與這些文獻相關的其他文獻,并自動提取呈現有價值的相關文獻的數據信息,并且將這些數據信息以可視化的、動態(tài)改變的方式呈現在讀者面前。
2.3 優(yōu)化館藏書架管理
由于圖書館館藏種類繁多,因此優(yōu)化館藏書架管理工作就成了影響高校圖書館科學發(fā)展的一個重要內容,而優(yōu)化館藏書架管理工作的一個方向就是預測圖書文獻的變化趨勢,做到為最新的文獻在書架中預留位置,減少圖書館藏圖書倒架次數,還要及時做好剔除舊文獻添加最新文獻的工作。
利用數據挖掘技術就可以實現上文所述的工作內容。首先利用預測分析技術中的回歸與時序分析方法對歷年的圖書文獻借閱日志進行分析,找出文獻被借閱的周期性變化,然后分類分析圖書館借閱圖書流通日志,可以發(fā)現借閱頻繁的圖書類別和增加幅度比較大的圖書類別。將兩部分分析的結果相結合,根據排架規(guī)則,在上架那些借閱量大且頻繁的圖書時盡可能地預留位置,減少圖書館藏圖書倒架次數。最后就是剔除舊文獻添加最新文獻的工作。對館藏中的文獻數據進行分類分析,根據規(guī)定時間內未流通的圖書和有過多的復本圖書等分類要求,統(tǒng)計出符合這些規(guī)定的文獻的數量和藏書位置,將其及時下架。
2.4 情報咨詢工作中的應用
互聯網所包含的信息浩如煙海,想要及時有效地獲取所需的知識信息是一個很大的難題,同時也是衡量情報咨詢工作的一個標準。利用Web挖掘技術就可以比較容易地解決上述難題。首先,準備一臺與互聯網相連接的Web挖掘服務器,根據學校的教學安排、科學研究以及學校未來發(fā)展方向等各方面的需要,利用Web挖掘技術在服務器上對互聯網上網頁進行挖掘。Web挖掘可根據用戶所提出的需求自動地從互聯網上搜索相關網頁,對這些海量數據信息進行深層次地分析,并能夠保證數據的完整性和安全性。其次,通過對檢索所得結果進行聚類分析和分類分析,將從互聯網上檢索到的相關數據信息按照學科建設和科研方向等進行分類分析,然后建立摘要、索引或者其他有效鏈接。最后建立檢索界面,通過可視化的方式服務用戶。用戶可以通過代理服務器根據關鍵詞、主題詞或者其他一些檢索條件進行檢索。這樣,就大大提高了檢索服務響應的速度,節(jié)省了用戶的時間,而且也豐富了圖書館的信息資源。
3 結語
作為圖書館的未來發(fā)展趨勢,數字圖書館在研究中遭遇了重重困難,知識的有效組織與發(fā)現就是一段時期內數字圖書館所面臨的重要課題之一。數據挖掘作為方興未艾的信息技術之一,由于其在數據組織、分析和知識發(fā)現等方面的巨大優(yōu)勢和對信息的深層挖掘能力,并隨著硬件環(huán)境,挖掘算法的改進、應用的普及和經驗的積累等,數據挖掘在圖書館的發(fā)展中將顯示出強大的發(fā)展?jié)摿蛷V闊的應用前景。
參考文獻
[1]劉顯顯.基于數據挖掘的高校圖書館個性化信息推薦方法研究[D].遼寧大學,2013
[2]袁媛.數據挖掘在高校圖書館個性化服務中的應用研究[D].廣州大學,2011
[3]陳文偉.數據倉庫與數據挖掘教程[M].清華大學出版社,2008,4
[4]石軍.數據挖掘在高校圖書館的應用[J].江西圖書館學刊,2005,3