耿向華 王桂鳳
摘 要:概述了數據挖掘的一般知識,探討了數據挖掘在高校圖書館信息管理與服務方面的應用, 分析了數據挖掘在應用中存在的問題。
關鍵詞:數據挖掘;知識發現;高校圖書館
數據挖掘是當前數據庫研究、開發和應用最活躍的分支之一, 它在科學發現、商業零售以及信用管理、醫學等領域已得到廣泛應用。隨著高校圖書館自動化程度與數字圖書館建設的不斷發展, 圖書館要處理和提供的信息越來越多, 越來越復雜。圖書館如何運用這一新技術挖掘豐富的信息資源, 為服務讀者和科學管理提供可靠的依據, 值得圖書館界深入研究。本文試圖重點探討數據挖掘在高校圖書館信息管理與服務方面的應用。
1 數據挖掘的定義與方法
數據挖掘(Data Mining, DM) 也稱知識發現(KnowledgeDiscovery from Database, KDD) , 是從大量的、不完全的、先前不知道的、模糊的、可能有污染的隨機詳細數據中提取隱含的、潛在有用的信息和知識的過程。挖掘的對象是數據庫和數據倉庫, 旨在通過對數據的統計、分析、綜合、歸納和推理, 揭示事件間的相互關系, 預測未來的發展趨勢, 起到輔助實際工作問題求解的作用。整個知識發現過程由若干挖掘步驟組成:
(1) 數據選擇。根據挖掘要求, 將多個數據庫中的數據進行合并處理, 提取與KDD 相關的數據, KDD 將主要從這些數據中進行數據提取。
(2) 數據預處理與轉換。從與KDD 相關的數據集合中除去明顯錯誤的數據和冗余的數據, 進一步精減所選數據中的有用部分, 縮小處理范圍, 提高數據分析質量。并將數據轉換成為規范形式, 以使數據挖掘更有效。
(3) 數據挖掘。就是選擇合適的挖掘算法, 對數據進行分析,以得出真正合理有用的知識。
(4) 知識描述。根據數據挖掘的目的對提取的信息進行分析,把有價值的信息挑選出來, 將發現的知識以用戶能理解的方式提供給用戶。
(5) 知識評價。用戶根據已有的知識對挖掘的結果進行合理性分析, 若有不合理的方面, 再重復上述步驟, 以保證挖掘結果的合理性。
2 數據挖掘在圖書館的應用
2.1 分析讀者需求, 優化信息資源建設
高校圖書館的文獻采購常常面臨兩個問題: ①每年的文獻購置費是有限的, 書庫、閱覽室等各種可使用的空間也是有限的, 如何有效地使用有限的經費, 充分利用寶貴的空間, 添置讀者真正需要的文獻, 提高文獻資源的利用效率; ②根據學校的專業設置及教學科研情況, 文獻購置費在各門學科之間如何分配, 各種文獻載體形式之間如何平衡, 才能使文獻購置費發揮最大效益。傳統圖書館大多由專門采訪人員獨自確定或與少數專家商計決定,不可避免地帶有一定的主觀性以及個人喜好, 難免造成經費浪費及館藏信息資源的缺漏。利用數據挖掘技術可以解決以上問題。圖書館每天產生大量可以對采訪工作產生指導作用的數據,利用模糊聚類分析技術,通過對圖書館業務系統的借閱、流通狀況、檢索請求及館藏書目庫進行分析挖掘,按類統計文獻拒借集和頻繁借閱集,并以此分析出文獻的利用率,及時補充短缺的文獻,剔除過時的文獻或減少部分文獻的采購復本量。
2.2 加強書庫科學管理, 提高服務質量
書庫的頻繁倒架以及圖書的殘破率、丟失率是經常遇到的問題, 如何防微杜漸也是值得挖掘的一個方面。通過對歷年借閱數據的相關分析, 增長幅度相應較大的圖書種類在上架的時候應根據預測的趨勢預留架位; 通過對注銷數據的分類分析統計及與樣本庫比較以確認若丟失率超過一定比例的原因出在哪些方面, 給出在制度上或人員上加強管理的建議。對于那些借閱頻率較大且連續續借的文獻, 應以量化的方式反饋給采訪部門以加重采購的力度; 對罰賠款數據的挖掘則可提供對諸如特定書刊的借閱期限和人員限制等的建設性建議, 以提高服務質量。
2.3 優化數字圖書館的信息內容
數字圖書館是一種數據信息系統, 這一系統不但擁有內容豐富、形式多樣的數字化信息資源, 而且依賴于現代高新技術的支持, 高效地滿足用戶的需求。目前, 數字圖書館的信息內容包括大量的數字化館藏、種類繁多的數據庫、全文Web 資源鏈接以及互聯網上的大量信息。這大量的數據, 只有通過組織、分析和挖掘,找出數據背后真正有價值的知識信息, 才是用戶實際需要的。采用數據挖掘技術, 將其用于數字圖書館的信息發現和信息提供的全過程, 可向用戶提供更優化的信息服務, 滿足用戶的個性化需求。
2.4 針對用戶特點提供個性化服務
有了數據挖掘技術, 圖書館完全可以根據用戶以前借閱的文獻資料, 甚至經常訪問的網頁(Web 服務器訪問日志) 進行分析、挖掘, 進行用戶的背景分析、用戶群體的分類分析、用戶偏好分析、用戶檢索滿意度分析等, 了解他們的興趣愛好、研究方向, 得出特定用戶的特定檢索規律和知識模型, 無需用戶先提出信息請求, 便可確定個性化服務內容, 主動將相關文獻送到他們手中。個性化服務的內容包括: ( 1) 當發現新的相關信息或書目數據時, 及時推送給用戶; ( 2) 當用戶訪問圖書館網站時, 根據用戶的興趣度, 為用戶提供定制的Web 頁面; ( 3) 跟蹤用戶的興趣變化模式, 發現用戶的最新需要; ( 4) 根據用戶的興趣, 提供相應的預測報告、動態分析等, 提供個性化決策支持服務。個性化服務的過程包括: 構建個性化用戶動態需求模型; 搜索、挖掘針對特定需求的相關信息; 按照特定主題, 將搜索、挖掘到的信息進行過濾、加工和組合, 整合成相對完整的信息集合; 以在線或離線形式, 主動發送給用戶; 按照特定主題, 對信息集合進行分析開發, 產生新的知識; 以在線或離線形式, 主動發送到用戶。
3 在應用中存在的問題
當前在圖書館應用中, 數據挖掘技術還存在一些問題。
( 1) 缺少數據挖掘人才。數據挖掘技術是新興的數據分析技術, 是多學科知識的綜合, 涵蓋了數據庫技術、統計學、可視化技術、信息科學、機器學習等多方面知識。目前圖書館缺少精通數據挖掘技術的綜合性人才, 而對大型數據庫和數據倉庫有感性認識的就更少了。
( 2) 缺少國產數據挖掘軟件。國外關于數據挖掘軟件相關技術的研究和開發已經很先進。國內由于數據積累不夠充分、全面,業務模型構建困難及缺少有經驗的實施者等諸多原因, 數據挖掘未能得到很好的應用, 而軟件的發展也受到限制。國內對于數據挖掘軟件的研究大部分還處于科研階段。國外數據挖掘軟件在國內使用面臨漢化、漢字庫支持、用戶習慣、適應國情等問題。而且幾乎沒有面向圖書館應用的專業數據挖掘軟件, 只有一些網絡專業信息挖掘工具。
( 3) 已有數據挖掘軟件有待改進。目前主流的數據挖掘軟件專業化水平太高, 易用性與通用性不夠, 培訓時間較長, 上手慢。同時需提高挖掘結果的可理解性, 即數據挖掘技術應進一步為用戶理解和接受, 也可理解為如何用用戶的語言來表達知識。
( 4) 數據挖掘軟件處理數據的能力需進一步提高。處理數據的能力不僅指能處理海量的數據, 還包括能處理各種類型數據和數據源?,F在的原始數據的格式越來越多樣化, 盡管在數據挖掘進行之前要通過數據倉庫對最初的數據進行初步篩選, 但基本上不會影響其數據形式。所以, 數據挖掘軟件必須提高對于各種類型數據, 包括半結構和無結構數據的處理能力, 其算法必須是高效率的、可伸縮的。
參考文獻
1 張存祿,黃培清,王子萍.數據挖掘在圖書采購中的應用.情報科學,2004( 5)
2 李瑋平. 基于數據挖掘的圖書館讀者需求分析. 圖書館論壇,2004( 3)
3 何少卓. 淺談數據挖掘及其在圖書館的應用. 圖書館界,2004( 3)
4 潘衛東.WEB 的數據挖掘.圖書館論壇,2004( 1)