張素慧
摘 要:本文通過深入了解圖書館領域相關知識以及對數據挖掘技術的學習研究,詳細分析了圖書館管理應用數據挖掘技術的方法及重要性。
關鍵詞:數據挖掘;圖書館管理;重要作用
隨著數據挖掘技術的不斷成熟,數據挖掘被應用到很多領域,無論是營銷、財務、管理、制造業、通訊還是數據收集等方面,只要具有分析價值,并有分析需求的數據庫,就可以利用數據挖掘工具進行有目的的挖掘分析,從少量數據庫中獲得先前不知但具有價值的信息,并利用這些信息對單位或企業的情況進行反應,從而為進行管理決策提供依據。
對圖書館而言,通過數據挖掘進行圖書館管理是頗具意義的工作,利用數據挖掘技術可以幫助圖書館分析讀者群的需求趨勢,并預測未來需求的發展方向,更有效的完成圖書館管理的相關工作。
一.數據挖掘技術概述
1、數據挖掘的定義及含義
數據挖掘就是從大量的、不完全的、不確定的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。
2、數據挖掘基本功能
數據挖掘任務一般可分成描述和預測兩類。描述性挖掘任務,是刻畫數據庫中數據的一般特性;預測性任務則在當前數據上進行推斷,進行預測。一般通過如下一些功能來實現:
概念描述:就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。
關聯分析:主要用于發現不同事件之間的關聯性,即一個事件發生的同時,另一個事件也經常發生。關聯分析的重點在于快速發現那些有實用價值的關聯發生的事件,其主要依據是應該符合一定的統計意義的相關事件發生的概率和條件概率。關聯分析的目的是找出數據庫中隱藏的關聯網。
分類分析:就是通過分析樣本數據庫中的數據,為每個類別做出準確的描述,或建立分析型或挖掘出分類規則,然后用這個分類規則對其它數據進行分類。預測是使用歷史資料去推測估計未來的數值以及趨勢,根據樣本的已知特征估算某個連續類型的變量的取值的過程。
3、數據挖掘基本過程和主要步驟
在開始數據挖掘之前,首先最重要的就是了解數據和業務問題,明確要去度量或預測什么,缺少對業務的了解,就不可能明確要解決的問題,也就不能為數據挖掘準備數據,導致最終很難正確的解釋所得的結果。
數據的選擇:搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據。
數據的預處理:研究數據的質量,為進一步的分析做準備,并確定將要進行的挖掘操作的類型。
數據的轉換:將數據轉換成一個分析模型,這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵。
數據挖掘:對所得到的經過轉換的數據進行挖掘,除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成。
結果分析:解釋并評估結果。使用的分析方法一般應作數據挖掘操作而定,會用到可視化技術。
二、數據挖掘技術在圖書館管理中的應用
1、數據挖掘應用于圖書館管理的優勢
現在困擾圖書館管理的主要問題是:怎樣真正滿足讀者需求,怎樣有效收集讀者反饋信息?怎樣根據讀者需要提高管理效能?對于以上疑難問題,數據挖掘技術是一個行之有效的工具。
數據挖掘與傳統的數據分析(查詢、報表、聯機應用分析)的本質區別是,數據挖掘是在沒有明確假設的前提下去挖掘信息、發現規律,數據挖掘具有預測性、有效性和實用性三個特征。
預測性:通常數據庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢,缺乏挖掘隱藏知識的手段,數據挖掘技術不僅能對過去的數據進行查詢和遍歷,而且能夠找出歷史數據之間的潛在聯系,更加全面系統分析讀者閱讀行為規律,并預測其未來的需求信息,從而促進信息的傳遞。
有效性:數據挖掘不是為了替代傳統的統計分析技術,相反,它是統計分析方法學的延伸和擴展。大多數統計分析技術都基于完善的數學理論和高超的技巧,預測的準確度還是令人滿意的,但對使用者要求很高。隨著計算機能力的不斷增強,我們有可能利用計算機只通過相對簡單和固定的方法完成同樣的功能。比如,利用神經元網絡和決策樹,在足夠多的數據和足夠強的計算能力下,幾乎不用人的關照,計算機就能實現許多有價值的功能。
實用性:現在數據挖掘在圖書館管理應用中已經可以馬上投入使用,因為對這種技術進行支持的三種基礎技術已經發展成熟。這三大基礎技術是,海量數據搜集,強大的多處理器計算機和數據挖據算法。今天,這些成熟的技術,加上高性能的關系數據庫引擎以及廣泛的數據集成,讓數據挖掘技術在當前的數據倉庫環境中進入了實用階
2、數據挖掘解決的典型問題
圖書館需要搜集和處理大量的數據,對這些數據進行分析,發現其數據模式及特征,然后可能發現讀者群的興趣與需求,并且,根據新觀點,讀者的需求會隨時間而變化。
數據挖掘可以分兩大類:預測性數據挖掘和描述性數據挖掘。
預測性數據挖掘是進行數據分析,建立一個或一組數據模型,并且根據模型產生關于數據的預測,挖掘的信息越是出乎意料,就可能越有價值。
描述性數據挖掘是以概要的方式對數據信息進行描述,提供數據的有意義的一般性質。包括:異常檢測、聚集等多種數據挖掘方法。
預測類數據挖掘及描述類數據挖掘所能解決的典型管理問題包括:讀者群體劃分、文化背景分析以及讀者流失性分析、讀者需求及讀者滿意度評估等。
3、數據挖掘應用于圖書館管理的領域
對讀者關系進行管理:對于圖書館來說,讀者是至關重要的資源,應當高度重視對讀者關系的建立、維持和培育,實施讀者戰略,以建立長期穩定的供需關系。因此,建立高效的圖書館管理系統,可以使圖書館更好地了解讀者要求,評估需求價值,從而為讀者提供個性化優質服務,提高讀者滿意度,建立信任感。
需求評估與管理決策:圖書館管理基于數據挖掘應用的趨勢,在于建立需求評估模型和進行管理決策。科學全面的需求評估是建立在大量基礎數據的融合基礎之上的,隨著金融領域、企業、政府紛紛建立統一數據平臺,基礎數據的融合將逐步實現。隨著數據大集中的逐步深入,我們的結構化的數據和非結構化的數據,搭建起來的這一個統一的數據平臺,為數據挖掘在讀者群需求評估中的應用打下了一個堅實的基礎。利用數據挖掘相關工具如神經網絡算法和決策樹方法建立評價模型和決策模型,并可以根據不斷變化的外部數據對模型進行動態的修正。因此,數據挖掘技術可以支持閱讀需求評級朝著多元細化的方向發展。
參考文獻:
[1]謝邦昌等.數據采掘入門及應用[M].中國統計出版社,2001
[2]陳楠.基于數據倉庫與數據挖掘技術的決策支持系統[J].計算機時代,1998
[3]薛華成.管理信息系統[M].清華大學出版社,1998
[4]陳曉紅等著.信息系統教程[M].清華大學出版社,2003
[5]黃梯云等.管理信息系統[M].高等教育出版社,2000