【摘 要】本文以數據挖掘的定義出發,對數據挖掘的功能及分類進行簡要的概述,最終探討了數據挖掘技術在圖書館管理以及讀者服務這兩方面的應用,希望給我們圖書員的工作起到一定的指導效果。
【關鍵詞】數據挖掘;圖書管理
0.引言
隨著社會的發展,圖書管理工作相對于以往面臨著更大的難題,比如海量的數據、個性化需求等。在這種背景下,數據挖掘技術在解決這些問題的過程中具有非常大的優勢,因此,本文關于數據挖掘在圖書管理方面運用有著很強的實踐意義。
1.數據挖掘定義
數據挖掘的英文全稱為 Data Mining,被我們簡稱為DM,主要是指從數據庫中抽取具備潛在應用價值、以前未知、隱含信息的過程,主要用途是為決策者提供數據之間的關聯,找尋被忽視的因素,因此,能夠對我們的預測及決策行為起到很強的促進效果。
在數據挖掘技術中,一個相關性非常強的概念為知識發現,這是指在信息背景下從很多數據中找出有效的、新穎的、可信的模式的處理過程,其主要的應用對象為VLDB,目標是發現數據庫中規律性的知識。可以說,數據挖掘屬于一種特定的知識發現,也是知識發現過程中最為重要的一部分。
2.數據挖掘的分類
數據具有多種多樣的表現形式,因此,我們可以以研究對象數據結構的形式對數據挖掘進行劃分,具體來說,數據挖掘可以分為數據挖掘、文本數據挖掘以及WEB數據挖掘這三類。
首先,數據挖掘。這一類的數據挖掘對象主要是結構化數據,比如在包括 SQL Server Qracle Informix在內的一些數據庫中可以應用這一類數據挖掘。
其次,WEB數據挖掘。在廣義上說,這一類數據挖掘可以看做是從互聯網中發現及分析有用的信息,具體來說,其定義具有兩種意義:WEB內容挖掘,這是從數量極大的在線數據庫及WEB站點中對信息、資料進行搜索及獲取;WEB使用挖掘,在這個過程中將建立并分析讀者所訪問站點及服務的模型。一般情況下,在WEB 挖掘過程中所使用的工具主要有:Speed Tracer以及Web Log Miner 等。
第三,用戶挖掘。在數字圖書館中,用戶挖掘主要是通過對用戶訪問圖書館留下的記錄進行分析,進而對用戶訪問模式及挖掘,最終為網站的經營及管理提供決策服務。這類數據挖掘主要又可以分為訪問模式的追蹤以及個性化使用記錄的追蹤這兩類。
3.數據挖掘的功能
數據挖掘技術不但能夠幫助我們查詢及遍歷過去的數據,還可以預測將來趨勢及行為,并對以前沒有發現的模式進行自動探索,進而提升我們決策的可靠性。總結起來其功能可以分為以下幾個方面:
首先,關聯分析,在數據庫中,如果一些能夠被發現的、重要的兩個或者多個變量之間存在著一種規律性的取值則可以認為它們之間存在著關聯。我們進行關聯分析的主要作用是探尋出數據庫里的隱藏關聯網。
其次,聚類。所謂聚類主要是指數據庫中的記錄能夠被劃為一系列具有意義的子集。這一技術包含了傳統模式識別方法數學分類學。它能夠提升我們認識客觀事實的效率,屬于偏差分析以及概念描述的基礎和前提。
第三,概念描述。這主要是描述某對象的內涵,并對其中的有關特征進行概括,它包括區別性描述以及特征性描述,在生成區別性描述的過程中主要的方法有遺傳算法、決策樹算法等,而生成特征性描述的過程中則只會對所有對象的共性進行涉及。
最后,偏差檢測。在數據庫中,數據往往會存在異常記錄,對于這些偏差進行檢測具有很強的意義。偏差中存在很多潛在知識,舉例來說,分類過程中的反常實例、不符合規則特例、模型預測及觀測結果的偏差等。
4.圖書管理中數據挖掘技術的應用
4.1應用于圖書館的管理
圖書館的管理是圖書管理的前提和基礎,在圖書管理中,數據挖掘技術主要起到以下作用:
首先,數據挖掘技術能夠為圖書館更好的發展提供定位。在圖書館經營的過程中,服務現實需求以及客觀條件制約都是不可避免的,做好自身發展定位極為重要。因此我們要對面向服務群及自身的潛在資源產生足夠的了解,而通過數據挖掘技術則可以幫助我們提升規劃結果的科學性。
其次,圖書館的經營過程中,人才是至關重要的,而所謂人才無外乎專業水平、思想道德、現代化信息技術水平等。因此,我們可以在收集相關文獻的基礎上,從中建立一個可執行、可調整以及可預測的模型,為人才的規劃提供科學依據。
第三,文獻管理歸根結底屬于知識管理,而知識管理又是從數據中對有效知識進行管理的過程,數據挖掘技術作為從數據庫中抽取未知、隱含、具有潛在價值信息的過程,二者兩雖有區別,但具有更大的一致性。因此,文獻信息管理是可以利用數據挖掘技術來發現及解決問題的。尤其在當前的環境下,資金比較受限制,如何做好各學科的分配更是非常重要。
4.2應用于讀者服務
(1)為讀者起到導讀的作用。在圖書館中,讀者導讀一直屬于一項工作重點。當前屬于數字化時代,信息資源無論在數量上,還是在速度和來源上,相對以往都有很大的不同,這就導致我們讀者容易產生信息過剩反而無從下手的感覺。因此,導讀工作的重要性不言而喻。具體來說,分類技術能夠對數量龐大的信息資源進行分類;聚類技術則可以對雜亂無序的信息進行歸類,進而給其標引或者建立一個相應數據庫,這能夠幫助信息用戶群的不同信息需求。舉例來說,我們可以以用戶角度出發,對用戶在何種情況下需要何種信息解決何種問題進行了解,也就是對用戶信息需求進行全面的了解,進而確定信息使用模式,然后設計更為有效地信息服務系統。
此外,在讀者檢索的過程中,傳統的信息數據庫定題情報服務當前存在著很大的難題,對于一些排列不規范或者無序的電子信息要要在不同平臺上操作,效率很多。而通過數據挖掘技術能夠對各種數據進行整合,把不同平臺電子版信息及紙質圖書利用四種規則建立一惡搞統一平臺,這能夠極大地提升檢索效率。
(2)服務競爭情報。當前隨著市場化的加劇,圖書館服務更為重視經濟及社會效益,使得不論是高校科研教育服務,還是企業服務,競爭性都成為了一個重要的課題。在這種背景下,數據挖掘技術可以對競爭情報起到服務的作用,這方面的研究成果主要有專題情報價值數據挖掘、面向集成競爭情報系統數據挖掘等,可以說已經獲得了較為廣泛的應用。
(3)提供個性化 Web服務。所謂Web個性化,主要是通過web數據對網站的信息及服務進行調節,進而滿足不同客戶的不同需求。在這一過程中,我們主要的過程是對服務器中保存的訪問日志數據、代理日志數據以及引用日志數據進行收集,然后利用模型化算法或者一些其他信息處理技術對這些數據進行加工,獲取我們所需要的決策信息,最終以此為基礎建設特殊數字資源以及網絡虛擬資源,實現web個性化服務。
5.結語
在圖書管理中,數據挖掘技術將來必然會有有著更為廣泛的應用,這些應用將體現在資源建設、讀者服務以及決策管理等各個方面。因此,對于我們圖書館員來說,要加強自身在這方面的水平,不僅要對一些基本技能進行掌握,平時工作中還要注重這方面的學習和探索,這樣才能提升自身的業務技能,使信息服務工作上升到一個新的檔次,實現技術到生產力的轉化。
【參考文獻】
[1]李璐璐.基于數據挖掘技術的信息服務研究及系統模型設計[J].大學圖書情報學刊,2008,(04).
[2]邵曉紅.數據挖掘技術在高校圖書館中的應用[J].鄂州大學學報,2009,(02).