福建中醫藥大學思想政治理論課教學科研部 吳 翔
數據挖掘技術在圖書館建設中的應用
福建中醫藥大學思想政治理論課教學科研部 吳 翔
數據挖掘技術在各行業都有廣泛運用,是一種新興信息技術。而圖書館作為一個海量信息的聚集點,數據挖掘技術對其建設有著重要的意義,數據挖掘技術以其在圖書建設方面的良好的應用前景,引起了圖書館管理工作者的注意,本文,筆者介紹數據挖掘的概念,以此為出發點,對數據挖掘技術做出一個簡單的詮釋。數據挖掘技術包含了人工智能、數據庫、統計學等學科的內容,是一門綜合性的技術。這種技術的主要特點是對數據庫中大量的數據進行抽取、轉換和分析,從中提取出能夠對使用者工作有作用的關鍵性數據。而挖掘技術用于圖書建設中,可以讓用戶的學習和工作更加方便快捷,同時在圖書館自身的競爭力上面也能得到一步大的跨越。
數據挖掘技術的運用還可以對用戶訪問圖書館的目的、趨勢和特征有一個充分的了解,以此為基礎來改進圖書館的服務質量和為圖書館購書提供一個指標、一個標準,對圖書館的建設有著非凡的意義。
1. 為圖書館的工作提供決策管理和技術支持。如今用戶的需求對圖書館的信息管理提出了新的要求。首先現在圖書館要處理更加復雜的信息,然后為使用者提供一個更為針對性的服務;其次要提供一個個性化的主動信息服務,讓信息來找人,按使用者的需求提供服務。在圖書館的建設中,實現個性化服務的方式就是對使用者的信息需要、愛好以及訪問歷史的數據信息建立用戶模型,并加以分析,并將此用于網上信息的排序和過濾,從而指導圖書館的服務,這些都是數據挖掘技術的優勢;另外圖書館使用有大量的統計數據和表單,數據挖掘技術能夠用這些數據和表單為圖書館的工作提供決策管理和技術支持。
2. 提高圖書館服務質量,優化館藏結構。圖書館建設中,圖書館服務質量占有一個重要的位置,做好圖書館的服務工作,能使圖書館建設更加符合用戶的要求。數據挖掘技術可以找到圖書借閱之間的聯系,讓圖書管理者對讀者的需求有一個更加系統的了解,同時能夠優化館藏結構,對信息服務的提升起到一個促進作用,從而促進圖書館的建設。
1. 數據分類。數據挖掘技術通過對數據庫中的數據進行分析,把數據按照相似性歸納成若干類別,然后做出分類,并能夠為每一個類別都做出一個準確的描述,挖掘出分類的規則或建立一個分類模型。
2. 數據關聯分析。數據庫中的數據關聯是一項非常重要并可以發現的知識。數據關聯就是兩組或兩組以上的數據之間有著某種規律性的聯系。數據關聯分析的作用就是找出數據庫中隱藏的聯系,從中得到一些對圖書館建設中的管理工作有用的信息。就像是在購物中,就可以通過顧客的購買物品的聯系,從中得到顧客的購買習慣。
3. 預測。預測是根據已經得到的數據,從而對未來的情況做出一個可能性的分析。數據挖掘技術能自動在大型的數據庫中做出一個較為準確的分析。就像是在市場投資中,可以通過各種商品促銷的數據來做出一個未來商品的促銷走勢,從而在投資中得到最大的回報。
數據挖掘技術融合了多個學科、多個領域的知識與技術,因此數據挖掘的方法也呈現出很多種類的形式。就目前的統計分析類的數據挖掘技術的角度來講,光統計分析技術中所用到的數據挖掘模型就有回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類分析和時間序列分析等多種方法。數據挖掘技術利用這些方法對那些異常形式的數據進行檢查,然后通過各種數據模型和統計模型對這些數據進行解釋,并從這些數據中找出隱藏在其中的商業機會和市場規律。另外還有知識發現類數據挖掘技術,這種和統計分析類的數據挖掘技術完全不同,其中包括了支持向量機、人工神經元網絡、遺傳算法、決策樹、粗糙集、關聯順序和規則發現等多種方法。
1. 圖書館建設中用戶資源的管理。圖書館的用戶是指使用圖書館信息資源的一切團體和個人,在長期使用圖書館的過程中逐步形成的,是對圖書館的社會關系體系和服務能力的一種肯定。數據挖掘技術可以很好地分析用戶的數據,從中得到用戶的屬性和行為特征,明確得到用戶的服務需求和信息需求。以此為基礎把用戶劃分為不同的用戶群,針對他們的個性化需求,進行相應的信息服務系統和資源建設,實現用戶相關活動信息的集成。然后通過對用戶屬性和行為特征的分析推理,為圖書館的服務建設和決策提供一個客觀依據。
2. 圖書館建設中的讀者信息服務。圖書館在使用了數據挖掘技術后,能拓寬圖書館的信息服務的范圍,增加信息服務的項目,讓圖書館建設中的信息服務更加高效,且具有了主動性,在服務質量上大大地跨出了一步。隨著現在數據庫的信息量的不斷增大和使用者越來越多,利用傳統的檢索方式來進行定題情報服務的難度不斷增加,排序不規范或無序的電子信息還需要在不同的操作平臺上做出切換。而在利用數據挖掘技術以后,就可以做到整合各種類型的信息和數據,將不同操作平臺上的電子信息和紙質的圖書資料通過四種規則給用戶提供一個規范而統一的數據平臺,這樣大大增加了用戶的檢索效率。
3. 指導圖書采購。圖書的訂購是圖書館建設的重要工作,主要歸屬于圖書館采訪部門,它是圖書館建設工作的起始端,同時也是現代圖書館資源建設的開端。每年圖書館的圖書采購經費有限,如何利用有限的資源進行各門學科之間的搭配以及各種文獻載體的均衡就變成了一件讓圖書管理者為難的問題。而且現在的出版物數量也不斷增加,各種資源載體也越來越豐富。這些問題讓圖書館對結構信息的把握、資金的均衡利用更加為難,采購工作的難度不斷加大。而利用數據挖掘技術可以進行采訪數據庫和流通數據庫的歷史數據進行序列分析和關聯性分析,從而輕松地得到各種文獻的利用率,為圖書采購提供一個科學合理的報告和預測信息,進而指導圖書采購人員對圖書的采購,保障圖書館信息資源體系建設的合理性和科學性,從而對圖書館信息資源建設做出優化。
4. 分析借閱流量周期。數據挖掘技術可以運用時間序列的挖掘方向從流量數據庫中找出流通量的周期性規律,從中分析出用戶使用圖書的低谷期和高峰期。在人力資源和圖書資源都有限的情況下,以此可以對圖書館建設中流通部門的長期以及短期的工作做出科學的安排,為用戶提供更加優質的服務。比如,在全年的高峰期時段,可以把圖書館的服務集中在用戶的流通服務上;而在流通的低谷段,除了進行日常借閱的流通服務,還可以進行圖書整理、業務學習、讀者培訓之類的工作。這樣的做法能夠更好地利用時間和圖書館資源。
數據挖掘技術在社會各行各業中都有一定程度的使用,基于其在數據組織、分析能力、知識發現和信息深層次挖掘的能力,在使用中取得了顯著的成效。但數據挖掘技術中還存在著一些問題,如數據的挖掘算法、預處理、可視化問題、模式識別和解釋等。對于這些問題,圖書館管理人員要予以清醒認識,并合理使用數據挖掘信息,使數據挖掘技術能夠更加有效地發揮其作用。