張艷
摘要:隨著互聯網的應用普及,各行各業已經迎來了大數據時代,圖書館作為傳統資料的儲存地,也正在進行著變革,加速圖書館的現代化進程,讓大量的資料數據得到有效的保存,數據挖掘技術是互聯網時代深入發展的產物,他是結合多門學科的新型技術,在公共圖書館的數字化建設中起著非常重要的作用,本文首先對數據挖掘技術做詳細的介紹,然后在深入探討數字挖掘技術在公共圖書館管理中的應用。
關鍵詞:數據挖掘技術;數字挖掘方法;數據挖掘的應用
21世紀是互聯的時代,互聯網的深入發展和計算機技術的不斷創新讓人民進入到了知識經濟的網絡時代,現在人們每天接觸到的各種信息特別是數字化互聯網信息指數飛速增長。海量信息的增加給人民生活帶來方便的同時也面臨著很多問題。因為信息量的增加,讓人民在尋找可用信息的時候變得麻煩,信息的供給和信息的消費之間的平衡關系打破,如何在信息大爆炸的世代及時提取對自己有用的知識,成為我們將要面對的大問題。這就要求必須研究一種實用性的工具幫助我們過濾整理,在知識的海洋中,提取對自己有幫助的資料。因此專業人員就開始了一個新領域的探索---數據挖掘(DM)和知識發現(DMKD)應運而生。
一、數據挖掘的基本介紹
數據挖掘顧名思義就是在海量的數據資源中挖掘出對自己有價值的東西。其實他是通過已經積累起來的各種歷史資料中,運用一定的方法和技術,提取出隱含在里面,具有潛在價值的信息的過程。研發目的是幫助人們找到數據與數據之間相關連的,被人們的所忽略的東西。數據挖掘的過程主要是找到原始數據,這些原始數據一般是來源于已經建立的資料庫,各種數據庫,還有一些非資料庫數據庫中的零散信息,和網絡信息。數據來源真實可靠,數據挖掘的結果能過讓使用者感到興趣,有意義。
數據挖掘是一個慢慢發展變化的過程,我們從數據庫的角度來觀察。他可以從偌大的數據庫中找到有效的,可以利用的信息,并最終演變成有用數據集合的資料。整個過程具有非平凡過程,非平凡過程是一個數學理論中的概念,他的意思是在進行數據挖掘的時候并不是單一的進行數據的提取,也不是一點都不提取,而是發現那些隱含的,我們未曾發現的,可能對我們有用的信息。從決策支持的角度來看,數據的挖掘是一個決策支持的過程,它主要是基于互聯網技術,運用統計學,數據庫等多種技術的結合,自動分析數據源,進行機械化的整理,從而找到潛在的信息,來預測客戶的行為,幫著企業的管理者及時的調整經營策略,預防和減少風險的發生。他在提高商業和科學決策過程質量和效率的新方法。
我們經常用到的信息數據分析有“查詢,報表,聯機,統計”等方法,和這些傳統的數據分析相比,數據挖掘具有在挖掘開始不用給出明確的前提,而進行自動的甄別與處理,去發現信息,發現知識。這就體現了數據挖掘的有著“先未知”“有效”“實用”的特點。
二、數據挖掘的主要方法
數據挖掘技術主要有兩個基本的過程:數據準備、信息挖掘
(一)在公共圖書館的管理工作中,首先就要進行數據準備工作,數據挖掘的首要要素就是建立數據庫,對數據庫中的數據進行概括,了解書籍的使用情況。1.要獲取用戶的基本信息,在數字化的公共圖書館中,應該首先就要錄入用戶的基本信息,用戶的基本信息包括用戶的個人基本信息和用戶的借閱信息。個人基本信息包括:姓名,年齡,職業,性別,和身份號碼,聯系方式等,借閱信息包括:圖書類型,借閱時間,借閱等級。2.要獲取用戶的歷史信息,用戶的歷史借閱信息在圖書管理中有著非常重要的作用,他可以讓圖書管理員清晰的看到用戶的借閱情況,歷史信息包括:借閱書籍的編號,書籍信息,借閱時間,歸還時間等等。通過對這些數據的分析處理可以把公共圖書館中的圖書狀態清晰的反應出來,并進行可靠的預測。3.獲取圖書的檢索記錄,在現代化的公共圖書館中,都有附有圖書的檢索功能,用戶在借閱圖書的時候可以根據圖書的編號,圖書的類型等進行圖書的檢索。對于圖書檢索信息的處理,圖書管理員可以根據用戶的信息,檢索關鍵詞,檢索的編號等進行分類整理。圖書的檢索功能在公共圖書館中是非常受人喜歡的,經常有著巨大的使用量,所有要做到檢索記錄的存儲分析就需要一定的計算機技術的支持,只有當技術達到一定的高度,硬件設施完備的情況下,才能進行信息的處理。4.取得書籍信息,書籍信息的獲取包括圖書的名稱, 編號,作者,位置的編號,出版社的信息,學科的分類信息,這些信息需要從圖書的屬性進行區分處理。
(二)信息挖掘
信息挖掘主要包括以下幾個方面:確定挖掘目標,選擇挖掘的工具,建立挖掘模型,實施搜索和結構的分析。1.確定挖掘目標,首先要把需要進行數據挖掘的目標確定,然后利用數據挖掘系統快速的幫助用戶做出假設,進行挖掘驅動,另一種形式是進行驗證驅動,就是用戶首先需要對挖掘的信息進行合理的假設。然后在進行驅動性的挖掘。3.建立挖掘模型實施搜索,通過對挖掘數據庫的建立,進行有目的的搜索,了解用戶的需求,進行智能查找。4.結果分析,數據的挖掘不是一次性就能成功的,他要進行反復的測試,然后對每次得出的結果進行對比,讓數據的挖掘精度達到要求。
三、數據挖掘的主要功能
數據挖掘是通過一定的規律來預測未來將要發生的行為,是基于知識,技能的前瞻性選擇。就用期刊的管理舉例來說,數據的挖掘主要是針對期刊的管理與服務,對數據庫中的海量數據進行篩選,甄別,轉換,分析與其他可操作性的處理。從而得到決策的重要數據,數據的挖掘主要有以下幾個類型功能。
(一)自動預測趨勢和行為
數據的挖掘主要是基于大數據的基礎上盡心的數據預測性的發現,這些信息在以往都是通過大量的手工整理記錄分析出來的,而通過數據的挖掘就可以快速的知道數據本身的結論。我們來舉一個最簡單的例子,比如利用市場預測進行數據挖掘,就可以快速的幫著銷售人員來獲取那些最具有投資價值的潛在客戶。
1.關聯分析
數據的關聯是數據庫中存在的重要組成部分,數據關鍵就是兩個或者多個數據之間存在著內在聯系,這些聯系是有規律可循的,我們成這些有規律的關聯數據就叫做數據關聯。關聯可以分為簡單的數據關系,時效性的數據關聯,因果性的數據關聯。根據關聯的目的我們可以發現整個關聯數據會組成一個巨大的數據關聯網。有的時候我們并不知道這些數據庫中的數據關聯存在著怎么樣的數據關聯意義,數據的關聯是具有不確定性的。數據關聯產出的規律也是沒有可信度的。
2.聚類分析
數據庫中的數據可以變成一系列的有意義的關聯體,這種關聯體就叫做聚類,聚類的存在增加了人民對客觀事物的現實認識,是概念描述的先決條件。聚類技術包含傳統的模式和識別方法。里面的概念聚類技術指的是在考慮區分的對象是不僅僅的是要考慮到傳統的對象之間的距離差距,還要詳細的劃分出這里面的具體內涵,這樣就可以從根本上避免整個技術的片面性。
3.概念描述
概念描述是指對一個東西所有具有的內涵特征進行的描述,這類描述的對象有著相互關聯的特征。概念性的描述分為行為特征的描述和區別性的描述,前者是對特定對象的某些特征進行分析,后者是對不同的描述對象之間的差別進行描述。差別性的描述有很多種類,比如對策描述,遺傳描述等。
4.偏差描述
數據庫中的很多數據經常會有一些異常的處理錯誤的記錄,對這些數據庫中的處理錯誤偏差的描述稱之為偏差描述。偏差描述存在著很多的潛在知識,比如在品種分類中的反常實例,不滿足規則的特例,觀測結果與預測值直接的偏差等,偏差描述的基本途徑就是找對觀測結果和參照值之間的差別意義。
四. 數據挖掘中的主要應用
(一)讀者需求分析
現在很多的研究都是僅僅局限于實際調查所得到的的讀者需求,這種需求的得到方式是簡單容易的,當然他們也存在很多的問題比如真實性,時效性,一致性,一般性等等。我們來做一個簡單的推理,如果在公共圖書館中,圖書的借閱量很大,就說明這類圖書比較受到大家的歡迎,圖書館就要適量的增加他的庫存量。如果放在藏書結構的圖書館,借閱量大的圖書就很好的說明他們可以滿足讀者的需求,可以提高公共圖書館的利用率。我們所說的這種藏書的模式并不一定適用于藏書結構,他們只是在借閱量比較大的圖書中的一種內在的模式,從另一個方面來看他就是一種同類圖書的半衰期的內在模式。這種內在模式需要從大量的數據中找到,只有不斷的加大讀者的閱讀行為和閱讀量才能根據圖書的內容進行分析預測,從讀者的身上找到比較受歡迎的藏書模式。這種藏書模式應該是讀者最喜歡的,最方便的一種模式。同一讀者群里面有著相同的行為模式和需求,不同的行為細分里面有著不同的讀書需求。需求一般都是在分析活動的過程中對讀者行為的一種細致劃分,他們都是在調查的基礎上進行的,在實際的應用中,讀者的閱讀行為完全是可以在借閱的大量數據挖掘中找到的。
(二)信息資源的優化
建設公共圖書館每年的文獻購置費是一定的,這些一定的費用如何在各個科目直接進行分配,如何讓有限的購置費發貨最大的作用。傳統圖書館在進行這方面分析的時候一般是有多個人進行專門的調查決定,或者進行商討,但是這種做法很難避免個人的主觀意志,容易造成圖書管理經費的浪費,發揮不出應有的價值。然而通過數據挖掘技術就能很好的解決這種問題,借閱量大的圖書一目了然。
通過圖書館的管理系統可以讓數據挖掘在圖書借閱,流通的時候得到很好的利用,我們可以按著文獻的借閱次數進行有針對性的補充,讓那些不全面而人們經常搜索的圖書盡快得到補充。對用戶每次借閱的文獻進行關聯分析,發現這些文獻其中的管理價值與比例關系,優化信息建設和藏書布局。
五、總結
公共圖書館管理決策是一個非常復雜的過程,要想得到現代化的管理就必須有著完整的,集成與真實的信息。在圖書館的信息化進程建設的時候大量的數據庫建設可以為數據的收集和統計提供條件,也可解決依靠人力無法解決的問題。數據挖掘技術的出現,讓公共圖書館在管理上有了新的方向,可以讓管理者更好的服務于讀者。
參考文獻:
[1]時海燕. 數據挖掘在公共圖書館管理工作中的作用分析[J]. 辦公室業務,2016,(21):189-190.
[2]陳海軍. 數據挖掘在公共圖書館管理工作中的應用[J]. 中國管理信息化,2016,(02):169.
[3]張宏偉. 數據挖掘在高校圖書館文獻采訪決策中的應用[A]. 中華中醫藥學會.全國中醫藥圖書信息學術會議暨第十一屆中醫藥院校圖書館館長會議論文集[C].中華中醫藥學會:,2014:4.
[4]楊睿娜. 數據挖掘在高職院校圖書館管理中的應用[J]. 科技創新與應用,2012,(06):242.
[5]馬豐寧. 數據挖掘技術在公共圖書館中的應用[J]. 圖書館工作與研究,2012,(11):54-57.
作者簡介:張 艷(1984.4—),女,江蘇鹽城大豐區,鹽城市大豐區圖書館工作,本科學歷,助理館員職稱,研究方向:圖書館學基礎理論與圖書館管理研究,信息資源建設與服務研究。