王承忠
【摘 要】對于高校而言,圖書館不僅是學生和教師閱讀、查閱各類文獻資料的地方,同時也承擔著學校教學和科研服務的重要任務。數據挖掘技術對數據信息的深加工作用在傳統圖書館向數字化圖書館的轉型過程中發揮了重要作用,其不僅可提高高校圖書館的服務質量,同時還可促進資源配置利用率的提高,于圖書館自身管理的完善也十分有利。
【關鍵詞】數據挖掘;聚類分析;讀者群體;借閱排名
一、數據挖掘技術概述
數據挖掘是從特定形式的數據集中提煉知識的過程,其在各行各業中均取得了良好的應用效果,且已然成為了國內外的研究熱點。目前常用的挖掘技術有數據挖掘、Web數據挖掘、文本挖掘這三個類型。
(一)數據挖掘
面向數值數據的挖掘技術稱之為數據挖掘,關聯分析、聚類分析、分類、預測、時序模式和偏差分析等稱之為數據挖掘。數據挖掘技術的水平對所發現知識的質量有著最直接的影響,目前應用較廣泛的數據挖掘方法有關聯分析法,人工神經元網絡、決策樹和遺傳算法等,對這些方法的研究主要集中在算法與其具體應用等領域。
(二)Web數據挖掘
Web數據挖掘的主要對象是包括Web頁面內容、頁面之間結構、用戶訪問信息、商務交易信息等在內的各種Web數據,人們借助這一技術可短不僅可從萬維網中有效提取知識,還可改進站點設計,為電子商務的更好開展提供服務。
(三)文本數據挖掘
文本數據的挖掘對象主要是文本信息,主要工作內容包括特征提取、文本摘要、文本分類與聚類、概念操作以及探索新數據分析等,具體技術手段則有詞頻反文獻頻率向量表示法、詞串表示法以及貝葉斯分類算法、詞集合算法和文本聚類算法、K-最近鄰參照分類算法等。
二、數據挖掘技術的應用對高校圖書館的意義
擴招使得高校生源不斷擴大,高校圖書館的讀者數量也日益龐大。與此同時,高校圖書館的借閱記錄以及館藏數據的存儲積累均呈不斷增加的發展趨勢。然而,這些海量數據的質量魚龍混雜,不僅包含對管理者與決策者真正有價值的信息,同時也有不少落后的、無用的、錯誤的信息,因此數據分析和挖掘工作十分重要。
(一)數據挖掘可提高高校圖書館的決策能力
借助數據挖掘技術,高校圖書館管理者可對挖掘出的有用數據信息進行進一步分析與研究,進而可促進自身決策能力的提高。例如,我們可利用數據挖掘技術來分析圖書借閱情況,進而可探究出讀者的讀書喜好和借閱習慣,并在此基礎上總結出讀者的借閱規律,如此即可為日后的圖書館管理工作提供有效的依據。
(二)數據挖掘可為圖書采購工作提供指導性意見
通過數據挖掘技術分析讀者的喜好,我們可對圖書館的下一步采購工作進行科學預測,圖書采購行為將更加科學合理。傳統圖書館管理中,采購人員都是通過主觀判斷來決定采購什么類型的圖書,這無疑不利于圖書館的運行與發展。
(三)數據挖掘可為讀者提供更為個性化的服務
不同的讀者有不同的閱讀需求,這要求高校圖書館為其提供不同的閱讀服務。數據挖掘技術可通過數據分析設置不同的服務標準,進而可為讀者提供更為個性化的服務。這樣一來,高校圖書館的服務質量得以提升,讀者的閱讀興趣也更為濃厚。
三、數據挖掘技術在高校圖書館管理中的應用設計
基于上述章節對數據挖掘技術應用對高校圖書館意義的分析,我們應進一步重視數據挖掘技術在高校圖書館管理中的應用。本章節筆者將重點介紹基于數據挖掘技術的高校圖書館管理系統設計。
(一)信息系統總體框架
高校圖書館管理系統在應用數據挖掘技術時,可以高校圖書館的網站系統為基礎。從北郵、銀博等現有的圖書管理系統來看,基本都采用三層結構體系設計,即用戶界面層、業務邏輯層與數據訪問層。由一系列交互頁面組成的用戶界面層的主要功能在于幫助用戶實現對圖書館網站的訪問以及幫助管理者獲取訪問者的實際需求信息。我們常用的用戶注冊與登錄、圖書資源搜索與預定、圖書智能推薦等等模塊均屬于業務邏輯層的內容,其主要功能在于實現應用程序的業務功能。數據訪問則不僅可提供外部數據庫的訪問服務,同時還具備查詢、插入、刪除和修改數據庫中各類型數據的作用。
(二)圖書館管理數據倉庫設計
數據庫是信息管理系統實現數據挖掘功能的基礎,因此其設計在高校圖書館信息管理系統中至關重要。注冊認證庫與圖書館信息庫共同組成了高校圖書館數據庫,而圖書館信息庫又包括圖書信息、讀者信息、圖書借閱歷史列表、出版信息實體以及管理員采購圖書清單、用戶圖書預定需求單和新購圖書單等內容。因此,高校圖書館數據庫里的數據十分龐雜。為提高圖書館管理系統的數據能力,所有SQL的調用都應使用存儲過程來完成,使用參數進行數據傳遞可為系統安全提供重要保障。
(三)聚類分析應用
高校圖書館管理系統中的數據挖掘模塊在挖掘出有用信息后可將數據結構存儲下來,這就是數據挖掘技術在高校圖書館聚類分析中的具體應用,該技術手段可為圖書館采購資金的合理分配提供科學依據。通常而言,我們在設計高校圖書館管理系統的聚類分析時需實現讀者聚類與圖數聚類這兩個方面。所謂讀者聚類,也就是依據讀者的使用情況進行讀者群劃分;圖書聚類獲得有價值信息的方式則是根據圖書被借閱的次數進行聚類分析。
四、數據挖掘技術對高校圖書館帶來的挑戰
如前文所述,數據挖掘技術的應用與發展有利于高校圖書館決策能力的提高,同時還可為圖書采購提供科學依據,為讀者提供更為個性化的服務。但在實際應用中,數據挖掘技術仍給高校圖書館帶來了諸多挑戰。
(一)從異構數據源中挖掘信息
異構數據源也就是多個不同的相關的數據源系統的集合。數據挖掘技術需從高校圖書館中繁雜的信息中挖掘出所需的信息,然后再對其進行分析與綜合,經過這一系列過程方可得出真正有價值的信息與知識。互聯網時代的到來使得信息技術更新速度不斷加快,各種高新技術日新月異、層出不窮,這一現實背景對圖書館管理者及信息系統技術人員的專業素養提出了更高的要求,只有掌握多種新興技術才能有效構建起具有多種數據源構成的分布式異構數據庫,才能有效完成數據挖掘工作。
(二)不同表現形式的數據挖掘結果
從目前來看,高校圖書館通過數據挖掘技術所獲得的數據仍具有較大的不確定性,因此數據挖掘所獲得的結果類型諸多,表現形式也不盡相同。在系統應用中,用戶極有可能會提出要挖掘不同信息與知識的要求,此時就需要系統技術人員從更大規模的數據集中挖掘出更多的不同形式的結果。
(三)在不同抽象層次上進行交互式挖掘
我們在從一個大規模的數據庫挖掘數據前,要想預測出能挖掘什么內容的信息具有較大的難度。對此,高校圖書館信息系統的開發人員應以一個搜索過程來處理復雜的數據挖掘與查詢,但為了完成數據的進一步挖掘,務必保留所有的中間結果。在進行數據挖掘時,用戶可通過不斷地修改自己的查詢請求來動態調整此次數據挖掘的目標,以保障挖掘過程的有效推進。所以信息管理系統需從不同角度觀察挖掘數據的中間結果,如此才可為用戶提供靈活的觀察數據。
五、結束語
信息時代,我國逐漸開始普及數字校園、數字圖書館等先進理念,基于數據挖掘技術的圖書館管理系統隨之得到廣泛應用。在不久的將來,數據挖掘這一新型智能信息處理技術將得到業界學者更多的重視,其具體技術與手段也將得到進一步完善與發展。
【參考文獻】
[1]王玉珍.基于Web挖掘的數字圖書館個性化服務體系研究[J].情報科學,2014,32(04):96-100.