王艷麗 張素華 商丘工學院
簡單來說,數據挖掘就是從大量數據中提取或者“挖掘”知識,但這些數據是不完全的、模糊的、含噪聲的和隨機的,而數據挖掘就是要在這些數據中挖掘出那些隱含的、人工難以識別的和有作用的潛在的信息。這種方法通過對各組織的海量數據進行分析,通過各種挖掘算法推理并從中挖掘出有用的信息,其結果將可為管理層的決策提供支持。隨著海量信息時代的來臨,數據挖掘技術在很多領域都得到了廣泛的應用和發展,越來越顯示出其強大的生命力。
數據挖掘的過程實際上就是一個知識發現的過程,通過運用各種數據處理技術從大量事實數據和觀察數據的集合中挖掘出潛在的模式或規則,幫助我們真正理解這些數據的含義,并對數據之間所存在的關系產生更好的理解。通過數據挖掘,可以從大型數據庫或數據倉庫中的相關數據集中抽取出潛在的、有效的、新穎的、有價值的、最終可理解的知識信息,并從不同的角度顯示,從而使存放有大量豐富可靠資源的大型數據庫為知識歸納服務。因此,數據挖掘被認為是解決目前“數據豐富,但信息貧乏”問題的一種有效方法。
利用數據挖掘的圖書館個性化服務合時宜地運用到圖書管理系統,使推薦功能為本系統提供增值服務,利用推薦系統這種最優方法幫助讀者找出最想找的信息,讓信息主動去尋找跟隨讀者。文獻同時從本質上挖掘讀者的內在個性化需求,針對不同讀者的不同需求,向其推薦有針對性地個性化信息資源。通過這種方式,圖書館服務可向讀者推薦剛好需要的圖書資源,為所有讀者提供剛需服務。
基于數據挖掘的個性化信息推薦服務系統主要實現兩方面功能:一是挖掘功能,這里首先對圖書館讀者根據其所借閱數據進行聚類群分,然后針對每個聚類群體中讀者的借閱數據實現關聯規則挖掘,尋找讀者在借閱圖書時潛在的借閱模式;二是個性化推薦功能,這里將挖掘出的關聯規則應用到圖書館個性化推薦服務中。

圖1 數據挖掘系統體系結構圖
數據挖掘系統由各類數據庫、挖掘前處理模塊、挖掘操作模塊、模式評估模塊、知識輸出模塊組成。系統處數據庫中原始數據存在如不一致、重復、含噪聲、維度高等諸多問題,所以挖掘前需要對數據先進行處理,將未加工數據轉換成適合分析的形式。預處理過的數據分類存放在各種數據庫中,就可以運用各種算法進行數據挖掘,這是一個復雜的過程,并要進行數據挖掘模式評估,并將最終的挖掘結果推薦給用戶。
基于數據挖掘的個性化推薦技術,利用數據挖掘的算法,探究讀者的讀書傾向,從大量的圖書館信息庫中運用各種挖掘方法,找到讀者最感興趣的信息,并推薦給他,并為管理員提供非常重要的業務信息。
數據挖掘的分析方法是利用數據來建立一些模仿真實世界的模型,利用這些模型來描述數據中的模式以及關系。數據挖掘可以建立六種模型:分類、回歸、時間序列、聚類、關聯規則以及順序規則。
聚類分析:聚類分析(clusteranalysis)是一種探查數據結構的工具。聚類分析的核心是聚類,也就是將數據對象首先劃分為簇 ,最后得到同一個簇內的所有的對象都相似,而不同簇的對象都是相異的。通過某些度量或與其他對象的關系都可以來描述所有對象。聚類不需要以先驗標識符來標定數據類別的假定。
關聯規則:關聯規則挖掘是找出既定事件或數據中能同時出現的頻繁數據(即高頻項目組)的一種方法。本文所介紹的個性化圖書推薦功能主要利用聚類和關聯規則算法實現。

圖2 個性化圖書推薦流程
當用戶成功登錄系統后,系統將從用戶聚類推薦和用戶關聯推薦兩個方面開始進行個性化推薦處理。
(1)用戶聚類個性化圖書推薦
首先利用聚類算法對系統所有用戶進行聚類處理,接著得到當前用戶所屬分類里的所有用戶所借閱的圖書,然后根據這些圖書的借閱量對圖書進行排序并且排除當前用戶已經借閱過的圖書,最終得到一個根據用戶分類的推薦圖書清單。
(2)用戶關聯個性化圖書推薦
首先判斷當前用戶是否借閱記錄,如果沒有借閱記錄那么無法提供關聯推薦圖書,流程結束;如果有借閱記錄,那么找出所有借閱圖書并且利用關聯規則算法對所有借閱事務進行關聯規則分析,得到當前用戶關聯的圖書,然后根據置信度以及圖書的借閱量對圖書進行排序并排除用戶己經借閱過的圖書,最終得到一個基于關聯規則的興趣推薦圖書清單。
綜上所述,通過數據挖掘技術的應用可以有效的提高高校圖書館管理工作的效率,將圖書館的作用更加充分的發揮出來。