張永強
(黎明職業大學 圖書館,福建 泉州 362000)
數據挖掘技術在高校圖書館管理中的應用
張永強
(黎明職業大學 圖書館,福建 泉州 362000)
數據挖掘技術現已幾乎滲透到了各個領域,圖書館在原來固有的管理模式下,很難對各種信息轉換后的數據實行預期目的的分類管理。數據挖掘技術所具有的快速方便和行之有效的獨特分析方法,可以使圖書館管理需求得到很好的滿足。
高校圖書館;數據庫;數據挖掘;管理應用
隨著數據庫和網絡技術的發展越來越成熟,Internet 技術和Web 技術也取得了很大進步,高校圖書館所擁有的各種類型資源量也急劇增長,所服務的對象在信息素質和信息需求也逐步走向高級化,傳統數據庫管理系統的檢索機制和統計方法已遠遠無法滿足時代需要。因此,為解決數據異常豐富,信息非常貧乏的現象,圖書館相關部門可以利用數據挖掘技術構造出表面上龐雜無序的內在聯系,最大化開發其所包含的數據資源功能,深挖信息的增值作用,推動服務與技術的變革,以滿足服務對象的需求。
20世紀80年代末美國第一次提出了數據挖掘概念,即在一定的數據資源里通過進一步的挖掘以發現更具價值的信息。數據挖掘也稱資料探勘,英文是Data Mining,一般簡寫為DM,通常指從海量的、有噪聲的、不完全的、模糊并且隨機的數據當中,尋找人們本來不知道又包含在里面的有價值信息和經驗的一個過程。[1]也就是說利用專業工具通過對海量數據自動或半自動的摸索和認識過程,目的是以易于理解的方式呈現其中所隱含的有價值的內在聯系。數據挖掘簡單的來說就是用算法進行知識發現的程序,所探尋的內容包括:一是廣義知識,揭示相同事務性質一樣的知識;二是差異知識,揭示相異事務之間不一樣屬性的知識;三是預測知識,利用已有的記錄數據預測出將來的數據;四是特征知識,揭示事務各方面特點的知識;五是關聯知識,揭示事務之間互相聯系的知識;六是偏離知識,揭示事務與常規不一樣的現象。這些知識伴隨定義層次的上升將逐漸被挖掘出來,從狹義數據到廣義數據,不同對象決策所需。
與早期的數據歸納分析(如圖表、檢索、聯機處理等)對比,數據挖掘技術的最大不同之處是所處理的數據帶模糊性和整體性,還有所隱含的關聯性,即數據挖掘的過程是模糊的分析和檢索,檢索到的結果可以是與檢索詞有關聯的任何書目信息,也可以是檢索詞上的重合書目,或者是之間有關聯和重合性的書目。利用數據挖掘技術所發現的結果與常規分析得到的有一定出入,這有利于克服思維定式的束縛,有效拓寬思維領域,發現常規之外的價值信息,做好數據資源的充分整合與利用。
數據挖掘是根據業務知識從現存的數據中尋找各種模型,導出結果的一個重復迭代過程。這個流程是幾個之間具有相互關聯的步驟一直進行重復迭代,常見有定義問題、數據準備工作、選用合適的解決問題指令、提取遵循的法則、結果衡量、利用采用的模式生成知識,直到最后的數據應用。[2]當然由于數據基礎和應用需求的不一致,數據挖掘所采用的步驟也會有所出入。常用的數據挖掘步驟是:(1)定義待處理的問題;(2)預先處理數據的準備;(3)選擇處理所需的數據 (4)轉化成可接受的數據;(5)對數據進行分析;(6)數據挖掘建模;(7)對模型進行評價;(8)挖掘出所需的數據;(9)對挖掘出的數據進行解釋。
在挖掘數據時,需要事先明白該應用所需的各種專業知識,在掌握背景知識的條件下,領會挖掘所要達到的效果,確定客戶的真正需求。沒有相關知識的支撐,很難找出客戶要處理的目的,加上數據殘缺或不足,想要得到準確的結果就非常麻煩。理清挖掘數據的任務和清楚客戶所要處理的問題是數據挖掘首要的一步,也是能否成功的一個關鍵決定性因素,因此在任務開始前最主要的工作是獲得并了解用戶的業務知識和數據需求。客戶的要求一旦明確后,可以對現存歷史產生的數據或其所擁有的資源進行全面衡量,通過掌握的數據挖掘技術解決客戶提出的問題,再次明確挖掘數據的目的和其相對應的計劃。
(一)數據挖掘技術服務圖書館藏書建設
生活在快節奏的現代社會中,人們對時間越發顯得珍貴,圖書館所服務的對象也希望能得到更具有針對性的、實用性強的服務,從而大大節約讀者的借閱時間,降低時間成本,最終達到提高借閱者的滿意度,這也是當前各大圖書館所追求的目標之一。圖書館提供什么服務,讀者就享受什么服務的管理模式已無法滿足當前實際服務的需要。近幾年開展的差異化或個性化特色服務越來越受到讀者的酷愛,這種獨特的管理理念,在目標、過程和行為等幾個方面來滿足個體的服務已逐漸成為圖書館發展的未來趨勢。利用數據挖掘技術代替人工勞動,從繁雜的重復事務中解脫出來,對各種數據進行歸納整理、分析提煉,使圖書館的各種使用功能得到充分發揮,實現智能化的管理與服務。數據挖掘技術被利用在圖書借閱情況的關聯規則時,首先通過自動化管理系統查明某本圖書的借閱情況,搜索借閱該圖書同時又借閱另一圖書的情況,假如這兩本圖書被借閱的比例較高,則這兩本書在程度表現上有著較強的相互聯系,在以后圖書館管理系統推薦圖書時,可以同時介紹這兩本圖書,將大大節約服務對象查詢自己所需圖書的時間,提高服務對象的滿意度。
(二)數據挖掘技術服務圖書館藏書的采購
圖書館作為一個公益服務性的單位,經費比較緊張,高效的使用撥款經費是當前圖書館界存在的一個重要問題。[3]圖書館采編相關人員可以利用數據挖掘技術統計出館內先前的檢索請求情況或檢索命中情況、文獻資源的使用狀況,例如使用序列分析方法處理數據,分析圖書館各資源的使用狀況,為館內資源購買提供合理的建議或報告,使圖書館建設朝著智能化圖書采購的方向發展。所以,圖書館采購管理中如能利用好數據挖掘技術,針對性的補充圖書館文獻資源,有限的采購經費配置得到優化,對采購任務要科學統籌區分輕重緩急,保證將有限的經費用到真正發揮效用的地方。
(三)數據挖掘技術服務圖書館的信息整合
首先,圖書館工作平臺可以利用數據挖掘技術完成各種圖書借閱情況的統計剖析,容易尋找出高借閱率的圖書,也能使匱乏的文獻資源得到快捷的彌補,同時也可以方便下架一些陳舊跟不上時代的圖書,館內各種圖書之間達到合乎理性的比例,更好解決館藏資源優化問題。其次,館內對其近年來的借閱數據可充分利用數據挖掘技術,針對那些高借還頻率的圖書資料在流通前根據挖掘結果對它們預留必要的副本,進一步擴展館內的文獻保障能力。最后,在圖書館館藏體系建設過程中利用數據挖掘相關技術,把WEB系統的智能搜索功能與外界的互聯網緊密聯系起來,實現數據融合,合理發揮出信息科學的優勢,實現信息找人的目標。
(四)數據挖掘技術在小型院系數據庫的應用
在一些高校中,不僅有為全校師生讀者提供館藏服務的總館外,二級院系還有自己的專業分館或院系資料室,收存與自己院系專業有關的文獻資料,為自己所在的院系師生提供文獻服務,方便院系里師生使用其本專業相關的文獻資料。圖書館在讀者辦理借書手續時會記錄下讀者的相關信息,如學號、姓名、院系、借還時間等,管理系統為各個讀者建立自己相應的個人書架。從入學到畢業,一位讀者的借閱量有幾十或幾百甚至幾千本之多,個人書架不斷增加的過程中系統都會一一的記錄下來。一個專業有的一個班,有的幾個班,如把每屆畢業生的個人書架進行匯總就是一個小小的圖書館,儼然是獨立的數據庫了。利用數據挖掘的分類分析和聚類分析手段,形成各專業對應的圖書借閱數據庫,按照各種排序方式得到不同的結果,如借閱量高到低、使用時間長到短等。[4]對于各專業的圖書借閱數據庫,為每年新來的同學提供借閱參考數據。隨著時間推移,數據庫的記錄數不斷得到增加,當時間和圖書積累到一定程度時,數據庫所含內容將會與總館這個專業所含的內容接近,這時需要對這些數據進行剔除更新。一些圖書受出版時間影響較大,在出版入市的前幾年里很受歡迎,但隨著社會和科學技術的進步,一些圖書不再適應專業的需要,慢慢的減少借閱這些圖書,這時需要對這相對過時的圖書數據進行剔除更新,使數據庫保持精簡新穎,從而更好地為專業師生服務。
數據挖掘作為一種新型數據分析手段,已受到各行各業的認可和接受,目前主要應用在CRM的發展趨勢、物品交易和市場走向的預測[5]。隨著數據挖掘給人們生活帶來各種改變時,也隨之產生了一些技術方面的誤解,同時在實際應用中也碰到了許多問題。
(一)數據挖掘應用的困境
往往對數據挖掘技術有很高的期望,而忽略了數據挖掘有其自身的局限性,認為只要利用了數據挖掘技術就能解決所有的問題,其實還要看所期望的結果與數據之間的關系。有些人認為數據挖掘技術是千篇一律的定型工具,對不同數據源的挖掘算法不盡相同,并非所有行業都用同一套算法。對算法的理解,不同的人有不同的理解,甚至是片面的,這導致了數據挖掘無法發揮其應有的作用。在數據挖掘所經過的步驟中,數據準備工作量大,分析建模比較復雜過于繁重,模式里的算法參數選取對挖掘的效果有著重大影響,這就要求在挖掘的各步驟中不斷實驗,探尋出最合理的參數,才能順利圓滿完成預定的任務。[6]
(二)數據挖掘應用的展望
雖然在應用中碰到了許多困難,但都在努力使其往好的方向改進。隨著計算機及數據庫技術的不斷發展,新推出的數據挖掘系統和挖掘方法也會愈來愈多,高校圖書館借助數據挖掘技術進行管理與決策的探索也將更上一層樓。
[1] 楊紅霞.基于數據挖掘技術的圖書館管理[J].科技情報開發與經濟,2011,21(12):75-77.
[2] 邢新.數據挖掘技術在高校圖書館管理的應用分析[J].管理學研究,2013(4):47.
[3] 陳曄,董巖.數據挖掘在圖書館管理方面的應用[J].內蒙古民族大學學報(自然科學版),2016,31(3):206-208.
[4] 葉艷.基于數據挖掘技術的高校圖書館個性化服務[J].蘭臺世界,2016(6):58-60.
[5] 田玉娥.數據挖掘在圖書管理方面的應用[J].電腦開發與應用,2012,25(4):79-81.
[6] 鄒昕.數據挖掘在圖書館管理中的理論與技術[J].科技視界,2016(8):12-13.
責任編輯:仲耀黎
Application of Data Mining in University Library Management
ZHANG Yongqiang
Data mining has almost penetrated into all fields. In the original form of management,it is difficult for libraries to implement the classified management for the intended purpose of all kinds of data after information conversion. The unique analysis method of data mining is fast,convenient and effective,and it can help meet the requirement of library management.
university libraries; database; data mining; management application
2017-04-10
張永強(1980—),男,福建泉州人,工程師,研究方向:圖書館數字化和計算機技術應用。
G251
A
1671-8275(2017)04-0139-03