摘 要:圖書館管理者需要從龐大的數據中篩選出可讀性高的知識信息任務量很大,且效率比較低。本文分析了圖書館應用數據挖掘的必要性,闡述了圖書館個性化服務的內涵,提出了基于數據挖掘技術的圖書館個性化服務應用流程,有效的提高了圖書館管理的效率。
關鍵詞:圖書館;個性化服務;數據挖掘技術;應用
1 圖書館應用數據挖掘技術的必要性
1.1 信息化需求
圖書館數據庫之中包含用戶使用記錄,如借閱記錄、檢索記錄、網頁瀏覽記錄等。由于圖書館用戶需求不同,在使用過程中就會產生種類繁多、信息量大的數據。圖書館管理者需要從龐大的數據中篩選出可讀性高的知識信息任務量很大,且效率比較低。而通過數據挖掘技術,就能夠快速地將大量的數據轉換為游泳的知識信息,為圖書館管理決策提供參考。
1.2 管理需求
傳統圖書館系統一般只具備簡單的檢索、訪問等功能,而這已經不能滿足現代用戶對圖書館管理功能的需求,亟需對系統功能進行升級改造。數據挖掘就能夠滿足為用戶提供個性化服務的技術要求,通過分析用戶使用數據,挖掘隱含的關聯性信息,并發現相關的知識信息。
2 高校圖書館個性化服務的表現形式
所謂圖書館個性化服務,就是能夠為不同類型的用戶提供有針對性信息服務,滿足其知識查閱需求。而就個性化服務具體內容而言,其表現形式主要有以下四個方面:
1)用戶能夠根據自身不同的需求定制有關的信息,并可從圖書館獲取有效的信息資源;圖書館一方可通過數據挖掘方式掌握用戶興趣,并可針對性地提供訪問空間,滿足用戶需求。圖書館在獲取用戶興趣愛好數據時,主要是通過用戶瀏覽路徑信息時間來分析的,一般情況下用戶對感興趣的內容會花較多的時間來閱讀。分析用戶在頁面的停留時間長短,即可掌握用戶對信息資源的感興趣程度,這可為圖書館管理提供很好的參考。
2)進一步提高館藏信息資源的利用率。圖書館資源得到利用才能保證知識的廣泛傳播,圖書館可利用數據挖掘技術掌握用戶訪問圖書館網站的信息,包括瀏覽路徑、經常訪問頁面,通過在路徑上增加針對性的信息資源的推送,引導用戶對信息資源進行訪問,進而提高圖書資源的利用率。
3)為用戶提供快速便捷的訪問條件。挖掘用戶網絡日志數據,分析其訪問頁面之間的共同點,圖書館可加強那些關聯性比較強的網頁之間的聯系,便于用戶對相關內容的獲取。通過數據挖掘了解圖書館用戶的期望位置,并分析用戶在期望位置與實際位置二者訪問頻率的差異,如若前者頻率高于后者,則可以在兩者之間創建一個導航鏈接,便于用戶獲得更全面的信息。
4)查新、定題服務。傳統紙質版、光盤類數據庫已經跟不上新時期信息資源的查新服務,并且隨著網絡技術不斷進步與普及,圖書館內容網絡在信息發布、更新方面具有明顯的滯后性,其服務內容的真實性與可靠性亦值得商榷。因此,強化網絡平臺建設已成為圖書館發展的必由之路。數字圖書館已經較為普及,但其自身的查新與定題服務仍有很大的差距,而可視化技術將成為即時信息分析的重要選擇之一。
3 基于數據挖掘技術的圖書館個性化服務的應用實現
3.1 讀者數據倉庫的建立
數據準備過程中的關鍵步驟是選擇一個樣板數據子集,該子集內容需與挖掘目標有較強的關聯性。由于所挖掘數據信息量較大,需要通過一個數據倉庫將所挖掘的目標數據進行保存,這是保證數據挖掘成功實現的重要內容。所建立數據庫的類型主要有兩類:其一,用戶的興趣庫,可結合以往用戶在借閱圖書過程中的信息記錄、網站訪問記錄,并通過調查問卷的方式對用戶借閱興趣愛好進行了解;其二,有自身特點的特色資源數據庫,對館藏資源進行有效匯總分類,篩選出有特色的數據資源。
3.2 數據收集
數據庫建立之后,還需要對其中數據進行處理,包括分析、調整等,通過這種方式來提高數據庫原始數據的質量,保障數據挖掘過程的順利實現。數據的分析、調整過程主要是對原始數據進行抽取、清洗和轉換等。所謂數據抽取,就是通過對原有數據庫信息進行篩選,選擇與挖掘目標相關的數據信息;在數據抽取基礎上,數據清洗再對所選擇的數據信息進行噪聲、重復記錄的消除工作,并結合挖掘目標計算得出相應的缺值數據。由于圖書館自身數據量龐大,且每天都有大量新的用戶信息數據產生,而如果對所有的數據都進行挖掘,則勢必影響挖掘效率與質量,甚至可能出現負面影響,因此,清除與挖掘目標不相關的數據就顯得十分重要。數據轉換的目的是對數據進行進一步提煉,精簡數據的維數,縮減挖掘變量數,從而從眾多數據的原始特征中選擇出所需的特征。
3.3 挖掘算法選擇與模型建立
針對同一個系統任務,通過不同的運算方法可能得到相同的數據挖掘結果,但其運算過程有很大的相似之處。因此,為提高運算效率與質量,數據挖掘算法的選擇應結合數據特點、系統運行要求,選擇最簡便、最快捷的挖掘算法。由于圖書館用戶群體較大,對知識獲取的需求差異性大,需要根據用戶的不同選擇適宜的挖掘算法,并據此建立有效的數據挖掘模型。通過一定的方法將用戶進行分類,分析不同類型用戶的普遍性需求與個性化需求,并從中抽象出來,以此建立相對應的關聯規則模型。但需要注意的一點,是模型的建立并不一定能夠解決實際問題,其還需要通過驗證不斷地進行完善。
3.4 數據挖掘結果的驗證、應用與評價
數據結果的驗證涉及到應用過程中許多關鍵的環節,且各個環節之間有很強的邏輯關系,上一步結果解釋實踐情況可對最終結果的實用性造成影響,可通過這種關系來對結果實用性進行進一步驗證。但在應用過程中需要注意挖掘模型與數據之間的匹配問題,不可能使一個模型與數據在所有情況下都能夠完全相符。因此,需要通過對數據挖掘結果進行評價,在結合用戶反饋信息基礎上,挖掘結果能夠解決問題,達到開始的挖掘目標,滿足用戶需求,這也就意味著該挖掘模型是可行的、合理的。同時,用戶需求得到滿足之后會做出滿意的反饋,決策者根據用戶所反饋的信息會對下一步做出合理的規劃,通過這一過程不斷對服務進行完善,這也就實現了以用戶需求為前提的圖書館個性化服務數據挖掘過程。但是,還需要考慮到評價結果與用戶需求之間的較大差距情況,這一情形需要系統重新進行數據處理,由系統決定選擇其他的處理方式,如改變轉換方法、設定新參數、選擇其他挖掘算法等,循環多次地對數據進行處理,直至滿足用戶需求。
4 結語
新時期圖書館用戶數量倍增,信息服務需求也出現了多樣化、復雜化的特點。在如此龐大的信息資源中,數據挖掘技術能夠高效、快捷地發掘有用的知識信息,有針對性地提供個性化的服務內容。當然,圖書館個性化服務中數據挖掘技術的應用尚屬于初級階段,需要在挖掘方法、數據可視化、挖掘語言標準化等多個方面進行完善,相信其會在數字圖書館建設中發揮不可替代的作用。
參考文獻
[1]李艷,呂鵬,李瓏.基于大數據挖掘與決策分析體系的高校圖書館個性化服務研究[J].圖書情報知識,2016,02:60-68.
[2]侯振興,崔虹燕.數字圖書館個性化主動信息服務模型研究[J].情報科學,2013,03:35-39.
[3]王立偉.基于圖書館流通日志信息的維度建模[J].圖書館論壇,2008,03:58-60+120.
[4]周軍.基于數據挖掘的數字圖書館個性化服務系統的構建[J].圖書館學研究,2007,03:15-17.
作者簡介
康潔(1987-),女,陜西人,本科,研究方向:圖書館學。