基于數據挖掘技術的圖書館個性化信息服務探討

2016-10-27 09:49:05郭菁菁

河南圖書館學刊 2016年2期

關鍵詞：數據挖掘關聯規則

郭菁菁

(棗莊市圖書館,山東棗莊　277100)

基于數據挖掘技術的圖書館個性化信息服務探討

郭菁菁

(棗莊市圖書館,山東棗莊277100)

圖書館;個性化信息服務;數據挖掘技術;關聯規則

文章從數據挖掘技術的相關原理出發,構建了圖書館個性化信息服務系統,并對數據挖掘的實施過程進行了簡要論述,并從關聯規則的角度介紹了基于數據挖掘技術的圖書館個性化信息服務的實現途徑。

文獻信息的檢索與傳播是圖書館的基礎職能，隨著圖書館數字化、智能化、自動化程度的不斷提升，很多圖書館引入了中外文全文數據庫。一方面滿足了讀者多樣化的文獻信息需求，另一方面也增加了讀者在短時間內獲取有效信息資源的難度[1]。個性化信息服務是圖書館“以人為本”價值理念的直接體現，是一種最大限度滿足讀者需求的主動性或智能推送性的服務模式，即通過對用戶的借閱習慣和個性特點進行分析，進而主動地向用戶提供其可能感興趣的信息。這一服務模式涉及龐大的數據采集、處理、分析和歸類，需要強有力的數據集成分析工具來支撐。數據挖掘又稱知識發現過程，即利用關聯規則從大量的、模糊的、不完全的信息數據庫中提取潛在的、對讀者而言有價值的信息。數據挖掘技術最先應用于商業領域，近幾年已經開始引入圖書館管理與服務之中，其在圖書館個性化信息服務中的應用仍有較大的開發空間。

1　基于數據挖掘的圖書館個性化信息服務系統設計

1．1整體結構模型

圖書館個性化信息服務涵蓋了用戶從網站注冊到接受系統提供服務的全過程。這一系統首先對圖書館用戶信息進行收集，而后關聯技術對用戶需求行為進行模型構建，繼而用已存在的圖書館資源知識庫與用戶模型進行對照，提取出用戶需求的具體信息服務(見圖1)。

圖書館個性化信息服務系統分為兩大基本模塊，即在線推薦模塊和離線挖掘模塊，圖中上半部分為在線推薦模塊，下半部分為離線挖掘模塊。知識資源庫又細分為信息采集層、信息存儲層、信息加工處理層、信息服務層等部分內容。其中，信息采集層、存儲層和加工處理層滿足了圖書館個性化信息服務中的強大數據需求，是數據挖掘的必要條件。系統數據采集通過搜集讀者使用圖書館的信息而實現，如讀者刷卡保留的借閱信息、個人身份信息等。待采集環節完成之后，由資源處理層對采集信息進行分類加工，更新知識數據庫信息，確保數據資源的即時性(見圖2)。

圖1　基于數據挖掘的個性化系統結構圖

圖2　知識資源庫功能流程圖

從圖2可以看出，資源采集層實現信息采集有兩種方式，即自動采集和人工采集。所謂自動采集指的是系統根據用戶在圖書館中借書、還書、業務辦理等刷卡記錄自動提取并存儲讀者信息。人工采集是一種必要的輔助采集手段，某些情形下，因為系統的原因導致用戶個人信息無法收錄或收錄不完全，如系統因功能故障未記錄部分用戶的身份信息，此時就需要依靠管理人員根據系統提示對用戶信息進行完善補充。資源處理層除具備清理和分類信息功能之外，還具有把不規則數據轉換為可識別數字信息的作用，最后經數據挖掘工具將其轉化為統一識別的知識規則集，以實現個性化信息資源推送服務。

1．2工作流程

系統總體工作流程從用戶和圖書館后臺數據兩方同時開展。首先，用戶在圖書館個性化界面中注冊信息并申請登錄賬號，實現與后臺數據系統的實時交互。其次，用戶通過登錄認證查閱各類文獻信息，同時點擊接受圖書館個性化信息服務操作指令。個性化信息系統后臺則根據已錄入的用戶信息，建立用戶使用模型。最后，信息系統后臺利用數據挖掘技術獲取圖書館資源庫中的關聯資源，并向用戶進行推薦(見圖3)。

圖3　系統工作流程圖

1．3系統模塊構成

在線推薦模塊為離線挖掘模塊運行提供了數據支撐，而離線挖掘模塊輔助在線推薦模塊實現信息推送服務，兩者共同組成了個性化信息服務模塊，都不可缺少[2]。在線推薦模塊在完成用戶信息采集后，對信息進行整理歸類，而后與系統知識庫進行比對，最后根據關聯規則生成用戶所需要的信息。離線挖掘模塊通過對用戶進行的聚類細分找出相似用戶群體，繼而構建用戶模型，完成個性化信息推送服務。

在線推薦模塊的原理主要是把生成的用戶模型與已有的資源知識庫相比對，最終把有用信息推薦給用戶。而采用離線挖掘，一方面要求在時間效度上具有科學性，另一方面要求在數據處理上具有即時性。圖書館個性化信息服務系統中存儲的用戶信息每時每刻都在更新，需耗費大量時間進行數據處理，考慮到在線處理會影響到用戶的使用，通常情形下系統工作采用離線處理模式。因為離線數據挖掘基于用戶使用信息生成關聯規則，而在短時間內用戶信息基數變化不大，所以離線處理的結果不會對個性化信息服務運行造成影響(見圖4)。

圖4　離線數據挖掘生成關聯規則流程圖

從圖4可以看出，這一關聯規則流程主要由三部分模塊組成：①數據處理模塊。其又稱數據存儲模塊，主要功能是依靠系統分析、處理和匯總圖書館資源數據庫中的用戶信息，而后將其存儲在數據挖掘資源庫之中。②挖掘模塊。其又稱數據挖掘引擎，主要功能是運用聚類算法對存儲信息進行挖掘，生成用戶行為規則。③規則導入模塊。其主要功能是把挖掘算法結果導入到系統知識庫之中，尋找與用戶行為規則相匹配的文獻資源。

2　圖書館個性化信息服務中的數據挖掘實施與結果評價

在當前信息資源泛化傳播的時代，圖書館用戶的信息需求不僅僅局限于以往的信息檢索、文獻書目查詢，而是希望獲得更有深度的文本信息或更具全面性的查詢問題解答。采用數據挖掘技術既有助于保持信息的完整性和功能性，又能深入剖析信息之間的關聯，進而滿足用戶的深層次信息需求。普通數據挖掘的實施過程分成四個階段，即問題定義階段、數據挖掘和結果分析階段、數據評估階段。與普通數據挖掘所不同的是，圖書館個性化信息服務中的數據挖掘可以為信息服務提供多種可參照的方式[3]，如按照某一主題，提供全面的方案知識，輔助圖書館完成個性化決策支持服務；應用戶要求，為其提供全本文獻資料或關聯資源庫鏈接，使文獻服務更具針對性(見圖5)。

圖5　個性化信息服務系統中數據挖掘實施步驟

2．1提出問題

圖書館用戶依據自身的借閱需求向圖書館個性化信息服務系統提出文獻查閱或借閱請求。系統自動記錄用戶請求，并根據請求的具體內容縮小數據挖掘范圍，減少系統數據挖掘壓力。

2．2數據導入與整理

數據導入和整理是數據挖掘開始的前提，同時也是用戶獲得優質信息服務的必要條件。數據挖掘質量與挖掘范圍、挖掘工作量成正比關系，為了向用戶提供全面而深入的文獻信息服務，數據挖掘開始之前應全面理解用戶設定的問題，盡可能擴大文獻數據的挖掘范圍與深度。在挖掘工作初步完成之后，應根據用戶的需求和索引題目的要求對挖掘數據進行初步審核，并對挖掘出的數據進行分類。通過異常數據清除、重復數據刪除、文獻資源標準格式化、錯誤更正等操作，完成對數據的最終整理。

2．3模型構建與調整

把已挖掘數據轉換成用戶信息模型，并最終與系統數據庫中的資源指標正確匹配，從而轉換成有用的關聯規則，這離不開模型構建工具的科學性和挖掘人員豐富的操作經驗。一般而言，一種數據挖掘算法對應一種模型構建方式，想要最大化地發揮數據挖掘功能，關鍵是要選擇一種適合分析模型的挖掘算法。用戶模型建立完成之后，可根據系統的需求對模型進行適當調試，如：增加信息匹配因素，使之能夠挖掘出更多的或更深層次的關聯信息。

2．4結果評定與解釋

結果評定根據用戶的文獻信息需求狀況而設定，其目的在于分析和整理出有用的挖掘模式運行數據，為后續完善系統服務做準備。數據挖掘之后，在資源數據庫中尋找出潛在的價值信息，但數據挖掘之后產生的關聯規則可能不止一種模式，也并非每種模式都會產生相同的挖掘效果[4]。通過對挖掘結果做出評價和解釋，選擇最優化的挖掘模式，有助于滿足大多數用戶的信息需求。

2．5反饋與修訂

系統接收用戶的反饋信息，找出數據挖掘中的不足，與用戶溝通后制訂下一階段的詳細挖掘計劃。

3　基于數據挖掘的圖書館個性化信息服務實現

3．1分類號級層面關聯規則

分類號級層面的關聯規則通過分類號級對圖書館資源系統進行數據挖掘實現。這一關聯規則既能呈現出學生的潛在閱讀行為，又能勾勒出學科之間的隱性關系。一些情況下，對于圖書館兩年內的新購圖書，管理人員會把其集中在靠近走廊或閱覽室入口之處，以便借閱。此時，利用數據挖掘生成分類號級關聯規則，將符合規則的圖書集中有序擺放，也就實現了潛在的個性化信息服務。而購置時間在兩年以上的圖書，其擺放原則大多依據《中國圖書館圖書分類法》，很難依據關聯規則對其進行重新調整。由此可以看出，此種關聯規則下的個性化信息服務方式更加適合傳統模式下的圖書館。

3．2圖書館層面的關聯規則

圖書館層面的關聯規則通過索書號級對圖書館資源數據庫進行挖掘實現。特定的索引書號對應相應的圖書標題，這一數據挖掘生成的關聯規則除了顯示用戶借閱了圖書甲的信息，還會顯示讀者可能借閱圖書乙的信息。這一關聯規則在數字化圖書館中有較大應用空間，不受圖書館文獻資源購買時間長短的限制。其基本過程是通過關聯規則表查詢用戶最近的借閱行為，與資源數據庫進行匹配，如果有相關聯圖書，則從資源數據庫中把圖書信息調出，待用戶下次登錄圖書館個性化信息服務界面時，系統會在屏幕中主動顯示用戶可能感興趣的圖書列表。

4　結語

當今社會中的圖書館服務不再局限于提供簡單的文獻查找與借閱，而是轉向了為用戶提供更為深層次和關聯性的信息源。本質上來看，傳統圖書館的信息服務模式是一種“被動式服務”，難以向用戶提供完整的知識集合或信息集合。而數據挖掘技術的應用，則有效解決了圖書館信息服務中供求不匹配的問題，使讀者享受到更具實效性、針對性和個性化的信息服務。但數據挖掘技術涉及諸多數據處理技巧且工作量復雜，因此在我國圖書館個性化信息服務系統構建中普及率還很低，同時這也成為我國圖書館個性化信息服務建設中面臨的現實問題。

[1]劉瓊.大數據環境下圖書館面臨的影響與挑戰[J].理論觀察,2013(8):112-113.

[2]查繼紅.高校圖書館個性化信息服務模式探析[J].圖書館學刊,2014(6):79-82.

[3]吳淼.數據挖掘在圖書館個性化服務中的研究[J].出國與就業,2011(12):42-44.

[4]孫鴻燕.圖書館關聯數據的綜合管理及實現[J].圖書館學研究,2011(12):101-103.

(編校:馬懷云)

2016-01-02

郭菁菁(1985—)，棗莊市圖書館館員。

G250.7

1003-1588(2016)02-0127-03

基于數據挖掘技術的圖書館個性化信息服務探討

1 基于數據挖掘的圖書館個性化信息服務系統設計

2 圖書館個性化信息服務中的數據挖掘實施與結果評價

3 基于數據挖掘的圖書館個性化信息服務實現

4 結語

1　基于數據挖掘的圖書館個性化信息服務系統設計

2　圖書館個性化信息服務中的數據挖掘實施與結果評價

3　基于數據挖掘的圖書館個性化信息服務實現

4　結語