吳 燦
(重慶圖書館,重慶 400037)
吳 燦 男,1977年生。學士,助理館員。研究方向:圖書館辦公信息化、數字圖書館、數字資源共享。
隨著圖書館信息化、數字化程度的提高,其職能也發生了較大的改變。數字化、信息化的圖書館除了具有傳統圖書館的職能外,還是館領導做決策的重要依據,成為圖書館發展數據庫和知識庫的重要組成部分。如何有針對性地為讀者在紛繁復雜的信息中選取有效的參考信息,以及對圖書館的各種資源進行科學化管理是現今圖書館工作面臨的重要任務。而數據挖掘技術的應用為圖書館的系統升級提供了重要的技術支撐。
著名的圖書館管理博士W·J·Frawley對數據挖掘是這樣定義的:數據挖掘就是從大量的、復雜的、不完整的應用數據中提取被人們忽視的但又有很大利用潛能的數據的過程。數據挖掘技術是隨著數據庫和自動化技能發展而出現的新的信息技術,與數據分析的差別就在于,數據分析是通過分析數據來驗證人們已知的假設,而數據挖掘則是從大量人們已知的數據中挖掘出人們未知的信息。
網絡信息服務是指專門提供信息服務的機構運用計算機、通訊網絡等設備、設施,提供因特網信息服務。信息服務主要有兩種,即傳統信息服務和現代信息服務。傳統信息服務主要包括利用報紙雜志、影視作品、電臺廣播等提供的服務;而現代信息服務是以計算機提供的網絡為核心,以數字化的形式為客戶提供信息服務,包括電子書、網頁新聞、網絡搜索和查詢、信息傳遞等。
信息技術和數字化的發展為圖書館體系的升級提供了重要的前提和條件,數字圖書館便是信息化和數字化的產物。數字圖書館是圖書館提高網絡信息服務的重要途徑和條件,網絡信息服務是數字圖書館建設的根本目標,也是聯系數字圖書館和讀者之間的重要紐帶。
隨著圖書館信息化、數字化的發展,圖書館體系的具體任務轉變成如何讓使用者更加有效地利用圖書館資源,以及如何更好地針對讀者需要從紛繁復雜的信息中找出關鍵的可靠信息。數據挖掘技術的最大優勢就在于“意外”性,這便為圖書館的管理工作和服務質量的提升提供了更多可能。
數據挖掘技術可以從雜亂無章的數據中提取出最符合要求的參考信息,而在數據挖掘技術的實現研究中,筆者所要研究的數據主要來源于工作中的現有數據。通過選取讀者借閱信息進行聚類分析,了解圖書館的使用率和圖書的借閱率,挖掘出隱性的圖書館運行規律,總結出數據挖掘技術在圖書館系統中的應用模型,然后用此模型來指導圖書館的管理和服務工作,進而提高圖書館服務和管理工作的效率。
現階段,信息化數據挖掘技術發展迅速,理論研究不斷創新,已經成功研發了各種數據挖掘軟件,被廣泛應用到不同領域并逐漸得到認可,正是這些領域的成功引起了圖書館的極大關注。在圖書館現代管理系統中能夠產生大量不同種類的數據,自動化系統本身也包含很多數據。可以依據這類數據的特點,定向研究適合圖書館應用的數據挖掘軟件,并通過運用這類軟件挖掘出對圖書館有意義的部分信息,進而了解讀者訪問圖書館的目的及整體趨勢。根據讀者的興趣需求,采取適當措施及時完善服務質量,以優質的服務提高讀者的滿意度。
將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。人類通過聚類研究事物內部規律,由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。聚類分析為進一步分析處理數據提供前提。作為數據挖掘功能,進行聚類分析后,可以整體了解數據分布情況,了解數據所存在的特征,并對其特定部分進行深入分析,識別出數據密集區和稀疏區,縱觀全局數據分布模式及其屬性關系等。由于大部分現實存在的大量數據庫中不可避免地要涉及空缺、孤立點、未知錯誤數據等,那么只是單純地按照聚類分析數據可能會直接影響聚類分析結論的準確性。
事物之間都有自己的特有屬性,我們可以假設對象A={ω1,ω2,ω3,…,ωn},其中 ω 為其特有的屬性,對象 B={ξ1,ξ2,ξ3,…,ξm},如若A與B之間存在某種相關性K,我們可以認為在該相關性上對象A與B屬于同一類,而K為A,B對象在K關系上的函數,可記為K(A,B)。顯然關系K是建立在A對象與B對象屬性的某一非空子集之上。
兩個對象是否在K關系上屬于同一類別,可以通過兩個對象之間的距離進行表征。因此我們可以建立兩個對象變量之間的距離K函數關系:

ωi為A的屬性結合;
ξi為B的屬性結合;
C為第i個屬性的控制權重因素,在不同的關系中,權重因素可能不一樣,通常情況下權重的取值為1~7。
當兩個函數之間的距離越近,這兩個對象之間就越緊密,可以認為在K關系上這個值就越大,這兩個對象屬于同一類,反之,我們可以認為這兩個對象不屬于同一類型。
從廣義上來講,K 也屬于關系集合 ψ={K1,K2,K3,K4,…,Ki}。所以我們可以根據實際需求對關系進行分類。在不同的關系之間建立距離K函數。從而判斷某兩個對象在該關系上是否聚為一類。
由表4可知,6上105-2工作面開采初期頂板最大下沉量大于800 mm,壓架事故頻發,嚴重影響安全生產;實施舊支架升級后,頂板最大下沉量控制在600 mm左右,保證了煤礦安全生產;實施新支架優化選型后,6上109工作面頂板下沉量在300 mm以內,保證了工作面高產高效。
為了方便圖書館數據挖掘管理,根據圖書館日常工作關系,首先建立圖書館關系集合,主要包括讀者需求關系、圖書采購關系、個性化服務關系。其次建立圖書館進步文獻屬性表。因為圖書館管理是以文獻管理為依托,所以在工作中收集整理文獻基本屬性參數尤為重要。筆者所采用的文獻基本屬性有書目類別、圖書數量、日借閱量、月借閱量、個人連續借閱量、預約量、出版時間等,其具體描述如表1所示。

表1 圖書對象基本屬性
最后,利用公式 K(A,B)=1-∑n1=0Ci|ωi-ξi|進行在關系 K上的聚類分析計算。
如對讀者需求關系進行聚類,通過需求聚類分析,可以觀察到當前讀者需求量較大的書目信息,從而方便圖書管理。
①從圖書館后臺數據庫中讀取各書目數據信息,隨機抽取某一書作為原始對象。
②由該關系可知,書目預約量、日借閱量為主要考察對象,所以在該比重中,確定屬性權重關系相應的設置較大,可設該權重值6,其余權重可設為1。
④設置閾值,將關系值進行分層,處于同一層的書目在讀者關系上屬于同一類別。通過設置閾值,對關系值進行分層,同一層者為同一類數據。設置的閾值大小應該根據實際情況而定。如圖1所示,分配不同的閾值,可以將不同的相關書目聚為一類。

圖1 聚類分層
在圖書館信息資源系統中,保障圖書館信息資源的重要環節就是文獻采集。一般的采購形式是依據出版社、期刊社或者書店新書書目等相關信息,由專人或館長進行采集。這種文獻采集方式不可避免地帶有個人主觀性。因為圖書館文獻購置經費有限,應充分采集各門學科相關的專業信息,使采集經費的價值效益達到最大化。
在該建設過程中,首先確定權重關系,其次通過公式聚類分析計算,有目的地選擇當前需要采購的書目。可以了解圖書館在一段時間的借閱流通記錄、檢索請求,進而統計出文獻拒借集及頻繁借閱集,明確文獻信息采集方向,定向補充并豐富圖書館信息資源。
數據挖掘技術有效拓寬了圖書信息服務范圍,使圖書館信息服務更有針對性,更能從客觀上滿足讀者需求,提高了服務質量。通過對讀者信息進行挖掘,得到有效的數據信息資源,并通過對其數據進行整合,進行相應的圖書館管理,為讀者提供一個統一的知識文化平臺,大大提高了讀者的信息服務質量。
讀者是圖書館的寶貴財富,在圖書館管理中,如何為讀者提供個性化服務,滿足其客觀需求,是圖書館的主要工作。
從先前的數據挖掘實例可知,設定不同的關系可以得到不同聚類分析結果,所以在圖書館管理中運用數據挖掘技術,對讀者歷史借閱信息進行聚類挖掘分析,可以通過數據分析結果得到讀者的基本需求。在該關系模型中,讀者預定信息與單個客戶單本書籍借閱次數應該占有很大權重,通過利用該數據挖掘模型,可以了解讀者的研究方向,并以此為依據,向讀者推薦相關書籍或者有目的地進行圖書采購,從而發展穩定的圖書館讀者群。
隨著科學技術的發展,在原始海量數據中尋找有用信息資源無疑是信息化利用的有力途徑。通過數據分析,可以改進圖書館需求方向。但同時在大量的數據中也存在著信息冗余,這也是數據挖掘中需要考慮的問題。然而隨著圖書館數據挖掘模型的不斷完善,其在讀者服務以及圖書館資源建設管理方面將會發揮越來越重要的作用,為圖書館的管理決策提供相應的數據支持。
[1] 楊春,劉樹新,樓康華.論數據挖掘在讀者關系管理中的應用[J].河北建筑科技學院學報:社科版,2006(3).
[2] 雒鳳軍.數據挖掘技術與讀者個性化服務[J].蘭臺世界,2008(6).
[3] 駱穎.基于數據挖掘的數字圖書館個性化服務[J].黑龍江科技信息,2009(5).
[4] 王伯秋,等.基于數據挖掘的個性化信息服務[J].醫學信息,2010(1).
[5] 黃蘭,孫林山,羅日輝.數據挖掘及其在圖書館管理中的應用[J].華南熱帶農業大學學報,2005(2).
[6] 牛根義.國內圖書館數據挖掘研究[J].現代情報,2009(1).
[7]周軍.基于數據挖掘的數字圖書館個性化服務系統的構建[J].圖書館學研究,2007(3).