摘要:文章首先介紹了數據挖掘技術、云計算及“云圖書館”的相關理論,其次分析了數據挖掘技術在圖書館中的應用現狀,最后對“云圖書館”利用數據挖掘技術有效提高圖書資源的利用率進行了研究,從而有利于最大程度地滿足讀者的多種數據信息需求。
關鍵詞:云平臺;數據挖掘;數字圖書館
中圖分類號:G250.72 文獻標識碼:A 文章編號:1008-0821(2012)07-0046-04
信息技術的快速發展和圖書館服務模式的轉變為以云計算為主的前沿技術在圖書館中的廣泛應用拓展了空間。以云計算為平臺的數據挖掘技術適應了用戶多樣化、迅捷化的需求,有利于用戶在圖書館的海量數據信息中更快、更準確地發現所需信息。近年來,國內外諸多學者對數據挖掘技術及其發展趨勢進行了研究,普遍認為在圖書館中采用數據挖掘技術,有助于數字圖書館的自動化建設,提升服務質量。數字圖書館要適應用戶特定需求,向用戶及時、準確地提供所需信息,必須動態地組織和呈現與用戶當前信息需求相關的信息內容,而數據挖掘可以實現這一功能。基于云平臺的數據挖掘技術是數字圖書館信息資源整合的最佳方法,也是目前世界各國圖書館潛在數據技術挖掘的技術發展趨勢。
1、相關理論綜述
1.1 云計算概述
云計算是指基于互聯網的一種新型的計算模式,即把存儲于個人電腦、移動電話和其它設備上的大量信息和處理器資源集中在一起,把信息資源、數據作為服務通過互聯網提供給用戶。云計算是一種新興的共享基礎架構管理方法,能夠把大量的、高度虛擬化的資源管理起來,形成巨大的系統池,統一提供各種IT服務。云計算依靠B/S架構,把計算壓力從客戶端轉移到服務器端,由技術提供商進行遠程服務支持,是分布式處理、并行處理和網格計算的新發展。其資源和計算都在異地的設備中完成,而自己的終端設備只需要一個顯示設備和操作設備。云計算主要運用虛擬機(虛擬服務器)聚合形成同質服務,強調在某個機構內部的分布式計算資源的共享。
圖書館云計算服務是以虛擬化技術為基礎的,為用戶提供最大限度的信息數據資源。云計算技術能實現海量數據的存儲、分析、處理、挖掘,提供高可靠性、高性能的數據挖掘分析,主要是基于數據挖掘平臺PDMiner(ParallelDistributed Miner),實現了對大數據集的處理、分析,向用戶提供高效的服務。云計算在對海量的數據存儲、讀取基礎上進行大量的分析,數據的讀操作頻率遠大于數據的更新頻率。
1.2 國內云計算市場發展現狀分析
目前,我國已經掀起了發展云計算的熱潮。從政府層面看,政府向來是IT服務方面最穩定的市場,面對社會經濟發展的形勢,政府部門已將云計算與政府的工作緊密結’合,從而成為經濟社會發展的重要支撐;從企業層面看,國內很多企業已利用云平臺對技術、產品、服務等進行了大膽創新,取得了良好的應用實踐效果;從圖書館內部業務層面看,在云計算時代來臨之際,考慮到服務方式的轉變、信息數據的挖掘及未來數據庫的采購等問題,也已經將云計算視為發展的重要保障。有學者認為,當前幾乎所有的云服務都可以在圖書館領域得到應用,包括大量的軟件服務、云存儲服務、平臺服務和互聯網整合服務等。圖書館充分利用云計算技術,推進現代化建設和信息服務進程,進一步提升自身的信息資源建設與信息服務提供能力,顯然是一種不可回避的選擇。目前,圖書館界正在積極探討如何將云計算和云服務應用到圖書館的資源建設與服務提供中。中國高等教育文獻保障系統正在完成CALIS數字圖書館云服務平臺,構建大型的分布式公共數字圖書館服務網絡,力圖將分布在互聯網中各個圖書館的資源和服務整合成為一個整體,形成一個可控的自適應的新型服務體系。這一系統架構是以SOA規范為基礎。以OSGi標準對各個服務進行統一封裝,為服務提供者提供統一的服務發布功能,為消費者和提供者之間提供統一的通信方式。為實現來自不同服務平臺、系統的服務整合,CALIS整個云服務平臺提供了統一開放API,統一的API托管以及統一的認證服務。CALIS及其成員館提供了靈活的部署和應用方式,既能滿足CALJS構建公有云服務中心的需要,也能滿足圖書館構建私有服務云的需要,還能實現對這兩類服務云的整合。到目前為止,CALIS云服務平臺的基本框架已經完成。國外較有代表性的云服務應用先例主要有美國國會圖書館與DuraSpace公司共同啟動的Dur-aCloud項目。可以說,云計算對圖書館而言并不顯得虛無縹緲,只有抓住這一大好機遇,明確自己在云計算環境中的發展定位,完善網絡服務設施,提高公共服務的水平,才能進一步提升自身的社會價值與地位。
1.3 數據挖掘技術相關理論
數據挖掘(Dam Mhhg)技術是一種新興的信息處理技術,源于20世紀90年代中期,作為知識發現的關鍵步驟,數據挖掘對于用戶從海量數據中提取有用知識具有重要作用,這一新興技術涉及到多個學科領域,如模糊數學、人工智能、機器學習等。數據挖掘方法也在近年來不斷發展,從仿生算法、數據庫法(多維數據分析、OLAP等)到目前盛行的領域驅動數據挖掘(DDDM)方法,可以說日新月異。
數據挖掘也稱數據庫中的知識發現,就是有效地從大量的、不完全的、模糊的、圖書館數據倉庫中,提取在隱含在其中的、人們感興趣的且事先不知道的、潛在的有用信息和知識的過程,并利用各種分析工具在這些海量數據中發現模型和數據間關系,從數據庫中的大量業務數據進行抽取、轉換、分析,從中提取有用的知識、高層信息或輔助決策的關鍵性數據。隨著圖書館信息化程度的提高,數據量不斷積累膨脹,為進一步的數據挖掘提供了豐富的數據信息資源。可以最大限度地滿足各類用戶的知識信息需求。用戶從數據庫中提取所需數據,對其進行進一步的集成和合并,利用合適的數據挖掘技術,對相應信息資源進行整合,從而為決策提供更為有效的幫助。
2、數據挖掘技術及在圖書館中的應用
隨著圖書館數字化程度的推進,如何運用新技術挖掘潛在的信息資源,為服務讀者和科學管理提供可靠的依據,成為圖書館界關注的問題。主動發掘讀者需求,提供讀者所需信息,是現代圖書館的重要工作任務之一。由于每一種數據挖掘技術方法都有其自身的特點和實現步驟,因此,成功應用數據挖掘技術達到最終目標的過程相當復雜。這一過程是基于約束的、人機結合、往復循環、不斷逼近目標、深層次的知識發現過程。其基本處理流程包括:數據收集、數據整理、數據挖掘、知識的獲取等,數據挖掘的每個過程不是一次就能完成的,而是一個循環迭代的過程,只有這樣才有可能達到預期的效果。
2.1 建立數據倉庫
數據挖掘的技術基礎之一是數據倉庫,而數據倉庫技術是源于數據庫的技術,它主要的設計思想是將分析決策所需的大量數據從傳統的操作環境中分離出來,把分散的,難以訪問的操作數據轉換成集中的、統一的、隨時可用的信息而建立的一種數據庫存儲環境。人們對數據倉庫的定義是面向主題的,集成的,具有時間特征的,穩定的數據集合,用以支持經營管理中的決策制定過程。為什么要建設數據倉庫的主要原因在于:數據倉庫可以說是決策支持系統,它是在管理信息系統的基礎上發展起來的,數據倉庫提供的經過整理統計歸納的數據可以給決策者很多信息,并通過數據幫助決策者做出決策。所以建立數據倉庫是很重要的事情。
建立圖書館的數據倉庫,用以收集信息。在學校圖書館管理系統中,全面實行校園一卡通,這樣為直接收集讀者的借閱數據提供了便利。下面本人簡單說明針對圖書館數據倉庫事實表和維表的設計。
在借閱過程中,以學生、書籍、借閱時間三方面定義3個維度來建立維表,然后建立事實表,來收集信息。維表包含的是相應維度的描述信息,這些信息用作查詢的約束條件,一般是離散的,描述性的,不具有可加性的。如圖1-3所示:根據圖書館數據倉庫建立的3個維表:學生維表、圖書維表、借閱時間維表。
數據倉庫多,一般多采用多維數據模型,這樣能更好的完成多維數據分析的需要。多維數據模型普遍采用的一種非常重要的模式就是星形模式,星形模式是由事實表和維表通過星形方式來連接而成,事實表包含的是借閱數據信息,這些信息用于分析型查詢。數據取值通常是可度量的。連續型的,且具有可加性,數據量可以達到幾百萬甚至上億條記錄。事實表中的借閱數據信息可以從多個維度查看,每一個維度對應一張維表。如圖4所示:
在數據倉庫星形建模的基本工作完成之后,就應該開始進行數據聚集的設計。數據聚集是數據倉庫系統的必備內容,它與分析型應用的需求密切相關,且與事實表和維表的設計緊密聯系。就工作的時間和內容而言,它是數據倉庫多維數據建模的后期工作,是事實表和維表設計工作的延續。
創建數據聚集首先確定數據聚集的內容,步驟如下:
(1)確定在各個維的哪些屬性上需要進行數據的聚集,這里以時間維的月份和年份,圖書維的圖書種類,學生維的專業建立數據聚集。
(2)確定不同維的屬性如何進行組合。
數據聚集建立后,由于分析型查詢一般都比較復雜,數據倉庫的數據量一般有比較大,因此建立索引提高數據倉庫中數據的訪問速度具有重要意義。所以這里還要建立索引。
明確了數據倉庫體系結構的基本方案,完成了數據模型的設計后下面考慮數據預處理問題。對事實表和維表進行一些數據凈化等工作。
數據倉庫經過以上經過建設后。我們還要對數據倉庫進行運行和維護。
2.2 在數據倉庫中進行數據挖掘
數據挖掘建立在數據倉庫的基礎上,前面已經介紹了一些數據倉庫的相關知識,它們二者之間有著緊密的聯系。數據倉庫為數據挖掘提供了數據基礎,數據倉庫完成了數據的收集、集成、存儲、管理等工作,數據挖掘面對的是經過初步加工的數據,使得數據挖掘能更專注于知識的發現;而且由于數據倉庫所具有的新的特點,又對數據挖掘技術提出了更高的要求。可以說,數據挖掘技術和數據倉庫技術結合起來,能夠更充分的發揮數據的威力。
通過利用圖書館的數據倉庫,采用數據挖掘中的聚類分析技術為解決圖書更新周期問題和合理購買新書的問題提供了技術支持。本文主要應用基于密度聚類的分析方法。
基于密度的聚類方法是以局部數據特征作為聚類的判斷標準,類被看做是一個數據區域,在該區域內對象是密集的,對象稀疏的區域將各個類分隔開來。多數基于密度的聚類算法形成的聚類形狀也可以是任意的,并且一個類中對象的分布也是可以是任意的。這里主要介紹DBSCAN算法。
DBSCAN算法的主要思想是可以通過其要求的兩個輸入參數:半徑r和對象最小數目MinPt來進行描述,即一個對象在其半徑為r的鄰域內包含至少NinPts個對象,那么在該區域內的對象是密集的。DKSCAN算法中的類被看做是一個個按一定的規則確定的最大密集區域,被稀疏區域分離開來。沒有被包含在任何類中,即存在于稀疏區域中的對象被認為是噪聲。
采用DBSCAN算法的聚類過程通過收集直接密度可達的對象來完成。針對聚類對象集中的每一個對象p檢查其r鄰域內是否至少包含MinPt個對象,也就是確定對象p是否為核心對象。如果p是核心對象,那么就創建一個初始類C,C中包含對象p及從p直接密度可達的所有對象,也就是包含p及其鄰域r內所有的對象。然后在確定該鄰域中的每一個對象q是否為核心對象。如果是核心對象,那么就將其r鄰域內尚未包含在類C中的所有對象追加到C中。并繼續確定這些新追加到c中的對象是否為核心對象,如果是,則繼續進行上述對象追加過程。這一過程一直持續到沒有新的對象可以追加到C中為止。類C也就完全確定下來了。DBSCAN算法的優點是形成的聚類形狀可以是任意的。并且不受異常值的影響。
通過數據挖掘技術,我們可以分析出哪些圖書已經利用價值不高;估算出每一種圖書大概的利用周期等。定期的對圖書館的圖書進行更新,舊書入庫,新書上架,使得圖書資源永遠保持最高的利用率。在新書購買問題上,我們通過數據挖掘技術分析內部的歷史采購數據,讀者數據,數據流通,反饋信息等得出的信息,提煉出哪些書讀者最感興趣;哪些書是圖書館的主流;人們在不同時間都使用哪些書等,我們可以根據這些數據做出相應決策。
3、基于云計算的圖書館數據挖掘平臺架構
基于云計算的圖書館數據挖掘平臺架構設計如圖5所示。自下往上每層都為上層提供服務,模型數據層為云平臺提供相應的應用接口,應用表現層提供用戶訪問界面和開放的應用接口,可以向用戶提供共享平臺的數據集及相關算法,從而體現出圖書館云平臺的數據信息共享性和開放性。
模型數據層是實現基于云圖書館數據挖掘平臺中的基本數據結構,把底層異構數據庫中的異構數據映射到圖書館平臺應用表現層,調動圖書館內存儲的各種資源對象,包括資源文件、元信息數據、元數據目錄等等。應用數據挖掘技術對采集的評價數據進行挖掘分析,發現隱藏在數據中有用的知識,并將其提取出來供用戶借鑒。用戶可以根據系統挖掘出的規則,作出相應的決策。根據系統已經采集到的評價數據,可以挖掘出自己需要的信息。
控制算法層是實現基于云圖書館數據挖掘平臺中的內部數據處理,在模型數據層的對象層上建立圖書館平臺的內部算法集,可分為多個模塊實現,每個模塊完成一種功能。圖書館云服務平臺通過對數據庫的管理和部署,提供大規模原始數據、半結構化數據和經過處理的結構化數據,采取一定的挖掘規則(如關聯規則、聯機分析處理等),利用數據挖掘技術對這些經過處理的數據進行融合分析,有針對性地為用戶提供個性化服務,這是數字圖書館的核心部分。個性化服務主要包括:發現新的相關信息或書目數據時,及時告知用戶;用戶訪問時,發現用戶的最新需要,提供相應的預測報告、動態分析等。圖書館控制算法層可判斷并爭取潛在用戶,并將其轉化為當前用戶等等。
應用表現層是實現基于云圖書館數據挖掘平臺服務的方法,應用表現層是對模型數據層和控制算法層的操作進行抽象,利用“云圖書館”不同模塊的功能,對分布在不同地點的服務器聯接起來,進行統一調度管理,虛擬出一個統一的服務器系統,同時可以不斷增加新的服務器和節點,或刪除不必要的服務器和節點,以實現較高的計算性能,滿足和保證不斷增長的計算需要。
基于云計算的圖書館數據挖掘平臺將會為用戶帶來如下好處:
(1)用戶無需安裝任何軟、硬件,只需通過網絡配置接人系統網址,即可享受新技術帶來的便利。
(2)基于云計算體系,服務器集群可提供高可靠性,為用戶提供持續服務。
(3)可以有效地對服務器上的服務進行有效監控,第一時間發現問題。通過挖掘異常數據,進行有效報警。
(4)云圖書館能將不同地域的數據、信息資源集成在一起,避免了資源重復,同時形成資源互補,有利于實現數字圖書館的數據信息資源共享。
4、數據挖掘技術應用于“云”圖書館的未來展望
根據以上分析,我們可以發現,應用數據挖掘技術為圖書館的數字資源組織和管理、服務質量提升和方式拓展等方面提供了技術支持。現在,圖書館還處于云計算應用的初級階段,云計算作為一種新的能體現互聯網精神的計算模式,未來必將會產生強大的生命力,最大限度地發揮圖書館的作用。
云計算技術應用于圖書館未來有兩個發展方向:一個是構建與應用程序緊密結合的大規模底層基礎設施,使得應用能夠擴展到很大的規模;另一個是通過構建新型的云計算應用程序,在網絡上提供更加豐富的用戶體驗。通過云計算模式,有關的圖書館之間可以共同構筑圖書館的信息共享空間。
圖書館應用數據挖掘技術能發現數字圖書館中隱含的有價值的信息和知識,為用戶提供更為全面周到的信息需求。數據挖掘技術已經成為了目前IT領域的一個研究熱點,吸引了各個方面的專家學者們投身此領域的研究和開發工作。因此,數據挖掘技術經過不斷發展和完善,必將發揮越來越大的作用,并且隨著人們對這一技術的關注,相信其應用范圍會越來越廣。