江康
近些年來,我國居民隨著生活水平的逐年提高,已經能夠較好地接受“數字化生存”這一生活方式了,由于數字圖書館具有信息更新速度快、信息存儲量大、不受時間和空間的限制以及占用空間小等有特點,所以它也越來越受到人們的關注。雖然數字圖書館確實為人們帶來了非常多的方便和便捷,但是由于其包含的信息資源非常龐大并且形式多樣,所以人們在一定程度上也受到了干擾。導向性是信息資源的基本屬性之一,同一個信息在不同的使用用戶中表現出的價值肯定是有差異的,某一項信息無法滿足所有的需求,而某個單一的用戶肯定也并不需要所有的信息資源。怎樣處理這一問題呢? 數字圖書館的個性化服務就能很好地解決這一問題,數字圖書館的個性化服務的概念就是參照用戶所使用信息的習慣、偏好、行為以及特殊的需求等,經過分析從而真正地為用戶提供滿足其要求的內容以及系統功能的一種服務。首先這種服務必須是能滿足數字圖書館單一用戶信息需求的服務,也就是在用戶明確地提出了信息需求后,通過對用戶以往的使用習慣以及使用行為等內容進行分析,從而為其提供服務;其次,這種服務還是一類能夠充分地培養用戶的個性,發展用戶需求的服務,而這對于整個社會朝著多樣性的發展也是有幫助的。數據挖掘技術是一種新興的計算技術,其在商業零售、科學發現,以及醫療等眾多領域都得到了應用,近些年來,它也逐漸應用到了數字圖書館領域中。
一、數據挖掘及相關技術
數據挖掘是指從從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中抽取有價值的信息,幫助決策者和管理者尋找數據間潛在的關聯,發現隱含的、對決策有潛在價值的關系和模式,用于預測未來趨勢及為決策行為。數據挖掘是一門交叉學科也是一門邊緣學科。它與數據庫技術、模式識別、統計學、信息檢索、人工智能、機器學習等有密切關系。
數據挖掘有分析方法有:分類、估計、預測、關聯規則、聚類、可視化、復雜數據類型挖掘、音頻、視頻、圖形圖像等)。這些分析方法又可以分為直接數據挖掘和間接數據挖掘兩種。直接數據額挖掘就是利用可用的數據建立一個模型,這個模型對剩余的數據,對一個特定的變量進行描述。間接數據挖掘就是目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關系。
二、數據挖掘在數字圖書館中的應用
1、個性化服務。在數字圖書館的整個系統中,其個性化的服務都是很重要的環節,網絡已經越來越智能化了,那么信息服務也會隨之變得智能化,不再是傳統的被動化的服務方式,而是主動化的服務方式。一般情況下,我們將數字圖書館的個性化服務概括為兩個層次,第一個層次是根據用戶的自身需要對信息進行定制,舉例來說,慧聰國際系列應用軟件中的 I get 和 My info 這兩個個性化服務軟件,都是屬于這個層次的,主要包括了重要事件提示、數字圖書館站內搜索以及網絡搜索等內容。而另一個層次就是充分地分析用戶的興趣模式,主動地向用戶提供服務,使數字圖書館更加的智能化和主動化。
2、提高信息獲取速度。數字圖書館中的信息量是龐大的,在堆積如山的數據中包含著許多待提取的有用知識。對于用戶來說,他關心自己的需要是不是能夠被滿足要勝于關心數字圖書館中的信息量。因此,要為用戶提供更快、更有效的服務,就必須有一套很好的搜索機制。數據挖掘技術為數字化圖書館提供了先進的信息檢索工具,在數字圖書館的檢索中采用數據挖掘的相關理論和方法,設計的系統將有更大的智能性。數字圖書館可運用興趣模式算法判斷并爭取潛在用戶,在服務過程中,還可利用可視化技術幫助用戶進行在線實時信息分析。
為保證用戶在盡可能短的響應時間內獲取所需信息,要搜集用戶每次閱讀的專題集合(瀏覽模式)作為一個事實,記錄所有用戶每一次的瀏覽過程構成事務庫,再對事務庫進行如下操作:①利用關聯規則采掘算法找到訪問頻率超過給定閾值的專題(項目)集,進而用分類算法把客戶的瀏覽模式與頻繁項目集進行相似匹配,將具有相似瀏覽模式的客戶組織到一個服務器上,從而減少服務器緩存和傳輸頁面的數量;②找到事務庫中某頻率訪問的專題集,利用關聯分析得到專題之間的關聯規則,存入服務器的知識庫,當用戶瀏覽某頁面時,網絡代理根據規則預先連接其關聯頁面,從而提高響應速度;③也可利用Web挖掘得到用戶訪問序列模式,根據預測,預先傳播用戶可能閱讀的頁面。
3、拓展了服務形式,提升了服務質量。數字圖書館在現代信息技術的幫助下,它的意義已經不僅僅是服務于媒體和轉換時空了,更重要的是它在數據挖掘技術的幫助下來提升服務水平和拓展服務形式。(1)信息檢索服務。數字圖書館提供的一個很重要的功能就是信息檢索,它也是衡量數字圖書館服務質量的重要的參考依據。(2)查新服務與定題服務。這是兩類針對科研的信息服務,傳統的服務方式是查詢光盤數據庫或是文獻數據庫,但是現代社會已經是網絡時代了,外部網絡這一信息發布平臺信息發布和更新的速度極快,所以為了保證服務結果的真實性和可靠性,我們就更應該重視網絡平臺了。
數字圖書館的個性化服務改變了傳統的被動化的運作方式,開創了“用戶需要什么,我就提供什么”的主動化的操作模式,而這種個性化的服務模式也必將成為數字圖書館技術發展的主要趨勢。在我國網絡用戶群體數量大幅度增長的今天,只有提供最具針對性并且個性化的信息服務,用戶的需求才能得到滿足。數據挖掘技術在龐大信息資源中仍能提供極具智能化的個性服務,所以其為數字圖書館的建設工作中提供了十分關鍵的支持和保障。然而數據挖掘技術屬于一種新興的技術,其還是存在著一些問題的,如數據的可視化、數據挖掘語言的標準化,以及多層次、多種類知識的高效挖掘方法等內容都是需要我們不斷地探索和研究,未來的數據挖掘技術一定會對數字圖書館的建設工作產生十分關鍵的積極影響。