駱 穎
[摘要]隨著網絡用戶群的日益增長,更多的用戶期望能得到具有針對性的、個性化的信息服務和用戶支持。數據挖掘技術因其在海量信息資源中的智能表現,為數字圖書館的個性化服務建設提供不可或缺的技術支撐。
[關鍵詞]數據挖掘 數字圖書館 個性化服務
中圖分類號:TP2文獻標識碼:A文章編號:1671-7597(2009)0120058-01
一、數字圖書館個性化服務的含義
近10年來,隨著“數字化生存”方式逐漸為人們所接受,數字圖書館信息量大、占用空間少、更新速度快、不受時空限制等特點而越來越受到人們的關注。人們在享受著數字圖書館所帶來便捷的同時,也深受其龐大而形式多樣的信息資源困擾,因為它具有較強的目標導向性,同樣的信息對于不同的個體表現出不同的價值。對單個用戶來說,不可能對數字圖書館的所有信息資源都需要,而同樣的信息也不一定會滿足所有的用戶。個性化服務是解決用戶“眾口難調”問題的關鍵,它是適應用戶多樣化需求的重要手段,也是圖書館應對信息資源多樣化的一個重要措施。
數字圖書館個性化服務是基于信息用戶的信息使用行為、習慣、偏好、特點及用戶特定的需求,向用戶提供滿足其個性化需求的信息內容和系統功能的一種服務。首先,它應該是一種能夠滿足數字圖書館用戶的個體信息需求的服務,即根據用戶提出的明確要求提供信息服務,或通過對用戶個性使用習慣的分析而主動地向用戶提供其可能需要的信息服務;其次,應該是一種培養個性、引導需求的服務,這樣可以幫助個體培養個性、發現個性、引導需求,促進社會的多樣性和多元化發展。數據挖掘是近年新興的計算技術與方法,它在科學發現、商業零售以及信用管理、醫學等領域已得到廣泛應用,并顯示出巨大的威力。最近幾年,數據挖掘技術開始應用于數字圖書館領域,使數字圖書館的功能有了較大的變化和發展。
二、數據挖掘及相關技術
數據挖掘也稱知識發現,是從數據庫中獲取人們感興趣的知識,這些知識是隱含的、潛在的。與傳統的決策支持不同,它從大型數據庫、數據倉庫和浩瀚的網絡信息空間中發現并提取隱藏在其中的信息,幫助信息工作人員尋找數據間潛在的關聯,發現被忽略的要素,而這些信息對預測趨勢和決策行為是十分有用的。數據挖掘根據其主要研究對象的數據結構形式的不同,一般粗分為數據挖掘、Web數據挖掘、文本數據挖掘3類。
數據挖掘是面向數值數據的數據挖掘,對象是傳統的數據庫或數據倉庫。而Web數據挖掘是指針對包括Web頁面內容、頁面之間的結構、用戶訪問信息、商務交易信息等在內的各種Web數據,應用數據挖掘方法及技術以發現有用的知識來幫助人們從萬維網中提取知識,改進站點設計,開展電子商務或改進服務。文本數據挖掘是指當數據挖掘的對象完全由文本類型組成時,結合使用數據挖掘算法與信息檢索算法對巨量文本信息進行自動化信息處理與分析的過程。
三、數據挖掘在數字圖書館中的應用
(一)個性化服務。數字圖書館的個性化服務在整個數字圖書館系統中是很關鍵的部分,應由被動服務轉向主動,由單純的信息呈現轉向信息生成。主要表現為兩個層次:第一層為按用戶要求進行信息訂制。第二層則是數字圖書館挖掘用戶興趣模式,主動提供服務,使數字圖書館成為一個智能型、主動性的信息提供商。
(二)提高信息獲取速度。數字圖書館中的信息量是龐大的,在堆積如山的數據中包含著許多待提取的有用知識。用戶關心自己的需要是不是能夠被滿足更勝于關心數據圖書館中總的信息量。要想為用戶提供更快、更有效的服務,就必須有一套很好的搜索機制。數據挖掘技術為數字化圖書館提供了先進的信息檢索工具,在數字圖書館的檢索中采用數據挖掘的相關理論和方法,設計的系統將有更大的智能性。
(三)拓展服務形式。數據挖掘可實現信息服務質量的提升和業務的拓展。數字圖書館借助現代信息技術,不僅在于服務媒體和時空的轉變,更重要的能夠借助數據挖掘技術,完善其服務結構和提升服務水平。其中有信息檢索服務、定題與查新服務、信息分析服務。
四、構建數字圖書館個性化服務系統
利用數據挖掘技術構建數字圖書館個性化服務系統的前提和基礎是擁有大量、真實的數據積累,沒有數據積累,數據挖掘將無用武之地,需要各方人員共同參與,通力合作。
(一)提取原始信息和收集用戶特征。用戶通過瀏覽器訪問數字圖書館時,系統可以記錄下來的用戶訪問數據有兩類:用戶信息和用戶行為特征。用戶信息包括用戶的姓名、性別、年齡、職業、愛好、教育程度以及用戶訪問IP地址等;利用Web日志記錄可獲得用戶的行為特征,準確把握用戶的行為特征和偏好,是提供更精確、更符合用戶需求的信息服務的首要條件。
(二)數據預處理和數據轉換。對收集到的數據進行加工處理和組織重構,如檢查數據的完整性及數據的一致性、去除噪聲或刪除無效數據、填補丟失的域、去除空白數據域、考慮時間順序和數據變化;找到數據的特征,用維變換或轉換方法減少有效變量的數目,找到數據的不變式,構建相關主題的數據倉庫,為下一步的數據挖掘過程提供基礎平臺,做好前期準備。
(三)確定數據挖掘目標。數據挖掘的目標應結合實際情況,細化、清晰。如,根據用戶興趣的不斷變化,利用數據挖掘技術發現用戶的最新需要,或者根據用戶的興趣度,推薦相關專題信息,并提供個性化界面等。
(四)數據挖掘。根據挖掘目標和數據特點選擇相應的算法,在凈化和轉換過的數據集上進行數據挖掘。選擇某個特定數據挖掘算法用于搜索數據中的模式,進行數據挖掘、搜索或產生一個特定的感興趣的模式或一個特定的數據集,在此基礎上進行分析與評估,檢驗數據挖掘所得到的知識模式。
(五)結果分析和知識的運用。對數據挖掘的結果進行解釋和評價,用預先、可信的知識檢查解決數據模式中可能的矛盾,以改善數據倉庫,轉化為能最終被用戶理解的知識,將分析得到的知識加載到實際運行系統中。數據挖掘的過程是一個反復進行的過程,需要對挖掘結果進行不斷的實踐應用、測試、修改、比對,直達到用戶滿意。
五、結語
數字圖書館個性化服務改變了圖書情報機構以往“我提供什么用戶就接受什么”的運作方式,開創了“用戶需要什么我就提供什么”的發展思路。個性化服務將成為未來數字圖書館技術發展的主要趨勢。隨著網絡用戶群的日益增長,更多的用戶期望能得到具有針對性的、個性化的信息服務和用戶支持。數據挖掘技術因其在海量信息資源中的智能表現,能為數字圖書館的個性化服務建設提供不可或缺的技術支撐。盡管數據挖掘作為一門前沿技術,自身還在不斷發展完善,還面臨著許多問題,但隨著研究的深入,數據挖掘技術必將對數字圖書館的建設產生積極的影響。
參考文獻:
[1]張志英,關于數字圖書館建設的思考[J].黑龍江科技信息,2008.(3).
[2]劉曉芳,淺談數字圖書館的建設[J].中國科技信息,2008.(1).
[3]李琳琳,數據倉庫與數據挖掘在圖書館決策管理中的應用[J].科技情報開發與經濟,2008.(1).
[4]何茵,數字圖書館用戶信息需求特點與信息服務[J].中華醫學圖書情報雜志,2008.(1).