范春玲
(黑龍江省圖書館 黑龍江 哈爾濱 150090)
計算機和互聯網的飛速發展和普及,給全世界帶來了巨大的信息化浪潮。信息量迅速、持續的增長給人們帶來方便的同時也帶來了困惑和煩惱,海量的數據已遠遠超過人類的處理和分析理解能力,同時信息真假的辨識、安全性的保證以及格式的統一問題也是人們面臨的一個挑戰。于是,數據挖掘技術應運而生,而數字圖書館作為信息管理和服務的主要機構,同樣也積累了大量的信息而且也要面對使用中的各種問題,數據挖掘技術的應用可以為數字圖書館的業務工作和管理工作提供可靠的決策依據,也必將對圖書館其他方面的工作產生深遠的影響。
數據挖掘是一門不斷快速發展的綜合性交叉學科,其興起于20世紀80年代末期。數據挖掘理論匯聚了數據庫、可視化、并行計算等方面的技術,集統計學、人工智能、模式識別、計算機科學、機器學習等多門學科理論知識為一體。其在多個領域都有所應用。
所謂數據挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。我們知道知識發現(Knowledge Discovery in Databases,KDD)是一個能從大型的數據庫中自動地和智能地抽取一些有用的、可信的、有效的和可以理解的模式的過程。而數據挖掘(Data Mining,DM)是KDD的一個處理過程,也是KDD的最重要環節。數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。
數據挖掘任務分描述性數據挖掘和推斷性數據挖掘兩大類。和統計學原理相似,描述性數據挖掘的任務是描述數據的一般特征,推斷性數據挖掘的任務試圖基于提供的數據做預測。目前基于數據挖掘功能所能發現的各種知識主要包括特征化描述、判別分析、關聯分析、數據分類、預測、聚類、孤立點分析、偏差分析等。通常,人們對他們所能發現的各種模式或者是需要從手頭數據來發現模式沒有一個清晰的思路,因此,必須要有一個通用的數據挖掘系統用來發現各種知識以及不同抽象層次的知識,這也使得交互性成為數據挖掘系統的一個重要特征。
數據挖掘的步驟會隨應用的領域不同而有所不同,每一種數據挖掘技術也都有各自的特性和使用步驟,所以針對不同問題和需求所制定的數據挖掘過程也會存在各種差異。另外,數據的完整程度、專業人員支持的程度等都會對建立數據挖掘過程有所影響。這些因素造成了數據挖掘在各不同領域中的運用、規劃,以及流程的差異性,即使同一產業,也會因為分析技術和專業知識的涉入程度不同而有所不同,因此對于數據挖掘過程的系統化、標準化就顯得格外重要。因為這樣,不僅可以較容易地跨領域應用,也可以結合不同的專業知識,發揮數據挖掘的真正精神。通常數據挖掘完整的步驟如下:1.理解數據和數據的來源。2.獲取相關知識與技術。3.整合與檢查數據。4.去除錯誤或不一致的數據。5.建立模型和假設。6.實際數據挖掘工作。7.測試和驗證挖掘結果。8.解釋和應用。由此可以看出,數據挖掘牽涉了大量的準備工作與規劃工作,其中包括數據的凈化、數據格式轉換、變量整合,以及數據表的鏈接等。
在整個數據挖掘過程中,第6步是數據挖掘的實施階段,即根據目標任務的數據類型等選取相應的數據挖掘算法并進行挖掘。而數據挖掘的方法由人工智能和機器學習的方法發展而來,人們結合傳統的統計分析法、模糊數學方法以及科學計算可視化技術,以數據庫為研究對象,最終形成數據挖掘的方法。目前業界比較認可以下6種方法:1.統計分析方法:利用統計學原理對數據庫中的數據進行分析,能得到各種不同的統計信息和知識,作為數據挖掘的一大類方法,包括:常用統計、相關分析、回歸分析、差異分析、聚類分析、判斷分析。2.歸納學習方法:從采用的技術角度上可分為兩大類,信息論方法和集合論方法。信息論方法是利用信息論的原理建立決策樹。3.模糊數學方法:模糊性是客觀存在的,而當系統的復雜性越高,其精度的復雜性就會越高,其精確化能力便越低,這就意味著模糊性越強。利用模糊集合理論進行數據挖掘的方法有:模糊模式識別、模糊聚類、模糊分類和模糊關聯規則等。4.仿生物技術:典型的方法是神經網絡方法和遺傳算法。5.公式發現:在工程和科學數據庫中對若干數據項進行一定的數學運算的相應的數學公式。6.可視化技術:是一種圖形顯示技術。例如,把數據庫中多維數據變成多種圖形。
目前數據挖掘技術已經形成相對成熟的技術體系,其在數據組織與分析、數據挖掘、知識發現等方面存在巨大潛力。因此數據挖掘除了可以為數字圖書館的建設提供關鍵技術外,還可以實現海量數據的存儲和利用,提取出表面上龐雜無序而有內在聯系的信息供讀者使用。也可以指導圖書館的業務工作與管理決策,通過對用戶數據的分析,可以得到用戶的需求和興趣信息,從而滿足信息時代讀者的需要。
收集讀者有關的信息,建立讀者信息庫。讀者是數字圖書館的重要資源,一個信息完整的讀者信息庫,能保證在充分挖掘的基礎上,了解讀者的普遍性需求與特殊性需求,從而開展有針對性的個性化服務。通過對讀者訪問日志記錄信息的挖掘,把握讀者興趣,有助于開展網絡信息推送服務以及個人信息的定制服務。數據挖掘從全局出發,以豐富、動態的聯機查詢和分析來了解讀者的信息需求。通過在線提問、調查表等方式,系統可以獲取關于讀者的用戶名、訪問IP地址、職業、年齡、愛好等原始信息。然后,采取一定的挖掘規則(如關聯規則、聯機分析處理等),對這些數據進行融合分析,其結果是為每個讀者建立一個信息需求模型。根據讀者需求,主動跟蹤本館數字資源的變化,收集讀者所需信息。同時還可以利用智能推送技術將讀者所需信息推到用戶的計算機、電子信箱和手機上。
隨著科技的進步,現在讀者可以在家通過網絡訪問數字圖書館的資源,而網絡內容挖掘是一個從文本、圖像、音頻、視頻、元數據等形式的網絡源信息中采用分類、聚類等形式的挖掘方法,發現有用信息,并將這些信息按滿足某種檢索方式的形式加以組織的過程。通過對網站內容的挖掘,主要是對文本內容的挖掘,可以有效地組織網絡資源。有的學者應用數據和文本挖掘技術在網絡上進行問題跟蹤,從而獲得了以前未知的有用知識,為信息內容分析提供了極大的可能性。
數據挖掘技術可以使讀者在具有極度不確定性的海量數據中找出信息分布的規律,挖掘隱藏的信息并形成模型,從而發現具有規律性的知識。比較典型的例子是江蘇南通師范學院對重點學科“古代文學”中的楚辭研究專題知識庫開發,他們采用學科專家與學科館員、系統管理員相結合組成工作組的開發模式來收集、挖掘與獲取楚辭研究專題信息資源,由于楚辭研究的信息資源浩如煙海,采用人工的方式查詢根本無法達到收全率和知識庫源信息廣度要求,因此采用自動抓取和人工過濾相結合的方式,利用非結構化的數據挖掘技術以采集和獲取全而廣的楚辭研究知識信息源。
作為能夠從海量信息中挖掘背后知識的新技術,由于其在數據組織、分析和知識發現及信息深層挖掘等方面體現出的強大優勢,且隨著全國數字圖書館工程的推進,其在圖書館領域的應用前景極為廣闊。而隨著硬件環境、挖掘算法的改進、應用的普及和經驗的積累,數據挖掘技術在數字圖書館的應用必將取得長足的發展與進步。