【摘要】數(shù)據(jù)挖掘旨在發(fā)現(xiàn)數(shù)據(jù)庫中潛在的、人們感興趣的關(guān)系及特征。本文基于基本理論以及概念探索其實踐意義。
【關(guān)鍵詞】數(shù)據(jù)庫 數(shù)據(jù)挖掘 管理
【中圖分類號】TP311.13【文獻標(biāo)識碼】A【文章編號】1009-8585(2011)01-00-02
1 什么是數(shù)據(jù)庫
所謂數(shù)據(jù)庫是指:以同一組織方式將相關(guān)數(shù)據(jù)組織在一起,并存放在計算機存儲器上的,能夠為多個用戶所共享,與應(yīng)用程序彼此相互獨立的一組相關(guān)數(shù)據(jù)的組合。這種數(shù)據(jù)集合具有如下特點:盡可能不重復(fù),以最優(yōu)方式為某個特定組織的多種應(yīng)用服務(wù),其數(shù)據(jù)結(jié)構(gòu)獨立于使用它的應(yīng)用程序,對數(shù)據(jù)的增、刪、改和檢索由統(tǒng)一軟件進行管理和控制。從發(fā)展的歷史看,數(shù)據(jù)庫是數(shù)據(jù)管理的高級階段,它是由文件管理系統(tǒng)發(fā)展起來的。
2 數(shù)據(jù)庫結(jié)構(gòu)與數(shù)據(jù)庫種類
數(shù)據(jù)庫的基本結(jié)構(gòu)分三個層次,反映了觀察數(shù)據(jù)庫的三種不同角度。
(1)物理數(shù)據(jù)層。它是數(shù)據(jù)庫的最內(nèi)層,是物理存貯設(shè)備上實際存儲的數(shù)據(jù)的集合。這些數(shù)據(jù)是原始數(shù)據(jù),是用戶加工的對象,由內(nèi)部模式描述的指令操作處理的位串、字符和字組成。
(2)概念數(shù)據(jù)層。它是數(shù)據(jù)庫的中間一層,是數(shù)據(jù)庫的整體邏輯表示。指出了每個數(shù)據(jù)的邏輯定義及數(shù)據(jù)間的邏輯聯(lián)系,是存貯記錄的集合。它所涉及的是數(shù)據(jù)庫所有對象的邏輯關(guān)系,而不是它們的物理情況,是數(shù)據(jù)庫管理員概念下的數(shù)據(jù)庫。
(3)邏輯數(shù)據(jù)層。它是用戶所看到和使用的數(shù)據(jù)庫,表示了一個或一些特定用戶使用的數(shù)據(jù)集合,即邏輯記錄的集合。
數(shù)據(jù)庫不同層次之間的聯(lián)系是通過映射進行轉(zhuǎn)換的。數(shù)據(jù)庫具有以下主要特點:
1)實現(xiàn)數(shù)據(jù)共享。數(shù)據(jù)共享包含所有用戶可同時存取數(shù)據(jù)庫中的數(shù)據(jù),也包括用戶可以用各種方式通過接口使用數(shù)據(jù)庫,并提供數(shù)據(jù)共享。
2)減少數(shù)據(jù)的冗余度。同文件系統(tǒng)相比,由于數(shù)據(jù)庫實現(xiàn)了數(shù)據(jù)共享,從而避免了用戶各自建立應(yīng)用文件。減少了大量重復(fù)數(shù)據(jù),減少了數(shù)據(jù)冗余,維護了數(shù)據(jù)的一致性。
3)數(shù)據(jù)的獨立性。數(shù)據(jù)的獨立性包括數(shù)據(jù)庫中數(shù)據(jù)庫的邏輯結(jié)構(gòu)和應(yīng)用程序相互獨立,也包括數(shù)據(jù)物理結(jié)構(gòu)的變化不影響數(shù)據(jù)的邏輯結(jié)構(gòu)。
4)數(shù)據(jù)實現(xiàn)集中控制。文件管理方式中,數(shù)據(jù)處于一種分散的狀態(tài),不同的用戶或同一用戶在不同處理中其文件之間毫無關(guān)系。利用數(shù)據(jù)庫可對數(shù)據(jù)進行集中控制和管理,并通過數(shù)據(jù)模型表示各種數(shù)據(jù)的組織以及數(shù)據(jù)間的聯(lián)系。
5)數(shù)據(jù)一致性和可維護性,以確保數(shù)據(jù)的安全性和可靠性。
目前,比較流行的數(shù)據(jù)模型有三種,即按圖論理論建立的層次結(jié)構(gòu)模型和網(wǎng)狀結(jié)構(gòu)模型以及按關(guān)系理論建立的關(guān)系結(jié)構(gòu)模型。
(1)層次結(jié)構(gòu)模型
層次結(jié)構(gòu)模型實質(zhì)上是一種有根結(jié)點的定向有序樹(在數(shù)學(xué)中“樹”被定義為一個無回的連通圖)。
按照層次模型建立的數(shù)據(jù)庫系統(tǒng)稱為層次模型數(shù)據(jù)庫系統(tǒng)。IMS(Information Manage-mentSystem)是其典型代表。
(2)網(wǎng)狀結(jié)構(gòu)模型
按照網(wǎng)狀數(shù)據(jù)結(jié)構(gòu)建立的數(shù)據(jù)庫系統(tǒng)稱為網(wǎng)狀數(shù)據(jù)庫系統(tǒng),其典型代表是DBTG(Data Base Task Group)。用數(shù)學(xué)方法可將網(wǎng)狀數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化為層次數(shù)據(jù)結(jié)構(gòu)。
(3)關(guān)系結(jié)構(gòu)模型
關(guān)系式數(shù)據(jù)結(jié)構(gòu)把一些復(fù)雜的數(shù)據(jù)結(jié)構(gòu)歸結(jié)為簡單的二元關(guān)系(即二維表格形式)。 由關(guān)系數(shù)據(jù)結(jié)構(gòu)組成的數(shù)據(jù)庫系統(tǒng)被稱為關(guān)系數(shù)據(jù)庫系統(tǒng)。
在關(guān)系數(shù)據(jù)庫中,對數(shù)據(jù)的操作幾乎全部建立在一個或多個關(guān)系表格上,通過對這些關(guān)系表格的分類、合并、連接或選取等運算來實現(xiàn)數(shù)據(jù)的管理。dBASEII就是這類數(shù)據(jù)庫管理系統(tǒng)的典型代表。對于一個實際的應(yīng)用問題(如人事管理問題),有時需要多個關(guān)系才能實現(xiàn)。用dBASEII建立起來的一個關(guān)系稱為一個數(shù)據(jù)庫(或稱數(shù)據(jù)庫文件),而把對應(yīng)多個關(guān)系建立起來的多個數(shù)據(jù)庫稱為數(shù)據(jù)庫系統(tǒng)。dBASEII的另一個重要功能是通過建立命令文件來實現(xiàn)對數(shù)據(jù)庫的使用和管理,對于一個數(shù)據(jù)庫系統(tǒng)相應(yīng)的命令序列文件,稱為該數(shù)據(jù)庫的應(yīng)用系統(tǒng)。因此,可以概括地說,一個關(guān)系稱為一個數(shù)據(jù)庫,若干個數(shù)據(jù)庫可以構(gòu)成一個數(shù)據(jù)庫系統(tǒng)。數(shù)據(jù)庫系統(tǒng)可以派生出各種不同類型的輔助文件和建立它的應(yīng)用系統(tǒng)。
3 數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘,就是從大量的數(shù)據(jù)中挖掘出有用內(nèi)的信息,即從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)隱含的、規(guī)律性的、人們事先未知的,但是又潛在有用的并且最終可理解的信息和知識的非平凡過程。新穎性要求發(fā)現(xiàn)的模式應(yīng)該是從前未知的,該信息是預(yù)先未曾預(yù)料到的。數(shù)據(jù)挖掘[3]就是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識、甚至是違背直覺的信息或知識。所挖掘的知識的類型包括模型、規(guī)律、規(guī)則、模式、約束等。潛在有用性是指發(fā)現(xiàn)的知識將來有實際效用,常識性的結(jié)論或已經(jīng)被人們掌握的事實或無法實現(xiàn)的推測都是沒有意義的。發(fā)現(xiàn)的知識要可接受、可理解、可運用,最好能用自然語言表達所發(fā)現(xiàn)的結(jié)果。非平凡通常是指數(shù)據(jù)挖掘過程不是線性的,在挖掘過程中有反復(fù),有循環(huán),所挖掘的知識往往不是通過簡單的分析就能得到,這些知識可能隱含在表面現(xiàn)象的內(nèi)部,需要經(jīng)過大量數(shù)據(jù)的分析比較,應(yīng)用一些專門處理大數(shù)據(jù)量的數(shù)據(jù)挖掘工具。
數(shù)據(jù)挖掘是KDD最核心的部分。數(shù)據(jù)挖掘與傳統(tǒng)分析工具不同的地方在于數(shù)據(jù)挖掘使用的是基于發(fā)現(xiàn)的方法,運用模式匹配和其它算法決定數(shù)據(jù)之間的重要聯(lián)系。
數(shù)據(jù)挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞。目前大多數(shù)的研究都集中在數(shù)據(jù)挖掘算法和應(yīng)用上。需要說明的是,有的學(xué)者認為[4],數(shù)據(jù)挖掘和知識發(fā)現(xiàn)含義相同,表示成KDD/DM。它是一個反復(fù)的過程,通常包含多個相互聯(lián)系的步驟:預(yù)處理、提出假設(shè)、選取算法、提取規(guī)則、評價和解釋結(jié)果、將模式構(gòu)成知識,最后是應(yīng)用。在實際中,人們往往不嚴(yán)格區(qū)分?jǐn)?shù)據(jù)挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn),把兩者混淆使用。一般在科研領(lǐng)域中稱為KDD,而在工程領(lǐng)域則稱為數(shù)據(jù)挖掘(一個典型的數(shù)據(jù)挖掘系統(tǒng)見圖2.1)[5]。
對數(shù)據(jù)挖掘的理論研究主要在以下六個方面:OLAP 技術(shù)、面向?qū)傩缘臍w納法、關(guān)聯(lián)規(guī)則、分類和預(yù)測、聚類和與數(shù)據(jù)倉庫的集成技術(shù)。
數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,有多種分類法[6]。根據(jù)挖掘任務(wù),可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。根據(jù)挖掘?qū)ο蠓郑嘘P(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、異構(gòu)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及Web。根據(jù)挖掘方法,可分為機器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。
機器學(xué)習(xí)包含歸納學(xué)習(xí)方法、基于案例學(xué)習(xí)、遺傳算法等。統(tǒng)計方法包含回歸分析、判別分析、聚類分析、探索性分析等。神經(jīng)網(wǎng)絡(luò)方法包含前向神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析方法,另外還有面向?qū)傩缘臍w納方法。
數(shù)據(jù)挖掘的任務(wù)[7]主要是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差分析等。
根據(jù)信息存儲格式,用于挖掘的對象有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及Internet等。
數(shù)據(jù)挖掘流程(見圖2.2):
(1) 定義問題:清晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)挖掘的目的。
(2) 數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)準(zhǔn)備包括:選擇數(shù)據(jù)--在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標(biāo)中提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集;數(shù)據(jù)預(yù)處理--進行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲、填補丟失的域、刪除無效數(shù)據(jù)等。
(3)數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)功能的類型和數(shù)據(jù)的特點選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘。
(4)結(jié)果分析:對數(shù)據(jù)挖掘的結(jié)果進行解釋和評價,轉(zhuǎn)換成為能夠最終被用戶理解的知識。
(5)知識的運用:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
參考文獻
[1] 陳安,陳寧,周龍驤. 數(shù)據(jù)挖掘技術(shù)及應(yīng)用.北京:科學(xué)出版社,2006
[2] 陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向.電腦與信息技術(shù),2006,7(2):11-13.
[3] 李菁菁,邵培基,黃亦瀟.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究.管理工程學(xué)報,2004,18(3):10-15.