摘要:數(shù)據(jù)倉(cāng)庫(kù),聯(lián)機(jī)分析,數(shù)據(jù)挖掘都是信息領(lǐng)域中近年來(lái)快速發(fā)展起來(lái)的新技術(shù),本文淺析了數(shù)據(jù)倉(cāng)庫(kù)技術(shù),聯(lián)機(jī)分析技術(shù),數(shù)據(jù)挖掘技術(shù)的相關(guān)概念,論述了數(shù)據(jù)挖掘的方法,最后闡明了聯(lián)機(jī)分析技術(shù)與數(shù)據(jù)挖掘技術(shù)的區(qū)別與聯(lián)系,強(qiáng)調(diào)實(shí)際中相互配合使用有助于進(jìn)行更好的決策。
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘聯(lián)機(jī)分析
隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來(lái)越多。大量的數(shù)據(jù)的背后隱藏著許多重要的信息,人們希望對(duì)其進(jìn)行高層次的有效分析,以達(dá)到充分利用這些數(shù)據(jù),于是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、聯(lián)機(jī)分析處OLAP理技術(shù)和數(shù)據(jù)挖掘技術(shù)就隨此誕生了。
1 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)簡(jiǎn)稱Dw。最早被譽(yù)為“數(shù)據(jù)倉(cāng)庫(kù)之父”的W.H.Inmon將數(shù)據(jù)倉(cāng)庫(kù)明確地定義為:數(shù)據(jù)倉(cāng)庫(kù)是集成的面向主題的數(shù)據(jù)庫(kù)集合。但數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)并非一個(gè)簡(jiǎn)單由各種數(shù)據(jù)合并而成的超大型數(shù)據(jù)庫(kù),而是一種專為聯(lián)機(jī)分析應(yīng)用和決策支持系統(tǒng)(DDS)提供數(shù)據(jù)分析和決策工具的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。它涉及數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載、數(shù)據(jù)存取、元數(shù)據(jù)管理、查詢、報(bào)表、分析工具及相應(yīng)的開(kāi)發(fā)方法等。它是用來(lái)支持決策,支持功能的。
它具有如下特征:
1.1它是面向主題的。
主題的含義是指在較高層次上將信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)面向主題與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用相對(duì)應(yīng)。面向主題的數(shù)據(jù)組織方式,就是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)做一個(gè)完整的、一致的描述,并統(tǒng)一分析對(duì)象所涉及的數(shù)據(jù)項(xiàng)及數(shù)據(jù)項(xiàng)之間的聯(lián)系。
1.2數(shù)據(jù)的集成性
數(shù)據(jù)倉(cāng)庫(kù)的集成特性是指在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必須通過(guò)數(shù)據(jù)加工集成,這是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵步驟。
1.3數(shù)據(jù)的相對(duì)穩(wěn)定性
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是相對(duì)穩(wěn)定的。它不進(jìn)行實(shí)時(shí)更新,一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中去就不能由用戶進(jìn)行更新。但從數(shù)據(jù)倉(cāng)庫(kù)存貯的數(shù)據(jù)內(nèi)容上,可分為當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)。在一定時(shí)間間隔后,當(dāng)前數(shù)據(jù)需要按一定的方法轉(zhuǎn)換成歷史數(shù)據(jù)。對(duì)分析處理不再有用的數(shù)據(jù)需要從數(shù)據(jù)倉(cāng)庫(kù)中刪除,這些工作是由系統(tǒng)管理員或由系統(tǒng)自動(dòng)完成的。因此,可以說(shuō)數(shù)據(jù)倉(cāng)庫(kù)在一定時(shí)間間隔內(nèi)是穩(wěn)定的。
2 聯(lián)機(jī)分析處理技術(shù)
聯(lián)機(jī)分析處理技術(shù)即OLAP技術(shù),是利用存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)完成各種分析操作,并以直觀易懂的形勢(shì)將分析結(jié)果返回給決策分析人員。OLAP聯(lián)機(jī)分析技術(shù)是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中廣泛出現(xiàn)的大量的聚集操作而產(chǎn)生的一種新的技術(shù),總體上講聯(lián)機(jī)分析技術(shù)可以分成兩種類型,一種是基于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)的聯(lián)機(jī)分析系統(tǒng),簡(jiǎn)稱ROLAP。其基本思想是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)模式進(jìn)行合理組織,直接通過(guò)關(guān)系查詢實(shí)現(xiàn)切片、切塊、下鉆、上翻和旋轉(zhuǎn)等基本分析操作。另一種是基于多維模型實(shí)現(xiàn)聯(lián)機(jī)分析,主要研究如何減少存儲(chǔ)空間來(lái)實(shí)現(xiàn)查詢功能,而且還可以給用戶提供強(qiáng)大的多維和多層分析、統(tǒng)計(jì)和以報(bào)表處理功能,甚至可以進(jìn)行趨勢(shì)分析。OLAP技術(shù)還可以和數(shù)據(jù)挖掘技術(shù)聯(lián)系起來(lái)運(yùn)用,即數(shù)據(jù)挖掘可利用OLAP的分析結(jié)果,可以拓展分析的深度,可以發(fā)現(xiàn)OLAP聯(lián)機(jī)技術(shù)所不能發(fā)現(xiàn)的更為復(fù)雜、細(xì)致的信包。
3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的人們事先不知道的,但又是潛在有用的信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘綜合了各個(gè)學(xué)科技術(shù),有很多的功能,包括、聚類分析、關(guān)聯(lián)分析、分類、預(yù)測(cè)、時(shí)間序模式和偏差等。需要注意的是數(shù)據(jù)挖掘的各項(xiàng)功能不是獨(dú)立存在的而是在數(shù)據(jù)挖掘中互相聯(lián)系的一起發(fā)揮作用。
數(shù)據(jù)挖掘的方法也有很多種,簡(jiǎn)要介紹如下:
3.1聚集分析(ClusterDetection)
聚集分析是將一個(gè)數(shù)據(jù)集分為幾個(gè)特征相同的簇,即把特征相同的數(shù)據(jù)聚集在一起。
3.2決策樹(shù)(Decision Tree)
它將基礎(chǔ)集中數(shù)據(jù)分為不相交的子集,每個(gè)子集可由一定的規(guī)則來(lái)描述。此規(guī)則在邏輯上具有層次結(jié)構(gòu)。因此可用樹(shù)型的數(shù)據(jù)結(jié)構(gòu)來(lái)表示,樹(shù)上的每個(gè)節(jié)點(diǎn)代表一條規(guī)則。
3.3鏈路分析(Link Analysis)
它用來(lái)分析對(duì)象之間的關(guān)系,用圖數(shù)據(jù)結(jié)構(gòu)來(lái)表示。具體方法是將對(duì)象看成是圖的節(jié)點(diǎn),它們之間存在的關(guān)系則看成是圖的邊即鏈路,然后用圖論的方法進(jìn)行數(shù)據(jù)分析。
3.4神經(jīng)網(wǎng)絡(luò)(NeutralNetwork)
這是最常見(jiàn)的一種有效的數(shù)據(jù)挖掘方法。即在計(jì)算機(jī)上模擬神經(jīng)元及其連接的方法,其中神經(jīng)網(wǎng)絡(luò)實(shí)際上是完成從已知數(shù)據(jù)項(xiàng)到目的數(shù)據(jù)項(xiàng)的一種非線性映射,它獲取的知識(shí)就存在于網(wǎng)絡(luò)結(jié)構(gòu)中。神經(jīng)網(wǎng)絡(luò)主要用來(lái)進(jìn)行分類,估計(jì)和預(yù)測(cè)等來(lái)實(shí)現(xiàn)有向數(shù)據(jù)挖掘,也可以用于聚集等無(wú)向的數(shù)據(jù)挖掘。
3.5人工智能(artificial intelligence)
人工智能的一個(gè)重要組成部分是人工智能專家系統(tǒng),在專家系統(tǒng)中,最困難的是把專家的知識(shí)表達(dá)出來(lái),而且還要把專家的知識(shí)變得十分有條理。專家系統(tǒng)很難解決很常性的問(wèn)題。雖然人工智能技術(shù)有待提高,但是在發(fā)現(xiàn)有用的信息方面,是必不可少的,它總是為數(shù)據(jù)的查找提供很好的方向。
3.6遺傳算法(GeneticAlgorithms)
它是一種遺傳學(xué)原理和自然選擇機(jī)制來(lái)搜索最優(yōu)解的方法。在數(shù)據(jù)挖掘中,用來(lái)尋找實(shí)現(xiàn)分類、估計(jì)和預(yù)測(cè)功能的最優(yōu)參數(shù)集。過(guò)程是先產(chǎn)生一組解法,然后用重組、突變和選擇等進(jìn)化過(guò)程來(lái)得到下一代解法。隨著進(jìn)化過(guò)程的繼續(xù),較差的方法將被拋棄,從而逐步得到最優(yōu)的解法。
4 聯(lián)機(jī)處理技術(shù)與數(shù)據(jù)挖掘的關(guān)系
目前,聯(lián)機(jī)處理技術(shù)與數(shù)據(jù)挖掘是信息系統(tǒng)領(lǐng)域內(nèi)的研究重點(diǎn),OLAP作為一種多維分析的工具,可以為用戶提供多層面、多角度的邏輯視圖,按照用戶所提出問(wèn)題進(jìn)行假設(shè),分析,并將呈現(xiàn)給用戶。
數(shù)據(jù)挖掘是在海量的數(shù)據(jù)集合中尋找模式的決策支持過(guò)程,它從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的模式并作出預(yù)測(cè)性分析,是現(xiàn)有的最新的技術(shù)和統(tǒng)計(jì)學(xué)等成熟技術(shù)在特定系統(tǒng)中的具體的應(yīng)用。
同時(shí),數(shù)據(jù)挖掘與OLAP都屬于分析型工具,從某種角度上說(shuō)OLAP聯(lián)機(jī)分析方法也是一種數(shù)據(jù)挖掘方法。但二者之間有著明顯的區(qū)別,數(shù)據(jù)挖掘的分析過(guò)程是全自動(dòng)的,用戶可以不必提出確切的問(wèn)題,只需工具去挖掘隱藏的模式并預(yù)測(cè)將來(lái)的趨勢(shì),這樣有利于發(fā)現(xiàn)未知的事實(shí);而OLAP更多地依靠用戶輸入問(wèn)題和假設(shè),由于用戶先入為主的參與問(wèn)題和假設(shè)的范圍,從而會(huì)影響最后的結(jié)論。從對(duì)數(shù)據(jù)分析的深度角度來(lái)講,它比較淺顯,數(shù)據(jù)挖掘則可以發(fā)現(xiàn)OLAP所不能發(fā)現(xiàn)的更為復(fù)雜的信息。
數(shù)據(jù)挖掘存在的主要問(wèn)題是實(shí)現(xiàn)很困難,因?yàn)閿?shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中存在大量數(shù)據(jù)和每個(gè)數(shù)據(jù)又有很多屬性,由于挖掘分析過(guò)程是全自動(dòng)的。用戶僅僅指定挖掘的任務(wù),而不提供搜索線索,這樣導(dǎo)致搜索的空間過(guò)大,生成相當(dāng)多的外模式,其中絕大部分有可能是無(wú)意義的是用戶不感興趣的模式。OLAP分析雖然可給用戶提供在不同角度,不同抽象級(jí)別的視圖,但是由于對(duì)用戶的需求了解調(diào)研的不夠全面,視圖中缺乏所應(yīng)包含的維度,從不同的視圖得到的結(jié)果可能并不相同,容易產(chǎn)生錯(cuò)誤引導(dǎo),用戶需做大量的數(shù)據(jù)打撈工作才能夠猜出正確的結(jié)果。
實(shí)際上數(shù)據(jù)挖掘的各個(gè)方法之間,數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理之間都有著密不可分的關(guān)系,有些是可以由OLAP來(lái)展現(xiàn)或分析的,而數(shù)據(jù)挖掘的結(jié)果又可以指導(dǎo)生成OLAP多維模型。
從上述分析可以看出,OLAP與數(shù)據(jù)挖掘技術(shù)由于內(nèi)在技術(shù)方面和適用范圍的不同,在實(shí)際決策分析中必須協(xié)調(diào)配合使用才能發(fā)揮最好的作用。