999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析基于數(shù)據(jù)倉(cāng)庫(kù)的OLAP聯(lián)機(jī)分析技術(shù)與數(shù)據(jù)挖掘技術(shù)

2009-12-31 00:00:00孟雅鳳
中國(guó)科技財(cái)富 2009年18期

摘要: 數(shù)據(jù)倉(cāng)庫(kù),聯(lián)機(jī)分析,數(shù)據(jù)挖掘都是信息領(lǐng)域中近年來(lái)快速發(fā)展起來(lái)的新技術(shù),本文淺析了數(shù)據(jù)倉(cāng)庫(kù)技術(shù),聯(lián)機(jī)分析技術(shù),數(shù)據(jù)挖掘技術(shù)的相關(guān)概念,論述了數(shù)據(jù)挖掘的方法,最后闡明了聯(lián)機(jī)分析技術(shù)與數(shù)據(jù)挖掘技術(shù)的區(qū)別與聯(lián)系,強(qiáng)調(diào)實(shí)際中相互配合使用有助于進(jìn)行更好的決策。

關(guān)鍵詞: 數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)挖掘;聯(lián)機(jī)分析

隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來(lái)越多。大量的數(shù)據(jù)的背后隱藏著許多重要的信息,人們希望對(duì)其進(jìn)行高層次的有效分析,以達(dá)到充分利用這些數(shù)據(jù),于是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、聯(lián)機(jī)分析處OLAP理技術(shù)和數(shù)據(jù)挖掘技術(shù)就隨此誕生了。

1 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)

數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)簡(jiǎn)稱DW。最早被譽(yù)為“數(shù)據(jù)倉(cāng)庫(kù)之父”的W.H.Inmon將數(shù)據(jù)倉(cāng)庫(kù)明確地定義為:數(shù)據(jù)倉(cāng)庫(kù)是集成的面向主題的數(shù)據(jù)庫(kù)集合。但數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)并非一個(gè)簡(jiǎn)單由各種數(shù)據(jù)合并而成的超大型數(shù)據(jù)庫(kù),而是一種專為聯(lián)機(jī)分析應(yīng)用和決策支持系統(tǒng)(DDS)提供數(shù)據(jù)分析和決策工具的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。它涉及數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載、數(shù)據(jù)存取、元數(shù)據(jù)管理、查詢、報(bào)表、分析工具及相應(yīng)的開(kāi)發(fā)方法等。它是用來(lái)支持決策,支持功能的。

它具有如下特征:

1.1它是面向主題的。

主題的含義是指在較高層次上將信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)面向主題與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用相對(duì)應(yīng)。面向主題的數(shù)據(jù)組織方式,就是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)做一個(gè)完整的、一致的描述,并統(tǒng)一分析對(duì)象所涉及的數(shù)據(jù)項(xiàng)及數(shù)據(jù)項(xiàng)之間的聯(lián)系。

1.2數(shù)據(jù)的集成性

數(shù)據(jù)倉(cāng)庫(kù)的集成特性是指在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前.必須通過(guò)數(shù)據(jù)加工集成,這是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵步驟。

1.3數(shù)據(jù)的相對(duì)穩(wěn)定性

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是相對(duì)穩(wěn)定的。它不進(jìn)行實(shí)時(shí)更新,一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中去就不能由用戶進(jìn)行更新。但從數(shù)據(jù)倉(cāng)庫(kù)存貯的數(shù)據(jù)內(nèi)容上,可分為當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)。在一定時(shí)間間隔后,當(dāng)前數(shù)據(jù)需要按一定的方法轉(zhuǎn)換成歷史數(shù)據(jù)。對(duì)分析處理不再有用的數(shù)據(jù)需要從數(shù)據(jù)倉(cāng)庫(kù)中刪除,這些工作是由系統(tǒng)管理員或由系統(tǒng)自動(dòng)完成的。因此,可以說(shuō)數(shù)據(jù)倉(cāng)庫(kù)在一定時(shí)間間隔內(nèi)是穩(wěn)定的。

2聯(lián)機(jī)分析處理技術(shù)

聯(lián)機(jī)分析處理技術(shù)即OLAP技術(shù),是利用存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)完成各種分析操作,并以直觀易懂的形勢(shì)將分析結(jié)果返回給決策分析人員。OLAP聯(lián)機(jī)分析技術(shù)是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中廣泛出現(xiàn)的大量的聚集操作而產(chǎn)生的一種新的技術(shù),總體上講聯(lián)機(jī)分析技術(shù)可以分成兩種類型,一種是基于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)的聯(lián)機(jī)分析系統(tǒng),簡(jiǎn)稱ROLAP。其基本思想是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)模式進(jìn)行合理組織,直接通過(guò)關(guān)系查詢實(shí)現(xiàn)切片、切塊、下鉆、上翻和旋轉(zhuǎn)等基本分析操作。另一種是基于多維模型實(shí)現(xiàn)聯(lián)機(jī)分析,主要研究如何減少存儲(chǔ)空間來(lái)實(shí)現(xiàn)查詢功能,而且還可以給用戶提供強(qiáng)大的多維和多層分析、統(tǒng)計(jì)和以報(bào)表處理功能,甚至可以進(jìn)行趨勢(shì)分析。OLAP技術(shù)還可以和數(shù)據(jù)挖掘技術(shù)聯(lián)系起來(lái)運(yùn)用,即數(shù)據(jù)挖掘可以利用OLAP的分析結(jié)果,可以拓展分析的深度,可以發(fā)現(xiàn)OLAP聯(lián)機(jī)技術(shù)所不能發(fā)現(xiàn)的更為復(fù)雜、細(xì)致的信息。

3 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的人們事先不知道的,但又是潛在有用的信息和知識(shí)的過(guò)程。

數(shù)據(jù)挖掘綜合了各個(gè)學(xué)科技術(shù),有很多的功能,包括、聚類分析、關(guān)聯(lián)分析、分類、預(yù)測(cè)、時(shí)間序模式和偏差等。需要注意的是數(shù)據(jù)挖掘的各項(xiàng)功能不是獨(dú)立存在的 而是在數(shù)據(jù)挖掘中互相聯(lián)系的一起發(fā)揮作用。

數(shù)據(jù)挖掘的方法也有很多種,簡(jiǎn)要介紹如下:

3.1 聚集分析(ClusterDetection)

聚集分析是將一個(gè)數(shù)據(jù)集分為幾個(gè)特征相同的簇, 即把特征相同的數(shù)據(jù)聚集在一起。非3.2 決策樹(shù)(Decision Tree)

它將基礎(chǔ)集中數(shù)據(jù)分為不相交的子集, 每個(gè)子集可由一定的規(guī)則來(lái)描述。此規(guī)則在邏輯上具有層次結(jié)構(gòu), 因此可用樹(shù)型的數(shù)據(jù)結(jié)構(gòu)來(lái)表示,樹(shù)上的每個(gè)節(jié)點(diǎn)代表一條規(guī)則。

3.3鏈路分析(Link Analysis)

它用來(lái)分析對(duì)象之間的關(guān)系,用圖數(shù)據(jù)結(jié)構(gòu)來(lái)表示。具體方法是將對(duì)象看成是圖的節(jié)點(diǎn), 它們之間存在的關(guān)系則看成是圖的邊即鏈路,然后用圖論的方法進(jìn)行數(shù)據(jù)分析。

3.4 神經(jīng)網(wǎng)絡(luò)(NeutralNetwork)

這是最常見(jiàn)的一種有效的數(shù)據(jù)挖掘方法。即在計(jì)算機(jī)上模擬神經(jīng)元及其連接的方法,其中神經(jīng)網(wǎng)絡(luò)實(shí)際上是完成從已知數(shù)據(jù)項(xiàng)到目的數(shù)據(jù)項(xiàng)的一種非線性映射, 它獲取的知識(shí)就存在于網(wǎng)絡(luò)結(jié)構(gòu)中。神經(jīng)網(wǎng)絡(luò)主要用來(lái)進(jìn)行分類、估計(jì)和預(yù)測(cè)等來(lái)實(shí)現(xiàn)有向數(shù)據(jù)挖掘, 也可以用于聚集等無(wú)向的數(shù)據(jù)挖掘。

3.5人工智能(artificial intelligence)

人工智能的一個(gè)重要組成部分是人工智能專家系統(tǒng),在專家系統(tǒng)中,最困難的是把專家的知識(shí)表達(dá)出來(lái),而且還要把專家的知識(shí)變得十分有條理。專家系統(tǒng)很難解決很常性的問(wèn)題。雖然人工智能技術(shù)有待提高,但是在發(fā)現(xiàn)有用的信息方面,是必不可少的,它總是為數(shù)據(jù)的查找提供很好的方向。

3.6 遺傳算法(GeneticAlgorithms)

它是一種遺傳學(xué)原理和自然選擇機(jī)制來(lái)搜索最優(yōu)解的方法。在數(shù)據(jù)挖掘中,用來(lái)尋找實(shí)現(xiàn)分類、估計(jì)和預(yù)測(cè)功能的最優(yōu)參數(shù)集。過(guò)程是先產(chǎn)生一組解法, 然后用重組、突變和選擇等進(jìn)化過(guò)程來(lái)得到下一代解法。隨著進(jìn)化過(guò)程的繼續(xù), 較差的方法將被拋棄, 從而逐步得到最優(yōu)的解法。

4 聯(lián)機(jī)處理技術(shù)與數(shù)據(jù)挖掘的關(guān)系

目前, 聯(lián)機(jī)處理技術(shù)與數(shù)據(jù)挖掘是信息系統(tǒng)領(lǐng)域內(nèi)的研究重點(diǎn),OLAP作為一種多維分析的工具, 可以為用戶提供多層面、多角度的邏輯視圖,按照用戶所提出問(wèn)題進(jìn)行假設(shè),分析,并將呈現(xiàn)給用戶。

數(shù)據(jù)挖掘是在海量的數(shù)據(jù)集合中尋找模式的決策支持過(guò)程,它從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的模式并作出預(yù)測(cè)性分析, 是現(xiàn)有的最新的技術(shù)和統(tǒng)計(jì)學(xué)等成熟技術(shù)在特定系統(tǒng)中的具體的應(yīng)用。

同時(shí),數(shù)據(jù)挖掘與OLAP都屬于分析型工具, 從某種角度上說(shuō)OLAP聯(lián)機(jī)分析方法也是一種數(shù)據(jù)挖掘方法。但二者之間有著明顯的區(qū)別,數(shù)據(jù)挖掘的分析過(guò)程是全自動(dòng)的, 用戶可以不必提出確切的問(wèn)題, 只需工具去挖掘隱藏的模式并預(yù)測(cè)將來(lái)的趨勢(shì), 這樣有利于發(fā)現(xiàn)未知的事實(shí);而OLAP更多地依靠用戶輸入問(wèn)題和假設(shè), 由于用戶先入為主的參與問(wèn)題和假設(shè)的范圍, 從而會(huì)影響最后的結(jié)論。從對(duì)數(shù)據(jù)分析的深度角度來(lái)講, 它比較淺顯, 數(shù)據(jù)挖掘則可以發(fā)現(xiàn)OLAP 所不能發(fā)現(xiàn)的更為復(fù)雜的信息。

數(shù)據(jù)挖掘存在的主要問(wèn)題是實(shí)現(xiàn)很困難,因?yàn)閿?shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中存在大量數(shù)據(jù)和每個(gè)數(shù)據(jù)又有很多屬性, 由于挖掘分析過(guò)程是全自動(dòng)的, 用戶僅僅指定挖掘的任務(wù), 而不提供搜索線索, 這樣導(dǎo)致搜索的空間過(guò)大, 生成相當(dāng)多的外模式, 其中絕大部分有可能是無(wú)意義的是用戶不感興趣的模式。OLAP分析雖然可給用戶提供在不同角度、不同抽象級(jí)別的視圖, 但是由于對(duì)用戶的需求了解調(diào)研的不夠全面, 視圖中缺乏所應(yīng)包含的維度, 從不同的視圖得到的結(jié)果可能并不相同, 容易產(chǎn)生錯(cuò)誤引導(dǎo), 用戶需做大量的數(shù)據(jù)打撈工作才能夠猜出正確的結(jié)果。

實(shí)際上數(shù)據(jù)挖掘的各個(gè)方法之間, 數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理之間都有著密不可分的關(guān)系,有些是可以由OLAP 來(lái)展現(xiàn)或分析的,而數(shù)據(jù)挖掘的結(jié)果又可以指導(dǎo)生成OLAP多維模型。

從上述分析可以看出, OLAP與數(shù)據(jù)挖掘技術(shù)由于內(nèi)在技術(shù)方面和適用范圍的不同, 在實(shí)際決策分析中必須協(xié)調(diào)配合使用才能發(fā)揮最好的作用。

參考文獻(xiàn):

[1]施伯樂(lè) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的研究進(jìn)展,復(fù)旦大學(xué)

[2]廖里 數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)及其在電信業(yè)中的應(yīng)用 2000年 《重慶郵電學(xué)院學(xué)報(bào)》

[3]石磊 OLAP與數(shù)據(jù)挖掘一體化模型的分析與討論 2000年 《小型微型計(jì)算機(jī)系統(tǒng)》

[4]豎 苧 數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)與數(shù)據(jù)挖掘技術(shù)淺析 2003年第3期《現(xiàn)代信息技術(shù)》

[5]宋中山 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)研究與應(yīng)用 2003年 《計(jì)算機(jī)工程與應(yīng)用》

作者簡(jiǎn)介:

孟雅鳳 哈爾濱市黑龍江農(nóng)墾職業(yè)學(xué)院計(jì)算機(jī)應(yīng)用技術(shù)系 工學(xué)碩士 講師

主站蜘蛛池模板: 国产99在线| 青青草一区| 国产精品私拍在线爆乳| 国产噜噜噜| 伊人久久大香线蕉影院| 在线无码九区| 亚洲免费成人网| 四虎亚洲精品| 国产成人精品一区二区三区| 欧美日韩国产在线播放| 黄色一级视频欧美| 成人无码区免费视频网站蜜臀| 亚洲一区二区三区香蕉| 国产亚洲日韩av在线| 天堂岛国av无码免费无禁网站 | 18禁黄无遮挡网站| 67194亚洲无码| 欧美特黄一免在线观看| 国产打屁股免费区网站| 国产精品视频白浆免费视频| 欧洲免费精品视频在线| 亚洲欧美日韩中文字幕在线| 性激烈欧美三级在线播放| 一本久道久综合久久鬼色| 91伊人国产| 狠狠操夜夜爽| 国产一区二区在线视频观看| 热99精品视频| jizz国产视频| 日韩欧美中文| 国产一级在线播放| 永久在线播放| 71pao成人国产永久免费视频| 99久久无色码中文字幕| 26uuu国产精品视频| 影音先锋丝袜制服| 亚洲,国产,日韩,综合一区| 美女高潮全身流白浆福利区| 国产亚洲高清在线精品99| 国产在线自乱拍播放| 狠狠色综合久久狠狠色综合| 91精品专区| 特级aaaaaaaaa毛片免费视频| 国产欧美日韩专区发布| 日本三级精品| 日韩精品久久无码中文字幕色欲| 国产美女在线免费观看| 国产91在线|中文| 久久香蕉欧美精品| 波多野结衣亚洲一区| 免费国产小视频在线观看| 久久人搡人人玩人妻精品| 日本手机在线视频| 国产日韩欧美精品区性色| 国产男女免费视频| 一级毛片在线播放| 精品亚洲欧美中文字幕在线看 | 久无码久无码av无码| 日韩一级毛一欧美一国产| 亚洲午夜久久久精品电影院| 欧美在线国产| 国产精品99久久久久久董美香| 国产69精品久久久久妇女| 欧美在线一二区| 99精品这里只有精品高清视频| 久久久久久高潮白浆| 日日噜噜夜夜狠狠视频| 亚洲成A人V欧美综合| 欧美国产另类| 无码有码中文字幕| 999精品免费视频| 毛片视频网址| 亚洲色欲色欲www网| 精品国产女同疯狂摩擦2| 免费观看男人免费桶女人视频| 国产国语一级毛片在线视频| 亚洲人成人伊人成综合网无码| 国产在线日本| 极品国产一区二区三区| 国产不卡在线看| 午夜三级在线| 999福利激情视频|