999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關(guān)系型數(shù)據(jù)倉庫數(shù)據(jù)挖掘的實(shí)現(xiàn)

2009-09-02 08:09:44肖玉朝
中國科技財(cái)富 2009年14期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘要:面對“人類被數(shù)據(jù)淹沒,人類卻饑餓于知識”的挑戰(zhàn),本文從數(shù)據(jù)挖掘的涵義與作用入手,簡單描述了關(guān)系數(shù)據(jù)庫數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)與基本原理,并且對基于SQL Server2000關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的實(shí)現(xiàn)進(jìn)行了詳細(xì)而全面的闡述。

關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;聯(lián)機(jī)分析處理

1引言

當(dāng)今世界,隨著計(jì)算機(jī)技術(shù)與數(shù)據(jù)庫技術(shù)的快速發(fā)展,全球范圍內(nèi)的數(shù)據(jù)倉庫中數(shù)據(jù)儲存量急驟上升,“海量數(shù)據(jù)”背后蘊(yùn)含了大量潛在的信息與商機(jī),一直以來,缺少一種能對海量數(shù)據(jù)進(jìn)行深層次分析的技術(shù),導(dǎo)致了“數(shù)據(jù)豐富但知識匱乏”的現(xiàn)象。另一方面,關(guān)系型數(shù)據(jù)倉庫也已經(jīng)在各個領(lǐng)域得到了廣泛的應(yīng)用,基于關(guān)系型數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)具有十分廣闊的發(fā)展前景。

2數(shù)據(jù)挖掘及其系統(tǒng)結(jié)構(gòu)

2、1數(shù)據(jù)挖掘的涵義

數(shù)據(jù)挖掘是一門剛剛興起的多學(xué)科綜合的新生技術(shù),起步較晚,但發(fā)展迅猛。目前還沒有形成一個完整統(tǒng)一的定義,雖然數(shù)據(jù)挖掘的定義有多種版本,但是其核心內(nèi)容大致相同。例如:美國SAS研究所在1997年提出數(shù)據(jù)挖掘是“在大量栩關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法”的概念;1999年Bhavani提出新的概念,認(rèn)為數(shù)據(jù)挖掘是“使用模式識別技術(shù)、統(tǒng)計(jì)和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢的過程”。隨后在2000年Handetal也給數(shù)據(jù)挖掘下了一個定義,他認(rèn)為“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價值信息的過程”。

綜合上面的捕述,筆者認(rèn)為數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價值的信息的技術(shù)。這些信息是可能有潛在價值的,支持決策,可以為企業(yè)帶來利益,或者為科學(xué)研究尋找突破口。

數(shù)據(jù)挖掘綜合了多個學(xué)科技術(shù),具有分類、聚類、關(guān)聯(lián)規(guī)則與序列模式的發(fā)現(xiàn)、預(yù)測、偏差的檢測等五大功能,這幾項(xiàng)功能并不是相互孤立的,而是相輔相成,互相聯(lián)系共同起作用的一個整體。

2、2數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)

數(shù)據(jù)挖掘技術(shù)的分析方法可以分為直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘兩種,其中直接的數(shù)據(jù)挖掘包括分類、估值、預(yù)言三種分析方法,這些分析方法的目標(biāo)是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù)或?qū)σ粋€特定的變量進(jìn)行描述;而間接數(shù)據(jù)挖掘包含相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚集、描述與可視化三種分析方法,這些分析方法并不直按用模型來對目標(biāo)中選出某一具體的變量進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系。

典型的數(shù)據(jù)挖掘系統(tǒng)其結(jié)構(gòu)相對簡單,如圖l所示,后臺數(shù)據(jù)倉庫中的海量數(shù)據(jù)(潛在價值的數(shù)據(jù))通過數(shù)據(jù)倉庫服務(wù)器的整理、集成和選擇等數(shù)據(jù)庫操作形成有價值知識,用戶借助于數(shù)據(jù)挖掘工具(如數(shù)據(jù)挖掘引擎、模式評估等)通過用戶表示層來獲取到對自己有用的知識或信息;當(dāng)然這個過程也具有可逆性,外界的信息同樣可以相應(yīng)的數(shù)據(jù)挖掘工具處理后通過數(shù)據(jù)倉庫服務(wù)器進(jìn)行到后臺數(shù)據(jù)庫中。

圖1典型數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)圖

3關(guān)系型數(shù)據(jù)倉庫的數(shù)據(jù)挖掘的實(shí)現(xiàn)策略

目前,數(shù)據(jù)挖掘?qū)A繑?shù)據(jù)的探索分析的起點(diǎn)是聯(lián)機(jī)分析處理OLAP(0n Line AnalyticaI Processing),也就是說,數(shù)據(jù)挖掘是建立在聯(lián)機(jī)分析處理的數(shù)據(jù)環(huán)境基礎(chǔ)之上。同時,科學(xué)合理的數(shù)據(jù)環(huán)境是確保數(shù)據(jù)挖掘有效和正確實(shí)施的基礎(chǔ)和關(guān)鍵,它需要服務(wù)于數(shù)據(jù)挖掘總體目標(biāo)的數(shù)據(jù)再組織,需要有單獨(dú)的數(shù)據(jù)分析和數(shù)據(jù)處理環(huán)境,而數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)產(chǎn)品。

如何把存放大量業(yè)務(wù)數(shù)據(jù)的關(guān)系數(shù)據(jù)庫經(jīng)過篩選、抽取、歸納、統(tǒng)計(jì)、轉(zhuǎn)換到一個新的數(shù)據(jù)倉庫中,然后再進(jìn)行數(shù)據(jù)展現(xiàn)。下面筆者以基于SQL Server2000數(shù)據(jù)庫的數(shù)據(jù)挖掘?yàn)槔瑢﹃P(guān)系型數(shù)據(jù)倉庫中數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)作一個簡單介紹,目的在于讓讀者了解如何從豐富的后臺數(shù)據(jù)庫中挖掘出有價值的知識。

3、1數(shù)據(jù)倉庫的數(shù)據(jù)加載

數(shù)據(jù)倉庫信息的數(shù)據(jù)挖掘可以使數(shù)據(jù)倉庫成為具有較高商業(yè)價值,為決策者從中提取指導(dǎo)性的數(shù)據(jù)模式和信息,并為做出相應(yīng)的決策提供理論基礎(chǔ)。正確的決策知識與數(shù)據(jù)倉庫中的數(shù)據(jù)密切相關(guān),同時數(shù)據(jù)倉庫中大量的數(shù)據(jù)來源于傳統(tǒng)數(shù)據(jù)庫,相近的事件和相關(guān)的數(shù)據(jù)總是需要周期性地加入到倉庫平臺中從而豐富和反映當(dāng)前事件的變化,因此倉庫數(shù)據(jù)的構(gòu)成與具體加載策略密切相關(guān)。

在關(guān)系型數(shù)據(jù)庫管理系統(tǒng)SQL Server2000中,提供了數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS模塊),它可以實(shí)現(xiàn)數(shù)據(jù)從源向目標(biāo)庫的轉(zhuǎn)換,比如說,將Access、MySQL、文本數(shù)據(jù)、XML數(shù)據(jù)等轉(zhuǎn)換成SQL Server關(guān)系型數(shù)據(jù),再由目標(biāo)管理系統(tǒng)進(jìn)行數(shù)據(jù)的檢索、修改、鉆取等管理工作,從而實(shí)現(xiàn)數(shù)據(jù)記錄的分析,從中挖掘出隱藏的有價值的信息(知識)。

3、2數(shù)據(jù)倉庫的數(shù)據(jù)鉆取

數(shù)據(jù)鉆取是數(shù)據(jù)倉庫中數(shù)據(jù)抽取的具體形式,它包含兩種模式:上鉆與下鉆。上鉆是實(shí)現(xiàn)通過一個維從低層次向較高的層次攀升,從而獲取數(shù)據(jù)立方體的聚合數(shù)據(jù)的過程,這是一個由具體到抽象的過程;而下鉆則是上鉆的逆操作,是一個由抽象到具體的過程,它是由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),比如沿著時間維度,從年到季度,再到月下鉆,可以獲取更加詳細(xì)的數(shù)據(jù)。SQL Server2000中依托企業(yè)管理器中的數(shù)據(jù)鉆取通過新建挖掘模型功能來實(shí)現(xiàn)數(shù)據(jù)庫數(shù)據(jù)的鉆取操作,通過這種分析方法對關(guān)系數(shù)據(jù)庫中的一維或多維數(shù)據(jù)進(jìn)行抽取,并將結(jié)果呈現(xiàn)給用戶。

3、3數(shù)據(jù)倉庫的數(shù)據(jù)挖掘

2000年,微軟首次KSQL Server2000中引入了數(shù)據(jù)挖掘特性,把數(shù)據(jù)挖掘引擎集成到rsQL Server 2000的分析服務(wù)中,從而極大地降低從關(guān)系數(shù)據(jù)倉庫中實(shí)現(xiàn)數(shù)據(jù)挖掘的復(fù)雜性。在數(shù)據(jù)挖掘特性中包含兩個可擴(kuò)展的數(shù)據(jù)挖掘算法:Microsoft的決策樹和Microsoft的集群。

下面筆者就關(guān)系型數(shù)據(jù)庫數(shù)據(jù)挖掘的具體實(shí)現(xiàn)作一個描述,以便讀者對基于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)挖掘有一個詳細(xì)全面的理解。

3、3、1挖掘數(shù)據(jù)源選擇

首先,根據(jù)用戶需要可以使用多維數(shù)據(jù)或關(guān)系數(shù)據(jù)來創(chuàng)建相應(yīng)的數(shù)據(jù)挖掘模型。如果是使用關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)的話,則選擇[關(guān)系數(shù)據(jù)(R)]單選鈕;否則選擇[OLAP數(shù)據(jù)(0)]按鈕。

3、3、2挖掘事例表選擇

在[挖掘模型向?qū)對話框中選擇需要進(jìn)行數(shù)據(jù)挖掘的源數(shù)據(jù)表,這張表必須包含對應(yīng)的事例鍵,因?yàn)樵撌吕I是唯一標(biāo)識待分析事例的列,根據(jù)需要作出相應(yīng)選擇。

3、3、3挖掘技術(shù)選擇

這一步需要用戶對要分析的數(shù)據(jù)采用何種數(shù)據(jù)挖掘技術(shù)作出選擇。前面已經(jīng)介紹過,SQL Server2000的數(shù)據(jù)挖掘特性中包含兩個可擴(kuò)展的數(shù)據(jù)挖掘算法:Microsoft的決策樹和Microsoft的集群。這里請根據(jù)需要選擇相應(yīng)的數(shù)據(jù)挖掘算法。

3、3、4挖掘事件例關(guān)鍵字選擇

前面已經(jīng)選擇了相應(yīng)的事例表,在這里,將要求進(jìn)一步選擇相應(yīng)的事例鍵,該事例鍵可以唯一地標(biāo)識待分析事例的列。

3、3、5挖掘模型參數(shù)選擇

接下來,需要從事例表中選擇輸入列和預(yù)測列;其中輸入列包含關(guān)系所要依據(jù)的信息,預(yù)測列包含挖掘模型依據(jù)輸入列中的信息而作出的預(yù)測。

3、3、5挖掘結(jié)果瀏覽

通過上面的設(shè)置,挖掘工具將依據(jù)用戶輸入列的信息進(jìn)行數(shù)據(jù)分析、抽取等挖掘方法,對預(yù)測列給出一個預(yù)測值,這就是挖掘出數(shù)據(jù)背后隱藏的有價值的信息(知識)的過程。

4結(jié)語

數(shù)據(jù)倉庫技術(shù)是數(shù)據(jù)庫技術(shù)的一個重要發(fā)展方向,而利用數(shù)據(jù)挖掘技術(shù)將數(shù)據(jù)加工轉(zhuǎn)換成有價值的信息供決策者使用已經(jīng)成為當(dāng)今IT行業(yè)研究的熱點(diǎn)問題。同時數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)是相互融合與互動發(fā)展的,筆者認(rèn)為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘相結(jié)合的技術(shù),其應(yīng)用研究的前景肯定是十分廣闊的。

參考文獻(xiàn)

1美George M,Marakas,敖富江譯,Modem Data Warehousing Mining,and VkuaIiz撕on Core Concepts,清華大學(xué)出版社

[2]陳文偉,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M]清華大學(xué)出版社,2006

[3]廖開際,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M]:北京大學(xué)出版社,2008

作者簡介:

肖玉朝(1974-),男,長沙商貿(mào)旅游職業(yè)技術(shù)學(xué)院軟件技術(shù)教研室,在讀研究生,主要研究方向是軟件工程。

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 国产性猛交XXXX免费看| 高清欧美性猛交XXXX黑人猛交 | 成人年鲁鲁在线观看视频| 精品一区国产精品| 日韩精品毛片人妻AV不卡| 国产精品浪潮Av| 熟妇无码人妻| 国产精品女同一区三区五区| 伊人色综合久久天天| 日韩精品毛片人妻AV不卡| 91福利免费| 99色亚洲国产精品11p| 韩日午夜在线资源一区二区| 91精品国产一区| 欧美亚洲欧美区| 欧美一区二区精品久久久| 日韩精品高清自在线| 伊人欧美在线| 国产精品所毛片视频| 大香网伊人久久综合网2020| 无码一区二区波多野结衣播放搜索| 99re在线视频观看| 久久精品国产999大香线焦| 亚洲精品福利视频| 亚洲精品无码不卡在线播放| 精品少妇人妻无码久久| 国产尤物视频在线| 国产欧美精品专区一区二区| 国产欧美专区在线观看| 色哟哟国产精品一区二区| 国产精品林美惠子在线播放| 六月婷婷综合| 欧美成人A视频| 无码精品国产dvd在线观看9久| 欧美区国产区| 国产香蕉在线| 久久夜色撩人精品国产| 国产特一级毛片| 精品久久人人爽人人玩人人妻| 激情爆乳一区二区| 国产精品区视频中文字幕| 播五月综合| 在线观看欧美精品二区| 日韩成人在线一区二区| 午夜人性色福利无码视频在线观看| 国产福利一区在线| 成人久久18免费网站| 国产亚洲精久久久久久久91| 亚洲系列无码专区偷窥无码| 一本久道久久综合多人| 国产一国产一有一级毛片视频| 亚洲一区二区约美女探花| 国产视频只有无码精品| 91久久精品日日躁夜夜躁欧美| 亚洲欧美激情小说另类| 亚洲狠狠婷婷综合久久久久| 88国产经典欧美一区二区三区| 国产尤物在线播放| 91九色最新地址| 毛片在线看网站| 久久性妇女精品免费| 亚洲欧美成人综合| 日韩在线观看网站| 亚洲自偷自拍另类小说| 日韩一区二区三免费高清| 国产黄网站在线观看| 九九精品在线观看| 激情综合婷婷丁香五月尤物| 国产精品一区二区久久精品无码| 国产精品亚洲精品爽爽| 国产一级视频在线观看网站| 美女一区二区在线观看| 一级毛片无毒不卡直接观看| 欧美无专区| 国产小视频在线高清播放| 人妻丰满熟妇αv无码| 久久精品国产精品一区二区| 欧美午夜视频在线| 国产在线一区视频| 在线免费不卡视频| 中国黄色一级视频| 伊人久久大香线蕉aⅴ色|