999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BI的報(bào)表系統(tǒng)的數(shù)據(jù)挖掘優(yōu)化

2020-04-22 20:36:14程旭王萌齊新
電腦知識(shí)與技術(shù) 2020年6期
關(guān)鍵詞:數(shù)據(jù)挖掘信息系統(tǒng)

程旭 王萌 齊新

摘要:伴隨著大數(shù)據(jù)的發(fā)展,各大企業(yè)都在成立自己的數(shù)據(jù)中心,目的是為了統(tǒng)一處理各大部門的數(shù)據(jù)信息,打造一個(gè)數(shù)據(jù)中臺(tái)來提升企業(yè)的綜合實(shí)力。BI系統(tǒng)應(yīng)用而生,BI主要是通過對大數(shù)據(jù)的收集,提取,分析vx2c~,-7;.等操作,過濾之后的信息以各種圖形化的方式展示出來,幫助領(lǐng)導(dǎo)以及企業(yè)做出正確的決斷。通過對國內(nèi)的大部分?jǐn)?shù)據(jù)中心進(jìn)行觀察發(fā)現(xiàn)了以下問題:海量的數(shù)據(jù)不能正確的處理,復(fù)雜的圖表展示,大量冗余的信息使得企業(yè)不得做出正確的決定。故該文主要針對報(bào)表系統(tǒng)的數(shù)據(jù)挖掘模型進(jìn)行優(yōu)化設(shè)計(jì)與分析。

關(guān)鍵詞:報(bào)表系統(tǒng);數(shù)據(jù)挖掘

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)06-0005-02

1背景

BI又被稱為商務(wù)智能,譯為Business Intelligence,在1989年,Howard Dresner稱為“使用基于事實(shí)的決策系統(tǒng),來解決業(yè)務(wù)決策的一套理論和方法”,主要是通過數(shù)據(jù)倉庫,數(shù)據(jù)挖掘以及報(bào)表系統(tǒng)集合來打造一個(gè)系統(tǒng)。將多種來源的數(shù)據(jù)整合并提取出共性數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行清洗,分析以及整理,這個(gè)數(shù)據(jù)處理就叫作ETL過程,ETL過程可以完善數(shù)據(jù)的正確性。然后對數(shù)據(jù)進(jìn)行分類整理呈現(xiàn)給決策者或者存人數(shù)據(jù)倉庫。目前國內(nèi)的BI系統(tǒng)發(fā)展迅速,大部分企業(yè)的數(shù)據(jù)分析技術(shù)也很強(qiáng),但是大家對于BI的認(rèn)知不同導(dǎo)致設(shè)計(jì)系統(tǒng)的側(cè)重點(diǎn)也是不同的,在此僅針對BI系統(tǒng)部分的數(shù)據(jù)挖掘進(jìn)行優(yōu)化。

2數(shù)據(jù)挖掘模型

2.1數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是對數(shù)據(jù)進(jìn)行抽取,分析,處理之后形成的數(shù)據(jù)倉庫,之后再對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)一步挖掘的過程。

2.2數(shù)據(jù)模型之決策樹

決策樹結(jié)構(gòu)如圖2所示。

決策樹是樹形結(jié)構(gòu),每個(gè)節(jié)點(diǎn)是一個(gè)簡單的線性決策器,節(jié)點(diǎn)屬性依據(jù)取值的不同劃分為不同的種類,其中決策樹的任意一個(gè)非葉子節(jié)點(diǎn)有兩個(gè)特點(diǎn):一個(gè)訓(xùn)練子集和一個(gè)分割屬性,每個(gè)節(jié)點(diǎn)的訓(xùn)練子集互不相交。

決策樹的構(gòu)造:

在初始時(shí)刻構(gòu)建樹根節(jié)點(diǎn),且樹根節(jié)點(diǎn)擁有所有的訓(xùn)練數(shù)據(jù),任一節(jié)點(diǎn)Ni,選擇數(shù)據(jù)的某一個(gè)屬性A,以A的不同值,把節(jié)點(diǎn)Ni擁有的數(shù)據(jù)Di劃分為全部沒有交集的集合,每個(gè)集合變成Ni的一個(gè)子節(jié)點(diǎn),當(dāng)某個(gè)節(jié)點(diǎn)的所有訓(xùn)練數(shù)據(jù)都屬于同一個(gè)類時(shí),該節(jié)點(diǎn)的劃分過程結(jié)束,生成葉節(jié)點(diǎn)只有一個(gè)屬性,它的父節(jié)點(diǎn)擁有的數(shù)據(jù)集所屬的類標(biāo)號(hào)。

ID3算法:

決策樹的重點(diǎn)在于如何最有效的去劃分子節(jié)點(diǎn),也就是選擇劃分的屬性使得從數(shù)據(jù)集中找到最重要的數(shù)據(jù),我們可以用數(shù)據(jù)的不純性來描述數(shù)據(jù)分割的能力,“純”代表著分割之后的子集異類數(shù)目越少越好,因此衍生出了ID3算法,采取信息增益這個(gè)量來作為純度的度量,

算法流程:

1)計(jì)算信息熵,對于給定的變量擁有的概率分布向量(p1,p2,p3……),我們可以計(jì)算出信息熵是概率分布向量的對數(shù)期望值:H=-f(x)=-∑npn logpn,主要是來衡量隨機(jī)變量的不確定性;

2)計(jì)算熵不純度:對決策數(shù)的節(jié)點(diǎn)N定義熵不純度為i(N)=H(N);

3)對于節(jié)點(diǎn)的不同取值,都進(jìn)行子節(jié)點(diǎn)的信息增益計(jì)算:IG(N/Ai)=H(N)-∑I Ni/NH(Ni)=H(N)-H(N/Ai),可選取信息增益最大的屬性作為當(dāng)前劃分屬性,之后再從第一步開始循環(huán),直到葉子節(jié)點(diǎn)。

以信息的增益為例,我們一般會(huì)選取屬性相同多的屬性,這樣做的后果是會(huì)造成對取值數(shù)目的屬性和個(gè)數(shù)有所偏好,為了減少這種偏好取值所帶來的影響,我們可以采用C4.5算法來消除這種影響,使用屬性增益率來劃分最適合屬性,對最適合的信息增益屬性取權(quán)值再求熵,作為最后的增益率劃分屬性。

C4.5算法:

與ID3算法不同的是,C4.5算法劃分重點(diǎn)轉(zhuǎn)移到信息增益率上,信息增益率可以表示為:IGR=IG(N/Ai)/H(N/Ai),息增益除以分割后的信息熵,它通過信息增益率的選擇分裂屬性可以解決ID3算法中通過信息增益傾向擁有多個(gè)屬性值的屬性進(jìn)行分割的不足,同時(shí)也可以將連續(xù)性的屬性進(jìn)行離散化的處理,屬性離散化處理流程:將屬性A的N個(gè)屬性按照一定的規(guī)則排序,然后將屬性A的所有量化屬性通過二分法劃分為兩個(gè)部分,可以計(jì)算出共有N-1種劃分的方法,劃分的值取相近的屬性取平均值,計(jì)算出每一種劃分方式的信息增益值,然后對比信息增益的結(jié)果,將信息增益值最大的劃分方式的閾值作為屬性A的二分閾值。也就是當(dāng)前節(jié)點(diǎn)的劃分方式。

算法流程:

1)將當(dāng)前節(jié)點(diǎn)上的屬性A的值作為所有樣本的數(shù)據(jù),然后將數(shù)據(jù)進(jìn)行排序,得到屬性A的排列屬性(xA1,..xAN)。

2)對于屬性A的排序(xA1,...xAN)中共有N-1種劃分方法,總計(jì)可以產(chǎn)生N-1個(gè)劃分閾值。假設(shè)針對第i種劃分方式,取其二分閾值為θi=(xAi+xAi)/2。可以將該節(jié)點(diǎn)上的原始數(shù)據(jù)集劃分為2個(gè)子數(shù)據(jù)集(xA1,...,xAi)(xAi+1,...,xAN)。然后計(jì)算該劃分方法下的信息增益。

3)統(tǒng)計(jì)N-1種劃分結(jié)果下的信息增益值,選取信息增益值最優(yōu)的方式作為對屬性A的劃分方式。

2.3決策樹算法優(yōu)化

為了提高決策樹的性能,避免決策樹的分支太多造成泛化的能力太差,可以在構(gòu)建決策樹時(shí)采用剪枝的方式:停止樹的構(gòu)建,不在分割某個(gè)節(jié)點(diǎn),直接構(gòu)建葉子節(jié)點(diǎn),葉節(jié)點(diǎn)的標(biāo)號(hào)為父節(jié)點(diǎn)的占優(yōu)類或者類分布,比如設(shè)置信息增益的閾值,分割時(shí)不能超過閾值則分割停止。或者我們在構(gòu)建決策樹之后在進(jìn)行剪枝。達(dá)到優(yōu)化性能的目的。C4.5算法使用PEP剪枝法,是一種自上而下的剪枝法,這里就不再細(xì)述。

伴隨著數(shù)據(jù)集的規(guī)模越來越大,可能會(huì)出現(xiàn)再一次內(nèi)存中無法存放所有的訓(xùn)練集,這時(shí)我們可以采用隨機(jī)讀人數(shù)據(jù)放入內(nèi)存中進(jìn)行訓(xùn)練數(shù)據(jù)子集,在獲取的子集上構(gòu)造決策樹,同時(shí)可以重復(fù)采樣,獲取多棵決策樹,最后再用集成學(xué)習(xí)的方式綜合多棵決策樹的結(jié)果獲取最終的分割屬性。

3結(jié)束語

針對數(shù)據(jù)挖掘模型做出優(yōu)化,可以極大地改善數(shù)據(jù)提取的效率和精準(zhǔn)度,對于大型企業(yè)的冗余信息提取具有重大的意義,同時(shí)由于BI系統(tǒng)依賴大數(shù)據(jù)的特性,數(shù)據(jù)挖掘算法也成為BI系統(tǒng)中很重要的一步,可以為后續(xù)的BI系統(tǒng)信息展示提供良好的支撐作用。

猜你喜歡
數(shù)據(jù)挖掘信息系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
展會(huì)信息
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 国产精品无码一二三视频| 一区二区三区精品视频在线观看| 国产不卡网| 国产精品19p| 麻豆精品在线| 精品国产自在现线看久久| 97精品伊人久久大香线蕉| 国产精品hd在线播放| 色屁屁一区二区三区视频国产| 亚洲无码电影| 国产成人精品视频一区二区电影| 国产新AV天堂| 亚洲综合香蕉| 狠狠色成人综合首页| 天堂成人在线| 日韩在线2020专区| 色悠久久久久久久综合网伊人| 亚洲第一色视频| 精品欧美视频| 不卡网亚洲无码| 国产99精品久久| 99re在线观看视频| 亚洲中文无码av永久伊人| 亚卅精品无码久久毛片乌克兰| 久久亚洲综合伊人| 一区二区午夜| 亚洲嫩模喷白浆| 欧美日韩一区二区三区在线视频| 全部无卡免费的毛片在线看| 国内老司机精品视频在线播出| 成年人福利视频| 亚洲久悠悠色悠在线播放| 国产成人精品免费av| 久久国产乱子| 国产欧美精品一区aⅴ影院| 久久婷婷人人澡人人爱91| 伊人久综合| 久久亚洲美女精品国产精品| 日本三区视频| 丰满人妻被猛烈进入无码| 四虎永久在线精品国产免费| 欧美人在线一区二区三区| 免费va国产在线观看| 亚洲Va中文字幕久久一区| 亚洲色欲色欲www在线观看| 欧美色99| 日韩精品亚洲一区中文字幕| 在线网站18禁| 欧美19综合中文字幕| 国产一级视频久久| 91成人在线观看视频| 天堂中文在线资源| 日韩一级毛一欧美一国产| 国产精品美乳| 一级毛片免费观看久| 欧美视频在线播放观看免费福利资源| 色成人综合| 国产va在线观看免费| 亚洲人成网线在线播放va| 永久免费AⅤ无码网站在线观看| www中文字幕在线观看| 乱人伦视频中文字幕在线| 亚洲美女AV免费一区| 国产网站在线看| 午夜老司机永久免费看片| 久久女人网| 精品国产电影久久九九| 欧美劲爆第一页| 这里只有精品国产| 99精品视频在线观看免费播放| 国产美女无遮挡免费视频| 国产女人18水真多毛片18精品| 丰满的少妇人妻无码区| 久久夜色精品国产嚕嚕亚洲av| 中文字幕在线观| 亚洲视频在线青青| 一本大道无码日韩精品影视| 精品一区二区三区水蜜桃| 亚洲性视频网站| 欧美在线国产| 成人亚洲视频| 国产亚洲欧美在线专区|