999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)和應(yīng)用分析

2019-11-13 02:56:12
關(guān)鍵詞:數(shù)據(jù)挖掘分類(lèi)用戶

徐 偉

(桐城師范高等專(zhuān)科學(xué)校,安徽 桐城 231400)

大數(shù)據(jù)技術(shù)發(fā)展帶來(lái)的巨大信息風(fēng)暴正在改變?nèi)藗兊纳睢⒐ぷ骱退季S方式,也是開(kāi)啟重大時(shí)代轉(zhuǎn)型的鑰匙。全球各國(guó)普遍認(rèn)識(shí)到數(shù)據(jù)作為戰(zhàn)略性資源對(duì)發(fā)展和競(jìng)爭(zhēng)帶來(lái)的關(guān)鍵作用,諸多國(guó)家開(kāi)始制定以大數(shù)據(jù)為核心的戰(zhàn)略或發(fā)展計(jì)劃,借此實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新和新興產(chǎn)業(yè)發(fā)展。大數(shù)據(jù)技術(shù)能夠挖掘海量數(shù)據(jù)的內(nèi)在規(guī)律,打開(kāi)全新思維和認(rèn)知視角,在“互聯(lián)網(wǎng)+”的時(shí)代背景下,為各行各業(yè)的發(fā)展保駕護(hù)航[1]。本文討論基于大數(shù)據(jù)的數(shù)據(jù)挖掘關(guān)鍵技術(shù),理清思路,突出數(shù)據(jù)挖掘價(jià)值,并以電力行業(yè)為例,分析大數(shù)據(jù)挖掘技術(shù)在企業(yè)生產(chǎn)經(jīng)營(yíng)中的應(yīng)用場(chǎng)景和應(yīng)用價(jià)值。

1 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)是利用算法搜索,從海量數(shù)據(jù)中提取重要信息和有趣模式的過(guò)程[2]。圖1所示為數(shù)據(jù)挖掘的數(shù)據(jù)模型建立過(guò)程。

圖1 數(shù)據(jù)挖掘建模過(guò)程

第一個(gè)階段是數(shù)據(jù)的預(yù)處理,將采集到的原始數(shù)據(jù)轉(zhuǎn)化為符合項(xiàng)目需求的有效數(shù)據(jù)。數(shù)據(jù)預(yù)處理是為了有效彌補(bǔ)原始數(shù)據(jù)缺陷,保證數(shù)據(jù)的可靠、完整。數(shù)據(jù)抽取就是要在海量數(shù)據(jù)中快速獲取與項(xiàng)目有關(guān)的數(shù)據(jù)。

第二個(gè)階段是數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的普遍特征,選擇合適的算法和工具,采用案例推理、規(guī)則推理、模糊集、遺傳算法、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)等方法處理信息。數(shù)據(jù)挖掘的關(guān)鍵在于明確挖掘任務(wù),并找到合適的挖掘算法。

第三個(gè)階段是知識(shí)表示和模式評(píng)估。模式主要用于準(zhǔn)確表達(dá)出數(shù)據(jù)的挖掘成果,最終構(gòu)建出有識(shí)別能力的完整的表達(dá)模式。

2 數(shù)據(jù)挖掘常見(jiàn)算法

數(shù)據(jù)挖掘是集統(tǒng)計(jì)學(xué)、軟件開(kāi)發(fā)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)等技術(shù)的綜合多學(xué)科先進(jìn)技術(shù),經(jīng)過(guò)大量數(shù)據(jù)的分析處理,挖掘隱含的高價(jià)值信息,為決策提供技術(shù)支持。狹義算法是指一些統(tǒng)計(jì)算法、分類(lèi)算法、規(guī)則提取算法等。常見(jiàn)的狹義數(shù)據(jù)挖掘算法包括K-means聚類(lèi)算法、Apriori布爾型關(guān)聯(lián)規(guī)則算法、最大期望算法、K最近鄰分類(lèi)算法等。廣義算法泛指一切數(shù)據(jù)處理、規(guī)則提取的方法來(lái)發(fā)現(xiàn)數(shù)據(jù)中的信息,能夠轉(zhuǎn)化為數(shù)據(jù)信息進(jìn)行關(guān)鍵知識(shí)提取的方法都可以被看作是數(shù)據(jù)挖掘,例如圖像處理也可以是一種數(shù)據(jù)挖掘算法[3,4]。下面將著重介紹幾種常見(jiàn)數(shù)據(jù)挖掘算法。

2.1 決策樹(shù)分類(lèi)算法

決策樹(shù)分類(lèi)算法是一種應(yīng)用非常廣泛的數(shù)據(jù)挖掘分類(lèi)算法,包括C4.5和ID3算法。決策樹(shù)算法是針對(duì)給定數(shù)據(jù)集快速生成分類(lèi)的有效方法。決策樹(shù)算法關(guān)鍵是從無(wú)次序、無(wú)規(guī)則的數(shù)據(jù)集中推理出數(shù)據(jù)分類(lèi)的規(guī)則,采用決策樹(shù)方式將分類(lèi)結(jié)果表現(xiàn)出來(lái)。決策樹(shù)分類(lèi)算法的核心思想是自上而下在樹(shù)結(jié)點(diǎn)利用遞歸的方式比較數(shù)據(jù)屬性值,不同的屬性值決定了樹(shù)的走向,結(jié)論表現(xiàn)在葉子結(jié)點(diǎn)處。

決策樹(shù)分類(lèi)算法的第一步是按照給定數(shù)據(jù)集創(chuàng)建決策樹(shù),核心是對(duì)元數(shù)據(jù)源的機(jī)器學(xué)習(xí);第二步是根據(jù)第一步建立的決策樹(shù)進(jìn)行分類(lèi)學(xué)習(xí)。構(gòu)造決策樹(shù)是決策樹(shù)算法的關(guān)鍵步驟,屬性和判斷邏輯的選擇直接決定了決策樹(shù)的結(jié)構(gòu)和處理效果。一般來(lái)說(shuō),決策樹(shù)算法利用剪枝方法處理過(guò)分適應(yīng)的問(wèn)題,利用統(tǒng)計(jì)度量消除這種情況,快速實(shí)現(xiàn)數(shù)據(jù)集分類(lèi),提升數(shù)據(jù)分類(lèi)效果和速度。

2.2 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是非常活躍的一種數(shù)據(jù)挖掘算法,可以在龐大、無(wú)規(guī)律、雜亂的數(shù)據(jù)中建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,對(duì)未來(lái)可能發(fā)生的情況進(jìn)行預(yù)測(cè)。關(guān)聯(lián)規(guī)則常用置信度、支持度兩個(gè)指標(biāo)表示結(jié)論的正確性和顯著性。

置信度用于衡量A發(fā)生的前提下,結(jié)論B發(fā)生的概率,即P(A|B),表示這一規(guī)則在數(shù)據(jù)中所占比率。置信度是衡量關(guān)聯(lián)規(guī)則可信度的指標(biāo),一般將設(shè)置最小值不小于0.5,以此過(guò)濾正確率低的規(guī)則。

支持度用于衡量已知A和B均發(fā)生的概率,即P(A∩B)。假設(shè)最小支持度的目標(biāo)是過(guò)濾數(shù)據(jù)比率低的關(guān)聯(lián)項(xiàng),提升關(guān)聯(lián)規(guī)則的代表性。

Support(A?B)=P(A∩B)

2.3 神經(jīng)網(wǎng)絡(luò)和遺傳算法

神經(jīng)網(wǎng)絡(luò)是模擬人腦神經(jīng)元建立的數(shù)學(xué)模型,包括大量分布式單元,通過(guò)控制神經(jīng)元之間的信息實(shí)現(xiàn)知識(shí)信息學(xué)習(xí)。神經(jīng)元的相互關(guān)聯(lián)組成了神經(jīng)網(wǎng)絡(luò),神經(jīng)元有多個(gè)輸入輸出端,輸入端權(quán)重系數(shù)能夠進(jìn)行調(diào)整,通過(guò)函數(shù)關(guān)系輸出計(jì)算結(jié)果[5]。圖2所示為單層神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)示意圖。

圖2 單層神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)示意圖

遺傳算法屬于一種全局優(yōu)化算法,主要用于求解最優(yōu)解,當(dāng)一個(gè)問(wèn)題有多個(gè)答案時(shí),常用遺傳算法來(lái)選擇最優(yōu)答案。遺傳算法利用生物遺傳學(xué)知識(shí),模仿自然優(yōu)勝劣汰以及遺傳機(jī)制,提升個(gè)體適應(yīng)性。利用遺傳算法求解問(wèn)題,首先是抽象問(wèn)題模型結(jié)構(gòu),將問(wèn)題轉(zhuǎn)換為編碼,對(duì)改組后的編碼結(jié)構(gòu)進(jìn)行賦值、交叉、變異運(yùn)算等,為機(jī)器學(xué)習(xí)算法的檢索提供指導(dǎo)。

3 電力行業(yè)的大數(shù)據(jù)應(yīng)用

3.1 電力大數(shù)據(jù)及其特征

電力大數(shù)據(jù)主要是指在智能電網(wǎng)運(yùn)營(yíng)過(guò)程中產(chǎn)生的海量數(shù)據(jù),既包括電網(wǎng)調(diào)度數(shù)據(jù)、設(shè)備運(yùn)維數(shù)據(jù),也包括用戶用電數(shù)據(jù)等。數(shù)據(jù)通過(guò)部署在設(shè)備上的傳感器、用戶家中的智能電表、客戶反饋等數(shù)據(jù)源產(chǎn)生,并匯聚到數(shù)據(jù)中心統(tǒng)一存儲(chǔ)管理[6]。電力大數(shù)據(jù)是智能電網(wǎng)穩(wěn)定發(fā)展、可靠、高效運(yùn)行的重要支撐。電力大數(shù)據(jù)價(jià)值挖掘是促進(jìn)電網(wǎng)精益化管理、優(yōu)化電力生產(chǎn)調(diào)度、建立用戶用電行為模型的基礎(chǔ)支撐。電力大數(shù)據(jù)的基本特征表現(xiàn)為:

第一個(gè)特點(diǎn)是體量大,隨著智能電網(wǎng)的快速發(fā)展,電網(wǎng)智能設(shè)備終端的部署越來(lái)越密集,采集的數(shù)據(jù)量激增;第二個(gè)特點(diǎn)是類(lèi)型多,電力生產(chǎn)、銷(xiāo)售等環(huán)節(jié)會(huì)產(chǎn)生大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);第三個(gè)特點(diǎn)是速度快,電力運(yùn)營(yíng)數(shù)據(jù)的采集響應(yīng)速度非常快,終端數(shù)據(jù)量快速增加,對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)有較高的要求。

圖3 電力大數(shù)據(jù)流轉(zhuǎn)示意圖

3.2 數(shù)據(jù)挖掘在電力行業(yè)的應(yīng)用

支持分布式挖掘算法是電力大數(shù)據(jù)分析的關(guān)鍵,通過(guò)分析建模、模型運(yùn)行、模型發(fā)布等功能,滿足高效的數(shù)據(jù)挖掘分析需求。電力數(shù)據(jù)挖掘常用方法包括傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)分析、多維分析、邏輯回歸算法、回歸分析、聚類(lèi)算法、關(guān)聯(lián)分析等等。除此之外,還經(jīng)常使用分類(lèi)算法、演化分析、異類(lèi)分析等預(yù)測(cè)性挖掘算法。針對(duì)電力各環(huán)節(jié)大量存在的文本、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù),多采用文本分析、圖像分析、語(yǔ)音分析等算法加以處理。數(shù)據(jù)挖掘在電力行業(yè)的應(yīng)用場(chǎng)景有電力負(fù)荷預(yù)測(cè)、設(shè)備重過(guò)載預(yù)警分析、配網(wǎng)故障搶修分析等。

圖4 電力大數(shù)據(jù)挖掘應(yīng)用

4 基于用電大數(shù)據(jù)的業(yè)擴(kuò)影響電量預(yù)測(cè)

業(yè)擴(kuò)報(bào)裝包括新裝、增容、減容和減容恢復(fù)等,預(yù)測(cè)的第一步是建立模型,根據(jù)歷史用戶業(yè)擴(kuò)情況以及業(yè)擴(kuò)對(duì)電量的影響規(guī)律,建立全行業(yè)的業(yè)擴(kuò)電量影響模型,反映業(yè)擴(kuò)對(duì)負(fù)荷利用率的影響。第二步是將需要分析的歷史預(yù)測(cè)、預(yù)測(cè)時(shí)間等代入定義好的預(yù)測(cè)模型,推算業(yè)擴(kuò)影響預(yù)測(cè)電量。

1.?dāng)?shù)據(jù)清洗。電力營(yíng)銷(xiāo)系統(tǒng)中,每天會(huì)產(chǎn)生大量業(yè)擴(kuò)報(bào)裝數(shù)據(jù),要進(jìn)行數(shù)據(jù)挖掘,第一步是數(shù)據(jù)清洗。用戶業(yè)擴(kuò)報(bào)裝的原因很多,要消除因?yàn)榫€路變更、接入雙電源等申請(qǐng)的報(bào)裝數(shù)據(jù)。保留在業(yè)擴(kuò)工單結(jié)束之后,能夠確切影響用戶用電量的數(shù)據(jù)。

2.?dāng)?shù)據(jù)預(yù)處理。用戶會(huì)在不同時(shí)間提起業(yè)擴(kuò)報(bào)裝申請(qǐng),所以需要從時(shí)間維度進(jìn)行歸一化處理。業(yè)擴(kuò)申請(qǐng)的時(shí)間是起始時(shí)間,該月份表示為第0個(gè)月,后續(xù)的每月用電量的時(shí)間時(shí)段被設(shè)置為1-18個(gè)月。如果某個(gè)時(shí)間段內(nèi)多次發(fā)生業(yè)擴(kuò)報(bào)裝,那么將該用戶的數(shù)據(jù)剔除,因?yàn)闊o(wú)法判斷哪次業(yè)擴(kuò)報(bào)裝對(duì)用戶量產(chǎn)生的影響最大。

3.剔除外部因素。用戶的業(yè)擴(kuò)報(bào)裝申請(qǐng)工單完成之后,用電量的變化可能會(huì)受到節(jié)假日、天氣等因素的影響。如果考慮這些外部因素,則需要利用氣象、節(jié)假日對(duì)用電量的影響模型來(lái)全面分析外部因素對(duì)負(fù)荷利用率的影響。所以此次的研究中,剔除外部因素的影響。

4.模型計(jì)算。經(jīng)過(guò)上述步驟之后,要搭建業(yè)擴(kuò)負(fù)荷利用率的變化值模型。

業(yè)擴(kuò)負(fù)荷利用率變化值根據(jù)下式進(jìn)行計(jì)算:

上式中,F(xiàn)表示的是業(yè)擴(kuò)的月負(fù)荷率;Tind表示的是用電行業(yè)的類(lèi)型;Mperiod表示的是業(yè)擴(kuò)報(bào)裝的月份和業(yè)擴(kuò)影響電量統(tǒng)計(jì)月份的間隔;KTYPe表示的是業(yè)擴(kuò)報(bào)裝類(lèi)型,KTYPe值等于1時(shí)業(yè)擴(kuò)類(lèi)型為新裝和增容,值等于2時(shí)表示業(yè)擴(kuò)類(lèi)型為減容銷(xiāo)戶;S表示的是某個(gè)行業(yè)中業(yè)擴(kuò)申請(qǐng)用戶總數(shù);Ai為不同用電行業(yè)中某個(gè)業(yè)擴(kuò)申請(qǐng)用戶的月度用電量變化情況;Paddi表示的是行業(yè)中某個(gè)業(yè)擴(kuò)申請(qǐng)用戶容量變化。

5.模型應(yīng)用。選取某個(gè)地區(qū)2018年3-6月份的業(yè)擴(kuò)報(bào)裝情況,基于此分析對(duì)于第四季度用電量的影響。

第一步:分地區(qū)、行業(yè)、業(yè)擴(kuò)類(lèi)型統(tǒng)計(jì)二季度業(yè)擴(kuò)數(shù)據(jù);

第二步:循環(huán)第二季度各個(gè)月份的數(shù)據(jù)進(jìn)行計(jì)算,5月相對(duì)10月、11月分別間隔5個(gè)月和6個(gè)月,根據(jù)負(fù)荷利用率的變化模型,計(jì)算出不同行業(yè)、不同業(yè)擴(kuò)類(lèi)型、不同間隔月份的負(fù)荷利用變化值;

第三步:負(fù)荷率變化值的計(jì)算和電量增長(zhǎng)值的計(jì)算;

第四步:累加所有月份和地區(qū)的業(yè)擴(kuò)的電量增長(zhǎng)值。

計(jì)算Mstart~Mend月份的業(yè)擴(kuò)對(duì)于未來(lái)Meffect月份業(yè)擴(kuò)容量情況:

上式中,Mstart和Mend表示的是統(tǒng)計(jì)開(kāi)始和統(tǒng)計(jì)結(jié)束的月份;Meffect表示容量影響的對(duì)應(yīng)月份;S表示的是某個(gè)行業(yè)中業(yè)擴(kuò)申請(qǐng)用戶總數(shù);Pj表示行業(yè)內(nèi)第j個(gè)申請(qǐng)用戶業(yè)擴(kuò)容量的變化;F(·)表示負(fù)荷率計(jì)算函數(shù)。

表1 電量預(yù)測(cè)數(shù)據(jù)

6.應(yīng)用成效。選取造紙業(yè)、醫(yī)藥制造、交通業(yè)、批發(fā)零售行業(yè)對(duì)業(yè)擴(kuò)-電量影響模型進(jìn)行測(cè)試,表1所示為上述行業(yè)2018年的電量預(yù)測(cè)結(jié)果。

5 總結(jié)

機(jī)器學(xué)習(xí)科學(xué)的進(jìn)步推動(dòng)數(shù)據(jù)挖掘技術(shù)的發(fā)展,產(chǎn)生的數(shù)據(jù)越多,數(shù)據(jù)的價(jià)值就越大,相應(yīng)的數(shù)據(jù)處理的難度就越大。本文梳理了數(shù)據(jù)挖掘的概念、理論,并介紹了數(shù)據(jù)挖掘的幾個(gè)主要算法。以電力行業(yè)為例,概括電力行業(yè)大數(shù)據(jù)的特征,分析了基于用電大數(shù)據(jù)的業(yè)擴(kuò)影響電量預(yù)測(cè)模型,用實(shí)踐案例驗(yàn)證了大數(shù)據(jù)挖掘技術(shù)的應(yīng)用成效。

猜你喜歡
數(shù)據(jù)挖掘分類(lèi)用戶
分類(lèi)算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
關(guān)注用戶
關(guān)注用戶
關(guān)注用戶
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 特级做a爰片毛片免费69| 欧美性久久久久| 影音先锋丝袜制服| 真人高潮娇喘嗯啊在线观看| 欧美精品成人| 国产精品播放| 国产精品免费电影| 国产精品v欧美| 久久九九热视频| 国产精品福利尤物youwu| 国产网站在线看| 在线观看欧美国产| a网站在线观看| 精品国产自在在线在线观看| 国产高清在线观看| 国产男人的天堂| 国产成+人+综合+亚洲欧美| 久久综合伊人77777| 美女一区二区在线观看| 日韩精品无码一级毛片免费| 在线免费不卡视频| 国产理论精品| 这里只有精品免费视频| 亚洲最新在线| 精品综合久久久久久97超人该| 国产亚洲成AⅤ人片在线观看| 伊人久久婷婷五月综合97色| 国产精品内射视频| 亚洲免费三区| 天天干伊人| 久久精品人妻中文视频| 性欧美久久| 99久视频| 亚洲欧洲日产国产无码AV| 日本人妻一区二区三区不卡影院| 国产后式a一视频| 国产亚洲精久久久久久久91| 亚洲国产精品美女| 国产成人精品高清在线| 久久天天躁狠狠躁夜夜2020一| 国产极品美女在线播放| 久久综合色播五月男人的天堂| 国产美女在线观看| 69精品在线观看| 一本视频精品中文字幕| 四虎AV麻豆| 女人18毛片一级毛片在线| 日韩一区二区三免费高清| 色国产视频| 国产精品黑色丝袜的老师| 乱人伦中文视频在线观看免费| 国产精品亚洲一区二区在线观看| 亚洲熟女中文字幕男人总站| 国模视频一区二区| 亚洲欧美人成电影在线观看 | 国产成人高清亚洲一区久久| 婷婷色狠狠干| 青青久在线视频免费观看| 国产va欧美va在线观看| 国产精品私拍在线爆乳| 欧美色综合久久| 91蜜芽尤物福利在线观看| 亚洲视频a| 亚洲天堂啪啪| 91国内视频在线观看| 日韩成人在线视频| 性做久久久久久久免费看| 在线免费亚洲无码视频| 精品国产aⅴ一区二区三区| 国产91麻豆视频| 色老头综合网| 国产区免费精品视频| 日本午夜三级| 国内精品一区二区在线观看| 亚洲Aⅴ无码专区在线观看q| 中文字幕亚洲精品2页| 色综合五月婷婷| 久久国产精品娇妻素人| 不卡色老大久久综合网| 91久久国产综合精品女同我| 美女内射视频WWW网站午夜| 日韩视频免费|