999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向多源異構(gòu)信息的頻繁項(xiàng)集挖掘算法

2017-06-27 08:14:13劉自力范軍麗陳文偉吳潤(rùn)澤
關(guān)鍵詞:數(shù)據(jù)庫(kù)智能

劉自力,范軍麗,陳文偉,吳潤(rùn)澤

(1.國(guó)網(wǎng)山西省電力公司 晉城供電公司,山西 晉城 048000; 2.北京國(guó)電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100070; 3.華北電力大學(xué) 電氣與電子工程學(xué)院,北京 102206)

面向多源異構(gòu)信息的頻繁項(xiàng)集挖掘算法

劉自力1,范軍麗2,陳文偉3,吳潤(rùn)澤3

(1.國(guó)網(wǎng)山西省電力公司 晉城供電公司,山西 晉城 048000; 2.北京國(guó)電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100070; 3.華北電力大學(xué) 電氣與電子工程學(xué)院,北京 102206)

電網(wǎng)調(diào)度運(yùn)行過(guò)程中產(chǎn)生海量復(fù)雜度高的多源異構(gòu)數(shù)據(jù),利用數(shù)據(jù)挖掘?qū)⑦@些數(shù)據(jù)轉(zhuǎn)化為知識(shí)是調(diào)度智能化發(fā)展的必然趨勢(shì)。為此,構(gòu)建了基于調(diào)控大數(shù)據(jù)的多源異構(gòu)數(shù)據(jù)分析模型,提出了一種能夠處理大數(shù)據(jù)的頻繁項(xiàng)集挖掘算法,將分布式統(tǒng)計(jì)引入到頻繁項(xiàng)集挖掘過(guò)程。該算法根據(jù)組合學(xué)原理,利用MapReduce掃描一次數(shù)據(jù)庫(kù)從原始事務(wù)數(shù)據(jù)庫(kù)中完成頻繁項(xiàng)集的整個(gè)挖掘過(guò)程;且在支持度閾值改變的情況下無(wú)需重新掃描數(shù)據(jù)庫(kù)進(jìn)行挖掘,改進(jìn)了現(xiàn)有頻繁項(xiàng)集挖掘算法多次掃描事務(wù)數(shù)據(jù)庫(kù)和挖掘效率低的問(wèn)題。通過(guò)利用Hadoop平臺(tái)對(duì)故障信息事務(wù)庫(kù)進(jìn)行處理,將所提出的算法與其他頻繁項(xiàng)集挖掘算法進(jìn)行了對(duì)比驗(yàn)證實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提出的算法不受支持度閾值的影響,處理海量事務(wù)數(shù)據(jù)算法時(shí)間開(kāi)銷小,可為實(shí)現(xiàn)以準(zhǔn)確、安全、經(jīng)濟(jì)等目標(biāo)綜合最優(yōu)的調(diào)度智能化分析和決策提供有益的知識(shí)。

智能調(diào)度;頻繁項(xiàng)集;組合理論;Hadoop

0 引 言

當(dāng)前信息通信技術(shù)(ICT)的高速發(fā)展推動(dòng)了智能電網(wǎng)的全面建設(shè),ICT和電網(wǎng)建設(shè)的深度融合催生了智能電網(wǎng)大數(shù)據(jù)的爆炸性增長(zhǎng)。這些數(shù)據(jù)不僅規(guī)模大,其結(jié)構(gòu)也多樣化,構(gòu)成了智能電網(wǎng)中的海量多源異構(gòu)大數(shù)據(jù)。海量多源異構(gòu)大數(shù)據(jù)的高效快速處理和深度挖掘分析為建設(shè)堅(jiān)強(qiáng)可靠、穩(wěn)定運(yùn)行的智能電網(wǎng)提供基礎(chǔ)[1]。電網(wǎng)調(diào)度控制系統(tǒng)中產(chǎn)生的大數(shù)據(jù)是智能電網(wǎng)大數(shù)據(jù)的主要來(lái)源,這些數(shù)據(jù)隱藏著電網(wǎng)運(yùn)行中的實(shí)時(shí)狀態(tài)信息。而數(shù)據(jù)挖掘是實(shí)現(xiàn)將實(shí)時(shí)數(shù)據(jù)和沉淀的歷史數(shù)據(jù)轉(zhuǎn)化為有用知識(shí)的有效方法,為電網(wǎng)調(diào)度運(yùn)行提供輔助性決策和科學(xué)性建議[2]。智能調(diào)度中的數(shù)據(jù)來(lái)源豐富,人們從不同的數(shù)據(jù)源獲取的信息也越來(lái)越多,而且這些數(shù)據(jù)創(chuàng)造的價(jià)值也被人們所接受,但是這些數(shù)據(jù)源之間形成了眾多的“信息孤島”。因此,有必要采用大數(shù)據(jù)思想,對(duì)智能調(diào)度中的數(shù)據(jù)進(jìn)行分析和挖掘,來(lái)實(shí)現(xiàn)數(shù)據(jù)共享,為智能調(diào)度的實(shí)現(xiàn)提供參考。關(guān)聯(lián)分析是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的重要技術(shù)之一。關(guān)聯(lián)規(guī)則算法主要用來(lái)挖掘事務(wù)數(shù)據(jù)庫(kù)中有意義或用戶感興趣的規(guī)則。1993年,美國(guó)的R.Agrawal等首次提出關(guān)聯(lián)規(guī)則算法[3],其主要思想是從原始事務(wù)數(shù)據(jù)庫(kù)中找出滿足一定支持度和置信度要求的項(xiàng)集。其中滿足用戶定義的最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,從頻繁項(xiàng)集中找出滿足最小置信度的頻繁項(xiàng)集,將其轉(zhuǎn)化成最終的強(qiáng)關(guān)聯(lián)規(guī)則形式完成關(guān)聯(lián)規(guī)則挖掘。將頻繁項(xiàng)集轉(zhuǎn)化成關(guān)聯(lián)規(guī)則的過(guò)程較為簡(jiǎn)單,所以頻繁項(xiàng)集挖掘是關(guān)聯(lián)規(guī)則挖掘的重點(diǎn)和關(guān)鍵。

Apriori算法是由R.Agrawal等提出的經(jīng)典頻繁項(xiàng)集算法,該算法通過(guò)連接和剪枝方法完成,能夠有效挖掘出用戶需要的關(guān)聯(lián)規(guī)則,但是存在產(chǎn)生大量的候選項(xiàng)集和重復(fù)多次掃描事務(wù)數(shù)據(jù)庫(kù)的缺陷。為了克服這些缺陷,Han Jiawei等在Apriori算法的基礎(chǔ)上提出了FP-growth算法[4]。該算法建立了樹(shù)結(jié)構(gòu),用來(lái)保存每項(xiàng)的支持度計(jì)數(shù),在建立頻繁模式樹(shù)的過(guò)程中只需掃描兩次事務(wù)數(shù)據(jù)庫(kù),并且不產(chǎn)生候選項(xiàng)集。盡管該算法提高了頻繁項(xiàng)集的挖掘效率,但是針對(duì)大量且事務(wù)比較長(zhǎng)的事務(wù)數(shù)據(jù)庫(kù),其挖掘效率較低。為了提高頻繁項(xiàng)集的挖掘效率,文獻(xiàn)[5-8]基于磁盤(pán)存儲(chǔ)的算法改進(jìn)了挖掘大量事務(wù)數(shù)據(jù)庫(kù)和內(nèi)存有限的問(wèn)題,但其算法復(fù)雜度較高。文獻(xiàn)[9]的FIMM算法在挖掘頻繁項(xiàng)集的過(guò)程中其運(yùn)行時(shí)間不受支持度閾值的影響,改善了算法的計(jì)算復(fù)雜度;然而,事務(wù)數(shù)據(jù)庫(kù)數(shù)據(jù)量很大時(shí),其結(jié)果也不理想。

針對(duì)以上問(wèn)題,在分析智能調(diào)度中數(shù)據(jù)特點(diǎn)的基礎(chǔ)上,建立了智能調(diào)度多源異構(gòu)數(shù)據(jù)分析模型,實(shí)現(xiàn)了多源異構(gòu)數(shù)據(jù)為智能調(diào)度創(chuàng)造價(jià)值。根據(jù)該模型中的關(guān)聯(lián)分析,根據(jù)組合學(xué)原理,結(jié)合MapReduce思想,提出基于大數(shù)據(jù)的頻繁項(xiàng)集挖掘算法(Frequent Itemset Mining Based on Big data,F(xiàn)IMBB)。該算法只掃描一次原始事務(wù)數(shù)據(jù)庫(kù)來(lái)完成整個(gè)頻繁項(xiàng)集的挖掘過(guò)程;利用大數(shù)據(jù)中的MapReduce平臺(tái)并行挖掘出最終的所有目標(biāo)頻繁項(xiàng)集,整個(gè)流程采用了分布式和并行的思想,挖掘效率得到有效提高。

1 基于大數(shù)據(jù)的智能調(diào)度多源異構(gòu)數(shù)據(jù)分析模型

智能調(diào)度大數(shù)據(jù)分析的主要思想為使用適當(dāng)?shù)拇髷?shù)據(jù)工具,抽取和集成多源異構(gòu)數(shù)據(jù),按照分析需求的統(tǒng)一格式存儲(chǔ)預(yù)處理后的數(shù)據(jù),采用數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析和深度挖掘,以提取出隱藏在數(shù)據(jù)中的知識(shí),并根據(jù)智能調(diào)度的新需求,形成新的智能應(yīng)用。

1.1 智能調(diào)度多源異構(gòu)數(shù)據(jù)特點(diǎn)分析

調(diào)度環(huán)節(jié)的數(shù)據(jù)在傳統(tǒng)電網(wǎng)基礎(chǔ)上,數(shù)據(jù)來(lái)源、種類、規(guī)模都有了極大的擴(kuò)充和豐富[10],這些來(lái)自于不同系統(tǒng)的數(shù)據(jù)彼此之間有一定的關(guān)聯(lián)性,不完全獨(dú)立,這些數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)量很大,彼此之間存在著復(fù)雜的關(guān)系。根據(jù)大數(shù)據(jù)的基本特征和電網(wǎng)調(diào)度的具體特點(diǎn),智能調(diào)度多源異構(gòu)數(shù)據(jù)具有以下特征:

(1)數(shù)據(jù)來(lái)自各調(diào)度中心,每個(gè)調(diào)度中心的數(shù)據(jù)又來(lái)源于多個(gè)系統(tǒng),包括SCADA、EMS、WAMS、AMI、OMS、GIS等。每個(gè)系統(tǒng)采集到的數(shù)據(jù)模型、格式、特點(diǎn)不完全相同。

(2)數(shù)據(jù)規(guī)模大,維度多,實(shí)時(shí)性強(qiáng)。晉城供電公司SCADA系統(tǒng)大概總共有80 000個(gè)遙測(cè)點(diǎn),采樣間隔按4 s計(jì)算,每年將產(chǎn)生11.014 TB的數(shù)據(jù)。具體計(jì)算公式為:

11.014 TB=(12字節(jié)/幀×0.4幀/s×80 000遙測(cè)點(diǎn)×86 400 s/天×365天)/240

(3)數(shù)據(jù)的真實(shí)性和安全性高[11]。高質(zhì)量電網(wǎng)調(diào)度數(shù)據(jù)對(duì)于數(shù)據(jù)分析和挖掘至關(guān)重要;調(diào)度是電網(wǎng)的中樞神經(jīng),數(shù)據(jù)的安全性是電網(wǎng)穩(wěn)定、安全和可靠運(yùn)行的前提條件。

(4)數(shù)據(jù)源之間的關(guān)聯(lián)性強(qiáng),集成全面分析產(chǎn)生的結(jié)果具有很大的經(jīng)濟(jì)和社會(huì)價(jià)值。例如,負(fù)荷預(yù)測(cè)[12]是智能調(diào)度中的一個(gè)關(guān)鍵應(yīng)用,其預(yù)測(cè)主要以負(fù)荷數(shù)據(jù)為主,但是負(fù)荷預(yù)測(cè)與氣象、地理、人口、經(jīng)濟(jì)等方面的數(shù)據(jù)有一定關(guān)聯(lián),若利用大數(shù)據(jù)技術(shù),將這些相關(guān)的數(shù)據(jù)源進(jìn)行全面負(fù)荷預(yù)測(cè),將為電力用戶創(chuàng)造極大的價(jià)值。

1.2 基于大數(shù)據(jù)的多源異構(gòu)數(shù)據(jù)分析模型建立

與傳統(tǒng)數(shù)據(jù)分析的主要區(qū)別在于:智能調(diào)度中大數(shù)據(jù)分析的數(shù)據(jù)往往包括大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。從數(shù)據(jù)來(lái)源到數(shù)據(jù)應(yīng)用整個(gè)數(shù)據(jù)分析過(guò)程中,每個(gè)環(huán)節(jié)均能利用大數(shù)據(jù)處理平臺(tái)Hadoop、MapReduce[12]等方式進(jìn)行并行處理。根據(jù)智能調(diào)度多源異構(gòu)數(shù)據(jù)的特征和大數(shù)據(jù)思想,建立了基于大數(shù)據(jù)的智能調(diào)度多源異構(gòu)數(shù)據(jù)分析模型,如圖1所示。

圖1 基于智能調(diào)度多源異構(gòu)數(shù)據(jù)分析模型

圖1描述了將電網(wǎng)智能調(diào)度的數(shù)據(jù)轉(zhuǎn)化為對(duì)調(diào)度管理和決策有益的知識(shí)的過(guò)程,打破了調(diào)度控制系統(tǒng)中各系統(tǒng)之間的信息孤島。在異構(gòu)數(shù)據(jù)源層,SCADA、WAMS等系統(tǒng)都會(huì)產(chǎn)生海量數(shù)據(jù),這些系統(tǒng)彼此不相同,數(shù)據(jù)類型復(fù)雜,因此需要首先對(duì)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行ETL預(yù)處理,保證數(shù)據(jù)質(zhì)量及可靠性。NoSQL[13]數(shù)據(jù)庫(kù)技術(shù)是一種分布式數(shù)據(jù)存儲(chǔ)方式,具有良好的可擴(kuò)展性,解決了海量數(shù)據(jù)的存儲(chǔ)難題。其中代表性的包括Google的BigTable和Amazon的Dynamo等。在云計(jì)算[14]平臺(tái)上,完成智能調(diào)度海量信息的可靠存儲(chǔ)和快速并行處理。對(duì)存儲(chǔ)后的數(shù)據(jù)通過(guò)數(shù)據(jù)挖掘等數(shù)據(jù)分析技術(shù),將廣泛的異構(gòu)數(shù)據(jù)分類,這樣多源異構(gòu)數(shù)據(jù)源通過(guò)數(shù)據(jù)預(yù)處理和分析挖掘轉(zhuǎn)化成了面向主題的、集成的調(diào)度全景大數(shù)據(jù),如設(shè)備基礎(chǔ)數(shù)據(jù)倉(cāng)庫(kù)、告警類數(shù)據(jù)倉(cāng)庫(kù)等統(tǒng)一數(shù)據(jù)模型,從而為系統(tǒng)提供全面的數(shù)據(jù)共享。將各類電網(wǎng)內(nèi)外部數(shù)據(jù)和相應(yīng)的調(diào)度業(yè)務(wù)數(shù)據(jù)進(jìn)行結(jié)合,形成新的智能調(diào)度大數(shù)據(jù)應(yīng)用場(chǎng)景。關(guān)聯(lián)分析在智能調(diào)度數(shù)據(jù)分析挖掘中具有廣泛應(yīng)用,分析歷史故障數(shù)據(jù),找出故障之間的相關(guān)性,為快速找出根源故障,提供故障預(yù)測(cè)參考。

2 FIMBB算法

圖2 FIMBB算法流程

Mapping階段算法的主要思想是:首先將輸入的故障事務(wù)數(shù)據(jù)轉(zhuǎn)化成程序中的統(tǒng)一格式,設(shè)置頻繁項(xiàng)集挖掘的最小支持度閾值和k頻繁項(xiàng)集的上限;讀取每一條處理后的事務(wù)數(shù)據(jù),將每條數(shù)據(jù)在滿足項(xiàng)數(shù)上限的條件下組合事務(wù),輸出〈Key,Value〉。

算法主要步驟為:

(1)將電網(wǎng)故障事務(wù)數(shù)據(jù)庫(kù)的事務(wù)記錄逐條讀入;

(2)每條事務(wù)記錄按照自然項(xiàng)進(jìn)行處理;

(3)根據(jù)組合學(xué)原理,完成調(diào)整后的事務(wù)中項(xiàng)的組合;

(4)根據(jù)項(xiàng)的組合集合以〈Key,Value〉的形式輸出,其中Key為事務(wù)記錄項(xiàng)的組合,Value為1。

在Reducing階段,將Map階段的輸出當(dāng)作輸入,合并相同的項(xiàng)集的計(jì)數(shù)。具體步驟為:當(dāng)讀到非空項(xiàng)集時(shí),將項(xiàng)集的計(jì)數(shù)累加,然后統(tǒng)計(jì)其支持度;如果其支持度大于等于其最小支持度閾值,輸出該項(xiàng)集。

3 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)分析中,采用人工隨機(jī)電網(wǎng)調(diào)度中的故障信息事務(wù)集Datafile進(jìn)行實(shí)驗(yàn),其中故障事務(wù)中包含10個(gè)不同的故障信息項(xiàng),并和Apriori、FIMM算法進(jìn)行性能比較。FIMBB算法是基于臺(tái)式機(jī)搭建的Hadoop平臺(tái),該平臺(tái)由三臺(tái)計(jì)算機(jī)集群組成。其中,兩臺(tái)機(jī)器作為DataNodes和TaskTrackers,這兩臺(tái)計(jì)算機(jī)配置了N3700核心處理器(主頻1.6 GHz)和4 GB內(nèi)存;第三臺(tái)計(jì)算機(jī)作為NameNode和JobTracker,其配置了G3260雙核處理器(主頻3.3 GHz)和4 GB內(nèi)存。網(wǎng)絡(luò)環(huán)境為同一局域網(wǎng)。實(shí)驗(yàn)結(jié)果如圖3和圖4所示。

圖3 三種算法運(yùn)行時(shí)間隨著支持度閾值的變化趨勢(shì)

圖4 運(yùn)行時(shí)間隨事務(wù)數(shù)據(jù)量的變化趨勢(shì)

從圖3可以看到,F(xiàn)IMM和FIMBB算法的運(yùn)行時(shí)間基本不受支持度閾值的影響,而Apriori算法的運(yùn)行時(shí)間和支持度閾值的變化有很大關(guān)系,原因在于隨著支持度的增大,Apriori算法產(chǎn)生的候選項(xiàng)集數(shù)目變少,從候選集中找出真正的頻繁項(xiàng)集相應(yīng)所需的時(shí)間就變少。

從圖4可以看到,F(xiàn)IMM算法運(yùn)行時(shí)間與事務(wù)數(shù)據(jù)量大小基本呈線性關(guān)系:當(dāng)事務(wù)數(shù)據(jù)量小于600時(shí),F(xiàn)IMM的運(yùn)行時(shí)間小于FIMBB;當(dāng)事務(wù)數(shù)大于600時(shí),F(xiàn)IMBB運(yùn)行效率明顯高于FIMM。因?yàn)镕IMBB算法在事務(wù)數(shù)據(jù)量較少時(shí)花費(fèi)在配置運(yùn)行環(huán)境和節(jié)點(diǎn)間通信上的時(shí)間占很大比例,當(dāng)事務(wù)數(shù)據(jù)量較大時(shí),F(xiàn)IMBB算法的運(yùn)行效率具有很大優(yōu)勢(shì)。在事務(wù)數(shù)較多時(shí),Apriori算法的運(yùn)行效率明顯要低于其他兩種算法,原因在于事務(wù)數(shù)據(jù)量越大,Apriori算法將產(chǎn)生大量的候選集且需要多次掃描原始事務(wù)數(shù)據(jù)庫(kù),因此耗時(shí)較多。當(dāng)對(duì)不同數(shù)據(jù)量的事務(wù)進(jìn)行挖掘時(shí),F(xiàn)IMBB算法的加速比如表1所示。

表1 FIMBB加速比

根據(jù)理想加速比公式得到集群中機(jī)器臺(tái)數(shù)分別為2和3的理想加速比為2和3。從表1可以看出,在實(shí)際運(yùn)行中得到的加速比往往和理想的差別很大。主要是由每臺(tái)機(jī)器的硬件性能不完全相同造成的。另外,加速比計(jì)算公式為:

其中,Tq、Ts分別為集群和單機(jī)運(yùn)行算法的時(shí)間開(kāi)銷;c1、c2為兩者的系統(tǒng)開(kāi)銷。當(dāng)事務(wù)數(shù)據(jù)量很大時(shí),計(jì)算加速比可忽略系統(tǒng)開(kāi)銷。

從以上分析可知:對(duì)于大量的事務(wù)數(shù)據(jù),F(xiàn)IMBB算法的性能優(yōu)于FIMM和Apriori算法,且具有很好的可擴(kuò)展性,適用于智能調(diào)度中大量故障事務(wù)的頻繁項(xiàng)集挖掘。

4 結(jié)束語(yǔ)

調(diào)度數(shù)據(jù)分析和處理是實(shí)現(xiàn)智能調(diào)度的關(guān)鍵,在分析智能調(diào)度數(shù)據(jù)特點(diǎn)的基礎(chǔ)上,根據(jù)智能調(diào)度大數(shù)據(jù)的需求,構(gòu)建基于大數(shù)據(jù)的智能調(diào)度多源異構(gòu)數(shù)據(jù)分析模型,實(shí)現(xiàn)了通過(guò)大數(shù)據(jù)挖掘技術(shù),將調(diào)度控制系統(tǒng)中的多源異構(gòu)數(shù)據(jù)轉(zhuǎn)化成智能調(diào)度的有價(jià)值信息。FIMBB算法是一種針對(duì)大量電網(wǎng)調(diào)度事務(wù)數(shù)據(jù)的頻繁項(xiàng)集挖掘算法。該算法將分布式計(jì)算的思想引入挖掘頻繁項(xiàng)集中。

根據(jù)組合學(xué)原理,利用MapReduce掃描一次數(shù)據(jù)庫(kù)從原始事務(wù)數(shù)據(jù)庫(kù)中完成頻繁項(xiàng)集的整個(gè)挖掘過(guò)程;且在支持度閾值改變的情況下無(wú)需重新掃描數(shù)據(jù)庫(kù)進(jìn)行挖掘,提高了頻繁項(xiàng)集的挖掘效率。實(shí)驗(yàn)結(jié)果表明,該算法不受支持度閾值的影響,且對(duì)于大量事務(wù)數(shù)據(jù),運(yùn)行效率高,適用于智能調(diào)度大數(shù)據(jù)的關(guān)聯(lián)分析。大數(shù)據(jù)在智能調(diào)度中的應(yīng)用價(jià)值不可估量,但是,要加速智能調(diào)度化的進(jìn)程,需要在多源數(shù)據(jù)融合和全景數(shù)據(jù)深度分析方面有所突破。

[1] 劉振亞.智能電網(wǎng)技術(shù)[M].北京:中國(guó)電力出版社,2010.

[2] 辛耀中,石俊杰,周京陽(yáng),等.智能電網(wǎng)調(diào)度控制系統(tǒng)現(xiàn)狀與技術(shù)展望[J].電力系統(tǒng)自動(dòng)化,2015,39(1):2-8.

[3] Agrawal R, Imieliński T, Swami A.Mining association rules between sets of items in large databases[C]//Proceedings of the ACM SIGMOD conference on management of data.Washington,D C:ACM,1993:207-216.

[4] Han Jiawei,Pei Jian,Yin Yiwen.Mining frequent patterns wi-thout candidate generation[C]//Proceedings of the ACM SIGMOD conference on management of data.Dallas,TX:ACM,2000:1-12.

[5] Baralis E, Cerquitelli T, Chiusano S,et al.Scalable out-of-core itemset mining[J].Information Sciences,2015,293(4):146-162.

[6] Baralis E,Cerquitelli T,Chiusano S.A persistent HY-Tree to efficiently support itemset mining on large datasets[C]//Proceedings of the 2010 ACM symposium on applied computing.New York:ACM,2010:1060-1064.

[7] Adnan M,Alhajj R.DRFP-tree:disk-resident frequent pattern tree[J].Applied Intelligence,2009,30(2):84-97.

[8] Buehrer G,Parthasarathy S,Ghoting A.Out-of-core frequent pattern mining on a commodity PC[C]//Proceedings of the 12th ACM SIGKDD international conference on knowledge discovery and data mining.New York:ACM,2006:86-95.

[9] 張東霞,苗 新,劉麗平,等.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國(guó)電機(jī)工程學(xué)報(bào),2015,35(1):2-12.

[10] 宋亞奇,周國(guó)亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,37(4):927-935.

[11] 彭小圣,鄧迪元,程時(shí)杰,等.面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J].中國(guó)電機(jī)工程學(xué)報(bào),2015,35(3):503-511.

[12] 李建江,崔 健,王 聃,等.MapReduce并行編程模型研究綜述[J].電子學(xué)報(bào),2011,39(11):2635-2642.

[13] 孟小峰,慈 祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.

[14] 吳凱峰,劉萬(wàn)濤,李彥虎,等.基于云計(jì)算的電力大數(shù)據(jù)分析技術(shù)與應(yīng)用[J].中國(guó)電力,2015(2):111-116.

Frequent Itemset Mining Algorithm for Multi-source Heterogeneous Information

LIU Zi-li1,F(xiàn)AN Jun-li2,CHEN Wen-wei3,WU Run-ze3

(1.Jincheng Power Supply Company,State Grid Shanxi Electric Power Company,Jincheng 048000,China; 2.Beijing Guodiantong Network Technology Co.,Ltd.,Beijing 100070,China; 3.School of Electrical and Electronic Engineering,North China Electric Power University,Beijing 102206,China)

Power grid dispatching has produced large amount of multi-source heterogeneous data with high complexity,and it is the inevitable development trend of intelligent dispatching that power data are transformed into knowledge by data mining.An analysis model of multi-source heterogeneous data based on big data in power dispatching and control system has been established and a frequent item set mining algorithm for processing big data has been proposed.The distributed statistics has been introduced into mining frequent item sets.Combining MapReduce programming and combinatorics,the target frequent item set mining has been completed via scanning transaction database with the proposed algorithm and thus there is no need to scan database again for mining while support degree is under variation.This algorithm has been promoted to solve the problem of multiple scanning transaction database and low mining efficiency.Compared with other frequent item set mining,the algorithm takes advantage of Hadoop in dealing with fault information transaction database.Experimental results show that the proposed algorithm performs well in expansibility and has less time cost with large transaction database and that the method adopted has provided useful knowledge for intelligent analysis and decision making with comprehensive optimal objectives of accuracy,security,economic and others,which single data source could not achieve.

intelligent dispatching;frequent itemsets;combinatorics;Hadoop

2016-06-20

2016-09-22 網(wǎng)絡(luò)出版時(shí)間:2017-04-28

國(guó)家自然科學(xué)基金資助項(xiàng)目(51507063)

劉自力(1969-),男,電力高級(jí)工程師,研究方向?yàn)殡娏νㄐ偶夹g(shù)及網(wǎng)絡(luò)規(guī)劃。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170428.1702.028.html

TP39

A

1673-629X(2017)06-0076-05

10.3969/j.issn.1673-629X.2017.06.016

猜你喜歡
數(shù)據(jù)庫(kù)智能
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來(lái)
商周刊(2018年18期)2018-09-21 09:14:46
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
主站蜘蛛池模板: 99国产精品免费观看视频| 丰满的少妇人妻无码区| 国产精品久久自在自线观看| 亚洲人精品亚洲人成在线| 日本91在线| 色综合a怡红院怡红院首页| 国产精品一线天| 成人国产精品网站在线看| 久久人与动人物A级毛片| 免费 国产 无码久久久| 亚洲中文在线看视频一区| 国产免费久久精品99re不卡| 伊人久热这里只有精品视频99| 欧美在线黄| 日韩欧美成人高清在线观看| 狠狠亚洲婷婷综合色香| 中文字幕乱码二三区免费| 色窝窝免费一区二区三区| 99热亚洲精品6码| 国内精品自在自线视频香蕉| 国产精品深爱在线| 日韩无码白| 欧美成人看片一区二区三区| 69av免费视频| 激情综合图区| 亚洲中文字幕在线观看| 丝袜国产一区| 国产欧美性爱网| 国产成人亚洲精品色欲AV| 欧美精品二区| 天天爽免费视频| 内射人妻无码色AV天堂| 日韩黄色在线| 亚洲码一区二区三区| 91伊人国产| 99久视频| 2021国产乱人伦在线播放| 欧美日韩国产系列在线观看| 精品少妇人妻av无码久久| 国产在线啪| 大乳丰满人妻中文字幕日本| 99久久精品美女高潮喷水| 伊人久久综在合线亚洲91| 精品在线免费播放| 国产精品刺激对白在线| 免费啪啪网址| 亚洲人成人伊人成综合网无码| 国产极品美女在线| 国产在线拍偷自揄观看视频网站| 日韩高清无码免费| 国产日韩欧美在线播放| 国产成人精品男人的天堂| 久久人搡人人玩人妻精品| 色噜噜综合网| 国产精品区视频中文字幕| 99精品在线看| 永久天堂网Av| 欧美成人综合视频| 欧美精品在线免费| 91在线免费公开视频| 色网站免费在线观看| 亚洲综合经典在线一区二区| 久久国产亚洲偷自| 伊人久久综在合线亚洲2019| 国产无码性爱一区二区三区| 欧美一级在线| 九九这里只有精品视频| 在线播放国产一区| 九九这里只有精品视频| 欧美性久久久久| 一本色道久久88| 欧洲亚洲欧美国产日本高清| 欧美成人手机在线视频| 国产AV无码专区亚洲A∨毛片| 91久久国产成人免费观看| 91在线一9|永久视频在线| 91久久国产成人免费观看| 国产精品福利在线观看无码卡| 亚洲无线观看| 人妻精品久久久无码区色视| 一级毛片高清| 午夜影院a级片|