李穎杰
(深圳供電局有限公司,廣東 深圳 518000)
隨著智能電網(wǎng)建設(shè)的持續(xù)發(fā)展,國(guó)家電網(wǎng)已經(jīng)創(chuàng)建了4 種數(shù)據(jù)中心平臺(tái),分別為結(jié)構(gòu)化、海量歷史、非結(jié)構(gòu)化、電網(wǎng)空間,實(shí)現(xiàn)大量大數(shù)據(jù)資源的積累,支撐了企業(yè)數(shù)據(jù)的融合與共享。文獻(xiàn)[1]研究過程中提出了智能電網(wǎng)為大數(shù)據(jù)應(yīng)用的主要領(lǐng)域,并且提出基于智能電網(wǎng)的路線圖與技術(shù)框架。現(xiàn)代國(guó)家電網(wǎng)公司積累大量數(shù)據(jù)資源,為數(shù)據(jù)的分析決策提供了良好條件,但是還存在跨類型海量數(shù)據(jù)分析不足、數(shù)據(jù)存儲(chǔ)分散等問題。大數(shù)據(jù)為分析決策主要手段,備受工業(yè)界與學(xué)術(shù)界的重視。因此,對(duì)電力大數(shù)據(jù)智能化分析挖掘框架的設(shè)計(jì)具有重要意義。
對(duì)于國(guó)家電網(wǎng)公司4 個(gè)數(shù)據(jù)中心與外部數(shù)據(jù)源多源異構(gòu)大數(shù)據(jù),通過驗(yàn)證層、服務(wù)層、特征分析層與數(shù)據(jù)源層創(chuàng)建電力大數(shù)據(jù)智能化高效分析挖掘技術(shù)框架。電力大數(shù)據(jù)在整體技術(shù)框架中,利用基于內(nèi)存計(jì)算數(shù)據(jù)分析、數(shù)據(jù)特征分析等技術(shù),通過傳統(tǒng)電力數(shù)據(jù)分析轉(zhuǎn)變到高性能交互式分析,最后構(gòu)成電力大數(shù)據(jù)并行化分析服務(wù)體系,利用超短期母線負(fù)荷預(yù)測(cè)驗(yàn)證技術(shù)的效果[2],圖1 為總體技術(shù)框架。

圖1 總體技術(shù)框架
數(shù)據(jù)層能夠?qū)﹄娏?shù)據(jù)來源進(jìn)行描述,主要包括氣象、移動(dòng)、社交等外部數(shù)據(jù)以及國(guó)家電網(wǎng)數(shù)據(jù)中心半結(jié)構(gòu)化、結(jié)構(gòu)化與地理信息空間數(shù)據(jù)。
特征分析層能夠?qū)μ崛?shù)據(jù)的特征方法、數(shù)據(jù)并行化分析框架和數(shù)據(jù)模型創(chuàng)建的方法進(jìn)行描述。
服務(wù)層能夠通過服務(wù)接口和架構(gòu)創(chuàng)建分布式的服務(wù)體系。
應(yīng)用層利用超短期母線負(fù)荷的預(yù)測(cè),通過調(diào)用相應(yīng)接口對(duì)負(fù)荷大數(shù)據(jù)實(shí)時(shí)分析[3]。
數(shù)據(jù)挖掘指的是通過數(shù)據(jù)分析工具、通過海量數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)與模型的關(guān)系的建模過程,利用模型與數(shù)據(jù)關(guān)系能夠?qū)I(yè)務(wù)發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),從而尋找數(shù)據(jù)之間的關(guān)系,并且發(fā)現(xiàn)業(yè)務(wù)忽略因素,對(duì)全新業(yè)務(wù)強(qiáng)點(diǎn)進(jìn)行拓展。
跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程GRIS-DM 指的是各個(gè)行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程化、綜合性的展現(xiàn),屬于能夠利用不斷完善、實(shí)踐的動(dòng)態(tài)化過程,其中包括數(shù)據(jù)理論、商業(yè)理解、創(chuàng)建模型等階段[4],圖2 為跨行業(yè)數(shù)據(jù)挖掘的標(biāo)準(zhǔn)流程。

圖2 跨行業(yè)數(shù)據(jù)挖掘的標(biāo)準(zhǔn)流程
圖3 為電力市場(chǎng)需求分析的功能結(jié)構(gòu),市場(chǎng)管理能夠通過各個(gè)渠道得出市場(chǎng)信息的分析、分類和統(tǒng)計(jì),跟蹤分析指標(biāo)情況及時(shí)發(fā)現(xiàn)問題,從而利用相關(guān)策略進(jìn)行解決。通過潛力分析得到潛在拓展項(xiàng)目,制定措施,對(duì)拓展項(xiàng)目效果進(jìn)行分析,對(duì)良好市場(chǎng)拓展效果進(jìn)行保證。通過市場(chǎng)分析得到市場(chǎng)發(fā)展的規(guī)律,利用各預(yù)測(cè)模型得出預(yù)測(cè)結(jié)果,以此為市場(chǎng)拓展、電網(wǎng)的運(yùn)行提供參考依據(jù)[5-6]。圖4 為電力市場(chǎng)需求的分析過程。

圖3 電力市場(chǎng)需求分析的功能結(jié)構(gòu)

圖4 電力市場(chǎng)需求的分析過程
電力大數(shù)據(jù)智能分析的核心就是實(shí)現(xiàn)客戶分析,能夠?qū)蛻纛愋团c需求進(jìn)行掌握,通過用電情況、客戶性質(zhì)制定專屬的營(yíng)銷方案,提高用電服務(wù)。客戶分析的功能包括故障保修處理、客戶咨詢和客戶受理等情況分析[7]。圖5 為客戶分析的功能結(jié)構(gòu)。

圖5 客戶分析的功能結(jié)構(gòu)
故障保修處理的情況:根據(jù)供電單位、時(shí)間、故障的類型緯度,對(duì)故障保修數(shù)量、處理完成率、保修比重、滿意率、回訪率等進(jìn)行分析[8]。以下為客戶分析代碼:

為了滿足智能分析挖掘、大數(shù)據(jù)技術(shù)的數(shù)據(jù)分析需求,文中基于分布式分析框架,對(duì)面向內(nèi)存數(shù)據(jù)分析優(yōu)化技術(shù)進(jìn)行分析。首先,對(duì)數(shù)據(jù)傳輸算法進(jìn)行優(yōu)化,利用分析中間結(jié)果自動(dòng)歸并結(jié)果,劃分分析結(jié)果,有效節(jié)約成本,使分析速度得到提高。另外,以不同業(yè)務(wù)場(chǎng)景數(shù)據(jù)源表大小、數(shù)據(jù)分析情況、中間表大小具有不同的統(tǒng)計(jì)信息,基于CBO 對(duì)最優(yōu)執(zhí)行計(jì)劃進(jìn)行選擇。在計(jì)劃任務(wù)線執(zhí)行的過程中,以業(yè)務(wù)場(chǎng)景查詢條件過濾數(shù)據(jù)源,統(tǒng)一計(jì)算數(shù)據(jù),提高大數(shù)據(jù)的運(yùn)算效率[9],圖6 為多源數(shù)據(jù)過濾和性能優(yōu)化。

圖6 多源數(shù)據(jù)過濾和性能優(yōu)化
通過算法的分析和統(tǒng)計(jì)進(jìn)行研究,利用主流開源挖掘與計(jì)算法庫進(jìn)行開發(fā),從而對(duì)數(shù)據(jù)并行化的分析框架進(jìn)行分析。算法并行化技術(shù)能夠促進(jìn)分析算法與統(tǒng)計(jì)算法的并行化,利用迭代計(jì)算與內(nèi)存計(jì)算中Spark 的功能,在Spark 中運(yùn)行統(tǒng)計(jì)算法與并行分析算法,實(shí)現(xiàn)數(shù)據(jù)分析挖掘的功能[10]。
通過主節(jié)點(diǎn)、數(shù)據(jù)資源、工作節(jié)點(diǎn)等管理器對(duì)主節(jié)點(diǎn)數(shù)據(jù)分析的請(qǐng)求進(jìn)行描述,實(shí)現(xiàn)算法并行化任務(wù)調(diào)用,分析工作節(jié)點(diǎn)運(yùn)行數(shù)據(jù)。設(shè)計(jì)的框架能夠提供實(shí)現(xiàn)數(shù)據(jù)并行化的分析結(jié)構(gòu),在需要對(duì)不同應(yīng)用實(shí)現(xiàn)數(shù)據(jù)并行化的功能時(shí),能夠?qū)Υ丝蚣艿氖褂眠M(jìn)行統(tǒng)一,不需要重復(fù)編寫代碼。在算法并行化執(zhí)行過程中,利用向量化技術(shù)進(jìn)行處理,并且利用算法可行化的向量化處理,使其對(duì)應(yīng)Spark 的RDD,通過Spark 并行化框架進(jìn)行并行化計(jì)算[11]。
針對(duì)越來越嚴(yán)重的大數(shù)據(jù)安全風(fēng)險(xiǎn)、攻擊手段、網(wǎng)絡(luò)入侵,通過數(shù)據(jù)審計(jì)、銷毀、隱私保護(hù)等技術(shù)的應(yīng)用,能夠使大數(shù)據(jù)安全技術(shù)解決識(shí)別過程中存在的問題,從而在全過程監(jiān)控中對(duì)大數(shù)據(jù)進(jìn)行收集。
權(quán)限管理:利用用戶權(quán)限對(duì)分析結(jié)果與原始數(shù)據(jù)進(jìn)行控制[12]。
隱私保護(hù):通過隱私保護(hù)技術(shù)對(duì)數(shù)據(jù)處理,避免對(duì)原始數(shù)據(jù)來源進(jìn)行識(shí)別。
接入安全:在傳統(tǒng)安全接入方案中使用數(shù)據(jù)收集終端、業(yè)務(wù)應(yīng)用系統(tǒng)中的網(wǎng)絡(luò)、主機(jī)、訪問控制等安全技術(shù)實(shí)現(xiàn)合法性訪問。
存儲(chǔ)安全:將同態(tài)加密算法應(yīng)用到存儲(chǔ)層中,通過Hadoop 文件對(duì)控制列表的執(zhí)行、讀寫進(jìn)行訪問和自定義用戶組策略控制文件權(quán)限[13]。
大數(shù)據(jù)中心數(shù)據(jù)計(jì)算利用內(nèi)存計(jì)算與流計(jì)算結(jié)合,使時(shí)效性數(shù)據(jù)計(jì)算需求得到滿足。流計(jì)算實(shí)時(shí)處理需求,實(shí)現(xiàn)在線統(tǒng)計(jì)分析、預(yù)警與過濾等,比如電表數(shù)據(jù)分析與查詢,方便人機(jī)交互。在數(shù)據(jù)計(jì)算方面,使用內(nèi)存計(jì)算與流計(jì)算技術(shù)。傳統(tǒng)數(shù)據(jù)庫技術(shù)在對(duì)海量數(shù)據(jù)處理的過程中,無法實(shí)現(xiàn)良好的水平擴(kuò)展性,而且現(xiàn)有技術(shù)無法使因?yàn)榇疟PI/O 導(dǎo)致的性能瓶頸問題得到解決,消除磁盤瓶頸和并行計(jì)算技術(shù)結(jié)合,能夠?qū)崿F(xiàn)高實(shí)時(shí)高響應(yīng)的計(jì)算,使系統(tǒng)并發(fā)訪問能力得到提高。
文中基于某電力公司,將大數(shù)據(jù)模型預(yù)測(cè)和數(shù)據(jù)分析對(duì)用戶的用電信息進(jìn)行收集,結(jié)合國(guó)民經(jīng)濟(jì)、調(diào)整產(chǎn)業(yè)結(jié)構(gòu)、調(diào)整水平創(chuàng)建數(shù)據(jù)挖掘模型,預(yù)測(cè)各周期用電負(fù)荷曲線、空間分布、負(fù)荷時(shí)間等,以此提供給電能調(diào)配、電網(wǎng)規(guī)劃等決策支持[14]。圖7 為月度負(fù)荷的預(yù)測(cè)界面。

圖7 月度負(fù)荷的預(yù)測(cè)界面
電力公司通過用電負(fù)荷、電網(wǎng)設(shè)備臺(tái)賬等數(shù)據(jù)和數(shù)據(jù)挖掘、分布式計(jì)算等技術(shù),并與氣象信息、產(chǎn)業(yè)值相互結(jié)合,實(shí)現(xiàn)日負(fù)荷、月負(fù)荷的聚類模型,預(yù)測(cè)下階段用電負(fù)荷情況。利用未來用電量、負(fù)荷曲線、負(fù)荷時(shí)間、電力需求量、空間分布的預(yù)測(cè),提前掌握用戶未來的用電需求量,從而保證用戶的正常用電,實(shí)現(xiàn)電網(wǎng)平穩(wěn)運(yùn)行與削峰填谷。利用數(shù)據(jù)分析能夠?yàn)楣驹O(shè)備檢修、電網(wǎng)規(guī)劃、電能調(diào)配等提供決策,使電力生產(chǎn)轉(zhuǎn)變?yōu)榭蛻糁攸c(diǎn),使企業(yè)社會(huì)形象與供電服務(wù)滿意度得到提高[15-16]。
在智能電網(wǎng)不斷發(fā)展的過程中,積累了大量數(shù)據(jù)中心、業(yè)務(wù)系統(tǒng)的數(shù)據(jù),嚴(yán)重影響了系統(tǒng)的計(jì)算速度、建設(shè)模式和分析能力,卻為數(shù)據(jù)分析帶來了豐富的條件。文中深入研究了電力大數(shù)據(jù)智能化高效分析挖掘技術(shù)框架,通過假設(shè)校驗(yàn)、數(shù)據(jù)統(tǒng)計(jì)的層次提升到并行計(jì)算、全數(shù)據(jù)處理、智能算法等層次分析傳統(tǒng)電力數(shù)據(jù),分析數(shù)據(jù)挖掘分析算法的并行化設(shè)計(jì),以此提高挖掘電力業(yè)務(wù)數(shù)據(jù)的價(jià)值。