999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)決策樹的配電網(wǎng)多源數(shù)據(jù)快速檢索①

2021-02-23 06:30:00陳志華胡經(jīng)偉陳煥軍邳志旺周雪松
關(guān)鍵詞:數(shù)據(jù)挖掘分類數(shù)據(jù)庫

柯 強(qiáng),陳志華,胡經(jīng)偉,陳煥軍,邳志旺,張 晗,周雪松

1(國網(wǎng)黃岡供電公司 經(jīng)濟(jì)技術(shù)研究所,黃岡 438701)

2(天津楚能電力技術(shù)有限公司,天津 300392)

3(天津理工大學(xué) 電氣電子工程學(xué)院,天津 300384)

隨著智能電網(wǎng)的不斷建設(shè),電網(wǎng)中運(yùn)行和維護(hù)所產(chǎn)生的數(shù)據(jù)量呈指數(shù)形式增長,電網(wǎng)數(shù)據(jù)不斷增加,電力行業(yè)開始進(jìn)入大數(shù)據(jù)時(shí)代[1].電力大數(shù)據(jù)除了包含大數(shù)據(jù)的廣義4V 特征,即數(shù)據(jù)量龐大(Volume)、數(shù)據(jù)類型多(Variety)、數(shù)據(jù)變化速度快(Velcoity)、數(shù)據(jù)價(jià)值密度不高(Value)的性質(zhì),還攜帶了能源行業(yè)的特有印記,包含大量多維時(shí)空數(shù)據(jù)、關(guān)聯(lián)關(guān)系數(shù)據(jù)以及實(shí)時(shí)響應(yīng)數(shù)據(jù)等.此外,這些電力數(shù)據(jù)分別集成在不同的信息管理系統(tǒng)上,如貫通調(diào)度管理系統(tǒng)(Outage Management System,OMS)、生產(chǎn)管理系統(tǒng)(Production Management System,PMS)、地理信息系統(tǒng)(Geographic Information System,GIS)、用電信息采集系統(tǒng)等.而不同管理平臺(tái)之間數(shù)據(jù)不能相互兼容,并且它們之間還含有大量的重疊數(shù)據(jù).另一方面,這些多源數(shù)據(jù)也存在互補(bǔ)關(guān)系,其中蘊(yùn)含著豐富的電力運(yùn)行信息,如文獻(xiàn)[2]提出基于多源數(shù)據(jù)的線路保護(hù)通道及故障定位方法等,采用多源數(shù)據(jù)獲得更多電網(wǎng)有效信息.因此如何利用現(xiàn)有信息管理系統(tǒng)的信息,快速準(zhǔn)確的檢索所需信息是配電網(wǎng)多維數(shù)據(jù)融合管理系統(tǒng)建設(shè)的基礎(chǔ)和關(guān)鍵.

目前正處于泛在電力物聯(lián)網(wǎng)建設(shè)的關(guān)鍵時(shí)期[3],這需要更加精確、高效和個(gè)性化的電網(wǎng)多源數(shù)據(jù)檢索.因此急需建設(shè)適合電網(wǎng)數(shù)據(jù)特點(diǎn)的信息檢索方法.文獻(xiàn)[4]以電網(wǎng)事故信息為基礎(chǔ)形成數(shù)據(jù)倉庫,并利用分類與回歸算法進(jìn)行檢索.文獻(xiàn)[5]針對(duì)電力數(shù)據(jù)多維度的特點(diǎn),提出了基于流形排序的電網(wǎng)截面數(shù)據(jù)檢索方法.由于電網(wǎng)數(shù)據(jù)類型復(fù)雜,文獻(xiàn)[6] 設(shè)計(jì)一種基于B+樹及倒排索引的雙層混合索引結(jié)構(gòu)可同時(shí)對(duì)字符型及數(shù)值型數(shù)據(jù)進(jìn)行檢索.文獻(xiàn)[7]分析了海量電網(wǎng)狀態(tài)監(jiān)測(cè)數(shù)據(jù)管理平臺(tái)結(jié)構(gòu)與功能,提出基于MapReduce的海量數(shù)據(jù)檢索方法.文獻(xiàn)[8]首先采用模糊特征分組聚類方法對(duì)電力數(shù)據(jù)進(jìn)行分組并提取特征向量,然后使用云計(jì)算技術(shù)實(shí)現(xiàn)分布式檢索.目前電力系統(tǒng)數(shù)據(jù)檢索技術(shù)大多直接從大量數(shù)據(jù)中檢索出滿足用戶查詢需求的記錄,消耗時(shí)間長且精確度不高,并且上述大多數(shù)方法僅適合文本數(shù)據(jù)和Web 數(shù)據(jù)檢索,不適用于含多源數(shù)據(jù)的電力系統(tǒng).

決策樹方法是一種適用于數(shù)據(jù)分類、檢索的方法,能保證檢索精度的同時(shí),提高信息檢索速度.目前常用的決策樹算法主要是Quinlan 在1986年提出的ID3 算法[9],它采用信息熵作為判斷分類的依據(jù),通過衡量系統(tǒng)的有序程度來進(jìn)行區(qū)分.ID3 算法選擇信息最大的屬性來對(duì)樣本進(jìn)行分割,可以提高算法的速度和精度,但是它以信息增益作為判斷標(biāo)準(zhǔn),更傾向于選擇具有更多值的屬性.除此之外,還有C4.5[10],SPRINT[11],PUBLIC[12]等改進(jìn)算法,它們?cè)谝欢ǔ潭壬蠌浹a(bǔ)了ID3 算法的不足,可以處理更多的實(shí)際問題.

基于上述分析,本文根據(jù)實(shí)際電力運(yùn)行系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)及多源數(shù)據(jù)庫樣本分析,提出了采用基于互信息的改進(jìn)決策樹算法進(jìn)行快速信息檢索.通過該算法根據(jù)代表性特征子集對(duì)數(shù)據(jù)進(jìn)行分類,直接從多源信息原始數(shù)據(jù)提取信息,并通過并行多任務(wù)處理的方式多源數(shù)據(jù)同時(shí)提取,可以有效處理實(shí)時(shí)數(shù)據(jù),實(shí)現(xiàn)配電網(wǎng)的多源異構(gòu)信息提取.最終,基于該算法提出了電力系統(tǒng)應(yīng)用的電網(wǎng)輔助決策平系統(tǒng)模型構(gòu)建,并在仿真數(shù)據(jù)庫中進(jìn)行了驗(yàn)證.

1 改進(jìn)的決策樹信息檢索算法

決策樹算法是經(jīng)典的數(shù)據(jù)挖掘算法,其算法時(shí)間復(fù)雜度較低,分類速度快,可以適用于海量數(shù)據(jù)的快速檢索分類.對(duì)于數(shù)據(jù)分類檢索而言,輸出結(jié)果的準(zhǔn)確性和完整性至關(guān)重要.而決策樹方法是樹形結(jié)構(gòu)形式的分類器,通過一系列的分類規(guī)則,實(shí)現(xiàn)數(shù)據(jù)分類,對(duì)多元數(shù)據(jù)分類具有較好的效果.

決策樹算法從信息量最大的根節(jié)點(diǎn)開始,按每個(gè)樣本的屬性作為不同的分類節(jié)點(diǎn)(子節(jié)點(diǎn)),將不同屬性值作為不同分支,直到當(dāng)前節(jié)點(diǎn)屬于同一類或相同屬性值為止.決策樹算法中的屬性排序?qū)⒋蟠笥绊憶Q策樹的分類效果及速度,因此需要按照某種度量將屬性進(jìn)行排序,進(jìn)而保證決策樹算法的效果.目前,決策樹算法在圖像辨識(shí)、故障診斷等多個(gè)方面獲得了廣泛的應(yīng)用.本文結(jié)合配電網(wǎng)數(shù)據(jù)信息特征,對(duì)決策樹算法進(jìn)行修改并構(gòu)建一套檢索系統(tǒng).

在構(gòu)建決策樹分類模型時(shí),最重要的問題是建立一個(gè)高效的屬性評(píng)價(jià)系統(tǒng).對(duì)于多源異構(gòu)的電力系統(tǒng)數(shù)據(jù)庫來說,存在了大量的冗余數(shù)據(jù)和互補(bǔ)數(shù)據(jù),需要更加有效的分割方式,僅通過信息熵作為分類標(biāo)準(zhǔn)對(duì)于一些情況不夠魯棒,會(huì)識(shí)別出大量無效數(shù)據(jù),難以達(dá)到應(yīng)用要求.本文在此提出一種基于互信息適用于電力系統(tǒng)多源異構(gòu)的改進(jìn)決策樹算法,可以有效解決重疊數(shù)據(jù)分割.

與信息熵相似,互信息也是由信息論的概念衍生而來,它可以表示兩個(gè)變量之間相互依賴性的度量[13].信息熵可以從原始數(shù)據(jù)中選擇一個(gè)有代表性的特征子集,直接從原始數(shù)據(jù)中提取出需要的信息,但需要滿足一些條件[14].然而,互信息利用互信息判斷不同屬性之間的相互包含關(guān)系,選擇低冗余特征子集,在數(shù)據(jù)挖掘領(lǐng)域的特征選擇方面具有更加突出優(yōu)勢(shì).同時(shí),基于互信息的決策樹的構(gòu)造過程更加直觀.但是,互信息也傾向于選擇多值屬性,為此本文增加權(quán)因子,平衡各不同類別.

當(dāng)樣本集的一個(gè)屬性均勻分布在所有類別中,則與類別的互信息為0,說明該屬性與類別的關(guān)系較弱.如果一個(gè)屬性在不同類別的分布上有顯著的差異,那么它們之間就會(huì)有大量的相互信息,說明屬性和類別之間存在顯著的關(guān)系.通過計(jì)算類別和不同屬性之間的相互信息,可以實(shí)現(xiàn)最優(yōu)屬性分割.對(duì)于一個(gè)樣本屬性,其與類別的相關(guān)性可以表示為互信息:

其中,p(xi)表示屬性x的值為i的概率;y為樣本類別,p(yj)表示類別為j的概率;p(xi,yj)為屬性為i類 別為j時(shí),屬性x與 類別y的聯(lián)合概率.當(dāng)互信息越大,屬性與類別的相關(guān)性越大.在計(jì)算時(shí)需要考慮兩個(gè)相關(guān)變量的分布概率,因此采用平均互信息,并增加權(quán)因子1 /C,其由各類數(shù)決定:

其中,ni為屬性i的數(shù)據(jù)量;m0為人工常量,根據(jù)問題對(duì)權(quán)值進(jìn)行微調(diào).

最終本文的互信息定義為:

其中,1 /C為權(quán)因子,由各類數(shù)決定;MI(x)表示屬性x與類別之間的互信息.

通過基于互信息的決策樹模型可以實(shí)現(xiàn)數(shù)據(jù)分類和數(shù)據(jù)篩選,數(shù)據(jù)篩選算法流程具體如下:

輸入:候選數(shù)據(jù)集(D個(gè)數(shù)據(jù))、索引關(guān)鍵詞(S個(gè)).

步驟1.根據(jù)索引結(jié)構(gòu)構(gòu)建決策樹模型T.

步驟2.由式(2)更新權(quán)值矩陣C.

步驟3.計(jì)算MI(x),降序排序索引.

步驟4.篩除不相關(guān)數(shù)據(jù),得到子分類數(shù)據(jù)Dn.

步驟5.精簡不相關(guān)分支,得到精簡決策樹Tn.

步驟6.迭代計(jì)算,重復(fù)2~4 次,得到最終數(shù)據(jù)集Output.

在檢索過程中,數(shù)據(jù)互信息越大與可能篩除更多無用數(shù)據(jù)的概率成正比,互信息排序越靠前表明是查詢的可能性越大,可以大大減少不相關(guān)信息,提高檢索速度和準(zhǔn)確率.此外,每次迭代過程中都不斷精簡決策樹,可以進(jìn)一步提升計(jì)算準(zhǔn)確度,確保在當(dāng)前數(shù)據(jù)集下得到最佳排序.

本文提出的算法的計(jì)算效果與數(shù)據(jù)自身屬性也有很大的關(guān)系.當(dāng)數(shù)據(jù)具有確定的分類屬性時(shí),比如本文中的電力系統(tǒng)數(shù)據(jù),根據(jù)每個(gè)屬性的分類結(jié)果進(jìn)行篩除時(shí)不會(huì)將有效信息進(jìn)行錯(cuò)篩,因此可以保證檢索信息的準(zhǔn)確性,進(jìn)而不會(huì)錯(cuò)誤的篩除相關(guān)數(shù)據(jù),可以保證最終輸出結(jié)果的完整性.但是當(dāng)數(shù)據(jù)屬性分類不確定時(shí),每次的分類結(jié)果難以達(dá)到百分之百的準(zhǔn)確,而且輸出結(jié)果對(duì)準(zhǔn)確率要求較高,所以如果仍采用步驟4 將可能會(huì)將部分?jǐn)?shù)據(jù)錯(cuò)誤篩除.此時(shí)可以省略步驟4,以保證所有的數(shù)據(jù)完整性,但是相應(yīng)會(huì)增加計(jì)算負(fù)擔(dān).

2 并行計(jì)算

電力系統(tǒng)所產(chǎn)生的數(shù)據(jù)可以區(qū)分為靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù),其中在較大時(shí)間尺度中數(shù)據(jù)不發(fā)生變化時(shí),可以認(rèn)為是靜態(tài)數(shù)據(jù)(例如,PMS、GIS 等數(shù)據(jù)庫),除此之外,在小時(shí)間尺度中不斷更新或者累積的數(shù)據(jù)稱為動(dòng)態(tài)數(shù)據(jù).電力系統(tǒng)中數(shù)據(jù)龐大,尤其是對(duì)于動(dòng)態(tài)數(shù)據(jù)上千節(jié)點(diǎn)的數(shù)據(jù)采集會(huì)造成巨大的數(shù)據(jù)累積.動(dòng)態(tài)數(shù)據(jù)的處理對(duì)于能否有效挖掘關(guān)鍵數(shù)據(jù)至關(guān)重要,但許多算法直接在一定時(shí)間內(nèi)忽略最新的動(dòng)態(tài)數(shù)據(jù),而采用歷史數(shù)據(jù),這對(duì)于實(shí)時(shí)變化的電力系統(tǒng)來說可能會(huì)影響巨大.在此,我們通過技術(shù)處理實(shí)時(shí)更新的數(shù)據(jù)以實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)的挖掘.此外,不同的關(guān)鍵詞檢索,也將對(duì)靜態(tài)數(shù)據(jù)的數(shù)據(jù)處理產(chǎn)生不同的要求.這些對(duì)于計(jì)算機(jī)的要求將大大增加.

決策樹算法的時(shí)間及空間復(fù)雜度均為O(2n),計(jì)算時(shí)間和內(nèi)存量隨數(shù)據(jù)和索引量增長而急劇增長.尤其處理大數(shù)據(jù)時(shí),采用單進(jìn)程對(duì)數(shù)據(jù)進(jìn)行處理會(huì)速度緩慢,浪費(fèi)大量計(jì)算機(jī)資源.因此,使用并行處理方法將算法并行化十分必要,對(duì)挖掘進(jìn)行加速,對(duì)計(jì)算資源實(shí)現(xiàn)充分的利用.同時(shí)處理多個(gè)任務(wù)主要有進(jìn)程分支和線程派生的實(shí)現(xiàn)方式,在此我們采用線程派生,相比于進(jìn)程分支可以提升計(jì)算效率,線程同步易于控制.

本文提出的基于Spark MapReduce 的并行決策樹算法是由多個(gè)map (映射)以及reduce (歸約)函數(shù)組組成,并支持轉(zhuǎn)換 (transformations)和行動(dòng) (actions),它們的實(shí)現(xiàn)基于RDD.多個(gè)數(shù)據(jù)行組成一個(gè)RDD,數(shù)據(jù)行的內(nèi)容可以是數(shù)字、數(shù)組或者是混合類型的數(shù)據(jù).Spark MapReduce 將計(jì)算資源分為一個(gè)master 節(jié)點(diǎn)和多個(gè)worker 節(jié)點(diǎn),master 向空閑的worker 分配工作.

多源數(shù)據(jù)可以通過各數(shù)據(jù)庫實(shí)現(xiàn)物理分割,但是對(duì)于大型數(shù)據(jù)庫中還需要進(jìn)行分塊.在一個(gè)完整的任務(wù)中,master 先將數(shù)據(jù)分塊(split 0–6),然后將生成的決策樹分別賦值給不同worker.被分配了map 任務(wù)的worker 獲取并提取數(shù)據(jù)行,接受輸入數(shù)據(jù),通過對(duì)中間變量鍵值對(duì)的操作,并暫存到內(nèi)存中;master 向分配了reduce 任務(wù)的worker 通知緩存信息,將鍵相同的鍵值對(duì)發(fā)到不同reduce 函數(shù)中,進(jìn)而歸納合并生成簡化鍵值對(duì),并生成最終計(jì)算結(jié)果.

如圖1所示,即為整個(gè)數(shù)據(jù)挖掘引擎并行工作的流程圖,通過對(duì)各個(gè)數(shù)據(jù)庫分類并行的進(jìn)行數(shù)據(jù)獲取和解析并通過決策樹進(jìn)行數(shù)據(jù)挖掘,可以大大的提高數(shù)據(jù)處理效率并降低計(jì)算時(shí)間.

圖1 數(shù)據(jù)挖掘并行計(jì)算流程圖

3 基于決策樹算法的電力系統(tǒng)信息檢索應(yīng)用模型

基于互信息的決策樹算法能有效地度量屬性與不同數(shù)據(jù)庫數(shù)據(jù)之間的關(guān)聯(lián),區(qū)分不同屬性對(duì)分類的重要性.通過增加權(quán)因子,可以對(duì)在實(shí)際復(fù)用情況極好的數(shù)據(jù)庫,在分類策略中適當(dāng)考慮增加其權(quán)重,提高檢索效率及準(zhǔn)確率.根據(jù)電力系統(tǒng)的實(shí)際需求,提出了如圖2所示基于決策樹算法的電網(wǎng)輔助決策系統(tǒng)應(yīng)用模型.

在此我們考慮了電力系統(tǒng)中的多個(gè)異構(gòu)數(shù)據(jù)庫,包括調(diào)度管理(OMS)、生產(chǎn)管理(PMS)、地理信息(GIS)、用電信息采集等系統(tǒng),還有監(jiān)控和數(shù)據(jù)采集系統(tǒng)(Supervisory Control And Data Acquisition,SCADA)、同步相量測(cè)量裝置(Phasor Measurement Unit,PMU)等實(shí)時(shí)數(shù)據(jù).

圖2 基于決策樹算法的電網(wǎng)輔助決策系統(tǒng)應(yīng)用模型

該模型構(gòu)架可以實(shí)現(xiàn)對(duì)用戶主動(dòng)問詢的關(guān)鍵詞進(jìn)行快速檢索和數(shù)據(jù)挖掘,結(jié)果經(jīng)過校驗(yàn)后反饋給用戶,如果用戶不滿意可以追加搜索或進(jìn)行調(diào)整,實(shí)現(xiàn)對(duì)電網(wǎng)運(yùn)行的輔助決策;此外,電網(wǎng)運(yùn)行出現(xiàn)警告時(shí),可以通過該系統(tǒng)獲得除了實(shí)時(shí)測(cè)量系統(tǒng)和故障預(yù)測(cè)系統(tǒng)之外的數(shù)據(jù),實(shí)現(xiàn)多源數(shù)據(jù)共用.下面是每個(gè)部分的運(yùn)行功能:

(1)數(shù)據(jù)處理

由于數(shù)據(jù)庫中往往存在空缺數(shù)據(jù)和不一致數(shù)據(jù)等,因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提高數(shù)據(jù)質(zhì)量.數(shù)據(jù)清理可以處理掉遺漏數(shù)據(jù)和異常數(shù)據(jù),數(shù)據(jù)集成將多源數(shù)據(jù)構(gòu)成統(tǒng)一數(shù)據(jù)集,數(shù)據(jù)變換可以規(guī)范化數(shù)據(jù)成一個(gè)適合的描述形式.通過數(shù)據(jù)處理得到挖掘數(shù)據(jù)集以便開展進(jìn)一步的數(shù)據(jù)挖掘工作.

(2)數(shù)據(jù)挖掘

數(shù)據(jù)挖掘部分是整個(gè)系統(tǒng)的核心部分,其由一組功能模塊構(gòu)成,包括數(shù)據(jù)挖掘、數(shù)據(jù)查詢、數(shù)據(jù)存儲(chǔ)等.本挖掘任務(wù)具有明顯的實(shí)時(shí)性、準(zhǔn)確性要求,為此我們將互信息決策樹與Spark MapReduce 相結(jié)合,計(jì)算速度更快、樹的規(guī)模更小.對(duì)于實(shí)時(shí)數(shù)據(jù)我們采用Boosting 的技術(shù),可以對(duì)新加入數(shù)據(jù)產(chǎn)生新決策樹并形成決策樹集合,增強(qiáng)數(shù)據(jù)挖掘的深度.

(3)模式評(píng)估

對(duì)于最終數(shù)據(jù)有效性的驗(yàn)證與評(píng)估必不可少.首先,通過數(shù)據(jù)庫數(shù)據(jù)反復(fù)比對(duì),保證結(jié)果的準(zhǔn)確性.此外,在一些模糊條件下,難以得到滿意的結(jié)果,為此數(shù)據(jù)也交由用戶進(jìn)行修改和評(píng)價(jià),并不斷返回修正,直到得出用戶滿意的結(jié)果.

(4)用戶交互

用戶可以主動(dòng)發(fā)起數(shù)據(jù)檢索,設(shè)置數(shù)據(jù)要求,同時(shí)也可以對(duì)得到的結(jié)果進(jìn)行修正并進(jìn)一步完善檢索要求,最終在交互界面中得到最終結(jié)果.

(5)系統(tǒng)主動(dòng)問詢

除了用戶主動(dòng)咨詢數(shù)據(jù)輔助決策外,我們還留有系統(tǒng)接口,該系統(tǒng)可以有效的篩除冗余數(shù)據(jù),提高數(shù)據(jù)集成度和利用率,為此,可以對(duì)現(xiàn)有故障預(yù)測(cè)系統(tǒng)、調(diào)度系統(tǒng)進(jìn)行數(shù)據(jù)支撐.

4 仿真分析

4.1 改進(jìn)決策樹算法性能分析

為了驗(yàn)證改進(jìn)決策樹算法的效果和一般適用性,我們針對(duì)幾種經(jīng)典數(shù)據(jù)集與經(jīng)典的ID3 算法進(jìn)行對(duì)比,結(jié)果如表1,其中m0為本文算法的人工常量.

從結(jié)果中可以看出,與ID3 算法相比,本文提出的基于互信息的方法更能提高分類的精度,其具有更低的冗余度.對(duì)于ID3 算法無論是精度較低的數(shù)據(jù)集(如Car)還是精度較高的數(shù)據(jù)集(如Krvs),改進(jìn)方法都可以有效提升準(zhǔn)確率,說明了本文提出方法具有普遍性和精確性.

表1 ID3 算法與本文算法在不同數(shù)據(jù)集中的精度對(duì)比(%)

需要特別說明的是,本文所提算法中的權(quán)因子中的人工常量需要根據(jù)數(shù)據(jù)集本身進(jìn)行微調(diào),通過表格對(duì)比可以看出,權(quán)因子的高效選取會(huì)對(duì)精度提升具有較大幫助.該部分的目的是針對(duì)不同的數(shù)據(jù)集特點(diǎn),將資深行業(yè)從業(yè)人員的多年經(jīng)驗(yàn)充分融合到算法中,例如在本文第3 部分中信息檢索模型中加入了用戶交互檢驗(yàn),可以有效自行調(diào)整人工常量.但是當(dāng)人工保持恒定時(shí),仍然對(duì)比ID3 算法有一定精度提升,對(duì)于一般行業(yè)從業(yè)者也可以有較好的效果.

4.2 電力系統(tǒng)信息檢索應(yīng)用模型分析

為驗(yàn)證本文提出模型的實(shí)用性和魯棒性,在此模擬某北方區(qū)域電網(wǎng)的實(shí)際情況,使用本文所提方法進(jìn)行仿真分析.在實(shí)驗(yàn)室環(huán)境下搭建平臺(tái),模擬電網(wǎng)中包含3 個(gè)數(shù)據(jù)庫(GIS、PMS、SCADA)的歷史數(shù)據(jù),并模擬1 路實(shí)時(shí)的數(shù)據(jù)輸入,用戶檢索某變電站A 主變#2 異常信息,時(shí)間限值為3 個(gè)月.如圖3所示,為在該檢索關(guān)鍵詞下對(duì)3 個(gè)數(shù)據(jù)庫的決策樹的信息檢索過程.

圖3 決策樹檢索實(shí)現(xiàn)流程

從圖3中可以看出,基于互信息決策樹的檢索方法對(duì)于分類結(jié)果是一種從下而上的搜尋方法.先將大量的數(shù)據(jù)篩除,可用提高數(shù)據(jù)處理效率,最終的重復(fù)分類可以篩除冗余數(shù)據(jù).表2和表3是檢索PMS 數(shù)據(jù)庫中2160 條數(shù)據(jù)的檢索結(jié)果,通過互信息決策樹的分類和對(duì)各個(gè)分類器中數(shù)據(jù)的驗(yàn)證分析,最后獲得可用數(shù)據(jù)6 個(gè).對(duì)PMS 數(shù)據(jù)庫的檢索分析在Inter CORE i7 &RAM 8 GB 的臺(tái)式機(jī)上驗(yàn)證,花費(fèi)時(shí)間0.0125 s.

表2 PMS 數(shù)據(jù)關(guān)鍵詞互信息結(jié)果

表3 PMS 數(shù)據(jù)各層分類結(jié)果

針對(duì)3 個(gè)數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行檢索,并不斷提高數(shù)據(jù)量級(jí)別,檢索花費(fèi)時(shí)間如表4中所示.在低量級(jí)時(shí),并行計(jì)算效果不明顯,隨著數(shù)據(jù)量不斷提升,基于Spark MapReduce 的并行計(jì)算優(yōu)勢(shì)不斷顯現(xiàn),平均計(jì)算時(shí)間不斷降低.仿真實(shí)驗(yàn)驗(yàn)證了該模型更適合海量電網(wǎng)多源異構(gòu)數(shù)據(jù)的檢索,充分說明了基于互信息決策樹的分類方法的適用性,并行計(jì)算的可行性和交互計(jì)算時(shí)間的迅速性.

表4 多源海量數(shù)據(jù)仿真時(shí)間對(duì)比

5 結(jié)論

如何有效利用電力系統(tǒng)中的海量多源異構(gòu)數(shù)據(jù)來幫助運(yùn)行人員輔助分析決策是一個(gè)難題,目前只能通過單一數(shù)據(jù)庫進(jìn)行判斷,可能造成信息不完整.針對(duì)不同數(shù)據(jù)庫之間存在信息冗余、數(shù)據(jù)結(jié)構(gòu)不同、數(shù)據(jù)處理量大、難以迅速提取等問題.本文得到以下結(jié)論:

(1)提出了一種基于改進(jìn)決策樹的信息檢索算法,通過互信息判斷索引信息量,對(duì)多源數(shù)據(jù)關(guān)鍵詞快速分類檢索.

(2)通過并行計(jì)算處理實(shí)現(xiàn)了多源數(shù)據(jù)庫并行處理,可以有效接納處理實(shí)時(shí)數(shù)據(jù),大大提升計(jì)算效率.

(3)基于本文算法,提出了面向電力系統(tǒng)應(yīng)用的電網(wǎng)輔助決策平系統(tǒng)模型,可以實(shí)現(xiàn)對(duì)當(dāng)前電網(wǎng)快速信息檢索以輔助用戶決策.

(4)本文所提方法在百萬級(jí)數(shù)據(jù)量的仿真系統(tǒng)中得到了驗(yàn)證,在大數(shù)據(jù)量的系統(tǒng)仍可保持較高計(jì)算速度.

猜你喜歡
數(shù)據(jù)挖掘分類數(shù)據(jù)庫
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
主站蜘蛛池模板: hezyo加勒比一区二区三区| 国产剧情伊人| 无码在线激情片| 真实国产乱子伦高清| 国产区精品高清在线观看| 欧美综合中文字幕久久| 久久午夜夜伦鲁鲁片无码免费| 天天躁狠狠躁| 亚洲国产中文综合专区在| 丁香五月激情图片| 日韩欧美亚洲国产成人综合| 免费看一级毛片波多结衣| 人妻无码AⅤ中文字| 99久久精品国产自免费| 亚洲欧美一级一级a| 亚洲va在线∨a天堂va欧美va| 欧美精品导航| 久久亚洲国产一区二区| 国产在线自在拍91精品黑人| 欧美国产日韩一区二区三区精品影视 | 九九视频免费在线观看| 亚洲国产日韩欧美在线| 99在线视频免费| 日本精品影院| 女同久久精品国产99国| 亚洲精品免费网站| 色综合天天娱乐综合网| 午夜人性色福利无码视频在线观看| 欧美一级夜夜爽| 一本久道久久综合多人| 人妻夜夜爽天天爽| 国产成人91精品| 在线播放精品一区二区啪视频| 毛片大全免费观看| 99热这里只有成人精品国产| 国产亚洲精久久久久久久91| 国产精品入口麻豆| 黄网站欧美内射| 日韩精品一区二区三区中文无码| 99久久精品免费看国产免费软件| 日韩亚洲高清一区二区| 国产va视频| 国产精品 欧美激情 在线播放| 亚洲欧美一级一级a| 777国产精品永久免费观看| 99成人在线观看| 国产激情国语对白普通话| 久久精品免费国产大片| 无码AV日韩一二三区| 国产一级α片| 中文字幕人成人乱码亚洲电影| 亚洲成人一区二区| 2020最新国产精品视频| 亚洲精品视频免费| 国产H片无码不卡在线视频| 国产麻豆永久视频| 午夜精品影院| 免费99精品国产自在现线| 久久国产av麻豆| 亚洲高清在线播放| 99ri国产在线| 毛片免费视频| 国产精品私拍在线爆乳| 国产精品福利一区二区久久| 欧美日韩综合网| 精品久久人人爽人人玩人人妻| 熟女成人国产精品视频| 亚洲欧美不卡| 99久久精彩视频| 精品丝袜美腿国产一区| 欧美精品在线免费| 国产福利小视频高清在线观看| 国产精品成人一区二区| 狠狠亚洲五月天| 国产swag在线观看| 国产精品香蕉| 日韩AV无码免费一二三区| 国产人成午夜免费看| 亚洲AV电影不卡在线观看| 免费人成网站在线高清| 激情综合激情| 欧洲日本亚洲中文字幕|