999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類分析優化算法的數據快速挖掘與智能篩選

2024-05-08 00:00:00陳子健
粘接 2024年1期
關鍵詞:數據挖掘

摘 要:為進一步提高數據挖掘算法的處理速度和計算精確度,提出一種基于電力信息數據聚類分析的數據挖掘算法設計。該算法依據聚類分析原理,采用基于密度的聚類方法和相異度矩陣對數據和數據類型進行篩選和相異度計算,并基于聚類分析框架設計數據挖掘算法流程。在數據挖掘算法基本策略下對輸入的數據采用SLIO算法處理離散字段,輸出需要的數據結果。仿真結果表明,相比其他配網自動化系統數據挖掘算法,所設計算法在數據挖掘速度和準確度上均體現出較好的優勢,具有良好的可信度。

關鍵詞:聚類分析法;相異度矩陣;數據挖掘;算法設計

中圖分類號:

TP311.13

文獻標志碼:

A文章編號:

1001-5922(2024)01-0189-04

Data fast mining and intelligent screening based on clustering analysis optimization algorithm

CHEN Zijian

(Foshan Power Supply Bureau of Guangdong Power Grid Co.,Ltd.,Foshan 528000,Guangdong Chian)

Abstract:In order to further improve the processing speed and calculation accuracy of data mining algorithm,a data mining algorithm design based on power information data clustering analysis was proposed.Based on the principle of clustering analysis,the algorithm used density-based clustering method and dissimilarity matrix to filter and calculate the dissimilarity of data and data types,and designed the data mining algorithm process based on the framework of clustering analysis.Under the basic strategy of data mining algorithm,the input data was processed by SLIO algorithm to deal with discrete fields,and the required data results were output.The simulation results showed that compared with other data mining algorithms of distribution network automation system,the designed algorithm had better advantages in data mining speed and accuracy,and had good credibility.

Key words:cluster analysis;dissimilarity matrix;data mining;algorithm design

大量的關聯大量電力用戶信息與用電行為業務數據,需要通過對數據進行有效的聚類和分類分析,可以提取有價值的用戶群體和用戶用電特征,為后續的電銷策略提供支持。按數據來源劃分,用電系統數據主要包括終端數據的實時采集和調度中心的中央數據匯總,該數據具有狀態多樣化、變量類型復雜的特點,不利于統計分析。而采用聚類分析法可對其進行簡約化處理[1-3],針對在不同運行狀態下用電系統的數據挖掘和分析,提取有效數據及其之間的關聯性,作為系統隱患檢測的數據參考。因此,研究文章通過對聚類分析的數據篩選和數據類型的相異度計算,設計一種基于聚類分析的數據挖掘優化算法。

1 基于聚類分析的數據智能篩選

常用的聚類方法主要包括基于模型的聚類方法、基于網格的聚類方法和基于密度的聚類方法。基于密度聚類方法的原理是根據各數據點之間的密度相對情況進行聚類,通過設定核心點與密度參數的方式,對核心店鄰域范圍內的數據點進行迭代查找,連接所有密度可達的核心點完成全部數據的聚類。將基于密度的聚類方法應用于電銷數據的挖掘,可以提高挖掘的精度。

設計在電銷聚類分析的數據挖掘算法中采用基于密度的聚類方法篩選數據[4-5]:設低密度區域為nd,用以分割聚類空間中的數據類;分割后的數據類高密度區域設為ng,其屬性值為p。nd和ng表達式如下:

nd=(v-b1)nr,ng=(v-a1)nr(1)

式中:v為所屬空間數目;b1為低密度對象子區域數目;nr為當前節點屬性的值域;a1為高密度對象子區域數目。

結合式(1),對聚類分析數據進行篩選,可表示為:

ni=p(nd+ng)×i(2)

式中:p為分割得到的子區域數目;i為屬性值的樣本密度,也就是聚類分析數據篩選的數據對象,即篩選出屬性值中出現頻率最高(樣本密度也最高)的樣本密度。

2 基于聚類分析數據類型的相異度計算

依據聚類分析原理對用電數據對象進行聚類,并通過數據結構和相異度矩陣獲得數據間的相異度;數據相異度矩陣如下:

x11,…,x1f,…,x1pxi1,…,xif,…,xipxn1,…,xnf,…,xnp

聚類分析數據相異度矩陣用來存放n個數據對象兩兩之間形成的差異[6]。

式中:n表示數據矩陣對象,其間的差異值用i和f表示;p表示屬性。當差異值取正數時,f和i越接近于0,屬性值p越大,則表示f和i不相似;否則,若f和i的取值小于0,p數值就會越小,說明f和i的相似程度較高。

在上述矩陣基礎上采用聚類算法計算數據類型相異度[7],即將變量值度量化并進行標準化處理,如式(3):

sf=1ni(|x1f-mf|+|x2f-mf|)(3)

式中:sf表示變量值的絕對偏差值;mf表示f的絕對平均值。

基于式(3)計算數據類型相異度,如式(4):

d(i,j)=|xi1-xji|2+|xif-xj2|2(4)

式中:d(i,j)是對象i和對象j之間相異性的量化表示,且該相異性值通常是一個非負的數值,當對象i和j越相似時,相異性值就越接近于0;反之,值越大,且d(i,j)= d(j,i),d(i,j)=0。基于電力營銷聚類分析的數據類型相異性計算如式(5):

W=d(i,j)×kl(5)

式中:kl為聚類分析數據量。到此為止,完成了聚類分析數據類型相異度計算,接下來需要設計聚類分析數據挖掘算法的流程。

3 基于聚類分析的數據快速挖掘

聚類分析數據挖掘算法是大數據和數據挖掘最常用的經典算法之一,也是數據挖掘的關鍵技術。通過聚類分析算法可將物理或抽象對象的集合按照相似性進行分組,然后在相似的基礎上,根據數據類型相異度挖掘出數據蘊含的潛在信息并進行數據分類。其算法流程如圖1所示。

基于聚類分析數據挖掘算法流程完成聚類分析的框架設計,如圖2所示。

對輸入的樣本向量定義為(v1,v2,…,vi,c),該向量由字段值vi和類型c組成,對應的數據記錄結構也是類型標簽+數值的訓練集。其中,該標簽也可作為輸入的經驗數據[12]。完成分類后,可引入決策樹算法進行數據挖掘,預測準確度:首先,從數據中獲取知識;然后,利用生成的決策樹分類輸入數據。對數據屬性值進行依次測試并記錄,直到找到記錄所在的類,挖掘出數據蘊含的潛在信息[13]。

數據挖掘算法的基本策略設計如圖3所示。

基于SLIO算法的修剪樹表達式:

COST(M,D)=COST(DM)+BCOST(M)(6)

式中:COST(DM)為編碼成本;BCOST(M)為所有的分類錯誤數。

通過式(6)構建的修剪樹對數據進行修剪處理后,計算電力數據中聚類挖掘的決策中心概率值:

xk+1=COST(M,D)·sinaxk+x-(7)

式中:a表示決策中心調度參數;xk表示動態慣性權重;x-表示有效信息類別。

根據中心概率的計算,挖掘出數據中的有效信息:

x″i=xi‖xi‖+xk+1 (8)

上述過程從理論層面對挖掘算法進行了研究,接下來設計仿真實驗對算法的性能進行驗證。

4 算法實例

設計仿真實驗,通過算法實例對基于聚類分析的數據挖掘算法進行可行性和有效性驗證。電力業務場景較為豐富,互聯網背景下的業務場景主要包括運營調控平臺、互動網站、業務支撐平臺以及AI能力平臺,電力業務場景結構如圖4所示。

電力業務數據的特點主要包括:數據體量大、數據類型多、價值密度低以及處理速度快的特點。實例中所用到的數據來自數據挖掘網站,不同類型的電力業務數據量如表1所示。

樣本數據中的關鍵數據主要為聚類數目和權重指數,其中,聚類數目用于與聚類樣本的總數量比較,用以判斷數據挖掘是否有意義。即,當聚類數目大于聚類樣本的總數量時,數據挖掘才有意義。權重指數用來體現數據挖掘算法效果,指數越小,說明算法對數據挖掘效果越好;指數越大,說明數據挖掘效果越差。基于數據有意義挖掘需求,給出電力業務聚類數據相應的值,包括聚類數(JLN)、類間距(LJJ)、類內距(LNJ)和準則(ZZ),如表2所示。

算法實現過程分為6步:(1)根據問題定義,完成數據中的空值填補和一致性優化,做好數據準備;(2)創建數據倉庫用以將多個數據源集合起來,形成目標數據并存放在數據庫,作為下一步的數據應用準備;(3)為提高挖掘效率,將數值轉換為數據集壓縮形式;(4)根據實際需求,制定數據任務并使用SLIO算法挖掘數據;(5)通過與需求標準對比,篩選相關模式和有價值的信息;(6)基于決策樹對最終數據進行轉化,以便于理解的語言描述或展開形式呈現給用戶。到此,完成基于聚類分析的數據挖掘算法過程。

分別使用設計算法和文獻[3]提出的基于支持度-置信度-提升度的配網自動化系統數據挖掘算法、基于神經網絡的數據挖掘算法,重復實驗10次,得出實驗結果進行對比,如表3所示。

由表3可知,3種算法中只有所設計算法的挖掘速度更快,計算時間全都在1.0 s以內;基于支持度-置信度-提升度的配網自動化系統數據挖掘算法和基于神經網絡的數據挖掘算法所用時間基本上為1.35 s~1.84 s,挖掘速度相對較慢。因此,在數據挖掘效率上,所設計算法具有良好的可行性。

對本文算法與其他2種算法進行數據挖掘精確度測試以驗證本文算法的應用效果,計算公式:

A=1m∑(w-w′)×100%(9)

式中:m為參與挖掘的項目數量;w為算法的實際挖掘數量;w′為預測挖掘數量。利用式(9)對上述3種數據挖掘算法的精準度進行計算并對比,結果如圖5所示。

由圖5可知,基于聚類分析的數據挖掘算法在引入決策樹算法后,其計算精準度要遠高于其他2種算法。隨著數據挖掘數量的增加,所設計算法的精準度也越來越高,接近93%左右,其他2種算法的最高精準度均在85%以下。

5 結語

聚類分析在電力行業數據挖掘中的應用,可通過制定合理的決策幫助提升電力企業的市場競爭力。而傳統的電力業務聚類算法挖掘速度慢,精準度低,因此設計提出的基于聚類分析優化算法的數據快速挖掘算法,通過對數據挖掘結果進行合理的分析,可有效提升聚類數據類型的聚類性。結合算法流程設計中所用到的基本策略,可快速、精準地完成目標數據的提取。設計的數據挖掘算法創新點主要體現在兩方面,一是依據聚類分析原理,實現對電力業務系統數據的篩選。二是通過求取聚類數據距離完成對數據對象的聚類分析,計算各個數據對象之間距離的相異度。通過相關實驗測試,設計的算法在挖掘速度上基本在1.0 s以內,比其他算法提速了40%左右;在數據挖掘精確度上也平均高出了20%~40%。由此證明了基于聚類分析優化算法的數據挖掘算法具有很好的可行性和有效性。通過實驗證明了所設計算法可以對多特征類型的電力業務數據進行有效地聚類,為電決策提供有力的數據支持,因此該算法具有較高的實際應用價值。

【參考文獻】

[1] 許統德,趙志俊,高俊文.多層級聯式少數類聚類高精度數據挖掘算法[J].控制工程,2018,25(5):829-834.

[2] 黃博韜,朱邦賢.基于復雜系統論的中藥藥對數據挖掘研究進展[J].中華中醫藥雜志,2018,33(6):2485-2487.

[3] 張磐,丁泠允,姜寧,等.基于支持度-置信度-提升度的配網自動化系統數據挖掘算法及應用[J].電測與儀表,2019,56(10):62-68.

[4] JU F X,ZHONG T G.Research on data mining algorithm based on neural network and particles warm optimization[J].Journal of Intelligent amp; Fuzzy Systems,2018,35(3):2921-2926.

[5] 文靜,曹妍,張琳,等.基于雙重遺傳的聚類分析算法研究[J].計算機工程與科學,2017,39(12):2320-2325.

[6] 李君衛,湯亞芳,郝正航,等.聚類分析及其在電力系統中的應用綜述[J].現代電力,2019,36(3):1-10.

[7] 李天華,袁永博,張明媛.基于可變模糊聚類的地震作用下電網節點脆弱性分析[J].科學技術與工程,2018,18(18):126-130.

[8] 林君豪,張焰,祝錦舟,等.基于宏微觀特征分層聚類的配電網拓撲相似性分析方法[J].電力系統自動化,2019,43(13):84-97.

[9] 趙書強,張婷婷,李志偉,等.基于數值特性聚類的日前光伏出力預測誤差分布模型[J].電力系統自動化,2019,43(13):36-48.

[10] 張江林,張亞超,洪居華,等.基于離散小波變換和模糊K-modes的負荷聚類算法[J].電力自動化設備,2019,39(2):100-106.

[11] 劉炳含,付忠廣,王永智,等.基于并行計算的大數據挖掘技術及其在電站鍋爐性能優化中的應用[J].動力工程學報,2018,38(6):431-439.

[12] 郝艷妮,吳素萍,田維麗.數據挖掘算法在葡萄酒信息數據分析系統中的研究[J].計算機科學,2017,44(S1):491-494.

[13] 顏磊,祁冰.基于Android平臺的移動學習系統大數據挖掘技術研究[J].現代電子技術,2017,40(19):142-144.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 成人午夜视频网站| 亚洲无线国产观看| 日本日韩欧美| 色色中文字幕| 欧美一级高清视频在线播放| 国产亚洲美日韩AV中文字幕无码成人| 69免费在线视频| 国产精品色婷婷在线观看| 亚洲精品福利网站| 国产精品黄色片| 欧美a在线视频| 国产成人免费| 国产精品午夜福利麻豆| 欧美精品成人| 一本无码在线观看| 午夜免费小视频| 日本久久免费| 亚洲美女高潮久久久久久久| 亚洲看片网| 无码久看视频| 丁香婷婷在线视频| 最新国产你懂的在线网址| 谁有在线观看日韩亚洲最新视频| 国产欧美在线观看精品一区污| 成人免费一级片| 欧洲极品无码一区二区三区| 国产一区二区精品高清在线观看| 国产精品久久自在自线观看| www欧美在线观看| 欧美日韩理论| 日韩精品久久久久久久电影蜜臀| 成人福利在线看| 免费国产黄线在线观看| 国产亚洲美日韩AV中文字幕无码成人| 欧美中文字幕在线二区| 国内老司机精品视频在线播出| 亚洲青涩在线| 国产在线观看第二页| P尤物久久99国产综合精品| 92精品国产自产在线观看| 五月婷婷亚洲综合| 国产香蕉97碰碰视频VA碰碰看 | 国产91特黄特色A级毛片| 国产在线精品美女观看| 日本不卡视频在线| 99免费视频观看| 国产青榴视频在线观看网站| 四虎永久免费网站| 狠狠ⅴ日韩v欧美v天堂| 在线观看亚洲人成网站| 国产高清国内精品福利| 国产精品无码一二三视频| 四虎成人免费毛片| 亚洲婷婷在线视频| 久久不卡精品| 亚洲视频四区| 天天色天天综合| 欧美在线一二区| 国产亚洲欧美在线视频| 91人人妻人人做人人爽男同 | 亚洲免费黄色网| 2019年国产精品自拍不卡| 在线播放国产一区| 99精品伊人久久久大香线蕉| 国产成人乱无码视频| 凹凸精品免费精品视频| 亚洲av成人无码网站在线观看| 凹凸精品免费精品视频| 精品国产美女福到在线直播| 鲁鲁鲁爽爽爽在线视频观看| 又猛又黄又爽无遮挡的视频网站| 亚洲 成人国产| 成人一级免费视频| 亚洲v日韩v欧美在线观看| 国产激爽大片在线播放| 99精品免费欧美成人小视频| 国产成人91精品| 在线人成精品免费视频| 国产另类视频| 沈阳少妇高潮在线| 国产区成人精品视频| 91欧美在线|