999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類分析的離群檢測方法在電網數據質量管理中的應用研究

2016-04-12 00:00:00嚴宇平蕭展輝
現代電子技術 2016年15期

摘 要: 隨著各種技術在電力企業信息系統數據質量檢測中的應用,企業數據質量得到大幅度提升。然而,當前的數據質量檢測方法一般只是針對數據缺失、亂碼、特殊字符等淺表的顯性數據質量問題提出了解決方案,對于沒有明顯業務規則、隱性的數據質量問題仍然缺少有效的技術檢測手段。以廣東電網公司生產設備臺帳數據質量檢測為例,提出了基于聚類分析的數據異常值樣本離群檢測技術,探索該技術在數據質量提升中的典型應用方法,為不斷完善數據質量檢測規則提供了技術支撐。

關鍵詞: 數據質量; 聚類分析; 離群檢測; 設備臺帳; 異常值

中圖分類號: TN915?34 文獻標識碼: A 文章編號: 1004?373X(2016)15?0137?03

Abstract: With the application of various techniques in information system data quality detection of power enterprise, the enterprise data quality is improved shapely. The current data quality detection methods only can provide the solutions for the obvious data quality problems, such as data missing, messy code, special character, and lack the effective technical detection means for the unobvious business rules and recessive data quality problems. In this paper, the production equipment account data quality detection of Guangdong Power Grid Corporation is taken as an example, and the sample outlier detection technology of data abnormal value based on cluster analysis is proposed. The typical application method of this technology in data quality promotion is explored to provide the technical support for the constant improvement of data quality detection rules.

Keywords: data quality; cluster analysis; outlier detection; equipment account; abnormal value

0 引 言

近年來,隨著信息化建設進程的加快和信息系統的長期運行,廣東電網公司積累了大量在線數據,為業務指導和經營決策奠定了基礎。為了提升信息系統數據質量,加速信息系統的實用化,廣東電網公司建立了數據質量檢測平臺,平臺運行后,數據質量的檢測效率、檢測覆蓋面和準確率都得到大幅提升[1]。然而,當前的數據質量檢測方法一般只是針對數據缺失、亂碼、特殊字符等淺表的顯性數據質量問題提出了解決方案,對于沒有明顯業務規則、隱性的數據質量問題仍然缺少有效的技術檢測手段。如對于涉及復雜場景的潛在數據質量問題,如線路長度、設備電流值、缺陷類別等,校驗規則比較寬泛,大多數情況只考慮單個字段,缺少對指標間關聯規則的考慮,造成數據質量問題挖掘不全面、不到位。

基于聚類分析的離群檢測數據挖掘方法能夠根據數據支撐的業務目標,對海量數據進行快速、高效、準確的提取,有效挖掘出隱藏的離群數據點,分析其背后的原因,結合實際業務規則判定是否為壞數據,有針對性的進行處理,進而提高數據質量水平。本文將基于該方法在數據質量檢測中的應用展開研究。

1 基于聚類分析的離群檢測關鍵技術研究

離群點檢測是數據挖掘技術的重要研究領域之一,用來發現數據明顯偏離于其他數據,不滿足數據的一般行為或模式的數據。離群點的挖掘方法很多,可分為基于統計的、基于深度的、基于聚類的、基于距離的和基于密度的分析方法[2?3]。本文主要研究基于聚類分析的離群檢測方法。

聚類的思想主要是利用數據點和聚簇間的相互關系,通過把數據集分為多個不同的簇,使得聚簇內的數據點相似度最高,而不同聚簇間的差異度最大。主要算法[4?5]包括CLIQUE,CLARAN,K?means,FindCBLOF等。

根據數據點和聚簇的關系,可分為是否屬于聚簇、遠離聚簇、屬于稀疏或較小的聚簇,基于聚類的離群檢測包括以下三種思路[4]:

(1) 正常數據屬于某個類簇,而離群數據不屬于任何一個類簇。這類聚類方法不同之處在于,其不強制每個數據對象歸為一個類簇。典型算法是CLARANS。

(2) 正常數據與離其較近的類簇中心距離較近,而離群數據遠離與其最近的類簇中心。基于這種假設的離群檢測方法通常包括兩個階段:第一階段采用聚類算法對數據進行聚類;第二階段針對每個數據對象,計算每個對象到其最近的類簇中心的距離,并將這個距離作為離群度量。典型算法為K?means。

(3) 正常數據屬于較大且較密的類簇,而離群數據位于較小和較為稀疏的類簇。該方法首先給出一個關于類簇大小和密度的閾值,小于此閾值的類簇整體都被認為是離群數據。典型算法是FindCBLOF。

針對廣東電網公司的數據現狀,選取K?means聚類算法作為離群點檢測的主要算法。

1.1 K?means聚類算法原理

K?means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離相近的對象組成,因此把得到緊湊且獨立的簇作為最終目標。

1.2 K?means聚類算法特點

K?means聚類算法快速、簡單;對大數據集有較高的效率并且是可伸縮的;時間復雜度近似于線性,而且適合挖掘大規模數據集。

1.3 K?means聚類算法規則

2 基于聚類分析的離群點檢測方法在數據質量

檢測中的典型應用

通過對數據的初步探索可知,斷路器重量的數值在數據錄入過程中容易被忽視,部分數據存在錄入不準確的問題,由于斷路器的重量沒有明確的技術規范來確定數值范圍,基本的統計分析方法難以較好地定位異常值。同時絕大部分重量的錄入值是正確的,異常數據屬于少數,符合利用基于聚類分析的離群點檢測方法進行數據質量問題的檢測。利用聚類的方法可自動識別相似性較高的數據,自動按相似性分割為不同的簇,樣本數較少的簇往往存在數據質量問題。因此,選取斷路器相關數據質量檢測作為基于聚類分析的離群點檢測方法的典型應用場景。主要應用步驟包含:確定數據源、進行數據探索、確定建模數據、進行聚類分析、識別異常數據。

算法執行過程中,初步設定聚類數為20,通過聚類指標和觀測實際評估聚類效果,重復設定合理的聚類數,不斷優化聚類模型。根據聚類的相關指標評估原理,若偽[F]統計量較大而分類數較少,且[R]方不再大幅度增加,則可表明聚類效果良好,并且通過進一步查看原觀測分群情況,把數據集分為15類較為合理,加上剔除的缺失值,共16類。分析相關指標如表1所示。

建模結束后,尚需對斷路器重量數據進行業務特征刻畫,從而反映不同電壓等級的斷路器重量的特征差別。目前廣東電網數據質量管理系統未設定規則對主網斷路器重量字段進行數據質量檢測,由聚類結果可知,主網斷路器重量的聚類結果與電壓等級具有較強相關性。進一步分析正常數據各電壓等級的重量范圍,500 kV及以上斷路器重量可考慮設定為2 000~13 000 kg;220~252 kV斷路器重量可考慮設定為500~8 000 kg;35~145 kV斷路器重量可考慮設定為200~6 000 kg。針對各電壓等級下斷路器的重量,建議進行數據質量問題檢測的規則如表3所示。

選取主網斷路器的重量字段9 190條非缺失且電壓等級在合理范圍內的數據作為模型驗證集,應用上述案例聚類模型形成的規則進行數據質量檢測,可以發現1 032條存在潛在問題的記錄,模型實際檢測效果良好,能夠有效地發現主網斷路器重量字段的數據質量問題。為了進一步提升檢測有效性,需進行實地調研和專家訪談,對檢測規則進行評估,進一步細化和補充模型檢測規則。

3 結 語

本文針對廣東電網公司數據質量檢測中存在的問題,通過對基于聚類分析的離群檢測方法關鍵技術進行研究,以斷路器重量等相關數據質量檢測為典型應用場景,建立了該方法的應用解決方案,并提出了數據檢測規則固化的建議。對于那些沒有明確技術規范來確定數據取值范圍的連續數值類字段,可結合實際業務場景,采用聚類方法發現潛在數據質量問題,如設備的重量、線路長度、桿塔數量等。經應用校驗表明基于聚類分析離群檢測數據挖掘方法在數據質量檢測方面的應用效果顯著。有效提升了廣東電網公司數據質量和信息系統實用化水平。

參考文獻

[1] 楊浩,徐暉,蕭展輝,等.廣東電網公司生產管理信息系統實用化評價研究[J].廣東電力,2010,23(4):29?34.

[2] 薛安榮,姚林,鞠時光,等.離群點挖掘算法綜述[J].計算機科學,2008,35(11):13?18.

[3] RAMASWAMY S, RASTOGI R, SHIM K. Efficient algorithms for mining outliers from large data sets [J]. ACM SIGMOD record, 2000, 29(2): 427?438.

[4] 雷大江.離群檢測與離群釋義算法研究[D].重慶:重慶大學,2012.

[5] SMITH R, BIVENS A, EMBRECHTS M, et al. Clustering approaches for anomaly based intrusion detection [J]. Proceedings of intelligent engineering systems through artificial neural networks, 2002, 12: 579?584.

[6] 范明,范宏建.數據挖掘導論[M].北京:人民郵電出版社,2012.

[7] HAN J, KAMBER M, PEI J. Data mining: concepts and techniques [M]. San Francisco: Morgan Kaufmann, 2006.

主站蜘蛛池模板: 色婷婷狠狠干| 亚洲乱码视频| 大学生久久香蕉国产线观看| 久久婷婷六月| 欧美精品aⅴ在线视频| 一级看片免费视频| 久久久久亚洲AV成人网站软件| 视频在线观看一区二区| 99视频有精品视频免费观看| 美女视频黄又黄又免费高清| 久草视频中文| 美女一区二区在线观看| 国产成人高清在线精品| 无码久看视频| 久久超级碰| 亚洲国产清纯| 91亚瑟视频| 伊人色在线视频| 欧美第二区| 亚洲AV无码一区二区三区牲色| 免费在线播放毛片| 一区二区午夜| 三上悠亚在线精品二区| 中国特黄美女一级视频| 婷婷亚洲视频| 四虎永久在线精品影院| 国产丝袜第一页| 人人澡人人爽欧美一区| 午夜爽爽视频| 性欧美久久| 欧美视频二区| 国产爽妇精品| 国产女同自拍视频| 亚洲国产中文综合专区在| 天天摸夜夜操| 久久视精品| 中文字幕自拍偷拍| 精品少妇人妻av无码久久| 国产免费久久精品44| 欧美一级特黄aaaaaa在线看片| 亚洲一级无毛片无码在线免费视频 | 999国内精品视频免费| 国产精品蜜臀| 免费一看一级毛片| 成人午夜亚洲影视在线观看| 伊人丁香五月天久久综合| 午夜影院a级片| 久久综合结合久久狠狠狠97色| 日韩av电影一区二区三区四区| 国产精品永久免费嫩草研究院| 亚洲v日韩v欧美在线观看| 四虎国产精品永久一区| 国产在线91在线电影| 综合社区亚洲熟妇p| 国产精品区视频中文字幕 | 久久无码免费束人妻| 久久久四虎成人永久免费网站| 毛片网站免费在线观看| 亚洲精选高清无码| 国产成人福利在线视老湿机| 精品国产一区91在线| 亚洲国产欧美国产综合久久 | 亚洲国产精品无码久久一线| 婷婷综合缴情亚洲五月伊| 日韩欧美中文字幕在线精品| 国产精品嫩草影院av| 26uuu国产精品视频| 91美女视频在线| 伊人天堂网| 欧美成人精品欧美一级乱黄| 人妖无码第一页| 国产乱视频网站| 成人在线综合| 国产午夜不卡| 日韩中文无码av超清| 九九视频免费在线观看| 午夜影院a级片| 亚洲性一区| 久久永久视频| 精品三级网站| 国产精品福利导航| 伊人久久大香线蕉aⅴ色|