999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

風電機組數據采集與監控系統異常數據識別方法

2024-04-25 00:00:00李特王榮喜高建民
西安交通大學學報 2024年3期
關鍵詞:風速

摘要:為了解決原始的風電機組數據采集與監控系統(SCADA)中包含大量異常記錄的數據、難以準確反映機組運行狀態的問題,提出了一種帶噪聲基于密度的空間聚類(DBSCAN)模型的風電機組SCADA異常數據識別方法。該方法從分析風速-功率曲線的特點出發,采用預測誤差和分類準確度來選取關鍵聚類參數鄰域半徑和鄰域最小樣本點數,避免了人工確定聚類參數的主觀性,且參數選擇過程可以完全自動化,實現了風電機組SCADA異常數據的有效識別。通過某風場中風電機組的監測數據進行實例驗證,結果表明:所提方法能夠在保證異常數據被剔除的前提下,保留盡可能多的正常數據,異常識別效果好于現有的k-dist圖法和基于k-平均最近鄰算法的改進算法(KANN-DBSCAN)。該研究可為開展風電機組狀態分析提供參考。

關鍵詞:風電機組;異常數據識別;空間聚類;風速-功率曲線

中圖分類號:TH17 文獻標志碼:A

DOI:10.7652/xjtuxb202403010 文章編號:0253-987X(2024)03-0106-11

A Method for Abnormal Data Recognition of Wind Turbine Supervisory Control and Data Acquisition Systems

Abstract:To address the issue that wind turbines’ supervisory control and data acquisition (SCADA) system contains a significant amount of data about abnormal records, which affects the accurate representation of the turbines’ operational status, a method for identifying abnormal data based on density-based spatial clustering of applications with noise (DBSCAN) is proposed. Based on the characteristics of the wind speed-power scatter curve, this method involves the use of prediction errors and classification accuracy to select the key clustering parameters: neighborhood radius and minimum number of sample points in the neighborhood. It avoids the subjectivity of manually determining the clustering parameters, allowing for a fully automated parameter selection process. As a result, it achieves effective identification of abnormal data in a wind turbine’s SCADA system. The proposed method is validated using monitoring data from wind turbines in a specific wind farm. The results demonstrate that the method helps to retain as much normal data as possible while ensuring the removal of abnormal data. It also shows superior anomaly identification performance compared to k-distance graph and KANN-DBSCAN, an improved algorithm based on k-nearest neighbors. This study provides valuable insights for the status analysis of wind turbines.

Keywords:wind turbine; abnormal detection; spatial clustering; wind speed-power curve

由于全球氣候問題和能源需求的增長,全球在清潔能源領域的投資都在逐漸增加。風力發電是當前可再生能源領域技術最成熟、增長速度最快、商業化發展最好的發電方式之一,其大規模發展對能源結構的調整、應對能源需求增長和環境挑戰、實施可持續低碳能源戰略具有重要的意義。受風力資源分布限制,風電機組通常建在偏遠山區或者海上[1],工作環境惡劣,長期面臨冰凍、臺風、潮濕或鹽霧腐蝕等問題,機組發生故障的概率顯著增加,提高了機組的運維成本[2-3]。

實時監測風電機組的運行狀態,可以在機組狀態發生異常時甚至在發生異常之前及時地采取針對性的措施,對降低機組的運維成本具有重要意義。數據采集與監控系統(supervisory control and data acquisition,SCADA)記錄和存儲了大量風電機組的監測數據,蘊含了豐富的狀態信息。因此,國內外諸多的研究者都基于SCADA數據來對風電機組的狀態監測展開研究[4-7]。

由于傳感器故障、存儲出錯和通訊干擾等原因[8], SCADA記錄的數據中錯誤地記錄了一些監測數據,這些數據也被稱為異常數據。異常數據并非風電機組運行時的真實記錄,因此,原始的SCADA數據難以準確反映風電機組的運行狀態。采取有效的措施來對風電機組原始SCADA數據中的異常值進行識別并剔除,是后續進行狀態監測或狀態分析等研究工作的基礎。

目前,風電機組SCADA數據異常值識別的相關研究通常以風速-功率曲線為依據,大致可以分為基于統計量的方法、基于圖像處理的方法和基于聚類分析的方法[9]。常見的基于統計量的方法有3σ法[10]和四分位法[11],這些方法的基本思路為計算原始數據的相關統計量,然后將統計量范圍以外的數據視為異常數據。雖然基于統計量的方法操作簡單,但其有兩個明顯的缺陷,一方面,這類方法受原始數據質量的影響很大,當數據中異常值的比例較高時,這些方法的表現較差;另一方面,單一的統計量方法難以處理多種不同類型的異常值,通常需要與其他方法組合[12-14]才能達到較好的效果。基于圖像處理的方法[15-16]通常將風速-功率曲線轉換為二值圖像,然后利用圖像分割等技術來進行異常值的識別,這類方法通常能夠有效識別出堆積型的異常數據,但是識別速度很慢,并且難以實現[9]。基于聚類分析的方法將異常識別視為無監督聚類問題,基于樣本之間的距離[17]或簇密度[18-20]來將正常數據和異常數據聚類為不同的類別。這類方法相較于基于圖像處理的方法更加簡單易行,對原始數據中異常數據的比例不敏感,受到了研究者的廣泛關注。

帶噪聲基于密度的空間聚類(density based spatial clustering of applications with noise,DBSCAN)[21]是一種經典的基于密度的聚類方法,它并不需要事先確定聚類的簇數,聚類速度快,能發現任意形狀的空間聚類并且可以有效處理噪聲點,對于將SCADA中正常數據與異常數據分離開的任務來說尤為適用。然而,鄰域半徑ε和鄰域內最小樣本數np這兩個參數的選擇對DBSCAN的聚類結果影響非常大。經典的DBSCAN模型通過k-dist圖法來確定參數,基本過程為:首先計算數據集中每個對象與距該對象第k近的對象之間的距離,記作該對象的k-dist值,然后將所有對象的k-dist值按照升序或降序進行排列并繪制k-dist曲線,取k-dist曲線的第一個“拐點”對應的距離作為ε,取k作為np。由于4-dist與其他的k-dist曲線沒有顯著差異,所以一般默認k=4。顯然,k-dist圖法在確定參數時需要過多的人工干預,而且k的選取具有較大的主觀性。

目前,許多研究者針對DBSCAN參數確定問題進行了研究,文獻[22]中提出的SA-DBSCAN使用逆高斯擬合4-dist的分布并求分布曲線的峰值點來確定ε,再通過不同np下噪聲點數與np的關系來近似求解得到最佳的np,但是可能出現無法求得最優解的情況[23]。文獻[24]中提出的I-DBSCAN方法通過聚類數和噪聲點數的下降趨勢來確定ε的取值,在此基礎上計算每個點鄰域內樣本點數的平均值作為np,但是確定ε的過程中依然需要人的干預。文獻[23]中提出的KANN-DBSCAN方法通過計算所有對象在不同k下的k-dist值,并對同一個k下所有結果進行求平均,得到ε列表,然后對每個ε按文獻[24]中的方法確認np,生成np列表,依次取每一對參數組合進行DBSCAN聚類,當聚類簇數趨于不變后再次變化時對應的參數組合為最佳聚類參數,但是其容易受噪聲數據的影響[25]。

綜上所述,現有的改進工作雖然在一定程度上解決了DBSCAN模型參數選擇的問題,但是仍存在如下局限:①大多數改進方法并不是真正做到了參數確定的自動化,過程中仍需人為參與來確定其中一個參數的值;②現有的方法都是針對通用數據提出參數選擇的判定方法,并沒有利用風電機組風速-功率曲線的分布特點。

為此,本文以DBSCAN作為基礎模型,通過分析風電機組風速-功率曲線的分布特點,設計了預測誤差和分類準確度這兩個評價指標來實現全自動化選取其鄰域半徑和最小鄰域樣本數這兩個聚類參數,并以實際生產中的風電機組SCADA數據為例驗證了本文方法的有效性。

1 風電機組SCADA異常數據分類

1.1 理想功率特性曲線

功率特性曲線直觀地描述了風速和發電功率之間的關系,是評價風電機組發電性能的重要指標,也是風電機組SCADA數據是否異常的重要依據。設vin為切入風速,vr為額定風速,vout為切出風速,Pr為額定功率。風電機組的理想功率特性曲線如圖1所示。理論上,當風速很低時,風電機組處于停機狀態;當風速達到切入風速時,風電機組開始輸出功率,且功率隨著風速的增大而增大;當風速達到某一值時,機組的功率達到額定功率,此時的風速即為額定風速;當風速超過額定風速之后,機組的輸出功率不會再繼續增大,而是被限制在額定功率;當風速過大至超過了風電機組的切出風速時,為了機組的安全,風電機組將進入停機保護狀態。功率與風速的關系呈“廠”字型。

1.2 實際功率-風速曲線

在風電機組實際工作過程中,正常的風電機組的風速-功率曲線應該分布在理想功率曲線周圍。然而,由于傳感器故障和通訊干擾等原因,SCADA系統采集到的數據通常包含異常值,這導致實際的風速-功率曲線與理想的功率特性曲線呈現出較大差異。以某風場32號風機為例,其在2021年1月1日—2021年12月31日一整年的風速-功率曲線如圖2所示。

從圖2中可以看出,SCADA系統中記錄的正常數據會較為緊密地分布在功率特性曲線周圍,而異常數據看起來是由與“正常”數據完全不同的機制產生的,與風電機組正常的歷史數據分布特征明顯不符。根據風速-功率曲線的特點,通常可以將風電機組SCADA數據中的異常值分為3類,下面對每種異常值的分布特點和產生原因進行分析。

1.2.1 中部堆積型

第1類異常數據堆積在圖形中部,具體表現為SCADA系統記錄的實時風速接近或大于風電機組的額定風速,但是輸出功率小于額定功率,并且輸出功率波動非常小,幾乎不隨著風速的變化而變化。此類異常數據通常是由“棄風限電”造成的,即由于該地區外部輸電能力限制和電網消納能力不足等原因,工作人員強制使風機處于較低的功率輸出狀態。

1.2.2 底部堆積型

第2類異常數據堆積在圖形底部,具體表現為SCADA系統記錄的實時風速大于風電機組的切入風速,但是沒有功率輸出。此類異常數據通常是由風機操作人員為了檢修而強制使風機進行停機而產生的。此外,傳感器故障和數據存儲出錯也可能導致這類異常數據的產生。

1.2.3 離散分布型

第3類異常數據離散、稀疏和孤立地分布在功率特性曲線兩側,通常是由傳感器發生故障或者在信號傳輸和處理過程中受到噪聲干擾而產生的。

綜上所述,在SCADA系統中存在著多種“離群”的異常數據,每種異常數據產生的原因和表現出的數據特點各不相同,這些含有大量異常值的SCADA數據對準確反映和識別風機狀態帶來了影響,針對異常值的數據特性采取適當的預處理措施十分必要。

2 基于改進DBSCAN的風電機組SCADA異常數據識別

2.1 DBSCAN模型

DBSCAN算法的基本概念如下。

(1)在數據集D中,給定一個對象p,以其為中心,ε為半徑的范圍內的區域稱為對象p的ε鄰域;

(2)若一個對象p的ε-鄰域中至少包含np個樣本點,記作Nε(p)≥np,那么稱p為一個核心對象;

(3)在數據集D中,如果p是一個核心對象,且q為其ε-鄰域內的樣本點,那么稱q是從p密度直達的;

(4)在數據集D中,如果q是從p密度直達的,而r是從q密度直達的,那么稱r是從p密度可達的;

(5)在數據集D中,如果q和r都是從p密度可達的,那么稱q和r是密度相連的。

假設鄰域半徑ε=r,鄰域最小樣本數np=3,如圖3所示。由前文所述可知,對象p2的ε-鄰域內的樣本數大于3,因此該點為核心對象;p1在p2的鄰域內,因此p1從p2密度直達;同理,p5從p1密度直達,因此p5從p2密度可達;同理,p4從p2也密度可達,因此p4和p5是密度相連的。

DBSCAN聚類的基本思想是將所有互相密度相連的數據點歸為一類,其聚類過程如下。

(1)對于給定的數據集D,設定合適的鄰域半徑ε和鄰域最小樣本點數np;

(2)從數據集D中隨機選取一個樣本點,如果該樣本點為核心對象,則找到所有與該點密度相連的樣本點,否則暫時將其標記為噪聲點,噪聲點在后續步驟中仍然可能被考慮到;

(3)重復步驟(2)直到找到一個核心對象,遍歷該核心對象ε-鄰域內所有的核心對象,找到所有與這些核心對象密度相連的樣本點;

(4)在不屬于已確認的任何一類數據的樣本點中,重復步驟(2)和(3),直到沒有新的核心對象為止;

(5)最終不屬于任何一類數據的樣本點被認為是噪聲。

盡管DBSCAN可以不用事先確定聚類的簇數,也可以找出任何形狀的簇群,但是其聚類結果對鄰域半徑ε和最小點數np這兩個參數很敏感。風電機組SCADA異常數據識別任務屬于一個沒有標簽的無監督任務,目前只能通過肉眼觀察來選擇聚類參數,具有很強的主觀性,設計合適的指標和方法來從備選參數中選出最佳參數十分必要。

2.2 DBSCAN最佳聚類參數確定方法

DBSCAN模型對SCADA數據聚類后,正常類別會較為緊密地聚集在理想功率曲線附近,散落在四周的其他類別和噪聲點被劃分為異常類別。為了評估SCADA異常數據識別的有效性,首先需要明確該任務的目標,即保證異常數據被剔除的前提下,保留盡可能多的正常數據。基于此,本文提出預測誤差和分類準確度兩個指標來進行最佳聚類參數的選取。

(1)預測誤差epn。

訓練一個回歸模型,訓練集和測試集均為DBSCAN聚類的正常類別的樣本點,輸入為樣本點的風速,輸出為對應的功率,epn為預測模型的預測誤差。風電機組正常的運行監測數據較為緊密地分布在理想功率曲線周圍,表明正常數據的風速和功率之間存在特定的映射關系。正常類別中的數據越貼近理想功率特性曲線,那么正常類別中的確為正常數據的比例越高,正常類別中樣本的風速-功率映射關系更為“相似”,回歸模型相同的情況下,預測誤差epn就會越小。

(2)分類準確度ac。

訓練一個分類模型,其中輸入為風速和功率,輸出為數據的類別,訓練時假設DBSCAN聚類后的類別(正常或異常)為該數據的“真實”標簽,ac為分類模型的分類準確度。當聚類模型的聚類結果較為準確時,說明數據的“真實”標簽也較為準確,分類模型相同的情況下,分類準確度ac也會比較高。

從備選參數范圍中選取最合適聚類參數的過程如下:先將每個備選參數組合代入DBSCAN模型對原始數據進行聚類,計算出其兩個評價指標值,然后按照epn遞增的順序對各參數組合進行排列,選取ac的第一個極大值點對應的參數組合為最終的聚類參數。

2.3 基于改進DBSCAN的風電機組SCADA異常數據識別流程

本文提出的風電機組SCADA異常數據識別流程如圖4所示。

需要進行基于規則的初步篩選。從理論上來說,當正常監測數據占全部監測數據的比例遠大于異常數據所占比例時,基于DBSCAN聚類的異常識別方法能夠很容易地從數據中發現“正常”的模式,從而剔除異常值。根據前文對異常數據出現原因的分析可知,風電機組監測數據中的各類異常數據占比并不低,特別是底部堆積型,其與正常數據區域相鄰,直接針對所有的監測數據使用異常值檢測方法難以處理這類堆積型數據[6]。因此,篩選出明顯異常的數據從而減小這些數據對后續基于聚類的異常值識別準確性的影響很有必要。本文基于以下規則刪除明顯異常的數據:①風速不大于0;②風電機組的有功功率不大于0;③風電機組的主軸轉速不大于0。

初步篩選之后,進行DBSCAN聚類。為了消除風速和功率的不同量綱帶來的影響,先按照下式對數據進行z-Score正則化

式中:x表示需要被標準化的原始數據;μ表示原始數據的平均值;σ表示原始數據的標準差;z表示標準化后的結果。

將備選參數組合分別代入DBSCAN模型,得到聚類后的結果,按照2.2節中介紹的方法選取最佳聚類參數,從而得到最佳聚類結果。

3 實例驗證

3.1 效果驗證

本小節以前文所述某風場32號風電機組一年左右的監測數據為例來驗證所提出的異常值識別方法的有效性,該監測數據的采樣間隔為10min,共有51101個樣本點,包含環境、工況和狀態參數,但在異常識別中只使用風速和功率兩個變量。

首先,基于基本規則對原始數據進行初步篩選,經過篩選后剩余37519個數據點,篩選結果如圖5所示。從圖5中可以看出,雖然絕大多數底部堆積型異常數據都被剔除,但是仍有部分底部堆積型異常值被保留,同時,中部堆積型和離散分布型兩類異常值完全沒有被識別出來。因此,需要對篩選出來的數據進行進一步的異常值識別。

在初步篩選的基礎上,對剩余的樣本使用改進的DBSCAN方法來進行分析。在本例中,鄰域半徑ε從{0.02,0.04,0.06,0.08,0.10}中選取,最小相鄰點數np從{4,6,8,10,12}中選取,構成共25種參數組合。因為模型性能評估的結果是比較不同參數組合的聚類結果,而不是為了提高模型的性能,并且模型的輸入輸出都比較簡單,因此使用比較簡單的網絡結構是合理的。本文中的分類模型和預測模型統一采用簡單的多層感知機(MLP)網絡結構。

按照圖4中的流程,依次對25種聚類參數組合進行DBSCAN聚類,然后計算兩個評價指標值。下面首先介紹本文中評價指標的計算方法。

(1)預測誤差epn。

預測模型常用的評價指標有均方誤差(mean squared error,MSE)、平均絕對誤差(mean absolute error,MAE)和平均絕對百分比誤差(mean absolute percentage error,MAPE)等,在本文中,定義聚類數據預測誤差epn為回歸模型在測試集上的MSE,其計算公式如下

式中:si表示測試集中第i個樣本的風速;f(si)表示根據第i個樣本的風速預測得到的功率;pi表示測試集中第i個樣本的真實功率;nt表示測試集樣本數。

(2)分類準確度ac。

對于二分類(正常、異常)任務來說,其結果根據分類結果和真實標簽的關系可以分為4類,如表1所示,該表也被稱為混淆矩陣。

在本例的混淆矩陣中,TP表示標簽為“異常”且分類模型也將其分類為“異常”的樣本數;FN表示標簽為“異常”而分類模型將其分類為“正常”的樣本數;FP表示標簽為“正常”而分類模型將其分類為“異常”的樣本數;TN表示標簽為“正常”且分類模型也將其分類為“正常”的樣本數。

顯然,初步篩選后的風電機組SCADA數據中正常數據的樣本數應遠遠多于異常數據的樣本數,即兩類數據存在嚴重的不平衡問題。F1被定義為精準率和召回率的調和平均數,被廣泛用于評估不平衡數據下分類模型的性能,其計算公式如下

F1=2TP/(2TP+FP+FN)(3)

本文中取F1指標作為分類準確度。F1的取值范圍為0到1,其越接近于1,說明分類模型的性能越好,也說明該參數組合下聚類得到的數據標簽更準確。

異常類別占比ra表示該聚類參數下,聚類后異常類別的數據占總數據的比例

式中:na表示某一組聚類參數下使用DBSCAN聚類方法識別出來的異常樣本數;no表示初步篩選后的樣本總數。

不同參數組合的3個評價指標計算結果如表2所示。

預測誤差epn從風速-功率映射關系角度來比較不同的參數組合,該指標最小時的參數組合為:鄰域半徑等于0.02且鄰域最小相鄰點數等于12,但是該參數組合下的異常類別占比ra遠大于其他的參數組合,說明該聚類參數組合下的DBSCAN模型在劃分正常數據時更為“嚴格”,傾向于將更多的樣本點聚類到異常類別中,該參數組合下采用DBSCAN模型對32號風電機組進行異常識別的結果如圖6所示。這個參數組合下的DBSCAN模型將很多實際上是正常的數據也劃分到了異常類別,盡管正常類別中正常數據的占比很高,但是浪費了大量的正常數據,不利于后續狀態分析等相關研究。

從圖7中可以看出,隨著預測誤差開始增大,分類準確度也開始上升,取分類準確度第一個極大值點所對應的參數組合(0.04,8)作為DBSCAN的最佳參數組合。使用該聚類參數組合對32號風電機組進行異常識別的結果如圖8所示,從圖8中可以看出,正常類別數據與圖1所示的理想功率特性曲線趨勢非常相近,同時沒有如圖6中那樣浪費大量的正常數據,說明異常數據識別的效果比較好。

為了說明方法具有一定的通用性,選取同一風場29號風機一年的SCADA監測數據進行驗證,原始數據長度為51 101,采樣間隔為10min。實驗流程和相關設置與前文相同,基于本文提出的改進DBSCAN進行異常識別的結果如圖9所示。從圖9中可以看出,29號風電機組的異常數據更加密集,也更貼近于正常數據,本文提出的方法對于該機組的監測數據仍有較好的異常識別效果。

3.2 對比驗證

為了進一步驗證所提方法的優越性,基于32號風電機組的監測數據,采用k-dist圖法[21]和KANN-DBSCAN法[23]來進行對比實驗。

3.2.1 k-dist圖法

為了保證對比的一致性,對于k-dist圖法,k也從{4,6,8,10,12}中選取,由初步篩選后的SCADA數據得到的k-dist圖如圖10所示。因為樣本量很大,為了清晰地表達k-dist曲線的變化趨勢,圖10中只顯示了降序排列后的前200個值。

從圖10中可以看出,k=4時的變化曲線基本可以反映出k為其他值時曲線的變化趨勢,這與文獻[21]中的結論相符。由于更大的k意味著聚類時需要更高的計算成本[21],因此,選擇k=4時曲線的第一個“拐點”對應的k-dist值作為最優的ε。根據k-dist圖,最終確定聚類參數為ε=0.27、np=4,以該聚類參數對32號電機組進行異常數據識別的結果如圖11所示。

由圖11可知,只有少部分異常數據被識別出來,大部分離散型異常數據和中部堆積型異常數據并沒有被識別出來,識別效果較差,說明基于k-dist圖的DBSCAN聚類參數選擇不適用于風電機組SCADA異常數據識別任務。此外,基于k-dist圖的參數選擇過程中需要通過人的介入[25]來選擇“拐點”,這一方面引入了人的主觀性,當k-dist曲線變化趨勢平緩時這種主觀性對參數的選取影響更大,另一方面導致該過程無法完全自動進行,而本文所提出的方法在這兩個方面都具有優勢。

3.2.2 KANN-DBSCAN法

KANN-DBSCAN法的基本過程如下[23]。

步驟1 計算數據集D的距離分布矩陣

Dn×n={di,j|1≤i≤n, 1≤j≤n}(5)

式中:Dn×n為實對稱矩陣,n為數據集中樣本的個數;di,j為第i個對象與第j個對象之間的距離;

步驟2 對距離分布矩陣Dn×n的每一行按升序排列,排列后第k列元素構成所有對象的k-最近鄰距離向量Dk;

步驟4 對于每個k值,選取Dε中對應的候選ε,按下式計算該ε下的np

式中:Pi為第i個對象在ε-鄰域中的鄰域樣本數;n為數據集中的總樣本數。將這兩個參數代入DBSCAN模型對監測數據進行聚類,得到該k值下的聚類簇數。當連續3次的聚類簇數相同時,認為聚類結果趨于穩定,記錄該聚類簇數N為最優簇數;

步驟5 繼續執行步驟4,當聚類簇數第一次不再為N時,上一個k值對應的ε和np為最佳聚類參數。

按照上述步驟對32號風電機組的監測數據進行分析,計算得到最優簇數N為7,最佳的聚類參數為ε=0.0216,np=86,以該聚類參數對32號風電機組進行異常數據識別的結果如圖12所示。

圖12中黑色被認為是噪聲,其余顏色分別代表某個類別。顯然,KANN-DBSCAN方法選擇的參數在進行聚類時,更加關注正常數據中密度不同的區域,而將“外圍”的正常數據與異常數據一同劃分為了噪聲。因此,無論怎樣合并不同的類別和噪聲,都無法將離散分布型和中部堆積型數據分離出來,即無法實現有效的異常數據識別。

通過上述對比實驗可知,相比于k-dist圖法和KANN-DBSCAN法,通過本文提出的方法選擇出來的聚類參數在對原始數據進行DBSCAN聚類時,對異常數據的分離效果更好,且整個過程可以自動進行,說明了本文提出方法的優越性。

3.3 算法復雜度分析

SCADA異常數據識別實際上只用到了風速和功率這兩個變量的數據,即需要聚類的數據為二維數據。設n為原始數據的樣本點數,則DBSCAN模型對二維數據進行聚類時的基本時間復雜度為O(n2)。KANN-DBSCAN在DBSCAN算法的基礎上進行迭代運算,聚類次數由k決定,因此其時間復雜度為O(kn2),一般情況下kn。

本文提出的算法同樣需要多次進行DBSCAN模型聚類,聚類次數由備選參數組合的個數m決定,聚類過程的時間復雜度為O(mn2),通常mn;此外,每次聚類需要計算預測誤差和分類準確度兩個評價指標,這部分的計算復雜度與模型的選擇相關。以本文使用的兩層MLP為例,其時間復雜度為O(nmh2oi),其中m為輸入維數,h為每層神經元數,o為輸出維數,i為每個變量的迭代次數,在本文的實驗中mh2oi≈n,因此,計算評價指標的時間復雜度約為O(n2)。

綜上所述,本文所提出方法時間復雜度約為O(n2),算法復雜度與KANN-DBSCAN模型相當,雖然相較于傳統的DBSCAN算法略高,但是仍然屬于同一數量級,且對風電機組SCADA異常數據的識別效果更好。

4 結 論

本文提出的基于改進DBSCAN的風電機組SCADA異常數據識別方法,結合風電機組的風速-功率數據分布特點,提出了兩個指標,以一種簡單而有效的方式來選擇合適的聚類參數,能夠保證異常數據被剔除的前提下,保留盡可能多的正常數據。以某風場32號和29號風電機組作為研究實例進行異常數據識別,結果表明本文提出的方法能夠有效地將異常數據識別出來。此外,與廣泛使用的k-dist圖法以及改進的KANN-DBSCAN方法相比,本文提出的參數選擇方法受主觀性影響小,而且整個過程可以通過程序自動進行,但是算法的時間復雜度較高,如何提高算法的計算效率是后續研究的重點。

參考文獻:

[1]符楊, 許偉欣, 劉璐潔, 等. 考慮天氣因素的海上風電機組預防性機會維護策略優化方法 [J]. 中國電機工程學報, 2018, 38(20): 5947-5956.

FU Yang, XU Weixin, LIU Lujie, et al. Optimization of preventive opportunistic maintenance strategy for offshore wind turbine considering weather conditions [J]. Proceedings of the CSEE, 2018, 38(20): 5947-5956.

[2]胡姚剛. 大功率風電機組關鍵部件健康狀態監測與評估方法研究 [D]. 重慶: 重慶大學, 2017.

[3]尹詩, 侯國蓮, 于曉東, 等. 基于SCADA數據的風電機組齒輪箱狀態監測方法 [J]. 太陽能學報, 2021, 42(1): 324-332.

YIN Shi, HOU Guolian, YU Xiaodong, et al. Condition monitoring method of wind turbine gear box based on SCADA data [J]. Acta Energiae Solaris Sinica, 2021, 42(1): 324-332.

[4]DAO P B. Condition monitoring and fault diagnosis of wind turbines based on structural break detection in SCADA data [J]. Renewable Energy, 2022, 185: 641-654.

[5]RAHIMILARKI R, GAO Zhiwei, JIN Nanlin, et al. Convolutional neural network fault classification based on time-series analysis for benchmark wind turbine machine [J]. Renewable Energy, 2022, 185: 916-931.

[6]江國乾, 周俊超, 武鑫, 等. 基于空洞因果卷積網絡的風電機組異常檢測 [J]. 太陽能學報, 2023, 44(5): 368-375.

JIANG Guoqian, ZHOU Junchao, WU Xin, et al. Wind turbine anomaly detection based on dilated causal convolution network [J]. Acta Energiae Solaris Sinica, 2023, 44(5): 368-375.

[7]郭怡, 王榮喜, 高建民. 融合分形特征的風機運行狀態辨識方法 [J]. 計算機集成制造系統, 2022, 28(7): 2139-2148.

GUO Yi, WANG Rongxi, GAO Jianmin. Operation state recognition method based on fractal features of wind turbines [J]. Computer Integrated Manufacturing Systems, 2022, 28(7): 2139-2148.

[8]MORRISON R, LIU Xiaolei, LIN Zi. Anomaly detection in wind turbine SCADA data for power curve cleaning [J]. Renewable Energy, 2022, 184: 473-486.

[9]吳永斌, 張建忠, 袁正舾, 等. 風電場風功率異常數據識別與清洗研究綜述 [J]. 電網技術, 2023, 47(6): 2367-2380.

WU Yongbin, ZHANG Jianzhong, YUAN Zhengxi, et al. Review on identification and cleaning of abnormal wind power data for wind farms [J]. Power System Technology, 2023, 47(6): 2367-2380.

[10]WANG Yue, INFIELD D G, STEPHEN B, et al. Copula-based model for wind turbine power curve outlier rejection [J]. Wind Energy, 2014, 17(11): 1677-1688.

[11]HAN Shuang, QIAO Yanhui, YAN Ping, et al. Wind turbine power curve modeling based on interval extreme probability density for the integration of renewable energies and electric vehicles [J]. Renewable Energy, 2020, 157: 190-203.

[12]沈小軍, 付雪姣, 周沖成, 等. 風電機組風速-功率異常運行數據特征及清洗方法 [J]. 電工技術學報, 2018, 33(14): 3353-3361.

SHEN Xiaojun, FU Xuejiao, ZHOU Chongcheng, et al. Characteristics of outliers in wind speed-power operation data of wind turbines and its cleaning method [J]. Transactions of China Electrotechnical Society, 2018, 33(14): 3353-3361.

[13]SHEN Xiaojun, FU Xuejiao, ZHOU Chongcheng. A combined algorithm for cleaning abnormal data of wind turbine power curve based on change point grouping algorithm and quartile algorithm [J]. IEEE Transactions on Sustainable Energy, 2019, 10(1): 46-54.

[14]梅勇, 李霄, 胡在春, 等. 基于風電機組控制原理的風功率數據識別與清洗方法 [J]. 動力工程學報, 2021, 41(4): 316-322.

MEI Yong, LI Xiao, HU Zaichun, et al. Identification and cleaning of wind power data methods based on control principle of wind turbine generator system [J]. Journal of Chinese Society of Power Engineering,2021, 41(4): 316-322.

[15]LONG Huan, SANG Linwei, WU Zaijun, et al. Image-based abnormal data detection and cleaning algorithm via wind power curve [J]. IEEE Transactions on Sustainable Energy, 2020, 11(2): 938-946.

[16]WANG Zhongju, WANG Long, HUANG Chao. A fast abnormal data cleaning algorithm for performance evaluation of wind turbine [J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-12.

[17]XU Qianyao, HE Dawei, ZHANG Ning, et al. A Short-term wind power forecasting approach with adjustment of numerical weather prediction input by data mining [J]. IEEE Transactions on Sustainable Energy, 2015, 6(4): 1283-1291.

[18]ZHAO Yongning, YE Lin, WANG Weisheng, et al. Data-driven correction approach to refine power curve of wind farm under wind curtailment [J]. IEEE Transactions on Sustainable Energy, 2018, 9(1): 95-105.

[19]王一妹, 劉輝, 宋鵬, 等. 基于多階段遞進識別的風電機組異常運行數據清洗方法 [J]. 可再生能源, 2020, 38(11): 1470-1476.

WANG Yimei, LIU Hui, SONG Peng, et al. An approach for the cleaning of abnormal wind turbine operation data based on multi-phase progressive recognition [J]. Renewable Energy Resources, 2020, 38(11): 1470-1476.

[20]雷萌, 郭鵬, 劉博嵩. 基于自適應DBSCAN算法的風電機組異常數據識別研究 [J]. 動力工程學報, 2021, 41(10): 859-865.

LEI Meng, GUO Peng, LIU Bosong. Study on abnormal data recognition of wind turbines based on adaptive DBSCAN algorithm [J]. Journal of Chinese Society of Power Engineering, 2021, 41(10): 859-865.

[21]ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [C]//Proceedings of the Second International Conference on Knowledge Discovery and Data Mining. Palo Alto, CA, USA: AAAI Press, 1996: 226-231.

[22]夏魯寧, 荊繼武. SA-DBSCAN: 一種自適應基于密度聚類算法 [J]. 中國科學院研究生院學報, 2009, 26(4): 530-538.

XIA Luning, JING Jiwu. SA-DBSCAN: a self-adaptive density-based clustering algorithm [J]. Journal of the Graduate School of the Chinese Academy of Sciences, 2009, 26(4): 530-538.

[23]李文杰, 閆世強, 蔣瑩, 等. 自適應確定DBSCAN算法參數的算法研究 [J]. 計算機工程與應用, 2019, 55(5): 1-7.

LI Wenjie, YAN Shiqiang, JIANG Ying, et al. Research on method of self-adaptive determination of DBSCAN algorithm parameters [J]. Computer Engineering and Applications, 2019, 55(5): 1-7.

[24]周紅芳, 王鵬. DBSCAN算法中參數自適應確定方法的研究 [J]. 西安理工大學學報, 2012, 28(3): 289-292.

ZHOU Hongfang, WANG Peng. Research on adaptive parameters determination in DBSCAN algorithm [J]. Journal of Xi’an University of Technology, 2012, 28(3): 289-292.

[25]萬佳, 胡大裟, 蔣玉明. 多密度自適應確定DBSCAN算法參數的算法研究 [J]. 計算機工程與應用, 2022, [LL]58(2): 78-85.

WAN Jia, HU Dasha, JIANG Yuming. Research on method of multi-density self-adaptive determination of DBSCAN algorithm parameters [J]. Computer Engineering and Applications, 2022, 58(2): 78-85.

猜你喜歡
風速
邯鄲市近46年風向風速特征分析
基于Kmeans-VMD-LSTM的短期風速預測
基于最優TS評分和頻率匹配的江蘇近海風速訂正
海洋通報(2020年5期)2021-01-14 09:26:54
基于時間相關性的風速威布爾分布優化方法
陜西黃土高原地區日極大風速的統計推算方法
陜西氣象(2020年2期)2020-06-08 00:54:38
基于GARCH的短時風速預測方法
快速評估風電場50年一遇最大風速的算法
風能(2016年11期)2016-03-04 05:24:00
考慮風切和塔影效應的風力機風速模型
電測與儀表(2015年8期)2015-04-09 11:50:06
GE在中國發布2.3-116低風速智能風機
考慮風速分布與日非平穩性的風速數據預處理方法研究
主站蜘蛛池模板: 国产精品专区第1页| 精品国产欧美精品v| 中国国产A一级毛片| 国产精品护士| 国产成人综合在线观看| 国产香蕉在线视频| 国产欧美中文字幕| 日本黄色不卡视频| 精品无码国产自产野外拍在线| 午夜福利亚洲精品| 国产乱肥老妇精品视频| 无码有码中文字幕| 亚洲欧美综合精品久久成人网| 福利国产在线| 亚洲人成色在线观看| 中文字幕久久亚洲一区| 久久久波多野结衣av一区二区| 久久香蕉国产线看观看亚洲片| 青青青国产视频| 亚洲第一国产综合| 国内精品九九久久久精品| 漂亮人妻被中出中文字幕久久| 亚洲一区二区无码视频| 欧美性爱精品一区二区三区| 色婷婷亚洲十月十月色天| 久久婷婷综合色一区二区| 国产91色| 日韩精品亚洲一区中文字幕| 欧美精品亚洲二区| 毛片网站免费在线观看| 亚洲香蕉久久| 永久免费av网站可以直接看的 | 亚洲精品亚洲人成在线| 国产精品护士| 中文无码日韩精品| 久久五月视频| 成年人视频一区二区| 国产超碰一区二区三区| 国产成a人片在线播放| 秋霞午夜国产精品成人片| 亚洲福利网址| 91亚洲精选| 亚洲天堂免费| 黄色在线不卡| 国产高清在线观看| 中文无码伦av中文字幕| 亚洲国产在一区二区三区| 亚洲AⅤ波多系列中文字幕| 精品久久久无码专区中文字幕| 欧美日韩精品一区二区在线线| 国产成人高清亚洲一区久久| 在线视频亚洲欧美| 人妻丰满熟妇αv无码| 国产噜噜噜| 亚洲无码高清一区二区| 精品无码人妻一区二区| 日韩精品无码免费专网站| 99久视频| 国产成人精品综合| 91久久偷偷做嫩草影院电| 亚洲伊人电影| 久久久精品无码一二三区| 亚洲免费黄色网| 成人午夜免费观看| 无遮挡一级毛片呦女视频| 免费aa毛片| 亚洲精品视频网| 亚洲第一黄色网址| 最新精品国偷自产在线| 性喷潮久久久久久久久| 欧美亚洲一区二区三区导航| jizz在线观看| 精品欧美视频| 国产95在线 | 国产91小视频在线观看| 亚洲最新地址| 亚洲区一区| 爆乳熟妇一区二区三区| 国产精品蜜芽在线观看| 98精品全国免费观看视频| 三区在线视频| 99久久精品免费视频|