999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Box-Cox變換結合多種算法的風電機組數據預處理方法研究

2024-02-04 04:33:26韓則胤蘇寶定田元興
計算機測量與控制 2024年1期
關鍵詞:風速檢測

韓則胤,王 寧,蘇寶定,田元興

(中廣核風電有限公司,北京 100070)

0 引言

近年來,風電市場的迅猛發展,全球風電機組裝機容量大幅增長,風電機組的后期維護問題也日漸凸顯。風電機組通常處于偏僻且天氣惡劣的環境中,其故障后維修成本高昂[1-3]。隨著大數據分析技術和機器學習的快速發展,數據采集與監視控制(SCADA,supervisory control and data acquisition)系統中的遠程監控和數據采集的功能在風力發電安全運行、特征分析、優化運行等相關應用研究中的地位逐漸凸顯。風電場SCADA系統中的數據在采集、傳輸、存儲等過程中不可避免會出現錯誤和遺漏等問題,風電機組在實際運行過程中會出現棄風限電的現象,導致所采集的數據質量欠佳,不利于后續對采集的數據進行相關的應用研究和分析[4-6]。因此,在數據應用分析之前,必須對所采集的數據進行數據預處理操作,以便為后面的分析和預測提供準確的數據信息。

近年國內外學者提出了多種異常數據識別清洗方法和故障預警策略。趙永寧等人提出一種基于四分位法和K-means聚類法的混合方法對異常數據進行篩選和清洗。采用兩次四分位法來識別并清洗分散型數據,采取K-means聚類法來識別并清洗堆積型數據,該方法可以有效地剔除棄風限電產生的異常數據,具有一定的實用性和通用性[7]。馬然等人根據風速-功率曲線和轉速-功率曲線提出一種基于經驗Copula-ECMI的方法篩選適宜的特征參數進行監測,基于各參數的時序特征與概率分布構建Copula數據清洗模型,依次對堆積型和分散型的異常數據進行剔除[8]。沈小軍等人根據風電機組功率曲線中離群值分布特點,提出一種基于變點分組算法和四分位數算法相結合的算法,該算法可以對離群值識別和剔除,但是此算法對多種控制參數存在要求[9]。Ouyang T等人在假設監測到的風速-功率曲線數據概率分布服從正態分布的前提下,提出采用支持向量機原理建立功率邊界模型的方法[10]。文獻[11]、[12]中所提出的異常數據清洗方法也是以風速-功率曲線的概率分布服從或者近似服從正態分布為前提。Taslimi-Renani E等人提出一種利用修正雙曲正切函數來表示風電機組的功率曲線的模型,在不同均值下可以構建不同標準差的閾值模型,從而剔除超出閾值的異常數據,經檢驗所提出的模型具有一定實用性[11]。Villsnueva D等人則是提出一種利用蒙特卡羅模擬技術重現基于正常模型的方法,重現的模擬模型用于對風電機組長期評估[12]。Gill S等人基于Copula統計理論建立風速-功率聯合概率模型,對于風電機組的早期故障的識別有很強的實用性[13]。潘雄提出基于混合Copula函數建立風電場模型,該模型更注重針對不同風電場的通用性[14]。Liang G等人提出一種基于不相似與不確定性能量最小化的WPC異常數據清洗算法,該算法將監測的數據轉化為數字圖像,運用圖像分割的方法來清洗異常數據,大量實驗證明了該算法具有優越性[15]。Huan等人提出一種基于圖像的異常數據清洗算法,人為將異常數據定義為負點、分散點和堆積點3種類型,先將大于切入風速且功率小于零的負點進行剔除,利用數學形態學運算提取表征正常數據的WPC二值圖像的主成分,對分散點和堆積點進行像素識別和標記,經過實驗驗證了該方法的高效性和通用性[16]。朱倩雯等人運用多點三次樣條插值的方法對數據缺失的情況進行數據重構,進而得到完整的時間序列,具有較強的實用性[17]。胡陽等人提出分段三次Hermite插值法對于缺失數據進行重構[18],但是插值重構的方法對于連續缺失達到一定數量的數據,其重構值與真實值會出現較大的偏差,這類方法可能會對實驗結果有較大的影響。

綜上,國內外學者提出的數據預處理方法主要從幾個方面入手:基于不同特征的異常數據,例如分散型異常數據和堆積型異常數據,選擇適宜的數據清洗方法進行數據預處理[19];基于風速-功率曲線的近似服從正態分布的特性進行研究,該類方法可以提高SCADA系統中有效數據的占比,能夠實現數據質量的改善;基于風電機組的實際輸出功率概率分布特性的統計分析,確定一定置信條件下輸出功率變化范圍,識別、剔除異常數據;基于圖像的異常數據清洗算法,將監測數據轉化為圖像問題,可以更直觀的進行數據清洗;基于數據缺失的情況進行研究,可以選擇適宜的數據插值重構的方法進行數據預處理,該方法有一定的局限,當風電機組的樣本數據出現大量缺失數據的情況時,重構數據的效果與實際監測效果有很大的誤差,需要繼續研究更優秀的數據插值重構法以解決此類問題。本文提出一種將Box-Cox變換與以正態分布為前提的異常值清洗算法相結合的方法,對原始數據進行預處理。運用Box-Cox變換分別與Bin算法、肖維勒準則、狄克遜準則和格拉布斯準則相結合的方法進行數據預處理,經過實例驗證,所提方法對原始數據有較好了數據預處理效果。

1 基于Box-Cox變換的風電機組數據預處理

風速-功率曲線是描述風電機組運行時不同風速和輸出功率關系的數據分布曲線。根據風速-功率曲線,能夠非常直觀的監測風電機組的運行狀態,該曲線可以顯示風電機組的性能和發電能力[60]。許多數據預處理方法是建立在數據處于正態分布的基礎上才能進行預處理操作,例如格拉布斯準則、狄克遜準則、拉依達準則、肖維勒準則、Bin算法等。由于風電機組的風速-功率曲線并不是嚴格意義上的正態分布,因此對原始數據進行Box-Cox變換,使原始數據呈現正態分布,以便于參與后續的數據預處理的工作,為后續研究提供更加準確的數據。

1.1 Box-Cox變換基本原理

Box-Cox變換是由Box和Cox兩人共同提出的模型,該模型可以將不滿足正態分布的數據經過Box-Cox變換后使其呈現正態分布的狀態。

設原始數據為y={y1,y2,y3,L,yn},對原始進行Box-Cox變換:

(1)

式中,λ是一個待定的變換參數。

對原始數據進行Box-Cox變換后,可以得到:

(2)

式中,n表示Box-Cox變換后數據的個數。

通過對原始數據的變換,使得變換后的數據與變換參數λ有了對應的聯系。因此,Box-Cox變換是通過對λ的合理選擇,使其變換后的數據呈現正態分布的狀態。因此對的選擇是很重要的。

對于λ的選擇可以用極大似然法來估計。首先,構造似然函數L(λ):

(3)

對式(3)中所有的λ,有:

(4)

(5)

經推導可得到如下方程:

(6)

每一個變換參數λ對應的y(λ)都可得到相應的L(λ)。通過尋優,可以得到使得L(λ)取得最大值的變換參數λ*,則λ*即為Box-Cox變換最終的變換參數。

1.2 數據預處理方法

1.2.1 Bin算法基本原理

Bin算法的基本原理:記風電機組的切入風速Vmin和切出風速Vmax,將風速區間[Vmin,Vmax]劃分成多個小區間,依照風速大小將各個風速數據劃分到各小區間中,再對各個小區間中的數據進行統計,最后用統計得到的各個小區間中的數據統計值進行分析。

設風電機組切入風速為Vmin,切出風速為Vmax,風速區間為[Vmin,Vmax]。將風速區間以0.5 m/s的間隔劃分為N個小區間:

(7)

式中,N為正整數。

(8)

(9)

對單個SCADA數據的描述采用的是期望值而不是平均值。這種方法的優點是期望值減少了數據中離群值造成的統計誤差,而平均值由于沒有考慮這些離群值的概率分布會造成較大誤差。

1.2.2 肖維勒準則基本原理

肖維勒準則是以檢測樣本服從正態分布為前提的方法,其原理:對n個實驗數據進行多次實驗,統計實驗中n個實驗數據的誤差值出現可能性為零的數據點的個數,計算這些數據的概率。計算數據概率的公式為:

(10)

式中,n表示實驗數據個數;Zc為肖維勒系數;可以根據式(10)總結出表示n和Zc關系的肖維勒系數表。

計算測量數據的算數平均值x、偏差vi和標準差σ:

(11)

(12)

(13)

式中,xi表示第i個數據;n表示實驗數據個數。

1.2.3 狄克遜準則基本原理

狄克遜準則是以檢測樣本服從正態分布為前提的數據預處理方法,其基本原理是將服從正態分布的檢測數據按照從大到小排列,則檢測樣本中可能為異常數據的樣本為或者,其中為樣本數量。計算不同樣本數量對應的極差比,如表1。

表1 不同的樣本數量n的極差比

根據表1,針對不同的樣本數量n來計算出對應的極差比γ和γ*。

選定顯著性水平α,顯著性水平用于估計總體參數在某區間內可能犯錯的概率,狄克遜準則中的顯著性水平α通常選取0.05或0.01,本文狄克遜準則的顯著性水平α選為0.01。

1.2.4 格拉布斯準則基本原理

格拉布斯準則通過計算一組實驗數據的殘差,來判斷該組數據是否含有異常值。運用格拉布斯準則的前提是采集的檢測樣本服從正態分布或者近似服從正態分布。格拉布斯準則的基本原理:

將檢測數據按照x1≤x2≤…≤xn的順序從小到大排列,每次檢測總是先懷疑最大的數據和最小的數據是否為異常值。選定顯著性水平α,同狄克遜準則相似,格拉布斯準則中的顯著性水平α通常選取0.05或0.01,本文格拉布斯準則的顯著性水平α選取為0.05。

計算測量值對應的殘差:

(14)

查詢格拉布斯準則臨界值T(α,n)表,找出對應n和α的T(n,α)值。當T≥T(n,α)時,認為懷疑的測量值是異常數據,應當予以舍棄;當T

2 實例分析

2.1 數據來源

本文的實驗數據選取自張家口某風電場的實際運行數據,將該風電場的A12號風電機組作為研究對象,采用A12號風電機組在2018年9月26日到2019年1月26日的實際運行數據來測試本文所提出的方法。在SCADA數據中,含時間變量的數據共有70類,與齒輪箱相關的變量為5個,與發電機相關的變量為9個,與主軸相關的變量為2個、與變槳系統的相關變量為33個。

該風電場的風電機組的類型為變速恒頻雙饋異步風電機組,其基本參數為:風電機組額定功率為2 000 kW,切入風速為2 m/s,切出風速為20 m/s。經過研究分析,挑選出其中的5個與齒輪箱的相關的變量進行分析研究。5個齒輪箱的相關變量分別為:齒輪箱溫度、風速、發電機輸出功率、上一時刻的齒輪箱溫度、環境溫度。

2.2 數據預處理

將風速為[0,20]的區間以0.5 m/s為步長間隔劃分為40個小區間,如圖1所示。當環境風速小于風電機組的切入風速時,沒有達到風電機組并網發電的最低風速,因此將環境風速小于切入風速所測得的功率數據進行剔除。當環境風速大于切入風速時,風電機組開始并網發電,由于棄風限電、設備停機檢修等因素的影響,產生一系列環境風速大于切入風速但是功率為零的異常數據。如圖1所示,這類數據在圖中堆積在功率為零的位置,將這種異常數據進行剔除,這一操作可以剔除大量異常數據,以便提高后續工作的速度和實驗效果。

圖1 風速-功率曲線異常數據劃分示意圖

剔除環境風速小于切入風速的數據和環境風速大于切入風速且功率為零的數據,如圖2。

圖2 剔除異常數據后的風速功率圖

2.3 Box-Cox變換和Bin算法相結合的數據預處理分析

使用Bin算法對異常數據進行數據清洗,檢測結果如圖3所示。從圖3中可以看出,利用Bin算法對樣本數據進行檢測,可以檢測出風速-功率曲線中的部分離散數據。Bin算法是將樣本數據近似看作正態分布的基礎上進行的分析,由于風速-功率曲線并不是嚴格意義上的正態分布曲線,所以檢測結果難免會出現誤差。

圖3 使用Bin算法進行數據清洗的檢測結果圖

使用Box-Cox變換與Bin算法結合的方法對異常數據進行清洗,檢測結果如圖4所示。

圖4 使用Box-Cox變換和Bin算法相結合的數據清洗檢測結果圖

圖4中被“十字”標出的為異常數據,圓圈為正常數據。對比圖3和圖4可以看出,圖4中檢測出的異常數據明顯比圖3中的多,利用提出的Box-Cox變換和Bin算法結合的方法對樣本數據進行檢測,可以更全面地識別異常數據。Box-Cox變換可以提高數據曲線的正態性,使得風速-功率曲線中的數據呈現正態分布,再運用Bin算法進行檢測,異常數據清洗效果明顯提高了。

采用Box-Cox變換與Bin算法相結合方法對異常數據進行清洗后的NSET建模數據集,如圖5。經過對原始數據的預處理,經統計共有2 034個異常數據條目被清洗,最終得到5 845個數據條目用來進行NSET建模實驗。

圖5 基于Box-Cox變換與Bin算法相結合方法的NSET建模數據集

2.4 Box-Cox變換和肖維勒準則相結合的數據預處理分析

使用肖維勒準則對異常數據進行數據清洗,檢測結果如圖6所示。

圖6 使用肖維勒準則進行數據清洗的檢測結果圖

圖6中被“十字”標出的為異常數據,圓圈為正常數據。利用肖維勒準則對實驗數據進行檢測,同Bin算法清洗異常數據的效果相似,肖維勒準則同樣可以檢測出風速-功率曲線中的部分離散數據為異常數據。因為肖維勒準則的檢驗前提是樣本數據服從或近似服從正態分布,而風電機組的風速-功率曲線并不是嚴格意義上的正態分布曲線,所以檢測結果難免會存在誤差。

使用Box-Cox變換與肖維勒準則相結合的方法對異常數據進行清洗,檢測結果如圖7所示。對比圖7和圖6可以看出,利用Box-Cox變換和肖維勒準則相結合的方法對樣本數據的檢測效果要比只使用肖維勒準則的效果好,前者可以更加充分地識別和剔除異常數據。利用Box-Cox變換提高風速-功率曲線的正態性,使得風速-功率曲線中的檢測數據呈現正態分布,再運用肖維勒準則對數據進行檢測,異常數據的檢測效果明顯提高。

圖7 使用Box-Cox變換和肖維勒準則相結合的數據清洗檢測結果圖

采用Box-Cox變換和肖維勒準則相結合的方法對異常數據進行清洗后可用于機組故障預警建模的數據集,如圖8所示。

圖8 基于Box-Cox變換和肖維勒準則相結合方法的NSET建模數據集

對原始數據進行數據預處理后,經統計共有1 752個異常數據條目被清洗,最終共有6 127個數據條目用于進行故障預警建模實驗。

2.5 Box-Cox變換和狄克遜準則相結合的數據預處理分析

使用狄克遜準則對異常數據進行數據清洗,檢測結果如圖9所示。利用狄克遜準則對實驗數據進行檢測,可以檢測出風速-功率曲線中的部分離散型數據為異常數據。狄克遜準則檢測異常數據的前提是樣本數據服從正態分布,由于風電機組的風速-功率曲線并不是嚴格意義上的正態分布曲線,所以檢測結果會存在一定的誤差。

圖9 使用狄克遜準則進行數據清洗的檢測結果圖

使用Box-Cox變換與狄克遜準則相結合的方法對異常數據進行清洗,檢測結果如圖10所示。

圖10 使用Box-Cox變換和狄克遜準則相結合的數據清洗檢測結果圖

對比圖10和圖9可以看出,利用Box-Cox變換和狄克遜準則相結合的方法對樣本數據的檢測效果要比單獨使用狄克遜準則的效果好,前者檢測出的異常數據更多。使用Box-Cox變換提高風速-功率曲線的正態性,再運用狄克遜準則對數據進行檢測,異常數據的檢測效果明顯得到提高。

對原始數據進行數據預處理后,經統計共有2 271個異常數據條目被清洗,最終共有5 608個數據條目用于進行NSET建模實驗。采用Box-Cox變換和狄克遜準則相結合的方法對異常數據進行清洗后可用于NSET建模的數據集,如圖11所示。

圖11 基于Box-Cox變換和狄克遜準則相結合方法的NSET建模數據集

2.6 Box-Cox變換和格拉布斯準則相結合的數據預處理分析

使用格拉布斯準則對異常數據進行數據清洗,檢測結果如圖12所示。

圖12中被“十字”標出的為異常數據,圓圈為正常數據。利用格拉布斯準則對實驗數據進行檢測,與前面3種數據預處理方法的清洗異常數據效果相似,格拉布斯準則同樣可以檢測出風速-功率曲線中的部分離散型數據為異常數據。格拉布斯準則檢測異常數據的前提同樣需要樣本數據服從正態分布,而風速-功率曲線是近似于正態分布的曲線,并不是嚴格意義上的正態分布,運用格拉布斯準則檢測異常數據的會存在一些誤差。

進行Box-Cox變換和格拉布斯準則相結合的方法對異常數據進行數據清洗,實驗結果如圖13所示。

圖13 使用Box-Cox變換和格拉布斯準則相結合的數據清洗檢測結果圖

通過圖13可以看出,使用Box-Cox變換與格拉布斯準則相結合的方法比單獨使用格拉布斯準則對異常數據檢測的效果明顯要好。先進行Box-Cox變換以提高被測數據的正態性,使得風速-功率曲線中的檢測數據呈現標準正態分布,再運用格拉布斯準則對數據進行檢測,通過實驗結果可以觀察到,異常數據的檢測效果得到了提升,清洗程度更加充分。

采用Box-Cox變換和格拉布斯準則相結合方法對異常數據進行清洗后可用于NSET建模的數據集,如圖14。

圖14 基于Box-Cox變換和格拉布斯準則相結合方法的NSET建模數據集

對原始數據進行數據預處理后,經統計共有2 386個異常數據條目被清洗,最終共有5 493個數據條目用于進行NSET建模實驗。

2.7 實驗結果分析

本文以風電機組的齒輪箱為研究主體,將齒輪箱的溫度、風速和發電機輸出功率等參數作為監測參數進行實例分析。因為風電機組的風速-功率曲線的概率分布類似正態分布但不是標準的正態分布曲線,Box-Cox變換可以將檢測數據變換為正態分布。首先將原始數據進行Box-Cox變換,以提高風速-功率曲線的正態性。然后分別使用Bin算法、肖維勒準則、狄克遜準則和格拉布斯準則4種方法對變換后的數據進行檢測,檢測并剔除異常數據。對比圖3與圖4、圖6與圖7、圖9與圖10、圖12和圖13,可以觀察出使用Box-Cox變換的混合方法所檢測出的異常值比未使用Box-Cox變換的方法檢測出的異常值多,明顯使用Box-Cox變換的方法對異常數據檢測效果更好。而且可以從4種異常數據清洗方法的檢測結果中觀察到,格拉布斯準則對于異常數據的清洗效果最好,狄克遜準則和Bin算法次之,肖維勒準則雖然最簡便易懂但是檢測效果不是很好。但是對Box-Cox變換后的數據進行實驗時,格拉布斯準則和狄克遜準則所用的時間比較長,Bin算法所用的時間最短。由分析可知格拉布斯準則和狄克遜準則并不適合應用于實際環境中,因為對大型風電場的海量數據,這種預處理需要很長時間的方法的實用性不強。

經過數據預處理后的四組數據集可為機組故障預警建模提供數據基礎。

3 結束語

針對風電機組的故障預警提出了一種混合算法的數據預處理的方法,該方法是基于以風速-功率曲線中的數據呈現正態分布為前提的數據預處理算法,利用Box-Cox變換使原始數據變換呈現正態分布,再分別結合Bin算法、肖維勒準則、狄克遜準則和格拉布斯準則進行研究分析。通過實驗分析可知:肖維勒準則的算法簡單且檢測時間短但是對于異常數據的清洗效果較差;狄克遜準則和格拉布斯準則對于異常數據的清洗效果較好但是處理時間較長,對大型風電場的海量數據,這種方法的實用性較差。在這4種算法中,Bin算法的優勢比較明顯,但是此算法仍有優化的空間,值得進一步研究。

猜你喜歡
風速檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
基于Kmeans-VMD-LSTM的短期風速預測
“幾何圖形”檢測題
“角”檢測題
基于最優TS評分和頻率匹配的江蘇近海風速訂正
海洋通報(2020年5期)2021-01-14 09:26:54
基于GARCH的短時風速預測方法
小波變換在PCB缺陷檢測中的應用
考慮風切和塔影效應的風力機風速模型
電測與儀表(2015年8期)2015-04-09 11:50:06
主站蜘蛛池模板: 国产成人精品2021欧美日韩| 欧日韩在线不卡视频| 91成人免费观看| 在线播放真实国产乱子伦| 亚洲国产天堂久久综合226114| 谁有在线观看日韩亚洲最新视频| 欧美国产日韩另类| 成人福利在线免费观看| 一区二区三区国产| 色综合久久久久8天国| a级毛片免费在线观看| 白丝美女办公室高潮喷水视频| 亚洲成人精品久久| 园内精品自拍视频在线播放| 国产美女精品人人做人人爽| 国产成人一区二区| 日本尹人综合香蕉在线观看 | 国产视频入口| 亚洲精品高清视频| 18黑白丝水手服自慰喷水网站| 国产精品亚洲欧美日韩久久| 亚洲激情99| 自偷自拍三级全三级视频 | 亚洲综合一区国产精品| 九色在线视频导航91| 欧美第九页| 国产麻豆永久视频| 国产在线一区视频| 一区二区偷拍美女撒尿视频| 好吊日免费视频| 国产门事件在线| 一区二区理伦视频| 国产精品私拍99pans大尺度| 亚洲欧美另类专区| 亚洲人成人无码www| 中文字幕伦视频| 男人的天堂久久精品激情| av在线5g无码天天| 国产精品99一区不卡| 国产69精品久久久久妇女| 黄色网站在线观看无码| 波多野结衣一区二区三区88| 亚洲欧洲一区二区三区| 亚洲欧美日韩精品专区| 亚洲中文字幕久久无码精品A| 国产精品白浆在线播放| 精品偷拍一区二区| 久久婷婷六月| 91九色视频网| 亚洲二三区| 国产剧情一区二区| 大陆精大陆国产国语精品1024| 久久永久免费人妻精品| 精品夜恋影院亚洲欧洲| 少妇极品熟妇人妻专区视频| 全裸无码专区| 亚洲欧美在线综合一区二区三区| 青青国产视频| 无码专区在线观看| 国产精品欧美激情| 国产精品亚欧美一区二区| 伊人精品视频免费在线| 色偷偷综合网| 一本二本三本不卡无码| 午夜电影在线观看国产1区| 丁香婷婷激情综合激情| 婷婷综合色| 东京热一区二区三区无码视频| 久久鸭综合久久国产| 91久久夜色精品国产网站 | 国产视频一区二区在线观看| 中文字幕丝袜一区二区| 欧美一区二区三区国产精品| 青青青国产视频| 国产精品丝袜在线| 播五月综合| 国产交换配偶在线视频| 91麻豆久久久| 国产精品欧美激情| 在线观看无码a∨| 污视频日本| 亚洲V日韩V无码一区二区|