999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

水電機(jī)組狀態(tài)監(jiān)測數(shù)據(jù)清洗方法

2022-07-27 03:15:26金容鑫婁岱松黃華德毛漢領(lǐng)
中國農(nóng)村水利水電 2022年7期
關(guān)鍵詞:方法

金容鑫,婁岱松,黃華德,毛漢領(lǐng)

(廣西大學(xué)機(jī)械工程學(xué)院,南寧 530004)

0 引 言

數(shù)據(jù)的準(zhǔn)確性是對水電機(jī)組開展運(yùn)行分析與故障診斷的基礎(chǔ)。傳感器故障、采集設(shè)備故障、電磁信號(hào)干擾、通信設(shè)備損壞等原因,導(dǎo)致原始數(shù)據(jù)中存在大量不完整的數(shù)據(jù)和異常的數(shù)據(jù)。這些不良的異常數(shù)據(jù)對水電機(jī)組的運(yùn)行分析與故障診斷將帶來嚴(yán)重的負(fù)面影響。形成高質(zhì)量的數(shù)據(jù)資源,對于提高水電機(jī)組運(yùn)行分析與故障診斷的準(zhǔn)確性具有重要意義。

數(shù)據(jù)辨識(shí)和恢復(fù)受到各行業(yè)研究者的高度重視,提出了針對各種數(shù)據(jù)特點(diǎn)的辨識(shí)和恢復(fù)處理方法。如在數(shù)據(jù)辨識(shí)方面,孟建良[1]提出了基于Spark 和聚類分析的辨識(shí)不良數(shù)據(jù)的新方法,將抽樣技術(shù)和最大最小距離法引入到傳統(tǒng)K-means 算法中,克服了收斂速度慢且易陷入局部極小等問題,并用于對輸電網(wǎng)狀態(tài)估計(jì)中的不良數(shù)據(jù)進(jìn)行檢測和辨識(shí)。方睿[2]基于MNMR 狀態(tài)估計(jì)算法提出了一種基于UPU 并行加速的量測不良數(shù)據(jù)辨識(shí)方法,有較好的不良數(shù)據(jù)辨識(shí)能力。胡陽[3]提出了一種基于置信等效邊界模型的風(fēng)功率數(shù)據(jù)清洗方法,用于異常數(shù)據(jù)識(shí)別剔除。WANG[4]提出一種基于時(shí)空相關(guān)性約束的不良數(shù)據(jù)檢測與識(shí)別方法,并用于電力系統(tǒng)功率平衡數(shù)據(jù)的清理。YU[5]提出了基于進(jìn)化對稱損失函數(shù)的方法,直接識(shí)別輸出電力系統(tǒng)不良數(shù)據(jù)。SHUANG H等[6]提出了一種基于極大獨(dú)立集的異常檢測方法,由字符串之間距離量化修復(fù)數(shù)據(jù)。鐘建偉[7]提出基于蟻群算法的改進(jìn)新息圖法,并用數(shù)值仿真結(jié)果驗(yàn)證方法的效果。LIN[8]把高效的LNR 測試應(yīng)用于識(shí)別不同組中的多個(gè)壞數(shù)據(jù),識(shí)別和糾正超大電力系統(tǒng)中的測量誤差。在數(shù)據(jù)恢復(fù)方面,洪梓銘[9]提出基于優(yōu)先級(jí)分配策略的電網(wǎng)信息系統(tǒng)數(shù)據(jù)恢復(fù)方法,使物理損壞情況下的數(shù)據(jù)得以恢復(fù)。王方超[10]針對GPS 坐標(biāo)序列中的缺失值問題,提出基于數(shù)據(jù)驅(qū)動(dòng)的RegEM 插補(bǔ)算法,在大量數(shù)據(jù)缺失的情況下效果優(yōu)于傳統(tǒng)方法。謝智穎[11]提出了整合緩沖區(qū)、四分位數(shù)、時(shí)間依賴網(wǎng)絡(luò)等時(shí)空處理方法的清洗方法,提高了公交車到達(dá)時(shí)間的預(yù)測精度。張帥[12]建立電力負(fù)荷的多尺度時(shí)序特征建模,提出周尺度的電力負(fù)荷缺失數(shù)據(jù)恢復(fù)方法,并嘗試恢復(fù)年度等長時(shí)段日負(fù)荷數(shù)據(jù)。FAN[13]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)健康監(jiān)測振動(dòng)數(shù)據(jù)恢復(fù)方法,具有較好的丟失數(shù)據(jù)恢復(fù)能力。LI[14]提出了一種基于相關(guān)隔離森林和注意力的LSTM(CiF-AL)的數(shù)據(jù)清理方法,優(yōu)化了異常數(shù)據(jù)恢復(fù)的定位精度和校正精度。王子馨[15]提出基于長短期記憶網(wǎng)絡(luò)的缺失數(shù)據(jù)恢復(fù)方法,可用于提高電力系統(tǒng)量測數(shù)據(jù)質(zhì)量。針對多源時(shí)間序列缺失數(shù)據(jù)恢復(fù)問題,劉歌[16]提出一種基于雙重正則矩陣分解的恢復(fù)方法,并驗(yàn)證了算法的有效性。

綜上所述,不同領(lǐng)域的數(shù)據(jù)辨識(shí)和恢復(fù)的研究較多,但鮮有針對水電機(jī)組監(jiān)測數(shù)據(jù)的研究與應(yīng)用。本文針對水電機(jī)組監(jiān)測數(shù)據(jù)的延時(shí)性和相似性、小樣本和非線性、異常數(shù)據(jù)和缺失數(shù)據(jù)并存等特點(diǎn),利用K-means 聚類方法辨識(shí)異常數(shù)據(jù)、支持向量回歸恢復(fù)缺失數(shù)據(jù),構(gòu)建水電機(jī)組監(jiān)測數(shù)據(jù)的辨識(shí)和恢復(fù)方法,并利用某水電站的實(shí)際監(jiān)測數(shù)據(jù)驗(yàn)證方法的有效性。

1 辨識(shí)和恢復(fù)算法

1.1 K-means聚類算法

經(jīng)典的最為廣泛使用的K-means 聚類算法主要以歐氏距離作為相似性衡量指標(biāo),表征數(shù)據(jù)的相似性和延續(xù)性,其計(jì)算流程如下:

(1)從N個(gè)數(shù)據(jù)樣本中隨機(jī)選擇k個(gè)樣本并初始化這個(gè)k聚類中心{C1,C2,…,Ck}。

(2)計(jì)算每一個(gè)樣本到每一個(gè)聚類中心的歐氏距離,依次比較每一個(gè)樣本到每一個(gè)聚類中心的距離,將樣本分配到距離最近的聚類中心的類簇,形成k簇,并根據(jù)以下公式更新k簇,計(jì)算公式如下:

式中:Ci為簇Si的中心樣本。

(3)對新的k簇重新計(jì)算該類的聚類中心,計(jì)算公式如下:

重復(fù)步驟(2)~(3)至滿足條件|Cn+1-Cn|≤ε后計(jì)算終止。

K-means聚類算法簡單、快速,對大數(shù)據(jù)集有高效率和可伸縮性,可進(jìn)行模塊化分類。

1.2 支持向量回歸方法

應(yīng)用支持向量回歸(Support Vector Regression,SVR)方法,通過非線性映射將樣本集從低維空間映射到高維空間。對n個(gè)訓(xùn)練樣本該非線性映射也就是超平面可以定義為:

式中:x,ω,b分別是輸入向量,權(quán)重及截距。于是,SVR 方法可形式化為:

式中:C為懲罰因子;Lε是不敏感損失函數(shù),將ε作為不敏感誤差,則不敏感損失函數(shù)Lε的表達(dá)式為:

對于回歸錯(cuò)誤的數(shù)據(jù)點(diǎn),引入松弛變量ξi和ξi*,可將Lε代入(4)式可得:

引入拉格朗日乘數(shù)以及核函數(shù)將目標(biāo)函數(shù)轉(zhuǎn)換為對偶形式:

式中:αi和αi*是拉格朗日乘數(shù);K(xi,xj)為核函數(shù),可以將低維空間的內(nèi)積運(yùn)算轉(zhuǎn)換為高維空間的函數(shù)運(yùn)算。最小化拉格朗日函數(shù)后,獲得SVR表達(dá)式:

SVR常用的核函數(shù)為線性核函數(shù):

對于樣本的分類問題,用基于線性核函數(shù)的Linear SVR 可以快速有效解決。

1.3 算法評(píng)價(jià)指標(biāo)

可使用均方根百分比誤差(Root Mean Square Percentage Error,RMSPE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)和擬合優(yōu)度(Goodness of Fit,R2)等3 個(gè)指標(biāo)評(píng)價(jià)Linear SVR 在回歸學(xué)習(xí)中的性能。RMSPE表示回歸結(jié)果的準(zhǔn)確性,結(jié)果越準(zhǔn)確,RMSPE越小;MAPE代表回歸結(jié)果的一致性,結(jié)果越一致,MAPE越小;R2代表擬合優(yōu)度,擬合優(yōu)度越大,則模型的擬合效果越好。它們計(jì)算公式分別為:

式中:N為樣本個(gè)數(shù);為t時(shí)刻的實(shí)際值;為模型在t時(shí)刻的預(yù)測值為實(shí)際值的平均值。

1.4 算法實(shí)施步驟

(1)使用K-means 聚類算法辨識(shí)錯(cuò)誤數(shù)據(jù)。從數(shù)據(jù)集中隨機(jī)選取k個(gè)樣本點(diǎn)作為初始聚類中心,將剩下的樣本分配到歐氏距離最小的聚類中心所對應(yīng)的類簇,并更新類簇直到滿足條件,完成分類。辨識(shí)出錯(cuò)誤數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)清洗。

(2)使用清洗后的數(shù)據(jù),利用Linear SVR 求取函數(shù)f(x)的參數(shù),使其在訓(xùn)練后能夠通過樣本缺失的自變量x預(yù)測對應(yīng)的因變量,實(shí)現(xiàn)對缺失數(shù)據(jù)的恢復(fù)。

(3)計(jì)算擬合后RMSPE、MAPE、R2指標(biāo),對恢復(fù)后的數(shù)據(jù)進(jìn)行評(píng)價(jià)。

2 異常數(shù)據(jù)辨識(shí)

以廣西南寧某水電站2015年5月投入使用的額定功率為30.77 MW 的燈泡貫流式水電機(jī)組為研究對象,該水電站計(jì)算機(jī)監(jiān)控系統(tǒng)中存儲(chǔ)了自運(yùn)行以來的大量水電機(jī)組運(yùn)行狀態(tài)監(jiān)測數(shù)據(jù)。監(jiān)控系統(tǒng)采集的監(jiān)測參數(shù)包括電流、電壓、功率等電氣參數(shù),振動(dòng)、行程、位移、導(dǎo)葉開度、水位、流量、壓力等機(jī)械參數(shù),以及瓦溫、油溫、繞組溫度等熱量參數(shù),主要測點(diǎn)的部分原始數(shù)據(jù)見表1。在實(shí)際中,由于傳感器異常、機(jī)組停機(jī)、日常維修等問題會(huì)導(dǎo)致存儲(chǔ)的數(shù)據(jù)存在丟失、奇異等問題,在對數(shù)據(jù)分析之前需要對原始數(shù)據(jù)進(jìn)行清洗。

表1 2015年10月9日部分測點(diǎn)部分原始數(shù)據(jù)Tab.1 Part of original data of some measuring points on Oct.9,2015

水電機(jī)組的運(yùn)行過程狀態(tài)是連續(xù)的,具有高度重復(fù)性和高度的相似性,不易發(fā)生突變,可使用K-means 聚類法完成錯(cuò)誤數(shù)據(jù)的辨識(shí)。下面以有功功率、定子線圈溫度為例進(jìn)行數(shù)據(jù)清洗。每個(gè)監(jiān)測參數(shù)有4 998 個(gè)數(shù)據(jù)項(xiàng),每10 min記錄一次數(shù)據(jù)。有功功率及定子線圈溫度參數(shù)的直方圖如圖1所示。

圖1 監(jiān)測數(shù)據(jù)分布統(tǒng)計(jì)Fig.1 Distribution statistics of monitoring data

在圖1(a)中,橫軸0~5 范圍內(nèi)出現(xiàn)的頻率是1 221 次,很明顯該部分?jǐn)?shù)據(jù)是存在錯(cuò)點(diǎn)的,需要對這些數(shù)據(jù)進(jìn)行預(yù)處理。這些接近于0 的數(shù)據(jù)大部分是由于機(jī)組停機(jī)后,由監(jiān)測系統(tǒng)自動(dòng)將這些數(shù)據(jù)補(bǔ)充到當(dāng)前時(shí)刻的數(shù)據(jù)中。由圖1(b)可知,在機(jī)組停機(jī)后溫度傳感器收集到的數(shù)據(jù)依然存儲(chǔ)在監(jiān)控系統(tǒng)的數(shù)據(jù)庫中,因此需要對該部分?jǐn)?shù)據(jù)進(jìn)行辨識(shí)。

使用K-means 聚類法辨別“功率-定子線圈溫度”之間的錯(cuò)誤數(shù)據(jù),如圖2所示為功率-定子線圈溫度分布圖,從其中隨機(jī)選取k個(gè)樣本點(diǎn)作為初始聚類中心,更新類簇直到滿足條件,完成分類,研究不同聚類中心個(gè)數(shù)對辨識(shí)錯(cuò)誤數(shù)據(jù)效果的影響,如圖3所示。

圖2 有功功率-定子線圈溫度Fig.2 Active power-stator coil temperature

從圖3中可以看出聚類中心個(gè)數(shù)的不同,每個(gè)聚類的分布范圍存在較大的差異。隨著聚類中心個(gè)數(shù)的變化,零功率點(diǎn)也隨之變化,當(dāng)聚類中心的個(gè)數(shù)為3時(shí),錯(cuò)誤數(shù)據(jù)檢測出的概率是98.5%。因此使用K-means 聚類方法是可以有效識(shí)別出這些異常的錯(cuò)誤數(shù)據(jù),在實(shí)際應(yīng)用過程中,需要對檢出率與誤檢率進(jìn)行綜合權(quán)衡,確定合理的聚類中心個(gè)數(shù)。在清洗完辨識(shí)出的錯(cuò)誤數(shù)據(jù)后,還需要結(jié)合以下方式進(jìn)行數(shù)據(jù)清洗。

圖3 聚類中心個(gè)數(shù)對功率-曲線聚類結(jié)果的影響Fig.3 The influence of the number of clustering centers on the power curve clustering results

(1)因監(jiān)控系統(tǒng)自身出現(xiàn)的問題如上位機(jī)故障等,無法記錄數(shù)據(jù),導(dǎo)致一些時(shí)間段內(nèi)出現(xiàn)數(shù)據(jù)不變,或者數(shù)據(jù)量全部為0的狀況。因此,剔除數(shù)據(jù)中的所有狀態(tài)量為“0”或者是數(shù)據(jù)不變的記錄。

(2)因機(jī)組在停機(jī)狀態(tài),監(jiān)控系統(tǒng)在正常運(yùn)行,此時(shí)生成的數(shù)據(jù)中功率接近于0,這些數(shù)據(jù)對機(jī)組分析評(píng)估沒有意義。因此,剔除數(shù)據(jù)中有功功率接近于0且機(jī)組轉(zhuǎn)速為0的記錄。

根據(jù)上述方法剔除錯(cuò)誤數(shù)據(jù)后,定子線圈溫度的直方圖如圖4所示。

從圖4的頻數(shù)分布來看,處理后的定子線圈溫度數(shù)據(jù)質(zhì)量相比于處理前的質(zhì)量有了顯著提升。為了進(jìn)一步分析該數(shù)據(jù),用高斯分布進(jìn)行曲線擬合并對該統(tǒng)計(jì)分布的參數(shù)估計(jì),均值為u=77.468 2,方差為σ=11.890 5 均值的0.95 置信區(qū)間為[77.087 5,77.848 8],方差的0.95 置信區(qū)間為[11.627 4,12.165 9],定子線圈溫度近似服從于高斯分布,定子線圈溫度還受到機(jī)組工況等因素影響。

圖4 錯(cuò)誤數(shù)據(jù)處理后定子線圈溫度統(tǒng)計(jì)分布Fig.4 Statistical distribution of stator coil temperature after error data processing

3 缺失數(shù)據(jù)恢復(fù)

以某水電站1 號(hào)機(jī)組2015年7月15日至2016年7月30日的定子線圈溫度和有功功率數(shù)據(jù)為研究對象,共1 982 組數(shù)據(jù),前1 487個(gè)數(shù)據(jù)用于模型訓(xùn)練,后495個(gè)數(shù)據(jù)用于模型驗(yàn)證。對這些水電機(jī)組監(jiān)測數(shù)據(jù),使用基于線性核函數(shù)的Linear SVR 各個(gè)參數(shù)擬合模型的性能指標(biāo)見表2。

表2 Linear SVR模型參數(shù)Tab.2 Parameters of linear SVR model

從表3、圖5、6 中可以看出算法的RMSPE和MAPE均不超過3%,表明該模型訓(xùn)練過程誤差小,擬合程度好、具有較高的預(yù)測精度,可滿足水電機(jī)組的預(yù)測要求。每個(gè)擬合模型類別的擬合優(yōu)度R2都達(dá)到0.99以上,很接近1,說明模型的擬合效果很好。通過分析三個(gè)評(píng)價(jià)性能指標(biāo),結(jié)果表明,運(yùn)用Linear SVR模型能夠高度還原原始數(shù)據(jù)信息,對水電機(jī)組缺失數(shù)據(jù)進(jìn)行恢復(fù)能達(dá)到很好的效果。

表3 擬合模型性能指標(biāo)Tab.3 Performance index of fitting model

圖5 定子線圈溫度線性支持向量回歸擬合效果Fig.5 Fitting effect of stator coil temperature with linear support vector machine

4 結(jié) 論

本文針對水電機(jī)組海量監(jiān)測數(shù)據(jù)中蘊(yùn)含的異常數(shù)據(jù),提出了一種利用K-means 聚類方法辨識(shí)錯(cuò)誤數(shù)據(jù),Linear SVR 恢復(fù)缺失數(shù)據(jù)的方法。案例采用了有功功率和定子線圈溫度的監(jiān)測數(shù)據(jù)驗(yàn)證了所提方法的有效性和可行性,可得以下結(jié)論。

圖6 有功功率線性支持向量回歸擬合效果Fig.6 Fitting effect of active power linear support vector machine

(1)K-means 聚類方法只有一個(gè)聚類參數(shù)可調(diào),計(jì)算簡單。當(dāng)聚類中心為3 個(gè)時(shí),使用K-means 聚類方法辨識(shí)錯(cuò)誤數(shù)據(jù)的準(zhǔn)確率達(dá)98.5%,對辨識(shí)出的異常數(shù)據(jù)進(jìn)行清洗,可以獲得高質(zhì)量的數(shù)據(jù)。

(2)運(yùn)用Linear SVR 模型對水電機(jī)組缺失的定子線圈溫度和有功功率數(shù)據(jù)進(jìn)行恢復(fù),得到數(shù)據(jù)訓(xùn)練模型和驗(yàn)證模型的RMSPE和MAPE均不超過3%,其擬合優(yōu)度R2均在0.99 以上,說明擬合的準(zhǔn)確性高,預(yù)測精度高,恢復(fù)的數(shù)據(jù)接近真實(shí)數(shù)據(jù)。

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 日韩精品一区二区深田咏美| 丁香婷婷激情网| 久草视频中文| 亚洲国产精品日韩欧美一区| 激情综合五月网| 成人午夜亚洲影视在线观看| 久久精品亚洲中文字幕乱码| 免费国产小视频在线观看| 韩日无码在线不卡| 日韩av电影一区二区三区四区 | 免费一级毛片在线观看| 不卡的在线视频免费观看| 欧美日韩精品综合在线一区| 国产亚洲精久久久久久久91| 国产精品99一区不卡| 国产午夜一级淫片| 91毛片网| 国模沟沟一区二区三区| 精品人妻系列无码专区久久| 久久黄色视频影| 最新亚洲av女人的天堂| 午夜福利网址| 伊人成人在线| 欧美黄网在线| 国产大片喷水在线在线视频| 色婷婷久久| 国产精品亚洲精品爽爽| 亚洲无限乱码| 99尹人香蕉国产免费天天拍| 亚洲欧洲日韩国产综合在线二区| 亚洲国产系列| 亚洲精品欧美日韩在线| 亚洲成a人在线播放www| 毛片手机在线看| 狂欢视频在线观看不卡| 色噜噜综合网| 国产在线精品人成导航| 色天天综合久久久久综合片| 国产伦片中文免费观看| 久久综合激情网| 国产内射一区亚洲| 久久久久久久久亚洲精品| 国内精品视频| 亚洲码一区二区三区| 一本大道视频精品人妻| 69精品在线观看| 日韩一级二级三级| 婷婷色在线视频| 2021亚洲精品不卡a| 成人一区专区在线观看| 亚洲婷婷丁香| 国产麻豆va精品视频| 国产精品欧美在线观看| 国产欧美日韩在线一区| 国产主播喷水| 国产日韩精品一区在线不卡| 国产哺乳奶水91在线播放| av在线人妻熟妇| 婷婷六月综合网| 欧美激情视频在线观看一区| 国产www网站| 操操操综合网| 久青草国产高清在线视频| 高潮爽到爆的喷水女主播视频 | 欧美一级高清视频在线播放| 日韩毛片免费观看| 亚洲天堂视频网站| 怡红院美国分院一区二区| 国内精品视频| 日韩无码真实干出血视频| 成人综合久久综合| 久久免费精品琪琪| 夜夜操狠狠操| 一区二区三区四区日韩| 无码内射在线| 亚洲欧美人成电影在线观看| 国产在线视频福利资源站| 国产人妖视频一区在线观看| 亚洲人成在线精品| 一区二区影院| 国产自无码视频在线观看| 国产成+人+综合+亚洲欧美|