999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合IMR-WGAN的時序數(shù)據(jù)修復(fù)方法

2024-03-05 01:41:08孟祥福馬榮國
小型微型計算機系統(tǒng) 2024年3期
關(guān)鍵詞:方法模型

孟祥福,馬榮國

(遼寧工程技術(shù)大學(xué) 電子與信息工程學(xué)院,遼寧 葫蘆島125105)

0 引 言

大數(shù)據(jù)技術(shù)普遍應(yīng)用在工業(yè)工程、社會科學(xué)、新能源等領(lǐng)域.隨著數(shù)據(jù)采集設(shè)備的普及使用,海量的工業(yè)數(shù)據(jù)夜以繼日的產(chǎn)生,其中時間序列數(shù)據(jù)(Time Series Data)是工業(yè)大數(shù)據(jù)最廣泛和最基礎(chǔ)的數(shù)據(jù)形式.對基于采樣時間點的工業(yè)時序數(shù)據(jù)進行挖掘和知識提取,能夠為系統(tǒng)運行狀態(tài)的控制、分析和規(guī)劃提供重要的數(shù)據(jù)論證.從數(shù)據(jù)庫系統(tǒng)提取到的工業(yè)數(shù)據(jù)因技術(shù)故障等客觀因素或人為誤差等主觀因素而廣泛存在數(shù)據(jù)質(zhì)量問題,若直接采用未清洗的異常數(shù)據(jù)建模,會嚴(yán)重影響模型預(yù)測能力和數(shù)據(jù)分析結(jié)果,進而限制了對工業(yè)數(shù)據(jù)特征的深入挖掘和知識提取,同時帶來大量人力物力成本的損耗.修復(fù)數(shù)據(jù)異常和優(yōu)化數(shù)據(jù)質(zhì)量,可以提高模型的預(yù)測能力,進而提升系統(tǒng)的服務(wù)質(zhì)量并增強系統(tǒng)的預(yù)測與防止風(fēng)險能力,保障后續(xù)的數(shù)據(jù)分析階段得到精準(zhǔn)的分析結(jié)果,從而促進工業(yè)大數(shù)據(jù)分析技術(shù)的發(fā)展.

隨著物聯(lián)網(wǎng)和大數(shù)據(jù)等人工智能技術(shù)的發(fā)展,工業(yè)領(lǐng)域?qū)?shù)據(jù)的挖掘更有利于代替人力監(jiān)測系統(tǒng)運行狀態(tài)并提高生產(chǎn)效率.然而,由于工業(yè)數(shù)據(jù)具有多源性、大容量、持續(xù)采樣等特點導(dǎo)致工業(yè)時序數(shù)據(jù)目前普遍存在各種數(shù)據(jù)異常,如峰值誤差、連續(xù)誤差和數(shù)據(jù)缺失等常見的各種數(shù)據(jù)質(zhì)量問題.即使在極其可靠的航空領(lǐng)域和金融領(lǐng)域,其數(shù)據(jù)異常的概率依然在5%左右[1].在數(shù)據(jù)挖掘的研究工作中,超過90%的數(shù)據(jù)分析師要花費至少40%的工作時間用于修復(fù)數(shù)據(jù)異常從而提高數(shù)據(jù)質(zhì)量[2].同時,數(shù)據(jù)修復(fù)作為數(shù)據(jù)預(yù)處理環(huán)節(jié)的必要步驟,在數(shù)據(jù)挖掘等領(lǐng)域有著廣泛應(yīng)用.因此,數(shù)據(jù)修復(fù)已經(jīng)逐漸成為有效清洗異常數(shù)據(jù),提高數(shù)據(jù)質(zhì)量的一種重要手段.只有在高質(zhì)量的工業(yè)數(shù)據(jù)集基礎(chǔ)上進行建模預(yù)測,才能實現(xiàn)可信任和智能化的大數(shù)據(jù)分析技術(shù).

下面結(jié)合實例說明時序數(shù)據(jù)異常情況及數(shù)據(jù)修復(fù)的重要性.圖1展示了采集時間為某日上午10:45~11:00(采樣頻率為30秒)的輻照度數(shù)據(jù).理論上輻照度隨太陽輻射增強而逐步增加,但因輻照儀故障和數(shù)據(jù)傳輸不穩(wěn)定等種種因素會導(dǎo)致采集到的數(shù)據(jù)出現(xiàn)數(shù)據(jù)異常.圖中圓圈圖標(biāo)點線為可信任數(shù)據(jù),矩形圖標(biāo)點線為數(shù)據(jù)庫實際存儲值即包含異常值在內(nèi)的數(shù)據(jù),倒三角圖標(biāo)點線為修復(fù)后的時序數(shù)據(jù).

圖1 輻照儀采集的異常數(shù)據(jù)及修復(fù)數(shù)據(jù)Fig.1 Anomaly data and repair data collected by irradiator

從圖1中可以看出,在10:46:30時刻,輻照度由874.93W/m2瞬間上升880W/m2,明顯偏離真實值序列趨勢,產(chǎn)生了單點峰值誤差;在10:49:00~10:54:00采樣時間內(nèi),輻照度走勢出現(xiàn)了持續(xù)性誤差,異常數(shù)值分布在880W/m2左右.數(shù)據(jù)修復(fù)任務(wù)就是將采集到的異常值修復(fù)為靠近真實數(shù)據(jù)分布的數(shù)值.如在10:46:30時刻的輻照度由880W/m2修復(fù)為875.23W/m2,10:48:30時刻的輻照度由880.16W/m2修復(fù)為875.54W/m2,其余時刻的輻照度修復(fù)情況如圖所示.可以看出,修復(fù)后的輻照度數(shù)據(jù)顯著接近真實值數(shù)據(jù)分布.若利用未修復(fù)輻照度數(shù)據(jù)建模,會導(dǎo)致模型的預(yù)測功率顯著偏低.

基于上述研究現(xiàn)狀,針對帶有時間標(biāo)記的工業(yè)時序數(shù)據(jù)質(zhì)量問題,本文提出了基于獎勵機制的改進IMR[3]與改進Wasserstein 生成對抗網(wǎng)絡(luò)[4](Iterative Minimum Repairing and Wasserstein Generation Adversarial Network with abnormal and Truth reward punishment mechanism,IMR_WGAN-AT)混合模型的時序數(shù)據(jù)修復(fù)方法.基于多模塊組合的StackGAN[5]論證了混合模型方法使得模型有效解決了梯度不穩(wěn)定和模式崩塌現(xiàn)象.

本文將時序數(shù)據(jù)修復(fù)任務(wù)分為數(shù)據(jù)預(yù)處理階段和數(shù)據(jù)修復(fù)階段,主要貢獻如下:

1)在數(shù)據(jù)預(yù)處理階段,與現(xiàn)有基于機器學(xué)習(xí)的修復(fù)方法在數(shù)據(jù)預(yù)處理環(huán)節(jié)直接丟棄異常數(shù)據(jù)的方法不同,本文提出保留異常數(shù)據(jù)并進行信息標(biāo)注及歸一化處理,用于充分挖掘異常數(shù)據(jù)與真實值數(shù)據(jù)之間存在的特征約束,并減少不同時序?qū)傩粤烤V對修復(fù)準(zhǔn)確度的影響.

2)提出了近鄰參數(shù)裁剪規(guī)則,并引入了時間注意力機制和遞歸多步預(yù)測方法.數(shù)據(jù)修復(fù)階段主要分為粗糙噪聲樣本模塊與模擬時序概率分布模塊.粗糙噪聲樣本模塊任務(wù)由基于近鄰參數(shù)裁剪規(guī)則的IMR[3]方法利用異常值與真實值之間的誤差通過最小二乘法獲得修復(fù)參數(shù)矩陣,并利用近鄰參數(shù)裁剪規(guī)則與修復(fù)公式迭代生成噪聲向量;在模擬時序概率分布模塊的生成器設(shè)計了基于動態(tài)時間注意力機制的時間注意力網(wǎng)絡(luò)層,用于提取時序特征權(quán)重,并與門控循環(huán)單元網(wǎng)絡(luò)串聯(lián)組合捕捉窗口周期內(nèi)的時序依賴特征,同時引入遞歸多步預(yù)測方法從而提高生成器修復(fù)數(shù)據(jù)的質(zhì)量.

3)提出了異常值與真實值(Abnormal and Truth,AT)獎勵機制與基于權(quán)重的均方誤差(Weighted Mean Square Error,WMSE)損失函數(shù).為解決判別器識別樣本數(shù)據(jù)的能力過強或過弱的異常訓(xùn)練情況,即判別器無法有效區(qū)分真實樣本和生成樣本,提出了AT獎勵機制.AT獎勵機制對識別出的偽真實數(shù)據(jù)分配高獎勵,增強判別器的識別能力.對偽生成樣本分配低獎勵,懲罰判別器的識別能力;WMSE損失函數(shù)可以優(yōu)化數(shù)據(jù)集中極端數(shù)值導(dǎo)致的誤差波動,在有效降低生成器捕捉時序數(shù)據(jù)中極端數(shù)值特征的同時仍然保留加倍懲罰極端數(shù)值的能力,從而優(yōu)化生成器的表達能力.AT獎懲機制與WMSE損失函數(shù)更好的控制了生成器生成修復(fù)數(shù)據(jù)的生成細節(jié)與生成質(zhì)量,并有效解決了模型訓(xùn)練過程中的梯度不穩(wěn)定以及模式崩塌問題.

本文后續(xù)內(nèi)容結(jié)構(gòu)安排為:第1節(jié)介紹工業(yè)時序數(shù)據(jù)修復(fù)領(lǐng)域的相關(guān)工作.第2節(jié)給出與本文研究相關(guān)的基礎(chǔ)定義,對時間序列、連續(xù)誤差、峰值誤差、修復(fù)點評價標(biāo)準(zhǔn)、近鄰參數(shù)裁剪規(guī)則和修復(fù)問題進行解釋,并提供問題形式化定義.第3節(jié)提出了IMR_WGAN-GP混合時序數(shù)據(jù)修復(fù)模型,并將修復(fù)過程分為數(shù)據(jù)預(yù)處理和數(shù)據(jù)修復(fù)兩個階段闡述本文的創(chuàng)新點及工作過程,包括具體算法等.第4節(jié)通過多個數(shù)據(jù)集上的實驗在數(shù)據(jù)修復(fù)準(zhǔn)確度與模型穩(wěn)定性與現(xiàn)有方法進行了對比分析.第5節(jié)總結(jié)了全文工作.

1 相關(guān)工作

近年來工業(yè)時序數(shù)據(jù)大量產(chǎn)生但時序數(shù)據(jù)會在數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)錄入等過程不可避免的產(chǎn)生諸如連續(xù)誤差、峰值誤差、數(shù)據(jù)缺失、時標(biāo)不齊等種種異常,限制了對工業(yè)領(lǐng)域數(shù)據(jù)的深入分析.因此,工業(yè)時序數(shù)據(jù)的異常點檢測和異常修復(fù)正逐漸成為數(shù)據(jù)挖掘領(lǐng)域的研究熱點和難點.

工業(yè)大數(shù)據(jù)除了具有規(guī)模大、類型雜和質(zhì)量低等基本特征,還具有多模態(tài)、強關(guān)聯(lián)和高通量等新特征[6],這導(dǎo)致了當(dāng)時序數(shù)據(jù)出現(xiàn)質(zhì)量問題時往往不是單一場景的,單點峰值誤差、連續(xù)誤差與數(shù)據(jù)缺失等異常場景往往是伴隨出現(xiàn)的.大多數(shù)現(xiàn)有數(shù)據(jù)清洗方法只針對單一的某種誤差場景,在多種場景并存時數(shù)據(jù)清洗效果不符合建模需求.

基于約束的數(shù)據(jù)修復(fù)算法.Zhang[7]等人針對峰值誤差數(shù)據(jù)修復(fù)提出的速度約束方法與基于關(guān)系型數(shù)據(jù)庫領(lǐng)域具 有NP-hard時間復(fù)雜度的修復(fù)算法不同,它將數(shù)據(jù)修復(fù)轉(zhuǎn)換為線性規(guī)劃問題,并提出基于置信區(qū)間選擇合適速度約束的方法修復(fù)數(shù)據(jù).但僅考慮了單一區(qū)間的速度約束,易因檢測修復(fù)不足而不能達到較優(yōu)的修復(fù)效果.Gao[8]等人提出的多區(qū)間速度約束時序數(shù)據(jù)修復(fù)方法成功解決上述方法的弊端.根據(jù)多區(qū)間速度約束生成各數(shù)據(jù)點的修復(fù)候選點集合,采用動態(tài)規(guī)劃方法選取最優(yōu)解.基于速度約束的修復(fù)方法可以有效地修復(fù)峰值誤差,但方法是基于鄰近連續(xù)點進行修復(fù)的,故數(shù)據(jù)出現(xiàn)連續(xù)誤差時,修復(fù)精度明顯低于其他類型修復(fù)方法.同時,基于約束的方法也會因約束閾值設(shè)置的過于寬松或嚴(yán)格而導(dǎo)致修復(fù)精度不高.

基于統(tǒng)計的數(shù)據(jù)修復(fù)算法.基于統(tǒng)計的修復(fù)方法有效解決了基于約束的方法在修復(fù)連續(xù)誤差場景下的明顯弊端.Zhang等人參考ARX[9]支持外生輸入的時序數(shù)據(jù)清洗模型,在充分利用標(biāo)注信息并結(jié)合數(shù)據(jù)中的時序關(guān)聯(lián)特性與數(shù)據(jù)修復(fù)最小變化原則[10]的情況下,提出了基于最小二乘法的最小迭代修復(fù)模型[3](Iterative Minimum Repairing,IMR),通過最小二乘法計算修復(fù)參數(shù)矩陣,并結(jié)合修復(fù)公式迭代清洗數(shù)據(jù).此方法是基于前一個修復(fù)點是可信任的前提下進行修復(fù)的,即若前一個點修復(fù)不準(zhǔn)確,則導(dǎo)致該異常片段數(shù)據(jù)整體修復(fù)精度不高.基于統(tǒng)計的方法因平滑修復(fù)機制導(dǎo)致對時間步長較遠的異常值修復(fù)準(zhǔn)確率較低.

基于機器學(xué)習(xí)的數(shù)據(jù)修復(fù)算法.Lago[11]等人得出結(jié)論,基于機器學(xué)習(xí)的數(shù)據(jù)修復(fù)方法比其他類型方法可以取得更高的修復(fù)準(zhǔn)確度.Mahdieh Ataeyan[12]等人提出了基于約束和集成學(xué)習(xí)的數(shù)據(jù)修復(fù)方法,主要利用數(shù)據(jù)庫存儲規(guī)則的特殊性與顯性函數(shù)依賴關(guān)系,為每個屬性分別構(gòu)建貝葉斯、決策樹和多層感知機網(wǎng)絡(luò)的集成模型用于修復(fù)數(shù)據(jù).若數(shù)據(jù)特征之間無明顯函數(shù)依賴但存在隱性特征關(guān)聯(lián),則模型修復(fù)能力明顯降低.為了充分利用時序數(shù)據(jù)之間的隱性特征關(guān)聯(lián),Hu[13]等人首次將生成對抗網(wǎng)絡(luò)模型引入到數(shù)據(jù)修復(fù)領(lǐng)域并提出改進型深度修復(fù)生成對抗網(wǎng)絡(luò)(Deep data repair Generation Adversarial Network,DrGAN),利用一維卷積神經(jīng)網(wǎng)絡(luò)(One-dimensional convolutional neural networks,ConV1D)捕捉特征之間的隱性依賴,用于修復(fù)不同數(shù)據(jù)丟失率場景下的數(shù)據(jù).但DrGAN因不同煤熱、煤質(zhì)和流體特性等數(shù)據(jù)集獨有特性導(dǎo)致模型的遷移能力較差,且未在梯度穩(wěn)定方面做出改進,仍易出現(xiàn)梯度消失情況.在有少量數(shù)據(jù)點可用時,Bashar[14]等人提出了TAnoGAN(Time Series Anomaly Detection with Generative Adversarial Networks,TAnoGAN)方法用于時序數(shù)據(jù)異常點檢測領(lǐng)域,通過逆映射將序列映射到潛在空間并重建序列,重建損失用于估計異常分數(shù).Dan等人將基于遺傳算法的MAD-GAN[15](Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks,MAD-GAN)模型用于多變量時序數(shù)據(jù)異常檢測,對多個數(shù)據(jù)流之間的復(fù)雜多變量相關(guān)性進行整體建模.將多元時間序列數(shù)據(jù)劃分為一個滑動窗口的子序列,同時重構(gòu)損失函數(shù).但是在確定最佳子序列及模型穩(wěn)定方面未做出改進.Geiger[16]等人提出了基于生成對抗網(wǎng)絡(luò)的無監(jiān)督時序數(shù)據(jù)異常檢測方法TadGAN(Time Series Anomaly Detection Using Generative Adversarial Networks,TadGAN),通過引入周期一致性損失訓(xùn)練緩解生成器與判別器的矛盾,并試驗了逐點和基于窗口的方法重構(gòu)誤差以緩解梯度不穩(wěn)定和模式崩塌問題.工業(yè)系統(tǒng)通常是源源不斷地產(chǎn)生數(shù)據(jù),需要專家提供正確標(biāo)簽并反饋到模型中,使模型主動學(xué)習(xí)到數(shù)據(jù)的變化.因此充分挖掘異常數(shù)據(jù)與真實值數(shù)據(jù)之間的特征約束并反饋到模型中,與緩解梯度消失或梯度爆炸和模式崩塌問題對于提高模型的精度與穩(wěn)定性均是尤為重要的.

基于上述研究現(xiàn)狀,針對工業(yè)時序數(shù)據(jù)出現(xiàn)連續(xù)誤差、單點峰值誤差和數(shù)據(jù)缺失3種數(shù)據(jù)異常并存的場景時,本文提出了融合獎勵機制的IMR_WGAN-GP混合模型的時序數(shù)據(jù)修復(fù)方法.在保留異常數(shù)據(jù)并進行信息標(biāo)注及歸一化處理后,采用基于近鄰裁剪規(guī)則的IMR[3]方法處理數(shù)據(jù)并輸出噪聲向量.同時引進時間注意力機制提取時序特征權(quán)重,并與GRU網(wǎng)絡(luò)串聯(lián)組合挖掘時序數(shù)據(jù)特征.設(shè)計AT獎勵機制和WMSE損失函數(shù)用于提高判別器識別真實樣本和生成樣本的能力,反向優(yōu)化生成器修復(fù)數(shù)據(jù)的細節(jié)和質(zhì)量,且有效解決了梯度異常及模式崩塌問題.

2 問題定義

定義1.(時間序列數(shù)據(jù))時間序列數(shù)據(jù)指在不同時間標(biāo)記上收集到的數(shù)據(jù),用于描述現(xiàn)象隨時間變化的情況.在一條數(shù)據(jù)序列X={x1,x2,…,xi,…,xm},xi表示第i個數(shù)據(jù)點,同時每個數(shù)據(jù)點xi都有一個時間標(biāo)記ti.

比如,例1中的輻照度時序數(shù)據(jù),描述了采樣時間為10:45~11:00(采樣頻率為30秒)的輻照度變化情況,數(shù)據(jù)點x1=874.4122W/m2對應(yīng)時間標(biāo)記t1=10:45:00,以此類推,每一個時間標(biāo)記ti都有對應(yīng)的數(shù)據(jù)點xi.

定義2.(連續(xù)誤差)連續(xù)誤差是指時間序列數(shù)據(jù)中出現(xiàn)了一段持續(xù)性偏離真實值序列趨勢的異常數(shù)據(jù)段.

比如,例1中連續(xù)時序數(shù)據(jù)段x8~x18明顯偏離整體真實值趨勢,稱為連續(xù)誤差數(shù)據(jù).

定義3.(峰值誤差)峰值誤差是指時間序列數(shù)據(jù)中出現(xiàn)了少量顯著偏離真實值序列趨勢的異常數(shù)據(jù)點,峰值可為正峰值或負峰值,即峰值誤差數(shù)據(jù)相對真實值序列相對向上或向下偏離.

比如,例1中出現(xiàn)的單點正峰誤差x4明顯偏離原有時序數(shù)據(jù)趨勢,稱為峰值誤差數(shù)據(jù)或單點峰值誤差數(shù)據(jù).

定義4.(修復(fù)點評價標(biāo)準(zhǔn))假設(shè)時間序列X內(nèi)的xi為異常點,Y表示修復(fù)后的序列,每個yi為標(biāo)注的真實值或xi點的修復(fù)值.修復(fù)任務(wù)就是將時間標(biāo)簽ti對應(yīng)的異常點xi修復(fù)為yi,判定成功修復(fù)的評價標(biāo)準(zhǔn)遵循數(shù)據(jù)修復(fù)領(lǐng)域內(nèi)最小變化原則[10],定義為:

(1)

其中,w表示修復(fù)窗口的序列長度,0≤i=l,l+1,…,l+w≤m.如圖1所示,原數(shù)據(jù)點x3修復(fù)為y3,修復(fù)前后時間標(biāo)簽t3保持不變,在迭代修復(fù)過程中,該點的最小修復(fù)距離為D(x3,y3)=|y3-x3|=4.77.

定義5.(近鄰參數(shù)裁剪規(guī)則)近鄰參數(shù)裁剪規(guī)則是指在每次迭代修復(fù)過程中將數(shù)據(jù)集中明顯偏離真實值序列趨勢的數(shù)值強制修改為[-v,v],即修復(fù)值與真實值之間的D(xi,yi)大于該窗口內(nèi)真值序列最大值與最小值之間的距離D(xtruthmin,xtruthmax),且當(dāng)修復(fù)值與真實值之間的誤差小于零,即修復(fù)值位于真實值的下方,則將該點修復(fù)值強制更改為(-v).當(dāng)修復(fù)值與真實值之間的誤差大于零,即修復(fù)值位于真實值的上方,則將該點修復(fù)值強制更改為v,可按式(2)裁剪.

(2)

定義6.(時序數(shù)據(jù)修復(fù)問題的目標(biāo))時序數(shù)據(jù)修復(fù)問題的目標(biāo)具體是指給定一個多種誤差場景并存的時間序列數(shù)據(jù)X,其中包含多段異常數(shù)據(jù)序列,修復(fù)問題是將異常數(shù)據(jù)修復(fù)為盡量貼近真實值的數(shù)據(jù),同時數(shù)據(jù)清洗前后時間標(biāo)簽ti保持不變.如圖1中存在峰值誤差x4和連續(xù)誤差段數(shù)據(jù)x8~x18.矩形圖標(biāo)點線中表示異常數(shù)據(jù),經(jīng)過模型修復(fù)后的序列數(shù)據(jù)如倒三角圖標(biāo)點線所示.相較于異常值序列,修復(fù)后的數(shù)據(jù)序列已經(jīng)顯著貼近真實值數(shù)據(jù)序列.

3 IMR_WGAN-GP時序數(shù)據(jù)修復(fù)模型

本節(jié)將修復(fù)工作分為數(shù)據(jù)預(yù)處理和數(shù)據(jù)修復(fù)兩個階段,總體框架如圖2所示.為了提高模型的修復(fù)能力,在數(shù)據(jù)預(yù)處理階段保留異常數(shù)據(jù)并對時序數(shù)據(jù)整體進行信息標(biāo)注及歸一化處理;數(shù)據(jù)修復(fù)階段分為粗糙噪聲樣本和模擬時序概率分布兩個模塊.首先,在噪聲樣本模塊通過異常值與真實值之間的差值求得參數(shù)估計矩陣,利用最小二乘法計算出修復(fù)參數(shù)矩陣,結(jié)合基于近鄰裁剪規(guī)則的修復(fù)公式迭代生成噪聲向量;然后,噪聲向量作為模擬時序概率分布模塊的噪聲輸入,生成器與判別器進行二元極大極小對抗訓(xùn)練.此時模型輸出候選修復(fù)數(shù)據(jù)并通過修復(fù)點評價標(biāo)準(zhǔn)(第2節(jié)定義4)進行評估,候選修復(fù)數(shù)據(jù)通過評估后,此時模型達到納什均衡狀態(tài),模型訓(xùn)練完成;最后,保存模型參數(shù)文件并輸出修復(fù)序列.

圖2 時序數(shù)據(jù)修復(fù)過程框架圖Fig.2 Framework diagram of the time series data repair process

3.1 數(shù)據(jù)預(yù)處理階段

受到基于統(tǒng)計的IMR[3]時序數(shù)據(jù)修復(fù)中利用異常數(shù)據(jù)的思想啟發(fā),且現(xiàn)有基于機器學(xué)習(xí)時序數(shù)據(jù)修復(fù)方法對異常數(shù)據(jù)的處理方式是直接丟棄或者忽視,從而降低了數(shù)據(jù)修復(fù)準(zhǔn)確度.故本文選擇保留異常數(shù)據(jù)并對完整時序數(shù)據(jù)進行信息標(biāo)注且同時進行歸一化操作.

1)信息標(biāo)注

信息標(biāo)注是指對工業(yè)時序數(shù)據(jù)中異常值和真實值進行人工標(biāo)注或自動標(biāo)注,標(biāo)注后的異常數(shù)據(jù)與真實值共同拼接成特征向量.

異常值對應(yīng)的真值可以通過人為標(biāo)注或自動標(biāo)注.比如,準(zhǔn)確的位置信息是由用戶實際打卡并在地圖上人為標(biāo)記;周期性的自動標(biāo)注發(fā)生在部分工業(yè)場景下,比如精確的傳感器在相對較長的周期內(nèi)采集準(zhǔn)確的數(shù)據(jù)(作為標(biāo)注值),而人為因素或數(shù)據(jù)傳輸故障可能會持續(xù)產(chǎn)生不可靠的數(shù)據(jù)序列[17].

2)歸一化

由于不同特征的監(jiān)測數(shù)據(jù)具有不同的量綱,即數(shù)值相差較大,且模型的激活函數(shù)敏感區(qū)間也是有限的.為減小因量綱不同造成的模型預(yù)測精度問題,在輸入模型之前,對原始數(shù)據(jù)進行歸一化操作,歸一化公式為[18]:

(3)

式中xmin、xmax分別表示對應(yīng)特征原始真實值數(shù)據(jù)中的最小值與最大值,X*代表歸一化的數(shù)據(jù).

3.2 數(shù)據(jù)修復(fù)階段

數(shù)據(jù)修復(fù)階段是IMR_WGAN-GP完成時序數(shù)據(jù)修復(fù)的核心階段,該階段的任務(wù)是進一步挖掘時序數(shù)據(jù)真實值與異常值、同一特征內(nèi)部的時序數(shù)據(jù)及不同特征之間的動態(tài)時序依賴特征,進而提高生成器修復(fù)數(shù)據(jù)的質(zhì)量.數(shù)據(jù)修復(fù)階段框架如圖2所示,主要由基于近鄰參數(shù)裁剪規(guī)則的改進IMR[3]方法組成的粗糙樣本模塊和融合AT獎勵機制與時間注意力機制的WGAN-AT組成的模擬時序概率分布模塊組合而成.

3.2.1 粗糙噪聲樣本模塊

為了生成質(zhì)量更好的噪聲向量,在IMR[3]的基礎(chǔ)上提出了近鄰參數(shù)裁剪規(guī)則.首先,根據(jù)異常值與真實值之間的參數(shù)估計矩陣按式(4)獲取修復(fù)參數(shù)矩陣;其次,按修復(fù)式(5)利用參數(shù)矩陣與前一個數(shù)據(jù)點進行迭代修復(fù);最后,結(jié)合近鄰參數(shù)裁剪規(guī)則(式(2))在每次迭代中將修復(fù)值與真實值之間的D(xi,yi)大于該特征真實值序列內(nèi)部最大值與最小值之間的距離D(xtruth_min,xtruth_max)的數(shù)值強制更改為[-v,v].參數(shù)估計矩陣式和修復(fù)式分別如下:

(4)

(5)

3.2.2 模擬時序分布模塊

粗糙噪聲樣本模塊輸出的噪聲向量作為該模塊的生成器輸入,生成器主要由動態(tài)時間注意力層、GRU和Dense網(wǎng)絡(luò)構(gòu)成.判別器由Conv1D、Flatten和Dense網(wǎng)絡(luò)及AT獎勵機制和梯度懲罰構(gòu)成,其中損失函數(shù)為本文設(shè)計的WMSE函數(shù).前者代表通過噪聲樣本模塊生成的噪聲向量學(xué)習(xí)真實值時序數(shù)據(jù)分布生成模擬樣本,后者代表判斷輸入樣本為真實樣本的概率.為了獲得真實但“非真實”的數(shù)據(jù),IMR_WGAN-AT在判別器和生成器網(wǎng)絡(luò)之間進行二元極大極小博弈.

1)生成器

生成器的目標(biāo)是通過輸入噪聲樣本生成模塊生成的噪聲向量,向真實數(shù)據(jù)分布映射并生成同概率分布的修復(fù)值.本方法的修復(fù)值生成過程借鑒了時序預(yù)測中的遞歸多步超前預(yù)測原理.因此,在生成器中,需要定義與數(shù)據(jù)預(yù)處理階段同步的輸入步長并定義輸出步長,生成器的輸入將是一個三維數(shù)據(jù),即批次大小、特征和輸入步長,生成器輸出將是輸出步長大小的數(shù)據(jù).

為了構(gòu)建一個性能良好的生成器,選擇引入動態(tài)時間注意力機制設(shè)計時間注意力網(wǎng)絡(luò)并與GRU網(wǎng)絡(luò)組合挖掘窗口周期內(nèi)不同時間步長的真實值與異常值、同一特征內(nèi)部的時序數(shù)據(jù)及不同特征之間的潛在關(guān)聯(lián),從而使得模型在修復(fù)過程中能根據(jù)權(quán)重大小給予特征不同程度的關(guān)注.圖3展示了IMR_WGAN-AT的主要網(wǎng)絡(luò)結(jié)構(gòu),初始工業(yè)數(shù)據(jù)集經(jīng)噪聲生成模塊初次修復(fù)后生成粗糙噪聲向量,動態(tài)時間注意力網(wǎng)絡(luò)層與三層GRU層作為主網(wǎng)絡(luò)架構(gòu),后串聯(lián)三層Dense層,其中最后一層Dense的神經(jīng)元數(shù)量將與要預(yù)測的輸出步長相同.判別器的主網(wǎng)絡(luò)架構(gòu)由三層ConV1D和Dense層組成,AT獎勵機制的樣本數(shù)據(jù)來自于生成器的生成數(shù)據(jù)與真實工業(yè)數(shù)據(jù),并與WMSE等損失函數(shù)共同反向優(yōu)化生成器修復(fù)數(shù)據(jù).

圖3 生成器和判別器網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Generator and discrim inator network structure diagram

噪聲向量進入生成器內(nèi)部后,在下述的小模塊中更新參數(shù)并根據(jù)損失函數(shù)不斷優(yōu)化生成器的修復(fù)數(shù)據(jù)質(zhì)量.

(1)動態(tài)時間注意力模塊

(6)

(7)

(8)

(2)計算隱藏狀態(tài)

(9)

(10)

(11)

最終記憶狀態(tài):ht=(1-zt)⊙ht-1+zt⊙h′t

(12)

其中σ(.)表示Sigmoid激活函數(shù),Wz、Wr、W分別為對應(yīng)狀態(tài)的參數(shù)矩陣.

(3)遞歸多步預(yù)測方法

為了更好地結(jié)合時序數(shù)據(jù)的周期性和提高數(shù)據(jù)利用率,本文引用時間序列預(yù)測中的遞歸多步超前預(yù)測方法生成修復(fù)數(shù)據(jù).時間序列數(shù)據(jù)為挖掘不同步長的時序依賴特性而需預(yù)測多個時間步長,稱為多步時序預(yù)測.

以例1中的數(shù)據(jù)闡述遞歸多步預(yù)測方法,現(xiàn)令滑動窗w內(nèi)包含數(shù)據(jù)x5~x10為[875.9985,875.0094,875.1409,880.1603,880.5120,880.6442],對應(yīng)的真實值序列為[875.9985,875.0094,875.1409,875.1603,875.2421,875.5354],步長為3,其中點x8~x10為未知待修復(fù)點.用本文方法根據(jù)[875.9985,875.0094,875.140]將x8修復(fù)為y8即875.5385,然后將預(yù)測值當(dāng)為特征值遞歸修復(fù),即根據(jù)[875.0094,875.1409,875.5385]將x9修復(fù)為y9即875.5526.

(4)生成器模型輸出

(13)

式中,ψ(.)表示帶有Adam激活函數(shù)的GRU層,WGRU分別表示生GRU網(wǎng)絡(luò)中的權(quán)值矩陣.

(5)生成器的損失函數(shù)

生成器的損失函數(shù)(式(14))能夠描述生成的樣本與真實樣本的相似性,具有低生成器損失的樣本通常能夠提供良好的樣本質(zhì)量.因此生成器可以通過優(yōu)化損失函數(shù)學(xué)到真實樣本分布并生成相似分布的樣本數(shù)據(jù).

G_Loss=-Ex~PG[D(G(z))]

(14)

其中,PG代表生成器的生成數(shù)據(jù)分布,z代表噪聲數(shù)據(jù).

2)判別器

判別器的目標(biāo)是鑒定輸入到判別器的樣本是否來自真實樣本數(shù)據(jù)Xreal并輸出標(biāo)量分數(shù).標(biāo)量分數(shù)解釋為輸入數(shù)據(jù)的真實程度,即分數(shù)越高,判別器的輸入數(shù)據(jù)來自真實樣本空間的可能性越大.具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,判別器的主架構(gòu)由善于挖掘時序特征的Conv1D網(wǎng)絡(luò)構(gòu)成.為了使判別器可以精準(zhǔn)的完成目標(biāo)任務(wù),本文設(shè)計了Abnormal and Truth獎勵機制和基于權(quán)重的誤差損失函數(shù)Weighted Mean Square Error.

(1)Abnormal and Truth獎勵機制

(15)

AT=(-1)ξδ*Ex~PATdata(D(G(x))+D(x))

(16)

其中η是獎勵空間中真實樣本和生成樣本的混合比例,x是從獎勵空間的數(shù)據(jù)中提取的數(shù)據(jù).ξ表示控制獎勵式分配高獎勵或低獎勵,δ表示獎勵的程度.G(.)表示生成器,D(.)表示判別器.

圖4和圖5分別展示了例1中數(shù)據(jù)集在相同參數(shù)下是否加入AT機制訓(xùn)練1000次的損失函數(shù).圖4展示判別器和生成器的損失值從46.8迅速下降到0.1附近,判別器與生成器在第350輪左右達到偽納什均衡狀態(tài),代表此時生成器的修復(fù)數(shù)據(jù)完美欺騙判別器并被判定為真數(shù)據(jù),判別器在訓(xùn)練初期識很容易達到了高準(zhǔn)確性.圖5展示了模型加入了AT獎勵機制后,在訓(xùn)練初期判別器的損失值最高為24.7,大幅提高了判別器的判別能力,判別器和生成器在第215輪左右逐漸達到納什均衡.可以看出,在訓(xùn)練時加入AT機制,明顯精確了判別器的識別樣本能力.第4節(jié)的實驗表明,模型加入AT獎勵機制后,判別器的判定能力更精確,反向優(yōu)化生成器生成的樣本質(zhì)量更好.

圖4 生成器和判別器原始損失值Fig.4 Generator and discriminator raw loss values

圖5 加入AT機制的生成器和判別器損失值Fig.5 Generator and discriminator loss values added to the AT mechanism

(2)Weighted Mean Square Error損失函數(shù)

不同類型的工業(yè)時序數(shù)據(jù)集即使在正常數(shù)值范圍內(nèi)也會在時間周期內(nèi)出現(xiàn)極端值,如零或相對整體趨勢較高的數(shù)據(jù).在第4節(jié)的輻照度數(shù)據(jù)集中,輻照度當(dāng)日5點~20點的有效數(shù)值區(qū)間可能為0~900W/m2,其余時間均為零.現(xiàn)有損失函數(shù)對極端值過于寬松或敏感,造成判別器的損失過大或過小,導(dǎo)致判別能力下降,從而導(dǎo)致生成器的生成樣本分布仍然遠離真實數(shù)據(jù)分布.基于權(quán)重的均方誤差(Weighted Mean Square Error,WMSE)作為損失函數(shù)可以有效減緩時序數(shù)據(jù)集中極端值產(chǎn)生的波動且依然保留加倍懲罰極端誤差的能力,可以更好的控制生成器生成樣本的細節(jié),故可用式(17)表示.第4節(jié)的實驗證明,采用WMSE作為損失函數(shù),可以更好地反向優(yōu)化生成器參數(shù),從而生成更準(zhǔn)確的修復(fù)數(shù)據(jù).

(17)

式中yi作為異常值的修復(fù)值,xi作為異常值對應(yīng)的真實值.

(3)梯度懲罰

|f(x1)-f(x2)|≤K|x1-x2|

(18)

GP=λEx~Ppenatly[(‖?xD(x)‖2-K)2]

(19)

(20)

其中K表示權(quán)重限制,λ代表梯度懲罰力度,Ppenalty、Pdata和Pz分別代表梯度懲罰空間的分布、真實樣本分布和噪聲分布.

3)訓(xùn)練過程

為了實現(xiàn)更好的修復(fù)準(zhǔn)確度,粗糙噪聲樣本模塊先迭代訓(xùn)練生成噪聲向量;模擬時序概率分布模塊接收噪聲向量后的訓(xùn)練過程大概如下:每輪訓(xùn)練,通常先訓(xùn)練判別器num次,后相應(yīng)的訓(xùn)練一次生成器.同時利用Checkpoint機制及時保存網(wǎng)絡(luò)權(quán)重,增大模型訓(xùn)練過程中的容錯能力.具體訓(xùn)練過程如下:

步驟1.輸入經(jīng)過信息標(biāo)注和歸一化后的時序數(shù)據(jù),首先根據(jù)異常值與真實值之間的誤差獲得參數(shù)矩陣,其次根據(jù)最小二乘法計算出修復(fù)參數(shù)估計矩陣,最后根據(jù)修復(fù)公式和近鄰裁剪規(guī)則生成修復(fù)數(shù)據(jù),迭代多次后生成噪聲向量.

步驟4.從生成樣本空間PG和真實樣本空間Pdata隨機抽取樣本組成懲罰樣本空間Ppenalty,對Ppenalty內(nèi)的所有數(shù)據(jù)按式(19)裁剪網(wǎng)絡(luò)權(quán)重;

步驟5.WMSE作為判別器的損失函數(shù)進行更新,得到的損失值與GP和AT獎勵機制共同作為總的判別器損失參與訓(xùn)練,同時利用Checkpoint機制分節(jié)點保存模型文件;

步驟6.重復(fù)步驟1~5進行訓(xùn)練,生成器與判別器的網(wǎng)絡(luò)參數(shù)在每個步驟利用合適的激活函數(shù)和正則損失反向傳播更新網(wǎng)絡(luò)的參數(shù),判別器與生成器在對抗中進行極大極小博弈;

步驟7.經(jīng)過上述過程,最終在多次訓(xùn)練中選擇準(zhǔn)確度最高的修復(fù)數(shù)據(jù)作為模型的輸出Y,即該模塊的數(shù)據(jù)修復(fù)點與真值點的距離D(X,Y)最小,且模型達到納什均衡.

算法1.IMR_WGAN-GP修復(fù)算法

輸出:數(shù)據(jù)修復(fù)結(jié)果序列Y、模型參數(shù)文件

//利用迭代修復(fù)模塊生成噪聲樣本.

1. fori← 0 toiterationsdo://獲取修復(fù)參數(shù)矩陣.

5.returnYz
//以生成器和判別器單次對抗訓(xùn)練為例.

6.fori← 0 toepochsdo:

7. whileθ不收斂 do:

//從真實數(shù)據(jù)空間Pdata中抽取n個樣本.

//從噪聲樣本模塊生成的噪聲樣本中隨機獲取噪聲數(shù)據(jù)zi.

//更新判別器參數(shù),引入AT獎勵機制與GP梯度懲罰,并用WMSE作為損失函數(shù).

//生成AT機制的輸入數(shù)據(jù)空間ATdata

12.AT=δ*Ex~PATdata(D(G(x))+D(x))

13.GP=λEx~Ppenatly[(‖?xD(x)‖2-K)2]

14.θd←θd+lr?VD(θd)+AT+GP

//更新生成器參數(shù).

16.θG←θG-lr?VD(θG)

17.Y←G(θG,x)

18. end while

19.ReturnY

4 性能實驗評價

為驗證本文所提出的時序數(shù)據(jù)修復(fù)方法的先進性,本節(jié)選擇4個數(shù)據(jù)集依據(jù)數(shù)據(jù)修復(fù)的評價標(biāo)準(zhǔn)進行實驗評估,同時將實驗結(jié)果與多個現(xiàn)有修復(fù)方法進行對比.具體實驗環(huán)境、實驗數(shù)據(jù)、評價標(biāo)準(zhǔn)、實驗結(jié)果以及現(xiàn)有方法對比分析如下所述.

4.1 實驗設(shè)置

1)實驗環(huán)境

本文使用Python和SQL語言在如下環(huán)境下對各部分內(nèi)容進行實現(xiàn),深度學(xué)習(xí)框架為 TensorFlow 2.1.0版本.處理器為AMD Ryzen 7 4800H with Radeon Graphics,顯卡為NVIDIA GeForce RTX 2060 6GB,內(nèi)存為32GB 3200MHz.

2)實驗參數(shù)和基準(zhǔn)方法

訓(xùn)練批次bathsize大小為128,訓(xùn)練輪數(shù)epoch為10000,初始迭代次數(shù)iterations為10000,迭代次數(shù)的選擇取決于修復(fù)函數(shù)在迭代次數(shù)內(nèi)是否收斂.GRU層的記憶單元維度分別為8,256,128.為防止傳播過程中參數(shù)過擬合,故在GRU層增加0.001的L2正則化約束,Dropout等于0.2,選擇學(xué)習(xí)率為0.001的Adam為優(yōu)化器.Conv1D層中卷積核尺寸設(shè)置為8,32,64,采用alpha為0.01的LeakyReLu激活函數(shù),確保網(wǎng)絡(luò)從不同維度和不同時間間隔內(nèi)獲取多種特征.經(jīng)過多輪不同參數(shù)對比實驗發(fā)現(xiàn),當(dāng)梯度懲罰中的λ為10,AT獎勵機制中的δ為4時,判別器的識別能力最準(zhǔn)確,且反向優(yōu)化生成器的修復(fù)能力最強.判別器與生成器參數(shù)迭代更新比例為8∶1.

本文選擇了4種基準(zhǔn)方法與IMR_WGAN-GP進行對比實驗,分別是基礎(chǔ)的GRU、GAN、原始IMR以及未融合AT獎勵機制與WMSE損失函數(shù)的IMR_WGAN.為保證實驗結(jié)果的公平性,對比實驗?zāi)P途x取相同的超參數(shù)和訓(xùn)練批次大小.

3)實驗數(shù)據(jù)

本文采用一個人工合成數(shù)據(jù)集、一個公開數(shù)據(jù)集及兩個真實數(shù)據(jù)集進行實驗對比.合成數(shù)據(jù)集含2457組數(shù)據(jù)9824個數(shù)據(jù)點,數(shù)據(jù)序列隨時間標(biāo)記的變化呈現(xiàn)不同的變化趨勢.公開數(shù)據(jù)集ILD(http://db.csail.mit.edu/labdata/labdata.html,ILD)記錄了從2月28日~4月5日遍布因特爾實驗室角落的54個傳感器以31秒為采樣頻率記錄的溫度、濕度、電壓等測量指標(biāo).本文選取2號傳感器從3月1日~3月3日約4229組數(shù)據(jù)29603個數(shù)據(jù)點.上述數(shù)據(jù)集無錯值點,采用文獻[8]的方法通過隨機生成新的數(shù)據(jù)值作為異常值代替原有真實值.帶有誤差的真實數(shù)據(jù)集1為重慶地區(qū)某礦山井下同一個監(jiān)測點(FC 3-5號層1070西翼回風(fēng)巷粉塵)的8月4日~8月5日的包含真實誤差在內(nèi)的粉塵氣體監(jiān)測值,共包含以50秒為采樣頻率的1584組數(shù)據(jù)14256個數(shù)據(jù)點.帶有誤差的真實數(shù)據(jù)集2為某地區(qū)光伏電站輻照儀多個傳感器以15min為采樣頻率全年的輻照度數(shù)據(jù),本文選取9月5日~11月5日的5952組數(shù)據(jù)共29760個點.為了更準(zhǔn)確的驗證本文提出的修復(fù)方法,對人工數(shù)據(jù)集和ILD數(shù)據(jù)集進行不同異常率的實驗對比,其中異常率為10%表示該數(shù)據(jù)集中有10%的數(shù)據(jù)點被隨機替換為異常值.

4.2 評價標(biāo)準(zhǔn)

單一的評價標(biāo)準(zhǔn)在模型的實際應(yīng)用方面存在局限性,很難全面綜合衡量評估模型能力.本文采用RMSE、MAE、MAPE和MSE 4種模型性能評價標(biāo)準(zhǔn)來衡量不同修復(fù)模型的修復(fù)能力與模型穩(wěn)定性.計算方式如下所示:

(21)

(22)

(23)

(24)

其中,令yi作為異常值的修復(fù)值,xi作為異常值對應(yīng)的真實值.

RMSE、MAE、MAPE和MSE共4個模型評價指標(biāo)的取值范圍都是[0,+∞),均方根誤差RMSE是指參數(shù)的估計值與參數(shù)的真實值之差的平方的期望的開方,用于評價數(shù)據(jù)的變化程度,取值越小,說明模型的擬合數(shù)據(jù)能力越強.MSE與RMSE只是在數(shù)值中未進行開方運算,但功能與之類似;平均絕對誤差MAE是樣本絕對誤差的平均值,用于反映預(yù)測值誤差的實際情況,取值越小,說明模型得到的預(yù)測結(jié)果越貼近真實值.MAPE與MAE類似.RMSE、MAE與MSE數(shù)值越小,代表誤差越大.MAPE為0%表示完美模型,MAPE數(shù)值越大則表示模型效果越差.其中,當(dāng)式(23)中出現(xiàn)分母為零時,MAPE評價標(biāo)準(zhǔn)不可用.

4.3 實驗結(jié)果

本文選擇一個人工合成數(shù)據(jù)集、一個公開數(shù)據(jù)集、兩個真實數(shù)據(jù)集對包括IMR_WGAN-GP在內(nèi)的多種數(shù)據(jù)修復(fù)方法在RMSE、MAE、MAPE、MSE的評價指標(biāo)進行了實驗對比,驗證了本文方法的數(shù)據(jù)修復(fù)準(zhǔn)確度與模型穩(wěn)定性均領(lǐng)先于對比數(shù)據(jù)修復(fù)方法.

1)人工合成數(shù)據(jù)集

由圖6的4個子圖可發(fā)現(xiàn),原始數(shù)據(jù)集經(jīng)過修復(fù)后,RMSE、MAE、MAPE和MSE實驗指標(biāo)均下降,即數(shù)據(jù)集質(zhì)量更優(yōu).基于統(tǒng)計的基礎(chǔ)IMR方法與基于機器學(xué)習(xí)的GRU、基礎(chǔ)GAN、IMR_WGAN、IMR_WGAN-GP方法的修復(fù)效果在不同的異常率下的數(shù)據(jù)修復(fù)能力各有千秋.基于統(tǒng)計的修復(fù)與基于機器學(xué)習(xí)的修復(fù)相比并沒有處于絕對的劣勢,基于機器學(xué)習(xí)的GRU、基礎(chǔ)GAN、IMR_WGAN、IMR_WGAN-GP在同一異常率下數(shù)據(jù)的修復(fù)能力沒有絕對優(yōu)勢.

圖6 合成數(shù)據(jù)集的各項評價標(biāo)準(zhǔn)圖Fig. 6 Graphs of various evaluation criteria for artificial dataset

圖6(a)和圖6(d)展示了合成數(shù)據(jù)集的初始和各修復(fù)方法的RMSE和MSE.在異常率為10%的情況下,IMR方法修復(fù)準(zhǔn)確度低于基于機器學(xué)習(xí)的修復(fù)方法,且因此時數(shù)據(jù)中異常數(shù)據(jù)較少,GAN、GRU、IMR_WGAN與IMR_WGAN-GP方法的修復(fù)效果相差不大.在異常率為20%的時候,修復(fù)方法出現(xiàn)了與其他異常率下修復(fù)效果不一致的趨勢.IMR方法的數(shù)據(jù)修復(fù)準(zhǔn)確度大于GAN方法的修復(fù)數(shù)據(jù)準(zhǔn)確度,同時GRU的修復(fù)效果略好于IMR_WGAN-GP的修復(fù)效果.這是因為該異常率下數(shù)據(jù)集誤差趨勢變化比較劇烈且集中,GRU修復(fù)方法因其善于挖掘長時間間隔的依賴數(shù)據(jù)反而學(xué)習(xí)不到數(shù)據(jù)集中出現(xiàn)的劇烈變化趨勢,IMR_WGAN-GP因捕捉不同時間間隔的特征能力過強,導(dǎo)致數(shù)據(jù)修復(fù)結(jié)果不如GRU的修復(fù)效果平滑.同時可以看出,在其他異常率情況下,隨著異常數(shù)據(jù)的增多,各方法的修復(fù)能力均呈現(xiàn)下降趨勢.其中IMR_WGAN-GP方法在修復(fù)過程中保持絕對領(lǐng)先的模型優(yōu)勢即RMSE和MSE最小.

圖6(b)和圖6(c)展示了各方法的修復(fù)值與真實值之間的MAE和MAPE指標(biāo).從圖中可看出,在異常率為10%的時候,IMR方法的MAE和MAPE指標(biāo)總體高于基于機器學(xué)習(xí)的方法的評價指標(biāo),同時GAN、GRU、IMR_WGAN與IMR_WGAN-GP的MAE相差不大.在時序數(shù)據(jù)集出現(xiàn)的誤差趨勢劇烈變化時(即異常率為20%),IMR與基礎(chǔ)的GAN的MAE相似,IMR_WGAN-GP與GRU的預(yù)測能力類似.隨著異常率的增加,基礎(chǔ)GAN修復(fù)模型與GRU修復(fù)模型的MAE總體上升同時差距不大,但均遠高于本文方法的MAE.總體而言,IMR_WGAN-GP在相同異常率下的數(shù)據(jù)修復(fù)能力與模型穩(wěn)定性均優(yōu)于現(xiàn)有方法.

2)ILD數(shù)據(jù)集

圖7的4個子圖展示了IMR_WGAN-GP、IMR_WGAN、IMR、GRU和GAN修復(fù)方法在ILD的修復(fù)準(zhǔn)確度和模型穩(wěn)定性的表現(xiàn).與在合成數(shù)據(jù)集實驗結(jié)論類似,隨著異常率的增加,本文提出的方法與其他修復(fù)方法一樣,模型的修復(fù)能力與穩(wěn)定性均呈下降趨勢,但在相同異常率情況下,數(shù)據(jù)修復(fù)的準(zhǔn)確度和模型穩(wěn)定性總體表現(xiàn)效果均優(yōu)于其他修復(fù)方法.圖7(a)和圖7(d)可以看出,在異常率為10%時,IMR在ILD數(shù)據(jù)集上的修復(fù)效果并沒有很大的提升,GAN、GRU、IMR_WGAN與IMR_WGAN-GP混合模型的RMSE與MSE指標(biāo)接近.在異常率為20%和40%時,IMR與GAN和GRU的修復(fù)效果沒有特別明顯的差距,代表此刻數(shù)據(jù)集中的連續(xù)誤差比較多.

圖7 ILD數(shù)據(jù)集的各項評價標(biāo)準(zhǔn)圖Fig.7 Evaluation standard diagram of ILD dataset

結(jié)合圖7(b)和圖7(c),在異常率為50%時,IMR_WGAN-GP混合模型的MAPE低于IMR和IMR_WGAN的MAPE,這表示此時文本所提方法的模型穩(wěn)定性略差.綜合多種數(shù)據(jù)修復(fù)方法在公開數(shù)據(jù)集ILD上的實驗效果來看,本文所提的IMR_WGAN-GP混合模型時序數(shù)據(jù)修復(fù)方法修復(fù)數(shù)據(jù)的準(zhǔn)確度相較于其他數(shù)據(jù)修復(fù)方法更高,更適用于后續(xù)的數(shù)據(jù)分析及算法建模.

3)礦山巷道氣體檢測數(shù)據(jù)集

為了驗證本文提出的IMR_WGAN-GP時序數(shù)據(jù)修復(fù)方法在具有真實誤差數(shù)據(jù)集中的實用性,本文選取了重慶某礦山的FC 3-5號層1070西翼回風(fēng)巷粉塵監(jiān)測點在8月4日~8月5日的粉塵氣體監(jiān)測值,數(shù)據(jù)集內(nèi)包含有連續(xù)誤差和峰值誤差等多種數(shù)據(jù)異常,在此數(shù)據(jù)集上開展包括IMR_WGAN-GP、IMR_WGAN、IMR、GAN、GRU在內(nèi)的多種修復(fù)方法進行實驗對比,最終得出表1實驗結(jié)果.

表1 各方法在粉塵數(shù)據(jù)集的修復(fù)評價標(biāo)準(zhǔn)表Table 1 Table of remediation evaluation criteria for each method in the dust dataset

從表中可發(fā)現(xiàn),未經(jīng)修復(fù)的數(shù)據(jù)集中的RMSE、MSE與MAE均較大,經(jīng)過修復(fù)方法修復(fù)后,數(shù)據(jù)質(zhì)量得到了明顯的優(yōu)化.其中,基于機器學(xué)習(xí)的GRU與基礎(chǔ)GAN的修復(fù)準(zhǔn)確度較數(shù)據(jù)集初始準(zhǔn)確度有顯著的提升,基于統(tǒng)計分析的基礎(chǔ)IMR修復(fù)方法提升的數(shù)據(jù)質(zhì)量相對GRU與GAN優(yōu)化的質(zhì)量并不明顯.引入AT獎勵機制和重構(gòu)損失函數(shù)后,IMR_WGAN-GP的修復(fù)效果顯著優(yōu)于IMR_WGAN,即經(jīng)過IMR_WGAN-GP混合模型修復(fù)后的修復(fù)值與真實值之間的誤差最小,即RMSE、MAE與MSE均是最小(粉塵氣體監(jiān)測真實值會出現(xiàn)零值,故MAPE評價指標(biāo)不可用).綜合上述時序數(shù)據(jù)修復(fù)方法在實驗數(shù)據(jù)集上的表現(xiàn),本文所提出的修復(fù)方法不僅在合成數(shù)據(jù)和公開數(shù)據(jù)集上取得了明顯的修復(fù)效果,在具有真實誤差的數(shù)據(jù)集上的修復(fù)效果也是有效的.

4)輻照度數(shù)據(jù)集

為了進一步驗證本文提出的IMR_WGAN-GP時序數(shù)據(jù)修復(fù)方法在真實誤差數(shù)據(jù)集的實用性,本文針對包含真實數(shù)據(jù)異常的光伏電站輻照度數(shù)據(jù)集使用多種數(shù)據(jù)修復(fù)方法進行實驗對比,最終得出表2的RMSE、MSE、MAE的評價標(biāo)準(zhǔn)結(jié)果(在時間周期內(nèi)正常的輻照度數(shù)據(jù)也會出現(xiàn)零值,故MAPE評價指標(biāo)不可用).

表2 各方法在輻照度數(shù)據(jù)的修復(fù)評價標(biāo)準(zhǔn)表Table 2 Table of restoration evaluation criteria for each method in the irradiance data

從表2中可發(fā)現(xiàn),數(shù)據(jù)集的初始RMSE、MAE和MSE在經(jīng)過修復(fù)后均呈現(xiàn)降低趨勢,表明各修復(fù)方法修復(fù)輻照度數(shù)據(jù)后均有效解決了數(shù)據(jù)集中的異常數(shù)據(jù),并提高了數(shù)據(jù)質(zhì)量.其中,本文所提的數(shù)據(jù)修復(fù)方法的RMSE和MSE均是最低,即表現(xiàn)出了最優(yōu)的模型穩(wěn)定性.IMR_WGAN-GP的略低基礎(chǔ)GAN、GRU和IMR_WGAN修復(fù)方法的MAE,表示修復(fù)值與真實值之間的波動比較大.但從整體實驗效果對比來看,本文所提的數(shù)據(jù)修復(fù)方法IMR_WGAN-GP混合模型在具有異常的真實數(shù)據(jù)集仍然表現(xiàn)出了優(yōu)秀的修復(fù)能力,進一步驗證了本文修復(fù)方法在時序數(shù)據(jù)修復(fù)領(lǐng)域的領(lǐng)先性.

5 總結(jié)和展望

帶有時間標(biāo)記的時序數(shù)據(jù)在各個領(lǐng)域的數(shù)據(jù)管理與分析問題中顯現(xiàn)出至關(guān)重要的價值.時序數(shù)據(jù)的數(shù)據(jù)特點和實際存在的質(zhì)量問題,給數(shù)據(jù)清洗研究的方法策略和算法設(shè)計均帶來了更多挑戰(zhàn).本文的工作主要針對數(shù)據(jù)清洗存在的時序問題、錯誤關(guān)聯(lián)的研究難點,結(jié)合峰值誤差、連續(xù)誤差、數(shù)據(jù)缺失綜合場景下的數(shù)據(jù)質(zhì)量問題,以關(guān)系型數(shù)據(jù)和工業(yè)時間序列數(shù)據(jù)為主要研究對象,提出了基于獎勵機制的IMR_WGAN-GP混合時間序列數(shù)據(jù)修復(fù)模型.該方法在數(shù)據(jù)預(yù)處理階段選擇保留異常數(shù)據(jù)并進行信息標(biāo)注和歸一化操作,在數(shù)據(jù)修復(fù)階段的工作是在IMR的基礎(chǔ)上提出了近鄰參數(shù)裁剪規(guī)則,利用改進的IMR方法構(gòu)成粗糙噪聲樣本生成模塊并同步輸出噪聲向量.在模擬時序概率分布模塊,生成器采用本文設(shè)計的動態(tài)時間注意力網(wǎng)絡(luò)層和GRU網(wǎng)絡(luò)層來捕捉時序數(shù)據(jù)不同時間步長的動態(tài)依賴和非線性特性,并結(jié)合Dense網(wǎng)絡(luò)層共同挖掘時序數(shù)據(jù)真實值序列的概率分布.利用Conv1D和Dense層構(gòu)建判別器的網(wǎng)絡(luò)層,并提出AT獎勵機制和WMSE損失函數(shù),并結(jié)合梯度懲罰共同優(yōu)化判別器的判別能力,更好的控制生成器生成的樣本細節(jié)和樣本質(zhì)量.在合成數(shù)據(jù)集、公開數(shù)據(jù)集和真實數(shù)據(jù)集上的實驗結(jié)果表明,本文所提出的修復(fù)方法能夠同時有效修復(fù)3種數(shù)據(jù)異常場景并存的數(shù)據(jù)異常問題,并且可取得領(lǐng)先的修復(fù)準(zhǔn)確度和模型穩(wěn)定性.

工業(yè)時間序列數(shù)據(jù)具有體量大、采樣速度快、多樣性強等特點,這對數(shù)據(jù)清洗技術(shù)在精準(zhǔn)性、實時性、可靠性等方面提出了更多訴求.面對當(dāng)前研究工作需求,本文的未來研究內(nèi)容展望如下:1)如何實現(xiàn)在保證模型解決場景多樣和修復(fù)精確率的前提下實現(xiàn)實時處理流數(shù)據(jù);2)如何實現(xiàn)針對包括時標(biāo)異常在內(nèi)的更多數(shù)據(jù)異常場景下的同步數(shù)據(jù)修復(fù)技術(shù).

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
學(xué)習(xí)方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 成年人免费国产视频| 国产色网站| 久久香蕉国产线看观看精品蕉| 成人韩免费网站| 91久久国产综合精品女同我| 天堂亚洲网| 国产成人喷潮在线观看| 伊人久久久久久久久久| 狠狠色综合网| 亚洲福利网址| 久久精品只有这里有| 五月天综合网亚洲综合天堂网| 四虎影视库国产精品一区| 日韩小视频网站hq| 在线精品欧美日韩| av大片在线无码免费| 超薄丝袜足j国产在线视频| 久久亚洲国产最新网站| 久久国产高清视频| 午夜啪啪福利| 国产精品9| 九色视频一区| 91无码网站| 9久久伊人精品综合| 青草视频网站在线观看| 国产va在线| 久久精品人人做人人| 久久香蕉国产线看观看式| 亚洲伊人电影| 欧美日韩国产高清一区二区三区| 国产精品999在线| 国产欧美日本在线观看| 在线日韩一区二区| 国产成人喷潮在线观看| 人妻一区二区三区无码精品一区| 欧洲亚洲欧美国产日本高清| 乱人伦视频中文字幕在线| 三级视频中文字幕| AV天堂资源福利在线观看| 亚洲国产清纯| 国产精品香蕉在线| 亚洲AⅤ波多系列中文字幕| 国产精品第三页在线看| 白浆视频在线观看| 国产哺乳奶水91在线播放| 亚洲 欧美 中文 AⅤ在线视频| 韩国v欧美v亚洲v日本v| 亚洲第一成年免费网站| 澳门av无码| 国产91色| 国产精品内射视频| 国产91麻豆视频| 欧洲一区二区三区无码| 亚洲一区二区视频在线观看| 午夜电影在线观看国产1区| 午夜不卡视频| 欧洲精品视频在线观看| 国产午夜人做人免费视频| 一级毛片免费的| 亚洲系列无码专区偷窥无码| 好紧太爽了视频免费无码| 香蕉eeww99国产在线观看| 成年看免费观看视频拍拍| 日韩欧美成人高清在线观看| 国产成人调教在线视频| 国产成人高清精品免费软件| 丝袜美女被出水视频一区| 国产成人精品男人的天堂下载 | 超清无码熟妇人妻AV在线绿巨人| 99精品国产电影| 一本一道波多野结衣一区二区| 国产又大又粗又猛又爽的视频| 99这里只有精品6| 亚洲人成网站在线播放2019| 青草91视频免费观看| 国产精品无码AV片在线观看播放| 99视频精品全国免费品| 四虎永久在线| 99视频在线免费观看| 国产AV毛片| 四虎成人精品| 欧美爱爱网|