999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向復雜工業過程的虛擬樣本生成綜述

2024-04-30 08:07:26崔璨麟喬俊飛
自動化學報 2024年4期
關鍵詞:故障模型

湯 健 崔璨麟 夏 恒 喬俊飛

信息技術的不斷發展和工業自動化進程的不斷 深入,利用多類型傳感器采集的海量多模態數據能夠支撐構建“工業大數據”驅動模型,這已成為復雜工業過程實現智能控制、決策與優化的重要手段[1-4].然而,復雜工業過程的產品質量、污染物排放等難測關鍵運行指標和異常故障的建模數據依然存在量少稀疏、分布不平衡以及內涵機理知識匱乏等問題,難以支撐構建準確且魯棒的檢測與識別模型[5-7].以城市固廢焚燒(Municipal solid waste incineration,MSWI)過程為例,該過程排放的痕量有機污染物二噁英(Dioxin,DXN) 因受限于在線檢測技術的復雜度和離線化驗技術的高成本,使得具有真值的建模樣本數量極少[8-9];此外,已有的真值樣本通常是在某種穩定的次優運行工況下獲得的,極優工況和潛在異常工況下的樣本數據是缺失的.這些有限數量的真值樣本中顯然缺乏有助于洞悉運行指標的相關機理,造成與建模相關的內涵知識匱乏.為解決上述問題,從擴增建模樣本數量的視角,早期模式識別領域的研究學者Poggio 和Vetter 提出虛擬樣本生成(Virtual sample generation,VSG)的概念[10],其核心思想是基于已有數據通過某種方式生成并不存在的樣本以擴充數據空間,其目前已廣泛地應用于圖像處理[11]、人臉識別[12]以及可靠性分析[13]等領域.圖1 給出了近20 年內與VSG 相關的文獻發表數量與被引頻次的變化情況.

圖1 Web of Science 上的VSG 論文數量與被引頻次Fig.1 Number and citation frequency of articles on VSG in Web of Science

由圖1 可知,有關VSG 的論文發表量和被引量在總體上呈現上升趨勢,表明該技術已逐漸受到研究學者的重視.雖然,Niyogi 等從數學視角證明了虛擬樣本等價于將先驗知識合并為正則化矩陣[14],但復雜工業過程固有的機理不清、強耦合和非線性等特性,使得從該類過程獲得明確的先驗知識存在難度大和耗時長等問題,這導致目前研究學者大多聚焦于如何從小樣本中學習知識進而生成虛擬樣本的研究[15].隨著變分自編碼器(Variational autoencoder,VAE)[16-18]、生成對抗網絡(Generative adversarial network,GAN)[19-20]等生成模型的發展,使得VSG 的研究熱度得到進一步的提升[15].隨著工業數字孿生[21-22]、元宇宙[23-24]等概念的發展和日趨成熟,筆者認為,VSG 技術將成為上述技術發展中不可或缺的元素之一.綜上,VSG 技術的逐步完善與成熟,能夠為實際復雜工業過程的運行指標建模和異常故障識別乃至工業數字孿生和元宇宙提供有效支撐,有必要對當前VSG 的研究動態與未來趨勢進行總結與展望.

本文以工業過程為背景,全面綜述VSG 在工業過程中的研究現狀及未來的發展方向,主要工作如下: 第1 節從樣本稀缺、樣本分布完備性差和樣本內涵機理知識匱乏共3 個視角總結工業過程VSG 所面臨的問題,并梳理虛擬樣本定義、輸入/輸出空間虛擬樣本內涵以及面向工業過程的實現流程;第2 節根據目前的研究成果和實際工業過程的特點,從樣本覆蓋區域、實現流程與推廣應用共3個方面進行綜述;第3 節給出相關的數據集和開源軟件;第4 節進行對比與討論,并分析下一步的發展方向;第5 節對全文工作進行總結并給出未來挑戰.

1 面向工業過程的VSG 技術

1.1 運行指標和異常故障建模存在的問題

目前,對系統性能、生產質量和經濟效益的高要求使得現代工業過程的復雜度、包含的設備類型和數量也迅速增加,多類型傳感器和自動化系統的應用促成了“工業大數據”以及工業過程建模、控制與優化研究[25].相應地,基于數據驅動的運行指標和異常故障建模技術也得到迅速發展[26].但是,技術上仍難以在線檢測的部分運行指標和難以再現的異常故障卻導致可用建模樣本量稀缺的現象[27].此外,復雜工業過程機理不清難以建模的特性和工業現場以確保安全穩定運行為目標的次優運行狀態,使得建模數據還存在著分布不平衡以及內涵機理知識匱乏等問題.

1.1.1 樣本稀缺

針對難測運行指標而言,以MSWI 過程的DXN排放濃度檢測為例,其可采用離線直接檢測法和在線間接檢測法進行測量,但存在過程繁瑣、價格昂貴、設備復雜和時間滯后等局限性;企業以月或季為間隔的不定期檢測導致建模樣本極為稀缺[8].這需要采用適合于小樣本數據的學習算法[28].

針對復雜工業過程的故障檢測與診斷(Fault detection and diagnosis,FDD)模型而言,異常故障樣本屬于“可遇不可求”,同時工業現場也是極力避免出現這樣的故障,即會在異常出現前通過定期維修、降低生產效率等方式予以預防,因而導致樣本缺失,增加了故障分類模型的構建難度[29-30].

文獻[31]指出,當在工程應用和學術研究中采用的建模樣本數量分別少于50 和30 時,所面對的機器學習問題即被稱為小樣本學習問題;進一步,文獻[32]將該問題表示為下式:

式中,nsample為樣本數,pfeature為特征數,α的典型取值為 {2, 5, 10}.顯然,α過小的數據集難以為構建可靠的學習模型提供支撐.

1.1.2 樣本分布完備性差

為保證工業全流程的運行安全性,實際工業過程常工作在折衷的穩定狀態,甚至以犧牲經濟性確保安全性為代價使工業過程長期運行在次優狀態[33].因此,即使采集了大量的過程數據,但其所涵蓋的工況波動范圍和所具有的代表性樣本數量也是有限的,即多數為常規次優工況數據和少數為極優與潛在異常工況數據.這些數據難以表征期望建模樣本空間中所需要的完備分布.本文將上述問題歸納為樣本分布完備性差,這會導致所構建的模型僅適用于穩定的次優運行過程,難以適用于存在工況動態漂移變化的實際過程[34].

在故障診斷中,正常樣本和異常故障樣本間呈現的是長尾分布,即正常運行與常見故障為頭部多數類而罕見故障為尾部少數類,這也是樣本分布完備性差的體現,其會嚴重影響故障診斷的結果.度量少數異常類和多數正常類之間不平衡度的指標,即不平衡比(Imbalance ratio,IR)[35]如下所示:

式中,Nmajority和Nminority分別為多數正常類和少數異常類樣本的數量.顯然,IR 值越大表示建模樣本集的不平衡程度越嚴重.在文獻[36]所構建的感應電動機故障診斷模型中,IR 的值達到了10.

雖然目前已有針對少樣本或零樣本的故障診斷研究成果[37-39],但其在本質上并未解決樣本分布完備性的問題.

1.1.3 樣本蘊涵機理知識匱乏

用于難測運行指標與異常故障建模的過程數據所蘊涵的機理知識匱乏的原因在于: 首先,樣本數量稀缺;其次,樣本分布不完備使得從數據中獲取機理知識難,尤其是在數據均源于單一工況的情況下;再次,工業過程的機理復雜不清導致知識理解難.

文獻[40]指出,針對在生產階段早期采集的過程數據而言,其所蘊涵的知識有限,難以為推理樣本分布提供支撐.文獻[34]認為,雖然現代工業的規模在不斷擴大,但可用的過程信息卻極為稀缺.進一步,文獻[41]利用遷移學習從類似工況或設備的歷史數據中獲取知識,將其用于當前過程關鍵工藝參數的預測;文獻[42]指出,進行跨階段(Crossphase)、跨狀態(Cross-state)、跨實體(Cross-entity) 和跨領域(Cross-domain)的遷移學習,是工業過程中獲取知識的途徑之一.但是,如何基于有限的建模樣本和復雜工業過程的經驗知識,獲得建模樣本所蘊含的知識依然是一個開放性的問題.

1.2 虛擬樣本的定義及內涵

1.2.1 虛擬樣本的定義

虛擬樣本的概念由Poggio 和 Vetter 于1992年提出并用于模式識別領域[10],但并未給出明確定義.文獻[43]給出了如下所示的較為通用定義.

定義1.對于給定訓練樣本 (xi,yi),若由變換(T,fT) 得到的樣本(,) 也是一個合理的樣本,那么就稱新樣本 (,) 是由變換 (T,fT) 所生成的虛擬樣本.

基于定義1,文獻[6]給出如下的推論:

1.2.2 虛擬樣本輸入空間內涵

由于難測運行指標和異常故障建模樣本的分布完備性差,即樣本分布在某個或某幾個區域,導致樣本間存在大量間隙,因此需要考慮對原始域樣本空間進行有效填充.此外,原始域樣本空間之外也可能會存在符合實際數據分布的擴展域,需對原始域進行有效擴展,但擴展后可能會超出完備域(期望域)樣本空間.從可視化的角度,圖2 給出了二維平面內原始域、擴展域和完備域(期望域)樣本空間之內的虛擬樣本和真實樣本的相互關系[44].

圖2 樣本輸入空間內虛擬與真實樣本間的關系Fig.2 Relationship between virtual samples and real samples in sample input space

由圖2 可知,生成的虛擬樣本共有4 類: 1) 在原始域樣本空間內部填補真實樣本間隙的合格虛擬樣本;2) 在原始域樣本空間外完備域(期望域)樣本空間內的擴展域空間的合格虛擬樣本;3) 在擴展域樣本空間外、完備域(期望域)樣本空間內的合格虛擬樣本;4) 在完備域(期望域)樣本空間外需剔除的不合格虛擬樣本.

進一步,文獻[45]給出了三維空間視角下的不同虛擬樣本輸入生成方法的局限性,如圖3 所示.

圖3 三維空間下的不同虛擬樣本輸入生成方法示意圖Fig.3 Diagram of different virtual sample input generation methods in 3D space

在圖3 中,標記的數字是真實和虛擬樣本編號,以數字“12”為例,其表示虛擬樣本12 是在真實樣本1 和2 的連線上生成的.具體而言,圖3(a)所示為依據樣本順序采用線性連續插值法依次在真實樣本間插值生成虛擬樣本輸入,即其僅分布在真實樣本輸入的順序連線上;圖3(b) 所示為合成少數類過采樣技術(Synthetic minority over-sampling technique,SMOTE),其表示隨機選擇兩個真實樣本并在其間進行線性插值的方式,顯然其丟失了真實樣本間可能存在的時序關系與物理含義;圖3(c) 所示為重采樣法,其能夠在真實樣本的連接“面”上生成虛擬樣本輸入,但在由真實樣本組成的空間內部并未生成虛擬樣本,即存在樣本“空洞”.

由上可知,虛擬樣本輸入的生成方式需要依據待解決問題而異,因此結合機理知識和經驗知識是必要的.

1.2.3 虛擬樣本輸出空間內涵

針對樣本輸出空間而言,回歸和分類問題具有完全不同的方式,下文分別描述.

1) 回歸問題

如何為虛擬樣本輸入匹配高精度的輸出是面向回歸的VSG 需要面對的關鍵問題,其在極大程度上決定了虛擬樣本的優劣.

目前,一般通過構建基于小樣本的映射模型生成虛擬樣本輸出.Li 等[46]提出當映射模型的平均絕對百分比誤差(Mean absolute percentage error,MAPE)不超過10%時,其可用于生成虛擬樣本輸出.基于映射模型生成虛擬樣本輸出的流程如圖4所示.

圖4 映射模型生成虛擬樣本輸出流程圖Fig.4 Flow chart of virtual sample output generation based on mapping model

針對不同的映射模型結構,通過調整參數雖然可達到上述要求,但由于模型自身的差異性,由相同虛擬樣本輸入所映射的輸出間也存在不同.因此,為得到更佳的虛擬樣本輸出,映射模型需對數據集具有較好的適應性.

2) 分類問題

相較于回歸問題,面向分類的虛擬樣本輸出所面臨的問題是類間不平衡,即某些類的樣本數量遠少于另外一些類.

針對故障診斷模型而言,充足的訓練樣本和完備的故障類型是需要滿足的兩個基本條件[47].受工業過程復雜性和檢測環境不穩定性等限制,異常故障數據采集困難,某類故障甚至不可再現[48].圖5給出了多數正常類和少數異常類真實樣本與虛擬樣本間的關系.

圖5 面向分類問題的虛擬與真實樣本間的關系Fig.5 Relationship between virtual samples and real samples for classification problem

由圖5 可知,面向分類問題的VSG 的特點為:a) 數量少的類別(少數類)需要生成更多的虛擬樣本,數量多的類別(多數類)只需生成少量甚至不生成虛擬樣本;b) 少數類虛擬樣本主要生成稀疏區域以填補信息空缺;c) 多數類和少數類都需要在分類邊界上生成一定量的虛擬樣本.此外,因工業過程的動態變化,還可能存在不能采集到樣本的未知類,這需要機理知識與經驗知識支撐.

從本質上,回歸問題和分類問題中的VSG,都很難從復雜工業過程獲得清晰機理知識和領域先驗知識.從理論支撐方面而言,Niyogi 等通過數學推導證明了虛擬樣本等價于合并先驗知識以作為正則化矩陣[14],但是,在期望分布、虛擬與真實樣本相似度以及混合樣本組成等方面的研究還缺乏理論支持.

1.3 面向工業過程的VSG 實現流程

基于小樣本建模數據的工業過程VSG 實現流程如圖6 所示.

圖6 面向工業過程的VSG 實現流程圖Fig.6 Flow chart of VSG for industrial process

如圖6 所示,步驟如下:

1) 第1 階段為過程數據預處理,包括高維數據降維、缺失數據填補和過程數據標準化等操作以及機理與經驗知識獲取.

2) 第2 階段為生成虛擬樣本輸入,對于回歸問題而言要求能夠填補完備域樣本空間,對于分類問題而言要求保證少數類和多數類間的平衡性.

3) 第3 階段為匹配虛擬樣本輸出,對于分類問題而言,因其類別標簽是預設的和確定的而相對簡單.對于回歸問題而言,其輸出真值需通過映射模型進行匹配而相對復雜.但分類問題可能需要考慮未知類.

4) 第4 階段為生成虛擬樣本質量篩選,通過相似性度量以及建模結果誤差等準則進行篩選以保證虛擬樣本質量.

5) 第5 階段為生成虛擬樣本數量確定,通過獲得理想的期望數量以減少計算成本和提高模型精度,目前還缺少理論支撐.

在上述流程中,第1 階段是VSG 的必要操作,第2 和3 階段是VSG 的基礎操作,第4 和5 階段是生成高質量虛擬樣本的重要保障.

此外,在已有研究成果中,存在先進行階段3再進行階段2 的VSG 流程,如文獻[20]和文獻[49]等.這類方法相對較少,本文在后文綜述時也予以說明.

2 VSG 的研究現狀

本節將面向工業過程數據的VSG 研究現狀從樣本覆蓋區域、實現流程和推廣應用共3 個方面進行綜述,之后針對每個方向再進行展開敘述,具體如圖7 所示.

圖7 VSG 的研究現狀結構圖Fig.7 Structure diagram of VSG research status

2.1 基于樣本覆蓋區域分類的研究現狀

2.1.1 基于原始域樣本空間的VSG

基于原始域樣本空間的VSG 通過挖掘原始樣本間的分布關系以生成虛擬樣本,其重點關注的是原始域樣本空間的稀疏區域,目的是通過虛擬樣本填補真實樣本間的空隙.下文針對回歸和分類問題分別從特征工程和樣本工程2 個視角進行描述.

1) 面向回歸問題的VSG

a) 特征工程

復雜工業過程的運行指標建模數據具有高維度特性[50-51],對應的稀疏區域難以識別,這導致直接進行VSG 存在困難.因此,先進行特征工程是廣泛采用的解決方法.下面從特征變換、特征選擇和兩者綜合共3 個方面進行綜述.

特征變換是指通過線性或非線性的方式將原始數據變換至新的低維或高維空間.Zhu 等[52]先采用局部線性嵌入(Locally linear embedding,LLE)算法對高維數據進行降維,再基于隨機插值生成虛擬樣本輸入,最后通過反向傳播神經網絡(Back propagation neural network,BPNN)映射模型得到虛擬樣本輸出.Zhang 等[53]基于等間隔映射 (Isometric feature mapping,Isomap) 對高維數據進行可視化以尋找稀疏區域后采用插值法和映射模型生成虛擬樣本.文獻[54]采用t分布隨機鄰域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法,在提取原始高維特征后再插值生成虛擬樣本輸入,通過隨機森林(Random forest,RF)映射模型得到虛擬樣本輸出.上述這些方法的本質是在變換后的特征空間中獲得易生成虛擬樣本的區域,但并未考慮原始特征中可能存在的冗余和變換后特征失去的原有物理含義等問題.

相較于特征變換,特征選擇雖然會舍棄掉部分特征,但能夠保留清晰的物理含義,更適合于在輸入輸出間具有較強因果關系的工業過程.陳忠圣等[55]基于精對苯二甲酸生產過程的機理,選擇影響醋酸消耗的17 個因素作為輸入特征后采用分位數回歸條件GAN 生成虛擬樣本.該方法適用于減少特征后可清晰地獲得易生成區域的建模樣本,但也存在約簡后仍然難以分辨稀疏區域以及忽略的特征在未知工況下可能造成的未知影響等問題.

此外,現有研究成果中也存在串聯特征變換和特征選擇兩種方式生成虛擬樣本的策略[56],該研究根據專家經驗和MSWI 過程DXN 排放機理選擇輸入特征后再基于改進大趨勢擴散和隱含層插值生成虛擬樣本.這類方法需結合具體工業過程予以應用,具有較強的定制化特性.

b) 樣本工程

樣本工程旨在直接學習原始真實樣本所表征的分布關系,基于樣本“間隙”生成虛擬樣本.根據所選用模型的不同,可分為基于函數模型插值和基于對抗模型生成兩種方式.

基于函數模型插值的VSG 是指通過某種函數表征原始真實樣本的間隙,基于該函數生成虛擬樣本輸入后再結合映射模型生成虛擬樣本輸出.典型方法包括分段線性插值、徑向基函數(Radial basis function,RBF)插值和三樣條插值(Cubic spline interpolation,CSI)等.Zhu 等[57]采用空間投影法進行稀疏性檢測以得到原始樣本間的空隙,利用中點插值和RBF 映射模型生成虛擬樣本.進一步,Chen 等[49]基于稀疏性假設和中心假設確定虛擬樣本數量,基于CSI 生成虛擬樣本輸出后再經過輸入訓練神經網絡(Input-training neural network,ITNN) 獲得虛擬樣本輸入,結果表明可有效地提高模型性能.Sutojo 等[58]采用總線拓撲結構,在原始樣本間連接后再在連接線上插值生成虛擬樣本的策略.

目前,在如何選取合適的用于產生虛擬樣本輸出的映射模型方面還不存在統一定論.相關研究包括: 通過隨機權神經網絡(Random weight neural network,RWNN)模型學習樣本間的非線性關系后在其隱含層插值以生成虛擬樣本的策略[59],其首先在真實樣本輸出之間插值生成虛擬樣本輸出,然后在隱含層插值得到新隱含層并反向求出虛擬樣本輸入,最后組合虛擬樣本輸入和輸出;進一步,朱寶等[60]提出在自聯想神經網絡(Auto-associative neural network,AANN)的隱含層插值生成虛擬樣本以消除樣本間的噪聲;再隨后,喬俊飛等[56]提出基于等間隔插值和正則化RWNN 隱含層插值獲取虛擬樣本并刪除冗余樣本,進而增強了虛擬樣本的穩定性和互補性;進一步,湯健等[61]提出基于粒子群優化(Particle swarm optimization,PSO)算法優化選擇上述方法所生成的虛擬樣本以降低虛擬樣本之間的冗余性;為了有效地均衡虛擬樣本數量和模型泛化性能,文獻[15]提出基于多目標PSO 混合優化的VSG,其采用RF 和RWNN 集成模型作為非線性映射模型.

近些年,深度學習在學術界發展迅速并在工業界廣泛應用,體現出極強的處理復雜任務的能力[62].GAN 是目前深度學習中最為熱門的研究方向之一[19],其雖已廣泛應用于圖像生成領域,但在工業過程VSG 中的研究才剛剛起步[63].GAN 的基本原理是:通過生成器和判別器的博弈對抗使得生成的虛擬樣本越來越接近真實樣本,生成器的目標是生成判別器無法判別的樣本,判別器的目標是準確識別真實樣本和虛擬樣本,其結構如圖8 所示[63].

圖8 GAN 模型的結構Fig.8 Structure of GAN model

GAN 的目標函數表示如下:

式中,pdata為原始小樣本的分布;pz為隨機噪聲的分布;D(x) 和G(z) 分別表示判別器和生成器的輸出.

面向回歸問題,針對基于GAN 的VSG,如何為其所生成的虛擬樣本輸入映射合理的輸出是目前的研究難題.對此,Zhu 等[20]通過計算局部異常因子(Local outlier factor,LOF)確定稀疏區域,采用K-means++算法計算簇的中心后插值生成虛擬樣本輸出,將其作為條件GAN (Conditional GAN,CGAN)的條件變量生成相應的虛擬樣本輸入;在此基礎上,文獻[64]提出基于循環結構CGAN (Cycle structure CGAN,CS-CGAN)的VSG,采用最近鄰距離確定離群點以獲得稀疏區域邊界,通過WGAN-GP 在稀疏區域生成虛擬樣本輸入,之后利用CS-CGAN 生成和選擇虛擬樣本輸出;進一步,He 等[65]通過GAN 內嵌分位數回歸器生成與虛擬樣本輸入相匹配的虛擬樣本輸出.上述方法均未考慮如何結合具體工業過程領域知識進行區域擴展和確定虛擬樣本數量.

2) 面向分類問題的VSG

a) 特征工程

目前,面向分類問題的VSG 多應用于故障診斷領域,采用特征工程進行處理的故障樣本大多為機械振動信號.這類VSG 的特點是: 先采用快速傅里葉變換(Fast Fourier transform,FFT) 將時域信號轉換至頻域再在生成模型中對特征進行處理,如: 添加卷積層提取特征[66-67]、采用編碼器提取特征[68]以及添加自注意力模型增強特征[69]等.

b) 樣本工程

從函數模型插值和對抗模型生成兩個方面進行介紹.相較于回歸問題而言,因無需考慮生成虛擬樣本輸出,已有的面向分類問題的VSG 更關注類與類之間的關系以及類間數據的平衡.

SMOTE 通過在鄰近少數類樣本間的隨機線性插值生成少數類的虛擬樣本,進而實現不平衡數據集的均衡化[70],如下所示.

式中,xi為第i個少數類樣本,為xi的第j個K近鄰樣本,為生成的虛擬樣本,rand(0,1)為服從(0,1)范圍均勻分布的隨機數.

SMOTE 可歸類為基于分段線性插值的VSG方法.在此基礎上,Mathew 等[71]提出基于加權核的SMOTE,其通過在支持向量機(Support vector machine,SVM)的特征空間中進行插值生成虛擬樣本的方式解決算法在高IR 下的非線性可分離問題;進一步,Maldonado 等[72]提出面向高維數據集的改進SMOTE,通過特征排序法選擇相關特征后采用Minkowski 距離替換歐氏距離以生成高維虛擬樣本;謝樺等[73]先通過SMOTE 生成虛擬樣本,再采用決策樹算法提取有關變壓器狀態的評估知識;隨后,劉云鵬等[74]針對變壓器非正常狀態的樣本數量稀少的問題,提出基于SVM 和SMOTE 的變壓器故障診斷方法,其核心理念是在支持向量近似的分類邊界上采用最近鄰決策機制生成虛擬樣本輸入;Soltanzadeh 等[75]針對噪聲樣本偏移和邊界樣本重疊等問題,提出可以識別類類邊界和控制生成范圍的SMOTE.

針對多類數據混雜問題,文獻[76]提出采用組發現技術對原始樣本進行預分類以生成指定類的虛擬樣本,其過程為: 先任選樣本點P1,將與P1同類和不同類樣本點間的最小距離記為R1;接著再以P1為球心和R1為半徑構建超球體;之后進行判斷,若在超球體內存在與P1同類的樣本P2,則P1和P2為同組;最后,以P2為球心重復上述操作,直至超球體不包含新的同類樣本,進而完成預分類.隨后,文獻[77]在組發現技術的基礎上采用純化過程剔除相近的非同類樣本以保證分組的準確性,之后再通過構造超球以生成虛擬樣本輸入,實驗表明該策略能夠有效地提高接地網絡的故障識別率.

由于面向分類問題的虛擬樣本輸出為類別標簽,故其可作為已掌握的條件信息控制生成模型以獲得指定類型的虛擬樣本.例如,文獻[78]將少數類的標簽作為條件信息輸入CGAN,結構如圖9 所示.

圖9 基于CGAN 的VSG 模型結構Fig.9 VSG model structure based on CGAN

在圖9 中,隨機噪聲z和類別標簽c共同注入生成器G,其中c作為條件信息控制G生成對應的虛擬樣本輸入G(z|c);將真實樣本輸入x和虛擬樣本輸入G(z|c) 注入判別器D后根據判別結果更新D和G.

基于上述模型結構,黃南天等[79]構建基于輔助分類器GAN (Auxiliary classifier GAN,ACGAN)的風機主軸承故障診斷模型,提出通過添加Dropout層防止過擬合以減少重復樣本生成的策略;Li 等[80]采用具有梯度懲罰的輔助分類Wasserstein GAN(Auxiliary classier Wasserstein GAN with gradient penalty,ACWGAN-GP)生成具有高質量的少數類虛擬樣本以提高模型準確率;Dixit 等[81]提出采用模型無關元學習(Model agnostic meta learning,MAML)算法替換常規的隨機梯度下降算法進而初始化和更新網絡參數的條件輔助分類GAN,提高了生成模型的穩定性;Yang 等[82]采用基于GAN的VSG 解決諧波傳動故障數據不平衡問題后利用多尺度卷積神經網絡(Convolutional neural network,CNN)進行故障診斷;Wang 等[67]采用深度卷積生成對抗網絡(Deep convolutional GAN,DCGAN)生成虛擬樣本平衡訓練集后通過K-means聚類算法構建改進CNN 診斷模型;Zareapoor 等[83]提出采用判別器既判斷樣本真假又充當分類器和故障檢測器的少數類過采樣GAN (Minority oversampling GAN,MoGAN) 策略,有效地提高了虛擬故障樣本的質量;之后,Li 等[84]和Li 等[85]對WGAN進行改進以穩定生成的故障樣本質量;李東東等[86]基于貝葉斯優化策略自適應調節GAN 的判別器參數和采用Wasserstein 距離作為損失函數提高模型的泛化性能,結果表明其能夠有效提高虛擬樣本的質量;此外,也有研究人員組合多個GAN 進行VSG后,再通過篩選提高虛擬樣本的質量[82].在上述研究中,僅是考慮了依據已知的類別生成虛擬樣本輸入,但如何面對動態環境下的未知類別進行VSG 還有待于研究.

GAN 的本質是基于博弈對抗的訓練框架,其能夠訓練任意類型的生成模型.自編碼器(Autoencoder,AE)作為一種非線性無監督神經網絡[87],通過非線性變換將輸入數據投影至潛在特征空間中.變分AE (Variational AE,VAE)是以AE 結構為基礎的深度生成模型[88].將編碼器與GAN 進行組合可得到基于編碼器的GAN,其在VSG 領域的研究成果包括: 戴俊等[89]將AE 的解碼器嵌入至GAN中作為生成器,并通過編碼-解碼-編碼過程后的特征差異判斷是否存在異常;Wang 等[68]建立基于條件變分自編碼器GAN (Conditional VAE GAN,CVAE-GAN)的不平衡故障診斷模型,通過CVAE獲取故障樣本分布作為生成器輸入,利用博弈對抗機制對生成器、判別器和分類器的參數進行優化;Liu 等[90]將編碼器合并到GAN 中,通過學習真實數據的深度特征以提高數據生成質量,通過深度遺憾分析算法對判別器施加梯度懲罰以避免模式崩潰,實驗表明具有較好的魯棒性;Wang 等[91]設計具有傳輸層的改進型AE 以消除數據噪聲,采用暹羅編碼器結構計算潛在特征之間的殘差,引入最小二乘GAN (Least squares GAN,LSGAN)學習健康數據分布以生成虛擬樣本,結果表明可提前檢測潛在異常;Liu 等[92]將自調制嵌入到GAN 的生成器中,使其能夠同時依靠輸入和判別器反饋進行參數更新;Rathore 等[93]提出結合堆疊AE 和WGAN的VSG 策略,提高了虛擬樣本的質量.可見,如何獲得具有可解釋性的GAN 還有待深入研究,例如基于模糊或決策樹算法.此外,面向回歸問題的基于編碼器的GAN 還有待進一步研究.

2.1.2 基于擴展域樣本空間的VSG

理論上,由真實小樣本組成的原始域樣本空間是完備(期望)域樣本空間的子集[44],其蘊含信息有限.從實際工業過程視角,所采集的真實小樣本多源自于某種平穩工況,但完備域樣本空間需要同時覆蓋平穩與非平穩工況.因此,研究人員開始關注在原始域樣本空間(易獲取數據)上進行擴展以得到擴展域樣本空間(難獲取數據),并在其上生成虛擬樣本,進而能夠接近完備域樣本空間[15].理論上,擴展域可分為可擴展域和未知域,后者無數據可用,即不存在真值或是未知類別.針對工業過程的多輸入單輸出回歸和分類問題,面向VSG 的原始域、可擴展域和未知域的示意圖如圖10 所示.

圖10 面向VSG 的原始域、可擴展域和未知域的示意圖Fig.10 Schematic diagram of original,extension,and unknown domain for VSG

筆者將基于擴展域樣本空間的VSG 分為面向集合理論、面向分布假設和基于知識共3 類,從回歸和分類2 個方面進行綜述.

1) 面向回歸問題的VSG

a) 集合理論

工業過程的真實小樣本攜帶的有限信息導致進行VSG 存在不可避免的不確定性.模糊集理論是處理具有隨機和不確定特性數據的有效手段.鑒于此,Huang[94]提出通過模糊數學進行樣本集值化的處理方法,即信息擴散,其原理為: 通過三角、正態以及梯形等隸屬度函數確定樣本所蘊含信息的擴散范圍.在此基礎上,Huang 等[95]將正態擴散函數與神經網絡相結合提出擴散神經網絡(Diffusion neural network,DNN),但該方法僅適用于特征間的相關系數大于0.9 的情況.隨后,Li 等[96]在DNN的基礎上提出大趨勢擴散(Mega-trend-diffusion,MTD)技術,如圖11 所示.

圖11 大趨勢擴散技術Fig.11 Mega-trend-diffusion technology

在圖11 中,m和n表示2 個給定數據,b和a表示擴散函數的上界和下界,uset表示樣本變量取值的中心.

由上可知,MTD 假設特征變量間相互獨立和能夠不對稱地擴展特征范圍,進而能夠在可擴展域上基于采樣方式生成虛擬樣本;進一步,Lin 等[97]提出廣義趨勢擴散(Generalized-trend-diffusion,GTD)技術,即通過計算連續數據之間的趨勢以獲得序列數據的時間依賴性,并采用所生成的虛擬樣本解決柔性制造系統調度建模問題.此外,Li 等[98]通過集成MTD 和樹模型提出基于樹結構趨勢擴散(Tree structure based trend diffusion,TTD)的VSG,在多層陶瓷電容的介電系數預測實驗中驗證了其有效性.Rahimi 等[99]提出基于神經網絡的MTD,采用生成的虛擬樣本構建聚合物CO2預測模型.朱寶等[100]提出采用三角分布和均勻分布共同表征小樣本特性的多分布MTD (Multi-distribution MTD,MD-MTD)技術,如圖12 所示.

圖12 MD-MTD 示意圖Fig.12 Schematic figure of multi-distribution MTD

在圖12 中,MD-MTD 采用三角分布在原始域樣本空間表示真實小樣本的分布情況,采用均勻分布在可擴展域樣本空間生成虛擬樣本.

Sivakumar 等[101]提出基于K近鄰(K-nearest neighbor,KNN)的MTD,其通過原始樣本的KNN計算擴展范圍以確保虛擬樣本的合理分布.Khamis 等[102]提出基于K-means 的改進MTD,主要創新在于解決隸屬度函數構建過程中的屬性冗余問題.此外,也有研究人員采用組合多種信息擴散技術的策略生成混合虛擬樣本,如: 高克鉉等[103]提出改進型MTD (Advanced MTD,AD-MTD),結合文獻[100] 所提出的MD-MTD 獲得混合整體MTD (Hybrid-MTD),充分利用各自優勢.研究人員也提出結合MTD 與其他插值方式的策略,如喬俊飛等[56]同時采用了MTD 和隱含層插值.

與直接在可擴展域樣本空間內以采樣的方式獲取虛擬樣本不同,Li 等[46]在采用MTD 確定擴散范圍后,先基于遺傳算法(Genetic algorithm,GA)生成虛擬樣本輸入,再通過基于可行性的規劃(Feasibility-based programming,FBP)模型生成虛擬樣本輸出;Chen 等[104]先提出基于三角隸屬度的信息擴散(Information-expanded based on triangular membership,TMIE)技術,再在確定的范圍后采用PSO 算法獲得虛擬樣本輸入,最后通過RWNN得到虛擬樣本輸出.此外,針對不同VSG 所產生虛擬樣本間存在的冗余性與互補性,湯健等[61]采用PSO 算法對基于領域專家知識和MTD 生成的虛擬樣本進行優化選擇.

粗糙集理論是由Pawlak 提出的處理具有模糊、不一致和不確定等特性數據的數學理論[105],其核心思想是從近似空間導出上近似算子和下近似算子(又稱上、下近似集),將知識空間劃分為上近似域、下近似域和邊界域,其中: 上近似域是由知識空間內與某一概念有非空交集的知識粒的并集構成的集合,下近似域是由知識空間內包含某一概念的知識粒的并集構成的集合.目前,粗糙集理論已廣泛應用于工業制造[106]、廢水處理[107]以及優化控制[108]等領域,但將粗糙集理論直接應用于回歸VSG 的研究還未見報道.

b) 分布假設

高斯分布是工業過程數據最為符合的假定分布.文獻[109]通過劃分區間提出改善核密度估計(Improved kernel density estimation,IKDE)并生成虛擬樣本以解決制造系統早期階段樣本少的問題;隨后,文獻[110]將IKDE 擴展為通用模型,應用于具有時間依賴性的小樣本建模問題并生成虛擬樣本.Li 等[111]采用小型約翰變換方法(Small Johnson data transformation,SJDT) 使得小樣本數據趨近正態分布,進而生成虛擬樣本.但是,實際工業過程數據的期望分布不但未知且在小樣本情況下也難以確定.

相較于高斯分布,威布爾(Weibull)分布在工業制造、可靠性分析等領域的應用更為廣泛.Li 等[112]針對產品壽命性能評估樣本數量少的問題,基于雙參數Weibull 分布選擇最大p值(Maximalpvalue,MPV)的反直覺假設檢驗方法近似估計非線性和非對稱的小樣本分布,并采用從分布中隨機采樣的策略生成虛擬樣本,但其實用性有待驗證;接著,Li 等[113]為解決TFT-LCD 制作領域中的多模態小樣本問題,先用赤池信息準則(Akaike information criterion,AIC)的改進版AICc (Corrected version of the AIC)對聚類結果進行評價,再通過MPV 計算多峰分布的參數以確定虛擬樣本數量,最后生成虛擬樣本,但其適用性有待評估.

c) 基于知識

面向回歸問題,針對如圖10 所示的可擴展域和未知域,可能存在不合理的虛擬樣本和無法生成的虛擬樣本;此時,需要借助工業過程自身機理知識和其他相似過程的經驗知識予以輔助.

目前,已有的基于領域知識的研究僅見于文獻[15],其依據MSWI 過程DXN 值的下限范圍進行可擴展域真值的修訂.如何借助工業過程的機理知識輔助回歸問題VSG 的研究還未見報道.

2) 面向分類問題的VSG

a) 集合理論

文獻[114]采用基于模糊的信息分解(Fuzzybased information decomposition,FID) 為少數類生成虛擬樣本以平衡訓練數據并對缺失值進行填充.Ramentol 等[115]基于SMOTE 和粗糙集理論生成虛擬樣本以處理不平衡數據集;在此基礎上,胡峰等[116]提出基于三支決策的不平衡數據過采樣策略,首先依據樣本總體分布定義正域、邊界域和負域后,再在邊界域和負域生成虛擬樣本,結果表明可有效地解決不平衡數據的二分類問題,但如何解決多分類問題仍有待研究.由上可知,基于集合理論面向分類問題VSG 的研究還有待深入.

b) 分布假設

Yang 等[43]在假設過程數據符合高斯分布的基礎上,在計算其均值和標準差后采樣生成虛擬樣本,實驗表明采用適當數量的虛擬樣本能夠提高分類器泛化性能,但如何確定數量未予以考慮;進一步,Shen等[117]在采用最大期望算法計算高斯模型的參數和采用AIC 與貝葉斯信息準則(Bayesian information criterion,BIC)自適應確定模型高斯分量的最佳數量后,通過采樣獲得虛擬樣本.文獻[118]采用SVM 的狀態函數近似樣本分布并通過采樣輸出虛擬樣本.文獻[119] 采用K均值聚類法檢測多模態Weibull 分布,利用真實和虛擬樣本間Weibull 偏度的誤差變化作為虛擬樣本數量的評估標準.

c) 基于知識

面向分類問題,在實際過程中存在無目標類別的樣本用于模型訓練的情況,即零樣本問題,例如:故障診斷領域存在特殊故障的樣本無法獲得的問題.筆者認為,類似于回歸問題,向生成過程添加機理或經驗知識是解決VSG 中未知領域零樣本問題的有效手段.

實際工業過程中,領域專家借助于對復雜機理的認知,再輔以長期的工作實踐和經驗積累,對已經出現的或可能出現的各種異常故障形成了相應的知識體系[120-121].研究表明,將專家知識轉換為屬性、文本/語義、知識圖譜、規則以及本體等融入到模型訓練中,可有效提高模型的泛化性和可解釋性[122].對此,Link 等[121]采用基于專家知識定義的由故障位置、影響和原因等屬性組成的故障描述確定故障類型,相關的屬性知識可從其他易獲取的故障中預先學習和遷移,故無需額外的訓練數據.但這種方法并無虛擬樣本產生.Zhuo 等[123]提出基于故障屬性GAN (Fault attributes GAN,FAGAN)的任意樣本學習策略,本質上是將專家知識定義的故障屬性作為輔助信息使得生成樣本更接近真實樣本,實現對未知故障的診斷.

相較于領域專家直接提供的專家知識,模型知識是通過對模型的學習和推導所提取出的隱含知識[124].Yao 等[125]提出結合聯邦學習和遷移學習的缺失數據填充策略,目的是使不同邊緣設備上的模型能夠互相傳遞和利用所學習到的知識,從而提高數據填充的準確性.Feng 等[126]提出基于多頭語義表示和層次對齊技術的語義細化WGAN (Semantic refinement WGAN,SRWGAN),其通過細化粗粒度語義描述消除類別之間的偏差,進而提高特征生成和知識轉移的效果.目前暫無基于模型知識驅動的工業過程VSG 成果報道.

如何獲得相關領域的專家知識和如何利用數值仿真模型提取符合工業過程的知識,是未來支撐知識驅動VSG 和解決未知域故障診斷的重要研究方向.

綜上可知,基于模糊集理論VSG 的成果較為豐富,特點是: 面向回歸問題的研究多于分類問題,面向虛擬樣本輸入空間的研究多于輸出空間.此外,目前的信息擴散技術缺少工業過程機理知識的支撐.相較于模糊集理論,粗糙集理論在VSG 領域的研究較少,所提知識空間的3 個域并未給出相應的域擴展計算方法,這將是未來基于粗糙集理論VSG的研究方向之一.此外,如何基于知識確定符合復雜工業過程的分布類型及相關參數是基于分布假設VSG 的未來重要研究方向.基于知識的VSG 還處于輔助階段,相對而言在分類問題上更易研究.

2.2 基于VSG 實現流程分類的研究現狀

2.2.1 面向回歸問題的VSG 實現流程

1) 過程數據預處理階段

對過程數據進行預處理的目的是使得原始域樣本空間的稀疏區域易于發現以降低VSG 的難度.首先進行對數據缺失值的處理,如: 文獻[15]和[61]對MSWI 過程DXN 數據中的缺失值進行刪減和人工填充,文獻[64]和[127]對化工過程數據的異常和缺失值進行識別和去除,文獻[125]利用聯邦學習和遷移學習進行缺失值填充.然后,采用特征工程進行數據處理,如: 文獻[52]和[53]采用LLE和Isomap 從高維數據中提取2 維特征,文獻[54]采用t-SNE 提取3 維特征,文獻[59]和[128]基于化工機理選擇與運行指標相關的特征,文獻[61]基于專家經驗選擇與DXN 排放濃度相關的特征.最后,進行標準化或歸一化處理,目的是消除不同特征上差異化數量級所造成的影響.

2) 虛擬樣本輸入生成階段

針對原始域樣本空間而言,通常是先采用某種方法識別原始域樣本空間的稀疏區域后再采用各種策略生成虛擬樣本輸入,如: 文獻[127]采用歐氏距離識別稀疏區域后采用插值策略,文獻[57]通過對投影點的最大間距進行稀疏檢測后采用中點插值;文獻[52-54]提取過程數據特征后通過可視化樣本分布確定稀疏區域.針對不同區域,文獻[49]提出稀疏假設和集中假設,指出相較于在密集區域生成虛擬樣本而言,在稀疏區域生成虛擬樣本更有必要,但這需要權衡兩個區域所生成的虛擬樣本數量.此外,文獻[64]和[65]通過WGAN-GP 和CWGAN學習原始樣本分布后生成虛擬樣本輸入.

針對擴展域樣本空間而言,采用信息擴散和分布假設等方法先確定可擴展區域后再生成虛擬樣本輸入,如: 文獻[96]采用基于三角隸屬度函數的MTD獲得擴展范圍后采用基于插值的生成策略;文獻[104]采用基于非對稱三角隸屬度函數的信息擴散技術獲得擴展域范圍,通過PSO 在該范圍內生成虛擬樣本輸入;文獻[129]采用流形子空間對原始域真實樣本進行分組并基于MTD 確定擴展范圍,根據兩者構建超球體方程后在球面和球內通過采樣生成虛擬樣本輸入.

3) 虛擬樣本輸出生成階段

通常采用原始域的真實小樣本訓練的映射模型為虛擬樣本輸入匹配輸出,常用的映射模型包括RWNN[59,104,129]、BPNN[52]、RF[54]和RBF[57]等.面向GAN 策略,文獻[64]基于CS-CGAN 和一致性檢驗為WGAN-GP 所生成的虛擬樣本輸入匹配輸出;文獻[65] 將基于深度神經網絡的回歸器與生成器以及判別器共同訓練以生成虛擬樣本輸出;文獻[55] 采用分位數回歸網絡,在一定置信度下為CGAN 生成合適的虛擬樣本輸出,進而減少生成器和判別器的訓練難度.

4) 虛擬樣本質量篩選階段

常見的虛擬樣本質量篩選方法如下:

a) 相似性度量: Kullback-Leibler (KL)散度[55]和Wasserstein 距離[64]等方法因不能同時考慮輸入和輸出之間的關系而只能用于虛擬樣本輸入的度量,不能直接用作回歸問題中輸入/輸出虛擬樣本對的篩選標準;

b) 優化算法: 文獻[61]采用PSO 算法對虛擬樣本進行優化選擇以提高樣本質量;

c) 模型誤差: 文獻[46]指出合格虛擬樣本構建模型的相對誤差應小于10%.其他的相關研究包括:文獻[130]基于隸屬度函數值的似然評估機制進行篩選,文獻[49]基于領域專家判斷虛擬樣本的合理性等.綜上,筆者認為,針對輸入/輸出虛擬樣本對的篩選準則的研究還有待深入,并且需要結合質量判別準則進行優化選擇.

5) 虛擬樣本數量確定階段

常用確定虛擬樣本數量的方式是憑借經驗或者依據逐批添加虛擬樣本至真實小樣本后所構建不同模型的泛化誤差.

在此基礎上,文獻[131]根據真實小樣本的方差上限,提出先采用信息熵理論確定虛擬樣本數量再建立最優虛擬樣本生成數量的概率模型的2 步策略.具體的,確定虛擬樣本數量的公式如下:

式中,σ0為真實樣本的標準方差;n1為原始樣本的數量.面向噪聲0.95 置信水平的最優虛擬樣本概率模型的公式如下:

式中,μ0為真實小樣本的均值,C0為虛擬樣本產生的總噪聲.文獻[49]根據其所提的稀疏假設和集中假設,給出如下的虛擬樣本數量確定公式:

式中,n為訓練樣本數量;nv為添加虛擬樣本數量.

6) 特殊階段

目前,已有研究學者提出,先生成虛擬樣本輸出再匹配生成虛擬樣本輸入的“反向” VSG 策略,如: 文獻[20]利用LOF 獲得原始樣本輸出的稀疏區域并通過K-means++獲得中心點,利用中點插值生成虛擬樣本輸出后將其作為CGAN 的條件信息以生成虛擬樣本輸入;文獻[49] 在獲得原始樣本輸出的密集和稀疏區域并利用三樣條插值生成虛擬樣本輸出后,基于ITNN 生成虛擬樣本輸入.

綜上可知,采用不同策略的VSG 具有差異化的特性.如何面向特定應用領域進行選擇和改進是應用時需關注的問題.

2.2.2 面向分類問題的VSG 實現流程

針對不存在未知類的分類問題而言,VSG 將類別信息直接作為先驗用于虛擬樣本輸入的生成.因此,本節將從過程數據預處理、虛擬樣本輸入生成、虛擬樣本質量篩選和虛擬樣本數量確定等階段進行綜述.

1) 過程數據預處理

由于采用VSG 技術的故障數據多為機械信號,常用方法是采用FFT 將時域數據轉換為頻域數據.也有學者將一維時域信號轉換為二維圖像后進行處理,如: 文獻[85]和[132]將振動信號切為若干片段,依次歸一化并取整后轉換為灰度圖進行VSG.研究學者提出根據計算機視覺領域的數據增強策略對機械信號進行處理以緩解生成模型過擬合現象的策略,如: 文獻[133]采用重疊分割、旋轉和抖動的數據增強策略對故障樣本進行處理,文獻[92]對故障樣本進行平移和縮放處理等.

2) 虛擬樣本輸入生成

SMOTE 作為針對少數類樣本進行隨機線性插值的VSG 技術,已廣泛應用于解決類不平衡問題,如: 文獻[115]結合粗糙集理論生成少數類虛擬樣本,文獻[73]對電力變壓器非正常狀態的樣本進行補充,文獻[74]在支持向量近似的分類邊界生成非正常狀態的虛擬樣本,文獻[72]采用Minkowski 距離代替傳統SMOTE 中的歐氏距離,文獻[75]通過控制生成范圍減少重疊樣本等.

隨著深度學習的發展和GAN 的提出,對抗模型已成為面向分類問題VSG 的研究熱點.為保證訓練過程的穩定性和虛擬樣本的質量,目前研究主要集中在改進損失函數和模型結構.改進損失函數的研究成果包括: 采用Wasserstein 距離替換傳統交叉熵損失函數的WGAN[84],在WGAN 損失函數的基礎上增加梯度懲罰項的WGAN-GP[85],采用Pull-away 損失函數的改進GAN[69]等.改進模型結構的成果包括: 文獻[79] 在ACGAN 中添加Dropout 層以緩解虛擬樣本生成過程中的模式崩潰問題,文獻[68]采用CVAE 取代ACGAN 的生成器,文獻[90]采用VAE 作為GAN 的生成器并將遺憾算法用于判別器,文獻[83]采用包含具有真假判斷、故障診斷和故障分類3 種功能的判別器,文獻[92]采用CVAE 作為WGAN 的生成器并通過自調制算法進行更新以提高模型穩定性,文獻[19]采用并行GAN 生成虛擬樣本等.上述這些研究,在如何擴展虛擬樣本輸入的邊界方面的研究較少,原因在于分類問題在輸出空間上相對于回歸問題的特殊性.

此外,受限于原始域樣本空間所蘊含的機理知識匱乏的問題,部分學者采用遷移學習從相似領域中提取知識用以輔助生成虛擬樣本.基于樣本進行遷移的研究包括: Zhang 等[134]提出結合SMOTE和遷移學習的VSG 以處理不平衡數據,采用源域樣本和目標域原始樣本加權的方式生成虛擬樣本,結果表明能夠有效提高分類器的準確性;Liu 等[135]采用自適應混合方法生成虛擬樣本,包括基于遷移學習策略保證生成樣本的數量與多樣性和通過進化算法提高故障診斷精度;賈欣等[136]提出將多數類樣本遷移為少數類邊界樣本的均衡方案,這有利于學習類別決策邊界.從模型角度進行遷移以生成虛擬樣本的研究包括: 廖一帆等[137]通過Fine-tuning 方法將由臨界和非臨界樣本所訓練的預測模型嵌入WGAN 中以輔助生成非臨界樣本;蘭健等[138]通過GAN 學習電力系統各種運行方式的共性特征,之后基于微調得到高性能的典型運行方式生成模型,為運行方式的分析提供支撐.由上可知,目前遷移學習已經成為VSG 的研究熱點之一,但遷移后的可靠性方面還有待驗證.

3) 虛擬樣本質量篩選

目前通常采用組合多種評價指標的方式對虛擬樣本質量進行評估,如表1 所示.

表1 面向分類問題的虛擬樣本評價指標Table 1 Virtual sample evaluation index for classification problem

由表1 可知,用于分類問題VSG 的評價指標包括: Wasserstein 距離、歐氏距離、馬氏距離、KL散度、F-score、Kappa 系數、皮爾遜相關系數、判別概率、最大均值差異和GAN 測試值等,這表明目前還不存在統一標準,相關的理論支撐也未見報道.相對而言,文獻[82]和[69]給出了評價指標的具體閾值并據此進行樣本篩選.

4) 虛擬樣本數量確定

面向分類問題(以存在A 和B 兩類為例,其中A 類數量遠大于B 類數量),VSG 的目的是: 通過生成B 類虛擬樣本降低數據集的不平衡比IR 直至其值為1,即實現從上述視角,虛擬樣本的理想數量即為A (多數)類和B (少數)類樣本的數量之差,可表示為:

其中,Nvir為虛擬樣本的數量,分別為A (多數)類和B (少數)類樣本的數量.

文獻[140]指出,生成虛擬樣本并不需要完全地消除少數類與多數類之間的數量差距,可通過類別之間的分類復雜度Hclass確定最終所需虛擬樣本數量,如下:

綜上所述,面向工業過程的VSG 需要根據具體任務和實際數據的特性設計相應的VSG 流程和采用適合的策略.

2.3 基于VSG 推廣應用分類的研究現狀

本文依據當前工業過程中VSG 的研究現狀,從回歸和分類兩類問題對VSG 的推廣應用情況進行綜述.

2.3.1 面向回歸問題的VSG 應用

目前VSG 主要應用于石油化工、固廢焚燒、工業制造和礦業冶金等領域,其統計結果如圖13 所示.

圖13 面向回歸建模問題的VSG 應用統計結果Fig.13 VSG application statistical results for regression modeling problem

如圖13 所示,VSG 在工業制造和石油化工領域應用和發展時間較長,而在固廢焚燒和礦業冶金領域的應用才剛剛起步.

面向化工過程,文獻[104]提出基于信息擴散和PSO 優化的VSG,通過RWNN 為虛擬樣本輸入匹配輸出,提高了精對苯二甲酸(Pure terephthalic acid,PTA)生產過程的醋酸消耗預測模型的性能;文獻[59]通過在RWNN 隱含層間插值生成虛擬樣本輸出和虛擬樣本輸入,構建乙烯生產系統模型以為石化行業的能源管理提供指導作用;文獻[53]針對PTA 生產過程的數據分布不完備問題,采用Isomap 流形學習進行降維并搜尋稀疏區域插值生成虛擬樣本,結果表明該方法可有效提高軟測量模型的性能;文獻[55]將分位數回歸神經網絡嵌入至CGAN 內為虛擬樣本匹配準確輸出,采用實際過程數據驗證了所提方法的有效性;文獻[65]將回歸器嵌入至CWGAN 中,針對PTA 生產過程的應用表明,所生成的虛擬樣本質量優于常規方法.

針對MSWI 過程DXN 建模數據獲取困難的問題,文獻[56]提出基于改進大趨勢擴散和隱含層插值的混合VSG,即生成的虛擬樣本包含基于子區域歐氏距離改進的MTD 等間隔生成和基于正則化改進的RWNN 隱含層插值生成兩類,通過混合樣本構建DXN 排放軟測量模型,但樣本間的冗余性未予于考慮;接著,文獻[61]基于領域專家知識和MTD技術對真實樣本進行擴展,在生成虛擬樣本輸入和根據映射模型獲得虛擬樣本輸出后,采用PSO 算法對虛擬樣本進行優化選擇,但該方法未能同時考慮虛擬樣本數量和映射模型超參數對模型泛化性能的影響;對此,文獻[15] 提出基于多目標PSO (Multi-objective PSO,MOPSO)混合優化的VSG,通過對虛擬樣本數量和模型性能指標2 個目標進行混合優化的策略確保了VSG 的合理性和有效性.

在工業制造領域中,文獻[97]針對柔性制造調度系統建模過程中存在的樣本信息匱乏且與時間相關的問題,提出基于GTD 技術的VSG,結果表明混合樣本有助于提高模型性能;在此基礎上,文獻[98]將趨勢擴散和樹算法結合,提出基于樹結構的趨勢擴散方法,用于擴充制造過程初期的樣本數量;針對產品壽命性能評估問題,文獻[112]在符合制造業的Weibull 分布中,以采樣方式獲得虛擬樣本;文獻[141]采用模糊c均值聚類算法將數據分為多個簇后賦予不同權重,通過箱型圖估計特征的擴展范圍后生成虛擬樣本,構建的模型相較于對比方法具有更佳的性能;文獻[117] 采用高斯混合模型擬合數據分布后采用網格搜索技術對模型進行優化,所提方法能夠緩解橡膠加工耐磨性數據的缺乏和提高預測模型的精度.

針對磨礦過程采用非完備樣本構建數據驅動模型困難的問題,文獻[6]提出結合先驗知識和FBP的VSG,對構建物理闡釋明確的軟測量模型具有重要的借鑒意義.針對稀土萃取過程中存在的小樣本問題,文獻[142]將基于MD-MTD 和RWNN 生成的虛擬樣本與GA 優化MD-MTD 生成的虛擬樣本混合后構建預測模型,結果表明可提高模型的穩定性和泛化性能.

針對其他領域回歸問題的VSG 還包括: 鋰電池剩余壽命預測[143]、蒸餾塔煤油凝固點預測[144]和血液光譜分析[103]等.

2.3.2 面向分類問題的VSG 應用

已有研究成果主要集中在故障診斷領域,即用于軸承、齒輪以及電機等機械設備診斷模型的故障樣本生成.與傳統過程數據不同,這類故障樣本多為用于二分類問題的機械振動信號,特點是故障樣本的數量明顯少于健康樣本,即存在類不平衡問題[145].基于這一特點,圖14 給出了2019~ 2022 年間VSG技術在故障診斷領域的應用.

圖14 2019~ 2022 年面向故障診斷領域的VSG 應用統計結果Fig.14 VSG application statistical results for fault diagnosis on 2019~ 2022

由圖14 可知,近4 年故障診斷領域的VSG 研究成果主要集中于編碼器、GAN 等深度學習方法,其本質是通過改進生成模型的結構、數量和損失函數等方式保證虛擬樣本的質量.

在滾動軸承故障診斷領域中,文獻[146]提出結合遷移學習和GAN 的VSG,其基于設備故障機理對特征進行遷移并通過GAN 學習設備監測數據的分布特征進而生成虛擬樣本,具有較好的變工況遷移能力;文獻[147]提出融合用于生成虛擬故障樣本的去噪自編碼器(Predictive generative denoising AE,PGDAE)和進行故障診斷的深度珊瑚網絡(Deep coral network,DCN)的統一框架,結果表明可有效生成虛擬故障樣本并準確識別滾動軸承故障;為提高生成模型性能,文獻[66]采用元學習增強Wassersterin AE (WAE)策略提升先驗分布與滾動軸承振動信號間的映射能力,結果表明生成的虛擬樣本質量優于對比方法;文獻[92]將自調制、CVAE 和WGAN 相結合以增強博弈對抗過程的穩定性,進而生成高質量的虛擬故障樣本;文獻[132]將一維信號數據轉換成二維灰度圖像后基于ACGAN生成虛擬故障樣本,通過自注意力機制深度子域適應網絡(Deep subdomain adaptation network,DSAN)提高故障特征的非線性擬合能力;文獻[148]利用常數Q 轉換將機械信號轉為頻譜圖像后輸入GAN,并采用均方誤差替換交叉熵作為損失函數;文獻[149]通過度量判別器與生成器間的相對性能后自適應調節生成器的損失值,結果表明對抗學習過程的收斂更快,所生成樣本的質量更好;文獻[69]提出深度特征增強生成對抗網絡以提高不平衡故障診斷的性能,建立自動數據過濾器以保證生成樣本的準確性和多樣性;文獻[150]提出深度特征生成網絡(Deep feature generating network,DFGN)用于面向零樣本的滾動軸承故障檢測,實驗結果表明能夠有效地檢測典型故障.

面向變壓器的故障樣本與健康樣本不平衡的問題,文獻[73]采用SMOTE 生成異常狀態樣本后,通過DT 提取變壓器狀態評估知識后將其轉換為狀態量和評估規則;文獻[74]在支持向量近似的分類邊界,根據最近鄰決策機制采用插值方式生成虛擬樣本,進而提高診斷模型的準確性;文獻[151]采用基于梯度懲罰優化的CWGAN (CWGAN-GP)生成多類別故障樣本,構建基于棧式自編碼器的診斷模型,結果表明可有效改善模型分類偏好和提升分類性能;文獻[91]設計包含孿生編碼器、解碼器和傳輸層的改進AE 以消除數據噪聲,通過LSGAN生成高置信度的健康狀態樣本,結果表明能夠及時檢測發電機的潛在異常情況.

針對風力渦輪機故障樣本稀少引起的信息缺失問題,文獻[152]按照皮爾遜相關系數和最大信息系數,將生成的虛擬樣本特征分組輸入判別器后分別計算損失,以加權值作為總損失用于更新GAN,實驗表明所生成的虛擬樣本更為真實;文獻[153]提出將對抗學習作為正則項引入CNN 的深度對抗CNN (Deep adversarial CNN,DACNN),結果表明提高了診斷模型的準確度;文獻[89]針對機械系統的異常樣本采集難的問題,提出結合GAN 和AE的機械系統異常檢測方法,通過編碼-解碼-再編碼的網絡結構學習異常變化并生成虛擬樣本,結果表明能夠更穩定地表征故障演化過程;文獻[154]提出將樣本生成和故障診斷相結合的ASM1D-GAN(Assembled 1D CNN and GAN),通過對抗學習機制同時優化上述兩個過程以達到同時提高生成樣本質量和故障診斷精度的目的.

針對齒輪箱的故障診斷問題,文獻[68]提出基于條件變分自編碼器生成對抗網絡的不平衡故障診斷方法,通過CVAE 提取故障樣本分布以對抗方式生成虛擬樣本,結果表明可生成不同工況下的故障樣本,能夠提高模型性能;針對GAN 調參復雜且具有隨機性的問題,文獻[86]通過貝葉斯優化(Bayesian optimization,BO)策略自適應地調節WGAN的判別器參數以提升虛擬樣本質量,結果表明可有效提高故障識別精度;文獻[67]采用深度卷積GAN(Deep convolution GAN,DCGAN)生成虛擬樣本以解決數據集不平衡問題,通過K-means 聚類算法改進基于CNN 的機械設備故障診斷模型.

此外,VSG 在故障診斷中的應用還包括: 小電流接地系統故障線路檢測[77]以及熱電聯產電廠給水泵[155]、磨礦機[156]和化工過程[157]等領域的故障診斷.

綜合上述研究可知,VSG 正快速在缺失完備建模樣本的復雜工業過程中獲得應用,其在面向分類問題的研究深度和先進性等方面明顯優于面向回歸問題.本文雖然僅對常見的工業過程的VSG 典型應用進行了介紹,但這些結果在一定程度上表明,VSG 具有獨特的優勢和適應不同工業過程數據的良好性能.

3 數據集與開源軟件

本節將對上述面向工業過程的VSG 研究所涉及的數據集和開源軟件進行總結,包括用于虛擬樣本實驗評估的基準數據集和在VSG 算法實現過程中所用到的開源軟件,進而為VSG 的研究提供基礎支撐.

3.1 基準數據集

本節將從面向回歸和分類問題兩個方面對目前VSG 研究中采用的合成和公開基準數據集進行匯總,如表2 和表3 所示.

表2 面向回歸問題VSG 的合成數據集Table 2 Synthetic datasets of VSG for regression problem

表3 面向分類問題的VSG 公開數據集Table 3 Public datasets of VSG for classification problem

由表2 和表3 可知,目前的VSG 研究大多是在傳統的合成函數和公開的故障診斷數據集上開展的,基于實際工業過程的VSG 基準數據集還未見相關報道,尤其面向回歸問題,甚至不存在由實際工業過程產生的數據集.因此,構建能夠用于生成模型和虛擬樣本質量評估的通用VSG 基準工業數據集也是未來的重要研究方向之一.構建面向實際工業過程的虛擬樣本數據庫更是值得深入研究的基礎工作.

3.2 開源軟件

合適的編程軟件是實現VSG 的重要基礎,目前主要分為Python 和Matlab 兩類.

1) 基于Python 的開源軟件

a) PyTorch,由Facebook AI Research 開發的深度學習庫,支持基于CPU 和GPU 進行高效張量運算并提供可靈活修改模型結構的動態計算圖,包含許多深度學習模型和算法,詳見官網: https://pytorch.org/.

b) TensorFlow,由Google Brain 團隊開發的機器學習平臺,支持GPU 和TPU 等硬件加速計算并能夠進行分布式的訓練和推理,提供了豐富的工具和資源.除Python 外,TensorFlow 還支持Java、C++等編程語言,詳見官網: https://www.tensorflow.org/.

c) Keras,由Python 編寫的開源神經網絡庫,能夠在TensorFlow、CNTK 以及Theano 上運行,支持快速實驗和構建復雜模型,詳見官網: https://keras.io/.

2) Matlab 的開源軟件

a) Deep Learn Toolbox,其包含多種模型、算法和應用程序的深度學習框架,支持網絡設計可視化和訓練進度實時監控,詳見官網: https://ww2.mathworks.cn/products/deep-learning.html.

b) Statistics and Machine Learning Toolbox,其提供多種用于數據描述、分析和建模的有監督、半監督和無監督機器學習算法,能夠自動生成C/C++代碼用于嵌入式部署,詳見官網: https://ww2.mathworks.cn/products/statistics.html.

目前,VSG 研究正處于與統計學習、深度學習、遷移學習、聯邦學習、集成學習等領域的新進展深度結合階段,因此這些領域所采用的開源軟件都可用于VSG 領域.進一步,后續研究可考慮構建由基礎算法、基準數據集、標準評估算法以及可視化等組件組成的VSG Toolbox.

4 VSG 的比較與討論

4.1 方法比較

從樣本覆蓋區域、VSG 實現流程和推廣應用3個方面,針對回歸問題和分類問題VSG 的研究成果統計與對比如附錄A 的表A1 所示.文中的符號說明如表A2 所示.

由表A1 可知: 從3 個不同視角綜述的結果而言,面向回歸和分類問題的VSG 在側重點上是存在差異性的,具體表現為:

1) 樣本覆蓋區域視角.面向原始域樣本空間的VSG 最早源于SMOTE 等插值算法,在GAN出現后其迎來了更高的研究熱度,其中: 分類問題主要集中在故障診斷領域,采用卷積網絡、編碼器和注意力機制對故障數據進行特征提取和增強;回歸問題采用流形學習、專家經驗等處理高維過程數據;此外,由于在博弈對抗的過程中為虛擬樣本輸入匹配準確的輸出存在困難,使得基于GAN 的回歸問題VSG 研究較少.從通過VSG 完備樣本分布的目的的視角,識別真實樣本的稀疏區域是基于函數模型進行VSG 的關鍵,即首先通過稀疏區域確定需要生成虛擬樣本的位置;但是,在基于對抗模型的VSG 過程中,可能會生成不屬于完備域(期望域)樣本空間的不合格虛擬樣本,因此進行樣本篩選很有必要.面向擴展域樣本空間的VSG 最早源于信息擴散理論,在MTD 提出后獲得廣泛應用,其中: 基于模糊集理論的VSG 研究相較于粗糙集理論更加成熟;基于分布假設的VSG 針對不同工業過程需選擇合適的分布以接近完備域的樣本分布.從完備樣本分布區域的目的而言,基于擴展域空間的VSG 既要考慮可擴展區域存在與否和存在時的區域范圍,又要考慮擴展時虛擬樣本的分布程度;同時,還需要結合知識對未知域進行認知.因此,已有研究通常為原始域和擴展域分別選擇合適的VSG 策略.

2) VSG 實現流程視角.數據預處理階段需要依據建模數據特性進行處理以便更好地開展后續工作,例如: 對異常和缺失值進行剔除和填充,對高維數據進行特征約簡以及對機械信號進行FFT 處理等.針對分類問題,由于無需匹配輸出,采用GAN在虛擬樣本輸入生成階段的研究明顯多于回歸問題,這也導致基于擴展域樣本空間的VSG 研究較少.在虛擬樣本輸出生成階段,采用RF、RWNN和RBF 等映射模型均能夠適應小樣本建模,但如何基于有限的樣本構建準確且魯棒的映射模型仍是待解決的熱點研究問題.在虛擬樣本質量篩選階段,通常采用的是相似性度量、優化算法和模型誤差等方法,但如何確定統一的、有理論支撐的期望評價準則仍是一個未解決的開放性問題.在虛擬樣本數量確定階段,目前多依據實際問題特性采用試湊方式確定添加數量,雖有學者從數學理論和數據特性等角度探索確定方法,但仍待繼續完善.

3) VSG 推廣應用視角.面向回歸問題的VSG主要應用在石油化工、固廢焚燒、工業制造和礦業冶金等領域,其中: 石油化工領域多采用基于原始域樣本空間的VSG;工業制造領域的VSG 研究多集中于擴展域樣本空間;固廢焚燒和礦業冶金的VSG 研究相對較少,處于起步階段.面向分類問題的VSG 應用在軸承、齒輪、渦輪機以及變壓器等機械或電力設備的故障診斷中,其中以面向機械信號采用GAN 的應用最為廣泛.

綜上可知,在上述3 個視角下,針對回歸問題和分類問題的VSG 各具優勢,有必要相互進行借鑒;同時,也有待于與遷移學習、集成學習、聯邦學習等算法結合并與具體應用領域進行深度融合.

4.2 討論與分析

結合以上分析,筆者總結了面向工業過程VSG的未來研究方向,如下所示.

1) 樣本質量與生成模型協同優化

由式(1)可知,采用增加樣本數量或減少特征維數均是獲得較大α值的可行方案.在VSG 前基于特征工程降維以減少模型的訓練難度是必要的,其中: 基于特征變換VSG 的難點在于如何重構虛擬樣本,基于特征選擇VSG 的難點在于如何平衡選擇的特征數量和生成的虛擬樣本質量等問題.虛擬樣本輸出的質量在很大程度上取決于生成模型的選擇,但目前尚無統一的評估方式以分析模型結構或參數對虛擬樣本的影響.針對某個工業過程的某個實際問題所設計的VSG 效果好但具有局限性,如何借鑒并提高普適性有待研究.因此,設計虛擬樣本質量評價指標并與生成模型的結構和參數協同優化是未來的重要研究方向,同時也需要考慮如何提高優化效率、降低運行消耗等問題.

2) 基于對抗學習融合機理知識、經驗規則和數據驅動模型的智能VSG

現有VSG 主要利用原始真實樣本構建基于數據驅動的生成模型,存在蘊含機理知識缺乏和完備樣本分布未知等問題.針對具體復雜工業過程而言,可利用數值仿真軟件構建能夠反映運行狀態的近似機理可視化模型和利用專家經驗知識構建反映運行規則的經驗模型.因此,通過對抗學習等技術自行選擇由機理知識、經驗規則和數據驅動等構成的多類型生成模型并通過進化最優VSG 流程,將能夠為生成模型的選擇和構建提供指導作用和提升VSG的可解釋性.

3) 基于合成數據集的VSG 理論分析

雖然VSG 已在復雜工業過程的各個領域得到迅速發展,但與其相關的理論分析卻較為匱乏,例如: 擴展域樣本空間的隸屬度函數和分布函數的選擇依賴于主觀經驗;用于信息擴散的三角隸屬度函數和用于分布假設的正態分布函數并不適用于所有工業過程.在優化算法領域中,常采用多種基準函數進行算法設計、性能測試和方法比較,依據這些人為設定的基準函數能夠較為客觀地評價不同優化算法的各種性能.對此,也有學者設計測試函數并采樣得到合成數據對VSG 性能進行評價[57,129].但是,在如何確定完備分布,如何確定不同分布下虛擬樣本的數量和質量等方面的理論還缺失.因此,筆者認為,采用具有較好規范性和多樣性的合成數據進行VSG 的理論分析是未來該領域偏向于學術方面的研究方向之一.

4) 借鑒相關領域知識的遷移VSG

不管是基于原始域樣本空間還是基于擴展域樣本空間的VSG,本質都是基于原始真實樣本并從中挖掘樣本間的聯系或獲取擴展范圍,但受限于樣本數量該過程存在多種困難.以GAN 為例,其作為一種本身需要數據支撐的神經網絡,只有在存在充足數據時才能支持網絡訓練的收斂,在數據量較少的情況下難以達到納什均衡且易陷入模式崩塌,此時的樣本生成過程近似于對原始樣本的簡單復制,顯然這對提高樣本的多樣性和進行區域空間擴充并無實質性的幫助[158].因此,除機理知識外,從外部的樣本空間獲取知識以提高生成模型的性能是VSG的重要研究方向.顯然,這種外部的樣本空間應與原始域空間具有相似性且數據量大,此處將其稱為相似域空間.遷移學習旨在利用相關領域的知識提高學習性能或最小化目標領域所需的樣本數[159].目前,基于相似域空間的VSG 尚處于起步階段,還存在大量問題亟待解決,例如: 兩個域之間存在相似性是知識遷移的必要前提,但相似性度量方法的優劣還未有統一標準;域間相似性對虛擬樣本質量的影響程度也是值得研究的問題;如何從數據和模型兩個層面同時進行遷移以達到更好的效果等.

5) 工業過程數字孿生系統驅動的VSG 完備樣本分布研究

工業過程數據存在樣本稀缺、分布完備性差和內涵機理知識匱乏等問題.如何獲取具有完備樣本分布的建模數據是未來VSG 實現落地應用的關鍵.近些年,數字孿生技術的出現以及其迅速的發展為解決上述問題提供了新的思路.文獻[160]構建航天器電源系統的數字孿生模型,并對其注入虛擬故障以獲得虛擬樣本.文獻[161] 通過采煤機搖臂機的數字孿生模型生成狀態檢測樣本并構建預測模型,為復雜礦用設備的運維提供支持.雖然上述數字孿生系統多面向離散過程,但也能夠為構建機理更加復雜的流程工業數字孿生系統提供借鑒.因此,基于物理幾何模型和動力學模型以及多源數據構建復雜工業過程數字孿生模型,生成具有完備樣本分布的虛擬樣本庫能夠為VSG 提供機理知識,具體實現方式與可用性驗證等問題還有待研究.

6) 基于監督和半監督學習的集成VSG

復雜工業過程的關鍵運行指標數量受限于檢測技術的高成本和大時滯特性,導致存在大量未標記的過程數據和少量標記的建模數據共存的現象[162].半監督學習是綜合有標記和無標記數據的建模方法,其能充分利用過程數據所表征的工業運行過程的特性[163].因此,借鑒半監督學習思想,在虛擬樣本輸入生成階段可充分利用未標記過程數據所能表征的特征空間以提高生成樣本的質量.結合上述樣本的差異度與主動學習算法篩選合格輸入數據,對其進行標記能夠獲得高置信度的偽標記樣本和高質量的虛擬樣本.筆者認為,從輸入輸出視角,真實樣本可記為“真-真”樣本,之前研究所生成的虛擬樣本可記為“虛-虛”樣本,此處采用半監督方式獲得的樣本可記為“真-虛”樣本.因此,基于監督和半監督學習的集成VSG 能夠基于“真-真”樣本和未標記樣本提高“虛-虛”樣本可信度的同時通過“真-虛”樣本進一步增加虛擬樣本的數量.

7) 自適應更新的動態VSG

在實際的工業過程中,數據分布會隨時間發生動態變化導致舊模型無法適用于新樣本,該問題被稱為概念漂移,產生原因通常是元器件老化或生產環境變化導致模型輸入輸出間的分布關系發生改變.如何進行概念漂移的檢測、量化和處理也是學術界的開放性問題之一[164].基于歷史真實數據的VSG 雖能夠進行域擴展,但卻難以表征工業過程未知漂移和難以確定未知域.因此,VSG 應能夠根據工業動態環境的變化進行完備樣本分布的實時更新,進而確保生成模型的性能和預測模型的精度,在該方向上的研究成果還未見報道.

5 結論

本文總結了針對復雜工業過程難測運行指標和異常故障進行建模的真實樣本所存在的問題,梳理了虛擬樣本的定義和內涵,給出了工業過程VSG的實現流程,綜述了面向樣本覆蓋區域、實現流程與推廣應用3 個方向的研究現狀,討論了未來研究方向.結合上述分析結果,筆者認為未來挑戰包括:1) 構建合成數據集進行VSG 理論分析,進行樣本質量與生成模型的協同優化;2) 利用對抗學習對機理知識、經驗規則和數據驅動模型進行動態進化選擇,構建具有最優生成流程的智能VSG;3) 同時從輸入和輸出角度評估本文所提出的相似域樣本空間,采用基于樣本和模型的遷移學習構建虛擬樣本輸入生成模型和輸出映射模型;4) 面向工業過程的物理實體構建混合機理和數據驅動的數字孿生系統,依據實際工業數據的動態變化對數據孿生模型進行預測性調整以確保虛擬樣本質量和預測模型性能;5) 利用未標記樣本提升虛擬樣本的可信度,結合監督和半監督學習算法的差異度和主動學習算法的靈活性,構建面向多視角學習機制的集成VSG和結合工業過程概念漂移的動態VSG.

附錄A

表A1 VSG 的研究成果統計與對比Table A1 Statistics and comparison of VSG research results

猜你喜歡
故障模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
故障一點通
3D打印中的模型分割與打包
奔馳R320車ABS、ESP故障燈異常點亮
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
故障一點通
故障一點通
故障一點通
主站蜘蛛池模板: 精品国产Ⅴ无码大片在线观看81| 亚洲欧洲自拍拍偷午夜色| 波多野结衣中文字幕久久| 亚洲黄网视频| 午夜视频日本| 午夜高清国产拍精品| 国产va在线| 亚洲人成网站在线播放2019| 九九九精品成人免费视频7| 亚洲国产成人无码AV在线影院L | 一区二区三区四区在线| 美女被操黄色视频网站| 国产亚卅精品无码| 亚欧美国产综合| 97se亚洲综合在线天天| 欧美成人在线免费| 亚洲欧美成人网| 亚洲国产av无码综合原创国产| 国产乱子伦精品视频| 久久黄色小视频| 久久亚洲日本不卡一区二区| 久久免费视频6| 全午夜免费一级毛片| 91免费精品国偷自产在线在线| vvvv98国产成人综合青青| 欧美一区精品| 男女性色大片免费网站| 中文国产成人精品久久| 国产精品网曝门免费视频| 亚洲天堂2014| 亚洲—日韩aV在线| 日韩精品欧美国产在线| 成人在线观看不卡| 国产精品私拍99pans大尺度| 国产无人区一区二区三区| 欧美亚洲国产精品第一页| 亚洲精品波多野结衣| 亚洲日韩精品无码专区97| 91黄色在线观看| 日本色综合网| 日韩精品无码免费专网站| 极品国产在线| 国产a v无码专区亚洲av| 最新国产麻豆aⅴ精品无| 91久久天天躁狠狠躁夜夜| 亚洲综合色区在线播放2019| 九九久久99精品| 国产亚洲一区二区三区在线| 亚洲综合久久成人AV| 午夜不卡视频| 美女潮喷出白浆在线观看视频| 久久综合成人| 久久视精品| 永久在线播放| 日韩无码视频专区| 色国产视频| 大香网伊人久久综合网2020| 日日噜噜夜夜狠狠视频| 国产又爽又黄无遮挡免费观看| 精品视频免费在线| 综1合AV在线播放| 精品视频一区在线观看| 国产情侣一区二区三区| 女人毛片a级大学毛片免费| 日本免费精品| 国产一区在线视频观看| 亚洲91精品视频| 国产精品第三页在线看| 高清久久精品亚洲日韩Av| 一级一级特黄女人精品毛片| 国产成人精品一区二区免费看京| 亚洲美女视频一区| 四虎永久在线精品国产免费| 亚洲欧美在线精品一区二区| 亚洲国产日韩在线观看| 成人在线观看一区| 中国国产高清免费AV片| 精品国产成人a在线观看| 欧美一区二区自偷自拍视频| 99久久国产精品无码| 亚洲人成网站在线观看播放不卡| 成人一级黄色毛片|