貧數(shù)據(jù)中基于模型自訓練的空氣處理設備故障診斷

2024-04-08 08:06:28阮應君錢凡悅鄧永康鄭銘樺

同濟大學學報(自然科學版) 2024年3期

孟華，裴迪，阮應君，錢凡悅，鄧永康，鄭銘樺

（同濟大學機械與能源工程學院，上海 201804）

加強暖通空調(diào)（HVAC）系統(tǒng)、尤其是AHU的故障檢測和診斷（FDD）研究對節(jié)能減排意義重大[1-2］。當前，HVAC FDD 的研究方法大致包括基于模型、基于知識和基于數(shù)據(jù)驅(qū)動3 類[3］，筆者檢索了Web of Science 核心數(shù)據(jù)集2012―2021 十年間HVAC FDD 的研究文獻共528 篇，基于數(shù)據(jù)驅(qū)動的文章占比從60%逐年提升至87%，該研究方法已成為主流。而無論從設備全壽命周期內(nèi)故障率遵循的 “浴盆曲線” 看，還是從NASA對復雜設備所歸納的典型故障概率看，AHU 作為暖通空調(diào)中的常見設備，由于人工診斷故障成本高昂，致使其實際運行中的故障標簽樣本極少，即處于AHU FDD 貧數(shù)據(jù)情景。而近年來，在貧數(shù)據(jù)情景中針對歷史運行故障數(shù)據(jù)的特征選擇、提高模型診斷準確率等問題，已日益成為研究熱點[4-5］。

在HVAC FDD的故障數(shù)據(jù)特征選擇研究中，通常采用某種算法對重要特征進行篩選，以實現(xiàn)特征降維、提高計算速度并提升模型診斷性能。Han等[6］利用最大相關(guān)最小冗余及遺傳算法包裹支持向量機（SVM）對冷水機組的特征子集進行特征選擇，節(jié)省約63%～72%的計算時間。Yan 等[7-8］使用ReliefF算法從冷水機組65 個特征中篩選6 個典型特征，實現(xiàn)5 個故障90.31%的診斷準確率。Li 等[9］利用基于信息貪婪的特征濾波器剔除AHU 數(shù)據(jù)中的噪聲和冗余特征，在不同的故障診斷模型上獲得3.54%～25.29%的準確率提升。但是，目前研究尚較少有基于分類模型對不同算法最優(yōu)特征子集的特性進行對比研究的，尤其是對在貧數(shù)據(jù)情景中不同算法性能穩(wěn)定性等研究還很有限，而這些研究對優(yōu)化HVAC FDD特征維度、提高計算速度及提升模型診斷準確率至關(guān)重要。

由于分類器性能往往隨故障標簽量的減少而降低[10-11］，在貧數(shù)據(jù)情景中，自訓練算法能夠利用少量故障標簽樣本訓練分類模型，以故障偽標簽擴充訓練集，并提升模型性能。Yan等[12］開發(fā)SVM自訓練模型用于貧數(shù)據(jù)時的AHU FDD，使其在少量故障標簽下的診斷準確率提升到80%和90%以上。Fan等[13-14］將自訓練神經(jīng)網(wǎng)絡模型用于AHU FDD，在不同學習率及置信閾值下，利用偽標簽使診斷準確率最高提升約30%，并提高未知故障的檢測率。盡管自訓練算法對于貧數(shù)據(jù)情景很有效，但是，當前針對深層網(wǎng)絡自訓練的研究還較少，尤其是關(guān)于小故障樣本量、或偽標簽選取策略等問題對自訓練模型準確率提升的效果影響等研究還較有限，而加強相關(guān)研究對提升貧數(shù)據(jù)時AHU FDD的診斷準確率大有裨益。

本文就4 種典型特征選擇算法對于AHU 夏季運行故障標簽匱乏情景的適用性及在不同特征子集維度下的性能及穩(wěn)定性進行對比研究，甄選最優(yōu)子集，針對貧數(shù)據(jù)提出將DBN 嵌入自訓練框架的故障診斷模型，探究真實故障標簽量及偽標簽篩選策略對模型診斷性能的影響。

1 AHU FDD方法

1.1 特征選擇

選擇在機器學習領(lǐng)域典型數(shù)據(jù)集中表現(xiàn)良好的4種算法[15］，其計算成本低，通用性強，適于貧數(shù)據(jù)情景中AHU FDD故障數(shù)據(jù)特征降維。

（1）最大信息系數(shù)（MIC）。用于量化特征與故障的相關(guān)性，即

式中：X是特征向量；Y是故障標簽；I[X；Y]是互信息值；i，j是對二維散點圖的網(wǎng)格劃分；網(wǎng)格分辨率限制常數(shù)B是樣本量n的函數(shù)，B=n0.6。

（2）最大相關(guān)最小冗余（MRMR）。利用互信息量化特征子集的冗余度，如下

式中：S指特征子集的維度；D(S，c)指特征子集中每個特征與故障互信息的和；R(S)指子集中特征之間的互信息之和。

（3）ReliefF 的邏輯是懲罰樣本的類內(nèi)差異并獎勵類間差異，以此量化特征對分類的影響。特征權(quán)重W(Fi)及樣本在特征分量下的差異diff分別為

式中：樣本總量為m；X為所有樣本中隨機抽取的樣本；A、B為故障類別；從兩類故障樣本中各抽取k個與X最鄰近的樣本，樣本Xi與X故障類別相同；Xj為不同類故障樣本；P(A)為A故障出現(xiàn)的概率。

（4）ILFS. 它是基于圖的特征選擇算法，以計算特征xi中元素的Fisher 分數(shù)并量子化進行特征降維。其鄰接矩陣A儲存的特征關(guān)聯(lián)ai，j=φ(xi，xj)由概率潛在語義分析的變體技術(shù)自動賦值，按照無限特征選擇（Inf-FS）計算冗余性。

1.2 DBN自訓練模型

選擇DBN[16］為AHU FDD 的分類模型，它是一種深度學習網(wǎng)絡，通過疊加多個受限的玻爾茲曼機構(gòu)建顯、隱兩層結(jié)構(gòu)。先利用不包含故障信息的數(shù)據(jù)初步生成網(wǎng)絡節(jié)點參數(shù)，再利用數(shù)據(jù)故障標簽對整個網(wǎng)絡參數(shù)進行調(diào)整。DBN 模型最大的優(yōu)點是能夠有效提取數(shù)據(jù)深層特征，當輸入的特征子集維度較小時可保持良好的診斷性能，模型訓練時間短，適于自訓練這種需要大量迭代訓練的半監(jiān)督方法。

自訓練算法[17］原理為：設有L種故障，含故障標簽的數(shù)據(jù)集為X={(xn，yn)，n=1，2，…，N}，故障標簽為yn∈{1，2，…，L}，無故障標簽的數(shù)據(jù)集為U={um，m=1，2，…，M}。自訓練的每一次迭代包含兩步，第一步根據(jù)故障標簽樣本訓練得到 “教師” 模型，第二步由教師模型利用無標簽樣本um生成偽標簽m，得到偽標簽數(shù) 據(jù) 集={(um，)，m=1，2，…，M}，由篩選策略選擇含有高質(zhì)量偽標簽的樣本集∈，擴充訓練集得到X′=X∪。本文所提出的DBN 自訓練算法用于AHU FDD 的故障診斷流程見圖1。其中 “是否滿足退出條件” 的具體解釋見2.3.1。

圖1 基于特征選擇及DBN自訓練的AHU FDD流程圖Fig. 1 AHU FDD flow chart based on feature selection and DBN self-training model

1.3 評價指標

采用三項指標對模型診斷性能進行評價

式中：TP為正確分類陽性樣本；TN為正確分類陰性樣本；FN為將陽性樣本錯分為陰性；FP代表將陰性樣本錯分為陽性樣本。上述評價指標對二分類及多故障的診斷情景都適用。

2 AHU故障診斷實例分析

2.1 數(shù)據(jù)來源及處理

數(shù)據(jù)集來自ASHRAE AHU 夏季故障實驗（PR-1 312）[18-20］，其既包含不同類型的AHU 故障，例如新/排風閥卡死、冷卻盤管閥門控制失穩(wěn)、AHU管道泄漏等；還包含AHU 同類故障的不同等級，例如對于 “冷卻盤管閥門卡死” 故障，共有閥門全關(guān)、閥門開度15%、閥門開度65%及閥門全開4 種故障等級。該數(shù)據(jù)集共包括19 種工況，18 種故障及1 種正常狀態(tài)，穩(wěn)態(tài)工況時每種699個數(shù)據(jù)樣本，有效樣本總數(shù)為13281。通過手動剔除實驗數(shù)據(jù)中諸如故障控制信號、實驗啟停布爾邏輯信號等無關(guān)特征后，共獲得80 個有效特征。利用拉伊達準則剔除特征向量異常值并標準化，得到數(shù)據(jù)的合理分布。隨機抽取總樣本的70%為訓練集、其余30%為測試集，各數(shù)據(jù)集中不同工況均勻分布。

2.2 特征選擇

為探究對比MRMR、ReliefF、MIC 和ILFS 這4種特征選擇算法在貧數(shù)據(jù)情景中的性能，各算法中的參數(shù)設定依次為：初始子集維度取1，K鄰近數(shù)為10，網(wǎng)格分辨率限制常數(shù)取樣本量的0.6次方，特征量子化維度為6。取貧數(shù)據(jù)樣本容量為總樣本的5%（665 個）；為消除隨機性，樣本集隨機抽樣5 次，診斷結(jié)果取平均。

采用4種特征選擇算法分別計算80個有效特征與AHU故障標簽之間的量化相關(guān)性并降序排列，得出4個降序列隊，分別取各列隊中的前N個值，得到維度為N的特征子集，由該子集包含的特征值分別訓練DBN 模型，得到4 種算法在不同特征子集維度N時的DBN FDD故障診斷準確率，見圖2，由于4種算法在模型訓練中的耗時相差很小，故以4 種算法的平均耗時由圖2中的虛線給出。所用DBN模型的參數(shù)均經(jīng)大量仿真實驗確定，具體見表1。

表1 DBN模型的參數(shù)設置Tab. 1 Parameters for DBN model

圖2 4種算法在不同維度N時的DBN FDD診斷準確率及模型平均訓練耗時Fig. 2 DBN FDD accuracy for MRMR, ReliefF,ILFS, MIC and their average training time at different N

由圖2 可見，4 種不同特征排列的DBN FDD 準確率均隨維度N的增加而升高，這說明隨著更多特征的加入，更多的故障信息被DBN 模型學習；但當N超過20 后，F(xiàn)DD 準確率上升趨勢趨于平緩，說明特征數(shù)量的增加對診斷準確率提升產(chǎn)生邊際效應，但訓練計算耗時卻顯著增加。因此，若綜合考慮診斷準確率和模型計算量，可取最佳特征子集維度N為20。如圖2，將4 種特征選擇算法的性能進行對比，可見除MRMR 外，當維度N低于10 時，ReliefF準確率較好、計算耗時也較低，性能較好，但當N高于15時，MIC性能超過ReliefF與ILFS；而在全部特征子集維度N中，MRMR的性能始終最佳。

為進一步探究對比4種特征選擇算法在貧數(shù)據(jù)情景時相對于其在充足數(shù)據(jù)（13 281個）樣本時的性能穩(wěn)定性，現(xiàn)將其分別應用于充足樣本情景，得到各自的理想特征排列。取子集維度N為20，對比4 種算法選擇的特征子集在貧數(shù)據(jù)情景下與理想情況下所包含特征元素的差異，圖3給出4種算法的特征子集的穩(wěn)定性可視化對比，圖中D1～D5分別表示五次不同隨機抽樣產(chǎn)生的5%樣本量的貧數(shù)據(jù)集，白色方框表示各算法在貧數(shù)據(jù)及數(shù)據(jù)充足的情景下都能篩選得到的特征，灰色方框表示各算法在各次隨機抽樣時與理想子集的特征差異，由圖可見，MRMR幾乎不受樣本數(shù)量的影響，其在貧數(shù)據(jù)條件下篩選的特征子集與理想情況最多相差1 個特征，甚至在D4 隨機實驗中的貧數(shù)據(jù)特征能完全代表理想特征子集；而MIC和ReliefF的特征穩(wěn)定性差異達到2～3個，ILFS最不穩(wěn)定，差異特征數(shù)達到8～14個。由此可見，在4種特征選擇算法中，MRMR在貧數(shù)據(jù)時的診斷性能及子集元素穩(wěn)定性均最優(yōu)，因此本文后續(xù)將由MRMR 選取的前20 個特征作為模型訓練及測試的輸入特征。

圖3 4種特征選擇算法在貧數(shù)據(jù)情景下的穩(wěn)定性可視化Fig. 3 Robustness visualization of feature selection algorithms in poor data scenario

2.3 DBN自訓練模型診斷結(jié)果及分析

自訓練算法在缺少故障信息時能大幅提升模型的診斷準確率，很適合于貧數(shù)據(jù)情景，但是其提升效果會受到初始貧數(shù)據(jù)樣本數(shù)量的影響，也受到自訓練迭代過程中偽標簽抽樣策略的影響。

現(xiàn)將樣本總量13 281 個按7：3隨機劃分為訓練集和測試集，將訓練集劃分為故障標簽和無故障標簽的樣本集。在上文特征選擇工作中，DBN 利用655個訓練樣本及其最優(yōu)特征子集即可達到90%以上的診斷準確率，說明此時訓練數(shù)據(jù)相對充分。鑒于上述結(jié)果，為模擬實際工程中標簽樣本匱乏的貧數(shù)據(jù)情景，在訓練集中分別取2.5%、5%及10%的樣本組成3 種大小不同、均含有準確故障標簽信息的初始訓練集，分別代表 “故障樣本匱乏” 、 “故障樣本稀少” 、 “故障樣本充足” 3類情景。同時選取一定量的無標記樣本子集。所有數(shù)據(jù)子集均分層抽樣，以保證各工況樣本數(shù)量均勻分布。在自訓練的每一代模型預測結(jié)果中，都選取置信度高的故障預測作為無標記樣本的偽標簽。設定如圖4 所示的 “均勻抽樣” 及 “按比例抽樣” 2種策略， “均勻抽樣” 為每種工況選取相同數(shù)量的偽標簽，使訓練集始終保持平衡； “按比例抽樣” 是對每類預測按相同比例抽取偽標簽。

圖4 均勻抽樣策略及按比例抽樣策略Fig. 4 Uniform sampling and proportional sampling

2.3.1 貧數(shù)據(jù)樣本量對DBN自訓練效果的影響

取故障標簽數(shù)量比例分別為2.5%、5%和10%的3種貧數(shù)據(jù)樣本同時作為自訓練DBN的初始訓練集和單純DBN 的訓練集，取MRMR 的特征子集維度N為20，以其作為各模型每次訓練的輸入特征，保持無標簽樣本集均一致。當自訓練滿足退出條件時停止，本文設置的退出條件包含兩條：①當偽標簽數(shù)量不能滿足偽標簽篩選策略（均勻抽樣和按比例抽樣）的采樣數(shù)時自訓練停止；或者②當無標簽訓練集為空時自訓練停止。后者是為了防止自訓練陷入死循環(huán)，實際自訓練停止通常由條件①觸發(fā)。模型評估采用診斷準確率表征模型診斷性能。圖5給出在不同比例貧數(shù)據(jù)樣本量下將DBN 模型嵌入自訓練算法前后、即單純DBN 和DBN 自訓練的診斷準確率，其中DBN 自訓練的診斷準確率均按照 “均勻抽樣” 及 “按比例抽樣” 2 種策略取平均值；各診斷準確率均為多次平均。

圖5 不同貧數(shù)據(jù)樣本量對DBN自訓練診斷準確率影響Fig. 5 Influence of different sample sizes of poor data on the accuracy of DBN self-training model

由圖5可見，隨著貧數(shù)據(jù)樣本數(shù)量比例的增大，DBN 自訓練模型及單純DBN 模型的診斷準確率都會提高，但是前者準確率始終高于后者，當初始訓練集包含2.5%的故障標簽、即貧數(shù)據(jù)故障樣本匱乏時，嵌入自訓練算法對模型診斷性能的提升最顯著，DBN 自訓練的診斷準確率較單純DBN 從70.55%提高至84.31%，絕對值提高13.76%，相對百分比提高19.5%；而當初始訓練集包含10%的故障樣本、即故障樣本充足時，自訓練算法對模型的性能提升相對降低，診斷準確率僅提高1.59%，相對百分比僅提升1.66%。由此可見，在故障標簽匱乏時，本文所提出的基于DBN 自訓練的故障診斷方法能夠利用無標記數(shù)據(jù)有效提升診斷性能，自訓練模型準確率提升的效果與故障標簽數(shù)量有關(guān)，當故障樣本稀少、輸入DBN 模型的故障信息有限時，自訓練模型可生成無標記樣本的偽標簽，可將更多有效信息輸入模型，使診斷性能大幅提升；但若故障標簽充足時，輸入DBN 模型的故障信息本來已較全面，則自訓練模型提升準確率的效果降低。

2.3.2 偽標簽抽樣策略對DBN自訓練的影響

（1）均勻抽樣策略

保持各工況樣本數(shù)量平衡，初始訓練集仍采用前述故障標簽數(shù)量比例分別為2.5%、5%和10%的3組貧數(shù)據(jù)樣本。在DBN自訓練中采用均勻抽樣策略不斷擴充訓練集。對于每類工況均設置抽樣數(shù)分別為5、10、20、30 的4 種情景，相應的偽標簽數(shù)量分別為95、190、380、570。圖6給出在實施均勻抽樣策略時4種情景的DBN自訓練診斷準確率。

圖6 均勻采樣策略4種情景的DBN自訓練診斷準確率Fig. 6 Accuracy of DBN self-training for four scenarios in uniform sampling.

由圖可見，觀察每一種不同的貧數(shù)據(jù)樣本量實驗，都會發(fā)現(xiàn)情景1、即抽樣數(shù)為5的DBN自訓練診斷準確率始終最高，且隨著抽樣數(shù)的增加而降低。比如在初始訓練集包含2.5%故障標簽的貧數(shù)據(jù)樣本量實驗中，情景1 即抽樣數(shù)為5 的DBN 自訓練診斷準確率為85.67%，在4種情景中最高，它比情景4即抽樣數(shù)為30 的準確率82.25%高出3.42%，這主要是由于當嵌入自訓練算法后，采用均勻抽樣策略，若抽樣數(shù)越小，選擇要求越嚴格，則偽標簽整體置信度較高，因此DBN 自訓練的診斷準確率也較高；反之，抽樣數(shù)越大，采樣到誤分類的偽標簽（即噪聲）的概率越大，故模型自訓練診斷準確率降低。當然，值得注意的是，過低的抽樣數(shù)會導致自訓練過程迭代次數(shù)增多，增加自訓練計算量。

此外，若對比初始訓練集包含不同比例故障標簽的貧數(shù)據(jù)樣本量實驗，發(fā)現(xiàn)由抽樣數(shù)造成的診斷準確率差異隨著貧數(shù)據(jù)樣本量的增加而減小，比如在2.5%貧數(shù)據(jù)的故障樣本匱乏時，4種情景之間的最大診斷準確率，即情景1抽樣數(shù)5比情景4抽樣數(shù)30高出3.42%；在5%貧數(shù)據(jù)的故障樣本稀少時，這一提升比例降至0.8%；而在10%貧數(shù)據(jù)的故障樣本充足時，這種優(yōu)勢縮小到僅為0.35%。這是因為，隨著故障標簽貧數(shù)據(jù)樣本量的增大，單純DBN模型的診斷準確率也相對提高，偽標簽誤分類情況改善，置信度高的樣本偽標簽誤分類數(shù)量減少，抽樣數(shù)增加給訓練集帶來的噪聲較少。因此這時，較小抽樣數(shù)的診斷準確率并未提高多少，但其FDD計算量卻很大。所以抽樣數(shù)的選取，需要同時兼顧貧數(shù)據(jù)樣本量和訓練時間。

（2）均勻抽樣策略與按比例抽樣策略的影響對比

偽標簽抽樣策略對自訓練算法的診斷準確率影響很大。但當前相關(guān)研究中，往往是簡單地根據(jù)所有種類偽標簽置信度統(tǒng)一降序排列并按比例抽樣，而這樣可能會出現(xiàn)嚴重的類間不平衡、引入過多噪聲并降低診斷準確率。本文前面已采用均勻抽樣策略，現(xiàn)嘗試采用按比例抽樣，先在類內(nèi)根據(jù)置信度對樣本進行降序排列，再取類內(nèi)故障預測標簽總數(shù)一定比例的偽標簽擴充訓練集，并將均勻抽樣及按比例抽樣2種策略對DBN自訓練的診斷準確率影響進行對比。實驗中3 組貧數(shù)據(jù)樣本量同前，設置按比例抽樣偽標簽總數(shù)分別為190和380這2種情景，圖7 給出在不同貧數(shù)據(jù)樣本量中每種抽樣策略下2 種情景的DBN自訓練診斷準確率。由圖可見，按比例抽樣策略對診斷準確率的影響與均勻抽樣類似，準確率也是隨著抽樣比例的增大而降低，說明抽樣比例的擴大同樣會給訓練集帶來更多噪聲。

圖7 2種抽樣策略2種情景的DBN自訓練診斷準確率Fig. 7 Accuracy of DBN self-training for two scenarios in two sampling strategies.

將2 種抽樣策略進行對比，在故障標簽數(shù)量比例分別為2.5%、5%和10%的3 組貧數(shù)據(jù)樣本中，每種情景下都使2 種抽樣策略保持相同的抽樣總數(shù)，由圖7看出，均勻抽樣的診斷準確率普遍高于按比例抽樣。在初始訓練集只包含2.5%的貧數(shù)據(jù)故障樣本匱乏時，在情景1 即抽樣總數(shù)為190 時，均勻抽樣及按比按抽樣的DBN 自訓練診斷準確率分別為85.12%和83.73%，前者比后者高1.39%；在情景2 即抽樣總數(shù)為380 時，二者的準確率分別為84.20%和83.40%，前者比后者高0.80%。當貧數(shù)據(jù)樣本量增加到5%達到稀少時，均勻抽樣較按比例抽樣的優(yōu)勢縮小到0.75%～1.12%，而貧數(shù)據(jù)樣本量到10%即故障樣本充足時，優(yōu)勢進一步縮小到0～0.47%。由此可見，均勻抽樣策略較優(yōu)，但其優(yōu)勢將隨貧數(shù)據(jù)樣本量的增大而降低。造成按比例抽樣劣勢的原因在于，前幾代DBN自訓練模型在貧數(shù)據(jù)情景下診斷性能不佳，在給無標記樣本預測故障時，易出現(xiàn)誤分類情況，因此導致每種工況按照比例選取的偽標簽存在不平衡現(xiàn)象。

為更清晰地對比2種抽樣策略對DBN自訓練診斷性能的影響，圖8 給出初代DBN 診斷模型對偽標簽的預測效果。如圖8中的工況5，當偽標簽數(shù)量過高時，伴隨著低精確率和高召回率，這是由將其他故障樣本誤分類為本類樣本（FP）所致，而按比例抽取偽標簽，不僅會加劇這種類間不平衡，而且將更多噪聲（誤分類標簽）引入訓練集，因此會降低診斷準確率。而與之相反，如圖8 中的工況4，其較低的偽標簽數(shù)量通常伴隨較高的精確率，均勻抽樣相對于按比例抽樣，減少了精確率低的樣本采樣，引入噪聲概率小，故有利于提高自訓練的診斷準確率。

圖8 初代DBN模型的故障預測分布Fig. 8 Fault prediction distribution of the first generation for DBN model

3 進一步討論

3.1 圖2與圖5描述問題的差異

對比圖2和圖5的主縱坐標可見，雖然二者皆為DBN FDD的診斷準確率，但它們有本質(zhì)不同。圖2描述的是單純DBN 模型的故障診斷性能隨著樣本特征數(shù)量增加而提升的特點，而圖5 描述的是DBN自訓練模型與單純DBN模型相比較、前者診斷性能的優(yōu)勢隨著初始訓練樣本量的增大而降低的特點。圖2與圖5描述的是不同的實驗現(xiàn)象，從數(shù)據(jù)維度解釋，若將實驗數(shù)據(jù)視為二維張量，圖2 和圖5 分析的是不同維度下的實驗現(xiàn)象，圖9 或能直觀展示出二者的差異。

圖9 圖2與圖5在數(shù)據(jù)維度方面的差異Fig. 9 Fig. 2 VS Fig. 5 from the aspect of data dimension

3.2 對DBN自訓練中可能出現(xiàn)的隨機抽樣策略的討論

文中所研究的 “均勻抽樣” 和 “按比例抽樣” 2 種情景，均為目前研究文獻中比較模棱兩可、但卻在基于數(shù)據(jù)驅(qū)動FDD中比較典型的抽樣情景，對其進行研究具有一定的理論意義和實際應用價值。

在DBN自訓練中，隨機抽樣也是實際情況中或許會出現(xiàn)的一種情景，但是，由于無任何條件限定的隨機抽樣極易導致自訓練模型性能惡化，因此這種隨機抽樣情景并沒有太多實際意義；而滿足一定邊界條件限定下的隨機抽樣更有研究價值。

例如：可以研究在 “對偽標簽置信度閾值進行設置” 條件下的隨機抽樣，通過對最佳閾值設定方法、特點及規(guī)律的探究，更好地在偽標簽質(zhì)量及自訓練迭代效率間取得平衡，以不斷提升被擴充數(shù)據(jù)的總體質(zhì)量，更好地挖掘自訓練算法的價值，提升模型診斷精度。

或者研究在 “對類間抽樣或類內(nèi)抽樣進行設定” 條件下的隨機抽樣，這時，由于類間隨機抽樣是將所有故障工況的偽標簽合并抽樣，由此可能產(chǎn)生數(shù)據(jù)不平衡情景中的FDD問題，由于其極易致使模型診斷性能退化，也是目前FDD 研究中的難點；而類內(nèi)隨機抽樣，則可以歸并入文中研究的2種策略。

以上工作還有待于進一步探究。

4 結(jié)論

本文模擬實際工程中AHU故障數(shù)據(jù)匱乏情景，基于深層網(wǎng)絡DBN模型對4種特征選擇算法的最優(yōu)特征子集特性進行對比研究；為提升貧數(shù)據(jù)時的分類器診斷性能，提出將DBN 模型嵌入自訓練框架的故障診斷模型，分別探討初始數(shù)據(jù)集容量大小及不同偽標簽抽取策略對自訓練性能的影響，主要結(jié)論如下：

（1）DBN模型的診斷準確率隨特征子集維度的增加而增加，但當子集維度超過20 這個最優(yōu)值后，診斷準確率的增加趨勢逐漸飽和；在所研究的4 種特征選擇算法中，MRMR在不同的子集維度下均能保持最佳性能，在貧數(shù)據(jù)時的診斷性能及子集元素穩(wěn)定性最優(yōu)，說明其對冗余特征剔除的策略有效。

（2）深層網(wǎng)絡自訓練算法能夠有效提升故障信息匱乏情景下模型的診斷性能。當初始訓練集包含2.5%的故障標簽、即貧數(shù)據(jù)樣本量很低時， DBN自訓練較單純DBN的診斷準確率可以提高19.5%；隨著貧數(shù)據(jù)樣本量的增加，其準確率提升幅度漸小，說明本文提出的DBN 自訓練算法適用于故障信息匱乏的情景。

（3）偽標簽抽樣策略對故障標簽匱乏時DBN自訓練模型的診斷性能影響很大。均勻抽樣及按比例抽樣2種策略對DBN自訓練診斷準確率的影響情況類似，二者在抽樣數(shù)較小時均表現(xiàn)出更優(yōu)的性能，在不同抽樣數(shù)下的診斷準確率最大相差3.42%；在不同貧數(shù)據(jù)樣本量中，均勻抽樣始終優(yōu)于按比例抽樣，診斷準確率最大相差1.39%。因此，在故障標簽匱乏、初始診斷模型性能不佳時，均勻抽樣策略更為適用。

作者貢獻聲明：

孟華：參與研究的構(gòu)思、設計，對主要學術(shù)性內(nèi)容做文稿修訂；

裴迪：進行研究的構(gòu)思、設計，數(shù)據(jù)運算，起草論文；

阮應君：對重要學術(shù)性內(nèi)容提出建議，做出修訂；

錢凡悅：參與研究的構(gòu)思、設計；

鄧永康：參與研究的構(gòu)思、設計；

鄭銘樺：參與研究的構(gòu)思、設計。