改進DM-SVDD算法的異常檢測研究及應用

2021-09-22 08:02:46張雪英李鳳蓮杜海文于麗君

太原理工大學學報 2021年5期

王杰，張雪英，李鳳蓮，杜海文，于麗君，馬秀

(1.太原理工大學信息與計算機學院，太原 030024；2.山西中電科新能源技術有限公司，太原 030024)

近年來，很多領域的數據都具有不平衡數據的特點，即正常類樣本的數據量遠大于異常類樣本的數據量，而異常類樣本通常含有更重要的信息，如何提升異常類樣本的檢測性能[1]，對于提高行業產品質量具有重要意義。多晶硅作為最主要的光伏產業材料之一，在鑄錠生產過程中，如果工藝設計及環境條件保持不變，多數產品為正常產品，但由于每次生產所用配料的批次或成分的差異，會產生少數的異常產品，由此形成不平衡數據集。通過分析配料數據，對產品質量進行分類預測，可以有效地指導實際生產。

目前，工業上常用的異常檢測方法為工藝試驗[2]，實現成本高且難度大。因此，近些年人們開始用機器學習的方法來解決異常檢測問題，主要包括特征降維和不平衡數據分類兩部分。在特征降維方面，數據維數過大會提高模型的復雜度，影響模型運行效率和檢測準確率，對此，馮安然等[3]利用主成分分析(principal component analysis，PCA)在原有數據的基礎上，通過線性組合重構出方差較大的低維主成分，但該方法只能捕捉數據的方差，缺乏對數據內在結構的刻畫，容易丟失數據隱含的關鍵信息。而基于流形學習的擴散映射(diffusion maps，DM)[4]通過核函數得到擴散過程中的擴散距離，在保持擴散距離不變的條件下實現降維，取涵蓋數據主要結構的特征值及相應的特征向量，使其在低維空間中仍保持穩定的全局關系，適用于異常檢測時的特征降維[5]。在不平衡數據分類方面，支持向量機(support vector machine，SVM)作為傳統的分類模型，在解決小樣本、非線性問題時分類效果良好，但當樣本不平衡率較大時，對于少數異常類的識別效果很差。而支持向量數據描述(support vector data description，SVDD)[6]有很強的單值數據處理能力，僅利用正類樣本訓練分類模型，適合實際生產過程中異常類樣本較少導致的數據不平衡情況，在異常檢測[7]領域已得到有效應用。因此，為充分利用DM和SVDD二者的優點，本文構建了基于DM-SVDD的異常檢測新模型，并針對多晶硅數據中存在的字符型和數值型兩種類型數據，引入歐氏距離和馬氏距離改進擴散映射方法。最后，將所提模型用于多晶硅配料數據預測產品質量，實驗結果中G-Mean最優提升15.73%，F-Score最優提升19.37%，驗證了模型的有效性。

1 擴散映射與支持向量數據描述算法原理

1.1 擴散映射算法基本原理

擴散映射算法通過盡可能保持擴散過程中的擴散距離來實現降維，旨在通過樣本點的局部關系定義全局關系。對于預處理后得到的N個維數為D的樣本序列XS={x1,x2,…,xN},xi∈RD,i=1,2,…,N.

首先構造權重矩陣，對于給定的兩個樣本點xi和xj，利用Gaussian核函數來定義樣本間的關聯程度，即

(1)

式中：μ為高斯核的帶寬，當μ一定時，數據點之間的距離越近，則關聯性越強。進而在權重矩陣的基礎上構造轉移概率矩陣Km，利用加權的圖Laplacian歸一化方法，通過式(2)得到矩陣元素：

(2)

(3)

(4)

式(4)：wk定義為數據點之間的度，表示以某一數據點為中心，與其他所有數據點之間的權重之和；φ(xk)表示構造擴散距離時馬爾可夫過程的平穩分布。保持擴散距離不變，對矩陣Km進行特征分解，求解特征值以及對應的特征向量，取d個最大的特征值λ1,λ2,…,λd對應的特征向量υ1,υ2,…,υd作為低維嵌入結果，得到降維后的數據XDM=[υ1,υ2,…,υd]T.

1.2 支持向量數據描述算法基本原理

SVDD算法通過核函數將正常類數據映射到高維空間中，進而在高維空間中構造閉合超球面進行異常檢測，見圖1.

圖1 支持向量數據描述模型Fig.1 Support vector data description model

利用降維處理后XDM的部分正常類樣本數據X={x1,x2,…,xl}，0

(5)

式中：R和a分別為對應高維特征空間中超球面的半徑和球心；ξi為松弛變量；C>0為懲罰參數；φ(·)為映射函數。通過求解Lagrange對偶問題可將上式轉換為式(6)：

(6)

運用二次規劃求解式(6)可得Lagrange乘子αi，進而可求得對應超球體的球心a和半徑R，得到超球面的信息。從而可得決策函數為：

方案一：邏輯模塊用或門，溫度模塊采用10K的NTC熱敏電阻MF58，NTC熱敏電阻由特殊配置的金屬氧化物陶瓷材料制成，電阻隨溫度升高而下降。

f(x)=‖φ(x)-a‖2-R2.

(7)

對于未知的樣本點x，計算它到球心a的距離，即公式(7)中的‖φ(x)-a‖.當f(x)≤0時，即目標點位于球形邊界內，判為正常類樣本；反之，則為異常類樣本。

2 改進的DM-SVDD異常檢測模型

2.1 數據集

本文實驗所用數據來源于山西中電科新能源技術有限公司近月實際生產的多晶硅數據，包含正常類樣本123組，異常類樣本16組，不平衡率為7.69%.

結合多晶硅裝料工藝的實際情況，通過分析生產中的配料數據來進行異常產品檢測模型的構建和性能分析。多晶硅配料數據見表1，其數據特征包括：原生料、提純料、循環料等表示質量的數值型數據，其中循環料包括破碎料、頭料和尾料。鑄錠過程中，若選用不同批次的配料，最終硅錠的質量會產生差異。因此，本文將表示批次的字符型數據數值化處理后參與實驗，如表1中破碎料批次、頭料批次、尾料批次。表中的少子壽命值表示在鑄錠生產后，由少子壽命儀測得的硅錠中少數載流子存活時間，根據實際生產經驗，少子壽命值小于5.8 μs為異常類產品，反之則為正常類產品。

表1 多晶硅數據Table 1 Polysilicon ingot data

本文采用K折交叉驗證的方法將包含正常類和異常類的139組樣本數據劃分為訓練集、驗證集和測試集。訓練集僅包含正常類數據，驗證集與測試集包含正常類和異常類兩種數據，來進行異常檢測模型的構建和性能分析。

2.2 改進的DM-SVDD異常檢測模型

基于上述多晶硅數據，建立改進的基于DM-SVDD算法的異常檢測模型，見圖2，其過程敘述如下。

圖2 DM-SVDD模型流程圖Fig.2 Flow chart of DM-SVDD model

1) 改進降維處理方法。本文針對所用多晶硅數據中的數值型數據和字符型數據，將字符型數據數值化處理后，提出綜合使用歐氏距離和馬氏距離兩種距離度量方法改進DM算法中的K近鄰標準。

D(xi,xj)2=(xi-xj)T(xi-xj) .

(8)

由于馬氏距離[8]對于給定的樣本集，綜合考慮了各樣本點之間的關聯性，對于不同類型的相似樣本具有較好的區分度，有利于提高最終的分類精度，故利用馬氏距離度量方法計算數值型數據特征之間的距離。馬氏距離度量方法如式(9)所示，S為對應的協方差矩陣。

DM(xi,xj)2=(xi-xj)TS-1(xi-xj) .

(9)

綜合兩種度量方式計算的結果，確定距離樣本點最近的K個近鄰點，根據樣本點間的距離構造新的近鄰圖改進DM算法的降維過程。

2) 優化模型參數。為得到誤差最小的異常檢測模型，將數據集劃分為：訓練集、驗證集和測試集三部分。實驗過程中，選取訓練集數據訓練得到初始化的檢測模型，之后運用驗證集數據進行模型檢驗。本文采用蒙特卡洛尋優算法進行最優參數選擇，相比于傳統的網格尋優算法，蒙特卡洛尋優算法是一種全值估計方法，可以更好地處理非線性問題，結果精確可靠；該方法在給定區間內隨機選取參數，用隨機抽樣代替了系統搜索，大大降低了時間復雜度。

3) 構建異常檢測新模型。在SVDD算法中，高斯核泛化性能優于其他多項式核函數[9]，故本文采用高斯核函數，運用驗證集數據優化模型后得到的最優參數，構建誤差最小的基于改進DM-SVDD算法的異常檢測新模型。

4) 測試模型。將測試集的數據輸入改進的DM-SVDD異常檢測模型中，通過計算式(7)所示的目標函數，比較樣本點到模型球心的距離，得到最終的檢測結果。

3 實驗設計及結果分析

3.1 實驗設計及評價指標

為了評價本文提出的改進DM-SVDD模型用于異常檢測的性能，實驗采用多晶硅配料數據，對比傳統的異常檢測模型，得到三折交叉驗證的測試結果；同時為驗證所提模型對于異常類樣本檢測的準確率，使用測試數據進行檢測，得到直觀的測試結果。模型最優參數的選取采用蒙特卡洛方法尋優結果，核函數選擇高斯核函數，在MATLAB R2014b環境下進行實驗。懲罰參數C=1/(nv),v∈(0,1]，其中v控制了支持向量的上限比例，故搜索區間設置為[0.1,1]，由于核參數σ>0，通過實驗發現當σ>16時，結果基本保持不變，故搜索區間設置為[0.125,16].

由于不平衡數據的準確率易偏向于正常類樣本的正確檢測結果，本文除了采用準確率(racc)±標準偏差、查全率(re)±標準偏差、查準率(rP)±標準偏差、特異度(Sp)±標準偏差4個指標進行模型評價外，還采用了針對不平衡數據分類的評價指標F-Score和G-Mean[10]，分別如式(10)和式(11)所示，為實現查全率和查準率的折中，F-Score中參數α設置為0.5.

(10)

(11)

3.2 實驗結果分析

利用多晶硅配料數據，訓練得到最優的改進DM-SVDD異常樣本檢測模型，將測試集數據輸入模型進行檢測分析，同樣采用傳統SVDD算法、PCA-SVDD算法以及未改進的DM-SVDD算法分別進行模型的訓練和檢測。對比4種模型的測試結果和運行時間，見表2和表3.

表2 測試結果及標準偏差Table 2 Test results and standard deviations %

由表2和表3可知：本文提出的改進DM-SVDD算法所構建的模型不僅降低了運行時間，且準確率達到87.97%，在4種算法中檢測性能最優，同時改進的DM-SVDD模型在保證查全率最優的前提下，相較于其他3種模型，查準率最優提升了19.73%，特異度最優提升了14.89%.在保證正常類樣本檢測準確率較高的同時，提升了異常類樣本的檢測準確率。

表3 運行時間對比Table 3 Comparison of running time s

為準確評價模型對于兩類樣本的分類性能，比較G-Mean與F-Score結果如圖3所示。由圖3可知，改進的DM-SVDD算法使G-Mean最優提升了16.83%，F-Score最優提升了19.37%.

圖3 G-Mean與F-Score比較結果Fig.3 Comparison of G-Mean and F-Score

為進一步說明本文所提模型對于異常類樣本檢測的準確率，運用訓練得到的改進DM-SVDD異常檢測模型對測試數據中14組數據進行檢測，其中正常類樣本數據3組，異常類樣本數據11組，檢測結果如圖4所示。圖中水平直線代表判別閾值，表示模型訓練得到超球面后，球面距離球心的距離；樣本2-5、7-14的檢測輸出大于判別閾值，判斷為異常類樣本，樣本1、6的檢測輸出小于判別閾值，判斷為正常類樣本，除樣本3存在誤差以外，其余測試結果均與實際情況相符，表明改進的DM-SVDD模型能夠有效實現產品的異常檢測。

圖4 改進DM-SVDD模型測試結果Fig.4 Test results of the improved DM-SVDD model

4 結束語

本文提出了一種改進的基于DM-SVDD的異常檢測新模型。DM主要用于特征降維，針對數據中存在的數值型和字符型兩種類型數據，采用兩種距離度量方法改進降維過程；SVDD主要用于不平衡數據異常檢測。實驗結果驗證本文所提模型在多晶硅鑄錠異常檢測中的有效性，可用于指導類似的實際工業生產，發揮降低生產成本，提高產品質量的作用。