張 瑋,李立毅,張林林
(太原理工大學 化學化工學院,太原030024)
PV型旋風分離器是一種高效的氣固分離器[1]。目前已廣泛應用于高溫高壓和高含塵濃度條件的工業領域中。PV型旋風分離器的結構如圖1所示,主要參數為:入口高度a、入口寬度b、排氣管直徑dr、排氣管插入深度S、筒徑D、筒體高度H1、錐體高度H2.

圖1 PV型旋風分離器結構Fig.1 Structure of PV cyclone separator
分離效率是評價一臺PV型旋風分離器性能的重要參數。因此,獲得一個能夠準確預測效率與結構參數、操作條件之間復雜非線性關系的數學模型對于工業生產是非常必要的。現在用于計算旋風分離器效率的各種理論模型[2-4],都是基于單個顆粒的運動,并沒有考慮顆粒群之間的相互作用,例如團聚、夾帶及碰撞[6]。此外,這些模型尚未涉及結構參數對旋風分離器性能的影響,因此它們不是通用的。由于從理論上解決這類問題具有難度,羅曉蘭等[6]應用相似理論并對大量實驗數據進行回歸分析,得到了與各種相似準數相關聯的PV型旋風分離器的粒級效率計算公式。但是,由于這種計算方法的假設并不一定符合真實情況,而且回歸模型的準確度是需要大量的數據來進行彌補的。
近年來,機器學習算法正在成為新的研究熱點,這些方法可以在不了解現象本質的情況下利用樣本數據來處理復雜非線性關系的數學模型。目前,有些學者利用計算流體動力學(computational fluid dynamics,CFD)模擬得到數據樣本或實驗得到數據樣本,然后將BP神經網絡、徑向基神經網絡(RBF)、廣義回歸神經網絡(GRNN)和SVR等算法成功應用到了對切向進口的旋風分離器的壓降和效率建模[7-14]。但是,利用CFD模擬來獲得建模數據需要付出巨大的時間成本。另外,這些工作在建模的前期確定模型輸入因素時會根據理論和實驗分析把一些對輸出因素影響程度較小的輸入因素人為刪除掉,這樣會導致部分信息的損失。由于在PV型旋風分離器效率方面理論研究的欠缺,同時為了提高模型的通用性和準確性,本文利用文獻中收集的217組實驗數據[5,6,15],取對 PV 型旋風分離器效率影響最大的8個因素作為輸入變量,這8個因素分別是筒徑D、入口截面比Ka=πD2/4ab,排氣口下口直徑比~dr=dr/D,入口氣速vi、入口濃度ci、粒徑δ、顆粒密度ρp、中位粒徑δm,粒級效率ηi作為輸出變量,建立了一種基于PCA-PSO-SVR的PV型旋風分離器的粒級效率模型,并將該模型與PV型旋風分離器的粒級效率的多元回歸模型和其它幾種混合模型進行了對比。
支持向量機(support vector machine,SVM)是一種基于統計學習理論的機器學習算法,它在數據樣本量較少時,也能得到良好的統計規律[16]。SVR基本思想是:將線性不可回歸的樣本點通過升維實現線性化。在SVR中,目標函數是凸的,這意味著始終可以達到全局最優。引入核函數概念的SVR問題可以用圖2來表示。解決非線性回歸問題其實就是求解權重ωi和閾值b的過程。

圖2 支持向量回歸示意圖Fig.2 Schematic diagram of support vector regression
求解權重ωi和閾值b的過程就是對式(1)的二次規劃問題進行求解:

式中:C為懲罰系數,我們需要選取一個合適的懲罰系數來平衡模型復雜度和經驗風險[17];ω為權重向量;1/2‖ω‖2表示模型復雜度;m表示樣本容量;ξi、ξ*i表示松弛變量;ε為不敏感損失系數,它表示模型的容錯程度。采用拉格朗日乘數法和KKT條件可以將式(1)的二次規劃問題轉換為式(2)的對偶最優化問題:


式中:αi,α*i,αj,α*j表示拉格朗日算子;K(xi,xj)表示核函數。
最終得到的逼近函數為式(3):

樣本的非線性映射受核函數的影響,因此選取一個合適的核函數對支持向量回歸非常關鍵。當前,可以在SVR算法中使用的核函數分別是多項式函數、高斯徑向基函數(RBF)、Sigmoid(S形)核函數等[18]。因為RBF泛化性能強,形式簡單、且支持非線性回歸,因此,本文選用RBF作為SVR的核函數,它的表達行式如(4)[19]:
K(x,xj)=exp(-g‖x-xi‖2). (4)式中:g為核函數參數。通過改變g的值就可以決定模型的復雜度及性能。
利用PCA-PSO-SVR對粒級效率建模的具體流程圖如圖3所示。

圖3 PCA-PSO-SVR流程圖Fig.3 Flow chart of PCA-PSO-SVR
其中,主元分析法(PCA)是一種最常用的無監督降維算法,它可以根據最大方差理論將m維特征映射到更低的n維上,這n維特征稱為主元,它們之間沒有相關性但是能夠反映出樣本空間的大部分信息。
PSO算法是由EBERHART和KENNEDY[20]根據鳥類捕食行為開發出的一種進化優化算法。在尋優過程中,每一個粒子都有各自的速度、位置和由目標函數決定的適應度值。在迭代過程中,每個粒子通過個體極值Pid和全局極值Gid來更新自己的速度和位置。速度和位置更新公式如下:

式中:i表示第i個粒子,d表示維度,t表示迭代次數,c1和c2表示學習因子,r1和r2表示0到1之間的隨機數,ω表示線性遞減的慣性權重,Pid表示第i個粒子在第d維上的個體極值,Gid表示所有粒子到目前為止的全局極值。在經過n次迭代后的全局最優位置就是算法尋找到的最優解。
2.1.1 輸入變量
影響旋風分離器分離效率的主要因素有以下兩個方面:結構參數和操作參數。其中,筒徑、入口截面比和排氣管下口直徑比是對分離效率有重要影響的三個結構參數;入口氣速vi、粒徑δ、入口濃度ci、中位粒徑δm、顆粒密度ρp和粉塵粒度分布均方差σ是對收集效率有影響的主要操作參數。其中,粉塵粒度分布均方差σ對分離性能的影響可以忽略。綜上所述,輸入變量總共有8個。
2.1.2 輸出變量
描述旋風分離器收集效果的參數有粒級效率ηi和總效率η.如果用總效率建模需要考慮顆粒的粒徑分布,增加了建模的難度,所以輸出變量選擇為粒級效率ηi.
綜上所述,SVR模型的輸入輸出變量及部分數據如下表1所示。確定好輸入和輸出變量之后,SVR模型訓練的目的就是找到一個合適的函數f(·)使其滿足公式(7):

在使用統計分析方法的研究中,太多的變量會增加問題的復雜性,并且計算量也會增大。因此,本研究采用主元分析法來對原始數據集進行降維處理。
本文中利用PCA降維的方法將8維的特征空間矩陣降到了5維,這5個主成分所占整個信息的百分比可以達到99.85%.

表1 支持向量機回歸模型的輸入和輸出變量及部分樣本數據Table 1 Input and output variables of support vector regression model and some sample data
在建模時,SVR的預測精度主要取決于3個超參數:懲罰因子C,核函數參數g和不敏感損失函數ε.這些參數僅憑先驗知識很難確定適當值,因此本文采用PSO算法優化這3個參數。
本文中粒子群算法通過5-fold交叉驗證來評估每個粒子的適應度值[21]。為了防止SVR模型過度擬合,在粒子群優化過程中為均方根誤差(RMSE)設置一個下限,并且當RMSE開始小于這個下限的時候尋優結束。

式中:n為樣本個數;yi表示真實值;f(xi)表示模型的預測值。
本文中采用PSO對SVR參數優化的流程[22]如下:
1)初始化PSO算法的各個參數,如下表2所示。

表2 PSO參數設置Table 2 Parameter setting of PSO
2)利用訓練集結合5-fold交叉驗證來計算不同參數組合對應的適應度值,作為初始的個體極值,計算全局極值。
3)根據公式(5),(6)更新粒子的速度和位置,并計算粒子的適應度值,更新個體極值和全局極值。
4)重復步驟3直至滿足結束條件,得到最優的參數組合。
尋優結果隨迭代次數的變化如圖4所示。通過迭代50次后,訓練集通過5-fold交叉驗證得到的均方根誤差達到3.123×10-4,最后的尋優結果中C、g和ε的值分別是660,0.673和0.026.

圖4 適應度曲線Fig.4 Fitness curve
為了評估模型的好壞,我們引用了均方誤差MSE和相關系數R2兩個性能參數來評估。公式(12)和(13)介紹了這兩個參數的計算方法:

式中:n表示樣本數目;yi表示真實值;f(xi)表示模型的預測值;ˉy表示真實值的平均値;ˉf表示預測值的平均值。
本文建立的PCA-PSO-SVR模型對粒級效率的預測值與實際實驗數據對比如圖5所示。橫坐標是文獻中報道的粒級效率實驗值,縱坐標是PCAPSO-SVR模型輸出的預測值,圓形數據點和三角形數據點分別表明PCA-PSO-SVR模型對訓練樣本和測試集的模擬結果。可以看出,PCA-PSO-SVR模型在訓練階段的均方誤差MSE為4.192×10-4,相關系數為R2為0.988,能夠達到較高的訓練精度。在測試階段的均方誤差MSE為6.948×10-4,相關系數為R2為0.982時,預測結果仍然較好。結果表明,PCA-PSO-SVR模型具有很好的泛化能力和魯棒性,能夠有效地擬合粒級效率和不同影響因素之間的復雜非線性關系。

圖5 PCA-PSO-SVR模型模擬結果與實驗數據對比Fig.5 Comparison of PCA-PSO-SVR model simulation results with experimental data
羅曉蘭等[6]針對傳統的旋風分離器效率通用性不好等缺點,對實驗數據進行了回歸分析,得到了一系列PV型旋風分離器的粒級效率多元回歸公式。本文對兩種模型的模擬結果進行了對比,如圖6所示。圖中橫坐標為測試樣本,縱坐標為粒級效率的值。圖中的棕色菱形點表示多元回歸模型的預測結果,它的均方誤差和相關系數分別為0.026 1和0.892.綠色圓點表示PCA-PSO-SVR模型的預測結果,均方誤差和相關系數分別為6.948×10-4和0.982.通過與紅色圓點(實驗值)的對比,結果表明,PCA-PSO-SVR模型在處理小樣本和提高模型的泛化能力方面具有顯著的優勢。

圖6 PCA-PSO-SVR模型與多元回歸模型預測結果對比Fig.6 Comparison of prediction results between PCA-PSO-SVR model and multiple regression model
圖7 顯示了使用SVR的各種改進算法對PV旋風分離器粒級效率進行建模的模型預測結果的對比。PCA-PSO-SVR模型與其它模型相比有著更小的均方誤差和更高的相關系數。從算法運行一次的平均時間上來看,采用標準網格法優化的SVR模型用時145.07s;改用PSO優化SVR后,用時降低,僅為25.63s;PCA-SVR由于需要反復迭代,用時最長,為3 508.85s;采用粒子群優化后,PCA-PSOSVR模型用時為502.65s.綜上所述,主元分析法(PCA)有效地減少了特征空間的維數,降低了模型的復雜度,提高了泛化能力。在尋找SVR的超參數時,粒子群優化算法(PSO)不僅可以提高尋優速度,而且能夠提升模型的準確性。

圖7 PCA-PSO-SVR模型與PCA-SVR模型、PSO-SVR模型和SVR模型預測結果對比Fig.7 Comparison of prediction results between PCA-PSO-SVR model and PCA-SVR model,PSO-SVR model,SVR model
針對現有旋風分離器粒級效率模型在通用性、準確性等方面的不足,以及對PV型旋風分離器效率模型研究手段的單一,本文提出了根據實驗數據,利用PCA-PSO-SVR算法對PV型旋風分離器的粒級效率進行建模的方法。建模結果顯示:主元分析法(PCA)能夠有效減少特征空間的維數,去除一些噪聲數據,使模型的復雜度降低,泛化能力提升;PSO作為一種優化算法可以很好地優化SVR模型的參數;優化好參數的SVR模型可以成功地預測PV型旋風分離器的粒級效率,由PCA-PSO-SVR建立的PV型旋風分離器粒級效率模型要比其他模型預測能力更好、穩定性更高、泛化能力和魯棒性更好。