周達左 陶洪峰



基金項目:常州紡織服裝職業技術學院(批準號:51800222107)資助的課題。
作者簡介:周達左(1982-),實驗師,從事自動控制方面的研究,94186619@qq.com。
引用本文:周達左,陶洪峰.基于改進FCM聚類算法的混合建模方法在苯酚濃度預測中的應用[J].化工自動化及儀表,2023,50(6):000-000.
DOI:10.20030/j.cnki.1000-3932.202306000
摘? 要? 為了解決單一模型無法滿足復雜化工生產過程預測精度要求的問題,引入混合建模方法。首先,考慮到模糊C均值聚類(FCM)算法在初始聚類中心選擇上存在的缺陷,采用SA算法和GA算法對其進行優化,以選擇最合適的初始聚類中心,提高聚類精度;然后,基于支持向量機建立各子類預測模型;最后,將測試樣本劃分到各子類中,采用各子類模型仿真得到預測值。采用混合建模方法和單模型方法預測苯酚濃度并與真實值對比,結果表明:筆者所提混合模型得到的平均相對誤差(MRE)和最大相對誤差(MXRE)均小于單模型的。
關鍵詞? 混合建模? 改進FCM聚類算法? 支持向量機? 相對誤差? 苯酚濃度
中圖分類號? TP18? ? ? ? ? ? ? ?文獻標識碼? B? ? ? ? ? ? ? ? 文章編號? 1000-3932(2023)06-0000-00
在復雜化工生產過程中,由于受到工藝和技術的限制,一些化學成分的質量指標很難直接在線檢測,因此,以經驗數據為基礎的軟測量建模方法[1]得到了廣泛應用。此外,由于化工生產過程具有非線性、可控性低、工況范圍廣等特點,單一模型根本無法滿足建模要求。而混合建模方法可從原理上解決這一問題,它先將復雜經驗數據劃分為若干個子區間,再分別對每個子區間建立模型,最后根據特定準則獲取該化工生產過程的全局模型。
在混合建模領域中,模糊C均值(Fuzzy C-means,FCM)聚類方法一直是學者們研究的熱點[2]。雖然FCM聚類方法具有較高的搜索速度,但是其作為一種局部搜索算法,聚類中心的初值一旦選擇不當,將導致聚類結果很不理想。為此,筆者將模擬退火算法(Simulated Annealing,SA)與遺傳算法(Genetic Algorithm,GA)相結合用于改進FCM聚類算法,通過改善其聚類效果,從而更好地應用于復雜化工生產過程中關鍵變量的測量。
1? 改進FCM聚類算法的基本原理
1.1? FCM聚類算法
FCM聚類算法是對K均值聚類算法的一種改進[3,4],它采用柔性的模糊劃分法將數據樣本進行分類,最終實現相同類樣本數據之間的相似度最大、不同類數據樣本之間的相似度最小的目標[5]。
設數據樣本的容量為,將其劃分為個類別,每個類別各自的數據樣本為,是模糊劃分矩陣,每個類別相應的聚類中心為,對于的隸屬度為,則FCM聚類算法的目標函數可定義為:
(1)
其中,是加權參數;dik表示第個樣本與第類中心之間的距離;表示數據樣本的特征數。
FCM聚類算法是為了尋找到一種最佳分類,使得式(1)的值最小。因此它要求隸屬度的總和為1,具體表示為:
(2)
個類別的聚類中心表示為:
(3)
則對于的隸屬度表示為:
(4)
通過式(3)、(4)反復修改聚類中心和隸屬度,最終在算法收斂時,可得到該數據樣本的最佳分類。
通過上述對FCM聚類算法的推導可以看出,每個類別相應的聚類中心的初始選擇值在整個推導過程中有很大影響,一旦選擇不當,將導致最終的聚類結果很不理想。
1.2? 算法的改進
針對FCM聚類算法初始聚類中心難選擇的問題,采用SA算法和GA算法[6~8]優化初始聚類中心,從而避免最終算法收斂到局部最小的問題,改進后的聚類算法步驟如下:
a. 將SA算法、GA算法中用到的控制參數先進行初始化操作,其中包括初始溫度、終止溫度、冷卻系數、最大進化次數、變異概率和交叉概率。
b. 隨機生成c個初始聚類中心和初始種群,使用式(4)為每個聚類中心計算每個數據的隸屬度和每個個體的適應度函數值。
c. 定義初始循環次數變量。
d. 采用GA算法對種群進行選擇、交叉和變異操作產生新個體,對新個體采用式(4)計算隸屬度,采用式(3)計算聚類中心,并計算新個體的適應度函數值。若,則用新個體代替舊個體;否則,以概率接受新個體,去除舊個體。
e. 若,則,轉步驟d;否則轉步驟f。
f. 若,則程序結束,返回全局最優解;否則,轉至步驟c。
為驗證算法的有效性,分別采用改進前后的FCM聚類算法對二維平面上隨機生成的500個點(共分成4個類別)進行聚類,結果如圖1所示。可以看出,算法改進后,目標函數值Jb從4.278 4變成了4.033 6,而且改進后的算法每次計算所得的目標函數值都是最優的。
2? 混合模型建模方法
2.1? 支持向量機
作為統計理論在機器學習中的延伸,支持向量機(Support Vector Machine,SVM)可以在少量樣本的情況下,統計出樣本數據的特征,提高模型回歸分析的準確性[9~11]。
給定數據樣本集,其中。在SVM模型中引入松弛因子和從輸入空間到Hilbert空間的變換,將,其中b為映射參數,則原始的回歸問題轉化為優化函數:
(5)
其中,為權重向量;為懲罰因子,且;為兩個約束條件下的松弛變量。優化函數的約束條件為:
(6)
其中,為損失函數,且。
若對應的變換為,則最終得到的優化后的回歸函數為:
(7)
其中,為兩個約束條件下的拉格朗日乘子。
考慮到徑向基核函數(Radial Basis Function,RBF)[12,13]的非線性映射能力較強,筆者采用RBF作為核函數。
2.2? 混合模型的構成
混合模型[6]的構成過程為:首先通過聚類算法,將樣本數據分成若干個子空間,然后對每個子空間建立模型(筆者采用SVM建立子模型),最后獲取全局模型。子模型的連接一般采用“開關切換”方式或者“加權組合”方式[14,15]:前者操作簡單,混合模型的輸出僅取決于測試數據對應的子模型輸出,且獨立于其他子模型;后者操作復雜,混合模型的輸出是將每個子模型的輸出結果加權求和,而加權組合的前提是要默認建立的子模型之間必須是線性關系,但是在實際應用中很難滿足這一要求。因此,筆者采用開關切換方式(圖2)實現混合模型子模型之間的連接。
3? 應用實例
3.1? 工況介紹與數據描述
將筆者提出的混合建模方法應用于雙酚A生產裝置中對精餾塔C303塔底的苯酚濃度實現在線估計。通過對C303精餾塔的工藝流程和現場情況進行分析,選擇塔中6個變量(塔內溫度、塔底部的排放溫度、塔內液位、來自前一單元V304估算出的3個變量(苯酚、BPA、BPA-24)的濃度)作為輸入變量,輸入變量的樣本數據通過現場DCS獲得;選擇C303精餾塔底部的苯酚濃度作為輸出變量,輸出變量的樣本數據通過每天人工分析獲得。
在現場采集的數據樣本集中隨機選擇200組數據作為訓練樣本,100組數據作為測試樣本。采用平均相對誤差(MRE)和最大相對誤差(MXRE)兩個指標用于評估混合建模方法的性能,具體定義如下:
(8)
(9)
其中,和分別為模型的預測值和真實值。
3.2? 模型參數設置
設置為120 ℃,為0.8,為10 ℃,為10,為100,為0.5,為0.01。
3.3? 結果分析
基于訓練樣本建立混合模型后,采用測試樣本對該混合模型進行測試,得到預測值和真實值的對比曲線如圖3所示。可以看出,采用筆者所提混合模型得到的預測值與真實值接近,跟蹤效果較好。
表1給出了混合模型與支持向量機(單模型)預測結果的MRE與MXRE。可以看出,筆者所提混合模型的MRE和MXRE均小于支持向量機(單模型),證明了筆者所提模型的有效性,可以實現變量的準確預測。
4? 結束語
針對高維度、多工況的復雜化工生產過程,從聚類方法優化的角度,提出一種改進FCM聚類方法的混合模型軟測量方法。利用SA算法和GA算法對傳統的模糊聚類算法進行改進,有效解決了模糊聚類方法初始聚類中心難選擇的問題。實際應用結果表明,筆者所提的混合模型建模方法在苯酚濃度預測中具有良好的預測效果,相對誤差較小,可以實現難測量變量的較準確預測,具有一定的工程實際應用價值。
參? 考? 文? 獻
[1]劉鴻斌,吳啟悅,宋留.變量選擇在廢水處理過程軟測量建模中的應用[J].山東大學學報(工學版),2020,50(3):133-142.
[2]張和平,李俊武.基于模糊c均值聚類算法的控制圖模式識別[J].工業工程,2021,24(5):108-116.
[3]李江,楊潤冰,于文雙,等.基于模糊C均值聚類及學習向量量化神經網絡的負荷同時系數預測模型[J].南京理工大學學報,2020,44(5):567-574.
[4]張林平,李風軍.基于主成分分析和優化聚類算法的行駛工況研究[J].華南師范大學學報(自然科學版),2021,53(2):121-128.
[5]肖連杰,郜夢蕊,蘇新寧.一種基于模糊C-均值聚類的欠采樣集成不平衡數據分類算法[J].數據分析與知識發現,2019,3(4):90-96.
[6]李元香,項正龍,張偉艷.模擬退火算法的弛豫模型與時間復雜性分析[J].計算機學報,2020,43(5):796-811.
[7]李建國,賀云鵬,常立丹.基于改進模擬退火算法的立體車庫車位分配優化[J].重慶理工大學學報(自然科學),2020,34(4):183-191.
[8]趙明琳,吳嘉瑤,童榮景,等.基于模擬退火-蟻群變步長優化算法的橢偏數據反演分析[J].江蘇科技大學學報(自然科學版),2021,35(3):108-113.
[9]林浩,李雷孝,王慧.支持向量機在智能交通系統中的研究應用綜述[J].計算機科學與探索,2020,14(6):901-917.
[10]邱維蓉,吳幫玉,潘學樹,等.幾種聚類優化的機器學習方法在靈臺縣滑坡易發性評價中的應用[J].西北地質,2020,53(1):222-233.
[11]周方明,潘華亮,周奉翔,等.基于支持向量回歸的焊接變形預測系統開發研究[J].江蘇科技大學學報(自然科學版),2017,31(3):282-287.
[12]鄒強,田穎,李紅松,等.基于支持向量機的燃料電池發動機氫氣泄漏檢測方法[J].北京交通大學學報,2020,44(1):84-90.
[13]劉涵,王月嶺,王曉,等.基于支持向量機與概率輸出網的深度學習模型[J].系統工程理論與實踐,2018,38(8):2147-2154.
[14]張金環,王超群,張彤,等.基于高斯混合分布模型的風電功率預測誤差統計分析研究[J].智慧電力,2020,48(7):59-64;72.
[15]雙翼帆,顧幸生.基于改進的快速搜索聚類算法和高斯過程回歸的催化重整脫氯前氫氣純度多模型建模方法[J].化工學報,2016,67(3):765-772.
(收稿日期:2023-03-26,修回日期:2023-10-17)