李顯軍 趙小平 余德靖 趙亮
1. 貴州磷化(集團)有限責任公司 貴州 貴陽 550002 2. 華東理工大學 上海 200237
當前磷化工行業都在逐步轉向以磷酸鐵鋰、磷酸鐵、六氟磷酸鋰為主要產品的新能源電池行業,除此以外如磷酸和磷酸一銨等被廣泛應用于化工、農業、醫藥、食品、電子、建筑材料等領域[1]。在工業數字化轉型的背景下,如何使用機器學習算法對磷化工行業進行賦能轉型是一個值得關注的問題。
在濕法磷酸生產中,反應槽中的SO3濃度和P2O5濃度對磷酸生產是非常重要的,但由于人工化驗時間較長、次數較少,分析結果不能及時、準確地反映生產過程中每一時刻的實際情況[3]。為解決這個問題,提出了一種基于梯度提升決策樹的軟測量建模方法。該方法應用于磷化工生產過程中的磷酸系統研究,可以輔助和指導生產操作。
磷酸工藝過程是一種制備磷酸鹽的工業化工過程,主要制備方法分為酸礦反應的濕法磷酸和電爐加熱的熱法磷酸兩種。本文涉及的是濕法磷酸生產過程,目前濕法磷酸生產過程中采用的有硫酸、鹽酸、硝酸。根據產生物不同形態的硫酸鈣結晶體,濕法磷酸流程可細分為三個類別:無水物流程、二水物流程和半水物流程,即在酸礦反應過程中分別生成無水硫酸鈣、二水硫酸鈣、半水硫酸鈣。
研究建模對象為濕法磷酸二水物流程的重點生產單元反應槽模型。二水物流程是傳統的磷酸生產方法之一,具有生產效率高、反應速度快等優點。其主要反應方程式如式 下:
反應后的混合料液中含有一定量的雜質磷酸溶液,以及固態的石膏和未被硫酸分解的含磷礦物。液態和固態可以通過過濾和洗滌來分離。
反應過程中,給定的硫酸與過濾系統返回的磷酸在混合三通中混合。返回磷酸的流量和濃度由反應槽中的料漿固含量和液相P2O5濃度決定,以控制反應料漿的固含量在25%到35%之間,液相P2O5濃度約為28%。另外控制SO3濃度有利于減少晶間磷酸的損失,提高產品的轉換率。因此,對P2O5濃度和SO3濃度的監控對磷酸生產過程來說至關重要。
集成學習是機器學習的一種有監督學習方法,其核心是通過組合多個學習器來增強預測精度。其原理是通過訓練多個基學習器(weak learner),然后將它們組合成一個強學習器(strong learner)。在訓練過程中,每個基學習器都會對樣本進行學習并輸出預測結果,最后將這些預測結果進行集成,得到最終的預測結果。
Friedman提出的梯度提升決策樹(GBDT)是一種集成學習算法,它通過將多個弱學習器重新組合構成強學習器。
預測函數F是以若干個弱學習器加權的方式構成加法模型,模型中x為輸入樣本,ht為第t棵回歸樹,ω是回歸樹的參數,α表示每棵樹在預測函數中的權重:
對于N個樣本點,尋求最優模型等同于使損失函數L最小化。應用求解算法歸結如下:
首先模型初始化,定義初始化基學習器為f0。同時定義
在每次迭代中都構造一個基于回歸樹的基學習器,設根據磷化工反應槽工業數據之間的差異將工業數據劃分為N類,并利用神經網絡擬合出N個基學習器,因此對于模型的訓練樣本為,相應的預測目標函數為
本文采用梯度提升決策樹對反應槽的SO3濃度和P2O5濃度進行軟測量建模。實驗在英特爾i5筆記本電腦上進行,硬件主板配置2.3GHz, 8G內存和nvidia GeForce GTX 1060。軟件環境為Windows 10, Python 3.8, scikit-learn 1.1.0版本。
本實驗采用的數據是由于儀表讀數波動較大且存在異常,產生的粗大誤差對模型的預測性能產生很大影響,需要對數據進行預處理。此處采用平均值濾波方法。訓練集與驗證集樣本的取樣時間為2022年3-7月上午8點至4月20日晚上20點,采樣間隔12h。
在軟測量建模實踐中,輔助變量的選擇起著關鍵性的作用,直接影響到模型的精度和效果?;疑P聯分析法利用灰色關聯度的大小來確定各變量對系統主要行為的貢獻程度。計算步驟如下:
第一步:確定分析序列;
初始變量集可用Xi表示:
輸出變量表示為:
式中,Xi為原始數據變量集,Y為輸出變量集,k為數據量編號,m和n分別為輸入、輸出變量個數。
第二步:無量綱化;
數據預處理階段,采用均值法對數據進行無量綱化處理,使其在同一尺度下進行分析。第三步:計算灰色關聯系數;
式中,ρ取0.5。
第四步:計算關聯度值。
采用公式(10)計算關聯度。
本實驗軟測量對象為磷酸生產反應槽,通過數據采集獲取磷酸生產反應槽各裝置數據,并通過灰色關聯度算法來對反應槽中的SO3濃度和P2O5濃度進行關聯度分析。
將數據集80%作為訓練集,分別對SO3和P2O5濃度作為目標變量,使用GBDT算法對模型進行分類,GBDT算法的基本思想是,通過迭代地生成多個決策樹,每個決策樹都是一個弱分類器,然后將這些決策樹的輸出進行加權投票或平均,從而得到最終的預測結果。
本實驗采取的三個常用的性能評估指標用來判斷模型的優缺點,包括MSE、MAPE和R2。
其中是目標值,是模型的預測值,N是測試集的樣本數。MSE和MAPE分別代表了預測值和實際值之間的誤差。R2代表預測值解釋了變量的方差的比例,是衡量模型預測與真實值擬合程度的重要指標。對于MSE和MAPE,數值越低越好,而對于R方,數值越高越好[2]。
集成學習方法的梯度提升決策樹,成功建立了磷酸生產過程中關鍵單元的生產參數質量模型。并對現場真實數據進行了仿真研究,驗證了模型的有效性。結果表明,使用梯度提升決策樹算法對濕法磷酸生產中的反應槽SO3、P2O5濃度數據擬合效果非常理想,對曲線趨勢擬合效果極佳,達到預期目標,建立的模型對反應槽的重點生產參數SO3和P2O5濃度的R方均能達到0.95以上,能夠應用指導于實際生產過程,以提高磷化企業的經濟效益。