范曉東*,張亞萍,馮睿哲,王 碩,王勇皓
(1.吉林化工學院 理學院,吉林 吉林 132022;2.吉林化工學院 信息與控制工程學院,吉林 吉林 132022)
C4 烯烴作為一種重要的化工原料,它被廣泛的應用于醫藥和化工產品的生產。采用乙醇制備C4 烯烴具有巨大的經濟效益和應用前景,近年來受到了國內外的廣泛關注[1]。在制備過程中,溫度和催化劑組合對C4 烯烴收率將產生影響。現研究如何選擇溫度和催化劑組合,使得在其它實驗條件不變的情況下C4 烯烴收率盡可能高。隨機森林是一類重要的機器學習算法,也是一類集成學習算法[2-3],被廣泛應用于回歸和分類問題[4-5],但基于隨機森林的C4 烯烴收率的回歸分析的研究還未見報道,本研究選取催化劑組合和溫度為特征變量,建立基于隨機森林的回歸模型來預測不同催化劑組合和溫度下的C4 烯烴收率。


隨機森林中使用的樹是基于二叉遞歸分割樹,這些樹對每個變量進行二叉分割的方法,并對預測空間進行分割。樹的根結點由整個的預測空間構成,沒有被分割的結點被稱為終端結點,它們最終形成了對整個預測空間的分割。每個非終端結點被分成兩個子結點,即左結點和右結點。決策樹的算法見文獻[6]第8章。
設D= {(x1,y1), …,(x N,yN)}表示訓練數據,其中xi= (xi1,xi2, … ,xip)T。對于j= 1,2, …,J:
1.2.1 從D 中選取容量為N 的自助抽樣樣本Dj。
1.2.2 使用自助抽樣樣本Dj做為訓練數據,使用二叉遞歸分割擬合一棵決策樹。
(1) 對于每個結點都從所有觀測變量開始。
(2) 對每個沒有分裂的結點都遞歸地重復下面的步驟,直至停止規則被滿足:a.從可用的p 個預測變量隨機選擇m 個預測變量;b.關于第i 步中的m 個預測變量的所有的二叉分裂中選擇最好的二叉分裂;c.使用第二步中的分裂方法把這個結點分裂為兩個子結點。
對于一個新的結點x,公式(1)中f(x)預測值為

本研究采用三次樣條回歸模型來擬合乙醇轉化率與溫度之間的關系,擬合C4 烯烴的選擇性與溫度之間的關系,假設乙醇轉化率與溫度可以由下列含有k 個節點的三次回歸樣條表示:

式中,Yi,Xi分別為乙醇的轉化率和溫度,b1(Xi),b2(Xi), …,bK+3(Xi)為樣條基函數,β0, β1, β2, …,βK+3為回歸系數,為誤差項[6]。同理假設C4 烯烴的選擇性與溫度可以由下列含有k 個節點的三次回歸樣條表示

數據集來源于2021 年9 月全國大學生數據建模競賽B 題,整理后數據集包含催化劑組合、溫度和C4烯烴收率,其中催化劑組合包括SiO2的質量(mg)、Co的質量(mg)、HAP 的質量(mg)、乙醇加入速率(ml/min)和裝料方式。本研究基于隨機森林的方法建立C4 烯烴收率關于不同催化劑組合和溫度的回歸模型,然而,我們發現預測準確率偏低,因此對數據集進行了插補。在每種催化劑組合和裝料方式下分別基于三次樣條回歸模型(3)和(4)建立乙醇轉化率和C4 烯烴收率關于溫度的樣條回歸模型,在本研究中采用在數據區域的均勻分布的方法選擇3 個內結點,分別為25%,50%,75%分位數作為結點的位置,樣條回歸采用R 軟件包splines 中的lm()函數進行擬合。圖1 給出了利用三次樣條回歸得到的在催化劑組合A1 下乙醇轉化率關于溫度的圖像。圖2 至圖4 分別給出了利用三次樣條回歸得到的在催化劑組合A1 至A3 下C4烯烴的選擇性關于溫度的圖像。在其它催化劑組合下利用三次樣條回歸模型也得到了乙醇轉化率關于溫度的圖像和C4 烯烴的選擇性關于溫度的圖像。從圖像可知,在其他條件保持不變的前提下,隨著溫度升高乙醇轉化率呈上升趨勢。但并非所有催化劑組合下均滿足隨著溫度升高C4 烯烴轉化率均呈上升趨勢。例如A1、A3 兩組隨著溫度升高,C4 烯烴選擇性呈先上升后下降趨勢,對于其它催化劑組合下隨著溫度不斷上升,C4 烯烴選擇性均呈上升趨勢。進而,在每種催化劑組合和裝料方式下分別預測溫度為260℃、290℃、310℃和340℃的乙醇轉化率和C4 烯烴選擇性,通過計算乙醇轉化率乘以C4 烯烴的選擇性得到C4 烯烴的收率。我們把這些數據補充到原有數據集中,最后得到的數據集包含207 條數據,部分數據見表1。

表1 C4 烯烴的收率數據

圖1 催化劑組合A1 下乙醇轉化率關于溫度的圖像

圖2 催化劑組合A1 下C4 烯烴的選擇性關于溫度的圖像

圖3 催化劑組合A2 下乙醇轉化率關于溫度的圖像

圖4 催化劑組合A3 下C4 烯烴的選擇性關于溫度的圖像
我們將上面的數據集隨機分為一個訓練集和一個測試集,采用R 軟件包randomForest 來實現隨機森林算法。選取=3個變量和500 棵決策樹來建立隨機森林,此時,足以提供良好的預測性能,得到測試的均方誤差為10.7275,方差的解釋性達到85.57%。我們利用得到的隨機森林模型進行預測,通過嘗試不同的催化劑和溫度的組合,得到催化劑組合為A3 和溫度為400℃時的預測結果達到最高值,此時C4 烯烴收率為34.795%。表2 給出了特征變量重要性的兩個測度,其中%IncMSE 表示基于當前給定變量被排除在模型的時候預測袋外樣本的準確性的平均的減小量。IncNodePurity 衡量由此變量導致的分裂點使得節點不純度所減小的總量。圖5 列出了各變量的重要性,結果表明,在所有的變量中溫度、SiO2含量和HAP 的含量是目前最重要的三個變量。

表2 變量重要性

圖3 變量重要性排序
通過選取溫度和催化劑組合為預測變量,C4 烯烴收率為響應變量,建立了基于隨機森林的回歸模型,得到測試的均方誤差為10.727 5,方差的解釋性達到85.57%,模型的預測效果較好。當催化劑組合為A3 和溫度為400 度時預測結果達到最高值,此時,C4烯烴收率為34.795%。從隨機森林模型特征變量的重要性可以看出,溫度、SiO2含量、HAP 含量這幾個變量的重要性更靠前,因此,在研究C4 烯烴收率時排名靠前的變量應該作為重點關注的變量。