聊城大學(xué)數(shù)學(xué)科學(xué)學(xué)院 孫夢迪 孫忠貴
在催化裂化汽油精制過程中,降低硫含量保持辛烷值,對提高汽油的動力經(jīng)濟(jì)性有著重要意義。但這一過程中涉及的操作變量較多,難以調(diào)控。本文借助相關(guān)性分析,稀疏PCA和神經(jīng)網(wǎng)絡(luò)對操作變量進(jìn)行逐級降維,建立辛烷值損失預(yù)測模型,并采用遺傳算法進(jìn)行決策尋優(yōu)。訓(xùn)練數(shù)據(jù)集上調(diào)控與預(yù)測結(jié)果充分表明了所建模型的合理性。
由汽油燃燒產(chǎn)生的汽車尾氣嚴(yán)重污染了大氣環(huán)境,這對汽油清潔化提出了越來越高的要求。汽油清潔化的重點是在盡最大可能保持汽油中辛烷值的基礎(chǔ)上降低其硫、烯烴含量[1]。由于含硫和高硫原油占絕大多數(shù),為滿足汽油質(zhì)量標(biāo)準(zhǔn)必須對其催化裂化獲得的汽油進(jìn)行精制處理。辛烷值是表示汽車發(fā)動機(jī)燃料(汽油)的抗爆性能好壞的一項重要指標(biāo)。汽油的辛烷值越高,抗爆性就越好,發(fā)動機(jī)就可以用更高的壓縮比。現(xiàn)有技術(shù)在煉油工藝過程一個主要目標(biāo)就是保持汽油的辛烷值達(dá)標(biāo),因此建立汽油辛烷值損失預(yù)測模型非常重要的[2-4]。本文針對某石化企業(yè)催化裂化汽油精制脫硫裝置4年的歷史數(shù)據(jù)。通過對367個變量進(jìn)行降維處理,篩選出建模的主要變量,來建立汽油辛烷值損失模型,進(jìn)一步優(yōu)化主要變量的操作策略。
在原始數(shù)據(jù)中,大部分變量數(shù)據(jù)正常,但由于裝置本身限制或數(shù)據(jù)采集不準(zhǔn)確等客觀原因,導(dǎo)致部分變量均存在問題:部分變量只含有部分時間段的數(shù)據(jù),部分變量的數(shù)據(jù)全部為空值或部分?jǐn)?shù)據(jù)為空值。因此,我們需要對原始數(shù)據(jù)進(jìn)行預(yù)處理。步驟如下:
(1)刪除數(shù)據(jù)中全部為空值或空值過多無法補(bǔ)充的操作變量,對于只有部分空缺數(shù)據(jù)的位點,用此位點前后2h內(nèi)的平均值填充;
(2)刪除325個樣本數(shù)據(jù)全部為空值的變量,求出各操作變量的取值范圍,采用最大最小的限幅方法剔除數(shù)據(jù)不在此范圍內(nèi)的相應(yīng)操作變量所對應(yīng)的樣本;
(3)利用3σ準(zhǔn)則[5]去除操作變量里含有較大誤差的異常值,設(shè)被測變量為x1,x2,…,xn,我們需要根據(jù)

算出算術(shù)平均值,根據(jù)

算出剩余誤差,根據(jù)貝塞爾公式

算出標(biāo)準(zhǔn)誤差σ;
(4)最后對285號和313號這兩個樣本前后2h內(nèi)的數(shù)據(jù)取平均值,得到與辛烷值測量時間相對應(yīng)的各個操作變量的數(shù)據(jù),其中285號樣本數(shù)據(jù)可用,而313號樣本數(shù)據(jù)未能通過檢,故只將285號樣本數(shù)據(jù)加入到原始數(shù)據(jù),取代相應(yīng)數(shù)據(jù)。
由于煉油工藝過程復(fù)雜,可調(diào)整的操作變量(控制變量)具有高度非線性和相互強(qiáng)耦聯(lián)性,建立辛烷值(RON)損失預(yù)測模型涉及13個非操作變量和354個操作變量(共計367個變量),本文篩選出具有代表性和獨(dú)立性的30個以下主要變量來建立辛烷值損失預(yù)測模型。由于非操作變量屬于固有屬性,對汽油辛烷值的影響極其重要,我們僅需對可操作變量進(jìn)行處理。我們的降維方法總結(jié)為逐步遞進(jìn)的三個步驟:
(1)利用相關(guān)性分析[6]去除高度線性相關(guān)的操作變量;(2)利用稀疏PCA[7-9]降維篩選出重要程度較大的操作變量;(3)利用神經(jīng)網(wǎng)絡(luò)[10]去除非線性強(qiáng)相關(guān)的變量。相應(yīng)流程如圖1所示:

圖1 逐步降維流程圖Fig.1 Stepwise dimension reduction flowchart
1.2.1 相關(guān)性分析去除高度線性相關(guān)操作變量
首先根據(jù)各操作變量之間的相關(guān)系數(shù),選出相關(guān)系數(shù)較大,即具有明顯線性相關(guān)的操作變量進(jìn)行聚類,并用與聚類中心最近的個體代表所有類成員,對具有高度線性相關(guān)的操作變量進(jìn)行剔除,從而實現(xiàn)第一步降維。
首先根據(jù)

求得354個操作變量兩兩之間的相關(guān)系數(shù),其中x,y表示兩個不同操作變量,xi或yi代表同一操作變量不同樣本的測量值,相關(guān)系數(shù)矩陣的圖像表示如圖2所示。
由圖2可知,大量相關(guān)性系數(shù)較高,這表明原操作變量之間存在較強(qiáng)的線性關(guān)系。我們以0.90為相應(yīng)閾值進(jìn)行聚類,篩選出相關(guān)系數(shù)在0.90~1.00之間的類別,并用與類中心最近的個體代表所有類成員,從而去除具有高度線性相關(guān)的操作變量。將操作變量總數(shù)由354降至207。

圖2 相關(guān)系數(shù)矩陣圖像表示Fig. 2 Image representation of correlation coefficient matrix
1.2.2 稀疏PCA降維篩選重要操作變量
需注意的是,通過第一步降維(第1.2.1節(jié)),盡管我們?nèi)コ舜罅扛叨染€性相關(guān)的操作變量,剩余變量在數(shù)據(jù)表示上往往具有不同的重要程度。稀疏主成分分析(SPCA)通過增加主成分載荷中零元素個數(shù),使得主成分可以用最少且最有代表性的變量的線性組合來表示。本文借鑒文獻(xiàn)[11]的硬閾值法,首先對原始數(shù)據(jù)進(jìn)行PCA降維操作,然后將主成分載荷中絕對值小于給定閾值的元素截斷為0,達(dá)到剔除非重要操作變量的目的。步驟如下:
(1)設(shè)原始p個操作變量x=(x1,x2,…,xp)T的n次觀測數(shù)據(jù)為xi=(xi1,xi2,…,xip)T,i=1,2,…,n,樣本數(shù)據(jù)矩陣為:

對樣本數(shù)據(jù)矩陣進(jìn)行如下標(biāo)準(zhǔn)化變換:

(2)對標(biāo)準(zhǔn)化矩陣Z求相關(guān)系數(shù)矩陣R,R=(rij)p×p,其中,

(3)求解相關(guān)系數(shù)矩陣R的特征方程det(R-λE)=0,得到p個特征根λ1,λ2,…,λp,
(5)計算m個主成分相應(yīng)的單位特征向量:

(6)計算主成分:

(7)稀疏主成分:

對Vk求期望和方差δk,將小于βk<ε的主成分載荷置零,即將相應(yīng)操作變量xk剔除。在具體實現(xiàn)時,根據(jù)拉依達(dá)準(zhǔn)則,我們?nèi)⊥ㄟ^此步降維,我們進(jìn)一步將操作變量由上一步的207個降至172。
1.2.3 神經(jīng)網(wǎng)絡(luò)去除非線性強(qiáng)相關(guān)變量
通過前兩步降維(第1.2.1和1.2.2節(jié)),盡管可操作變量已經(jīng)由354降至172,其與降至30個以下的目標(biāo)依然相差甚遠(yuǎn)。我們注意到,無論是第一步所用的相關(guān)系數(shù)處理還是第二步用的稀疏PCA操作,都屬線性分析范疇。而這眾多變量之間還存在大量非線性關(guān)系,神經(jīng)網(wǎng)絡(luò)則是刻畫非線性關(guān)系的強(qiáng)有力工具[12]。
如圖3所示,為去除非線性強(qiáng)相關(guān)的變量,本文采用一個3層神經(jīng)網(wǎng)絡(luò),隱藏層的神經(jīng)單元數(shù)量均設(shè)置為3。其基本動機(jī)是:一個變量能被其他變量所表示,將意味著其不具備很好的獨(dú)立性,從而被剔除,達(dá)到特征降維的目的。具體實現(xiàn)時,選擇樣本數(shù)據(jù)的80%作為訓(xùn)練集,20%作為測試集。輸出變量xk若能被其他變量(非操作變量與剩余操作變量)通過神經(jīng)網(wǎng)絡(luò)進(jìn)行較好的表示(相對誤差小于閾值0.80),則將其剔除,否則保留。經(jīng)過此步操作,主要變量降至17維,其中操作變量6維。

圖3 用于去除非線性強(qiáng)相關(guān)變量的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network architecture for removing nonlinear strongly correlated variables
考慮到煉油工藝的復(fù)雜性,本文采用相對復(fù)雜的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)辛烷值預(yù)測模型。如圖4所示,其中4個隱藏層的結(jié)點數(shù)量均為13,輸入變量為降維后的17個特征,輸出變量為辛烷值和硫含量。依然選取樣本數(shù)據(jù)的80%作為訓(xùn)練集,20%作為測試集。訓(xùn)練出各主要操作變量與辛烷值和硫含量的模型。

圖4 用于辛烷值損失預(yù)測的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Network architecture for octane loss prediction
在調(diào)整優(yōu)化過程中,由于變量過多,使用傳統(tǒng)的迭代優(yōu)化算法容易陷入局部極小值的陷阱而出現(xiàn)“死循環(huán)”的現(xiàn)象[13],使得迭代算法無法進(jìn)行。而遺傳算法[14]全局優(yōu)化算法具有良好的全局搜索能力,可以快速地將解空間中的全體解搜索出,而不會陷入局部最優(yōu)解的快速下降陷阱;并且利用它的內(nèi)在并行性,可以方便地進(jìn)行分布式計算,加快求解速度。
遺傳算法的主要步驟如下:
(1)采用上一步的神經(jīng)網(wǎng)絡(luò),在搜索空間U上定義一個適應(yīng)度函數(shù)f(x),在硫含量不大于5μg/g,辛烷值越大和硫含量越小,適應(yīng)度越強(qiáng),給定種群規(guī)模N=30,變異率Pm=70%,代數(shù)T=50;
(2)我們將樣本數(shù)據(jù)設(shè)為初始個體,并在其附近產(chǎn)生N-1個個體s1,s2,…sN-1,組成初始種群S={s1,s2,…sN-1},置代數(shù)計數(shù)器為t=1;
(3)交叉變異;
(4)依據(jù)適應(yīng)度函數(shù)產(chǎn)生新的種群;
(5)t=t+1,若t (6)算法結(jié)束。 辛烷值和硫含量在測試集上表現(xiàn)如圖5所示。其中辛烷值的預(yù)測表現(xiàn)較好,而對硫含量的預(yù)測也基本穩(wěn)定。這表明,在變量維數(shù)由367降為17后,通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練,依然能夠?qū)ι鲜鰞蓚€化工指標(biāo)能較好地表示。這為后續(xù)操作方案的進(jìn)一步優(yōu)化奠定了基礎(chǔ)。 圖5 辛烷值和硫含量在測試集上的預(yù)測效果Fig. 5 Predictive results of octane value and sulfur content on test sets 對于具體133號樣本,同樣采用上述方案,在硫含量滿足不大于5的前提下,得到辛烷值的預(yù)測值為88.50,辛烷值損失降幅大于30%。具體調(diào)整方案為:汽油產(chǎn)品去氣分流量(833.98)、閉鎖料斗氧含量(5)、補(bǔ)充氫壓縮機(jī)出口返回管流量(0)、緊急氫氣去R-101流量(39.38)、循環(huán)氫至閉鎖料斗料腿流量(0.86)、D121頂去放火炬流量(283.16)。 優(yōu)點: 逐步降維:根據(jù)變量關(guān)系的不同類型,采用逐步遞進(jìn)的降維方式,有效克服了維數(shù)災(zāi)難; 用神經(jīng)網(wǎng)絡(luò)刻畫復(fù)雜的非線性關(guān)系:淺層網(wǎng)絡(luò)刻畫操作變量關(guān)系,深層網(wǎng)絡(luò)刻畫化工過程,符合實際; 智能尋優(yōu):用遺傳算法進(jìn)行操作方案的優(yōu)化,加速調(diào)控過程。 缺點: 沒有考慮不同方案的調(diào)控成本; 建模過程中的隨機(jī)性因素可能會導(dǎo)致調(diào)控過程的穩(wěn)定性不夠; 數(shù)據(jù)整定策略可進(jìn)一步改進(jìn)。 本文對操作變量的重要性是通過經(jīng)典PCA中相應(yīng)系數(shù)的大小順序來刻畫的,考慮到各變量之間關(guān)系的復(fù)雜性,將其映射到高維空間,采用核PCA或許能夠?qū)@種關(guān)系進(jìn)行更為合理的描述[15-18]。此外,本文建模主要依賴數(shù)據(jù)驅(qū)動,缺少機(jī)理分析。面對實際問題,將機(jī)理分析與數(shù)據(jù)驅(qū)動相結(jié)合往往更有助于調(diào)控決策。 本文首先依次借助相關(guān)性聚類分析,稀疏PCA和神經(jīng)網(wǎng)絡(luò)對操作變量進(jìn)行逐級降維;其次,采用神經(jīng)網(wǎng)絡(luò)對辛烷值損失建立預(yù)測模型;最后,利用遺傳算法進(jìn)行調(diào)控決策尋優(yōu)。基于上述模型所獲得的調(diào)控策略,訓(xùn)練數(shù)據(jù)集上的預(yù)測結(jié)果充分表明了所建模型的合理性。 引用 [1] 龍夢舒,閔超,趙偉,等.基于機(jī)器學(xué)習(xí)的汽油加氫裂化辛烷值損失預(yù)測和脫硫優(yōu)化[J].科學(xué)技術(shù)與工程,2022,22(3):1076-1084. [2] 陳亞麗,茍苗苗,邵露娟,等.基于RF-XGBoost算法的汽油辛烷值損失預(yù)測模型[J]. 煉油技術(shù)與工程,2021,51(12):49-53. [3] 楚慶玲,平振東,于明加,等.基于RBF神經(jīng)網(wǎng)絡(luò)的辛烷值損失預(yù)測模型[J].物聯(lián)網(wǎng)技術(shù),2021,11(11):104-107. [4] 趙林,李希,謝永芳,等.基于自適應(yīng)變量加權(quán)的汽油辛烷值預(yù)測方法[J/OL].控制與決策:1-7[2022-02-01]. [5] Friedrich Pukelsheim.The Three Sigma Rule[J].The American Statistician,1994,48(2):88-91. [6] 李云燕.仿真數(shù)據(jù)相關(guān)性分析方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2011. [7] 黎明.稀疏主成分分析算法研究與應(yīng)用[D].合肥:中國科學(xué)技術(shù)大學(xué),2021. [8] 楊欣.稀疏主成分分析的兩階段法[J].應(yīng)用數(shù)學(xué)進(jìn)展,2017,6(9):1174-1181. [9] CADIMA J,JOLLIFE I T.Loading and Correlations in the Interpretation of Principal Components[J].Journal of Applied Statistics,1995(22):203-214. [10] Aston Zhang,Mu Li,Zachary CLipton,et al.動手學(xué)深度學(xué)習(xí)[M].北京:人民郵電出版社,2019. [11] 張良均,楊坦,肖剛,等.MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版社,2015. [12] 司守奎, 孫兆亮.數(shù)學(xué)建模算法與應(yīng)用[M].北京:國防工業(yè)出版社,2015. [13] 張會芳.凸優(yōu)化問題最小范數(shù)解的迭代算法及應(yīng)用研究[D].天津:中國民航大學(xué),2018. [14] 楊超.基于多目標(biāo)優(yōu)化的反饋多智能體遺傳算法研究[D].天津:天津職業(yè)技術(shù)師范大學(xué),2021. [15] 孫永科,周開來.核PCA神經(jīng)網(wǎng)絡(luò)集成算法在文本識別中的應(yīng)用[J].科技通報,2013,29(8):124-126. [16] 李慶震,祝小平.基于核PCA的智能圖像分析算法[J].彈箭與制導(dǎo)學(xué)報,2007(5):189-192. [17] 張國云,彭仕玉.核PCA支持向量機(jī)算法研究[J].湖南理工學(xué)院學(xué)報(自然科學(xué)版),2006(4):23-26. [18] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.2 模型求解

3 模型的評價與討論
3.1 模型優(yōu)缺點
3.2 模型的進(jìn)一步討論
4 結(jié)論