黃 穎
(上海漢中諾軟件科技有限公司,上海 200120)
探索性數據分析在乙二醇生產監控中的應用
黃穎
(上海漢中諾軟件科技有限公司,上海200120)
摘要:化工生產數據具有多變量之間關聯、非線性、非正態分布、高噪聲等特點。由于數理統計的局限性,為擺脫假設束縛,采用探索性數據分析“問題—數據—分析—模型—結構”的邏輯,基于BMOS工業優化軟件,利用聚類分析方法探索乙二醇氧化反應生產監控中采集的數據結構特點;通過主成分分析(PCA)算法提取特征參數,對乙二醇生產數據進行挖掘分析,得出優化方案。該方案為生產運行優化創造了條件。
關鍵詞:生產監控聚類分析數據分析優化數據評價樣本統計
0引言
EO/EG生產采用美國SD公司專利技術,主原料為乙烯,產品為高純度的環氧乙烷(EO)和乙二醇(EG)。裝置工程采用了先進過程控制技術,該技術的特點在于利用模型預測功能,通過多變量控制手段提高裝置操作平穩性,實現工藝控制目標;同時,利用線性規劃功能,將操作點推向優化點,在滿足所有質量和安全約束條件的前提下實現卡邊操作,以達到提高產品反應收率、產能和降低能耗的目的。
但是先進過程控制器在長周期運行后,由于裝置工藝狀況改變,控制器模型與實際工況不能很好地匹配,使控制性能明顯下降。依靠傳統控制器的維護方法,通過人工現場收集數據、辨識模型、修改模型參數,不但需要花費很多的人力和時間成本,而且若非由原建模技術人員進行校正,還會因不熟悉變量之間的耦合性而將初始模型越調越亂,從而造成控制器停用。
如能在控制器運行過程中小幅度調整操作變量,完成用于“校準模式”的裝置自動階躍測試,并對數據進行探索性分析,明確參數調整范圍、指導模型校正,可降低先進過程控制器的維護成本、提高控制精度。
1探索性數據分析
根據優化目標,首先初步分析收集的數據,并根據數據特點指導建模和校正模型[1]。
1.1乙二醇裝置氧化反應工藝
乙烯和氧氣以一定的組分比例進入反應器進行氧化反應,在甲烷及銀催化劑的作用下乙烯轉化為環氧乙烷(EO),同時生成副產物二氧化碳和水。甲烷經壓縮機增壓后進入反應氣回路,以維持反應氣體平衡,使乙烯和氧氣濃度保持在較高的安全范圍內。為了控制氧化反應在最優條件下進行,并抑制副反應,在反應氣中加入少量抑制劑(氯乙烷,EC)[2]。
1.2選擇性計算方法和優化目標
選擇性S指消耗每摩爾乙烯所生成的環氧乙烷摩爾數,是由反應溫度的變化和添加到反應混合物的抑制劑控制的。選擇性計算舉例參數[3]如表1所示。
S1=ΔEO/ΔC2H4=1.79/2.26=79.20%
S2=2ΔEO/(2ΔEO+ΔCO2)= 2×1.79/
(2×1.79+0.92)=79.56%
S3=6ΔEO/(5ΔEO+2ΔO2)= 6×1.79/
(5×1.79+2×2.28)=79.50%
S1是選擇性的原始定義式,S2、S3是常用的修正式。在此采用修正式:S=(S2+S3)/2=79.53%。

表1 選擇性計算舉例參數表
選擇性S的影響因素和優化目標如表2所示。

表2 S的影響因素和優化目標
1.3樣本數據的評價
原始數據采樣周期為1min,共收集64 000組數據,約44d。為提高數據的可靠性和可分析性,對原始樣本中的離群點和噪聲進行處理,以便剔除假數據[4]。在數據采集的44d中,采集了用于壓力補償的甲烷流量數據,甲烷實際流量始終在小信號切除的范圍內,基本無補償壓力。刪除數據中因工藝調整時間段產生的異常樣本,最終保留2 104個樣本構成訓練集。
分別對全體訓練集進行描述性統計分析,求出基本統計量,如表3所示。根據選擇性S的數值,將數據集分為兩類:S≥82.2%為優類,S<82.2%為劣類。

表3 訓練集全體樣本
為了探索訓練集數據結構的特點,采用“物以類聚”的聚類分析方法。該方法直接根據數據本身的結構特點來挖掘結構性方面的知識和規律。采用全體樣本在DMOS軟件上構建高維空間,通過主成分分析(principalcomponentanalysis,PCA)算法提取特征,從中選擇包含信息量最多的前兩個特征,降維后得到如圖1所示的兩維圖形[5]。該圖形在DMOS軟件中稱為“特征圖”,灰點為優類樣本,黑色點為劣類樣本。DMOS軟件利用自身所帶的最小二乘擬合算法求出S與P1、P2之間的二元二次回歸方程中的系數,然后繪制出二維等高線,如圖1中橢圓和圓弧所示,這些等高線上的點由P1和P2形成,每一根等高線代表一個目標值,即選擇性S。

圖1 訓練集全體樣本聚類分析特征圖
由圖1可見,訓練集的數據云明顯分為右上方和左下方兩個板塊。經進一步分析發現,訓練集數據云的總體結構分布與反應溫度有關,右上方的數據云板塊對應的反應溫度低(243.9 ℃),左下方的數據云板塊對應的反應溫度高(244.7 ℃)。
為深入分析數據規律,將訓練集分兩個子集研究,即“反應溫度低子集1”(簡稱“訓練子集1”)和“反應溫度高子集2”(簡稱“訓練子集2”),見表4和表5。
由表3~表5可見:在目前的生產情況下,選擇性S的平均值為82.2%,無論反應溫度高或低,S均維持此水平。在訓練集數據中,抑制劑的數據波動最大。

表4 訓練子集1統計量(1)

表5 訓練子集2統計量(1)
1.4數據分析
對于“訓練子集1”和“訓練子集2”,運用數理統計和模式識別相結合的方法進行分析,根據特征圖上“優”、“劣”兩類樣本分布,區分界限,并確定決策區域,逆映射后得出生產優化方案[6]。
1.4.1“反應溫度低子集1”的數據分析
“訓練子集1”的反應溫度約為243.9 ℃,有樣本點1 062個、優類樣本437個,占總樣本數的41.15%,差類樣本625個。訓練子集1的統計結果見表6。

表6 訓練子集1統計量(2)
從表6可見,兩類樣本在S平均值上僅相差0.136%。用訓練子集1樣本在DMOS軟件上構建一個高維空間,由PCA算法提取包含信息量最多的前兩個特征P11、P12構建特征空間,將訓練集數據向特征空間投影得圖2。

圖2 訓練子集1樣本特征圖
由圖2可以看到,優類樣本大多分布在特征圖的右側,劣類樣本分布在特征圖的左側。特征圖中橫軸為第一特征向量P11,縱軸為第二特征向量P12,分別為五個影響因素的兩個不同線性組合并互為正交,被稱為特征方程(1)和特征方程(2)。
P11=-0.271 6×[反應溫度]+0.322 6×[反應壓力]-0.537 7×[抑制劑]+0.528 9×[乙烯進]+
0.503 3×[O2進]
(1)
P12=0.565 4×[反應溫度]+0.643 6×[反應壓力]+0.279 8×[抑制劑]-0.188 9×[乙烯進]+
0.39×[O2進]
(2)
根據特征方程繪制的載荷圖如圖3所示,圖3中各個變量所在的位置對應特征方程中的系數。

圖3 訓練子集1樣本載荷圖
由圖2可見,優化規律較為明顯,如果將生產控制在特征圖的右邊,則能大大增加優類樣本點的概率,有效提高選擇性S。由圖3可見,反應壓力所處的位置離原點的距離最遠,說明它對選擇性S影響最大[7]。由于采集的用于壓力補償的甲烷流量數據始終在小信號切除的范圍內,基本沒有補償壓力,所以認為反應壓力是穩定的,不作為重點考慮;其次,依次考慮反應溫度、進料中的氧氣含量、抑制劑進料量、進料中乙烯的含量。但由表4和表5可見,目前生產情況下,無論反應溫度高和低,選擇性S的平均值均維持在82.2%的水平上。目前對生產參數產生影響的依次是進料中的氧氣含量、抑制劑進料量、進料中的乙烯含量。
在圖2上選擇了三個典型區域,分別為1、2、3號區,其中兩個位于優化區、一個位于劣類樣本區。根據載荷圖分析方法的方向規則,當位于載荷圖橫坐標軸上(下)方的變量數值增加時,樣本點會在對應特征圖上向上(下)移動。同理,可推廣到左、右以及任何方向。將圖2和圖3對應分析,在反應溫度合理低的時候,應減少抑制劑進料量、增加進料中的氧氣含量和乙烯含量,使反應點向1、2號區移動,而遠離3號區。為了求出可供操作的優化生產方案,需在DMOS軟件上分別對這些區域進行100萬次Monte-Carlo模擬。
Monte-Carlo模擬的目的是實現特征空間與測量空間的逆映射。為將優化區(即決策區域)逆映射到測量空間,以求得生產優化操作參數范圍,軟件利用Monte-Carlo算法模擬對象的隨機環境。根據概率論中的大數定律,試驗次數越多,試驗結果的頻數就越接近其概率。因此,利用大量隨機試驗所得的結果,即可逼近逆映射的真實解[8]。Monte-Carlo模擬得出的生產操作參數范圍如表7所示。樣品統計結果如表8所示。

表7 生產操作范圍

表8 樣本統計結果
“反應溫度低子集1”數據分析小結如下。
①當反應溫度控制在243.9 ℃低位運行時,存在較為明顯的優化區,如生產操作參數調控得當,可以提高選擇性S。
②就目前收集的五個變量而言,反應溫度已基本固定,影響選擇性S的主要因素是抑制劑、乙烯進料量和O2進料量,反應壓力影響較小。適當增加乙烯進料量和O2進料量、減少抑制劑量,有利于提高選擇性S。
③以上三個典型區域中,反應溫度均在243.8~243.9 ℃,但抑制劑的差別比較大,相應的選擇性S分別為82.6%、82.3%、82.0%。可見,當反應溫度處于低位(243.9 ℃)運行時,抑制劑宜少不宜多。
④分析1號區可知,在進料乙烯濃度和進料氧氣濃度高的時候,如30.16mol%、7.92mol%,抑制劑為0.53kg·h-1,可使選擇性S達到82.6%。與所收集的訓練集數據平均水平(82.2%)相比,選擇性S提高了0.4%。
⑤根據對3號區的分析,進料乙烯濃度和進料氧氣濃度均較低,如29.42mol%和7.72mol%,如果抑制劑量太高(如0.63mol%),則選擇性S明顯降低至82.0%。與平均水平(82.2%)相比,選擇性S降低了0.2%,在生產中應盡量避免。
建議:當反應溫度低位運行(243.9 ℃)時,其他參數應調控在如表9所示的范圍內。

表9 參數調控范圍
1.4.2“反應溫度高子集2”的數據分析
“訓練子集2”對應的反應溫度為244.7 ℃,共有樣本1 042個。其中,優類樣本523個,占訓練集總樣本數的50.19%,劣類樣本519個。參照“訓練子集1”對“訓練子集2”進行三個典型區域分析,小結如下。
①當反應溫度處于高位運行(244.7 ℃)時,如果乙烯進料量為30~31mol%、O2進料量為7.8~8.1mol%,抑制劑量應控制在0.65~0.70kg·h-1。該方法可提高選擇性S至82.4%;反之則降低選擇性。
②為確保選擇性S不下降,需減少抑制劑量,如當乙烯進料和O2進料分別為28.3kg·h-1和7.4kg·h-1時,抑制劑量調節到0.58kg·h-1,選擇性可達82.5%。
③經過對采集數據運用數理統計和模式識別相結合的方法進行的結構特征分析,根據特征圖上“優”、“劣”兩類樣本分布來區分界限確定決策區域,逆映射到測量空間,得出生產優化方案,如表10所示。

表10 生產優化方案調控范圍
2結束語
化工生產過程是一個復雜的物理和化學過程。采用探求性數據分析“問題—數據—分析—模型—結論”的邏輯,擺脫假設束縛,利用聚類分析方法,通過主成分分析得到優化方案。該方案運用于先進控制自適應配置,可以提高模型校正的精確度,起到事半功倍的效果,實現數據驅動決策。
參考文獻
[1] 竺建敏.AspenTech流程工業自動化解決方案[J].自動化博覽,2012(12):43-47.
[2] 中國石化上海石油化工股份有限公司.Q/HG12-46-2006 乙二醇裝置工藝技術規程(暫行稿)[S].2006:11-15.
[3] 中國石化上海石油化工股份有限公司.Q/HG12-45-2006 乙二醇裝置崗位操作法(暫行稿)[S].2006:34-35.
[4] 陸治榮,陳念貽,陸文聰.DMOS-基于多種數據挖掘算法的工業優化軟件系列[J].計算機與應用化學,2002,19(6):683-690.
[5] 陸治榮.探索性數據分析及其在流程業的應用[M].北京: 中國石化出版社, 2013.
[6] 陳念貽, 陸文聰,陸治榮.優化建模和機器學習理論的新發展[J].計算機與應用化學,2002,19(6):677-682.
[7] 顧逸鑫,唐振華,朱以斌.DMOS優化軟件在芳烴抽提裝置的工業應用[C]//第九屆MES開發與應用專題研討會論文集,上海:中國自動化學會儀表與裝置專業委員會,2010:36-46.
[8] 陸治榮.數據挖掘與MES中的數據智能處理[C]//第九屆MES開發與應用專題研討會論文集.上海:中國自動化學會儀表與裝置專業委員會,2010:14-26.
ApplicationofExploratoryDataAnalysisinProductionMonitoringofGlycolOxidation
Abstract:Chemical product data have characteristics of correlation among multiple variables , non-linear, abnormal distribution, high noise, etc. Due to the limitations of mathematical statistics , and in order to get rid of the hypothesis, exploratory data are used to analyzed the logic of “problem-data-analysis-model-structure”. Based on DMOS industrial optimization software, the clustering analysis method is used to explore the features of structure of data collected in production monitoring of glycol oxidation. Through using principal component analysis (PCA) algorithm, the characteristics of data are extracted. The production data of Glycol oxidation are mining analyzed,and the optimization scheme is obtained. The scheme creates the conditions for optimizing productive operation.
Keywords:Produce process monitorClustering analysisData analysisOptimizationData evaluationSample statistics
中圖分類號:TH86;TP182
文獻標志碼:A
DOI:10.16086/j.cnki.issn 1000-0380.201606010
修改稿收到日期:2015-10-14。
作者黃穎(1967-),女,2006年獲畢業于華東理工大學控制工程專業,獲碩士學位,高級工程師;主要從事MES項目實施和管理工作。