岳向陽 趙忠蓋 劉 飛
(江南大學a.輕工過程先進控制教育部重點實驗室;b.自動化研究所)
工業發酵中的操作條件可以調節微生物的生長代謝環境,如底物流加速率用于控制基質濃度,冷/熱水流加速率則能夠調整環境溫度,當基質濃度過低時會導致菌體營養不良,而濃度過高時又會使菌體耗氧量增加,溫度則會提高或抑制酶的活性[1],因此為提高發酵生產的效率,對操作條件的優化至關重要。 精確有效的發酵過程模型是實現優化的前提條件。 最初對操作條件的優化是根據人類積累的經驗知識[2],隨著對過程機理的逐漸了解,通過微分方程定義的機理模型得到使用[3],后來計算機硬件水平不斷提高,采用歷史數據驅動的數據模型獲得廣泛應用[4],但這些模型只能描述發酵過程的外部特征。
微生物發酵的本質是細胞復雜的微觀代謝反應,其反應速率即代謝通量能夠定量地表征菌體內部的生長代謝狀態。 代謝通量難以實際測得[5],而 常 用 的 動 態 通 量 分 析(Dynamic Metabolic Flux Analysis,DMFA) 方法可以利用細胞代謝網絡模型和細胞外時變參數來估計代謝通量[6]。 因此建立代謝通量調控模型則可以從代謝機理的角度定量描述發酵過程中操作條件與代謝通量間的聯系,為操作條件的優化提供代謝層面的指導。
微生物的生命周期可分為遲滯期、對數生長期、穩定期和凋亡期,其生長代謝狀態在不同階段動態變化,具有非線性特征,因此分段建模方法得以應用。 Gao Y等使用高斯混合模型將樣本劃分為若干個子數據集后,分別建立子模型再融合為代謝通量調控模型[7]。 然而實際上細胞外的時變參數,如生物量濃度、產物濃度等均需要經過人工取樣后離線檢測, 這導致在用DMFA估計代謝通量時會忽略重要的過程動態信息,為使代謝通量更真實地反映微生物生長代謝狀態的變化,需要實時預測所需的細胞外時變參數。 人工神經網絡(Artificial Neural Network,ANN)在發酵過程軟測量中應用廣泛,Dach J等使用ANN對漿液發酵過程進行建模,較好地預測了甲烷的排放水平,但使用隨機初始化深層ANN參數的策略容易陷入局部最優或梯度消失,難以保證模型的性能[8]。 隨著計算機硬件的發展,Hinton G E等提出的深度信念網絡(Deep Belief Network,DBN)策略能夠有效訓練深層ANN[9],即先逐層進行無監督的預訓練來獲得非線性的潛變量模型,然后有監督地微調最終的回歸或分類模型。 Erhan D等利用若干基準實驗說明無監督預訓練的有效性[10]。DBN的半監督學習策略不僅能挖掘過程中所有數據的信息,還可以充分擬合發酵過程的非線性特征,因此可將DBN用于預測所需的生物學參數和建立代謝通量調控模型。
筆者考慮發酵過程的非線性特征和過程變量間采樣率不同的特點,提出基于DBN-DMFA的代謝通量調控模型策略, 其中DMFA用于估計代謝通量,DBN則用來預測生物學參數和建立代謝通量調控模型。 通過青霉素仿真對比實驗,說明該策略構建的調控模型能夠有效揭示工業發酵的操作條件與微觀代謝通量間的聯系,可以用于進一步的發酵控制和優化。
青霉素發酵過程中發酵液的pH值會改變菌體細胞膜的通透性[11],而菌體的代謝活動會影響氫離子的平衡,從而導致pH值波動,因此需要實時控制酸液或堿液的流加速率以使pH值保持在合適的范圍內。 溫度會影響酶的活性,而菌體的生長代謝活動、攪拌器的工作等都會引起熱能的變化,因此要實時調節冷水或熱水的流量來保持發酵環境的溫度。 另外,溶氧濃度影響菌體的代謝途徑和產物產量,通過實時調整攪拌功率和無菌空氣流速可以滿足菌體在不同發酵階段的需氧量。
青霉素代謝通量調控模型中包含的化學信息可以用化學計量矩陣S(S∈R(M+N)×L)來表示,其中M、N分別是菌體細胞內、 細胞外代謝物的數量,L是代謝反應的數量,矩陣中的數值對應于相應反應式的系數[12]。 使用DMFA來估計青霉素的代謝通量時,還需要生物量濃度c(bio)、底物濃度c(glu)、青霉素濃度c(peni)、溶氧濃度c(O2)和二氧化碳濃度c(CO2)的時變數據,而實際發酵過程中c(O2)和c(CO2)可以在線測得,Eun=[c(bio)c(glu) c(peni)]則需要進行離線檢測,為使所估計的代謝通量真實反映過程的動態,可以建立相應的軟測量模型來實時獲得Eun。
DBN 是由受限玻耳茲曼機(Restricted Boltzmann Machines,RBM)堆疊而成的。 RBM結構如圖1所示,由可視層和隱含層組成,具有層內無連接、層間全連接的特點。

圖1 RBM結構
RBM的能量函數如下:

其中wij是節點Vj和Hi間的權重,bj和ci分別為節點Vj和Hi的偏置,vj和hi分別對應節點Vj和Hi的狀態,根據能量函數可以定義各節點的概率。
RBM的訓練目標是擬合輸入樣本的分布[13],目前常用對比散度方法來快速學習RBM,參數θ={w,b,c}更新規則如下:

其中v*代表可視層v的重構,h*是根據v*得到的隱含層,p()為概率,ε為學習率。
DBN的訓練過程如圖2所示, 首先對網絡前n-1層采用逐層貪婪學習算法進行無監督預訓練,即先訓練RBM1,然后保存該層參數,將RBM1的隱含層輸出作為RBM2的輸入, 訓練RBM2后保存參數,以此類推,一直到RBMn-1訓練結束。 然后將保存的參數作為網絡前n-1層的初始參數,最后使用反向傳播對整體網絡進行有監督地微調。

圖2 DBN的訓練過程
基于胞內擬穩態假設和質量守恒原則,得到動態通量均衡方程:

其中S∈R(M+N)×L代表菌體代謝網絡中的化學信 息,Sint∈RM×L和Sext∈RN×L分 別 是 細 胞 內 和 細 胞外代謝物的化學計量學矩陣,f∈RL×1代表L個反應的代謝通量,cext∈RN×1是細胞外N個可觀測代謝物向量。
由于細胞內代謝物數量M通常少于代謝反應數量L,即矩陣Sint是欠定的,其自由度為d=Lrank(Sint),因此代謝通量f可以表示為:

其中K∈RS×d是Sint的零空間,u∈Rd×1為一組自由通量。
使用DMFA時刻對整個代謝過程進行分段線性化,DMFA起點和終點時刻與實際測量的首末時刻保持相同, 假定每兩個DMFA時刻間的代謝通量呈線性變化,可得:

其中ND是DMFA時刻的數量,γ(t,ti)是使得代謝通量線性化的系數矩陣,ti是第i個DMFA時刻區間,ui是ti內的自由通量。 對式(6)兩側積分后,將細胞外代謝物的估計值與實際值間的方差最小化,即可估計出代謝通量f。
基于DBN-DMFA的代謝通量調控模型流程如下:
a. 采集發酵過程樣本數據;
b. 選擇輔助變量并使用DBN構建軟測量模型,預測所需的細胞外時變參數;
c. 結合菌體的代謝網絡和細胞外時變數據,利用DMFA計算動態代謝通量;
d. 選擇操作條件和代謝通量的數據構成樣本,利用DBN建立代謝通量調控模型。
以青霉素發酵過程為例,過程數據來自Pensim仿真平臺,它以Birol機理模型為內核,能夠有效地模擬真實發酵過程[14]。根據Pensim仿真平臺中各初始條件的范圍要求,隨機生成50批青霉素發酵過程數據,發酵總時長為400 h,采樣時間為0.5 h。
青霉素發酵過程數據具有不同量綱,會導致算法收斂困難,因此筆者采用Z-score方法進行歸一化,計算式為:


采用均方根誤差σRMSE和最大誤差絕對值σMAXE來量化模型的預測性能,表達式如下:

其中Ns是樣本數,Yi和Y^i分別是真實值和預測值,σRMSE和σMAXE值越小,說明模型性能越好。
3.2.1 預測細胞外時變參數Eun
將50批原始數據按7∶2∶1劃分為訓練集、驗證集和測試集,然后隨機去掉訓練集中40%數據點中的Eun向量,從而把訓練集分為預訓練集和微調集。
選取發酵罐溫度、pH值、底物流加速率、底物流加溫度、發酵液體積和發酵產生的熱量作為預測Eun的輔助變量, 通過實驗確定網絡結構為6-5-4-4-3, 將DBN與傳統ANN進行比較,DBN和ANN預測性能見圖3和表1。

圖3 兩種模型對c(glu)的預測誤差

表1 測試集性能指標對比
由仿真結果可知,DBN相比ANN能更好地預測Eun,有利于進行動態代謝通量分析。
3.2.2 計算動態代謝通量青霉素代謝網絡[15]包含66個代謝反應、49個胞內代謝物和5個細胞外代謝物(L=66,M=49,N=5)。 基于DBN可對細胞外時變參數進行有效預測,根據式(6)可估計出66個代謝通量,其中3個胞內外交 換 反 應 的 代 謝 通 量F=[f (glu) f (peni)f(O2)]與對應的濃度E=[c(glu) c(peni) c(O2)]對比如圖4所示。

圖4 交換反應代謝通量
以圖4中f(glu)為例,f(glu)的變化會引起c(glu)發生相應的改變。由此可說明DMFA所計算的代謝通量能夠有效地揭示菌體內部的生長代謝狀態。
3.2.3 代謝通量調控模型
基于對細胞外時變參數Eun的預測和對代謝通量的估計, 獲得建立調控模型所需的樣本數據。 操作條件變量(輸入)為通風率、攪拌速率、底物流加速率、底物流加溫度、酸/堿流加速率、冷/熱水流加速率。 代謝通量變量(輸出)為f(peni)和f(glu)。 將樣本按7∶2∶1分為訓練集、驗證集和測試集, 由實驗確定網絡結構為8-7-6-6-4-2,ANN與DBN的預測性能見圖5與表2, 觀察可知DBN比ANN更能有效建立代謝通量調控模型。

圖5 兩種模型對f(peni)的預測誤差

表2 測試集性能指標對比
操作條件對發酵生產效率影響顯著,代謝通量模型則可以結合微觀代謝機理來為操作條件的優化提供指導。 考慮實際發酵中存在過程非線性和數據的多采樣率,筆者提出基于DBN-DMFA的建模策略,并利用Pensim仿真數據進行實驗,說明了該策略的有效性,所得模型可用于代謝層面的在線檢測、控制和優化。