姜 勇,韋朝奧,陳紹輝,陳 亮,張愛輝,陳 余
(云南電網有限責任公司大理供電局,云南大理 671000)
在許多研究領域中,數學模型是對復雜系統進行合理分析的最常用方法。而且知道模型開發過程中的一個重要步驟是參數識別(PI),即通過分析最小化模擬結果和測量值之間的差異來確定未知模型參數。但是需要注意的是即使是在確定性條件下進行測量,也很難獲得精確有效的參數,如最大生長速率和底物親和常數[1]的確定。況且在實際測量過程中常常伴隨著噪聲干擾,因此測量所得的估計參數具有明顯的不確定性[2],這一現象的存在使得模型質量難以得到保證,但是研究發現具有較小方差的參數可以保證模擬結果具有高精度的預測能力。基于此,參數識別(PI)在保證預測結果有效合理這一方面便顯得至關重要,同時針對PI所進行的適當實驗設計也被稱為優化實驗設計(OED)。
OED作為系統生物學領域中的一個重要方法,其主要由兩個步驟組成:(1)通過可用的實驗數據確定來自PI的參數變化;(2)通過在新的實驗中對系統進行“最佳地”刺激來使參數變化實現最小化。當然,這些步驟可以重復進行,直到參數滿足合適的準確度。在此過程中常利用基于費舍爾信息矩陣(FIM)的逆矩陣[3]來獲取有關估計參數的統計信息。但是如果模型參數是非線性的,那么FIM便有可能導致最終的方差與實際值具有偏差。為了克服這個問題,目前已經開發出多種改進參數不確定性的計算方法,而這些計算方法大多是基于Bootstrap方法[4]的。
基于對目前OED研究現狀以及所面臨問題的掌握,將在本文中驗證基于SP方法的應用對于參數統計量近似值的獲取是有利的。而且將給出PI和OED的基礎知識,此外,也將對FIM、基于Bootstrap和SP的方法進行介紹,并對它們在OED中的應用進行評估,同時通過一個簡單的生物反應器模型來對基于SP方法的OED進行說明分析。
參數識別(PI)是模型開發過程中的一項步驟,其對于數學模型的建立以及結果的可靠性獲取有著至關重要的作用。PI的有效進行主要依賴于常微分方程的建立與計算,具體表達式如下:

在表達式(1-3)中,x(t)表示動態狀態,u(t)表示系統輸入量,w(t)表示測量過程中的噪聲干擾量,t為具體測量時間,其中參數u的大小將決定數學模型的預測能力,同時也可對仿真結果的加權區進行表達。
但是在具體計算過程中,需要將成本函數表達式(3)最小化,進而通過表達式(2)得到預先定義的輸入量u(t),其中u為模型參數的估計值。此外,由于非線性模型可能導致結果產生偏差,所以在計算過程中需要增加平均值與矩陣,以此來保證模型的計算精度。而且如果已確定參數的協方差太大,則可以另外選擇更加合理的實驗條件來降低協方差的值,從而使其一直保持在合理穩定的范圍內。換言之,就是利用輸入量來給模型提供額外自由度,當然,這種方法也是OED的主要思想。
目前,OED作為一種數值優化方法,主要通過對變量進行調整來降低參數的不確定性,而如果要將這個優化過程程式化,則需要定義一個基于參數偏差和協方差矩陣的標量成本函數,將具體的優化準則定義如下:


公式(7-8)中,λ作為特征根,在計算過程中主要依賴模型和設計參數來求得,因此可以知道,目前并沒有通用的方法來對Co進行預測。
研究發現,OED在數值優化過程中可以通過改變設計參數來降低參數的不確定性,而在參數改善過程中,由于參數之間沒有相關性,所以需要在保證原有參數估計范圍不再增大的前提下引入入口流的概念。入口流在數據測量過程中可以快速找到參數測量的最優軌跡,從而將測量信息內容最大化,繼而降低參數方差。將入口流定義為以下線性函數:

此線性函數可以構建高效合理的入口輪廓,并將其用于改進這種簡單的非結構化增長模型的參數精度[5]過程中。基于此,OED數據預測過程中目標函數值不能有效降低的問題得到了有效解決。但是目前OED使用過程中仍面臨著兩個關鍵性問題,即如何獲得參數協方差矩陣和均值。
在本節中將在對PI和OED基礎知識了解的前提下具體討論FIM、基于Bootstrap和SP的方法,同時選擇合適的方法來對OED所面臨的兩個關鍵性問題(如何獲得參數協方差矩陣和均值)進行解決。
對于FIM,在考慮測量噪聲存在的基礎上將其定義為:

同時將公式(10)內的參數靈敏度矩陣Stn定義如下:

本式中,tn為測量時間。但是由于測量時間的確定依賴于動態狀態,所以在求解過程中需要結合公式(2)、(7),計算結果可得:

雖然最后所得C0就OED來說具有一定的有利影響,但是研究發現,FIM-1在某些復雜模型中可能會對實際協方差造成估計失誤。所以基于FIM的OED在非線性模型中并不適用。
接下來,對基于Bootstrap的方法進行簡要介紹。Boot?strap的根計算主要依賴于蒙特卡羅方法[6],此方法通過隨機創建的虛擬測量向量來使得樣本的均值、協方差與實際分布保持一致,具體表達式如下:

但是運算后可以發現,在基于Bootstrap的方法中,只有當重復樣本數量B趨于無窮的時候才可以對Cy進行有效計算,同時在OED進行預測計算的過程中也需要保證精度和計算量之間是處于平衡狀態的。
然后,對基于SP的方法進行論述。SP的基本思想是通過非線性映射來對高維空間隨機向量的期望和方差進行確定[7],具體參照表達式為:

在公式(16)中,ξ為測量值,η為模型估計參數。其在對隨機向量的方差的確定過程中首先會生成一個高維空間樣本yn:

高維空間樣本生成后,利用樣本yn便可對隨機向量方差進行確定,進而確定參數向量、協方差矩陣以及均值,計算公式如下:

如上所述,對FIM、基于Bootstrap和SP方法的參數計算過程進行了敘述,并且利用基于SP方法解決了OED執行過程中所面臨的兩個關鍵性問題。同時發現與FIM和基于Bootstrap方法相比,基于SP的方法在OED執行過程中有以下五項優點:(1)與FIM方法相比,SP方法不僅可以得到協方差矩陣的下限,而且可以在測量參數噪聲不大的情況下得到更精確的參數估計量;(2)SP方法不需對參數識別過程進行假設,只需通過一些數值計算的方法就可以對參數進行識別;(3)SP方法不需計算梯度或雅克比行列式。這樣就適用于更多的模型,例如Monte carlo模型;(4)SP模型的計算方法比較簡單,直觀;(5)SP方法對樣本的選擇是隨機但合理的,而所需樣本的數量也比Bootstrap小很多。結合以上SP方法的優點,可以知道SP方法的應用對于參數統計量近似值的獲取是有利的。
在第三節中,對FIM、基于Bootstrap和SP方法進行了論述,同時解決了OED執行過程中面臨的兩個關鍵性問題。而在本節中,將通過一個廣泛使用的生物模型來對基于SP方法的OED進行說明分析,并由此驗證之前對于相關問題的解決是科學合理的。
對于所構建的生物模型,假設其反應器的出口流量和入口流量相等,其他諸如稀釋率、生物質濃度以及反應物濃度等影響因素可以利用表達式表示為:

公式(23-24)中的待定生長速率μ可由公式(25)確定:

在對此生物模型進行構建的過程中發現其并不能讓對生物學機制具有更深層次的理解,但是它卻可以證明SP方法對于非線性模型的建立以及最小化參數協方差矩陣的確定是可行的。通過表達式可以發現該生物模型有三個參數:(1)Yx|s,此產量因子描述了生成物數量主要與底物的吸收量有關;(2)μm,該自變量表示生長速率;(3)Ks的上限。同時為了使生物模型得到最大限度的簡化,假設Yx|s在相關文獻中已知。基于此,將在二維的參數空間進行生物模型的構建以及證明分析。
在生物模型構建完成后,將對參數可識別性、估計參數的置信區間以及參數不確定性的確定依次展開敘述,從而對基于SP方法的OED進行具體的說明分析。
在對參數進行識別之前,需要檢查未知參數在原則上是否可用。但是這一過程卻意味著測量數據的取用將會受到時間間隔長短的影響。為了避免這種影響,假設初始底物濃度是已知的。

于是可以得到:

根據K與μm可知,SP在理論上是完全可行的。
其次,將從包括FIM、基于Bootstrap和SP方法在內的三個方法對估計參數的置信區間進行介紹:(1)基于Bootstrap方法的有效應用關鍵在于樣本數目的正確選擇,即樣本的數量是否足夠。如果樣本數量滿足模型構建要求,那么便可以快速獲得估計參數的平均值以及其所對應的協方差矩陣;(2)對基于SP的方法進行測試。測試表明如果在OED運行過程中增加一個測量標量和三個測量時間點,那么便可以適當減少計算工作量,而且預期的運行檢測結果仍可以被保證。由此表明基于SP的方法對復雜模型的構建分析將是重要的;(3)由于FIM是基于無偏差參數估計的,所以它只能提供有關協方差的信息,而不提供估計值的平均值。由于合適范圍內的估計值平均值對于參數不確定性的降低有作用,所以據此可知FIM并不適用于OED的運行檢測。
根據以上三種方法在估計參數的置信區間內的應用合理性分析,知道基于SP的方法較其他兩種方法來說有著便于模型構建以及減少運行工作量的優點。
最后,將對生物模型的參數不確定性進行論述。基于以上分析可以發現FIM和基于SP的方法適用于擴展模型的構建,但是由于其所對應的置信區域不一致,所以FIM和基于SP的方法計算所得的協方差矩陣也并不相同。在生物模型構建過程中提到了入口流量這一概念,而在應用過程中可以發現,基于SP的方法可以將入口流量定義為設計變量,從而有效降低參數不確定性。
換言之,基于SP的方法可以利用優化設計標準成為設計變量的最優選擇,同時也可以發現,基于SP的方法在進行優化設計實驗后,能夠快速對參數協方差矩陣進行確定[8-9]。也就是說基于SP的方法可以在最短的時間內對參數進行準確性預測,而且之前對于相關問題的解決也是科學合理的。
綜上所述,在本文中對FIM、基于Bootstrap和SP的方法分別進行了介紹,并對它們在OED中的應用進行了評估,評估結果表明傳統的FIM方法并不能完全適用于OED,而基于SP的方法卻可以有效解決OED在檢測過程中所遇到的問題。同時通過一個簡單的生物反應器模型對基于SP方法的OED進行說明分析。且從分析結果中可以發現基于SP方法的應用對于參數統計量近似值的獲取是有利的,也就是說基于SP的方法可以有效提高OED的執行能力以及檢測速度。
[1]HOLMBERG A..On the practical identifiability of micro?bial growth models incorporating Michaelis–Menten type nonlinearities[J] .Mathe.Biosci.,1982,62:23-43.
[2] WALTER P.L..Identification of parametric models(Springer,1997).
[3] KAY S.M..Fundamentals of statistical signal process?ing: estimation theory(Prentice Hall PTR,1993).
[4] EFRON B., TIBSHIRANI R.J..An introduction to the bootstrap(Chapman&Hall,1993).
[5]BALTES M.,SCHEIDER R.,STURM C.,et al.Opti?mal experimental design for parameter estimation in un?structured growth models [J] .Biotechnol.Prog.,1994(10):480-488.
[6] EMERY A.F.,NENAROKOMOV A.V..Optimal exper?iment design [J].Meas.Sci.Technol.,1998 (9):864-876.
[7] JULIER S.,UHLMANN J..A general method for ap?proximating nonlinear transformation of probability distri?butions,1996.
[8]董煒,沈金榮,惠杰,等.基于全生命周期管理的微電網設備管理系統[J].機電工程,2017(11):1330-1333.
[9] GUTENKUNST R.N.,WATERFALL J.J.,CASEY F.P.,et al.Universally sloppy parameter sensitivities in systems.biology models’,PLoS Comput.Biol.,2007,3:1871-1878.