侯奇
(上海海事大學信息工程學院,上海 201306)
預測微生物學本質上是基于微生物群體對環境因素的反應可重現,利用過去觀察到的試驗數據通過數學模型預測食物環境中的微生物行為,并用實驗結果證明模型所得到的誤差不大于微生物實驗所帶來的誤差[1]。微生物預測的核心是建立有效的模型,近些年,研究者在建模方式上大多都是參數化的模型,其模型中的參數沒有實際的意義,僅僅是為了結果在形式上接近實際數據,而目前,得益于神經網絡的研究發展,越來越多的研究者用神經網絡去建模,并且神經網絡在處理圖片[2]、視頻[3]、音頻[4]等多維度問題上面有著強大的應用,使得神經網絡在解決多維和建模問題上被研究者廣泛采用,本研究就是采用一種改進的ELMAN神經網絡來進行多維建模問題,來解決預測微生物學在建模上一直采用擬s形態函數的詬病,并通過細菌覓食算法(Bacterial Foraging Algorithm,BFA)對ELMAN神經網絡進一步的優化,并將優化后的ELMAN網絡應用到微生物生長預測模型中去,提高了其預測的精度。
人工神經網絡是模擬動物神經網絡的功能、特征、結構而建立的一種數學架構,實際就是一個強大的數學函數。ELMAN也是人工神經網絡的一種,包括輸入層、隱含層、承接層和輸出層,其連接權可以進行學習修正,關聯層的作用是通過聯接記憶將上一個時刻的隱層狀態連同當前時刻的網絡輸入一起作為隱層的輸入,相當于狀態反饋,反饋連接由一組“結構”單元構成,用來記憶前一時刻的輸出值,局部反饋連接的遞歸神經網絡,具有動態映射功能,并使系統具有適應時變特性的能力[5],其隱藏層使用一個具有與典型微生物生長曲線相似形狀的Sigmoid函數,這讓神經網絡不需要使用大量節點就可以獲得相應微生物生長曲線[6],關聯層通過聯接記憶上一個時刻的隱層狀態連同當前時刻的網絡輸入一起作為隱層的輸入,相當于狀態反饋,便于做時間相關類型的預測。
由于微生物生長預測是關于時間動態化的過程,ELMAN神經網絡對歷史狀態數據具有敏感性,增加了網絡處理動態信息的能力,達到動態建模的目的,能使預測值均勻地分布在實際值的兩側,適合實時系統辨識的動態遞歸,對序列問題及時間問題有著很好的預測效果,因為有著較強的適應時變特性的能力,所以采用此網絡對微生物生長預測建模,ELMAN網絡結構設計的好壞對網絡的性能和預測結果起著重要的影響作用,在網絡隱含層的節點選取,以及權值閾值的取值上,沒有有效地方法,很容易使得網絡在建模中,網絡訓練收斂過慢,導致預測效果不佳的表現,因此有必要對ELMAN網絡,特別是針對實際問題,對其網絡結構要特別對待,本研究對ELMAN神經網絡的拓撲結構進行了改進,提出一種雙伴承接層的ELMAN神經網絡結構,然后通過BFA對其權值、閾值進行優化。
由Whiting等[7]提出的基于變量類型的分類方法將預測微生物數學模型分為一級模型、二級模型和三級模型,其中二級模型描述微生物在食品中的生長情況與環境條件之間的關系,也是目前研究的熱點,為了使得ELMAN神經網絡來擬合微生物的生長狀況,更改了其拓撲結構,在原有的ELMAN網絡基礎上加入另一個承接層,它的輸入變量為細菌在當時的環境狀態,輸出為細菌的瞬時速率,微生物的初始濃度與生長速率為ELMAN的輸入,輸出為目標濃度,其網絡結構如圖1所示,傳值函數見式(1),隱含層閾值函數見式(2),承接層閾值函數見式(3):

其中與 y(k)為第 k次輸出集,u為輸入矩陣,g(x)為傳遞函數,w為權值,x(k)為第k迭代矩陣,f(x)為閾值函數,e(x)為環境影響函數。

圖1 改進的ELMAN網絡結構
近年來,越來越多的仿生優化算法出現,這些算法是依據物種在自然進化過程中的存活狀態,這取決于它們的健身狀況和依賴于他們的覓食或運動行為,因此,對任何進化物種的覓食行為可適用于任何非線性系統優化和建模,細菌覓食算法就是這類,它是仿照我們的腸道中的大腸桿菌有一個覓食策略,由三個過程控制,即趨向、繁殖和驅散[8],優化問題的解對應搜索空間中細菌的狀態,即優化函數適應值。在趨化過程中,細菌運動模式包括翻轉和前進。細菌向任意方向移動單位步長定義為翻轉。當細菌完成一次翻轉后,若適應值得到改善,將沿同一方向繼續移動若干步,直至適應值不再改善,或達到預定的移動步數臨界值。此過程定義為前進。以趨化過程中各細菌適應值累加和為標準,較差的半數細菌死亡,較好的半數細菌分裂成兩個子細菌。子細菌將繼承母細菌生物特性,具有與母細菌相同的位置及步長。趨化過程可確保細菌的局部搜索能力,復制過程能加快細菌的搜索速度,但對于復雜的優化問題,趨化和復制無法避免細菌陷人局部極小現象發生,BFA引人驅散過程以加強算法全局尋優能力[9]。細菌在完成一定次數的復制后,將以一定概率被驅散到搜索空間中任意位置,避免解陷入局部最優的情況發生。
本研究在優化ELMAN權值問題上時候,有著較多的輸入和隱含層,有125個參數ELMAN神經網絡的節點數、層數、權重、激活函數參數等都是待定或者可調參數,可通過一定的算法學習得到。通常優化的是權重和激活函數參數,隨著神經網絡應用的越來越廣泛,在對自適應的得到的權值與閾值,并不能過很好地得到預期的效果。例如GA對BP網絡優化容易使得,BP網絡的權值,閾值容易陷入局部最優,并不能夠很好適應全局。PSO在優化問題上也被許多研究者所采用,它能做到快速收斂,但是,處理高維度問題,容易早熟收斂。正是神經網絡本身的拓撲結構的多樣性和權值閾值的的不確定性,使得沒有很好地利用在微生物生長建模上,而BFA在處理高維度的問題上具有很好的效率[10],本研究通過BFA通過實際數據來優化ELMAN神經網絡的權值,其模型如圖2所示。

圖2 基于BFA優化的ELMAN神經網絡結構
本研究通過沙氏門菌的生長數據實例為研究對象,數據來源于與ComBase數據庫,ComBase數據庫是2003年由英美兩國將PMP、FM和Growth Predictor進行整合而成的數據庫模型,擁有40489個關于微生物生長和存活的數據。并且也是世界上最大的預測微生物學信息數據庫。實驗數據對象在溫度20-39℃、pH值在4.4-7.5、AW在0.934-1之間的環境所得。實驗數據共98組,其中測試數據90組,測試數據為8組。

圖3 ELMAN神經網絡預測結果與實際結果的對比
本次實驗通過MATLAB進行建模,通過90組測試數據對ELMAN網絡進行訓練,在通過8組測試組數據對網絡進行仿真測試,其經過多次的實驗,得到的結果十分接近于實際值,并通過殘差分析顯示異常點僅僅接近2%,統計實驗結果可以看出本模型對微生物生長的各個時期具有良好的預測效果,其中某次實驗預測結果與實際值對比圖如圖3所示,對應的殘差分析結果如所圖4所示。
利用其數據中的溫度、pH值、AW為伴生承接層輸入層,由模型與實際值對比可知,本模型在生長期到穩定期的過渡期的預測有著更高的準確性,能夠很好根據實際情況去預測。對于像是食品檢測這樣的機構會有很大程度上的幫助,而且能夠更加有效的使用。其次對于微生物生長對數期及平穩期預測比較好,對于延滯期,如果想預測的更加的精確,需要考慮微生物其內部的狀態,這使得預測更加的復雜,通常在處理與微生物行為相關的高水平的變異性和不確定性時候需要更高的檢測儀器,由于過程的復雜,使得這一數據不易檢測和獲得,使得延滯期的研究進展緩慢,有待我們進一步去研究。
本研究改進了ELMAN網絡結構,并用BFA算法優化ELMAN神經網絡中的權值、閾值,提高了其預測精度,利用沙氏門菌的數據為作為網絡的訓練集,試驗結果顯示,該模型可以對微生物生長的各個時期進行有效預測,并解決經驗型模型參數化過多,以及沒有生物意義的問題。此外本模型能夠預測微生物在更多的環境條件下的生長和滅活,由不限制影響微生物生長因子的個數可提高本模型的通用性,可使得微生物預測模型能有較好的應用空間,可以幫助研究人員對微生物生長的動態分析,以及在復雜環境下對微生物生長失活的預測。

圖4 ELMAN神經網絡預測結果與實際結果的對比的殘差分析