張英昊,薛照陽,趙廷彬,殷海松,喬長晟,,4,
(1.天津科技大學生物工程學院,天津 300457;2.天津慧智百川生物工程有限公司,天津 300457;3.天津現代職業技術學院生物工程學院,天津 300350;4.天津市食品綠色制造及安全校企協同創新實驗室,天津 300457)
聚蘋果酸是一種水溶性脂肪族聚酯,由蘋果酸單體以酯基聚合而成[1],在食品、藥品、化妝品、生物醫學材料、農業等領域具有廣泛應用前景。微生物發酵法現已成為生產聚蘋果酸的主要方式,其中出芽短梗霉(Aureobasidium pullulans)由于產量相對其他微生物高且具有胞外分泌的優勢逐步成為了主要生產菌種[2-6]。
發酵液中聚蘋果酸的傳統測量方法是利用高溫酸水解的方式先將聚蘋果酸水解成L-蘋果酸單體,然后對單體進行測量。常用的測量方法有Goodban比色法[7]、酶試劑盒法[8]和液相色譜法,其中液相色譜法是目前最成熟的測量方式[9-10]。酸水解過程具有高能耗、高污染的缺陷;Goodban法副反應嚴重,影響測量精度;酶方法所需的酶試劑盒價格較貴,不易保存,對操作環境要求也較高;液相色譜法雖然是最成熟的方式,但是具有測量耗時、對樣品具有破壞性、儀器設備昂貴笨重等缺陷。因此有必要開發新的檢測技術。
近紅外檢測分析技術主要利用有機物中含氫化學鍵,如C—H、N—H、O—H、S—H等的倍頻與合頻吸收,對特定組分以快速無損、不需要化學試劑的方式進行定量分析或定性判別[11]。近紅外光譜具有峰形嚴重重疊,峰強度較弱,信息冗余、雜峰多等特征,因此原始光譜難以用肉眼直接分析,需要以計算機軟件為工具對光譜進行預處理,使用化學計量學方法建立數學模型計算待測物質濃度,而偏最小二乘回歸(partial least square regression,PLSR)算法由于其良好的擬合精度,優秀的泛化能力和相對而言較小的運算量逐漸成為最常用的近紅外檢測數學建模算法,并在發酵制品的測量中得到廣泛應用。例如董芹[12]利用近紅外檢測發酵液中透明質酸的濃度和分子質量;張樹明等[13]利用近紅外檢測葡萄酒發酵過程中的常用參數;郭宇飛等[14]建立利用近紅外測量發酵液中L-色氨酸濃度的模型;Li Mengyao等[15]建立近紅外檢測生物反應器培養CHO細胞過程中抗體濃度,細胞密度以及營養物質濃度的模型。
鑒于聚蘋果酸的價值以及近紅外檢測技術的優勢,本實驗選擇利用PLSR方法建立出芽短梗霉發酵液中聚蘋果酸濃度的近紅外定量模型,并進一步驗證此模型在單因素培養基優化和誘變菌種篩選2 類實際應用情景中對發酵液樣品的預測精度,以期為近紅外檢測模型在發酵工業中的應用提供理論依據。
1.1.1 菌種
出芽短梗霉CGMCC No.3337,保藏于天津北洋百川生物技術有限公司。
1.1.2 培養基
斜面保藏使用標準PDA固體培養基。種子培養基:蔗糖140 g/L、酵母粉3 g/L、丁二酸2 g/L、硫酸銨1 g/L、碳酸鉀0.4 g/L、磷酸二氫鉀0.1 g/L、硫酸鎂0.1 g/L、硫酸鋅0.05 g/L、碳酸鈣20 g/L(單獨滅菌)、玉米漿1 mL/L。基礎發酵培養基:蔗糖180 g/L、蛋白胨35 g/L、硝酸鈉2 g/L、硫酸鎂0.3 g/L、氯化鉀0.5 g/L、磷酸二氫鉀0.1 g/L、硫酸錳0.05 g/L、碳酸鈣20 g/L(單獨滅菌)。
Antaris II傅里葉變換中近紅外光譜分析儀 美國賽默飛世爾科技有限公司;1100高效液相色譜分析儀 美國安捷倫科技有限公司;Sky2102搖床 上海蘇坤實業有限公司;YJ-875S醫用超凈臺 蘇州凈化設備廠;SPK-250B-Z生化培養箱 上海博訊實業有限公司醫療設備廠;LD5-10高速離心機 北京醫用離心機廠。
1.3.1 培養條件
搖瓶發酵:從PDA斜面挑取菌體接種于種子培養基中,在25 ℃、200 r/min條件下振蕩培養40 h,然后將種子液按體積分數10%的比例接種于基礎發酵培養基中,在25 ℃、200 r/min條件下振蕩培養144 h,期間每隔12 h取一次樣以產生不同的聚蘋果酸濃度。
1.3.2 誘變篩選步驟
按照文獻[16]的方法進行紫外誘變菌種篩選,經搖瓶培養120 h后取樣做相關測量。
1.3.3 聚蘋果酸濃度的測定
取10 mL發酵液,15 000 r/min離心10 min,收集上清液,吸取1 mL上清液于水解反應釜中,加入4 mL水與5 mL濃度2 mol/L的硫酸溶液,于110 ℃水解7 h,將聚蘋果酸完全水解為L-蘋果酸。高效液相色譜法測定水解前后的L-蘋果酸含量并依據稀釋倍數換算為發酵液原液中的濃度,兩者之差即為發酵液聚蘋果酸含量。
高效液相色譜檢測條件:J&K C18色譜柱(4.6 mm×250 mm,5 μm);流動相:25 mmol/L磷酸二氫鉀溶液(用磷酸調節pH值至2.5);柱溫25 ℃;恒定流速1 mL/min;進樣量3 μL;紫外檢測器波長210 nm。
1.3.4 發酵液近紅外光譜掃描
應用透射光譜模塊,以空氣作為掃描背景,室溫下每個樣品做3 次光譜采集,求平均光譜,每次采集掃描32次,掃描波長范圍4 000~10 000 cm-1,采樣間隔設置為2 cm-1。測試樣品為不同批次不同培養時間點取樣的發酵離心上清液。
1.3.5 數據分析與建模
1.3.5.1 樣本劃分
建模共涉及109 個樣本,利用Kennard-Stone方法[17]劃分校正集和內部驗證集,其中校正集82 個,內部驗證集27 個,另用完全未參與建模的發酵液樣品50 個作外部驗證集,驗證模型對完全未知樣品的預測精度。
分別取單因素優化培養基樣品14 個以及紫外誘變菌株樣品集27 個作為外部驗證集,驗證模型在培養基優化和誘變篩菌兩類應用中的預測精度。其中單因素優化樣品使用初始菌株,在基礎發酵培養基中額外添加了2~10 g/L的硝酸鈉后經搖瓶獲得樣品;誘變菌株樣品集使用誘變菌株接種培養,在基礎發酵培養基中經搖瓶獲得樣品。
1.3.5.2 特征波段的選擇
分別以間隔偏最小二乘回歸(interval-partial least square regression,i-PLSR)法和移動窗口偏最小二乘回歸(moving window-PLSR,mw-PLSR)法選擇特征波段[18-19],以交叉驗證均方根誤差(root mean square error of cross validation,RMSECV)作為波段選擇依據,對應于最小的RMSECV的波段為最佳擬合波段。交叉驗證的計算方法參考文獻[20]。本研究所有交叉驗證均使用留一法。
1.3.5.3 光譜預處理與聚蘋果酸定量建模
光譜的一階導數、二階導數、多元散射校正(multiplicative scatter correlation,MSC)、標準正規變換(standard normal variation,SNV)等原理和計算公式參考文獻[21]。具體的實現方式,MSC依照其數學原理用R軟件自行編程,其他的處理利用R軟件prospectr包進行[17];PLSR由R軟件PLS包實現[22],以RMSECV值作為PLSR算法中因子數選擇的標準,對應于最小RMSECV值的因子數具有最佳擬合精度。以內部和外部驗證集的均方根誤差(root mean square error of prediction set,RMSEP),以及液相色譜測量值與模型計算值間的相關系數R作為模型質量的評價指標,RMSEP值越小且R越接近于1說明模型的定量擬合效果越好。RMSEP和R的計算公式如下,n為驗證集中的樣本數。

1.3.5.4 統計學分析
使用SPSS軟件對校正集、內部驗證集和全部的外部驗證集作配對t檢驗以驗證液相色譜測量值與模型計算值之間差異的顯著性,并計算測量值、模型預測值間的誤差置信區間;從外部驗證集中挑選10 個樣本,分別以每個樣品掃描的3 次光譜平行代入模型算出濃度后進行單樣本t檢驗,以驗證模型對同一樣品測量的穩定性。
1.3.5.5 校正集樣品光譜代表性評價
全部樣品集,對其特征波段范圍內的近紅外光譜進行主成分分析,并選擇方差貢獻率最大的前2 位主成分,作出主成分得分圖。主成分分析由R軟件內置基本函數計算。
如圖1所示,保留時間4.4 min左右的峰為L-蘋果酸單體,樣品中的L-蘋果酸單體峰分離良好,可以基本實現精確的測量。對于近紅外定量建模,校正集測量結果的準確性是實現模型精度的基本前提。


圖 1 L-蘋果酸標準品(a)和酸水解發酵液上清液(b)液相色譜圖Fig. 1 HPLC chromatograms of L-malic acid (a) and the acid hydrolysate of the fermentation supernatant (b)

圖 2 校正集的原始近紅外光譜Fig. 2 Raw near-infrared spectra of calibration set
如圖2所示,芽短梗霉發酵液的近紅外光譜部分波段噪聲非常大,會嚴重影響定量精度,需要避開。而且出芽短梗霉發酵液成分高度復雜,除聚蘋果酸外,多糖和蛋白質也會作為副產物被分泌至胞外[23-24]。因此根據聚蘋果酸的結構特征查近紅外吸收表確定建模波段的方法不可靠,需要用計算的方式確定建模波段。

表 1 i-PLSR法選擇波段結果Table 1 Results of waveband selection using i-PLSR method

表 2 mw-PLSR法選擇波段結果Table 2 Results of waveband selection using mw-PLSR method
依次采用i-PLSR與mw-PLSR方法尋找特征波段,如表1、2所示。利用i-PLSR法先在全波段上粗略定位特征波段所在的大致范圍,再用mw-PLSR法進一步精確定位,RMSECV越小則說明波段的預測精度越高。綜合表1、2結果可知,5 638~6 024 cm-1波段范圍對應于最佳的擬合精度,為特征波段。依據常見化合物近紅外區段倍頻吸收表[25],該波段主要對應于亞甲基和次甲基中的碳氫鍵的二倍頻吸收,是聚蘋果酸分子中存在的結構。因此該波段可以對聚蘋果酸進行定量。

表 3 不同預處理后的RMSECV值Table 3 RMSECV values with different pre-processing methods
預處理通常能夠消除輸入光譜中的隨機誤差或基線漂移等不利因素,對建模往往有積極影響。如表3所示,每種組合條件下交叉驗證過程中的PLSR運算的因子數為對應于最小的RMSECV值的因子數。RMSECV值越小,說明對應的預處理條件能使模型預測精度最高。由表3可以看出,MSC+SNV+Savitzky-Golay 55點平滑+一級導數光譜的預處理組合能使模型預測精度最佳。

圖 3 經過波段選擇和光譜預處理后的校正集輸入光譜波形Fig. 3 Input spectra of calibration set with selected waveband and pre-processing method
圖3 為5 638~6 024 cm-1特征波段在經過MSC、SNV和Savitzky-Golay 55點平滑一級求導后的波形。該波形數據直接輸入PLSR模型用于聚蘋果酸的定量。
欠擬合與過擬合是數學建模中2 種常見的缺陷。其中欠擬合指的是模型輸入數據中與待測組分關聯的信息利用不充分,過擬合則是輸入數據中與待測組分無關的信息也被引入模型中。2 種情況均會使模型的精度下降。PLSR算法中不同的建模因子數目代表對原始數據不同程度的信息提取,故進行建模前要確認合適的建模因子數以平衡欠擬合與過擬合。從圖4可以看出,前5維因子對應的RMSECV值均最低,說明此時模型預測狀態最佳。

圖 4 PLS因子數目選擇結果Fig. 4 Selection of the number of partial least square factors

圖 5 模型算法對校正集、內部驗證集和外部驗證集樣品的預測結果Fig. 5 Model prediction results of samples in calibration set, internal test set and external test set
以前5維因子進行PLSR建模并分別驗證模型對校正集和內部驗證集的預測精度,結果如圖5所示。其中RMSEC為1.619,Rc為0.983 3,內部驗證集預測均方根誤差(root mean square error of prediction,RMSEP)為1.553,Rp為0.970 0;外部驗證集RMSEP為1.378,Rp為0.992 4。從RMSEP值,相關系數R值以及散點的直觀分布來看,模型預測效果基本滿意。
分別以單因素培養基優化組和紫外誘變菌種篩選組的樣品經搖瓶培養后的樣品,作為完全未知的外部驗證集,用模型進行聚蘋果酸濃度預測,結果如圖6所示。單因素培養基優化樣品集的RMSEP為1.670,Rp為0.984 2;紫外誘變菌株樣品集的RMSEP為1.416,Rp為0.920 3。直觀上看這2 種情況下模型均具有尚可的預測效果。

圖 6 模型對培養基單因素優化組和誘變菌株組的預測結果Fig. 6 Model prediction results for medium composition optimization and mutant screening
以配對t檢驗的方法分別檢驗校正集、內部驗證集、外部驗證集、單因素培養基優化組和誘變菌株組的聚蘋果酸液相色譜測量值與模型預測值間的差異顯著性,并計算在95%置信度下誤差的置信區間,結果如表4所示。其中校正集、內部驗證集和外部驗證集的液相色譜值和計算值間無顯著差異,而培養基單因素優化組和誘變菌株篩選組則存在顯著差異,表明模型不適合在這2 類應用中對質量濃度進行測量,尤其單因素培養基優化組,其95%置信度下的最大誤差能達到3.8 g/L,相對于液相色譜值的范圍來說過大。內部、外部驗證集的測量值液相色譜值間無顯著差異,且偏差相對于液相色譜值而言小于最大值的5%,表明這種誤差是可以接受的。

表 4 配對t檢驗的結果Table 4 Result of paired t-test
進行培養基優化或誘變篩菌時,待測組分質量濃度的相對大小往往比實際質量濃度更受關注。根據單因素優化組和誘變菌株組誤差的置信區間結果,結合置信區間的定義,可以得出2 個樣本模型計算值間的“最小差值”的計算公式,即置信區間上、下邊界之差的絕對值。2 個樣本在光譜計算結果偏差大于“最小差值”,即證明2 個樣本在給定置信度下在液相色譜值有顯著差異。因此在95%的置信水平上,單因素優化組和誘變菌株組在模型計算值上的“最小差值”必須分別至少大于3.19 g/L和1.436 g/L才能以模型計算值的大小判斷液相色譜值,結合圖6結果,測量值與模型值間的線性較好,因此可以在滿足最小差值的條件下較可靠地由定量模型比較出組分大小。如表5所示,從外部驗證集中抽出的10 個樣本,分別由各自同一樣品的3 個平行光譜計算質量濃度值并進行單樣本t檢驗,以驗證3 次平行光譜的穩定性。由結果可知每個樣本3 次平行經t檢驗的顯著性均顯著大于0.05,說明沒有差異,表明模型對同一個樣品的預測值具有很高的穩定性。

表 5 模型穩定性檢驗結果Table 5 Results of model stability test

圖 7 全體涉及樣本光譜代表性評價結果Fig. 7 Representativeness evaluation of all the samples
對特征波段范圍的近紅外光譜進行主成分分析評價樣品集光譜代表性,結果如圖7所示。校正集樣品的散點完全覆蓋了內部和外部驗證集,并且基本分布均勻,沒有明顯的離群點。內部與外部驗證集中也均沒有出現明顯偏離校正集范圍的樣本點。該結果說明樣品集的光譜具備代表性,可以在一定程度上代表實際運用中常見的情況。
本實驗雖然建立近紅外聚蘋果酸定量模型,但模型對部分樣品的預測結果相對于液相色譜測量值仍有較大誤差。因此有必要分析近紅外模型中誤差的來源。
近紅外光譜具有信息高度重疊的特征,很難將背景組分對應的光譜信息完全從目的組分的信息中排除,這表明近紅外檢測相對于中紅外等傳統光譜分析技術的外推性能較差,定量模型的精度高度受背景組分的影響。因此近紅外模型的校正集樣品要盡可能地包含各種可能出現的背景信息,即具備“代表性”[25]。“代表性”的表現形式,即校正集樣品在光譜的主成分空間上應該能覆蓋未知樣品,不能有明顯偏離,否則模型精度有可能降低。此時需要不斷輸入新的校正集樣品擴大校正集的代表性,然后全體校正集樣本重新建模[25]以改善定量模型的精度(也可按照文獻[26]中所述方法先在主成分空間上進行聚類,每一小類再分別建模并對類內的未知樣品進行預測,從而改善模型精度)。結合圖7結果看,校正集是具備代表性的。但是隨著未知樣品測量的增多,仍然需要適當補充新的校正樣本。
本實驗所用PLSR本質上是一種線性算法(即光譜矩陣可以經歷一系列線性變換,或者乘上一個或幾個矩陣后得出質量濃度矩陣)[27],用以描述光譜與質量濃度間的換算關系;而在樣品存在散射干擾的情況下二者間的線性關系會發生偏離使預測精度不佳[28]。表3的光譜預處理方法最終確定了MSC+SNV+Savitzky-Golay 55點平滑+一階導數的預處理方式,能夠最好地改善預測精度;然而MSC+SNV(有時要進一步結合導數光譜)是一種常用的消除散射因素干擾的預處理方式[21],加之出芽短梗霉發酵液黏稠、渾濁的直觀特征,暗示了出芽短梗霉中存在散射效應,并干擾了光譜與濃度間的線性關系,從而增大了誤差。因此,采用非線性算法改進定量模型,是一個努力方向。
液相色譜測量值的精度同樣也會增大誤差。如圖1b所示,液相色譜值質量濃度需要對L-蘋果酸峰求峰面積計算得出。然而由于發酵液是一種高度復雜的混合物,液相色譜不一定能完全將L-蘋果酸的峰分離開,這種情況下算出峰面積會偏離實際,并進一步在聚蘋果酸質量濃度液相色譜測量值中引入較大的系統誤差。這很可能是導致本實驗中誘變菌株組和單因素優化組樣品的液相色譜、計算值間出現較大誤差的原因。因此合適的液相色譜測量條件對于近紅外建模的精度同樣重要。
最后,本實驗配對t檢驗的結論雖然表明近紅外模型在單因素優化和誘變篩菌中的誤差較大不能進行測量,但是可以在2 個計算值的偏差大于“最小差值”條件下,通過比較2 個計算值的大小實現比較的液相色譜測量值大小的目的,且能夠排除因近紅外模型的誤差、波動導致的“假陽性”現象,證明了近紅外模型在快速篩菌和組分優化技術的中的應用價值。
本實驗首先聯合使用i-PLSR法與mw-PLSR法,確定建模波段為5 638~6 024 cm-1;隨后經一系列優化后依次使用MSC+SNV+Savitzky-Golay 55點平滑+一階導數光譜+前5維因子PLSR建立定量模型,模型的校正集RMSEC為1.619,Rc為0.983 3,內部驗證集RMSEP為1.553,Rp為0.970 0,外部驗證集的RMSEP為1.378,Rp為0.992 4。結合統計分析的結果表明測量值與模型計算值間無顯著差異,誤差可以接受,模型穩定性良好,可用于對組分的測量。進一步驗證模型在單因素培養基優化和誘變菌種篩選應用中的精度,并結合配對t檢驗的置信區間結果,證明了雖然在這這2 類應用中模型對聚蘋果酸質量濃度的誤差較大,但可以在模型計算值的差值分別滿足大于3.19 g/L和1.436 g/L的前提下以95%的置信度比較出不同樣品中聚蘋果酸濃度大小,因此近紅外模型有應用于誘變篩菌和培養基組分優化的價值。