Abstract: To improve the prediction accuracy of beef freshness using near-infrared (NIR) spectroscopy,we proposeda predictive model based on the combination of grid search (GS),random forest (RF)and adaptive boosting (AdaBoost). Initially,RFandAdaBoostwereemployedtostablishaNRspectroscopypredictionmodel,followedbyanalysisof the predictionaccuracyfortotal volatilebasenitrogen (TVB-N)content inbeef.Subsequently,theRFmodel,composed of multiple weak leamers,wastrained using the training set,andAdaBoost wasused to integrate these weak learners into a strong learner through varying weights to buildan ensemble model.RF was then optimized using GS to develop an AdaBoostmodelthatintegratesGS-RFas itsweak learnerforpredictingtheTVB-Ncontentinbeef.Finally,the prediction performance ofthe GS-RF-AdaBoost model based onNIR spectroscopywasanalyzedand compared with thatof the partial least square regresson,RF,AdaBoost andRF-AdaBoost models.Theresults indicatedthatthe GS-RF-AdaBoostmodel outperformed in predicting theTVB-Ncontent inbeef with the lowestroot mean square error of predicyionset and the highestcoelationcoeffcent,coefficientofeterminationandresidual predictiondeviationofpredicyionset,which were 1.731,0.969,0.924and4.331,respectively.Thesefidingsconfirm thatintegratingGS-RF-AdaBoostmodelbasedonNIR spectroscopy can effectively enhance predictive performance regarding TVB-N content in beef.
Keywords: near infrared spectroscopy;grid search;random forest;adaptive boosting;beeffreshness
DOI:10.7506/rlyj1001-8123-20250210-032
中圖分類號:TS251.7 文獻標志碼:A 文章編號:1001-8123(2025)11-0001-08
肉類在人們的飲食中有著舉足輕重的地位。牛肉因其低脂肪、高蛋白、口感好的特性而備受消費者的青睞,成為全球飲食中不可或缺的一部分。然而,牛肉在運輸、加工、零售過程中,會因溫度、水分等因素導致品質變化[1]。牛肉新鮮度是確定牛肉質量變化程度和衡量其是否可食用的重要指標[2]。總揮發性鹽基氮(totalvolatilebasicnitrogen,TVB-N)含量通常用于評價牛肉的新鮮度,其能夠準確反映肉類腐敗過程中的生物化學變化。揮發性鹽基氮是蛋白質在微生物和內源酶作用下發生降解的產物,主要包括氨、三甲胺、二甲胺等堿性含氮化合物,在腐敗的肉類中,其含量逐漸積累[3]。當肉的新鮮度降低時,TVB-N含量相應增加,因此該指標能夠客觀量化肉品的新鮮度狀態。測定TVB-N含量的傳統方法為凱氏定氮法,其表現出許多缺點,如效率低、耗時、耗力且具有樣品破壞性,不適合現代肉類工業的現場檢測[4]。因此,有必要建立一種創新、簡單、方便的方法測定牛肉中的TVB-N含量。
近年來,近紅外光譜由于其快速、簡單、準確和無損的優點,在食品領域得到廣泛應用[5。該技術的工作原理為當光線照射到樣品表面時會被吸收,光的吸收主要由樣品化學成分決定。近紅外光譜通過檢測不同樣品之間一CH、一OH和一SH分子鍵振動的變化提供樣品組成的細節[]。通過將近紅外光譜與化學計量學結合分析,預測樣本的新鮮度。
隨著人工智能技術的快速發展,機器學習在石油化工、食品藥品等行業的應用日益廣泛,尤其是在食品新鮮度檢測領域,近紅外光譜技術結合化學計量學方法已成為研究熱點[。然而,盡管現有研究取得了一定進展,但其局限性也日益凸顯,亟需更先進的機器學習方法來解決傳統模型的不足。在食品新鮮度預測方面,盧文超等利用近紅外光譜,通過調整不同預處理方法并與偏最小二乘法組合,建立了一種基于TVB-N含量的小龍蝦新鮮度定量預測模型。劉瑜明等[10為快速測定冷藏豬肉TVB-N含量、pH值和水分含量,利用近紅外光譜技術結合化學計量學方法建立了預測冷藏豬肉TVB-N含量、pH值和水分含量的偏最小二乘模型。方瑤等[]分別采用偏最小二乘法和主成分回歸法建立金鯧魚魚肉TVB-N含量的近紅外光譜預測模型,得到最優模型的預測集決定系數(coefficient of determination of prediction set, Rp2) 為0.884。這些研究證實了基于近紅外光譜技術分析食品新鮮度的可行性。然而,盡管這些研究證實了近紅外光譜技術在食品新鮮度檢測中的潛力,但其采用的機器學習方法多為傳統的基本學習模型,如偏最小二乘法、決策樹、邏輯回歸和線性回歸等。這些方法雖然簡單易用,但在處理復雜數據時存在明顯局限性:首先,它們對異常值較為敏感,容易導致模型性能下降;其次,這些模型的泛化能力較差,難以適應多樣化的實際應用場景;最后,傳統模型在處理高維數據時往往表現不佳,難以捕捉數據中的非線性關系[12]。因此,針對利用近紅外光譜技術預測牛肉新鮮度這一具體問題,亟需引入更先進的機器學習方法,以克服傳統模型的不足。
集成學習作為機器學習的一個分支,通過集成規則將多個弱學習器組合成一個強學習器,彌補單個模型的不足,使集成模型具有更強的泛化能力。因此,集成學習憑借其穩定性強、預測能力強、過擬合少等優點逐漸占據越來越重要的地位[13]。隨機森林(random forest,RF)和自適應提升(adaptiveboosting,AdaBoost)是集成學習的典型算法。RF通過構建多棵決策樹,在訓練過程中引入隨機性,并通過每棵決策樹的平均值預測防正模型過擬合。RF具有抗噪聲能力強、訓練時間短、擅長處理特征較多的高維數據等諸多優點。但當決策樹數量較多時,空間和時間復雜度較高。AdaBoost通過組合多棵決策樹作為弱學習器,充分考慮了每個弱學習器的權重,以此提高模型準確性。但AdaBoost抗噪能力差,容易過擬合[14]。RF和AdaBoost算法各有優劣,單獨使用RF或AdaBoost算法存在一定的局限性。因此,嘗試將集成模型進行結合來解決模型的局限性,進一步提高模型的預測結果。王小藝等[15]以大米的危害物檢測數據為例,提出一種集成改進層次分析算法與極端梯度提升樹算法的食品安全風險預測模型。吳靜珠等[1基于高光譜與集成學習構建玉米種子水分含量的定量模型,通過集成RF和AdaBoost算法的特征提取構建基于加權策略的改進RF預測模型,其 Rp2 達0.793。祁浩浩等[7]選取水分、揮發分、灰分和固定碳含量作為模型輸入,建立煤炭低位發熱量的預測模型。提出將RF算法作為AdaBoost的弱學習器,以提高模型在工業煤質分析中的發熱量預測精度和泛化能力。陳亞麗等[18建立基于RF-極端梯度提升算法的汽油辛烷值損失預測模型,其 Rp2 達0.783。根據這些研究可以得出,當模型的性能難以提高時,可以通過構建組合模型改進。因此,在集成模型二次組合的研究趨勢下,本研究嘗試將準確率高、優缺點互補的RF和AdaBoost算法二次組合成雙集成模型,并結合近紅外光譜預測牛肉新鮮度。然而,RF-AdaBoost算法結合近紅外光譜在牛肉新鮮度預測中仍存在不足。RF的性能很容易受到超參數的影響。超參數是模型的獨特特征,其值無法從數據本身推斷出來。超參數值必須在訓練過程開始之前建立。因此,確定最適合模型的超參數有助于實現更高的預測準確性[19]。本研究采用網格搜索(gridsearch,GS)解決這一問題,GS具有較強的適用性、靈活性和全面性,在參數優化方面具有良好的效果。
因此,本研究提出了一種基于近紅外光譜結合GS-RF-AdaBoost的牛肉新鮮度預測模型。研究的主要內容包括:采集不同牛肉樣品的TVB-N含量和近紅外光譜數據,分別建立牛肉新鮮度的RF和AdaBoost預測模型,隨后將RF和AdaBoost進行結合,將AdaBoost當作框架,通過AdaBoost集成策略將多個RF模型作為弱學習器進行二次集成,以充分發揮RF和AdaBoost2種學習模型的最大效果。然后使用GS優化RF的決策樹數量和最小葉子節點樣本數,解決RF參數選擇困難的問題。將優化后的GS-RF作為弱學習器與AdaBoost算法結合,構建基于近紅外光譜結合GS-RF-AdaBoost的牛肉新鮮度預測模型。并將GS-RF-AdaBoost模型的預測性能與傳統的偏最小二乘回歸(partialleastsquaresregression,PLSR)及RF、AdaBoost和RF-AdaBoost模型的預測性能進行比較,系統考察模型性能,驗證所提方法對牛肉新鮮度預測的有效性。旨在為牛肉新鮮度的快速、無損檢測方法開發提供新的見解,為肉制品的安全、健康發展提供技術支撐。
1 材料與方法
1.1 材料與試劑
牛背最長肌 市購。
硼酸天津大茂化學試劑廠;氧化鎂天津市科密歐化學試劑有限公司;鹽酸西隴科學股份有限公司;甲基紅上海阿拉丁生化科技股份有限公司;亞甲基藍上海麥克林生化科技股份有限公司;無水乙醇 天津富宇精細化工有限公司;以上試劑均為分析純。
1.2 儀器與設備
GN1324電子天平上海民橋精密科學儀器有限公司;K9840半自動凱氏定氮儀山東海能未來技術集團股份有限公司;SupNIR-2700近紅外光譜分析儀 杭州聚光科技股份有限公司。
1.3 方法
1.3.1 樣品準備
將采購的新鮮牛背最長肌放置在4 °C 的保溫箱內并迅速運送到實驗室,以減少運輸過程中外界環境的影響。盡可能去除牛背最長肌表面的筋膜及脂肪組織后,沿著垂直肌纖維方向精確切割成半徑為 40mm 的圓形樣品,共獲得108個有效樣品。將樣品保存在 4°C 條件下,連續6d采集樣本的近紅外光譜及TVB-N含量數據。
1.3.2 近紅外光譜采集
使用近紅外光譜分析儀收集近紅外光譜。將樣品置于 25°C 條件下,使樣品溫度保持在 25°C ,進行光譜掃描。采集光譜前,將光源預熱 30min 。光源為電壓5V、功率10W的鹵鎢燈,檢測器為銦鎵砷。用白板對光譜儀進行校準,以減輕外部環境因素對光譜數據準確性的不利影響。將樣品放置在樣品室中,并從樣品的橫截面表面收集光譜。掃描范圍! 1 000~1 800nm ,光譜分辨率C 1.0±0.3 )nm,吸收模式。為增加肌肉掃描的面積,并盡量減少采樣誤差,每個樣本掃描3次,求平均值,得到最終的光譜數據。
1.3.3 TVB-N含量測定
參考GB5009.228—2016《食品安全國家標準食品中揮發性鹽基氮的測定》中的自動凱氏定氮儀法進行測定。將樣品在絞肉機中攪碎,稱取2g樣品放入消化管中,加入 25mL 去離子水,浸漬 0.5h ,加入1g氧化鎂,放入半自動凱氏定氮儀中,用0.1mol/L鹽酸溶液進行滴定。TVB-N含量按式(1)計算:
式中: V1 為樣品消耗 0.1mol/L 鹽酸溶液的體積 /mL V2 為空白(以等質量去離子水替代樣品)消耗 0.1mol/L 鹽酸溶液的體積 /mL ; c 為鹽酸溶液濃度/(mol/L); ?m 為樣品質量/g。
1.3.4 樣本劃分
在本研究中,通過視覺評估和識別初步排除異常光譜,獲得106組有效的光譜數據,供后續分析使用。采用肯納德-斯通(Kennard-Stone,KS)方法和基于X-Y聯合距離的樣本集劃分(sample setpartitioningbasedon jointX-Ydistance,SPXY)算法將樣本按約3:1的比例劃分為校正集和預測集。使用校正集(80個樣本)建立校正模型,使用預測集(26個樣本)評估模型的預測能力。
1.3.5 模型構建
1.3.5.1 RF
RF是一種集成學習算法,是基于決策樹模型的自助采樣(Baggin)模型[20]。RF由各種單獨的決策樹組成,這些決策樹作為一個集成運行。本研究設置35棵決策樹,將最小葉子節點的樣本數設置為2。每棵樹的數據集從全部數據中隨機抽取,且樹的特征也是隨機選擇。這種隨機化有助于減少過擬合并提高模型的泛化能力[21]。RF算法可以對每個預測變量的相對重要性進行排名。變量重要性基于袋外數據的回歸預測誤差(out-of-bagerror,OOBError),OOBError用于評估模型性能。在預測時,RF將每棵決策樹的預測結果平均,從而得到最終預測結果。
1.3.5.2 AdaBoost
AdaBoost算法是Boosting集成算法的成功代表之一。AdaBoost算法的思想是合并多個依賴的弱學習器的輸出[22]。典型的AdaBoost是將決策樹作為弱學習器。AdaBoost通過迭代糾正它們的錯誤、增強它們的能力,有效解決了弱學習器的局限性。AdaBoost每次迭代訓練添加1個弱學習器,并增加在上次迭代中回歸錯誤樣本的權重[23]。本研究將迭代次數設置為10,通過整合迭代過程,AdaBoost將這些最初的弱模型轉換為強模型。為創建一個穩健的最終模型,使用加權投票方案將多個弱學習器組合在一起。每個弱學習器的權重反映其對整個模型準確性的貢獻。通過這種方式,AdaBoost生成最終輸出模型,從而得到最終結果。
1.3.5.3 RF-AdaBoost
RF-AdaBoost集成模型是指通過AdaBoost將多個RF模型作為弱學習器進行集成。RF屬于基于決策樹的Bagging集成算法,而AdaBoost屬于基于決策樹的Boosting集成算法。RF-AdaBoost本質上是使2種集成策略協同工作,并通過Boosting策略不斷改進Bagging,以實現時間長度和可擴展性的優勢互補[24]。RF模型精度高、抗過擬合能力強、抗噪聲能力好。但當決策樹數量較多時,空間和時間復雜度較高。AdaBoost模型準確率高,弱學習器結構簡單,易于理解,但抗噪能力差[25]。因此將準確率高、優缺點互補的2種模型結合起來,成為一個新的強模型,從而充分發揮RF和AdaBoost2種學習模型的最大效果。本研究設置35棵決策樹、最小葉子節點的樣本數為2、迭代10次作為RF-AdaBoost模型的參數,以最大限度提高模型的效率和預測性能。
1.3.5.4 GS-RF-AdaBoost
GS是一種確定模型最適合超參數的方法,通過使用所有可能的設置自動訓練模型識別最佳超參數配置[26]。利用GS優化RF的最優決策樹數量和最優最小葉子節點的樣本數,以提高RF的準確率。本研究將決策樹數量范圍設置為 ?0~35 ,每隔7棵決策樹取1次;將最小葉子節點的樣本數范圍設置為 0~10 ,每隔2個選取1次。以GS-RF模型作為弱分類器,使用AdaBoost算法迭代訓練10個GS-RF模型,從而提高GS-RF的準確率,構建GS-RF-AdaBoost狀態預測模型。
1.3.6 模型評價
為了評估模型的性能和準確性,需采用特定的參數進行評估。在本研究中,通過校正集均方根誤差(rootmeansquareerrorofcorrectionset,RMSEC)、預測集均方根誤差(root mean square error of prediction set,RMSEP)、校正集決定系數( R -squareof correctionset, Rc2 )、 Rp2 、校正集相關系數(correlationcoefficientof correction set, Rc )、預測集相關系數(correlationcoefficient of prediction set, Rp )、校正集殘差預測偏差(residual prediction deviation of correction set,RPDc )和預測集殘差預測偏差(residualpredictiondeviation ofprediction set, RPDp )綜合評價定量分析模型的性能。RMSEC、RMSEP越小, Rc2 、 Rp2 、 Rc 和 |Rp 越接近1, RPDc 、 RPDp 越高,模型的預測效果越好[27]。RMSEC、RMSEP、 Rc2 , Rp2, Rc Rp , RPDc , RPDp 分別按式 (2)~(5) 計算:




式中: n 為樣本數; ym 為實際測量值/ (mg/100g) ;yp 為模型預測值/ (mg/l00g) ;SD為測量值的標準差。
1.4 數據處理
使用MATLAB(versionR2022b)軟件對光譜數據進行分析、對模型進行評價。使用Origin2021軟件繪圖。
2 結果與分析
2.1 不同貯藏時間牛肉樣品的TVB-N含量分析
由圖1可知,樣品的TVB-N含量隨貯藏時間的延長而增加。這是由于牛肉中的酶或微生物降解蛋白質,產生氨、胺類等揮發性含氮物質,導致TVB-N含量相應增加。本研究中,雖然貯藏第 2~5 天樣品的TVB-N含量分布相對集中,但整個貯藏期間,樣品整體分布離散,適合建立牛肉TVB-N含量的預測模型[28]。
圖1不同貯藏時間牛肉樣品TVB-N含量的變化Fig.1 ChangeinTVB-Ncontent ofbeef samplesatdifferentstorage times

2.2 近紅外光譜分析
由圖2可知,不同貯藏時間樣品的光譜變化趨勢相同,但光譜吸收強度不同,主要是因為冷藏過程中,樣品的核心化學物質發生分解。樣品近紅外光譜吸光度與TVB-N含量呈負相關,這可能是由于蛋白質降解過程中產生氨和胺,這些有機化合物影響肉的光吸收性能,導致吸光度逐漸下降[29]。波長 1 184~1 231nm 處的吸收峰主要與C一H和S—H拉伸振動的第二泛音有關[30]。此外,波長1 272~1 323nm 處識別的吸收峰與分子間和分子內氫鍵的O—H伸縮振動有關[31]。波長 1434~1546nm 處觀察到的寬吸收峰可能與蛋白質和氨基酸殘基等有機化合物的酰胺III和II譜帶的N—H和C—N伸縮振動有關[32]。這些結果表明,近紅外光譜提供了豐富的與TVB-N含量變化相關的分子化學信息。然而,由于近紅外光譜中存在明顯重疊,利用近紅外光譜準確預測牛肉的TVB-N含量仍具有挑戰性[33]。
圖2 牛肉樣品的原始近紅外光譜Fig.2 RawNIR spectra of beef samples

2.3 樣本劃分方法的確定
如表1所示,對于KS、SPXY2種樣本劃分方法,校正集與總集的TVB-N含量最大值和最小值相同,均為37.10、 4.55mg/100g ,且預測集的范圍包括在校正集內。但利用SPXY法劃分樣本的預測集范圍較窄,僅為 17.04~23.45mg/100g ,這可能會削弱模型的泛化能力,增加過擬合風險,從而影響評估的準確性[34]。同時,相較于利用KS劃分樣本,利用SPXY法劃分樣本的校正集和預測集的牛肉TVB-N含量平均值和標準差的差異更大,這也說明利用SPXY法劃分樣本的數據分布不合理。不同樣本劃分方法的差異主要由樣本劃分方法的設計目標和數據分布特性導致。因此,選擇KS法劃分牛肉樣本。
表1牛肉樣品TVB-N含量的統計結果 Table1 Statistical resultsofTVB-Ncontentinbeefsamples

2.4 RF模型預測結果
在RF模型中,OOBError是評估變量重要性和模型特征的重要指標[35]。由圖3A可知,隨著決策樹數量的增多,OOBError減小且下降趨勢逐漸平緩。在6棵決策樹后,OOBError開始緩慢減少;在 6~15 棵時,結果輕微波動;在15棵后,結果基本趨于穩定,OOBError在0.014左右。這可能是由于決策樹較少時,每個決策樹模型隨機,導致OOBError較大,但隨著決策樹數量的不斷增加,RF模型的穩定性也隨之增加,使OOBError逐步穩定。RF模型的具體內部決策過程不透明、難以解釋[36],變量重要性得分能夠可視化RF模型的特征變量。如圖3B所示,絕大多數變量的重要性得分在0.17左右, 1 000~1 136 、 1 317~1 390 、 1462~1524nm 處重要性得分較高,重要性得分越高,則表明該波段的預測能力越強。由圖3C可知,該模型的測量值與預測值偏差較小,大部分數據點均圍繞對角線分布,模型的R為0.9008,RMSEP為1.9756,模型效果不太理想。
圖3基于近紅外光譜的牛肉TVB-N含量RF模型預測結果 Fig. 3 PredictionofTVB-NcontentinbeefbyRFmodelbasedon NIRspectra

2.5 AdaBoost模型預測結果
本研究的AdaBoost模型設置了10次迭代,因此共由10個弱學習器組成。由圖4A可知,每個弱學習器的平均絕對誤差相差較大,這可能是由于決策樹的預測能力較差,被錯誤預測的樣本更多,這些樣本會以更高的權重進入下一次迭代過程中,從而影響弱學習器的絕對誤差[37]。強學習器的平均絕對誤差為1.5951。其中共6個弱學習器的平均絕對誤差高于強學習器,分別為2.6495、2.6579、2.1168、1.9081、2.2825和2.2841。這種現象證明AdaBoost通過加權組合動態調整樣本權重,能夠有效降低整體誤差。強學習器的性能優于部分弱學習器,這是AdaBoost算法的優勢所在。如圖4B所示,弱學習器的絕對誤差是10棵決策樹預測誤差的平均值,每個預測集樣本的強學習器絕對誤差均小于弱學習器,表明近紅外光譜結合AdaBoost模型通過集成弱學習器可以更準確地預測牛肉的TVB-N含量。由圖4C可知,AdaBoost模型的R為0.8939,RMSEP為2.0429。
圖4 基于近紅外光譜的牛肉TVB-N含量AdaBoost模型預測結果 Fig.4 PredictionresultsofbeefTVB-NcontentbyAdaBoostmodel based on NIR spectra

A.強、弱學習器的平均絕對誤差;B.強、弱學習器預測值絕對誤差;C.測量值和預測值擬合圖。圖5同。
2.6 RF-AdaBoost模型預測結果
RF模型和傳統的AdaBoost模型在進行預測時會受到較大異常值和噪聲值等的影響,導致其預測精度較低。現將AdaBoost作為模型框架,將傳統AdaBoost的決策樹改為預測能力更強的RF作為弱學習器,RF的決策樹數量仍設置為35,最小葉子節點的樣本數仍設置為2,建立RF-AdaBoost模型,從而優化近紅外光譜的牛肉TVB-N含量預測模型。由圖5A可知,每個弱學習器的平均絕對誤差相差較小,強學習器的平均絕對誤差為1.3003,弱學習器的平均絕對誤差略高或略低于強學習器,這是由于將RF作為弱學習器時,每個弱學習器的預測效果好,每次迭代中被錯誤預測的樣本減少。RF-AdaBoost的平均絕對誤差低于AdaBoost,這是因為RF-AdaBoost結合了RF和AdaBoost的優點,能夠更好地平衡偏差和方差,減少過擬合,并提升模型的魯棒性和泛化能力。如圖5B所示,預測集樣本弱學習器的絕對誤差高于強學習器,且強、弱學習器的絕對誤差基本相同,這證明將RF作為AdaBoost的弱學習器可以增強模型的預測效果。如圖5C所示,利用近紅外光譜與RF-AdaBoost結合對牛肉TVB-N含量的預測結果與測量結果更加一致, Rc2 達0.9576, Rp2 達0.9133,比單獨的RF模型和AdaBoost模型的 Rp2 更高,進一步證明近紅外光譜結合RF-AdaBoost模型的預測能力更強。
圖5 基于近紅外光譜的牛肉TVB-N含量RF-AdaBoost模型預測結果 Fig.5 PredictionresultsofbeefTVB-NcontentbyRF-AdaBoost modelbasedonNIRspectra

2.7 GS-RF-AdaBoost模型預測結果
通過GS算法對RF的決策樹數量和最小葉子節點的樣本數進行調節,進而優化RF以提高其性能,然后再與AdaBoost進行集成,從而組成更強的強學習器,進一步提高模型的預測能力。根據最小交叉驗證均方根誤差確定最優參數組合。由圖6A可知,決策樹的數量為35且最小葉子節點的樣本數為6時,RMSEC最小。為了可視化展示基于GS-RF-AdaBoost模型的預測能力,如圖6B所示,其預測值與測量值非常接近,表明GS-RF-AdaBoost模型能較好地反映近紅外光譜與牛肉TVB-N含量之間的關系,具有優良的泛化能力。測量值和預測值的擬合結果進一步驗證了這一點,如圖6C所示,所有數據點均在 x=y 線附近,表明預測值和測量值的偏差較小, Rc2 為0.9526,RMSEC為1.6958, Rp2 為0.9238,RMSEP為1.7311。結果表明,GS-RF-AdaBoost方法更適用于結合近紅外光譜對牛肉的TVB-N含量進行預測。

2.8 不同模型預測性能分析
為了更加直觀地對比不同模型在近紅外光譜技術預測牛肉TVB-N含量上的有效性,本研究將傳統PLSR模型與RF、AdaBoost、RF-AdaBoost、GS-RF-AdaBoost模型進行對比。如表2所示,利用近紅外光譜建立的PLSR模型對牛肉樣品預測結果的 Rp2 為0.772, RPDp 為2.502,預測效果不太理想。這可能是由于PLSR模型在處理高維數據時難以捕捉數據中的非線性關系。RF-AdaBoost預測集的RPD,為4.060,RF和AdaBoost的RPD,分別為3.795和3.670,RF-AdaBoost模型的預測效果優于單一RF模型和單一AdaBoost模型。可見,在基于近紅外光譜的牛肉TVB-N含量預測方面,雙集成模型優于單一集成模型。這可能是由于RF-AdaBoost模型集成了RF和AdaBoost的優點,使其成為具有更強擬合能力的強學習器,進而提升了模型的預測精度。綜合考量RMSEC、RMSEP、Rc2 一、 Rp2 、 Rc, Rp 1 RPDc 、 RPDp 等指標,可以看出GS-RF-AdaBoost是近紅外光譜預測牛肉TVB-N含量的最優模型,其RMSEP最低為1.731, Rp 、 Rp2 、 RPDp 均最高,分別為0.969、0.924和4.331。這是由于采用GS對RF進行優化,提高了RF的預測能力,然后采用GS-RF模型作為AdaBoost的弱學習器,使弱學習器的預測能力增強,再經過迭代,強學習器的預測能力愈發提高,導致模型的預測效果更加準確。各模型RMSEC、RMSEP、 Rc2 、Rp2 , Rc 、 Rp. , RPDc 、 RPDp 優劣表現為:PLSR模型 lt; RF模型 lt; AdaBoost模型 lt; RF-AdaBoost模型 lt; GS-RF-AdaBoost模型。因此,近紅外光譜結合GS-RF-AdaBoost模型具有更強的預測能力和更好的泛化能力,對牛肉TVB-N含量的預測結果與測量結果更一致。
表2基于近紅外光譜的牛肉TVB-N含量不同模型預測結果對比 Table2 Comparisonofpredictionresultsofdifferentmodelsfor TVB-Ncontent inbeef based onNIR spectra

3結論
本研究提出了一種基于近紅外光譜結合GS-RF-AdaBoost綜合學習模型的牛肉TVB-N含量預測模型。單獨的RF和AdaBoost模型對近紅外光譜預測牛肉TVB-N含量的效果不佳。為進一步提高預測的準確性和穩定性,將RF作為AdaBoost的弱學習器,結合這2個模型的優勢, Rp2 可達0.913,增強了模型的泛化能力和抗過擬合能力。但由于RF有多個參數,調參過程相對繁瑣。因此,本研究采用GS對RF的超參數進行優化,以提高模型的預測能力。以GS-RF模型作為弱分類器,采用AdaBoost算法進行訓練,該模型的RMSEP低至1.731, Rp2 達0.924。通過各種統計指標評估PLSR、RF、AdaBoost、RF-AdaBoost和GS-RF-AdaBoost這5種模型的可靠性,經比較得出,近紅外光譜結合GS-RF-AdaBoost模型具有最好的預測效果。本研究提出的方法能夠有效預測牛肉TVB-N含量,可作為食品工業中精確檢測豬肉新鮮度的潛在工具,為現代肉類加工業的快速、無損現場檢測提供了可行的解決方案和理論依據。未來還需要更大量、范圍更廣的樣本進一步提高模型的適用性,將該方法應用到更廣泛的實際問題中。
參考文獻:
[1] LIUH, ZHUWY,ZHANGN, etal.Rapid assessment of the quality attributesof beefMusculus longissimus lumborum during chilled storageusingfluorescence spectraexcitedat 340nm[J] .Food Control, 2023,152:109881.DOI:10.1016/j.foodcont.2023.109881.
[2] 左曉佳,再努熱·吐爾孫.肉品新鮮度評價及保鮮技術研究進展[J]. 肉類研究,2023,37(12):69-75.D0I:10.7506/rlyj1001-8123- 20231213-112.
[3] QUFF,REND,HE Y, etal.Predictingpork freshnessusingmultiindex statistical information fusion method based on near infrared spectroscopy[J].Meat Science,2018,146:59-67.DOI:10.1016/ j.meatsci.2018.07.023.
[4] LENG T,LIF,CHENY,etal.Fast quantification of total volatile basicnitrogen(TVB-N) contentinbeefand porkbynear-infrared spectroscopy: comparison of SVR and PLS model[J].Meat Science, 2021,180:108559.DOI:10.1016/j.meatsci.2021.108559.
[5] 田文強,王巧華,徐步云,等.基于近紅外光譜的腌制期咸鴨蛋理 化指標無損檢測[J].食品科學,2023,44(2):319-326.DOI:10.7506/ spkx1002-6630-20220429-384.
[6] 李晉,張琛,劉紅,等.近紅外光譜聯合化學計量學在柑橘類水果質 量無損檢測方面的最新研究及應用進展[J].食品與發酵工業,2024, 50(5):367-379.DOI:10.13995/j.cnki.11-1802/ts.037981.
[7] CEBIN,DURAKMZ,TOKEROS,etal.An evaluationofFourier transforms infrared spectroscopy method for the classification and discrimination of bovine,porcine and fish gelatins[J].Food Chemistry, 2016,190:1109-1115.D0I:10.1016/j.f00dchem.2015.06.065.
[8] CAFFERKYJ,SWEENEYT,ALLENP,etal. Investigating theuseof visible and near infrared spectroscopy to predict sensory and texture attributesofbeefM.longissimusthoraciset lumborum[J].Meat Science,2020,159:107915.D01:10.1016/j.meatsci.2019.107915.
[9] 盧文超,邱亮,熊光權,等.近紅外光譜技術快速檢測小龍蝦新鮮 度[J].肉類研究,2022,36(6):36-41.DOI:10.7506/rlyj1001-8123- 20220311-017.
[10] 劉瑜明,王巧華,陳遠哲,等.豬肉理化指標的近紅外光譜無損檢測[J]. 光譜學與光譜分析,2024,44(5):1346-1353.
[11] 方瑤,謝天鏵,郭渭,等.基于近紅外光譜的金鯧魚新鮮度快速 檢測技術[J].江蘇農業學報,2021,37(1):213-218.DOI:10.3969/ j.issn.1000-4440.2021.01.028.
[12] 馮靜達,焦學軍,李啟杰,等.基于心率和呼吸特征結合的睡眠分期 研究[J].航天醫學與醫學工程,2020,33(2):152-158.DOI:10.16289/ j.cnki.1002-0837.2020.02.009.
[13] 鄒其.基于CNN與集成學習的近紅外光譜分析模式識別研究[D]. 張家口:河北建筑工程學院,2023.D0I:10.27870/d.cnki. ghbjz.2023.000086.
[14] 王映昀,馬蕓蕓,楊冕清,等.基于高光譜成像技術和自適應增強網 絡的水蜜桃產地溯源[J].食品安全質量檢測學報,2024,15(23):77- 87.DOI:10.19812/j.cnki.jfsq11-5956/ts.20241009001.
[15]王小藝,王姿懿,趙崎堯,等.集成改進AHP與XGBoost算法的食品 安全風險預測模型:以大米為例[J].食品科學技術學報,2022,40(1): 150-158.
[16] 吳靜珠,張樂,李江波,等.基于高光譜與集成學習的單粒玉 米種子水分檢測模型[J].農業機械學報,2022,53(5):302-308. DOI:10.6041/j.issn.1000-1298.2022.05.031.
[17] 祁浩浩,茅大鈞,陳思勤.基于改進自適應增強算法的混煤發熱量 預測方法[J].電力科學與工程,2024,40(6):69-78.
[18] 陳亞麗,茍苗苗,邵露娟,等.基于RF-XGBoost算法的汽油辛烷值損 失預測模型[J].煉油技術與工程,2021,51(12):49-53.
[19] 周宇坤,陳孝敬,謝忠好,等.一種近紅外光譜數據預處理組合優 化策略[J].光譜學與光譜分析,2025,45(1):52-58.DOI:10.3964/j.is sn.1000-0593(2025)01-0052-07.
[20] TEJEDOR V, VOITURIEZ R, BENICHOU O. Optimizing persistent random searches[J]. Physical Review Letters,2012,108(8): 088103. DOI:10.1103/PhysRevLett.108.088103.
[21] EVERINGHAMY,SEXTONJ, SKOCAJ D, et al. Accurate predictio of sugarcane yield using a random forest algorithm[J].Agronomy for Sustainable Development,2016,36(2): 27.DOI:10.1007/s13593-016- 0364-z.
[22] 侯娟,周為峰,樊偉,等.基于集成學習的南太平洋長鰭金槍 魚漁場預報模型研究[J].南方水產科學,2020,16(5):42-50. DOI:10.12131/20200022.
[23] 鄧彬,林宏,黃穎祺,等.基于加權決策樹算法的調度指令風險 評估方法[J].電子設計工程,2022,30(16):10-16.DOI:10.14022/ j.issnl674-6236.2022.16.003.
[24] LING JX,SUN W,HUO J Z, et al. Study of TBM cutterhead fatigue crack propagation life based on multi-degree of freedom coupling system dynamics[J].Computersamp; Industrial Engineering,2015,83: 1-14.DOI:10.1016/j.cie.2015.01.026.
[25] JARI A, BACHAOUI E M, HAJAJ S, et al. Investigating machine learning and ensemble learning models in groundwater potential mapping inarid region: case study from Tan-Tan water-scarce region, Morocco[J].Frontiers inWater,2023,5:1305998.DOI:10.3389/ frwa.2023.1305998.
[26] LANCF,SONG B W,ZHANG L,et al. State predictionof hydroturbinebased on WOA-RF-Adaboost[J].Energy Reports,2022,8: 13129-13137. DOI:10.1016/j.egyr.2022.09.142.
[27] 王冬,欒云霞,王欣然,等.近紅外光譜無損分析肉類品質的研究 進展[J].肉類研究,2024,38(5):61-70.DOI:10.7506/rlyj1001-8123- 20240513-118.
[28]LI HH,CHENQS,ZHAOJ W, et al.Nondestructive detection oftotal volatile basicnitrogen(TVB-N) contentin pork meatby integrating hyperspectral imaging and colorimetric sensor combined witha nonlinear data fusion[J].LWT-Food Science and Technology, 2015,63(1): 268-274. DOI:10.1016/j.lwt.2015.03.052.
[29] YU H D,QING L W, YAN D T, et al. Hyperspectral imaging in combination with data fusion for rapid evaluation of Tilapia filet freshness[J].Food Chemistry,2021,348:129129.DOI:10.1016/ j.foodchem.2021.129129.
[30] GRASSI S,JOLAYEMI O S, GOVENZANA V, et al. Near infraed spectroscopyasagreen technology for thequalitypredictionof intact olives[J].Fo0ds,2021,10(5):1042.DOI:10.3390/fo0ds10051042.
[31] SHI C,QIAN JP, ZHU WY, et al. Nondestructive determination of freshnessindicatorsfortilapia filletsstored atvarious temperatures by hyperspectral imaging coupled with RBF neural networks[J]. Food Chemistry,2019,275: 497-503.DOI:10.1016/j.foodchem.2018.09.092.
[32] DONGFJ,HAOJ,LUORM,etal.Identificationof theproximate geographical origin of wolfberries by two-dimensional correlation spectroscopy combined with deep learning[J].Computers and Electronics in Agriculture,2022,198:107027.DOI:10.1016/ j.compag.2022.107027.
[33] GUOMQ,LINH,WANGKQ,etal.Datafusionof near-infrared and Raman spectroscopy:an innovative tool for non-destructive prediction ofthe TVB-Ncontent of salmon samples[J].Food Research International,2024,189:114564.DOI:10.1016/j.foodres.2024.114564.
[34] ZUO JW, PENG Y K, LI Y Y, et al. Nondestructive detection of nutritional parameters of pork based on NIR hyperspectral imaging technique[J].Meat Science,2023,202:109204.DOI:10.1016/ j.meatsci.2023.109204.
[35] PROBST P, WRIGHT M N, BOULESTEIX A L. Hyperparameters and tuning strategies for random forest[J].Wiley Interdisciplinary Reviews:DataMiningandKnowledgeDiscovery,2019,9(3):e1301. DOI:10.1002/widm.1301.
[36] 孫曉榮,鄭冬鈺,劉翠玲,等.小麥粉品質在線無損快速檢測系統 設計與實現[J].食品與機械,2022,38(12):87-91.DOI:10.13652/ j.spjx.1003.5788.2022.80152.
[37] 孫康慧,肖安,夏侯杰.基于LightGBM機器學習算法的江西氣溫短 期預報模型研究[J].高原氣象,2024,43(6):1520-1535.