瞿孝云 肖興寧 肖英平 劉元杰 楊 力 張建民 楊 華汪 雯
(1.華南農業大學,人獸共患病防控制劑國家地方聯合工程實驗室,農業農村部人畜共患病重點實驗室,廣東省動物源性人獸共患病預防與控制重點實驗室,廣州510642;2.浙江省農業科學院農產品質量安全與營養研究所,農產品質量安全危害因子與風險防控國家重點實驗室,農業農村部農產品質量安全風險評估實驗室(杭州),杭州310021;3.中國農業大學信息與電氣工程學院,農業農村部農業信息獲取技術重點實驗室,現代精細農業系統集成研究教育部重點實驗室,北京100083;4.中國計量大學信息工程學院,杭州310018)
沙門氏菌(Salmonel l a)是人畜共患的革蘭氏陰性病原菌。據統計,我國70%~80%的細菌性食物中毒是由沙門氏菌引起,每年病例約820萬[1]。肉雞是沙門氏菌的常見宿主,屠宰過程中的宰殺、瀝血、浸燙、掏膛、內腔淋洗、預冷清洗等環節是造成產品污染的重要環節,據報道,我國屠宰環節的雞肉沙門氏菌污染率高達62.9%[2]。本課題組前期基于模擬實驗數據,構建了多元非線性回歸沙門氏菌污染率預測模型,但傳統的回歸模型需對變量進行組合或剔除,易造成高維數據擬合的信息缺失,較難實現多維數據下的精準預測[3~4]。機器學習算法可從海量、復雜的數據中深度學習找到關鍵信息和變量之間的隱藏關系[5]。當前,我國大型肉雞屠宰場引入了自動化系統,該系統運行積累了大量的溫度、濕度、預冷水氯濃度等傳感器檢測數據,屠宰場日常微生物檢測也積累了大量的細菌污染率數據。基于屠宰場監測數據,利用機器學習算法構建沙門氏菌污染率風險分析模型,對保障產品安全具有重要意義。
分類型機器學習算法是通過構建模型對數據進行分類,學習數據在構建模型的過程中起著重要的作用[6]。基于樣本數據量的差異,支持向量機、樸素貝葉斯和神經網絡模型被廣泛應用于非線性問題的預測中。支持向量機和樸素貝葉斯算法適合解決小樣本數據量問題。支持向量機通過超平面的邊界將數據劃分為具有近似值的組,對于非線性問題,通過線性核、多項式核、S形核、徑向基核函數等核函數來解決[7~8]。樸素貝葉斯是通過比較測試樣本各類別的條件概率進行預測[9]。神經網絡是模擬生物神經系統,通過確定節點及節點之間關系以進行預測,其并行分布處理能力強,適合解決大樣本數據量問題[10~11]。
本研究分別基于支持向量機、樸素貝葉斯和神經網絡3種機器學習算法,建立以日屠宰量、環境溫度、環境濕度、宰前污染率、浸燙環節交叉污染、掏膛環節交叉污染、預冷水氯濃度為輸入值,肉雞宰后污染率為輸出值的肉雞宰后沙門氏菌污染率預測模型,并通過隨機森林算法對最優模型進行敏感性分析,為微生物污染率風險預警提供模型基礎。
(一)數據來源
1.環境參數和加工參數。本課題組于2016-2019年在廣州某家禽屠宰企業進行了數據收集。日屠宰量數據來源于現場調研;環境溫濕度數據來源于生產線溫濕度傳感器的監測;預冷水氯濃度數據來源于有效氯測定儀對每小時預冷水氯濃度的監測,結果詳見表1。
2.沙門氏菌污染率檢測。(1)主要實驗儀器。QHZ-98A/QHZ-98B全溫振蕩培養箱(太倉市華美生化儀器廠);SHP-250生化培養箱(上海精宏實驗設備有限公司);SYN-K電熱恒溫水浴鍋(北京長風儀器廠);5424R高速冷凍離心機(德國Eppendorf公司);PTC-200 PCR擴增儀(美國MJ ReSearch公司);SBD-50水浴搖床(美國MJ Re-Search公司);Gel Doc XR凝膠成像系統(美國Bio-Rad公司);Power Pac universal TM核酸電泳儀(美國Bio-Rad公司)。(2)沙門氏菌的分離培養與鑒定。每月分別采集肛拭子、浸燙后、掏膛后、預冷后雞胴體各20份,共30個月。按照GB/T 4789.4-2016《食品安全國家標準 食品微生物學檢驗 沙門氏菌檢驗》規定,經過預增菌、增菌、劃線、純化、鑒定等步驟進行沙門氏菌鑒定。污染率檢測結果見表1。
3.宰后肉雞沙門氏菌污染率分類。我國針對鮮(凍)畜禽產品(GB 2707-2016)和畜禽屠宰加工(GB 12694-2016)的國家標準均未考慮微生物指標。美國和歐盟制定了雞肉產品沙門氏菌污染率限量標準,要求宰后雞胴體中沙門氏菌的污染率不得超過15.4%和9.8%[2]。參考歐美沙門氏菌限量標準,定義宰后污染率變化范圍<10%的數值為標簽“0”,即低污染風險;宰后污染率變化范圍≥10%且<15%的數值為標簽“1”,即中污染風險;宰后污染率變化范圍≥15%的數值為標簽“2”,即高污染風險(見表1)。

表1 肉雞屠宰環節的數據變量
(二)污染率預測模型構建
1.支持向量機。支持向量機(Support vector machine,SVM)是一種監督學習算法,具有強大的分類鑒別能力。SVM算法通過構造一個(n-1)維的分離超平面來區分n維空間中的2個類,該超平面把輸入數據轉換到高維空間,生成一個n維向量,并且最大化2個數據組之間的余量來對不同類別進行最優分離。訓練數據集設置見公式(1)[13]。

公式(1)中,zi為第i個輸入特征向量,所有描述系統狀態的輸入特征向量組成z;yi為第i個樣本的分類標識,yi∈{-1,1};l為樣本數;n為向量空間維數,求解最優分類超平面[14]。
2.樸素貝葉斯。樸素貝葉斯建立在貝葉斯決策理論和貝葉斯網絡的基礎上,屬于監督學習。算法主要分為2個階段:第1階段,對實驗樣本進行分類,分別計算不同條件下的概率;第2階段,輸入測試樣本,計算不同條件的概率,比較其概率大小,從而完成對測試樣本的分類。訓練數據集設置見公式 (2)[15]。

公式(2)中,X={x1,x2,...,xn}表示包含不同特征屬性的屠宰環節輸入參數特征集;Y={y1,y2,...,yn}表示不同宰后污染率集合。
3.神經網絡。人工神經網絡由大量的節點相互連接構成。每個節點代表一種特定的輸出函數,稱為激活函數。每2個節點間的連接都代表一個對于通過該連接信號的加權值,稱為權重。網絡的輸出則依據網絡的連接方式、權重值和激活函數的不同而不同[16]。本研究采用的是反向傳播人工神經網絡,應用tan h激活函數,神經網絡的結構如圖1所示。

圖1 神經網絡結構
(三)模型評價利用SAS軟件的“預測建模”模塊進行支持向量機、樸素貝葉斯和神經網絡建模。誤分類率(Error rate,ER)表示被分類器錯誤分類的元組所占百分比,反映了分類器對各類元組的正確識別情況,可通過混淆矩陣來計算。受試者工作特征曲線(Receiver operating characteristic curve,ROC)是以靈敏度為縱坐標,“1-特異度”為橫坐標繪制的曲線,若曲線下面積(Area under the curve,AUC)越接近于1,則模型的預測性能越好。均方根誤差(Root mean square error,RMSE)是用來衡量觀測值同實際值之間的偏差。采用ER、AUC和RMSE指標來評價模型預測精度,其中ER和RMSE越小,A UC越大,表示模型預測精度越高[17]。
(四)風險敏感性分析預測模型中各解釋變量對目標變量的影響存在差異,隨機森林算法可衡量單一解釋變量對目標特征的敏感性,根據逐一移除變量后模型準確性的降低程度來衡量變量重要性[18]。基于SAS軟件的隨機森林算法對日屠宰量、環境溫度、環境濕度、宰前污染率、浸燙環節交叉污染、掏膛環節交叉污染、預冷水氯濃度等因素進行重要度排序。
(一)模型評估與比較支持向量機模型對訓練數據集的擬合能力較好(AUC>0.7,ER=23.8%,RMSE=0.42)(見表2和圖2)。樸素貝葉斯和神經網絡模型的AUC值較低,模型的預測效果一般,存在欠擬合風險(見表2)。研究發現,支持向量機在解決小樣本、非線性、高維的數據預測問題上有很大優勢,在解決分類問題方面表現出色[13]。袁彥彥和王興芬[19]基于21條實驗數據量,比較了支持向量機與神經網絡模型對速凍水餃變溫冷藏的貨架期的預測效果,發現支持向量機模型的預測結果更能接近實際情況。在疾病風險預測方面,ALMANSOUR等[20]分別使用支持向量機和神經網絡來分類4種腎臟疾病,結果發現,支持向量機方法的準確率高達76.32%,并且處理時間相比神經網絡縮短一半以上。支持向量機模型的最終決策函數由少數的支持向量所確定,結果不易受到模型中存在的數據擾動、噪聲及離群點的影響[14]。神經網絡更適用于大樣本量的數據集,計算結果受初值影響大,系統訓練需要較長的時間。系統訓練不穩定,當學習速率過大時,權值在修正過程中會超出誤差的最小值而永不收斂[13]。

表2 3種機器學習算法統計分析結果

圖2 支持向量機模型訓練集(A)及驗證集(B)ROC曲線
(二)風險敏感性分析隨機森林算法分析重要度發現,影響宰后污染率的關鍵因素依次為環境溫度、環境濕度、宰前污染率、掏膛環節交叉污染、預冷水氯濃度、浸燙環節交叉污染、日屠宰量(見圖3)。HWANG等[21]采用隨機森林算法研究發現,環境溫度、濕度是影響肉雞污染率的關鍵因素。據報道,微生物檢測結果易受季節變化的影響,研究發現,夏季肉雞沙門氏菌污染率顯著高于其他季節,可能是由于沙門氏菌在高溫、低濕的環境下抗性較強[20]。XIAO等[12]基于斯皮爾曼相關性分析,發現宰前污染程度和屠宰環節預冷水消毒劑濃度是影響肉雞沙門氏菌患病風險的關鍵因素。因此,通過加強屠宰環境溫濕度的控制、屠宰過程適當添加殺菌劑等措施可有效降低宰后的沙門氏菌污染率。

圖3 影響宰后污染率的關鍵因素排序
在細菌污染率的分類預測研究中,機器學習方法的應用是一個重要的研究方向。如HWANG等[21]基于溫度、濕度、風速、降雨量等83個氣象變量監測數據,通過隨機森林算法構建了養殖環節沙門氏菌的污染率預測模型。肖興寧等[3]建立了初始污染率、初始污染水平、次氯酸鈉濃度為顯著影響因素的廣義回歸神經網絡污染率預測模型。在算法優化方面,機器學習的集成算法可將多個單一算法集成在一起,減少模型的不確定性和誤差,使得機器學習的效果更好,如聚合多個分類或回歸模型的Stacking算法,可考慮應用機器學習算法的集成來預測細菌污染率[22]。
機器學習的各類算法,本質在于提取特征和標記的相互關系,因此對于特征和標記的質量要求較高。特征和標記的質量越高,其算法的分類效果越好[23]。算法比較依賴輸入數據的質量,由此可見,機器學習在微生物污染風險分析中的應用效果與相關指標檢測技術的發展息息相關。沙門氏菌的傳統檢測方法有菌落培養和計數、聚合酶鏈式反應,但是其制樣過程復雜、耗時,無法應用于實時檢測。生物傳感器分析技術與傳統的檢測方法相比具有選擇性好、靈敏度高、分析速度快等優點[24]。因此,在現有的溫度、氯濃度等物理和化學傳感器的基礎上,結合微生物快速檢測生物傳感器,通過數據無線傳輸技術,可實現沙門氏菌污染率的實時風險分析和預警。
本研究以日屠宰量、環境溫度、環境濕度、宰前污染率、浸燙環節交叉污染、掏膛環節交叉污染、預冷水氯濃度為輸入值,肉雞宰后污染率為輸出值分別構建了支持向量機、樸素貝葉斯和神經網絡模型,支持向量機模型對沙門氏菌污染率風險預測效果優于其他2種模型。敏感性分析表明,環境溫濕度是影響宰后污染率變化的重要因素。然而,本研究也存在一定的局限性,如樣本量較少、分類模型的預測準確性不高、模型的泛化能力還有待驗證等。在后續的研究中將進一步擴充用于構建模型的數據樣本量,嘗試用更科學的算法構建模型以提高模型分類準確率,使得機器學習方法能夠更好地應用于肉雞沙門氏菌污染率的風險分析。