范 維,高曉月,董雨馨,李賀楠,王 琳,郭文萍
(中國肉類食品綜合研究中心,北京食品科學研究院,北京 100068)
近年來,隨著肉類消費量的快速增長,肉類摻假事件屢見不鮮[1-3]。不法商販以價格低廉的雞肉、鴨肉、豬肉或其他動物肉類冒充價格較高的牛肉、羊肉,賺取高額利潤[4-5]。這種欺詐行為不僅損害消費者利益、危害消費者身體健康,還會破壞市場秩序[6-7]。而肉類制品通常經過加工處理,以依靠感官與經驗的傳統肉類形態學為主的鑒別手段已無法準確鑒別其源性。因此,國內外已經開發出多種肉類摻假鑒別檢測技術,例如免疫和質譜技術[8]、聚合酶鏈式反應(polymerase chain reaction,PCR)技術[9]以及光譜、傳感器等無損檢測技術[10]。目前,我國主要采用實時聚合酶鏈式反應(real-time PCR)法進行源性成分檢測,該方法不受加工處理及待鑒定基質中復雜干擾成分的影響、鑒定結果準確且靈敏度高[11-12]。檢測技術作為一種監控手段,對于食品安全保障必不可少,但是如何實現食品安全的源頭防控和主動預防,也是值得認真思考的方向。
我國當前對食品安全風險預測的手段限于數理統計、不合格樣品信息通報等,而對于大量檢測數據的深入分析與挖掘缺乏有效的手段[13]。通過對發達國家構建的監測與預警系統(如國際食品安全當局網絡、歐盟食品與飼料快速預警系統)研究可以發現,基于數據挖掘分析的食品安全監測與預警模型可以有效達到風險預測的目的,進而促進監管前移[14]。數據挖掘技術是指將潛在的、隱含的信息從龐大的、不完整的、有干擾的數據中挖掘出來,提取隱含在其中的有效信息的過程[15]。而人工神經網絡(artificial neural network,ANN)模型是一種重要的數據挖掘工具,通過模擬生物學中相互連接神經元組成的復雜網絡進行建模。目前,常見的ANN模型為反向傳播(back propagation,BP)神經網絡,由于其能夠通過訓練,精準地發現數據中隱含的規律,進而有效識別、記憶食品危險特征,已被成功應用到食品安全風險預警領域中[16-17]。
目前,國內對食品安全風險調查及風險預測研究多集中在常規檢測項目,如食源性致病菌、農獸藥殘留等,對肉類摻假調查分析較為少見。本實驗對2019年北京市銷售的牛、羊肉串摻假情況進行調查分析,旨在獲得不同銷售渠道的肉串制品具體摻假情況及相關數據,并在此基礎上運用數據挖掘技術發現隱藏在檢測數據中有價值的信息,構建牛、羊肉串摻假風險預測模型。以期為建立高效的食品安全風險預測機制和風險預警系統提供強有力的技術手段。
1.1.1 建模樣品采集
樣品于2019年7—8月份采集。用于對照/質控的豬、牛、羊、雞、鴨肉取于屠宰場,均為整塊純肉。采集的200 份樣品包括100 份牛肉串(編號1~100),100 份羊肉串(編號101~200);采樣渠道含蓋了包括網絡購買、超市、農貿市場、餐飲飯店等10 種不同渠道;本次樣品采集所涉及的銷售單位共計100 家,每種銷售渠道各10 家,參照大型∶中型∶小型=2∶3∶5的比例進行選擇,每家采集羊肉串、牛肉串各1 份。各渠道采集的20 份樣品,按照生制品∶熟制品=1∶1的比例進行選擇。具體采集信息見圖1。

圖1 樣品信息網Fig.1 Information network about the samples used in this study
1.1.2 試劑
組織基因組DNA提取試劑盒 廣州迪澳生物科技有限公司;2×PCR Premix ExTaqTM大連寶生物科技有限公司;引物、探針合成 上海英濰捷基科技有限公司。
FTC-3000P型實時熒光PCR儀 加拿大Funglyn公司;微量核酸蛋白測定儀 美國BioTek公司;3-30K臺式高速冷凍離心機 德國Sigma公司;DK-80恒溫金屬浴 上海一恒儀器有限公司;Thermostat plus振蕩器賽默飛世爾科技有限公司。
1.3.1 質控樣品制備
將從屠宰場自取的整塊純的豬、牛、羊、雞、鴨肉分別進行攪碎并均質,以羊肉或牛肉作為基底源性,分別向其中摻入1%豬肉、1%雞肉和1%鴨肉,制得質控樣品1%牛/99%羊、1%羊/99%牛、1%豬/99%羊、1%豬/99%牛、1%雞/99%羊、1%雞/99%牛、1%鴨/99%羊、1%鴨/99%牛。為減少源性混合樣品比例的誤差,按比例將各源性樣品直接取至離心管中,充分混合后直接進行DNA提取。每種質控制作5 組平行樣。
1.3.2 樣品DNA提取及濃度測定
采用清洗干凈的剪刀、研缽等實驗器具將樣品進行剪碎或研磨成肉泥狀,樣品處理過程中將不同類型源性的樣品分開處理,每種源性一把剪刀,防止不同動物源性交叉污染。按照組織基因組試劑盒說明書提取樣品DNA并測定DNA純度。選取OD260nm/OD280nm值在1.7~2.0之間的DNA,于-20 ℃保存備用。
1.3.3 引物和探針合成
豬、牛、羊源性引物和探針參照SN/T 2051—2008《食品、化妝品和飼料中牛羊豬源性成分檢測方法 實時PCR法》[18];雞、鴨源性引物和探針參照SN/T 2727—2010《飼料中禽源性成分檢測方法 實時熒光PCR方法》[19]。
1.3.4 real-time PCR體系及程序
擴增體系體積為25 μL:2×PCR Premix ExTaqTM12.5 μL;上、下游引物(10 μmol/L)各0.5 μL;探針(10 μmol/L)1 μL;DNA模板(OD260nm/OD280nm值為1.7~2.0)2 μL;其余體積用滅菌雙蒸水補足。
豬、牛、羊源性反應程序:95 ℃預變性10 s;95 ℃變性5 s,60 ℃退火20 s,40 個循環;60 ℃收集熒光信號。雞、鴨源性反應程序:95 ℃預變性5 min; 95 ℃變性10 s,60 ℃退火32 s,40 個循環;60 ℃收集熒光信號。
1.3.5 樣品檢測
將純肉樣品、質控樣品與采集的樣品一同進行DNA提取。提取出的每個樣品DNA均按照上述方法用real-time PCR進行豬、牛、羊、雞、鴨5 種源性成分檢測。
1.3.6 BP預測模型建立
使用IBM SPSS Modeler 18.0軟件構建BP神經網絡模型。IBM SPSS Modeler是一個提供多種算法和模型的預測性分析平臺,可以實現數據自動處理、智能建模等多項數據分析工作,在食品安全數據挖掘中發揮極大的作用。運用IBM SPSS Modeler軟件構建BP神經網絡的過程包括:樣品數據預處理、導入數據、設置類型節點、設置數據平衡節點、設置分區節點、設置神經網絡節點、生成模型、參數優化、模型預測與分析[20-21]。
使用SPSS 23.0統計軟件進行數據整理和分析。采用ANOVA檢驗進行數據比較,P<0.05,差異顯著。
2.1.1 質控樣品檢測結果
根據1.3.1節方法制備質控樣品,將其與采集的樣品一同進行DNA提取和源性成分檢測。質控樣品real-time PCR圖譜見圖2,檢測結果見表1。根據SN/T 2051—2008中規定:real-time PCR法檢出限可達到0.1 g/100 g(即100 g基底源性中摻入0.1 g其他源性即可檢出),對應樣品Ct值≤35.0時,報告該源性成分檢出。而在實際檢測過程中發現,正是因為real-time PCR法的高靈敏度,使得較多樣品被檢出Ct值不大于35.0(圖3、4),但是無法判斷是蓄意摻假還是無意沾染,這與李楠等[22]的研究結果相似。由于含量小于1%的源性摻入在經濟效益和口感改善方面都沒有摻假的意義[23],因此,本實驗制備1%含量的質控樣品并測定其Ct值,根據其Ct值制定源性成分報出限,用于本實驗結果判定。

圖2 質控樣品檢測示意圖Fig.2 PCR amplification curves of quality control samples
從表1可知,純肉樣品Ct值在12.51~16.93之間,1%含量質控樣品Ct值在24.51~27.83之間,兩者存在顯著性差異(P<0.05),與李楠[22]、Xu Rusu[24]等的研究結果相似。根據1%含量質控樣品Ct值范圍,為確保Ct值大于報出限后,源性成分含量小于1%,故設定報出限為Ct值28.0。當0<Ct≤28.0時,報出樣品含有該源性成分;當28.0<Ct≤35.0,樣品雖然檢出該源性成分,但其含量小于1%,不具有摻假意義,不報出含有該源性成分;當Ct>35.0時,樣品未檢出該源性成分。

表1 質控樣品Ct值Table 1 Ct values of quality control samples
2.1.2 建模樣品檢測結果

圖3 牛肉串樣品各源性Ct值分布情況Fig.3 Distribution of Ct values of adulterated meat species in beef kebab samples

圖4 羊肉串樣品各源性Ct值分布情況Fig.4 Distribution of Ct values of adulterated meat species in lamb kebab samples
根據質控樣品報出限Ct值28.0和標準規定檢出限Ct值35.0,將羊肉串和牛肉串樣品中各源性Ct值進行分類,繪制樣品各源性檢測Ct值分布圖(圖3、4),并以報出限為結果判定依據將樣品具體檢測結果制成表2。通過統計結果可知,牛肉串樣品中有87 個(87%)樣品Ct值在0~28.0之間,可報出含有牛源性,其中86 個樣品只含有牛源性,1 個樣品含有牛源和豬源性,其余13 個(13%)Ct值大于28.0的樣品(不報出牛源性),經檢測發現4 個為豬源性、9 個為鴨源性,綜上可知牛肉串的不合格率為14%;羊肉串樣品中83 個(83%)Ct值在0~28.0的樣品里有4 個樣品既含有羊源又含有豬源,剩余17 個(17%)Ct值大于28.0的樣品(不報出羊源性),其中12 個為豬源性、5 個為鴨源性,綜上可知羊肉串的不合格率為21%。此外,以羊肉串為例,從圖4可以看出羊肉串樣品中分別有32%、11%和24%的樣品其豬源、雞源和鴨源檢出的Ct值在28.0~35.0之間,但實際樣品中摻入量不足1%,若將這些樣品全部判定為不合格,對于商家而言是不公平的。因此,在實際檢測過程中帶入質控樣品制定報出限,可以在一定程度上規避含量極少的樣品判定為不合格的風險。

表2 樣品檢測結果Table 2Non-acceptance rates of samples
2.2.1 不合格樣品分布情況分析
本次采樣涵蓋網購、夜市攤位、農貿市場、街邊攤販在內的10 個銷售渠道,不合格樣品分布情況見圖5。除學校食堂外,其余渠道均有不合格樣品;其中夜市攤位共采樣20 份,不合格樣品8 份,不合格率達40%,高于其他渠道(P<0.05)。此外,街邊攤販和網購的不合格率也較高,分別為30%(6/20)和25%(5/20)。因此,肉串銷售渠道這一屬性對源性成分摻假結果具有影響性。

圖5 不合格樣品分布情況Fig.5 Distribution of unaccepted samples
2.2.2 不合格樣品來源情況分析
本次采樣共涉及100 家銷售單位,其中包括大型單位20 家,中型單位30 家,小型單位50 家。由圖6可知,100 家銷售單位中有73 家(73%)樣品合格,27 家(27%)樣品不合格。不合格的27 家單位中,無大型單位,有小型單位22 家(81.4%),中型單位5 家(19.6%)。由此可知,小型銷售單位存在不合格樣品的風險較高。因此,企業規格也是影響源性成分摻假結果的重要屬性。性能和快速的訓練速度。BP神經網絡可以完成任意n維到m維的映射,具有高度的非線性映射能力[26],對于食品檢測結果的預測實際上是尋找這種映射關系,將具有多維屬性且取值不同的食品數據準確分類到合格或不合格的類別中,這與BP神經網絡的訓練方式相吻合。同時,BP神經網絡既能處理連續型數據也能處理離散型數據,對訓練集中的空缺值或錯誤值具有良好的健壯性,適用于分析類型繁雜且存在較多空缺值的數據集,這正好符合了食品安全抽檢數據的特點。此外,BP神經網絡是模仿人腦的學習方式,具有自行識別、記憶并解決復雜問題的能力,當訓練數據充足時,BP神經網絡能夠將誤差降至最低,使預測結果足夠準確,滿足預測食品安全風險的要求[27-28]。綜上考慮,選取BP神經網絡算法進行肉串樣品的風險調查數據挖掘。
2.3.2 數據預處理
數據本身的結構、數量和特點直接影響到BP神經網絡模型的預測效果,這就需要在建模時充分考慮模型結構和挖掘目的,選擇合適的數據特征屬性,確定適宜的輸出結果。本研究數據挖掘的主要目的是訓練BP神經網絡模型反映肉串樣品屬性和源性摻假檢測結果之間的相關性,因此需使用對肉串樣品信息具有代表性的屬性作為輸入,以源性成分檢測結果作為輸出。綜上,此次排除“樣品編號、企業名稱、樣品規格、商標”等對樣品不具代表性且對輸出結果不具影響性的屬性。最終選取“銷售渠道、企業規格、加工日期、樣品類型、樣品屬性、單價”6 個屬性作為輸入變量,以源性成分檢測結果的“合格、不合格”為輸出變量(目標變量)。將樣品各屬性按照IBM SPSS Modeler軟件要求,在Excel中進行數據編輯,以便后期數據導入,數據框類型見表3。

圖6 不合格樣品企業規模情況Fig.6 Enterprise size distribution of unaccepted samples

表3 BP神經網絡模型的數據框類型Table 3 Data frame types for BP neural network model
2.3.1 BP神經網絡
在眾多的神經網絡算法中,BP神經網絡是應用最為廣泛和成功的一種[25],它利用隱含層將誤差從輸出向輸入逐層進行反向傳播,在此過程中以最速下降法修改權值和閾值,使誤差函數得以快速收斂,具有良好的算法
2.3.3 建模流程

圖7 BP神經網絡模型構建過程Fig.7 Flow chart of the establishment of BP neural network model
采用IBM SPSS Modeler軟件進行建模,操作簡便,具體流程見圖7。首先通過源節點導入Excel整理好的數據;之后通過類型節點讀取值與設置角色,將“結果”列為目標變量,其余列為輸入變量;通過平衡數據節點,給予結果為“不合格”的數據平衡指令,將數據按一定比例進行平衡;通過分區節點將數據集分為訓練集、測試集以及驗證集;最后通過類神經網絡節點進行建模。
2.3.4 建模參數設置
2.3.4.1 數據導入節點設置
數據導入后,選擇自動數據準備,樣本屬性均為名義變量。對于已選定的分類變量,神經網絡自動數據準備會將n個類別的分類型變量轉化為n個取值為0或1的數值型變量后,采用二進制碼將各變量編碼,使其符合神經網絡的輸入要求。
2.3.4.2 平衡數據節點設置
本次采集樣品200 份,每份樣品檢測項目數為5,共得到肉串樣品原始數據1 000 條。其中不合格樣本比例為6.5%(65/1 000),相對于合格樣本而言,肉串不合格屬于小樣本。若直接將此數據用于模型構建,則會導致小樣本類別預測效果較差,達不到預測效果。參考Linoff等[29]的方法,采用過抽樣或欠抽樣技術,增加樣本中小樣本事件比率,提高預測準確率。設置SPSS Modeler平衡節點為合格∶不合格=2∶1。
2.3.4.3 分區節點設置
將數據集分成訓練集、測試集和驗證集,以提高模型的穩定性和可重復性。在分區節點設置訓練分區的大小為70%,測試集分區大小為20%,驗證集大小為10%。
2.3.4.4 建模節點設置
建模時選擇類神經網絡節點。神經網絡模型選取多層感知器,模型使用的停止規則為“無法進一步降低誤差”,使用最大訓練時間15 min。由于模型的訓練為不斷向樣本學習的過程,因此可通過不斷調整網絡權值得到較小的預測誤差。所有樣本學習完畢后,若預測誤差仍較大,則需改變建模參數重新進行學習,直到得到理想的精度或滿足停止規則。
2.3.5 建模結果分析
最終經訓練后得到的肉串樣品源性成分摻假預測模型及模型概要見圖8。形成的BP神經網絡模型為3 層神經網絡,隱藏層中神經元數量為9 個。預混比例2∶1分層挖掘數據得到的肉串樣品源性成分摻假總預測準確率達90.3%。
利用訓練集生成BP神經網絡模型后,用測試集評價模型的預測準確性,用驗證集對模型預測能力加以驗證。從驗證結果可知:建立的預測模型對于不合格樣本,判定為不合格率為95.7%,錯判為合格率僅為4.3%;對于合格樣本,判定為合格率為87.6%,錯判為不合格率為12.4%。總體而言,對于實際結果為不合格的樣品,所建模型的預測準確率非常高,達95.7%,這正好滿足了風險預測的目的,即盡可能準確地預測出不合格的問題樣品;而對于實際結果為合格的樣本,模型的預測準確率有所降低,這可能是由于樣本數據不平衡或樣本數據量較少所致[30],但是若用此模型進行初篩,雖然錯判為不合格樣品的概率較高,導致較多樣品需進一步驗證,但這并不會造成食品安全風險隱患,因此預測結果仍有參考和應用價值。此外,這一缺陷可通過進一步完善原始數據、加大數據統計量和調整數據集平衡比例等深入預處理得以改進[31]。

圖8 BP神經網絡圖及模型概要Fig.8 BP neural network model with outline and accuracy evaluation

圖9 各屬性變量對BP神經網絡模型預測結果的影響Fig.9 Influence of input variables on the prediction result of BP neural network modl
建立的BP神經網絡模型,給出了各屬性變量對預測結果影響的重要次序。由圖9可知,“企業規格”和“銷售渠道”對預測結果影響較大;“價格”對預測結果影響較小。這與2.2節中對建模數據深層挖掘的分析結果一致,說明該模型預測結果可靠。
2.3.6 模型應用
構建的模型在具體肉串樣品摻假風險預測中的應用。若已經獲得樣品如下屬性信息,如樣品編號、銷售渠道、企業規格、樣品類型、樣品屬性、加工日期、單價等。則將相關屬性導入IBM SPSS Modeler中,利用已訓練好的BP神經網絡模型預測出各樣品結果(表4)。一方面對于檢測機構而言,運用此模型,可以輔助檢測人員有針對性地進行檢測,避免漏檢、錯檢情況的發生。檢測人員可以參考預測結果對結論為“不合格”的樣品進行重點檢測。后期爭取通過對模型的進一步改進,提升模型對合格樣品的預測準確率,以實現對預測合格樣本的免檢,這樣可有效節約人力、物力和財力。另一方面對于監管部門,在實施抽檢行動前,可以先簡單的收集樣品信息,將這些信息導入到該模型中,對樣品檢測結果進行預測,之后根據預測結果制定及規劃風險監測抽檢方案。

表4 樣品預測結果Table 4 Prediction results for samples
本實驗對2019年北京市10 個銷售渠道,100 家銷售單位的200 份牛、羊肉串樣品源性成分摻假情況進行調查分析,考察影響源性成分摻假的主要風險因素,并通過對檢測數據的深層挖掘構建牛、羊肉串源性成分摻假的BP神經網絡預測模型。該模型以“銷售渠道、企業規格、加工日期、樣品類型、樣品屬性、單價”6個屬性作為輸入變量,以源性成分檢測結果的“合格、不合格”為輸出變量(目標變量)。通過IBM SPSS Modeler軟件的自動模型驗證與參數優過程,最終得到的3 層神經網絡預警模型,其總預測準確率為90.3%,其中對實際不合格樣品的預測準確率高達95.7%。該模型可用于檢測機構樣品的初篩預判以及作為監管部門制定抽檢方案的依據,但是對預判合格的樣品仍存在4.3%的錯判率,故無法做到對預測合格樣品實施免除檢測。此次模型構建沒有完全達到預期效果的主要原因在于源性成分摻假風險調查樣品較少,導致可獲得的數據量有限。因此,之后將在此基礎上不斷的收集樣品數據,完善數據源,進一步提升模型的預測準確率,使其成為建立食品安全風險預測機制和風險預警系統的強有力手段。