陳 卓 丁 利 曹天紅 程云輝 文 李 許 宙 陳茂龍 焦 葉 李虹輝
(長沙理工大學食品與生物工程學院,湖南,長沙 410114)
谷物是中國居民膳食的主要成分,第5次中國全面飲食研究(FCTDS)[1]表明,谷物、豆類及其制品占中國居民每日食物消費總量的37.44%。其主要提供膳食纖維、糖、蛋白質[2],并含有多種脂類[3]、維生素、植物甾醇、角鯊烯[4]。然而,谷物及其衍生食品中包含的重金屬、真菌毒素、農藥和一些食品添加劑存在潛在危害[5]。低水平的重金屬暴露也會損害器官[6],其中鉛(Pb)、鎘(Cd)和砷(As)被認為是谷物中常見的有毒重金屬[7]。鎘會對肺、骨、腎、肝、免疫系統和生殖器官等產生一系列損傷[8],砷會影響血管系統并導致高血壓和心血管疾病[9]。有研究[10]表明,25%的谷物受到了不同程度的真菌毒素污染。有關谷物中真菌毒素污染的監管和研究主要集中于黃曲霉毒素、伏馬毒素玉米赤霉烯酮以及脫氧血腐鐮刀菌烯醇等方面[11],其中,黃曲霉毒素B1對哺乳動物毒性最大,可造成中毒性肝炎、出血、水腫、免疫抑制和肝癌等損害[12]。目前,對谷物接觸不同污染物的風險評估研究已廣泛開展,涉及單一物質或同源化合物,如真菌毒素[13-15]和重金屬[16-17]。谷物及其衍生食物通常被多類污染物污染,僅涉及單一或同類污染物的風險評估可能導致其對潛在健康風險的低估[18]。而目前有關谷物資源同時接觸多類污染物的健康風險評估尚未見報道。
目前,食品風險評估技術可分為定量評估法(灰色系統理論和故障分析法)、定性評估法(德爾菲法、蒙特卡洛法和決策樹法)以及綜合評估法(人工神經網絡、粗糙學以及層次分析法)。定性分析方法主要用于從政策和理論分析中得出風險評估結論,然而,由于數據主要來自問卷調查,因此不能準確地構建預警模型,定量分析中德爾菲法在預測單個標量指標方面比較成功,但不能處理多指標的復雜系統。綜合評估方法中層次分析法(AHP)適用于對多指標的復雜問題進行決策,而傳統的層次分析法依賴于研究者的經驗來構建判斷矩陣,容易導致誤判[19]。基于熵權的層次分析法(EM-AHP)根據谷物檢測數據的內在規律計算各評價指標的權重,反映谷物資源的整體風險。人工神經網絡(ANN)是一種有效的計算模型,被廣泛應用于非線性函數近似[20]、模式識別[21]、復雜流程工業能量預測[22]、工業過程控制與風險管理[23],紅棗缺陷識別[24],白酒酒花分類[25],可以在系統確切結構未知的條件下進行建模,針對谷物檢測數據具有高維屬性、復雜性、離散性和非線性等特點,但人工神經網絡建立的谷物風險預警模型并不準確。
研究擬采用基于熵權的層次分析法通過數據壓縮和數據過濾提取谷物檢測數據的特征信息,并結合人工神經網絡構建谷物安全風險預警模型;以鎘(Cd)、砷(As)、鉛(Pb)、鉻(Cr)、黃曲霉毒素(AFs)、伏馬毒素(FB)、玉米赤酶烯酮(ZEN)、
脫氧雪腐鐮刀菌烯酮(DON)為谷物質量安全評價指標,并作為模型的輸入,選擇隨機森林回歸(LR)、支持向量機回歸(SVM)、BP神經網絡回歸(BP)、K近鄰回歸(KNN)4種機器學習算法進行模型的構建和比較,其中由基于熵權的層次分析法結合隨機森林算法(RF)構建的模型(AHP-RF)預測效果最好,其谷物風險預警模型如圖1 所示。利用AHP-RF模型對2019年8月的谷物檢測數據進行風險預測分析,旨在為谷物資源的安全監管提供有針對性的參考建議。
谷物資源中化學殘留的標準化可加強植物油質量安全監管,依據衛生部(http://www.samr.gov.cn/)和市場監督管理總局(http://www.samr.gov.cn/spcjs/)發布的國家食品安全標準,同時結合市場監督管理局的抽檢數據,得出評價植物油質量的8個指標分別為鎘(Cd)、砷(As)、鉛(Pb)、鉻(Cr)、黃曲霉毒素(AFs)、伏馬毒素(FB)、玉米赤酶烯酮(ZEN)和脫氧雪腐鐮刀菌烯酮(DON),谷物中污染數據來源于小麥、大米、玉米、燕麥、大麥、高粱、黑麥和小米。其中重金屬污染數據來源于文獻[26-46],真菌毒素數據來源于文獻[47-62]。
假設相關函數的j參數是cij(y)(i表示第i次采樣):
(1)
相關函數稱為標準相關函數,其中yj(1),yj(2),yj(3),yj(4)是cij(y)的節點,預處理后的信息矩陣為:

圖1 谷物資源風險評估模型Figure 1 Risk assessment model of grain resources

(2)
中心標準化
(3)

(4)

(5)
對于n對稱矩陣,特征值W=(ω1,ω2,…,ωi)可以通過乘積的均方根法(幾何平均法)得到:
(6)
用W融合樣本,得到谷物風險融合數據:
(7)
首先,通過對樣本集進行重采樣來生成相同數量的樣本。假設特征數為K,對N個樣本在K個特征中隨機選擇T個特征,通過建立決策樹得到最佳分割點。最后,使用多數投票機制進行預測。隨機森林算法結構如圖2所示。
支持向量機(SVM)是一種通用的前饋網絡類型,可應用于分類(聚類)、回歸、字符識別和時間序列,SVM的訓練算法創建了一個模型,該模型將新樣本分配給兩個類別之一,使其成為非概率二元線性分類器。SVM在回歸方法中的工作原理是找到符合統計學習理論的線性分離函數,SVM具有良好的泛化能力,能夠解決小樣本問題。

圖2 隨機森林結構原理圖Figure 2 Schematic diagram of random forest structure
BP神經網絡是根據誤差反向傳播進行訓練的反饋神經網絡。基本思想是梯度下降法,通過反向傳播不斷調整網絡的權值和閾值,使網絡的實際輸出和預期輸出之間的誤差平方和最小,主要過程是:對于n個輸入學習樣本:“X1,X2,…,Xn”,已知對應的m個輸出樣本為“Y1,Y2,…,Ym”。網絡的實際輸出(Z1,Z2,…,Zn)和目標向量(T1,T2,…,Tm)之間的誤差用于校正其權重,使得Zn盡可能接近預期的Tm。
K近鄰算法沒有顯式的學習過程或訓練過程,是懶惰學習,數據集事先已經有了分類標簽和數據特征值,通過測量不同特征值之間的距離來對數據進行分類。
計算相鄰樣本的距離采用歐式距離或曼哈頓距離:
(8)
(9)
算法過程:
(1)計算測試數據與各訓練數據之間的距離。
(2)按距離的遞增關系排序。
(3)選取距離最小的K個點。
(4)確定前K個點所在類別的出現頻率。
(5)返回前K個點中出現頻率最高的類別作為測試數據的預測分類。
為確定8種危險因素(Cd、As、Pb、Cr、AFB、FB、ZEN、DON)的離散程度,判斷8種危害指標對綜合評價的影響,將預處理后的檢驗數據作為風險評估模型的輸入,利用基于熵權的層次分析法對檢驗數據中的8個風險評價指標進行風險融合。部分AHP融合結果見表1,基于熵權的層次分析法融合的各風險評價指標的權重比例如圖3所示,各指標權重相差不大說明數據離散程度適合建模。

表1 部分AHP風險融合結果Table 1 Results of partial AHP risk fusion

圖3 谷物資源中各危險因素的權重Figure 3 Weight of risk factors in grain resources
用min-max歸一化法對檢驗數據進行線性變換。每個指標數據映射到區間[0,1]。min-max歸一化公式如下:
(10)
式中:
i=1,2,…,1;
j=1,2,…,m。
標準化后確定谷物資源化學危害等級范圍[0.05,0.92],采用五等分法[63]將化學危害等級范圍劃分為5個風險評價等級(見表2)。

表2 谷物資源化學危害等級Table 2 Chemical hazard grade of grain resources
將風險融合的結果作為預警模型的預期輸出。構建8輸入單輸出訓練樣本數據,預處理檢驗數據總量1 067。從數據中選擇75%的樣本作為訓練樣本數據,其余的作為測試樣本數據。
為了驗證該模型的有效性,采用隨機森林(RF)、BP神經網絡(BP)、K近鄰回歸(KNN)和支持向量機(SVM)回歸對數據進行建模。
在隨機森林(RF)中,采用min-max標準化進行定量數據標準化,決策樹個數為100,分裂1個內部節點需要的最少樣本為2,每個葉子節點需要的最少樣本數為2。
在單層BP神經網絡中,采用min-max標準化進行定量數據標準化,迭代次數為200,激勵函數為rule函數,求解器為adam,輸入層、隱藏層和輸出層的節點數分別為8,20,1。
在K近鄰回歸(KNN)中,采用min-max標準化進行定量數據標準化,所選用的近鄰數為5,預測權函數為uniform,葉大小為30,向量距離算法為歐式距離。
在支持向量機(SVM)回歸中,采用min-max標準化進行定量數據標準化,核函數為bf(徑向基核),殘差收斂條件為0.000 1,使用收縮啟發式。
由圖4可知,RF的泛化結果比BP、KNN和SVM的更接近實際值。

圖4 4種機器學習算法的預測風險值與實際風險值的擬合結果Figure 4 Fitting results of four machine learning algorithms to predict risk value and actual risk value
由RF、BP、KNN和SVM分別結合基于熵權的層次分析法對數據進行建模,由表3可知,4個模型的線性回歸決定系數分別0.999 8,0.928 6,0.900 8,0.963 1,說明RF算法的效果優于其他3種算法。
由圖5可知,基于熵權的層次分析法組合隨機森林回歸方法的擬合度優于其他3種方法,可用于谷物化學危害要素危害程度的預測。
采用AHP-RF模型對2019年8月20個樣本的檢驗數據進行評估,預測結果如圖6所示。

表3 4種回歸算法的穩定性比較Table 3 Comparison of stability of four regression algorithms
由圖6可知,AHP-RF風險評估模型可以準確預測2019年8月初的食品安全風險。2019年8月前20 d的風險平均值為0.630,屬于[0.448,0.662],整體風險處于中等風險范圍。2019年8月前10 d的風險分析表明,平均風險值為0.675,而8月后10 d的平均風險值為0.586,因此2019年8月前10 d的整體風險較大。2019年8月高于高風險預警參考值0.792的數據共有7個,占總數據的35%。而3—7月數據中風險值高于高風險預警參考值的數據僅占數據總量的9.6%,因此8月高風險數據占比明顯上升,整體風險趨勢明顯上升。因此,相關部門需重點關注這一時期的糧食生產。8月初檢驗樣本的風險明顯增加,相關部門應更重視2019年8月初的檢驗樣本,并采取如加強監管,督促相關企業生產高質量、低風險的產品等相關措施,以控制風險的持續增長,避免食品安全事故的發生。

圖5 4種機器學習算法的線性回歸分析Figure 5 Linear regression analysis of four machine learning algorithms

圖6 AHP-RF風險評估模型的預測風險值與實際風險值Figure 6 Comparison between the predicted risk value and the actual risk value of AHP-RF risk assessment model in August 2019
提出了一種AHP-RF方法,建立以谷物資源檢測數據作為輸入,采用基于熵權的層次分析法提取數據的特征變量作為隨機森林算法輸出的谷物資源風險預警模型。結果表明,該模型獨立檢驗集的R2>0.99,表明其能夠較好地實現谷物資源的風險評估。將AHP-RF方法應用于2019年8月的谷物資源風險分析,發現2019年8月的谷物資源風險增加,存在安全隱患問題。食品檢驗部門可以利用此結果提高食品安全預警的效率。為了進一步研究,將研究卷積神經網絡(CNN)來優化數據預處理過程,CNN具有較強的非線性擬合能力和特征提取能力,應用于谷物資源預警分析可能會揭示更多的未知規律。但CNN模型復雜度高、成本高、對數據質量要求高,為此需要收集更多數據,建立質量更完善的谷物安全風險指標數據集,并將數據集與CNN結合建立模型,將有助于建立準確、智能的食品風險預警系統。