浙江財經大學(杭州 310018)
各行的數據規模和種類近年來隨著信息產業的發展呈指數級增長,開啟了我國大數據時代。通過數據挖掘可以提高數據庫中的數據價值[1]。與此同時,我國頻繁發生食品安全事件,如有毒大米事件、“瘦肉精”中毒事件、劣質奶粉事件以及“蘇丹紅”事件等,對消費者的身體健康造成了極大的威脅,同時在社會中引起了負面效應。因此需要對食品安全風險進行監測,通過食品安全風險監管可以提高食品安全水平[2-4]。當食品安全存在危機和風險時,食品安全監管部門需要采取相關措施,對食品的危害程度和危害成分進行辨別,并以預警的形式公告給顧客,提醒顧客禁止使用或慎食,最小化危害和風險。當前食品安全風險監測方法存在實時性差和監測準確率低的問題,需要對食品安全風險監測方法進行研究。
張明等[5]提出基于Rosetta粗糙集理論的食品安全風險監測方法,該方法在Rosetta粗糙集理論的基礎上簡約指標,獲取指標屬性對應的重要性,分類并整理數據,構建指數分級標準,生成決策表,實現食品安全風險的監測,該方法獲取指標屬性重要性所用的時間較長,存在實時性差的問題。梁輝等[6]提出基于最鄰近距離空間分析法的食品安全風險監測方法,該方法將采樣地點數據通過GIS地理編碼技術轉變為經緯度坐標,并在電子地圖數據庫中利用經緯度坐標制作采樣地點專題圖,通過空間隨機模式下的平均最鄰近距離與采樣地點平均最鄰近距離的期望比值判斷空間分布特征,來實現食品安全風險的監測。該方法存在監測準確率低的問題,得到的監測結果與實際不符。
為了解決上述方法中存在的問題,提出基于大數據挖掘的食品安全風險智能監測模型。
基于大數據挖掘的食品安全風險智能監測模型通過數據挖掘技術對食品數據進行降維處理:
對m個變量ξ1,ξ2,…,ξm進行n次觀測,構建觀測數據矩陣X,其表達式如下:
設sj代表樣本標準差,
設R代表樣本相關矩陣,其中通過下式對R=UUΛUT進行特征分解。
1) 對R的特征向量和特征值進行計算。設λ1≥λ2≥…≥λm≥0代表樣本相關矩陣R的m個特征值,對各個主成分對應的貢獻率進行計算[7],主成分分析結果為符合λp+1<1的前p個主成分:
2) 對特征值按照從大到小的順序對進行排序λ1,λ2,…,λm[8-10],并對特征值所對應的特征向量eig1,eig2,…,eigm進行計算,各個特征向量在此時為兩兩正交,是單位向量。
3) 構建主成分載荷陣。設Um×p代表的是主成分載荷陣,通過前p個特征向量構成,其表達式為
通過上述過程獲得原變量ζ1,ζ2,…,ζm,通過式(5)用主成分變量η1,η2,…,ηp代替原變量。
經過變換后獲得新樣本數據對應的特征維數明顯小于原始數據對應的特征維數,其降低了樣本的數據量,實現了數據降維。
風險是風險因素的損失度與發生的可能性的二元函數,可通過公式進行描述:R=f(P,S)。式中,R表示食品風險分析值;S表示風險因素產生的損失度;P表示發生風險因素的可能性[11]。
在式(12)的基礎上分析危害指標,對危害指標的損失度大小和風險可能性進行度量,并在風險計算公式中引入損失度數值和可能性數值。
2.1.1 風險可能性
2.1.2 風險損失度
通常由風險因素造成的危害程度與其污染程度決定風險損失度,社會影響因子會對風險損失度產生影響。設代表第n種食品的第i個危害指標在第m類食品中對應的風險損失度,可通過式(7)計算得到:
式中:Di代表危害指標對應的危害程度;Wi為社會影響因子,由于人為影響或社會流動性食品風險因素的損失度比實際嚴重;為危害指標對應的污染指數[15]。設xij代表第i個危害指標測試試驗中存在的第j條檢驗數據值。計算危害指標的污染指數
式中:li1為在食品含量中第i個危害指標對應的危險值;li2為國標中的限量值;J為第i個危害指標測試試驗的檢驗總次數。
2.1.3 風險等級評定
由于風險是損失度與可能性的二元函數,基于大數據挖掘的食品安全風險智能監測模型通過基于風險矩陣的風險結果表現形式對風險結果進行直觀的描述。
在食品安全風險智能監測模型中,通過式(9)對風險進行計算:
在第一象限內不同半徑的圓的分布與不同等級風險分布近似,通過式(10)對單個危害指標對應的風險值進行計算:
通過度量風險損失度與風險可能性的方法對風險等級進行綜合考慮。
2.2.1 風險可能性
度量各個風險因素在單種食品中的風險,由危害指標產生的風險等級最大值對應的風險可能性對單種食品產生風險的可能性進行決定,即:
式中:Pnm為第n種食品在第m類食品中產生風險的可能性;max{·}為取最大值操作;I為食品危害指標的總數。
2.2.2 風險損失度
通常由危害指標產生的風險等級最大值對應的風險損失度決定單種食品對應的損失度:
式中:Snm代表第n中食品在第m類風險食品中對應的風險損失度;Znm在區間[0,1]內取值,表示食品管理控制因子,食品管理控制因子隨著食品管理控制管理力度的增強而增大,食品造成的損失度隨著管理力度的增強而減小。
2.2.3 風險等級評定
在風險等級矩陣中引入量化處理后的單種食品產生風險的損失度和可能性,獲得單種食品對應的風險等級,風險值Rnm可通過式(13)計算得到:
通過食品總體匯總加權系數加權求和各類食品對應的風險可能性,通過公式計算食品總體產生風險對應的可能性通過食品總體匯總加權系數加權求和各類食品對應的風險損失度在風險等級矩陣中代入量化處理后的P和S,獲得食品安全總體狀況對應的風險等級,通過式(14)對具體風險評價值進行計算:
為了驗證基于大數據挖掘的食品安全風險智能監測模型的整體有效性,需要對基于大數據挖掘的食品安全風險智能監測模型進行測試,此次測試在MyEclipse 8.6軟件中完成,分別采用基于大數據挖掘的食品安全風險智能監測模型、基于Rosetta粗糙集理論的食品安全風險監測方法和基于最鄰近距離空間分析法的食品安全風險監測方法進行測試,通過分析數據所用的時長比較,對比不同方法的實時性效果,測試結果如圖1所示。
圖1(a)為基于大數據挖掘的食品安全風險智能監管模型的測試結果,分析圖1(a)可知,采用基于大數據挖掘的食品安全風險智能監管模型進行測試時,在多次迭代中分析數據所用的時間均低于0.4 s;圖1(b)為基于Rosetta粗糙集理論的食品安全風險監測方法的測試結果,分析圖1(b)可知,采用基于Rosetta粗糙集理論的食品安全風險監測方法進行測試時,在第3次迭代過程中分析數據所用的時間高達0.7 s;圖1(c)為基于最鄰近距離空間分析法的食品安全風險監測方法的測試結果,分析圖1(c)可知,采用基于最鄰近距離空間分析法的食品安全風險監測方法進行測試時,在第1次迭代中分析數據所用的時間高達0.8 s。對比基于大數據挖掘的食品安全風險智能監測模型、基于Rosetta粗糙集理論的食品安全風險監測方法和基于最鄰近距離空間分析法的食品安全風險監測方法的測試結果可知,基于大數據挖掘的食品安全風險智能監測模型分析數據所用的時間最短,因為基于大數據挖掘的食品安全風險智能監測模型對食品安全風險進行監測之前通過大數據挖掘技術對食品數據進行降維處理,降低了數據量,縮短了分析數據所用的時間,提高了基于大數據挖掘的食品安全風險智能監測模型的實時性。
圖1 不同方法的數據分析時間對比
在食品安全風險監測過程中需要對食品風險進行評價,分別采用基于大數據挖掘的食品安全風險智能監測模型和基于Rosetta粗糙集理論的食品安全風險監測方法進行測試,對比兩種方法所用的評價時間,測試結果如表1所示。
表1中,CS代表的是試驗次數;TJ代表的是評價食品安全風險花費的時間,單位為秒;SJ代表的是基于大數據挖掘的食品安全風險智能監測模型;RO代表的是基于Rosetta粗糙集理論的食品安全風險監測方法;PJ代表的是5次迭代的平均評價時間。分析表1中的數據可知,在5次迭代中基于大數據挖掘的食品安全風險智能監測模型所用的評價時間均低于基于Rosetta粗糙集理論的食品安全風險監測方法所用的評價時間,因為基于大數據挖掘的食品安全風險智能監測模型根據區域內食品的跟蹤抽樣檢測結果確定具體危害指標,其降低了選取評價指標花費時間,提高了基于大數據挖掘的食品安全風險智能監測模型的評價效率。
表1 評價時間
為了進一步驗證基于大數據挖掘的食品安全風險智能監測模型的整體有效性,分別采用基于大數據挖掘的食品安全風險智能監測模型、基于Rosetta粗糙集理論的食品安全風險監測方法和基于最鄰近距離空間分析法的食品安全風險監測方法進行測試,對不同檢測方法的監測準確率進行對比,其測試結果如圖2所示。
圖2 不同方法的監測準確率
圖2(a)為基于大數據挖掘的食品安全風險智能監測模型的測試結果,分析圖2(a)可知,采用基于大數據挖掘的食品安全風險智能監測模型對食品安全風險進行監測時,獲得的監測準確率均高于90%;圖2(b)為基于Rosetta粗糙集理論的食品安全風險監測方法的測試結果,分析圖2(b)可知,采用基于Rosetta粗糙集理論的食品安全風險監測方法對食品安全風險進行監測時,獲得的監測準確率在70%附近波動;圖2(c)為基于最鄰近距離空間分析法的食品安全風險監測方法的測試結果,分析圖2(c)可知,采用基于最鄰近距離空間分析法的食品安全風險監測方法對食品安全風險進行監測時,獲得的監測準確率在60%附近波動。對比基于大數據挖掘的食品安全風險智能監測模型、基于Rosetta粗糙集理論的食品安全風險監測方法和基于最鄰近距離空間分析法的食品安全風險監測方法的測試結果可知,基于大數據挖掘的食品安全風險智能監測模型的監測準確率最高,因為基于大數據挖掘的食品安全風險智能監測模型通過對引起食品安全的風險因素的風險損失度和風險可能性進行綜合評估,實現食品安全風險的智能監測,提高了基于大數據挖掘的食品安全風險智能監測模型的監測準確率。
研究提出的基于大數據挖掘的食品安全風險智能監測模型,對數據進行降維處理,在風險矩陣中引入風險損失度和風險可能性構建食品安全風險智能監測模型,解決了當前方法中存在的問題,實時性和監測準確率有了較大提高。未來的工作將集中在提高數據的多維度多影響因素分析方面,更好地為食品檢測服務。