邊春娜 趙春青 鄧云嵐
摘 要:本文結合食品安全檢測數據的特點,將數據挖掘技術中的關聯規(guī)則方法應用到食品安全檢測數據中來,挖掘出其中的隱含規(guī)則,為食品安全監(jiān)督提供政策支持,提高監(jiān)督的效率。
關鍵詞:食品安全; 數據挖掘; 關聯規(guī)則
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1006-3315(2014)12-188-001
數據挖掘是數據分析的新技術,它可從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中人們事先不知道的但又是潛在有用的信息或知識。數據挖掘中的關聯規(guī)則能夠發(fā)現大量數據中項集之間的相關聯系,適用于食品安全檢測數據的分析。
本文分析了食品安全檢測數據的特點,并通過具體實例,得到了對食品安全監(jiān)管進行決策支持的規(guī)則,這為將關聯規(guī)則技術引入食品安全監(jiān)管輔助系統打下了基礎。
1.食品安全檢測數據特點分析
食品安全檢測中,對抽取的樣品進行檢驗得到的信息經整理后存放在一個事務數據庫里,這些數據的特點如下:
1.1存放這些檢測數據的數據庫中通常包含:食品的名稱、種類、產地、抽檢樣品號、檢測時間、檢測項目、檢測結果及單位、檢測點、檢測負責人等等。
1.2同類樣品所檢測項目分布不均。每個樣品通常檢測多個項目,不同項目施檢頻率不同。對于關注程度高、風險較大的項目,施檢頻率高;而對于關注程度低、風險較小的項目,施檢頻率低。
1.3檢測的項目通常分為2種:第1種是病原微生物、禁用物質類危害物,其主要特點就是該類危害物一旦有檢出,即被視為陽性,這類項目的檢測結果只有“檢出”和“未檢出”2種;第2種是限量類危害物,主要是指有著最大殘留限量規(guī)定的危害物,其類別涉及到農藥殘留、獸藥殘留、食品添加劑、有害元素、工業(yè)污染物等,這類項目的檢測結果為數值型數據。
2.關聯規(guī)則挖掘介紹
存放食品安全檢測信息的事務數據庫中,每個記錄代表1個事務。每個事務包含1個唯一的事務標識號(如抽檢樣品號)和1個組成事務的項的列表(如檢驗的時間、檢驗的項目、食品的類別、產地等等)。我們把項的集合稱為項集(itemset),包含k個項的項集稱為項集,如集合{類別代碼,檢測日期,項目一,項目二}是一個項集。
設I={i1,i2,…,im}是項的集合。設要挖掘的數據D是數據庫事務的集合,其中每個事務T是項的集合,使得T?哿I。設A是一個項集,當且僅當A?哿T時,事務T包含A。關聯規(guī)則是形如A?圯B(sup,conf)的蘊涵式,其中A?奐I,B?奐I,并且A∩B=?準。把sup稱為支持度,是D中同時包含A和B的事務的百分比,也就是sup port(A?圯B)=P(A∪B)Conf idence(A?圯B)=P(B|A)。
同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強規(guī)則。關聯規(guī)則X?圯Y解釋為Y滿足X中條件的數據庫元組多半也滿足Y中條件T。
項集的出現頻率是包含項集的事務數,簡稱為項集的頻率、支持計數或計數。如果項集的出現頻率大于或等于最小支持計數(即min_與D中事務總數的乘積),則項集滿足最小支持計度min_sup,這時稱它為頻繁項集。
關聯規(guī)則的挖掘是一個2步的過程:(1)找出所有頻繁項集:需滿足最小支持度。(2)由頻繁項集產生強關聯規(guī)則:需滿足置信度。
3.設計
一個完整的挖掘過程包括數據的預處理和關聯規(guī)則挖掘。
3.1預處理。將食品的種類、產地、檢測時間、檢測項目及結果提取出來之后,得到的數據不適于直接進行分析,先要進行預處理。
針對不規(guī)范的限量類項目檢測結果,首先將其中非數值的數據進行清洗,刪除檢測結果空缺的記錄,將檢測結果為“未檢出”或“ND”轉換為“0”,形如“<30”和“>500”的紀錄替換為某一確定值,在這里為了簡化直接用“<”和“>”之后的數值來替換。
另外由于關聯規(guī)則分析的數據為離散型,所以需將限量類項目的數值型檢測結果離散化。根據一般危害物風險分析中等級劃分方法,把檢測結果劃分為低等風險、中等風險和高等風險3個等級。
3.2關聯規(guī)則挖掘。根據食品檢測項目數據分布不均的特點,選擇廣度優(yōu)先算法Apriori。它基于這樣的思想:頻繁項集的所有非空子集都必須也是頻繁的。Apriori使用1種稱作逐層搜索的迭代方法,k-項集用于探索(k+1)-項集。首先,找出頻繁1-項集的集合,該集合記作L1。L1用于找頻繁2-項集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k-項集。找每個Lk需要一次數據庫掃描。
找出頻繁項集之后,使用最小置信度min_conf約束對每個頻繁項集進行檢驗。符合該約束的規(guī)則即為所求,進行輸出。
4.應用實例
本實例中所涉及到的數據取自某檢疫局提供的食品安全檢測數據庫。
在數據預處理的離散化部分,根據數據分布情況,選取衛(wèi)生標準值1/2、衛(wèi)生標準值為分界點,將其離散化為低等風險、中等風險和高等風險。在關聯規(guī)則挖掘部分,設置最小支持度為10%,最小置信度為90%,進行挖掘。
挖掘產生的規(guī)則中,取幾條具代表性的進行分析:
(1)時間=第四季度∧食品類別=果酒&葡萄酒?圯總二氧化硫=低等風險。
(2)出口國代碼=826∧食品類別=谷類蒸餾酒?圯甲醇=低等風險。
(3)出口國代碼=554∧食品類別=乳制品沙門氏菌=未檢出?圯金黃色葡萄球菌=未檢出。
上面的例子可以看出,由于食品中危害物殘留量受多方面因素影響,可能與食品種類、時間、產地、當地加工制造過程甚至其他危害物等諸多因素都有關,所以在實際的應用中,需結合專業(yè)知識來分析挖掘所產生的規(guī)則。
5.結語
關聯規(guī)則挖掘方法在對食品安全檢測數據中多因素的分析上,有著數理統計方法不可比擬的優(yōu)勢。將關聯規(guī)則挖掘引入食品安全監(jiān)測數據分析,可以更有效的從已有檢測數據中發(fā)掘有用信息,對食品安全監(jiān)管制定決策有一定的輔助作用。
基金項目:保定市科學技術協會科研課題《保定市食品質量安全體系的研究》(KX2013A17)
參考文獻:
[1]黃志權.食品衛(wèi)生監(jiān)測在食品安全監(jiān)管中的作用[J]中國公共衛(wèi)生管理,2005年21期
[2]章杰鑫,張烈平.基于時序關聯規(guī)則的商品需求預測[J]計算機工程,2009年22期