□朱 佳 張 萍 高志國
大數(shù)據(jù)挖掘技術(shù)在進(jìn)出口食品農(nóng)產(chǎn)品安全風(fēng)險(xiǎn)預(yù)警中的應(yīng)用研究
□朱 佳1張 萍1高志國2
出入境檢驗(yàn)檢疫機(jī)構(gòu)是進(jìn)出口食品農(nóng)產(chǎn)品安全風(fēng)險(xiǎn)的主管部門,其下屬檢測(cè)機(jī)構(gòu)每年檢測(cè)大量樣本,產(chǎn)生大量的檢測(cè)數(shù)據(jù),并定期公布風(fēng)險(xiǎn)預(yù)警信息。利用數(shù)據(jù)挖掘技術(shù),對(duì)海量的檢測(cè)結(jié)果數(shù)據(jù)進(jìn)行挖掘分析,在國內(nèi)尚無先例。在進(jìn)出口食品農(nóng)產(chǎn)品安全風(fēng)險(xiǎn)預(yù)警中應(yīng)用數(shù)據(jù)挖掘技術(shù),比傳統(tǒng)的數(shù)理統(tǒng)計(jì)有明顯的優(yōu)勢(shì),其挖掘結(jié)果及趨勢(shì)分析對(duì)于輔助政府對(duì)進(jìn)出口食品農(nóng)產(chǎn)品安全的管理與決策,是具有實(shí)際意義的。
數(shù)據(jù)挖掘;進(jìn)出口;食品農(nóng)產(chǎn)品;風(fēng)險(xiǎn)預(yù)警
進(jìn)出口食品農(nóng)產(chǎn)品的安全檢測(cè)的大數(shù)據(jù)時(shí)代已經(jīng)到來。在我國,出入境檢驗(yàn)檢疫機(jī)構(gòu)對(duì)進(jìn)出口食品農(nóng)產(chǎn)品的安全性負(fù)有管理職責(zé)。國內(nèi)各級(jí)出入檢驗(yàn)檢疫機(jī)構(gòu)都有自己食品檢測(cè)實(shí)驗(yàn)室,每天受理各出口單位的大量檢測(cè)申請(qǐng),多年來積累了數(shù)量巨大的食品檢測(cè)信息,已經(jīng)構(gòu)成了規(guī)模相當(dāng)?shù)某隹谑称忿r(nóng)產(chǎn)品檢測(cè)結(jié)果信息庫,樣品檢測(cè)的大數(shù)據(jù)時(shí)代已經(jīng)到來。單份樣品的檢測(cè)報(bào)告中能夠反映出口食品的某一項(xiàng)或幾項(xiàng),但形成大數(shù)據(jù)以后,我們可以挖掘出豐富的、深層次的出口食品農(nóng)產(chǎn)品安全信息。在大數(shù)據(jù)中挖掘出這些信息,并有效利用,為改革檢驗(yàn)檢疫監(jiān)管模式提供決策依據(jù),是有效面對(duì)國外技術(shù)性貿(mào)易壁壘的解決手段,也是出入境食品安全風(fēng)險(xiǎn)預(yù)警急需解決的重大問題。對(duì)政府部門和監(jiān)管機(jī)構(gòu)來說,利用大數(shù)據(jù)挖掘技術(shù)尋找進(jìn)出口食品安全的發(fā)展趨勢(shì)和預(yù)警信息,發(fā)現(xiàn)食品農(nóng)產(chǎn)品的生產(chǎn)、加工、儲(chǔ)運(yùn)各環(huán)節(jié)存在的問題,引導(dǎo)進(jìn)出口企業(yè)趨利避害,具有非常重要的實(shí)際意義。
出口食品農(nóng)產(chǎn)品安全風(fēng)險(xiǎn)分析預(yù)警是目前控制食品安全性的較為先進(jìn)有效的手段,也屬于檢驗(yàn)檢疫機(jī)構(gòu)行政執(zhí)法職能的范圍。目前,國內(nèi)的食品農(nóng)產(chǎn)品風(fēng)險(xiǎn)預(yù)警手段僅限于典型案例通報(bào)和簡單的數(shù)理統(tǒng)計(jì)兩類方式,尚無有效的手段對(duì)大量的食品農(nóng)產(chǎn)品檢測(cè)數(shù)據(jù)進(jìn)行深度分析利用。在處理大量的檢測(cè)數(shù)據(jù)時(shí),大數(shù)據(jù)挖掘技術(shù)較以往的數(shù)理統(tǒng)計(jì)分析方法更適于對(duì)食品安全檢測(cè)數(shù)據(jù)中多因素的分析,可以發(fā)現(xiàn)其中有價(jià)值的知識(shí)、規(guī)則,為決策提供依據(jù),是一種高效的分析手段。但是,目前無論是在出入境檢驗(yàn)檢疫部門還是在食品安全監(jiān)管部門,尚沒有成熟的數(shù)據(jù)挖掘技術(shù)應(yīng)用案例應(yīng)用。在國內(nèi)外食品農(nóng)產(chǎn)品企業(yè)的安全風(fēng)險(xiǎn)預(yù)警中,數(shù)據(jù)挖掘技術(shù)實(shí)際應(yīng)用仍是空白。本文就大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘技術(shù)在出入境食品農(nóng)產(chǎn)品安全風(fēng)險(xiǎn)預(yù)警中的應(yīng)用進(jìn)行了研究,主要內(nèi)容如下:
大數(shù)據(jù),顧名思義就是海量數(shù)據(jù)。從中分析、提取出數(shù)據(jù)之間的規(guī)律性發(fā)展趨勢(shì),發(fā)現(xiàn)離散數(shù)據(jù)之間的聯(lián)系,排除垃圾數(shù)據(jù)的干擾,形成有用的知識(shí),就是數(shù)據(jù)挖掘,也有觀點(diǎn)認(rèn)為這是聯(lián)機(jī)分析處理(OLAP)的高級(jí)階段[1]。數(shù)據(jù)挖掘工具可以利用已有的分析工具在海量信息中分析數(shù)據(jù)間的關(guān)系,建立有效的分析模型,這些模型和關(guān)系可以用來做趨勢(shì)分析。簡單的說,就是從海量的、信息不完整的、有噪聲的、無規(guī)律的實(shí)際應(yīng)用數(shù)據(jù)中,尋找潛在有用的信息和知識(shí)的過程。
面對(duì)海量進(jìn)出口食品農(nóng)產(chǎn)品檢測(cè)結(jié)果信息,出入境檢驗(yàn)檢疫希望能夠通過整合全國各地檢測(cè)機(jī)構(gòu)的檢測(cè)結(jié)果,建立食品監(jiān)測(cè)信息的數(shù)據(jù)倉庫,結(jié)合統(tǒng)計(jì)分析與數(shù)據(jù)挖掘,實(shí)現(xiàn)對(duì)食品安全整體狀態(tài)的實(shí)時(shí)監(jiān)測(cè)與預(yù)警,科學(xué)有效的評(píng)價(jià)食品安全狀況,準(zhǔn)確預(yù)測(cè)食品安全的發(fā)展趨勢(shì),為監(jiān)管機(jī)構(gòu)提供科學(xué)的決策依據(jù)。例如,利用大數(shù)據(jù)挖掘,可以發(fā)現(xiàn)某種農(nóng)藥在全國某類食品的地域、季節(jié)分布規(guī)律信息,并根據(jù)時(shí)間變化計(jì)算出發(fā)展趨勢(shì)。具體原理可用流程如圖1來表示。
1.選擇合適的數(shù)據(jù)挖掘系統(tǒng)工具。目前數(shù)據(jù)挖掘系統(tǒng)比較成熟的有IBM公司的Intelligent Miner、SAS的公司Enterprise Miner、SGI的MineSet、ISL公司的Clementine、DBMiner Technology公司開發(fā)的DBMiner等等。上述系統(tǒng)在數(shù)據(jù)挖掘算法和功能上各有特點(diǎn),一般的數(shù)據(jù)挖掘系統(tǒng)往往針對(duì)某一行業(yè)或現(xiàn)有應(yīng)用需求開發(fā),擅長某一特殊的數(shù)據(jù)挖掘算法,或只有一種數(shù)據(jù)挖掘算法。也有的數(shù)據(jù)挖掘系統(tǒng)具備多個(gè)數(shù)據(jù)挖掘功能。這里針對(duì)食品監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)分析統(tǒng)計(jì)及預(yù)測(cè)的功能要求,選擇使用SAS的公司Enterprise Miner,它的突出特點(diǎn)是具有統(tǒng)計(jì)分析工具豐富,這與SAS公司在統(tǒng)計(jì)分析市場(chǎng)多年的項(xiàng)目經(jīng)驗(yàn)密不可分,同時(shí)系統(tǒng)具備強(qiáng)大的圖形工具。

圖1 進(jìn)出口食品農(nóng)產(chǎn)品實(shí)驗(yàn)室檢測(cè)數(shù)據(jù)數(shù)據(jù)挖掘原理
2.建立數(shù)據(jù)倉庫,清洗基礎(chǔ)數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)即是對(duì)原有數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)進(jìn)行集成和重組而形成的數(shù)據(jù)集合,是面向決策分析的數(shù)據(jù)庫。[2]在數(shù)據(jù)倉庫所要解決的問題確定后,選擇合適的軟件平臺(tái),包括數(shù)據(jù)庫、建模工具、分析工具等,先后建立數(shù)據(jù)倉庫的邏輯模型、數(shù)據(jù)模型。最后合并不同的數(shù)據(jù)表,對(duì)已有的數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和傳輸。
進(jìn)出口食品檢測(cè)實(shí)驗(yàn)室近幾年積累的檢測(cè)數(shù)據(jù),格式多樣,表結(jié)構(gòu)不統(tǒng)一,有execl、access、MS sql sever等多種形式的數(shù)據(jù)。利用Enterprise Miner的數(shù)據(jù)導(dǎo)入整理功能,按照出入境檢驗(yàn)檢疫系統(tǒng)的統(tǒng)計(jì)分類方法將食品進(jìn)行分類,積累不同食品中各類危害物的殘留量限量規(guī)定,物理、化學(xué)、生物學(xué)特性、法律法規(guī)等信息,對(duì)出入境檢驗(yàn)檢疫系統(tǒng)內(nèi)檢測(cè)數(shù)據(jù)系統(tǒng)內(nèi)涉及的危害物清單進(jìn)行分類和范圍確定,危害物清單包括農(nóng)、獸藥殘留情況、病原微生物、食品添加劑、生物毒素、有害元素、工業(yè)污染物、禁用類物質(zhì)等,初步分級(jí)分類以后,根據(jù)食品安全檢測(cè)數(shù)據(jù)和信息的特點(diǎn)進(jìn)行數(shù)據(jù)篩選、清洗等處理工作,例如將諸如“未檢出”、“ND”等描述性數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù),以保證基礎(chǔ)數(shù)據(jù)的規(guī)范性,以便那能夠更加方便高效地建立數(shù)據(jù)倉庫,同時(shí)保證數(shù)據(jù)倉庫的質(zhì)量。主要步驟如圖2(自己畫)。

圖2 數(shù)據(jù)清洗流程
3.利用關(guān)聯(lián)、聚類算法和工具建立數(shù)據(jù)分析模型,按照分析需求進(jìn)行數(shù)據(jù)挖掘。食品農(nóng)產(chǎn)品安全檢測(cè)得到的大量的數(shù)據(jù)中,隱含著許多潛在有用的信息。出入境檢驗(yàn)檢疫部門希望通過大數(shù)據(jù)挖掘,提取決策、預(yù)警、趨勢(shì)分析所需要的信息,發(fā)現(xiàn)食品農(nóng)產(chǎn)品的不合格項(xiàng)目在時(shí)間,空間上的分布規(guī)律,預(yù)測(cè)發(fā)展趨勢(shì)。[3]例如,植物監(jiān)管部門可以通過數(shù)據(jù)挖掘,分析全國出口保鮮洋蔥使用農(nóng)藥的地域分布情況,農(nóng)產(chǎn)超標(biāo)突出的地區(qū),或者近幾年以來全國出口保鮮洋蔥使用農(nóng)藥的種類、數(shù)量變化情況。如果某一地區(qū)的某種農(nóng)藥使用含量持續(xù)走高,陽性結(jié)果逐年增多,則可以提出出口保鮮洋蔥的預(yù)警信息。
具體實(shí)施起來首先是食品名稱、種類、生產(chǎn)企業(yè)、地區(qū)、檢測(cè)項(xiàng)目、檢測(cè)結(jié)果、時(shí)間、不合格項(xiàng)目、的多維分析。本文中涉及的主要方法是使用SAS的工具進(jìn)行關(guān)聯(lián)規(guī)則挖掘,建立數(shù)據(jù)模型。以便發(fā)現(xiàn)大量檢測(cè)數(shù)據(jù)中項(xiàng)集之間的關(guān)聯(lián)或相關(guān)聯(lián)系。所謂關(guān)聯(lián)規(guī)則,就是指檢測(cè)信息之間的相互依賴關(guān)系,而利用發(fā)現(xiàn)規(guī)則可以從數(shù)據(jù)倉庫中發(fā)現(xiàn)確信度(Conk—dente)和支持度(Support) 都在提前設(shè)定的閥值之上的強(qiáng)壯規(guī)則。[4]簡單說來就是利用SAS的系統(tǒng)根據(jù)數(shù)據(jù)分析的需要,構(gòu)造一種復(fù)雜但是有用的數(shù)據(jù)結(jié)構(gòu)——數(shù)據(jù)立方體,使用關(guān)聯(lián)規(guī)則挖掘,對(duì)檢測(cè)項(xiàng)目、頻次、抽檢的有效性進(jìn)行分析,發(fā)現(xiàn)食品農(nóng)產(chǎn)品抽檢的有效性,分析陽性結(jié)果的地區(qū)分布特點(diǎn)、時(shí)間分布規(guī)律等。其次是趨勢(shì)分析及預(yù)警,根據(jù)發(fā)現(xiàn)的分布特點(diǎn)、時(shí)空分布規(guī)律,利用發(fā)現(xiàn)規(guī)則,對(duì)安全風(fēng)險(xiǎn)因素進(jìn)行趨勢(shì)分析,超過預(yù)定值的趨勢(shì)預(yù)測(cè)可以作為預(yù)警信息。
基于山東出入境檢驗(yàn)檢疫系統(tǒng)青島、濟(jì)南、煙臺(tái)、濰坊等地的幾大技術(shù)中心及其附屬的幾十個(gè)食品農(nóng)產(chǎn)品實(shí)驗(yàn)室在2006-2011年間積累的數(shù)據(jù),我們利用大數(shù)據(jù)挖掘技術(shù),使用SAS的Enterprise Miner建立了檢測(cè)信息的數(shù)據(jù)倉庫,并對(duì)檢驗(yàn)檢疫業(yè)務(wù)部門的需求進(jìn)行分析,建立了關(guān)聯(lián)分析和發(fā)現(xiàn)分析模型,進(jìn)行數(shù)據(jù)挖掘結(jié)果。為了更直觀的顯示挖掘結(jié)果,我們建立了基于web的檢測(cè)結(jié)果分析預(yù)警系統(tǒng),能夠直觀地輸入分析項(xiàng)目,顯示挖掘結(jié)果,對(duì)進(jìn)出口食品農(nóng)產(chǎn)品業(yè)務(wù)有一個(gè)風(fēng)險(xiǎn)預(yù)警的功能,根據(jù)項(xiàng)目的分類,對(duì)檢測(cè)批次、檢出批次、檢出率及檢出同比增幅的一個(gè)信息的匯總,同時(shí)進(jìn)行趨勢(shì)分析。例如利用2006-2012年度的的數(shù)據(jù)挖掘結(jié)果,對(duì)出口花生檢測(cè)結(jié)果的趨勢(shì)分析(見圖3)。比較直觀的看到了山東出口花生存在的問題是黃曲霉素超標(biāo)和毒死蜱超標(biāo)的問題,數(shù)據(jù)來源于全省多個(gè)實(shí)驗(yàn)室、花生制品廠家及國外的的通報(bào)。有了這一結(jié)果,在指導(dǎo)檢驗(yàn)檢疫局的具體工作上就有了目的性,對(duì)花生種植和產(chǎn)品加工過程質(zhì)量控制有了指導(dǎo)意義。

圖3 山東出口花生安全風(fēng)險(xiǎn)趨勢(shì)圖
與以往的數(shù)理統(tǒng)計(jì)和典型案例的分析方法相比,該項(xiàng)目更適于對(duì)出入境食品農(nóng)產(chǎn)品安全檢測(cè)數(shù)據(jù)中多因素的分析,可以發(fā)現(xiàn)其中隱含的關(guān)聯(lián)規(guī)則,有價(jià)值的知識(shí)、規(guī)則,新的風(fēng)險(xiǎn)信息或高層次的信息就能從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,為決策提供依據(jù)。數(shù)據(jù)挖掘技術(shù)在進(jìn)出口食品農(nóng)產(chǎn)品安全風(fēng)險(xiǎn)預(yù)警中的應(yīng)用,有助于解決如何建立食品安全風(fēng)險(xiǎn)預(yù)警分析的直觀平臺(tái),如何著力解決如何科學(xué)抽檢,如何確定各類危害物預(yù)警等級(jí),如何合理確定抽檢食品的檢測(cè)項(xiàng)目等監(jiān)管工作中亟待解決的問題,最終服務(wù)與食品安全管理與決策。
[1] J. Han,M. Kamber數(shù)據(jù)挖掘:概念與技術(shù)[M].機(jī)械工業(yè)出版社,2012:10-11.
[2]王珊,薩師煊數(shù)據(jù)庫系統(tǒng)概論[M].高等教育出版社,2011:408-411.
[3] 錢敏,陳海光,白衛(wèi)東,趙文紅,黃桂穎.食品安全問題背后的思考——構(gòu)建食品安全預(yù)警體系和食品安全追溯體系[A].廣東省食品學(xué)會(huì)第六次會(huì)員大會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2012.
[4] 陸昌華,黃勝海,吳孜忞,胡肄農(nóng),白云峰,白紅武.動(dòng)物衛(wèi)生風(fēng)險(xiǎn)管理機(jī)制構(gòu)建及管理資源合理配置的初探[A];中國畜牧獸醫(yī)學(xué)會(huì)獸醫(yī)公共衛(wèi)生學(xué)分會(huì)第二次學(xué)術(shù)研討會(huì)論文集[C];2010.
[5] 董春蘭.數(shù)據(jù)倉庫在ITS中的應(yīng)用[A];2007第三屆中國智能交通年會(huì)論文集[C],2007.
2014-03-20
1.山東商業(yè)職業(yè)技術(shù)學(xué)院,山東 濟(jì)南,250103;2.濟(jì)南出入境檢驗(yàn)檢疫局,山東 濟(jì)南,250014
朱 佳(1978- ),女,碩士研究生,從事數(shù)據(jù)庫教學(xué)及研究工作;張 萍(1983- ),女,碩士研究生,從事數(shù)據(jù)庫教學(xué)及研究工作;高志國(1979- ),男,碩士研究生,專業(yè)方向?yàn)橛?jì)算機(jī)技術(shù),近年來從事出入境檢驗(yàn)檢疫綜合管理及統(tǒng)計(jì)分析工作。
F323.7
A
1008-8091(2014)03-0099-04
山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2014年3期