王雅潔等
摘要 食品安全綜合評價與預警是食品安全的重難點。該研究著重介紹了大數據挖掘在食品安全風險預警領域的應用。首先對大數據的基本概念及3種典型的大數據挖掘技術(貝葉斯網絡、決策樹以及人工神經網絡)概念進行分析,并探討這3種大數據挖掘方式在食品安全行業的應用現狀。之后比較3種大數據挖掘方式,提出將其中一種大數據挖掘方式BP神經網絡運用于食品安全風險預警的構想。
關鍵詞:食品安全;大數據挖掘;風險預警;貝葉斯網絡;決策樹;BP神經網絡
中圖分類號:S126;TP39 文獻標識碼 A 文章編號 0517-6611(2015)08-332-03
近年來,信息產業界的新興服務飛速發展,各行業的數據種類和規模呈現指數級增長,我國大數據的時代已正式開啟。大數據概念的興起為人們提供了一種新的看待世界的方法,為了讓存于數據倉庫中的大量數據變得有價值,對大數據的挖掘成為普遍關注的話題。與此同時,食品安全事件在我國頻頻發生,如“瘦肉精”中毒事件、“蘇丹紅”事件、劣質奶粉事件、“三聚氰胺”事件以及有毒大米事件等,嚴重威脅群眾的身體健康,引起極大的負面社會效應。因此食品安全綜合評價與預警越來越成為食品安全的重點。尋找有效的預警方式能夠極大程度地提高食品安全水平,大數據挖掘技術正是這樣一種有效的預警方式。筆者對大數據的基本概念進行剖析,并分析大數據挖掘中3種典型的挖掘方式及其在食品安全領域的應用,對比分析3種大數據挖掘方式應用于食品安全風險預警領域的適應度,在此基礎上,選取其中較優的大數據挖掘方式,探討將其應用于食品風險預警領域的初步設想。
1 大數據概述
大數據是一個比較抽象的概念,僅從字面上來看,表示數據規模龐大,數據多元化等。對于大數據的定義,目前沒有一個比較統一的、公認的定義。“大數據”這個術語最初始的引用可追溯到apache org的開源項目Nutch。那時候,大數據曾被定義為“更新網絡搜索所需要進行批量處理或分析的大量數據”[1]。維基百科認為大數據是任何大量復雜的,難以用傳統的數據處理方式處理的數據集[2]。Grobelink則定義大數據應具有以下3個特點(3V):Volume(規模性)、Veocity(高速型)和Variety(多樣性)[3],這也是目前比較廣泛且具有代表性的定義。此外,在“3V”的基礎上,某些大型企業提出了“4V”定義,即在已有3V 的基礎上再添加一個新的特性。目前,關于第四個“V”的定義還未統一,IDC 認為大數據還應當具有價值性(Value)[4],而IBM認為大數據必然具有真實性(Veracity)[5]。
2 3種大數據挖掘方式原理概況及在食品安全行業的應用現狀
幾年來,隨著計算機硬件穩定的發展,大量功能強大數據收集設備和存儲介質被廣泛供應在市場上,與此同時大力促進了數據庫的發展,使得大量信息和數據存儲與數據庫中[6]。在大數據庫中大量的數據成了“數據墳墓”,如何讓這些海量的數據“蘇醒”過來,將數據墳墓轉變成為有價值的知識“金塊”,人們需要尋求有效的解決方式。大數據挖掘技術正是這樣一種解決數據和知識之間的鴻溝,將數據轉變成知識的有效方式。大數據挖掘是將潛在隱含的信息從數據中提取,通過開發計算機程序在數據庫中進行自動挖掘,以發現規律或模式的一種有效手段[6]。大數據挖掘,即“從大數據中挖掘知識”[7]。如果能從對海量數據的挖掘中發現明顯的模式,這些模式可被人們總結、理解和設計,并可用來對未來大規模的數據做出準確的預測。大數據挖掘方式基于傳統的數據挖掘,而數據挖掘技術由眾多學科領域技術的集成,比較常見的包括機器學習、統計學、模式識別、高性能計算等。常見的機器學習數據挖掘技術有貝葉斯網絡(Bayesian Network)、決策樹(Decision Tree)、人工神經網絡(Artificial Neuron Network)等。
2.1 貝葉斯網絡 貝葉斯網絡是由Pearl在1988年提出的。貝葉斯網絡是一種不確定的表示模式,實質上是一個賦值的復雜因果關系網絡,表現為一種有向無環圖(directed acyclic graph,DGA)[8]。每個網絡中的結點代表一個變量,即為一個事件。變量之間的弧表示事件發生的直接因果關系。弧的規則使得貝葉斯網絡能夠很好地表示那些不確定的內在概率。貝葉斯網絡反映整個數據域中數據間的概率關系,可被用來發現令人信服的概率依賴關系。貝葉斯網絡是一個十分簡潔,易于理解的模型。基于理解行為、結果及它們之間因果關系的條件下,合理的解釋可能出現的結果,從而進行預測和決策[10]。貝葉斯網絡能有效處理不完整數據,能和其他技術相結合進行因果分析。同時貝葉斯網絡能夠使先驗知識和數據有機結合,且有效地避免數據的過度擬合。
貝葉斯網絡在食品行業中的運用,比較有代表性的是用于食品產品設計[11]。例如,在食品貝葉斯網絡建模中,如果知道人們普遍喜歡甜的食品,在樣本中也存在既甜又受歡迎的食品,那么貝葉斯網絡推理出這個食品的顏色將會影響其受歡迎程度。而傳統基于規則的專家推薦系統由于系統是模塊劃的,其中的一些規則與其他規則或數據源的內容無關,則不能處理類似此類情況的問題,而貝葉斯網絡中的條件概率則解決了這一問題。此外,貝葉斯網絡模型是風險評價概率統計模型的代表,曾被應用于食品供應鏈的風險概率估計[12]。通過裁剪食品供應鏈中物流、信息流和資金流等風險因素,分析初始風險事件,建立貝葉斯網絡模型進行風險評價。由于食品供應鏈對于不同的初始事件響應不同,事件發展過程及結果也是不同的。通過獲取貝葉斯網絡中每個節點關系的條件概率值,計算聯合概率,即可得到食品的風險值。
2.2 決策樹 決策樹是機器學習中應用相對廣泛的歸納推理算法之一,通過逼近離散值函數的方法,以優先選擇較小的“樹”為原則,將學習到的函數表示為一棵決策樹。決策樹能夠很好地學習噪聲數據,從中學習規律,析取表達式[13]。在決策樹中,每個節點都代表一個特定的實例,這些實例被決策樹從根節點依次排列到葉子結點上。決策樹通過判定來分類實例,實例所屬的分類最終被表現在葉子節點上。實例的分類方式是從決策樹的根節點開始。依次選擇某個實例的屬性值,然后根據該屬性對應的樹枝繼續向下至另一個節點(實例)。接著以新實例為決策樹的根循環以上步驟,最終可得到實例的分類。通過從根到葉子節點的路徑選擇來生成規則集合,該集合可以高度地概括和歸納樣本數據規則,并且精準地判別樣本的個體屬性,同時也可以應用于預測或判別新的樣本屬性。
決策樹分析法通過樹狀的邏輯思維方式解決復雜決策問題,是以風險分析為依據的決策方法。決策樹在食品行業的運用有基于農產品的食品安全評估研究[14],其針對影響農產品質量安全的數據特點,結合降維方式進行數據預處理,找出影響質量安全的主要特征值,并構建基于組合優化決策樹的農產品質量安全判別模型,選取如地下水重金屬含量、土壤pH、種植規模性等不同的農產品影響因素作為決策樹的屬性。將數據樣本分成訓練集和測試集,通過訓練,得到規則集合。將測試集中的數據樣本輸入決策樹模型,計算準確率,從而得到決策樹方法是否能對農產品質量安全風險進行評估的結論。決策樹還被運用于具體檢測指標來評價油炸性方便面的品質等[15]。
2.3 人工神經網絡 人工神經網絡來源于生物學,通過模擬生物學中相互連接神經元組成的復雜網絡進行建模,是一種學習精度較高的數據挖掘方式。由于神經網絡能夠很好地學習數據中的錯誤,通過訓練精準的發現數據中的隱含規律,目前已被成功應用到很多領域。目前,人工神經網絡模型有近10種,常見人工神經網絡為反向傳播(BP)神經網絡[13],神經元被分布在不同的層級之中,每一個層級含有一個或多個神經元。每一個神經元里有一定量的輸入值(可能為上一層神經元的輸出)及輸出值(可能將會作為下一層神經元的輸入)。每一層級中的每一個神經元,都會跟上一層級及下一層級中的每個神經元進行交互,通過正向傳播、權值調整和反向傳播,極大程度地學習所給的數據集,從而訓練好模型。神經網絡擁有健壯性很強的學習能力,其為向量值、離散值或實數值的逼近提供了一種很好的方式。
BP神經網絡具有高度非線性函數映射功能,且其擁有分布式的信息存儲能力及大規模的并行處理能力,其良好的自適應性、較強的抗干擾能力使得其擁有較強的學習能力。BP神經網絡是人工智能中對不確定性問題處理具有高度解決能力的方法,其曾與主成分分析結合被用于近紅外光譜蘋果品種鑒別方法研究[16],該研究首先使用主成分分析對蘋果進行聚類并獲取蘋果的進紅外指紋圖譜,即對于蘋果品種敏感的特征波段,用特征波段圖譜作為神經網絡的輸入,品種作為輸出,建立模型,進行訓練,之后對未知的樣品進行預測。這樣的品種識別準確率達到了100%。此外,BP神經網絡還被用于冬小麥耗水預測[17]、大米直鏈淀粉含量預測等[18]。
3 3種大數據挖掘方式應用于食品安全風險預警領域的適應度對比研究
貝葉斯網絡、決策樹、BP神經網絡都是數據挖掘中最有效的分類方式。通過建模訓練,模型從中學習分類規則,當存在新的未知種類數據時,根據學習經驗,模型具有辨識能力,人們稱這樣的能力為預測。其中,貝葉斯的實現方式是通過依次計算出數據屬于某一類的概率值,其中概率最大的類即為對象的所屬分類。在貝葉斯分類中,所有的屬性都會參與計算及分類。決策樹是一棵二叉樹或多叉樹,針對離散型變量,通過判定的方式,自上而下遞歸構造,樹的各個葉節點都代表一個分類。而BP神經網絡是基于感知器的分類器,通過訓練模式的迭代和學習算法,產生線性或非線性的可分別判別函數。只需給定神經網絡大量的輸入和目標輸出對,BP神經網絡通過正向傳播、權值調整及反向傳播,進行訓練。神經網絡把所學到的知識規律記憶在網絡的權值中,從而找出數據隱含規則。BP人工神經網絡的權值不是通過計算,而是通過網絡自身的訓練來完成的。
從準確度來看,數據量越大,訓練集則越多,分類器也就越精準。貝葉斯網絡和BP神經網絡的準確度較高,而決策樹的精準性很大程度取決于數據的完整程度,某些字段上的缺值會影響其準確性。缺值越多,則決策樹越不精準,且決策樹存在過擬合現象的幾率較高。針對食品安全檢測數據來說,檢測指標較多,且很多檢測結果值為“不判定”或“未檢出”,導致缺值過多,會對決策樹的學習造成較大的影響。
從訓練速度來看,在大數據環境下,針對某種食品的檢測指標繁多,即屬性繁多。由于貝葉斯網絡依賴于概率計算,屬性組合的計算復雜程度會增加,使得預測難度加大,需要的時間也會更長。決策樹由于進行深度優先搜索,算法受內存大小限制,難于處理大訓練集,所以隨著數據量增長,決策樹的處理速度也會減慢很多。而基于感知器的神經網絡,由于本身對處理不確定問題具有高度的解決能力,大量神經元的圍觀活動構成了神經網絡的總體宏觀效應,并且有很好的自適應性,隨著數據量的增大,模型會越來越精準。不同于貝葉斯網絡和決策樹,神經網絡是通過自我權值調整進行規則學習,因此從訓練速度上,也會優于前2種算法。
從健壯性來看,由于食品檢測數據常常出現空缺值(e.g.如不判定),或是噪聲(e.g.如檢測不準確),而對于有噪聲或空缺值時,由于貝葉斯網絡是通過概率計算來實現,無法準確地定義噪聲或空缺值概率,會對模型訓練造成一定的影響。決策樹由于自身容錯性較差,數據依賴性過強,數據噪聲或不完整性都會對構建決策樹模型造成影響。而神經網絡本身具有較高的容錯性,若一部分數據不完整,則神經網絡可以從另一部分數據中學習隱含規律,通過自身權值調整,進行規律學習,從而構造健壯的模型。
綜上所述,BP神經網絡以其準確率性高,訓練速度快,健壯性強優于其他2種數據挖掘方式,且其以并行處理、自學習自適應強,實時性、容錯性強等見長。且BP神經網絡具有較強的靈活度,新的訓練數據集可以簡便的被用于模型訓練當中,從而提高模型的準確性,很適合應用于食品安全風險預警領域。因此,該研究探討將BP神經網絡運用到食品安全預警領域的具體設想。
4 BP神經網絡在食品風險預警領域的可能性運用設想
BP神經網絡是人工神經網絡中的一種,是人工智能的重要工具,其通過大量樣本訓練得到模型隱含規律。
在食品檢測中,人們往往得到簡單的“合格”或“不合格”的判定結果。這樣的檢測結果雖一目了然,但是對于食品安全風險的控制并無幫助。如果能基于食品各檢測指標的具體檢測值,對該食品的風險程度進行一個分級評價,有助于為有關風險評價部門提供決策支持。
傳統的風險評級方式有專家打分[19]、風險矩陣[20]等。這些的方式雖然較準確,但由于專家打分基于人為評價,風險矩陣計算復雜度高,耗費較高的人力、物力,都不適用于食品安全大數據的風險預警。于是可根據BP神經網絡潛在的規律,讓其學習專家打分方式的風險分級。當存在新的檢測數據時,其可根據學習到的規律進行評價。筆者認為,在大數據環境下,BP神經網絡十分適用于基于某類食品的食品安全風險預警。
首先通過篩選影響某類食品檢測結果的不同維度,如化學污染、農藥殘留、獸藥殘留、重金屬情況、致病菌等,采用專家打分法,由專家結合以上不同維度檢測項目的檢測結果進行一個風險評級。對不同歷史數據樣本期望得到的評級不同。之后將以上維度的的檢測值作為神經網絡的輸入神經元,神經元的數量由選取的維度決定,并將通過專家打分得到的評級作為目標輸出神經元,進行訓練。通過將大量的輸入、目標輸出樣本送入神經網絡,讓其通過正向傳播、反向傳播和權值調整進行潛在的規則學習。這樣當有未知數據時,通過將其輸入神經網絡,神經網絡即可模擬專家進行評級。由于神經網絡具有較高的靈活性,新的數據及評級又可以作為神經網絡的訓練集。這樣,隨著數據量的增大,神經網絡模型將越來越精確,以至于減少人為因素導致的錯誤及人力成本。
5 結語
該研究首先對大數據的基本概念進行剖析,并分析大數據挖掘中機器學習領域3種典型的挖掘方式,探討其在食品安全風險預警領域的運用。之后對比分析3種大數據挖掘方式應用于食品安全風險預警領域的適應度,最后提出將BP神經網絡應用于食品風險預警領域的方式,并給出了BP神經網絡優于其他2種數據挖掘技術的解釋。
參考文獻
[1] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(1):146-169.
[2] Big data[EB/OL].[2012-10-02] http://en.wikipedia.org/wiki/Big_dat.
[3] GROBELINK M.Big data computing:Creating revolutionary breakthroughs in commerce,science and society[R].2012.
[4] BARWICK H.The ‘four Vs of Big Data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[5] IBM.What is big data? [EB/OL].[2012-10-02].http://www-01.ibm.com/software/data/bigdata/.
[6] WITTEN IAN H,EIBE FRANK.Data Mining:Practical machine learning tools and techniques[M].Morgan Kaufmann,2005.
[7] 韓家煒,坎伯.數據挖掘:概念與技術[M].北京:機械工業出版社 2001:100-103.
[8] PEARL JUDEA.Probabilistic reasoning in intelligent systems:networks of plausible inference[M].San Mateo,Calif:Morgan Kaufmann Pub,1988.
[9] 林士敏,田鳳占.貝葉斯網絡的建造及其在數據采掘中的應用[J].清華大學學報:自然科學版,2001,41(1):49-52.
[10] 冀俊忠,劉椿年,沙志強.貝葉斯網模型的學習,推理和應用[J].計算機工程與應用,2003,39(5):24-27.
[11] CORNEY D.Designing food with bayesian belief networks[C]//ACDM 2000 fourth international conference on adaptive computing in design and manufacture.Springer London,2000:83-94.
[12] 張麗,滕飛,王鵬.基于貝葉斯網絡的食品供應鏈風險評價研究[J].食品研究與開發,2014(18):53.
[13] MITCHELL TOM M.Machine learning[M].WCB,1997.
[14] 趙靜嫻.基于決策樹的食品安全評估研究[J].安徽農業科學,2012,39(3):20259.
[15] 歐陽一非,薛丹,高海燕,等.基于決策樹方法的油炸型方便面品質評價研究[J].食品科學,2009(5):27-31.
[16] 何勇,李曉麗,邵詠妮.基于主成分分析和神經網絡的近紅外光譜蘋果品種鑒別方法研究[J].光譜學與光譜分析,2006,26(5):850-853.
[17] 陳博,歐陽竹.基于 BP 神經網絡的冬小麥耗水預測[J].農業工程學報,2010,26(4):81-86.
[18] 劉建學,吳守一.基于近紅外光譜的神經網絡預測大米直鏈淀粉含量[J].農業機械學報,2001,32(2):55-57.
[19] 郝書池,姜燕寧.基于改進型主成分分析法的食品供應商評價模型研究[J].物流技術,2010,29(8):62-64.
[20] 劉清珺,陳婷,張經華,等.基于風險矩陣的食品安全風險監測模型[J].食品科學,2010(5):86-90.