孫建召
(河南經貿職業學院計算機工程學院,河南鄭州 450018)
我國為農業與人口大國,近年來,隨著我國經濟迅猛發展,人們物質及生活水平逐漸提高,對農產品質量的要求越來越高[1]。農產品出口為我國外匯收入的關鍵部分[2],當前國外對農產品進口出臺貿易保護政策,且我國少部分出口農產品質量標準低,被進口國退貨的事件時有發生[3]。面對國內外環境,農產品作為食品的源頭,其質量直接影響著國家發展,須研究一種有效的農產品質量控制方法,保證市場農產品質量。
當前,我國政府對農產品質量控制非常關注,出臺了相應的法律法規,為農產品質量控制分析與應用提供了重要保障[4]。在此基礎上,很多學者對農產品質量控制進行了系統研究,但當前農產品質量控制方法大多通過抽樣實現農產品質量控制,結果并不可靠,為此,提出一種新的基于大數據分析的農產品質量控制方法,不但控制精度和穩定性高,而且具有很高的參考價值。
建立大數據分析背景下農產品質量控制體系框架(圖1)。依據農業信息化基礎設施建立體系,通過模塊化開發平臺為農產品質量控制體系提供開發環境,利用網絡提供質量控制服務,主要包括用戶訪問層、業務服務層、數據平臺層、基礎數據層和虛擬資源層。
1.2.1 數據采集技術 為實現農產品質量控制,須對其生產銷售過程中的重要參數進行采集,即基礎數據庫層。無線傳感網絡能夠實時采集數據,選用基于ZigBee的無線傳感網絡對數據進行采集。ZigBee整體性能高[5],基于ZigBee的無線傳感網絡將CC2430作為核心,主要用于數據交換[6]。CC2430為TI(Texas Instruments)企業生產的芯片,其內置增強型8051控制器與2.8 GHz擴頻射頻收發器,外圍電路簡單,是一種高性能芯片[7]。ZigBee模塊除CC2430芯片外,還有天線、傳感器等,實質上就是一個節點,能夠和其他節點通信。

ZigBee網絡拓撲結構即ZigBee節點的組網結構,主要有星型、樹型與網狀等3種結構[8],用于實際應用環境中,選擇合理的ZigBee網絡拓撲結構。
本節農產品質量控制體系選用網狀拓撲結構。在ZigBee模塊中,網狀拓撲結構有網絡協調器、路由器和終端設備等3種通信設備(圖2)。選用的網狀拓撲結構自組織與自愈能力強,可以很好地適應農產品大數據分析需求。

網狀拓撲結構的ZigBee網絡能夠有效地采集農產品數據,利用中繼方式[9]把采集數據發送至遠程數據中心。遠程數據中心將接收的數據保存至數據庫,通過業務服務層與數據平臺層進行大數據分析,再保存至Web存儲器及相應服務器。
1.2.2 農產品質量監控 主要對生產階段、收購階段、加工階段、銷售階段的農產品質量進行監控。將生產階段、加工階段的農產品看作主要研究目標,開展有針對性的質量控制監控研究。研究關鍵為基于大數據分析的農產品質量控制,將大數據分析應用于農產品質量控制中,而本節提出的質量監控方法為大數據分析的基礎。農產品質量監控過程如圖3所示。

通過檢測歷史異常數據和數據分布異常對農產品數據進行分析,實現對農產品質量監控。
在對農產品質量進行監控時,隨著時間的推移,會形成大規模監測數據集合。對農產品數據進行研究,獲取數據的變化規律與比較數據庫當前數據改變規律,得到監控農產品數據改變趨勢,從而發現可能出現的農產品質量異常情況。
(1)
式中:δab為決定農產品質量控制過程中檢測數據歷史異常趨勢系數,該值的正負情況表示異常狀況個數在使用者設定的m個時間區間中的遞增或遞減趨勢;a為m個時間區間中發生異常狀況的總個數;ab為第b個時間區間中出現質量異常的個數,這里:
(2)
對于時間區間而言,可依據農產品的種類、特性等因素進行設定[10],通常為幾天,有時為幾個月。
在分析過程中,農產品質量控制人員根據實際狀況對趨勢系數δab的閾值ξ進行設定,若δab>ξ,表明農產品質量控制要素在質量安全上發生異常,并按照事先設定的危險等級進行報警。
根據異常趨勢系數δab能夠掌握被監控農產品質量控制點在某一時期內數值的改變情況,是一種依據時間序列的質量控制方法。
數據分布異常主要針對不同區域中的相同要素進行分析和比較,從而獲取各區域間不同農產品質量監測方法。
農產品監測數據歷史數據庫中包含了所有質量數據異常的信息,對歷史數據庫中異常數據在不同區域的分布狀態進行分析,有助于質量監測人員發現各區域已經存在及潛在的農產品質量問題。
詳細過程如下:
針對須監控的農產品區域,首先將其分為k個子區域,用q描述區域向量,通過k個子區域構成1個集合,也就是q=(q1,q2,…,qk)。用L描述相應子區域出現異常的農產品數據集合,也就是L=(L1,L2,…,Lk)。假設R是從數據庫中采集的該區域完成檢測的質量控制要素個數,也就是R=(R1,R2,…,Rk),則有:
(3)
區域i中的農產品質量數據異常情況通過均值可描述成ui,u=(u1,u2,…,uk),ε表示常數,負責對u進行標準化處理,使其處于(1,10)范圍內[11]。
農產品質量監測按照實際情況對閾值S進行設置,S=(S1,S2,…,Sk),在ui>Si的情況下,認為qi區域有質量異常農產品數據,用戶須按情況發出報警信息。
針對上述區域,農產品異常狀態數據量均值u可通過下式計算:
(4)
(5)

1.3.1 射頻識別(radio frequency identification,簡稱RFID)硬件設計 通過射頻識別對出現質量問題的農產品進行溯源和召回,射頻識別系統結構如圖4所示。

射頻識別系統主要包括電子標簽、讀寫器和計算機通信網絡。
電子標簽主要用于保存農產品相關信息,一般被置于農產品上,其保存的信息可利用讀寫器通過非接觸形式讀寫[12]。讀寫器為能夠通過射頻技術實現電子標簽信息讀寫操作的裝置。讀寫器讀出標簽信息后,利用PC機和網絡系統對信息進行傳輸。在射頻識別系統中,計算機通信網絡主要負責完成對農產品質量數據的管理,實現通信功能。讀寫器能夠經標準接口和PC機通信網絡相連[13],從而達到通信與數據傳輸的目的。
1.3.2 軟件設計 當農產品出現質量問題時,先根據出現質量問題的成品批次,從下到上逐步找到出現問題的原料批次,即溯源;再根據這些出現質量問題的原料批次,由上到下逐步找出含此批次的成品,即跟蹤;最后將它們一并召回。依據批次的農產品召回示意如圖5所示。

上面主要闡述了依據批次的農產品溯源與召回原理,下面對其優化模型進行介紹。先對各層次批次集合進行定義,主要包括原料C個批次、部件P個批次、半成品G個批次以及成品V個批次,且可依次分成D、N、H、Z個類別,依次對原料層次YL、部件層次BJ、半成品層次HP以及成品層次CP的批次集合進行描述,公式描述如下:
YL=(YL1,…,YLc,…,YLC);
(6)
BJ=(BJ1,…,BJp,…,BJP);
(7)
HP=(HP1,…,HPg,…,HPG);
8)
CP=(CP1,…,CPv,…,CPV)。
(9)
各層中任意一個批次的屬性可描述為:
YLc=(IYLc,CYLc,NYLc);
(10)
BJp=(IBJp,CBJp,NBJp);
(11)
HPg=(IHPg,CHPg,NHPg);
(12)
CPv=(ICPv,CCPv,NCPv)。
(13)
在各層中,各批次農場品均存在電子標簽、類別以及數目等3大屬性。對于原料批次YLc的屬性,IYLc表示其電子標簽,為此批次在整個系統中的唯一標志;CYLc表示它的類別,且CYLc∈{1,…,d,…,D};NYLc表示它的數量。同理,可實現部件、半成品以及成品各批次屬性的定義,其批次電子標簽屬性依次是IBJ、IHP、ICP,類別屬性依次是CBJ、CHP、CCP,數目屬性依次是NBJ、NHP、NCP。
分解、組合和包裝比例只受批次類別屬性的影響,存在下述關系:

(14)

15)

(16)
式中:Dec(d,n)用于描述分解比例,也就是原材料類別d分解至部件類別n的比例;Gro(n,h)用于描述組合比例,也就是半成品類別h中,部件類別n占用的比例;Pac(h,z)用于描述包裝比例,也就是成品類別z中,半成品類別h占用的比例。
用X(c,p)描述原料至部件的批次布爾變量,BJp中含YLc的元素時,則X(c,p)為1,否則X(c,p),為0;用K(p,g)描述部件至半成品的批次布爾變量,若HPg中含有BJp元素,則K(p,g)為1,否則K(p,g)為0;用Y(g,v)描述半成品至成品的批次布爾變量,若CPv中存在HPg元素,則Y(g,v)為1,否則Y(g,v)為0;用W(c,v)描述原料至成品的批次布爾變量,若CPv中含有YLc元素,則W(c,v)為1,否則W(c,v)為0。通過布爾運算可得:

(17)
一旦原料批次YLc出現質量不達標問題,對全部含有YLc的成品批次均召回。通過下式求出平均召回規模:
(18)
在生產和加工的過程中,受加工器械、工作場景以及人員水平的制約[14],考慮到經濟效益,須將部件與半成品批次的數量控制在某一范圍。設類別為n的部件批次的最大與最小允許數量依次為ξmax(n)與ξmin(n),類別為h的半成品批次的最大與最小允許數量依次為ξmax(h)與ξmin(h)。由此可得部件與半成品的批次數量的限制條件[15],即:
ξmin(CYLc)≤NYLc≤ξmax(CYLc);
(19)
ξmin(CHPg)≤NCHPg≤ξmax(CHPg)。
(20)
將公式(18)作為目標函數,將公式(19)與(20)作為目標函數的約束條件,構建農產品召回優化模型,公式描述如下:
(21)
利用粒子群法對模型進行尋優處理,通過優化模型達到農產品的最小召回目標,從而實現農產品質量控制。
為了驗證本方法的有效性,將統計學方法和數據挖掘方法作為對比進行測試。依次采用3種方法對3個不同種植基地的農產品質量進行控制。試驗樣品采用抽樣方式,針對個體較大的樣品,采樣量為2個。針對個體較小的樣品,采樣量為0.5 kg。
把抽取的樣品混合在一起,通過四分法進行縮分處理。針對個體較小的樣品,去除不可食部分,保留可食部分;針對個體較大的樣品,將其切為小塊;針對不均勻樣品,在其任意部位取小片;針對谷類和豆類樣品,通過圓錐四分法完成縮分。
把縮分后樣品攪碎并混勻,通過四分法取樣,將濕樣勻漿添加至聚乙烯瓶中,在-18 ℃左右環境下儲存,干貨類攪勻后添加至瓶中,在常溫下通風儲存。
以農藥殘留為標準,將有農藥殘留農產品召回,不同濃度農藥殘留對召回率的要求以及3種方法召回率比較結果如表1所示。

表1 不同添加濃度要求召回率及3種方法召回率比較
由表1可知,本研究方法召回率一直處于要求召回率范圍內,且在農藥殘留濃度相同的情況下,本研究方法召回率高于統計學方法和數據挖掘方法。統計學方法和數據挖掘方法召回率大部分未處于要求召回率范圍內,召回率低,說明本研究方法質量控制效果更佳。
農產品質量控制性能評價包括計算工作評價值與技術評定2部分,本研究通過穩健Z比分數對農產品質量控制性能進行衡量,其可通過下式求出:
Zbf=(x-X)÷0.752×3IQR。
(22)
式中:x表示試驗結果;X表示試驗結果中值;IQR表示上四分位數和下四分位數差值。
在穩健Z比分數低于2的情況下,認為相應農產品質量控制方法性能高,控制穩定;在穩健Z比分數在(2,3)范圍內的情況下,認為相應農產品質量控制方法穩定性一般;在穩健Z比分數高于3的情況下,認為相應農產品質量控制方法非常不穩定。由表2可知,本研究方法質量控制穩定性高,而統計學方法和數據挖掘方法的穩定性均一般,控制精度時高時低,實用性較差。
農產品質量控制精度為影響農產品質量控制方法性能的關鍵指標,對3種方法的農產品質量控制精度進行進一步測試。

表2 3種方法質量控制性能比較
通過重復性限和再現性限對農產品質量控制精度進行衡量。在正態分布的情況下,重復性限公式為:
(23)
再現性限公式為:
(24)
式中:δζ表示重復性標準差;δs表示再現性標準差。
將本研究方法、統計學方法和數據挖掘方法檢測結果極差的絕對值和重復性限相比,若極差絕對值低于重復性限,則認為通過質量檢測;否則未通過質量檢測。再現性試驗和重復性相同。按照上述過程對不同方法對農產品質量控制精度進行測試,取平均值。經測試發現,本研究方法控制精度為96.23%,統計學方法控制精度為78.36%,數據挖掘方法控制精度為69.85%,本研究方法控制精度最高。
提出了一種新的基于大數據分析的農產品質量控制方法,建立大數據分析背景下農產品質量控制體系框架,通過基于ZigBee的無線傳感網絡對數據進行采集。通過檢測歷史異常數據和數據分布異常對農產品數據進行分析,實現農產品質量監控,利用RFID射頻識別對出現質量問題的農產品進行溯源和召回,從而實現農產品質量控制。經試驗驗證,本研究所提方法能夠有效控制農產品質量,控制精度和穩定性高。