黃 燕,樊廣
(河北經貿大學 管理科學與工程學院,河北 石家莊 050051)
2017年2月,商務部、國家工業和信息化部、公安部、農業部、國家質檢總局、國家安全與監督管理總局、國家食品藥品監督管理總局聯合發布《關于推進重要產品信息化追溯體系建設的指導意見》,明確指出了關于產品溯源體系建設的重要性[1]。隨著物聯網和大數據技術的發展,利用大數據技術實現農產品溯源體系的構建已經成為一種趨勢。大數據具有5V特征[2],具體表現為數據產生速度快、體量龐大、數據類型多樣、價值密度低,但商業價值高以及數據準確可信賴。農產品的整個生命周期,包括種植生產、加工、銷售、物流、售后等都可以進行數據化,然后利用統計、在線分析、機器學習等數據挖掘技術從海量復雜異構的數據中找到有用的模式和趨勢,提取隱藏于其中的價值信息,再利用訓練數據優化模型并通過測試數據進行檢驗,最終實現產品溯源的可視化。
農產品溯源平臺是一個由多方主體共同參與的數據共治共享平臺,它包含了供應商、生產者、消費者、監督者等多元利益相關者,記錄了產品全生命周期的數據信息,并通過追溯相應數據信息的演變過程來實現產品的溯源,包括數據的產生、傳播、變更和消亡等。
農產品溯源平臺的結構如圖1所示。通過向上追蹤可以查詢到產品的源頭信息,包括種植信息、供應商的資質、制造商的生產加工信息以及質量檢測信息等;通過向下追蹤可以查詢到產品的流通信息,包括產品的銷售信息、物流信息以及售后情況等。同時,可將數據庫中產品的產地信息、生產信息、運輸信息等集成到二維碼中,消費者可通過相應的識別設備進行查詢。當有異常的數據出現時,消費者可通過產品溯源平臺向監管部門進行投訴,監管部門也同樣可以通過二維碼技術對產品數據進行核實,并進行相應的處理和反饋。

圖1 農產品溯源平臺結構
農產品具有一定的行業特殊性,全產業鏈的時間周期長、涉及主體眾多,全生命周期的各個關鍵控制節點會產生大量數據,包括種植信息、環境信息、檢驗信息、控制信息、資質管理信息、人員信息等,且信息化水平參差不齊,各部門間也多是以管理好自己為主,容易形成“信息孤島”。其次,農產品的質量具有一定的時效性,容易在流通環節中腐壞,產品在運輸過程中也容易被外力損壞,通過溯源系統可以了解每一個環節的產品質量狀況,準確定位責任人,扭轉之前產品損壞通常由供應商承擔的局面,也能由此提高各個部門對產品質量的重視程度。
產品數據既包括在種植、生產、銷售、物流等市場活動中形成的原始數據,也包括經過數據預處理后形成的派生數據。應用于產品溯源系統中的數據一般指派生數據,它是按照一定的規則和標準進行加工、計算、聚合而形成的,既具有產品市場交易記錄的信息,也能通過數據溯源重構產品的交易路徑,實現產品數據的可追溯性。
為完善產品溯源系統,實現數據的可追蹤性,在溯源的過程中需要對數據進行標記,實現數據的追蹤定位;對原始數據應進行一定的保留,保證溯源的可靠性;而經過一系列加工操作所得的派生數據也應保證其使用的可靠性和安全性。同時,溯源系統應具備數據兼容性和實時反饋的高效性,依靠數據之間存在的關聯,并發進行數據的追蹤和處理,可以減少資源的消耗并提高溯源效率。
數據溯源是一個發展的過程,期間也形成了多種溯源模型,可以劃分為數據溯源描述模型、數據溯源應用模型以及數據溯源安全模型。數據溯源描述模型的發展過程為早期的W2模型[3]、W3模型[4]、W7模型[5],到W7+R3模型[6],這個階段是對溯源范圍的擴展和溯源內容的完善,詳細記錄了不同事件的重要信息;再到OPM開放溯源模型[7],支持在不同系統間實現可用數據的追溯,允許描述信息同時存在于不同的層級;最終擴展到如今較為成熟的ProVOC數據溯源描述模型[8],采用PROV溯源標準,解決了數據在不同溯源模型之間交易困難的問題,實現了模型的靈活擴展。
隨著溯源技術的更新,數據溯源模型不斷擴展并細化于某些特定的領域,由此誕生了多種數據溯源應用模型。Provenir數據溯源模型是一個完整的數據溯源管理系統,提供修改元數據的功能,同時使用物化視圖的方法解決了數據存儲困難的問題;空間數據溯源模型[9]利用SPFPM空間信息處理流程溯源中間件實現溯源模型的形式化表達;還有適合復雜高密度處理的分層二部圖溯源數據模型HBPM[10],在不同模型層次結構上收集信息的關鍵值溯源模型KVPM[11],關聯數據環境的PV模型[12],描述關聯數據集的VOID模型[13],以及發布時添加元數據信息的VOIDP模型[14]。
數據溯源安全模型是為了從內部和外部共同保障溯源數據的可靠性和安全性,防止數據被轉換或是人為篡改。Hansan等[15]創建的數據溯源威脅模型,基于密鑰審計和廣播加密來保障信息的完整性;Zhang等[16]對其進行改進后,實現了檢查添加記錄和以有限非循環圖的方式管理數據處理的序列;李秀美等人[17]做了進一步補充,引入時間戳參數和邏輯密鑰分層,保護不同時間鏈生成的數據的安全性;Nguyen等人[18]提出的訪問控制模型PBAC,授權用戶操作權限,從而起到安全保護的作用;王鳳英等人[19]構建的安全數據溯源模型PROV-S在已有模型的基礎上增加了安全起源節點S和其他節點間的關聯關系;鄧仲華等人[20]組合數據溯源描述模型,提煉出包括語義層、邏輯層和安全層的數據溯源安全模型,通過在安全層設置訪問控制實現數據防篡改、操作記錄存儲和數據信息可恢復等功能。
農產品溯源模型最重要的功能就是實現數據溯源,結合文獻[20]中的思維模式,將現有數據溯源模型的優勢進行整合,最終構建一個全面可靠的溯源管理系統。
通過W7+R3模型記錄數據的溯源信息,了解農產品的哪類數據(which)在什么時間(when)和地點(where)因何原因(why)被誰(who)或者什么因素(what)所影響,數據是怎么動作的(how),以及產生了怎樣的效果;通過參考(reference)產品的資料信息,分析溯源的成因及結果(result)并做出評論(remark),最后記錄重要的備注信息。由于數據描述過程會帶來很大的存儲開銷且不易于擴展,ProVOC溯源模型規范了數據采集、分析、處理的標準,很好地彌補了W7+R3模型的缺陷,提高了模型的可擴展性。
數據安全管理模型在產品溯源系統中具有必要性。產品在生產、運輸等活動中會給數據帶來被篡改、被轉換的失真風險。為保障數據的安全性,可引入時間戳和邏輯密鑰等手段提高數據安全性,合理組合各種溯源模型,簡化一些規約和復雜的管理制度,對溯源標準進行擴展,滿足系統的安全需求。
面向不同利益相關主體時,以細粒度的形式對溯源信息進行標注時會產生大容量的存儲,使溯源效率極大降低。可通過關聯關系轉換溯源過程、計算溯源數據、查詢結果等;也可通過源表字段與目標字段的映射關系構建基于結構化查詢語言的數據轉換圖形。
面向產品不同階段的活動過程時,設計分層溯源框架以支持不同數據類型的存儲,構建雙向指針溯源方法對產品數據進行高效追蹤,利用分布式賬本技術在產品交易環節進行算法加密和數據共享。
面向大數據平臺時,Hadoop生態系統可用于滿足現代業務分析應用所面臨的大容量、復雜性、多格式和高效率的處理需求,同時大幅降低了硬件和存儲等開銷;結合云服務環境,可實現數據存儲虛擬化,并快速安全地對溯源信息進行訪問。
針對農產品的種植過程和生產過程等建立分布式數據庫,這些數據庫與產品溯源系統連接,定期傳送數據,由此實現數據的采集。數據采集后會按照不同的分類存儲在相應的數據庫中,將數據進行清洗分析、數據變換和冗余降噪處理后,再應用于數據挖掘模型中,這樣可以最小化無用的數據輸入和輸出,使模型的效果達到最佳。
溯源系統框架需要滿足的設計目標包括:支持不同溯源數據模型,通過構建分層體系結構,將采集、存儲和分析模型分離,以此實現對異構數據的存儲和復雜溯源過程的分析;支持用戶標注,允許用戶在溯源過程中增加、更改或刪除相關的記錄,執行此操作時應注意對變更數據進行保留,保障數據的可靠性;在高效性方面,通過構建雙向指針溯源方法降低溯源的空間復雜程度,同時優化路徑,快速在復雜的數據中找到關聯數據,提高運算效率;在可擴展性方面,擴展收集和存儲機制以適應急劇增長的數據量。產品溯源系統模型框架如圖2所示。

圖2 產品溯源系統模型框架
數據采集層包含產品、資源、環境等混合信息,這會產生多樣的數據類型,同樣用戶通過不同的系統進行各種操作也會產生大量的數據,這些結構化、半結構化和非結構化的數據構成了溯源系統的數據。面對復雜異構的數據類型,可采用Flume方式在Hadoop生態環境中高效地收集聚合數據,同時應用數據加工處理程序,以統一的格式將數據接入產品溯源系統的大數據處理平臺中。
數據存儲層將采集到的數據準確、完整、及時地進行存儲,并為不同類型的數據提供合適的存儲模式。整合異構數據可以使數據高效流動,并實現數據的共享;采用繼承方法交換系統數據,以減少數據存儲數量,提升產品數據溯源的效率。MongoDB數據庫具有高性能、易使用、可擴展的特點,適用于復雜的聚合分析,可通過MapReduce框架在Hadoop生態環境中處理多樣化的數據存儲。
數據處理層會對不完整且含有噪聲的原始數據進行清洗和數據變換,從而最小化從數據挖掘模型中出來的垃圾信息。數據處理的過程包括中文分詞、數據清洗、數據變換、停用詞過濾、識別缺失數據、處理錯誤分類、識別離群值等,數據被處理后才能用于分類、聚類和數據分析操作,并最終應用到模型當中。
數據挖掘是從大型的數據集中發現有用的模式和趨勢的過程[21]。通過研究產品溯源業務,理解溯源數據,發現隱藏在大量數據集中的價值信息,從而建立模型,評估不同模型的效果,選出表現最佳的模型進行部署。數據挖掘主要有六大任務,分別是描述、評估、預測、分類、聚類和關聯,其核心就是對數據進行操作,并通過回歸方法、決策樹、神經網絡、貝葉斯網絡、模型評估技術等分類方法以及K-means、BIRCH、Kohonen等聚類方法將具有相關屬性的數據聚集到一起,使模型能夠正確地處理數據,并達到最佳性能。
由于農產品的全產業鏈時間周期長,包含的相關主體眾多,每個環節都會產生大量的數據,這些數據是生產要素,具有極高的商業價值,但同時也帶來了一系列的數據安全問題,包括溯源系統數據共享存在的安全性問題、信息公開帶來的隱私泄漏風險以及數據保密監管面臨的挑戰等。
區塊鏈技術通過鏈式區塊結構進行加密來儲存數據,且存儲于其中的信息不可偽造、不可隨意更改,并且含有過程記錄。將區塊鏈技術融入農產品溯源模型中,能夠提高數據的安全性。其中,聯盟鏈[22]介于公有鏈和私有鏈之間,通過共識機制進行數據信息管理,通過密鑰授權可以開放部分區塊鏈服務供大眾查看信息,但只允許聯盟內部對節點進行修改,以此保障溯源系統的共享性和安全性。
區塊鏈技術賦能保障溯源系統的數據安全如圖3所示。將區塊鏈技術與RFID技術有機結合,構建產品從生產、加工、銷售、流通、售后等全生命周期的溯源鏈條;分布式賬本技術通過鏈上存儲賦能保障數據流通的透明化,結合哈希算法的單向二進制運算保證溯源數據無法被篡改,通過智能合約協議,在各方達成共識的前提下實現溯源數據的共建共享;最后通過非對稱加密技術進行數據加密,該技術分為公鑰和私鑰,私鑰掌握在被傳輸者手中,只有同時掌握兩者才能解讀數據,以此防止信息泄露。

圖3 區塊鏈賦能數據安全
結合大數據技術,通過整合現有數據溯源模型的優勢構建了農產品溯源系統,能夠通過追溯數據幫助消費者了解產品的來源,幫助企業提高管理質量,幫助政府增強監管力度,幫助各個利益相關主體快速了解不同階段的產品信息。同時,海量數據的共享與使用容易給數據安全帶來威脅,結合聯盟鏈賦能和區塊鏈技術賦能可以有效防止數據泄露和篡改,保障了溯源系統的數據可靠性。
目前,關于產品溯源的研究已有一定的進展,但仍需積極推進數據使用的規范化,提高數據服務的優質化,保障數據溯源平臺的健康化。優化創新現有的數據處理技術,包括利用封裝結構屏蔽多模資源差異;通過語義關聯模型提高數據處理效率;加強訪問接口規范,快速處理分布異構數據;充分利用區塊鏈技術構建數據安全體系,保障數據安全等。由于大數據技術的新穎性以及數據和網絡的復雜多變性,想要將系統完全應用于社會生產還存在一定的問題,在數據的連續性、準確性、可塑性、安全性方面面臨嚴峻挑戰,模型間的數據交互及融合也亟待加強。