張嘉偉
(廣東蘭貝斯科技有限公司,廣州 510160)
食品安全問題是民生之本,食品從生產到流通的各個環節產生龐大的數據,如何對食品有效跟蹤和追溯,是社會普遍重視的焦點問題。本項目基于大數據將各類海量的食品數據聚合起來,并通過數據融合將離散的數據需求聚合成數據長尾,為政府或食品相關企業的運營管理提供高效、穩定、專業的數據檢索和建模分析服務,為食品安全監管及行業經營決策提供直觀、精確、實時的數據支撐。
基于大數據的食品追溯平臺包括“云”“網”“應用”三端建設,分別為:基于互聯網的云數據庫、基于物聯網的終端采集設備,以及對食品數據進行傳輸、存儲、處理、分析應用等的追溯應用,包括數據源、數據采集、數據存儲、分布計算、建模應用五個部分,其中:數據源層定義大數據平臺可接入的數據來源,采用Apache Hadoop數據庫實現海量數據的低成本存儲,為超長時間的海量歷史數據存儲和使用提供基礎支撐,存儲業務數據、日志數據和互聯網數據,數據載體有業務庫、數據倉庫、ODS、文檔庫、爬蟲庫五種模式;數據采集層實現通過多種技術手段進行數據采集,對終端數據通過二維碼、電子標簽(EPC標簽)、RFID讀寫器(PDA)、智能傳感器等智能物聯網采集生產運輸環境中的實時視頻、溫度、濕度、位置信息、輔助定位等數據,對其他來源的數據則根據數據特點分別通過FLUME技術實現對流式數據的采集,通過FTP技術實現對文件數據的采集,通過Sqoop組件實現對數據庫的采集,通過Crawler技術實現對網絡數據的采集;
數據存儲層實現數據的分布式可靠全存儲管理,主要應用的是HDFS中的HIVE和HBASE等列式存儲數據庫;分布式計算層主要是通過多種數據組件完成計算任務,如應用SPARK技術進行實時計算,應用MapReduce實現批量分布計算等;業務應用層結合溯源管理工作的需求,從業務的角度進行數據處理、業務建模分析工作,主要包括數據搜索、展示和主題分析等。
系統匯集存儲包括追溯系統內部數據以及第三方數據的各種來源的海量數據,來源方式包括關系型數據庫數據、數據倉庫數據、實時數據、文件數據、圖片數據等,平臺通過應用Hadoop分布式文件存儲集群架構及Hbase與Spark等在線高速計算分析算法,全面支持PB級別的數據存儲和秒級別的數據計算,并實現靈活地進行計算和存儲節點的擴展,大大提高平臺的存儲和計算能力。
應用數據庫、消息、文件、服務、API等多種數據采集適配技術手段將分散的、異構的各種補充食品數據從生產商、銷售商和消費者那邊進行實時收集,并經過拆解、過濾、分析轉換、數據整合等預處理后清洗進入大數據平臺,實現多源異構數據整合的實效性,完整性及準確性,為后期大數據的關聯、分析、共享以及挖掘打下基礎。針對不同的數據采集要求,采集引擎提供了不同的解決方法,如對于實時性要求較高的業務數據、狀態信息等通過數據查詢服務或者消息通知的方式獲得;對于實時性要求不高文檔處理或分析數據則基于增量日志分析的方式定時更新采集;對于數據量巨大的數據也提供了基于文件傳輸機制的方式提供。
將追溯鏈中收集的大量數據通過ES架構平臺進行索引并實現秒級的搜索查詢,可涵蓋多種索引策略、智能檢索輔助、內容相關度排序、搜索結果不同維度排序及過濾等功能,對搜索關鍵詞進行智能解讀和翻譯,實現結構化數據和非結構化數據的聯合檢索,實現T數量級的次秒級搜索性能及99%以上的搜索準確度,并可在對生產數據庫無損耗的情況下,實時數據更新并同步索引,保證查詢結果信息的準確性和實效性。同時還可對用戶搜索的情況進行全面多元的統計分析,給出搜索熱詞頻率、點擊量、分布等分析報告。
借助圖形化的手段,通過領先的技術手段與創意高度,對接大數據分析結果,提示實現各類數據的圖形化,圖像化展示,清晰有效地傳達與溝通,構建完整的數據可視化展示體系。
實現了食品生產數據分析主題、食品物流數據分析主題、食品零售數據分析主題和食品消費數據分析主題。1)食品生產數據分析。平臺通過對種食品生產數據進行多維分析,對良種選育、田間管理、設備采購、疫情防范等方面提出有效措施,合理調整食品的生產結構及規模,確保食品生產過程安全可控等。2)食品物流數據分析。食品物流數據包括食品的采購、倉儲、運輸、配送等,每個環節的動作都會產生海量的數據,對這些數據的分析后指導流通過程,可有效提高效率并降低成本,如利用歷史采購數據來挑選優質食品供貨商可降低采購成本;結合地圖數據綜合分析實時路況信息,合理規劃行車路徑,充分利用挖掘社會運力可大大降低運輸成本;基于物聯網數據進行倉儲庫存控制、儲位管理、貨物分揀等方面的智能化可明顯降低倉儲成本等。3)零售數據分析主題。零售商通過平臺,對購買零售商品的消費者行為路徑及偏好進行記錄,生成用戶畫像,并為每個個體定制選擇合適的營銷策略,提升消費者的購物體驗。系統還打通線上線下渠道,根據畫像構建客戶關系管理系統,增加用戶粘性。