譚可華 馮晟 陳俏均 郭子昌 高紅霄
摘 要:“智慧糧食”是一個承載了廣泛的涉糧數據、分析模型和應用平臺,對智慧糧食數據模型進行分析,建立數據存儲和交換系統,是實現“智慧糧食”建設目標愿景的重要基礎性工作。
關鍵詞:智慧糧食;數據采集;交換;存儲
中圖分類號:F326.11 文獻標識碼:A 文章編號:1671-2064(2018)21-0031-02
1 智慧糧食數據采集、交換、存儲標準研究背景
智慧糧食數據資源池的建設,是典型的數據倉庫系統的建設,按照業務主題劃分,涉及計組織機構、生產、存儲、消費、市場、農產品、事件、渠道等主題。這些數據存在數據來源多,數據格式復雜,結構化數據和非結構化數據并存等問題。因此,編制數據采集、交換、存儲的標準和規范,對數據進行分類存儲,為后續數據挖掘、分析、管理提供基礎,是建設智慧糧食大數據資源池的重要內容。
2 智慧糧食數據主題域分析
糧食數據主題域的準確劃分包括:(1)原糧種植(生產);(2)原糧收儲;(3)原糧交易(國內流通、進出口);(4)成品糧加工;(5)成品糧交易(國內流通、進出口、批發);(6)成品糧零售(消費)。其中,原糧包括小麥、稻谷和玉米;成品糧包括面粉和大米。考慮到原糧的一個重要出口是工業用糧和飼料用糧,因此還可以增加工業用糧和飼料用糧主題域。
3 智慧糧食數據模型分析
3.1 原糧種植(生產)數據模型分析
原糧種植階段,數據主要包括播種區域、種植戶、播種情況、農業氣象情況和產量,原糧種植(生產)數據維度如表1所示:其中,最小粒度為種植戶每季播種品類,粒度提升方向主要為鄉鎮、縣、市、省、全國;核心數據為各播種區域每季每品類原糧播種面積和產量;非核心數據包括其他播種情況和農業氣象情況,為影響原糧產量的相關因素,在采集全面的前提下,可用于預測原糧產量,分析原糧產量變化趨勢和影響因素。
3.2 糧食儲存和流通數據模型分析
從原糧種植到成品糧消費的中間過程實際上是一個糧食的儲存和流通過程,糧食儲存和流通過程圖,如圖1所示。
在圖1中,糧食的儲存和流通主要發生在糧儲企業、成品糧加工企業、成品糧批發企業、成品糧零售企業;原糧的收儲主要發生在糧儲企業和成品糧加工企業,成品糧儲存則涵蓋成品糧加工企業、成品糧批發企業、成品糧零售企業和最終消費端。
因此,可以把糧儲企業、成品糧加工企業、成品糧批發企業和成品糧零售企業看成主要的糧食儲存和流通節點,掌握了這些節點的糧食儲存和流通數據,就全面掌握了糧食的儲存、流通和消費情況。
不同類型的糧食儲存和流通節點基礎數據模型,如圖2所示。
在圖2中,數據模型由入庫數據、庫存數據和出庫數據三部分組成,對于原糧收儲,還可以加入質量檢測數據,以反映庫存原糧的質量信息。
其中,按時間、地區維度統計庫存數據,即可得到糧食庫存的全面信息和變化趨勢,分析各地糧食庫存的特點和差異;將各糧食節點的入庫數據、出庫數據繪制成基于時序的流向圖,則可得到糧食流通的全面信息,用來分析原糧交易、成品糧交易的流向、現狀和變化趨勢,分析各地糧食交易和口糧消費的特點和差異。
以上述數據為基礎構建分析或預測用的數據集市,則可以進一步對糧食價格和糧食消費進行統計分析或趨勢預測。
4 智慧糧食數據存儲
根據上述分析,在智慧糧食大數據資源池中,數據可以按以下方式存儲管理:
4.1 源數據存儲
源數據為大數據資源池各內部系統、外部采集上報系統、外部數據交換系統中獲取的原始數據,其中包含上述數據模型中所含的數據信息。源數據需要單獨存儲,以備隨時取用來進行后續的數據倉庫和數據集市建設。源數據可以HDFS文件的形式存儲在Hadoop平臺中。
4.2 數據倉庫
數據倉庫用來存儲經過標準化整理的數據,用于向數據集市提供符合數據標準和數據質量要求的數據。數據倉庫由一系列數據表組成,例如:(1)由最小粒度原糧種植數據的組成的全國原糧種植數據表;(2)由最小粒度原糧收儲數據的全國原糧收儲數據表;(3)由最小粒度原糧交易數據的全國原糧交易數據表;(4)由最小粒度成品糧加工數據的全國成品糧加工數據表;(5)由最小粒度成品糧批發數據的全國成品糧批發數據表;(6)由最小粒度成品糧零售數據的全國成品糧零售數據表。
同時,需要為數據倉庫設置配套的分類標準、數據字典和數據標準,主要包括:(1)原糧品類/成品糧品類標準;(2)涉糧企業類別及名錄;(3)糧食價格類型和數據標準。
數據倉庫主要以Hive表的形式存儲。
4.3 數據集市
數據集市可包括通用集市、專用集市、查詢集市和挖掘集市。
通用集市用于支持通用報表的快速生成,主要以Hive表的形式存儲,例如可包括:(1)全國/各省原糧種植數據集市;(2)各品類原糧種植數據集市;(3)全國/各省原糧交易數據集市;(4)各品類原糧交易數據集市;(5)全國/各省成品糧加工數據集市;(6)各品類成品糧加工數據集市;(7)全國/各省成品糧交易數據集市;(8)各品類成品糧交易數據集市;(9)全國/各省成品糧零售數據集市;(10)各品類成品糧零售數據集市。
專用集市用于支持滿足特殊需求的專用報表的快速生成,主要以Hive表的形式存儲,例如可包括:(1)各品類原糧種植對比分析數據集市;(2)原糧交易流向分析數據集市;(3)成品糧交易流向分析數據集市;(4)成品糧零售對比分析數據集市;(5)原糧收儲價格分析數據集市;(6)成品糧交易價格分析數據集市;(7)成品糧零售價格分析數據集市。
查詢集市用于支持快速響應高并發自由查詢,內容可與上述通用集市、專用集市相同,但主要以基于HATP技術的形式存儲。
挖掘集市主要面向數據挖掘或機器學習建模所需的訓練數據集,按需建設,主要以HDFS文件的形式存儲。
數據集市主要通過可自動批量運行的數據ETL任務管道連通數據倉庫,從而保持自動定期更新。
5 智慧糧食數據交換
智慧糧食數據交換主要指以數據交換、數據查詢的方式為其他部門提供數據服務,主要涉及數據權限和交換方式兩項內容。
數據權限主要包括地區權限、涉密權限兩類,地區權限可用數據的行政區劃維度來劃分,涉密權限則需要準確到表、字段和時間維度。
數據交換機制如圖3所示,主要提供離線訂閱方式,訂閱方按權限訂閱數據,數據平臺則定期將更新后的數據包發送給訂閱方。
數據查詢主要提供在線查詢服務,用戶方可根據權限查詢所需數據,并將查詢結果下載到本地。