涂江華
摘 要 隨著農業信息化快速發展,貴州省建立了農經云平臺,為更好地對其進行管理,在充分分析貴州農經云數據管理平臺需求的基礎上,以實現貴州農經云大數據的聚、通、用為目標,應用大數據思維和產品化思路,聚焦貴州農經云數據管理平臺建設中涉及的功能架構、應用架構、數據架構、數據標準等進行了詳細設計,為貴州農經云數據管理平臺建設提供支撐。
關鍵詞 農經云;數據管理平臺;設計;貴州省
中圖分類號:F323.3 文獻標志碼:B DOI:10.19415/j.cnki.1673-890x.2019.20.095
1 貴州農經云數據管理平臺概述
貴州農經云數據管理平臺是基于面向貴州農經大數據聚、通、用一體化的服務平臺。其功能需求主要包括平臺的元數據管理、數據資源目錄管理、農經大數據基礎庫建設、數據采集、數據清洗、數據存儲、數據加工、數據發布、數據共享服務和專題數據庫配置等[1]。
2 貴州省農經云數據管理平臺應用架構
2.1 基礎設施層
貴州農經云數據管理平臺基于云環境部署,利用虛擬化技術,建成集約高效的統一資源池,為數據環境與業務系統的運行奠定基礎。
2.2 數據處理與管理層
貴州農經云數據管理平臺主要是解決農經數據的采集、存儲、處理、加工、分析以及共享服務的需要。平臺要實現對各類數據的統一管理以及數據調用與服務的統一接口,并借助數據庫技術和分布式文件系統技術實現各類數據的融合處理、數據挖掘與深度學習。
2.3 應用服務層
應用層部署農經服務與產品加工共享系統。加工的產品和提供的服務主要分為3類:1)適用于農經部門內部;2)為行業單位服務;3)面向公眾服務。整個應用層采用“互聯網+服務”的模式,同時提供應用下載與應用服務,滿足內部用戶、農經政務應用和公眾用戶的農經信息需求。
2.4 監控與管理層
監控與管理層主要實現對平臺各子系統和模塊進行統一監控與管理,包括業務流程管理、業務作業調度監控和系統管理功能。
3 貴州農經云數據管理平臺數據架構
農經大數據具有海量、復雜多樣的特點。數據從收集到服務需要經過數據收集、數據解碼、質控、統計加工、入庫、存儲管理、專題加工、共享分發服務八個業務應用階段,每個階段處理生成的數據均存儲到相應的數據區,主要包括數據收集區、加工處理區、業務管理與服務區。
4 貴州農經云數據管理平臺各項標準規范定義
1)數據元標準。參照各類數據標準規范制定數據元的建設標準,成立統一的數據元格式,數據元作為系統的底層數據基礎,統一規范有利于數據標準化建設。2)結構化數據產品的元數據表結構標準。按照不同的資源目錄,不同的元數據組成結構化數據表,規范邏輯表和數據庫表的對應關系。3)非結構化數據產品的數據格式標準。非結構化產品的數據格式標準包括文件名命名格式標準、文件內容的格式標準。4)圖形產品標準。圖形產品根據不同的產品類型、不同的展示方式統一制定標準,包括分辨率、文件名、色標等標準。5)數據產品的分類標準。數據產品分類標準按照農經數據分為基礎數據產品、業務數據產品、主題數據產品等分類。6)命名標準。命名標準按照業務分類+時間+作用+自定義進行命名。7)存儲標準。存儲分為結構化存儲和非結構化存儲,二者皆采用分布式搭建存儲環境,將二者有機地結合起來,能夠實現對系統整體數據的集中統一管理。另外,還包括數據匯交規范和數據使用規范等[2]。
5 貴州農經云數據管理平臺需求描述
5.1 元數據管理
為保證云計算數據的一致性與可用性,要對構成農經要素模型的元素及元數據進行統一管理。可在可視化操作界面建立元數據注冊、審批、管理的流程,實現元數據的規范化提交、評審、發布、維護等功能,以保證數據的質量。
5.2 數據資源目錄管理
要滿足不同業務、不同部門、不同類型的數據管理,就需要一整套的數據資源目錄。因此,要完成云計算數據資源目錄的編制,主要按統一的資源目錄進行劃分,可以新增、修改、刪除目錄項,支持從地域范圍、數據類型、獲取方式等不同維度對數據資源進行編目。資源目錄的管理可通過以下6點來完成。1)對資源目錄進行動態管理,實現新增、刪除、修改、查詢等資源目錄的編制功能。2)根據建立的資源目錄創建資料集,根據業務需求填寫資源集相關信息和選擇資源對應的資源目錄和元數據要素進行保存。3)對建立的資源目錄進行提交審核,審核狀態有審核通過、退回等。4)資料集審核通過后,就是資料集的退回和發布功能,發布功能包括發布資料集和創建物理表。5)對已發布的資料集相關信息進行維護。2)對已發布的資料集信息進行多維度的查詢。
5.3 基礎數據庫構建
將農經云歷史數據按《農經云數據標準》全部清洗入庫,建立農經云基礎數據庫,具體包括資源目錄數據庫、農經云數據元庫、地理信息數據庫、政務資訊數據庫、農產品數據庫、市場數據庫、氣象數據庫、企業數據庫、產業數據庫、農村電商數據庫、鄉村旅游數據庫、農業園區數據庫以及監控信息數據庫等基礎數據庫。
5.4 數據收集
數據收集模塊需實現各種數據的收集功能,即按照規定的時間要求從FTP、數據庫、CIMISS等來源的數據收集到數據中心,清洗入庫,存儲到基礎庫或產品庫,將云計算數據中心歷史數據處理、清洗、遷移至新的數據中心。
對常規格式數據的收集,包括網絡爬蟲工具、FTP服務器下載、Windows共享接入、數據目錄收集、數據庫讀取配置、人工導入及錄入、http文件接入、HTTP數據服務、API數據服務、http、Web Serverice常規接口數據的收集,以及第三方提供的接口數據通過可視化的操作,根據配置自動解析按標準匯聚入庫。
5.5 數據存儲
根據資料種類的不同和數據應用方式的區別,云計算數據中心采用數據庫管理和文件系統管理相結合的存儲管理方式,并將二者有機結合起來,實現對系統整體數據的集中統一管理。
針對不同類型的農經數據采用不同的存儲方式,分布式關系型數據庫存儲結構化數據,分布式文件系統存儲文件類型數據。具體如下:1)關系型數據庫管理方式,對農產品、市場數據、氣象等查詢方式復雜而數據量相對小的資料采用結構化數據庫管理;2)分布式文件管理方式,對那些數據量大、查詢方式相對簡單的雷達、衛星數據采用分布式文件管理方式,而其相關的索引信息和元數據則納入到數據庫管理中,以便于數據的查詢檢索和元數據的統一管理;3)NoSQL數據庫管理方式,作為海量非事務型數據訪問業務的存儲載體,為查詢分析計算提供數據存儲支持[3]。
5.6 數據管理和加工
數據管理和加工是指對數據進行規范化、流程化、可視化管理,具備各種數據清洗功能,建立業務數據基礎算法庫,能夠自由新增數據算法,根據算法加工指定數據,最終生成云計算數據中心所需的質量控制后產品、統計加工產品、圖形產品,以滿足各部門、各行業、各用戶等方面的數據需求。數據加工處理算法主要包括3類,即數據解碼算法、質量控制算法和產品生成算法。
5.7 專題數據庫配置
根據云計算數據中心數據元庫以及數據元自由配置字段建表、建庫(基礎庫、專題庫),基于云計算數據中心基礎數據庫,對基礎數據庫中的任意數據根據需求自由配置生成成品庫的功能。
5.8 數據共享服務
提供數據共享通道,包括資料分發、標準化數據接口服務、Web Service數據服務、API數據服務、FTP下載服務和消息總線分發多種農經信息服務模式,且能夠按需求自由配置底層數據和數據產品,根據實際使用需要選擇常規數據共享通道與第三方共享,第三方用戶根據權限獲取共享信息。
參考文獻:
[1] 常明,陳堃銶.基于SGML/XML的文件結構化研究與實現[J].計算機研究與發展,2002(2):199-204..
[2] 陳萍.基于語義Web的網絡資源整合模式研究[J].科學技術與工程,2006(12):1726-1728,1741.
[3] 曹彥榮,吳洪橋,畢建濤,等.國家資源與環境數據庫元數據管理研究[J].地球信息科學,2002(2):6-10.
(責任編輯:劉昀)