999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

超融合時序數據庫在果園大數據中存儲策略分析*

2022-04-03 07:27:46李宗南姚延棟翁巖青
中國農業信息 2022年6期
關鍵詞:引擎數據庫策略

郭 濤,李宗南,姚延棟,黃 平,王 思※,翁巖青

(1. 四川省農業科學院遙感與數字農業研究所,成都 610066;2. 四川省農業科學院智慧農業科學技術中心,成都 610066;3. 北京四維縱橫數據技術有限公司,北京 101399)

0 引言

大規模使用數據驅動農業生產管理實現智能化,依賴于快速高效的數據存儲。隨著數字農業研究及應用的深入,農業數據的生產及存儲、管理所使用的數據庫構建得到更多的關注和研究測試。果園產生的數據主要來自五個方面:①果園單株樹木整個生命周期產生的數據形成的數字果樹數字化體系[1-3];②無人機、衛星遙感和GPS導航裝置產生的時空數據和遙感數據[4-5];③物聯網、傳感器、攝像頭和智能農機(機器人)對果樹環境、果樹生長過程和果樹表型監測獲取的數據[6];④果園農事、種植、管理和水肥等設施產生的數據[7];⑤專家知識、經驗和以圖數據組成的結構數據[8-10]。以上各類數據來源多樣,結構包括結構化、半結構化和非結構化,對數據存儲和管理提出了巨大挑戰。數字農業項目在實際工程中采用不同的數據庫方案。Daniel Perondi 等[11]開發的柑橘病蟲害預警系統,采用MongoDB 作為數據存儲系統。凌諾娟等[12]設計的云農場智慧服務大數據平臺,以HDFS 文件系統作為高可靠的底層存儲系統,為HBase數據庫及Hive數據倉庫提供存儲支撐。趙晴等[13]設計的大田作物智慧生產綜合服務平臺,采用Microsoft SQL Server2008 數據庫實現物聯網數據的統一管理,基于ArcGIS Server 實現空間數據的整合管理,基于HBase實現大田作物智慧生產相關數據的存儲與分析。吳才聰等[14]構建的基于北斗的農機作業大數據系統,以HDFS作為數據的存儲,采用關系型數據RAID進行備份。王新等[15]基于異構數據集開發的農業信息綜合管理網絡平臺,采用MySQL數據庫。余萬民等[16]基于云計算的農業大數據共享服務平臺,采用關系型數據庫如 Oracle、MySQL、SQL Server 等管理結構化數據,采用 Hbase和Redis管理非結構化數據,采用HDFS管理分布式文件系統,采用FastDFS管理磁盤文件系統,采用Lucene管理異構索引庫。此外,基于HDFS存儲時空數據,發展了GeoSpark、Spatial Hadoop和ST-Hadoop,可支持大規模的時空數據存儲、空間查詢和分析[17-18]。綜上,諸多數字農業的數據存儲主要采用混合存儲方案,不利于跨域數據共享、多源異構數據融合和多模型知識圖譜抽取和推理。

文章圍繞果園大數據高效存儲及管理需求,針對數據多源異構、時序和多模態數據等特點,分析數字果園場景需求,構建超融合時序數據庫解決方案,以實現在一個數據庫內存儲各類數據,解決時序的全場景問題。該文搭建基于YMatrix 集群,采用Kettle ETL(Extract-Transform-Load)工具構建可視化建模,以都市龍泉驛現代農業園區采集的無人機遙感圖像,傳感器等多源數據作為數據集,進行批量入庫、ETL、作業統計和轉換以及數據同步等方面測試,分析多級數據局部存儲策略、冷熱數據存儲策略的數據存儲效率。為果園的數據存儲和智能高效管理提供技術參考,對賦能農業數字化、農業數字孿生基礎設施提供建設依據和經驗。

1 研究數據與方法

1.1 研究數據

該文設計的數字果園場景中,數據來源主要包括無人機、物聯網、移動App、農機全球定位系統和傳感器以及果園環境、果園監測和農事活動等數字化手段產生的數據,見圖1 中果園數字化部分。數據包括圖像、文本、表等,隨果園果樹管理過程不斷產生,形成時序排列的數據內容。

圖 1 果園大數據存儲和應用場景邏輯設計Fig.1 Orchard big data storage and application scenario logic

對此類時序的多源異構數據,該文設計使用分布式發布訂閱消息系統Kafka響應各類設備、傳感器,以動態流式數據方式動態存入時序數據庫中,實現各類定時、不定時產生的數據存儲。Kafka 具有高吞吐量、分布式等優點,能滿足果園流批數據存儲場景需求。

1.2 應用邏輯

將多源異構數據按照數據模型、業務場景和數據庫概念模型,統一規劃和設計,存儲在超融合數據庫YMatrix,同時YMatrix 作為數據倉庫,通過數據倉庫技術ETL 抽取(Extract)、 轉換(Transform)、加載(Load)至目標端;根據知識圖譜業務場景需求,從YMatrix和數據倉庫中抽取和多模型融合數據,構建RDF圖數據結構和知識庫,存儲的原生圖數據庫gStore中[19-20]。

將以數據服務方式,向數據算法層和數據應用層提供服務,滿足綜合管理和共享服務、數字化生產監測、生產水、肥、藥等智能決策等數字果園應用場景業務。

1.3 YMatrix解決方案

該文采用YMatrix超融合時序數據庫,提供多源異構數據的一站式存儲。一個數據庫滿足多個業務場景,大大降低了數據管理和運營成本和時間。在數據需求和場景需求中邏輯設計圖1所示。以下從分布式架構、存儲引擎、計算引擎和資源管理四個方面來介紹YMatrix設計思想,工作原理以及資源優化策略。

(1)超融合數據庫架構

YMatrix 采用超融合數據庫技術架構理念,是一款MPP (Massively Parallel Processing)架構的分布式時序數據庫,分布式架構思想起源于Greenplum[21-22],基于PostgreSQL 擴展機制,是典型Master-Slave 架構,一個YMatrix 集群通常由一個Master 節點、一個Standby Master 節點、MatrixGate 以及多個Segment 節點組成,節點之間網絡通信互連通過Interconnect,其中,每個節點均是一個完整的PostgreSQL數據庫實例(如圖2所示)。Matrix Master 節點是數據庫的入口,接收客戶端提交的SQL,主要負責客戶端(Client)進行訪問控制和存儲表分布邏輯的元信息管理,接收客戶端請求,生成查詢解析和查詢計劃。Standby Master 為Master 提供高可用支持。MatrixGate 組件主要用于時序場景下流式數據通過HTTP 接口并行加載,接收來自客戶端同時并發寫入,這樣可以保證數據加載過程事務保持一致性,同時滿足了實時接入需求。Segment 節點是工作節點,主要負責數據的分布式存儲和查詢執行,mirror Segment 為Segment 提供高可用支持。當Client 提交SQL 語句,通過MatrixGate 的HTTP 接口同時并發寫入,Master 節點對查詢語句進行查詢編譯、查詢優化等操作,生成并行查詢計劃,并把任務分發給Segment 節點執行。當任務出現錯誤或者執行完畢,會將結果返回Master 節點,最終呈現給客戶端。

(2)存儲引擎

分布式環境下,為了解決單機存儲空間和資源限制,確保時間維度上更細粒度數據分區以及多態存儲等方面問題,通過引入不同策略和機制來進行解決時序數據存儲問題(圖3)。

圖 2 YMatrix架構Fig.2 Architecture of YMatrix

圖 3 YMatrix存儲引擎Fig.3 The storage engine of YMatrix

(3)計算引擎

YMatrix優化器是基于代價模型[23],主要是由優化器和執行器組成。實現思想是先在Matrix Master節點生成分布式查詢計劃,將計劃任務以哈希分布、隨機分布、復制分布方式分發任務,所有的Segment對其任務進行并行執行。分布式查詢計劃首先在Master節點將任務進行最大粒度的劃分,每個劃分的查詢計劃片段在Segment節點上作為一個獨立的執行進程(Query Executor),各個節點查詢計劃任務主要通過網絡進行數據傳輸,并將各個Segment 節點上的任務匯總到Master,最終反饋在客戶端(圖4)。YMatrix 基于MPP查詢引擎采用最大切分查詢策略基礎上,充分利用資源并進行任務的自動優化分發,達到最佳的查詢性能。

圖 4 YMatrix計算引擎Fig.4 The calculation engine of YMatrix

在果園大數據平臺建設過程,存在不同設備的傳感器、物聯網和機器人等感知設備產生時序數據,往往會造成資源開銷大、數據索引空間大,對相同類似任務進行反復查詢,造成了資源浪費。借助YMatrix查詢優化器的感知能力,對接入數據分布特征和數據局部性進行感知,對熱數據采用的MARS存儲引擎分區表,實行聚集優化。具體實現邏輯為:在符合時間過濾條件的子分區表,對其構建MARS稀疏索引快速定位查詢,對塊內元素進行分塊并進行預聚集,通過二分查詢確定查詢條件邊界,完成分組掃描工作,這樣可以優化了CPU、I/O和內存資源。

此外,果園大數據還涉及很多地理空間數據存儲和處理,YMatrix 提供了功能和組件。對于GIS數據,集成了PostGIS 插件,可以實現空間數據從存儲和管理。

(4)資源管理

針對果園大數據中復雜場景,該文充分利用YMatrix 的存儲引擎和計算引擎設計思想,提供了一站式解決方案。對資源管理全方位粒度控制和優化,可以滿足擴展性和并發能力之外,還可以滿足應用層的OLTP場景。具體優化策略如下。

①存儲資源方面,可對時序數據進行編碼壓縮,使得輕量級機器學習在邊緣計算設備實現提供了支撐。此外,還可以將歷史時序數據遷移到更廉價的存儲設備HDFS 等,在不影響查詢業務情況下降低了存儲要求。

②內存資源方面,YMatrix可以通過自動計算查詢計劃,自動給每個算子分配需要的資源,避免時序數據庫High Cardinality難題。

③CPU和I/O資源方面,避免重復性計算,將聚集下推,降低查詢時I/O開銷。

④網絡資源方面,在數據加載過程中,對數據進行壓縮傳輸,提升了網絡資源利用率。

2 研究結果與分析

2.1 集群環境

該文YMatrix 集群環境搭建在戴爾塔式服務器VMware虛擬機上,1個Master節點,6個Segment節點,具體配置信息見表1。每個節點內存8G,存儲80G,每個節點4個實例。本環境采用是YMatrix數據庫企業版5.0。

表1 服務器配置參數Table 1 The configuration parameter of server

2.2 應用示范

以Kettle 作為客戶端,通過可視化建模,進行海量空間數據、流式數據、圖像數據實時和批量入庫(圖5)、ETL抽取轉換加載、作業統計和轉換以及數據同步等操作[24]。

圖 5 Kettle自動化建模Fig.5 Automated modeling

通過采用YMatrix分布式時序數據庫,結合果園大數據建設復雜場景,開展果園大數據管理平臺建設工作(圖6),實現了園區信息、精準作業、園區智能感知、園區管理和智能管控等功能。對果園大數據提供智能管理和精準生產服務指導[8]。

圖 6 果園大數據管理系統Fig.6 The management system of orchard bid data

2.3 存儲策略

(1)多級數據局部存儲策略

果園時序數據涉及到多個農機設備傳感器、物聯網和攝像頭等實時處理的復雜場景,具有多模態數據融合和全場景查詢分析需求。針對這些問題,在數據湖基礎上設計了多級別存儲策略,具體是:①采用YMatrix分布式存儲引擎數據分片策略,讓同一設備連續時間存儲在同一節點、同一數據庫表且表內連續存儲。其中分片策略可采用哈希分布、隨機分布、復制分布等策略。②在時序場景中,通常按照設備標識號對時序表做哈希分布,主要目的是把同一設備(例如tag001)數據存儲到同一個Segment節點中,這樣確保了節點級別數據局部性。③在分片的基礎上,YMatrix在數據分片策略的基礎上,對時序表做了更細粒度的數據分區,這樣做不僅可以在查詢中進行分區裁剪,降低掃描的數據量,還可以達到多級分區以提供更極致的數據局部性。其中數據分區策略包括范圍分區、列表分區、哈希分區。

此外,在確定了數據分區和分區策略,還需要考慮每個分區子表的存儲策略,采取列存儲、行存儲和列行混存。存儲格式采用面向行存HEAP 和面向列存儲ORC,索引采用BTREE索引、倒排索引或自定義索引。

(2)時序場景的冷熱數據存儲策略

在智慧果園精準管理和科學決策過程中,涉及復雜多樣統計與分析熱數據。這類數據具有價值密度大、高效訪問等特點。針對這類問題,需要時間范圍查詢或設備聚合查詢[25-26]。具體是:①對熱數據用行存HEAP表加BTREE索引策略。②采用時序微內核配置向量化執行引擎,將查詢延遲進一步縮短,提升整體執行效率。

針對時序歷史冷數據,這類數據具有持續增長和存儲空間需求大特點。針對這類問題,采用了MARS2(YMatrix Append-optimized Version 2)存儲引擎策略,具體是:①采用行列混存存儲方式,每一行列分組單元是一個RowGroup,RowGroup內設備采集數據按列組織,這樣一個列就形成了一個Chunk。這樣RowGroup確保在分區表基礎上每個設備時序數據的物理局部性,而Chuck確保分組內具有相同類型數據的單列數據得到了局部性。②YMatrix 采用了自動分區管理策略,可自動創建熱數據分區、自動冷熱分區轉換,歷史數據過期清除等操作。

實行以上存儲策略具有三方面的優點:①Chunk 列存儲策略可結合編碼壓縮策略。根據時序類型可選擇Delta編碼、Gorilla編碼方式,以及ZATD、LZ等壓縮方式。②充分利用了設備數據局部性這一存儲策略,提前計算好RowGroup 內每個列的常見聚集信息,可以智能的獲取每個查詢條件結果的聚集結果,這樣可以避免直接遍歷所有數據點,大大提升了數據查詢性能。③預聚集信息中的Min/Max 還可以作為稀疏索引,對其RowsGroup進行過濾,降低了I/O開銷。

(4)空間數據存儲策略

針對海量遙感數據和瓦片數據等存儲問題[27-28],采用實時數據寫入工具MatrixGate和構建時空索引。同時,該文以都市龍泉驛現代農業園區無人機遙感數、地圖瓦片數據等數據作為數據集,對比了INSERT直接插入和YMatrix,發現YMatrix空間數據查詢與分析比直接INSERT方式快5-10倍左右,充分發揮MatrixGate優勢。此外,可以構建GIST、BRIN和SP-GiST等索引[29-31]。

3 結論與討論

通過采用YMatrix 分布式時序數據庫,結合果園大數據建設復雜場景,采用YMatrix超融合數據庫架構設計思想,并從存儲引擎、計算引擎以及存儲管理等方面對果園大數據產生的多源異構數據存儲策略進行了探索,有效解決了傳統的“煙囪式”“孤島式”數據架構不足,提出果園大數據存儲和管理一站式高效解決方案,為數字農業和數字農業孿生建設提供了強有力支撐。方案經測試后,項目組在成都市龍泉驛現代農業園區開展的果園大數據管理平臺建設中,構建果園大數據超融合時序數據庫,實際的果園多源異構、多模態數據存儲和管理有待進一步研究分析。

目前,YMatrix分布式時序數據庫在數字化果園建設過程中還存在一定的差距,尤其對于不同傳感器、物聯網和智能機器人產生多源異構數據的清洗、抽取和融合還有不足,需要全方位挖掘果園大數據建設過程中需求,進一步充分利用YMatrix實時數據倉庫、實時數據實時決策等能力,最終實現數據匯聚、治理、融合與服務,為構建數字果園數字化奠定基礎。

猜你喜歡
引擎數據庫策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
藍谷: “涉藍”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發
主站蜘蛛池模板: 日本久久网站| 婷婷六月在线| 久久伊人操| 午夜毛片免费看| 国产综合网站| 9966国产精品视频| 国内精品九九久久久精品| 视频一区视频二区中文精品| 国产偷国产偷在线高清| 精品伊人久久久香线蕉| 一级毛片在线免费视频| 这里只有精品在线| 久爱午夜精品免费视频| 91免费观看视频| av手机版在线播放| 国产Av无码精品色午夜| 亚洲码一区二区三区| 97se亚洲综合| 乱系列中文字幕在线视频| 最新无码专区超级碰碰碰| 亚洲乱亚洲乱妇24p| 亚洲欧美在线看片AI| igao国产精品| 国产精品午夜福利麻豆| 精品久久蜜桃| 国产凹凸视频在线观看| 欧美笫一页| 中文精品久久久久国产网址| a级毛片免费看| 成人一级免费视频| 国产无遮挡裸体免费视频| 国产成人a毛片在线| 91午夜福利在线观看| 国内精品伊人久久久久7777人| 国产精品九九视频| 国产人成在线观看| 国产乱码精品一区二区三区中文| 国产精品亚洲а∨天堂免下载| 99在线观看国产| 亚洲精品无码久久毛片波多野吉| 老司机精品99在线播放| 综合网久久| 无码 在线 在线| 激情在线网| 九九九精品成人免费视频7| 再看日本中文字幕在线观看| 久久香蕉国产线看观| 日本成人精品视频| 国内自拍久第一页| 成人小视频网| 国产白浆视频| 国产精品黑色丝袜的老师| 5388国产亚洲欧美在线观看| 国产成人久视频免费| 欧美日韩第二页| 亚洲一区二区三区中文字幕5566| 精品成人一区二区三区电影| 亚洲欧美成aⅴ人在线观看| 国产三区二区| 欧美啪啪一区| 青青国产视频| 亚洲毛片在线看| 亚洲黄色高清| 国产在线91在线电影| 日韩麻豆小视频| 欧美激情网址| 亚洲男人天堂2020| 亚洲首页国产精品丝袜| 2021最新国产精品网站| 亚洲欧美日韩中文字幕在线| 91成人在线免费观看| 看国产一级毛片| 成人精品亚洲| 亚洲中文字幕久久精品无码一区| 日韩午夜伦| 国产人成网线在线播放va| 又黄又湿又爽的视频| 色婷婷色丁香| 欧美啪啪视频免码| 欧美亚洲国产精品久久蜜芽| 欧美日韩另类国产| 动漫精品啪啪一区二区三区|