999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HBase的農作物病蟲害數據存儲系統的研究與實現

2019-05-07 07:32:16董萌萍牟少敏曹旨昊孫肖肖
關鍵詞:山東省數據庫

董萌萍,牟少敏,曹旨昊,孫肖肖

基于HBase的農作物病蟲害數據存儲系統的研究與實現

董萌萍,牟少敏*,曹旨昊,孫肖肖

山東農業大學 信息科學與工程學院, 山東 泰安 271018

農作物病蟲害數據具有多源、異構和海量等特征,傳統的數據存儲方法和系統存在存儲效率低和擴展性弱等問題。針對這些問題,本文設計與實現了一種基于HBase的農作物病蟲害數據存儲系統,并將其應用于山東省小麥和玉米病蟲害數據存儲中。該系統能夠對病蟲害數據進行持久化存儲,對多源異構數據進行統一管理,對新型數據可擴展性強,彌補了傳統關系數據庫的不足,為大數據環境下的小麥和玉米病蟲害數據存儲提供了新方法。

HBase; 病蟲害數據; 大數據; 數據庫

農業是國之根本,農作物病蟲害是影響其產量的重要因素。農作物病蟲害數據建立科學合理的存儲系統,對數據分析以及促進農作物的健康成長具有重要的意義。在我國,病蟲害數據主要由各地植保站統計,隨著信息技術的不斷發展,新型采集技術不斷被應用到農作物病蟲害數據中,例如太陽能誘蟲燈、孢子捕捉儀等。農作物病蟲害數據復雜多樣,傳統的關系型數據庫通常使用多表存儲解決數據異構問題,但是訪問效率低。一方面造成了農業數據呈現爆炸式增長,傳統的數據庫無法管理大量的數據;另一方面由于同一個地區在不同時期采集技術不同,歷史數據與當前采集數格式不統一,導致數據異構問題。類型復雜多樣,農作物病蟲害數據不僅包含結構化的數據,還包含圖像信息等一些非結構化的數據,傳統的關系型數據庫對于非結構化數據的處理能力比較低。因此,尋找一種新方法來存儲農作物病蟲害數據顯得尤為重要。

近些年來大數據技術不斷發展,成為學術界研究的熱點,為各行業和領域帶來了便利[1]。HBase是一種基于列存儲的數據庫,能夠很好的適應海量數據和非結構化數據的存儲[2]。本文結合大數據處理技術,設計與實現了基于HBase的農作物病蟲害數據存儲系統,并將其應用于山東省玉米和小麥病蟲害數據存儲中,實現了對數據的有效存儲和管理,為病蟲害數據統計與分析奠定了基礎。

1 數據及相關概念

1.1 農作物病蟲害數據

常見的農作物病蟲害數據主要分成三類:(1)病蟲害發生情況數據。包括歷年病蟲害發生等級、百株蟲口數量等,這類數據通常由于采集標準不完全相同,導致同一種病蟲害的數據格式不同,存在異構問題;(2)病蟲害圖像數據。包括各類病蟲害圖像,例如小麥大斑病圖像,玉米螟蟲圖像等;(3)氣象數據。溫度、濕度等各類氣象因素對病蟲害發生影響很大,例如每類害蟲都有適宜生長的溫度,對這些數據進行統一管理,能夠為后續分析提供便利。

本文實驗所用的山東省小麥和玉米病蟲害數據如表1所示。

表 1 山東省小麥和玉米病蟲害數據

1.2 非結構化數據

非結構化數據是指無法使用關系型數據庫中的二維邏輯關系圖來進行存儲和展示的數據,農作物病蟲害數據中非結構化數據主要為各類病害圖像。

傳統關系型數據庫主要有兩種方式存儲非結構化數據:一種方式是將非結構化數據存放在文件系統中,然后通過文件地址映射進行數據索引。這種方法設計簡單,但是數據的管理不方便,并且還要注意數據的完整性、安全性和事務處理的一致性等問題;另一種方式是將非結構化數據直接存儲在數據庫的BLOB字段中[3]。這樣的存儲方式優點是能夠很好的解決非結構數據存儲對于文件系統的依賴性,方便數據的管理和維護。但是由于關系型數據庫是專門為結構化數據存儲所設計的,非結構化數據都比較大,隨著數據量的不斷增加,數據庫的存儲量也會不斷增加,導致數據庫性能不斷下降[4]。

1.3 結構化數據

結構化數據是指可以被存儲在關系型數據庫中的數據,農作物病蟲害數據大部分都為結構化數據,例如病蟲害發生情況數據和氣象數據等。隨著時間的推移,這部分數據將快速的增加。

病蟲害結構化數據中存在的主要問題是數據異構性,這是由于采集技術與采集標準不同導致的。隨著信息技術的不斷發展,新型采集技術和設備不斷出現,這樣就導致了數據的異構問題將變得更加嚴重。傳統的關系型數據有很大的局限性,如峰值性能、伸縮性、容錯性、可擴展性差等特性[5],并且要求同一張表存儲的數據內部格式必須完全的一致,因此不能夠適應當前病蟲害數據存儲工作。

1.4 HBase

HBase是一種高可靠性、高性能、面向列、稀疏存儲、容量大和可擴展的分布式數據庫[6,7]。它的可靠性體現在數據的WAL機制和副本的保存機制。可擴展性是因為HBase是建立在Hadoop的HDFS文件系統之上的,所以也繼承了HDFS的可擴展性。HBase也是一種基于主從結構的數據庫[8],主要是以表格的形式存儲數據,存儲數據的表格是一個稀疏的多維映射關系表[9,10]。HBase的體系結構如圖1所示。

圖1 HBase體系結構

HBase的主要核心組件有Client、ZooKeeper、HMaster和HRegionServer四個組件。其中Client是整個HBase的入口,Zookeeper是協調服務的組件,HMaster負責對數據表的管理工作,包括管理用戶對數據表的增刪查改操作。HRegionServer內部管理了一系列的HRegion對象,每個HRegion對象對應了一個數據表。每個數據表主要有三個基本的類型:行鍵、時間戳和列族。

2 系統設計與實現

玉米和小麥是山東省重要的農作物,種植面積廣,品種多,發展潛力大[11]。本文以山東省玉米和小麥病蟲害數據為應用背景,設計與實現了基于HBase的農作物病蟲害數據存儲系統。其功能結構圖如圖2所示。

圖 2 基于HBase的農作物病蟲害數據存儲系統功能結構

2.1 存儲結構設計

2.1.1 非結構化數據存儲結構設計目前山東省各地區采集的小麥和玉米病害圖像數據共10萬余張,其中小麥病害圖像數據5萬余張,共計1TB左右,并且隨著采集的進行圖像的數量還在不斷增加。采集的部分病害圖像如圖3所示。

圖 3 采集的部分病害圖像

在HBase數據庫中數據是以Byte數組形式來存儲,因此需要將圖像數據的內容信息轉換為Byte數組,然后通過自定義的MapReduce方法寫入到HBase數據庫中對應的表中,實現對病蟲害數據的持久化存儲。

本文設計的非結構化數據存儲表共分為兩個列族,其結構如表2所示。

表 2 非結構化數據存儲表

自定義的圖像編碼作為數據表中的行鍵值,HBase數據庫默認的時間作為存儲的時間戳。圖像存儲的大表共分為兩個列族,一個列族負責存儲圖像的內容數據和病害的類型,另一個列族負責存儲圖像的其他信息,主要包含圖像類型、大小和創建的時間。病害類型是指存儲圖像的病害種類,如玉米大斑病、小麥銹病等。圖像類型是指是存儲圖像的格式,如JPG和PNG等;創建時間是指圖像拍攝時的時間。

HBase數據庫是通過行鍵值進行數據檢索,為了使行鍵值能包含更多的圖像信息,檢索更加快速,本文自定義了一種圖像行鍵值的編碼格式,采用16位進行編碼,編碼規則表定義如表3所示。

表 3 圖像行鍵的編碼規則表

其中使用1位字母表示農作物的類型,例如M代表玉米(Maize)、W代表小麥(Wheat);使用2位數表示病害的類型,例如01表示玉米大斑病、02表示玉米小斑病等;使用4位數表示采集的年份,2位數表示采集的月份,如“201705”表示圖像是在2017年5月采集的。

2.1.2 結構化數據存儲結構設計山東省玉米和小麥病蟲害發生情況數據通過各級植保站獲取,氣象數據通過山東省氣象局獲取。其中設計的以周為統計節點的山東省部分站點病蟲害發生情況數據表如表4所示,氣象數據如表5所示。

表4 山東省部分小麥病蟲害發生情況數據表

表 5 山東省部分氣象數據

傳統關系型數據庫通常使用多表存儲來解決數據異構的問題。但在數據查詢時,需要將多個表進行自然連接,對海量數據進行檢索時,系統耗費的時間比較長。HBase是一種基于列存儲的數據庫,存儲數據時不需要關注數據的格式問題,因此可以把同一種蟲害歷史數據和當前采集的數據全部存儲在同一張表中,這樣就節省了訪問數據的時間。

在數據庫中,主要由兩種表格進行存儲數據,分別是存儲關系型數據庫結構的表格和存儲數據的表格,如表6和表7所示。本文將采集到的同一種蟲害數據存儲在一個HBase數據表中。

表6 關系型數據庫結構存儲表

在表6中,行鍵值是關系型數據庫中表的名稱,時間戳是HBase數據庫默認的系統時間,存儲數據庫結構的HBase表只有一個列族,主要分為兩個列并且每個列是固定的,分別用來存儲關系型數據表的屬性和蟲害類型。其中關系型數據表的屬性是指當前關系型數據庫中的表格有哪些屬性,不同屬性之間用“,”分開。存儲的蟲害類型是指具體的某種蟲害名稱,如棉鈴蟲、玉米螟等。

表7 蟲害數據存儲表

為了確保同一站點采集到的數據能夠存儲在同一個數據塊中,減少查詢某一站點數據時跨節點訪問的概率,因此在表7中使用站點名作為行鍵值,使用采集該條數據時的時間作為時間戳。HBase數據表只有一個列族,用來存儲采集的數據的屬性值。列族中的列是可以動態增加的,包含采集到的每種蟲害數據的所有屬性信息。

2.2 存儲過程

2.2.1 非結構化圖像數據存儲流程非結構化數據存儲示意圖如圖4所示。

圖4 系統存儲過程示意圖

Hadoop默認的分片方法是將每一個輸入文件作為一個邏輯分片,需要建立大量的Map任務來讀取圖像信息,耗費的時間長,為了減少Map任務的數量,自定義了Hadoop的邏輯分片方法,多個文件作為一個邏輯分片,然后進行存儲工作。具體存儲的過程如下所示:

(1)首先將本地病害圖像數據按照表3編碼規則進行編碼;

(2)將本地的小麥玉米病害的本地圖像上傳到HDFS文件系統中;

(3)自定義Hadoop邏輯分片方法,根據圖像的數量確定邏輯分片的數量,每個邏輯分片作為一個Map的任務來處理;

(4)自定義一個ImageWriteable類來對圖像進行序列化,方便在Hadoop平臺上進行數據的傳遞工作,然后通過MapReduce對圖像進行并行的讀取,最后將讀取到的圖像內容及屬性信息以字符數組的形式存儲到HBase中。

2.2.2 結構化數據存儲過程基于HBase的山東省小麥玉米蟲害數據存儲過程如圖5所示。

圖5 基于HBase的山東省蟲害數據存儲過程

具體的存儲過程如下:

(1)首先從數據庫或EXCEL提取出需要的蟲害數據。從數據庫中提取數據時,需要輸入蟲害的名稱,從數據庫中檢索出存儲當前蟲害數據庫中所有的數據表。若從EXCEL讀取數據,需要將存儲同一種蟲害數據的EXCEL文件放在同一個文件夾下,系統讀取該文件下所有文件中的數據;

(2)將讀取數據中的空值刪除,然后將屬性與屬性值按照鍵值對的格式存儲在TXT文件中;

(3)將TXT文件上傳到HDFS文件系統中;

(4)利用Hadoop的MapReduce對上傳到HDFS文件系統中的文件進行讀取,然后將讀取到的數據寫入到HBase數據庫中。

3 結論

本文針對農作物病蟲害數據在存儲過程中存在數據異構和非結構化數據存儲效率低的問題,設計與實現了一種基于HBase的農作物病蟲害數據存儲系統,對數據存儲的過程進行了詳細的介紹,為病蟲害數據的存儲提供了新的方法,并將其應用于山東省小麥和玉米病蟲害數據存儲中。隨著大數據時代的到來,新型采集技術的不斷發展,農作物病蟲害數據規模的不斷增加,基于HBase存儲系統的優勢也會越來越明顯。

[1] 曹夢鴿,高心丹,程逸群.基于HBase的森林防火遙感瓦片大數據存儲[J].東北林業大學學報,2018,46(2):35-39

[2] 陸婷,房俊,喬彥克.基于HBase的交通流數據實時存儲系統[J].計算機應用,2015,35(1):103-107,135

[3] 岳國華,趙靜靜.基于ORACLE數據庫的多媒體數據SQL級操作探究[J].計算機技術與發展,2011,21(4):152-155

[4] 胡珊珊.面向云存儲的非結構化數據存儲研究與應用[D].廣州:廣東工業大學,2014

[5] 申德榮,于戈,王習特,等.支持大數據管理的NoSQL系統研究綜述[J].軟件學報,2013,24(8):1786-1803

[6] Zhang C, De Sterck H. Supporting Multi Row Distributed Transactions with Global Snapshot Isolation Using Bare ones HBase[C]. Proceedings of the 2010 11thIEEE/ACM International Conference on Grid Computing, Grid 2010:177-184

[7] Chongxin Li. Transforming Relational Database into HBase:A Case Study[C]. Proceedings of the 2010 IEEE International Conference on Software Engineering and Service Sciences, 2010:683-687

[8] Vashishtha H. Enhancing Query Support in HBase Via an Extended Coprocessors Framework[D]. Alberta Canada: University of Alberta, 2011

[9] Franke C, Morin S. Distributed Semantic Web Data Management in HBase and MySQL Cluster[C]. Proceedings of the 2011 IEEE 4thInternational Conference on Cloud Computing, 2011:105-112

[10] Jin Y, Deyu T, Yi Z. A distributed storage model for EHR based on HBase[C]. Proceedings of the 2011 4thInternational Conference on Information Management, Innovation Management and Industrial Engineering, 2011:369-372

[11] 董佑福.山東小麥玉米全程機械化生產的實踐與探索[J].山東農機化,2013(4):13-16

Research and Implementation of Data Storage System for Crop Diseases and Pests Based on HBase

DONG Meng-ping, MU Shao-min*, CAO Zhi-hao, SUN Xiao-xiao

271018,

The data of crop diseases and pests are multi-source, heterogeneous and massive. Traditional data storage methods and systems have the problems of low efficiency and weak scalability. To solve these problems, a data storage system for crop diseases and pests based on HBase was designed and implemented, and it was applied to wheat and maize diseases and pests data storage in Shandong Province. The system can store the data of diseases and pests persistently, manage the multi-source heterogeneous data uniformly, and make up for the deficiency of traditional relational database. It provides a new method for the storage of wheat and corn diseases and pests data in big data environment.

HBase; diseases and pests data; big data; data base

TP392

A

1000-2324(2019)02-0264-06

10.3969/j.issn.1000-2324.2019.02.020

2018-10-08

2018-11-06

董萌萍(1994-),女,在讀碩士研究生,主要從事人工智能的研究. E-mail:dongmengping@126.com

Author for correspondence. E-mail:msm@sdau.edu.cn

猜你喜歡
山東省數據庫
山東省交通運輸研究會正式成立
RCEP對山東省高質量對外開放的影響
山東省德州市雜技團《蹬傘》
雜技與魔術(2022年1期)2022-03-16 10:22:48
眷 戀
——山東省濟寧市老年大學之歌
The improvement of campus ecological environment under the economic development
新生代(2018年23期)2018-11-13 22:41:10
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
山東省即墨市
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 亚洲综合亚洲国产尤物| 色成人综合| 国产凹凸视频在线观看| 最新加勒比隔壁人妻| 国产黑丝一区| 成人福利一区二区视频在线| 久久国产乱子伦视频无卡顿| 午夜福利在线观看成人| 国产尤物jk自慰制服喷水| 99激情网| 国产综合另类小说色区色噜噜| 国产va欧美va在线观看| 中文纯内无码H| 免费看美女毛片| 亚洲综合色婷婷中文字幕| 免费欧美一级| 亚洲av日韩综合一区尤物| 少妇精品网站| 青青青草国产| 国产一级做美女做受视频| 9cao视频精品| 国产丝袜啪啪| 色亚洲成人| 一本色道久久88综合日韩精品| 制服丝袜在线视频香蕉| 成年人福利视频| 97se亚洲综合在线韩国专区福利| 美女高潮全身流白浆福利区| 超碰91免费人妻| 一级看片免费视频| 久久这里只有精品66| 久久亚洲国产一区二区| 久久不卡国产精品无码| 97久久免费视频| 91免费精品国偷自产在线在线| 亚洲妓女综合网995久久| 欧美成人一级| 一级做a爰片久久毛片毛片| 国产在线日本| 国产精品九九视频| 不卡无码h在线观看| 亚洲欧洲日本在线| 亚洲精品午夜天堂网页| 亚洲成a人片7777| 国产极品粉嫩小泬免费看| 中文字幕无线码一区| 久久99久久无码毛片一区二区| 亚洲伊人久久精品影院| 中文字幕1区2区| 免费av一区二区三区在线| 99re精彩视频| 97国产精品视频人人做人人爱| 亚洲色无码专线精品观看| 黄色一及毛片| 欧美黄网在线| 日韩欧美中文字幕一本| 国产成人亚洲日韩欧美电影| 国产精品午夜福利麻豆| 久久一本日韩精品中文字幕屁孩| 亚洲综合中文字幕国产精品欧美| 久久久久免费看成人影片| 免费在线成人网| 最新加勒比隔壁人妻| 亚洲高清资源| 欧美日韩成人| 亚洲男人天堂网址| 在线播放91| 全裸无码专区| 亚洲精品国产首次亮相| 亚洲第七页| 狼友视频国产精品首页| Aⅴ无码专区在线观看| 国产精品对白刺激| 国产精品网拍在线| 91精品视频在线播放| 国产成人精品综合| 97影院午夜在线观看视频| 日韩福利在线观看| 国产丝袜91| 亚洲色图欧美在线| 萌白酱国产一区二区| 亚洲色图欧美在线|