楊旭明, 王志,2, 李忠,2*, 黃建平, 楊百一, 陳朝陽,2
(1.防災(zāi)科技學(xué)院應(yīng)急管理學(xué)院, 廊坊 065201; 2.防災(zāi)科技學(xué)院智能應(yīng)急信息處理研究所, 廊坊 065201; 3.應(yīng)急管理部國家自然災(zāi)害防治研究院, 北京 100085)
“張衡一號(hào)”地震電磁衛(wèi)星(以下簡(jiǎn)稱ZH-1)的成功發(fā)射標(biāo)志著中國已經(jīng)成為世界上少數(shù)擁有在軌運(yùn)行高精度地球物理場(chǎng)探測(cè)衛(wèi)星的國家之一。ZH-1是中國地震立體觀測(cè)體系天基觀測(cè)平臺(tái)的首顆衛(wèi)星,主要科學(xué)研究目標(biāo)是通過獲取全球電磁場(chǎng)、電離層等離子體、高能粒子觀測(cè)數(shù)據(jù),對(duì)中國及其周邊區(qū)域開展電離層動(dòng)態(tài)實(shí)時(shí)監(jiān)測(cè)和地震前兆跟蹤,彌補(bǔ)地面觀測(cè)的不足,探索開展全球7級(jí)、中國6級(jí)以上地震電磁信息研究,總結(jié)電離層擾動(dòng)特征,開展試驗(yàn)性質(zhì)的地震短臨監(jiān)測(cè),進(jìn)一步推進(jìn)中國立體地震觀測(cè)體系建設(shè),為國際合作研究提供電磁數(shù)據(jù)服務(wù),為探索地震監(jiān)測(cè)預(yù)測(cè)提供了新的技術(shù)手段[1]。
ZH-1自發(fā)射成功至今已在軌工作4年多,ZH-1衛(wèi)星搭載8種科學(xué)載荷,包括感應(yīng)式磁力儀、電場(chǎng)探測(cè)儀(electric field detector,EFD)、高精度磁強(qiáng)計(jì)、GNSS掩星接收機(jī)、等離子體分析儀、朗繆爾探針、高能粒子探測(cè)器和三頻信標(biāo)發(fā)射機(jī)[1]。其中EFD載荷可采集全球范圍的電場(chǎng)數(shù)據(jù),是產(chǎn)出數(shù)據(jù)量最多的載荷之一,每天記錄的數(shù)據(jù)量可達(dá)幾十千兆字節(jié)[2],目前累積數(shù)據(jù)量已經(jīng)達(dá)到幾百太字節(jié),其中不同頻段的波形數(shù)據(jù)和功率譜數(shù)據(jù)都是以HDF5文件格式存儲(chǔ)的,主要包括衛(wèi)星軌道信息數(shù)據(jù)和載荷物理量數(shù)據(jù)。衛(wèi)星軌道信息數(shù)據(jù)包括載荷名稱、數(shù)據(jù)類型編碼、軌道號(hào)、升降軌標(biāo)識(shí)、采樣頻率、采樣時(shí)間、頻率范圍、起始/結(jié)束采樣時(shí)間;載荷物理量數(shù)據(jù)包括絕對(duì)時(shí)間、相對(duì)時(shí)間、地磁經(jīng)緯度、地理經(jīng)緯度、工作模式、功率譜頻率值、衛(wèi)星軌道高度、功率譜頻率值、功率譜XYZ三分量、電場(chǎng)波形XYZ三分量等。由于EFD每個(gè)文件的數(shù)據(jù)量很大,文件存儲(chǔ)方式的數(shù)據(jù)查詢?cè)L問效率很低,嚴(yán)重制約著后續(xù)針對(duì)衛(wèi)星數(shù)據(jù)的應(yīng)用和研究工作。為此,高鵬等[3]針對(duì)當(dāng)前ZH-1衛(wèi)星數(shù)據(jù)的文件儲(chǔ)存方式訪問效率極低的缺陷,提出了一種利用關(guān)系型數(shù)據(jù)庫存儲(chǔ)衛(wèi)星數(shù)據(jù)的存儲(chǔ)方法,顯著提高了衛(wèi)星數(shù)據(jù)的查詢?cè)L問時(shí)間。然而,面對(duì)日益增長(zhǎng)的海量衛(wèi)星數(shù)據(jù),基于關(guān)系型數(shù)據(jù)庫的存儲(chǔ)方法具有擴(kuò)展性差、并發(fā)性能偏低、讀寫速度慢、成本高等缺點(diǎn)[4],依然制約著科研人員對(duì)數(shù)據(jù)的檢索訪問效率和實(shí)際研究進(jìn)展。因此,如何解決關(guān)系型數(shù)據(jù)庫存儲(chǔ)面臨的瓶頸問題,并對(duì)衛(wèi)星數(shù)據(jù)進(jìn)行高效的存讀取是迫切需要解決的問題。
當(dāng)前,大數(shù)據(jù)存儲(chǔ)技術(shù)作為處理海量數(shù)據(jù)的全新數(shù)據(jù)存儲(chǔ)與計(jì)算模式,已經(jīng)被應(yīng)用在了很多領(lǐng)域[5]。Jiang等[6]為解決大規(guī)模煤礦安全監(jiān)控?cái)?shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫中時(shí)存儲(chǔ)效率低、查詢速度慢的問題,設(shè)計(jì)了一種基于HBase的存儲(chǔ)和檢索方法,使用該方法對(duì)實(shí)際煤礦數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,數(shù)據(jù)存儲(chǔ)和檢索效率顯著提高;張家偉[7]利用HBase數(shù)據(jù)庫的列存儲(chǔ)特性,從優(yōu)化數(shù)據(jù)計(jì)算流程、HBase表設(shè)計(jì)、選取數(shù)據(jù)分類壓縮算法、搭建Hadoop和HBase環(huán)境、壓縮存儲(chǔ)電力數(shù)據(jù)等幾個(gè)步驟設(shè)計(jì)實(shí)現(xiàn)了基于電力數(shù)據(jù)的高壓縮率和快速存讀取的壓縮存儲(chǔ)系統(tǒng);劉凱銘等[8]將基于Hadoop框架的大數(shù)據(jù)技術(shù)應(yīng)用到油氣水井生產(chǎn)大數(shù)據(jù)的存儲(chǔ)和分析中,解決了海量數(shù)據(jù)在傳統(tǒng)關(guān)系數(shù)據(jù)庫上查詢效率低的問題,實(shí)現(xiàn)了多維數(shù)據(jù)的在線分析功能;單維鋒等[9]通過深入分析地震前兆時(shí)間序列數(shù)據(jù)的特點(diǎn)以及數(shù)據(jù)處理的業(yè)務(wù)需求,首次提出了基于OpenTSDB和HBase結(jié)合的優(yōu)化存儲(chǔ)方案,通過測(cè)試分析了該方案在海量時(shí)空數(shù)據(jù)存儲(chǔ)中高效的讀寫和并發(fā)性能。
現(xiàn)根據(jù)ZH-1衛(wèi)星空間電場(chǎng)數(shù)據(jù)科研工作的需求,分析現(xiàn)有存儲(chǔ)方法擴(kuò)展性差、并發(fā)性能偏低、讀寫速度慢、成本高等不足,結(jié)合大數(shù)據(jù)存儲(chǔ)技術(shù)的高可擴(kuò)展性、高并發(fā)讀寫性、高可用性等優(yōu)勢(shì),提出將ElasticSearch搜索引擎和HBase相結(jié)合的衛(wèi)星大數(shù)據(jù)存儲(chǔ)方案,并以ZH-1衛(wèi)星記錄的空間電場(chǎng)超低頻(ultra-low frequency,ULF)頻段數(shù)據(jù)為例,進(jìn)行存儲(chǔ)實(shí)驗(yàn)和對(duì)比測(cè)試,以驗(yàn)證該方案在張衡一號(hào)衛(wèi)星空間電場(chǎng)數(shù)據(jù)存儲(chǔ)中的高效性和適用性。
HBase作為分布式存儲(chǔ)數(shù)據(jù)庫,優(yōu)勢(shì)明顯,主要體現(xiàn)在其容量巨大、列存儲(chǔ)方式的低I/O吞吐量、多副本存儲(chǔ)的高可靠性、快寫入等性能方面[10]。但是HBase僅支持對(duì)RowKey的毫秒級(jí)高速檢索,而RowKey具有唯一性以及字符長(zhǎng)度受限的缺陷,使得HBase對(duì)于多字段的組合查詢顯得力不從心。
ElasticSearch作為一個(gè)分布式可擴(kuò)展的實(shí)時(shí)搜索引擎,能同時(shí)支持全文檢索和時(shí)序檢索場(chǎng)景,可以支持豐富的查詢需求[11]。但是,ElasticSearch的搜索引擎嚴(yán)重依賴于底層的 Filesystem Cache,每當(dāng)數(shù)據(jù)查詢時(shí),操作系統(tǒng)都會(huì)將磁盤文件里的數(shù)據(jù)自動(dòng)緩存到 Filesystem Cache。因此在單獨(dú)面對(duì)海量數(shù)據(jù)時(shí),如果把所有查詢字段和非查詢字段都寫入ElasticSearch中,不僅會(huì)大大增加ElasticSearch的內(nèi)存管理成本,還會(huì)嚴(yán)重影響查詢效率。
因此,通過分析HBase和ElasticSearch的優(yōu)勢(shì)和劣勢(shì),提出將ElasticSearch搜索引擎與HBase各自優(yōu)勢(shì)相結(jié)合的存儲(chǔ)方案(以下簡(jiǎn)稱ES+HBase存儲(chǔ)方案),通過把海量數(shù)據(jù)存儲(chǔ)到HBase中,同時(shí)在ElasticSearch中建立查詢字段的索引字段,以進(jìn)一步提升HBase檢索能力,實(shí)現(xiàn)對(duì)ZH-1衛(wèi)星海量數(shù)據(jù)的多條件組合快速查詢。
基于ES+HBase的衛(wèi)星大數(shù)據(jù)存儲(chǔ)方案的原理是將HBase表中涉及條件過濾的字段和RowKey作為索引字段在ElasticSearch中建立索引,通過在ElasticSearch中進(jìn)行多條件組合查詢快速獲得符合過濾條件的RowKey值,最后在HBase中通過從ElasticSearch中獲取到的RowKey進(jìn)行高速檢索,其原理如圖1所示。

圖1 基于ElasticSearch和HBase結(jié)合的存儲(chǔ)方案原理圖Fig.1 Schematic diagram of storage solutions based on ElasticSearch and HBase
由圖1可知,當(dāng)用戶發(fā)起條件查詢請(qǐng)求時(shí),先將請(qǐng)求信息發(fā)送給ElasticSearch主機(jī),該主機(jī)根據(jù)查詢條件從索引字段中獲取相應(yīng)RowKey值,并將RowKey值返回給用戶,用戶使用獲得的RowKey值去HBase中獲取相應(yīng)數(shù)據(jù)集,即可完成整個(gè)查詢流程。
基于ES+HBase的衛(wèi)星大數(shù)據(jù)存儲(chǔ)方案的存儲(chǔ)模型設(shè)計(jì)主要包括列族設(shè)計(jì)、RowKey設(shè)計(jì)、索引字段設(shè)計(jì)。RowKey是HBase中最重要的概念,是HBase數(shù)據(jù)表的唯一主鍵,它按照一定的字典順序存儲(chǔ)的字符串類型數(shù)據(jù),并且其字段具有大小限制。另外,它還可以用來進(jìn)行全表掃描或范圍掃描,這也是HBase訪問數(shù)據(jù)的方式之一[12]。RowKey設(shè)計(jì)的總原則是避免熱點(diǎn)現(xiàn)象,提高讀寫性能。
以2020年6月的ZH-1衛(wèi)星空間電場(chǎng)探測(cè)儀的ULF頻段數(shù)據(jù)為例加以說明。
步驟1根據(jù)RowKey設(shè)計(jì)的長(zhǎng)度原則、散列原則和唯一性原則,使用反轉(zhuǎn)HDF5文件中的時(shí)間(UTC_TIME)字段數(shù)據(jù)作為RowKey前綴,通過讀取HDF5文件名稱和內(nèi)容中的衛(wèi)星編號(hào)、載荷編碼、載荷序號(hào)、數(shù)據(jù)分級(jí)編碼、觀測(cè)對(duì)象編碼、接收站編碼、版本號(hào)組成RowKey,讓數(shù)據(jù)均衡分布在每個(gè)Region-Server,實(shí)現(xiàn)負(fù)載均衡,提高查詢效率,如圖2所示。

圖2 RowKey設(shè)計(jì)組成圖Fig.2 Design composition drawing of RowKey
在圖2中,以一個(gè)H5文件為例,通過編寫程序代碼,獲取文件中UTC_TIME字段值,進(jìn)行反轉(zhuǎn)操作后作為RowKey前綴字段,軟件版本號(hào)(SOFTVERSION)屬性值作為RowKey后綴字段,同時(shí)提取文件名稱中的衛(wèi)星編號(hào)01、載荷編號(hào)EFD、載荷序號(hào)1、數(shù)據(jù)分級(jí)編碼L02、觀測(cè)對(duì)象編碼A1以及接收站編碼000進(jìn)行組合作為RowKey的中間字段。
步驟2創(chuàng)建包含時(shí)間、衛(wèi)星編碼(SNUM)、探頭編碼、軌道號(hào)、軌道高度、升降軌標(biāo)識(shí)、經(jīng)度、緯度等列字段的列族CF1,包含電場(chǎng)波形XYZ3個(gè)分量數(shù)據(jù)的列族WAVE,以及包含功率譜XYZ3分量數(shù)據(jù)和頻點(diǎn)值的列族PSD。
步驟3把列族CF1中作為組合查詢條件的列字段和RowKey作為索引字段在ElasticSearch中建立索引。數(shù)據(jù)存儲(chǔ)模型如圖3所示。

圖3 數(shù)據(jù)存儲(chǔ)模型Fig.3 Data storage model
圖3中HBase的表名為ZH01_EFD_ULF,ElasticSearch的索引表名為zh01_efd_ulf,其中wave000表示列族WAVE中第一列的列名,psd000表示列族PSD中第一列的列名,WX0_WY0_WZ0表示將波形數(shù)據(jù)的XYZ三分量的第一個(gè)數(shù)據(jù)進(jìn)行拼接,PX0_PY0_PZ0表示將功率譜數(shù)據(jù)的XYZ三分量的第一個(gè)數(shù)據(jù)進(jìn)行拼接;HBase表中RowKey字段同步到ElasticSearch索引表中作為id字段,HBase表CF1列族中UTC_TIME、SNUM等字段分別在ElasticSearch索引表中創(chuàng)建對(duì)應(yīng)的ES_CF1.UTC_TIME、ES_CF1.SNUM等字段。
由于文獻(xiàn)[3]通過關(guān)系型數(shù)據(jù)庫方法顯著提高了衛(wèi)星數(shù)據(jù)的查詢?cè)L問時(shí)間,因此在其基礎(chǔ)上,利用2020年6月的ZH-1空間電場(chǎng)探測(cè)儀的ULF頻段數(shù)據(jù),通過搭建基于ES+HBase的大數(shù)據(jù)存儲(chǔ)方案的實(shí)驗(yàn)平臺(tái),與基于Mysql數(shù)據(jù)庫的關(guān)系型數(shù)據(jù)方法的查詢?cè)L問效率進(jìn)行對(duì)比分析。
搭建了由6臺(tái)主機(jī)組成的基于Hadoop架構(gòu)的高可用集群、1臺(tái)ElasticSearch主機(jī)和1臺(tái)Mysql對(duì)比測(cè)試主機(jī),所有主機(jī)的配置為:1個(gè)Intel(R) Xeon(R) E5-1620 V2 CPU(3.6 GHz,雙核),8 G內(nèi)存,1塊4TSATA硬盤,Centos7操作系統(tǒng)和JDK1.8環(huán)境。在Hadoop集群相應(yīng)節(jié)點(diǎn)上分別安裝Hadoop3.2.2、ZooKeeper3.6.2、HBase2.2.7軟件,在ElasticSearch主機(jī)上安裝ElasticSearch6.8.15軟件,同時(shí)在Mysql主機(jī)上安裝Mysql5.7數(shù)據(jù)庫系統(tǒng)。以上每個(gè)主機(jī)的角色分配情況如表1所示。

表1 ElasticSearch和HBase角色配置Table 1 ElasticSearch and HBase role configuration
實(shí)驗(yàn)通過兩個(gè)角度對(duì)基于ES+HBase的大數(shù)據(jù)存儲(chǔ)方法、HBase RowKey查詢方法和Mysql數(shù)據(jù)
庫方法的查詢?cè)L問效率進(jìn)行比較。一個(gè)是不同存儲(chǔ)數(shù)據(jù)量基數(shù)下查詢相同數(shù)據(jù)量的效率對(duì)比測(cè)試;另一個(gè)是在相同存儲(chǔ)數(shù)據(jù)量基數(shù)下查詢不同數(shù)據(jù)量的效率對(duì)比測(cè)試。
2.2.1 不同存儲(chǔ)量的相同數(shù)據(jù)查詢效率比較
分別測(cè)試在700萬、1 500萬、3 000萬、6 000萬、1億條數(shù)據(jù)量基數(shù)下查詢200萬條數(shù)據(jù)時(shí)不同存儲(chǔ)方案的所用時(shí)間,實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 不同存儲(chǔ)基數(shù)下查詢200萬條數(shù)據(jù)耗時(shí)Fig.4 The time used to query 2 million pieces of data in different storage bases
由圖4可以看出,隨著數(shù)據(jù)庫中所存儲(chǔ)的數(shù)據(jù)總量的不斷增大,查詢相同數(shù)據(jù)時(shí),Mysql數(shù)據(jù)庫方法的查詢時(shí)間持續(xù)增加,查詢效率明顯降低;而利用HBase的RowKey查詢的方法與基于ES+HBase存儲(chǔ)方案的查詢效率仍都維持在較高水平、變化很小,且兩者效率相近。
2.2.2 相同存儲(chǔ)量的不同數(shù)據(jù)查詢效率比較
在1億條數(shù)據(jù)量基數(shù)下分別查詢1萬、10萬、100萬、200萬、300萬5種不同數(shù)據(jù)量時(shí)不同存儲(chǔ)方案的所用時(shí)間,其結(jié)果如圖5所示。

圖5 1億條數(shù)據(jù)基數(shù)下查詢不同數(shù)據(jù)量耗時(shí)Fig.5 The time used to query different amounts of data in a data base of 100 million
由圖5可以看出,在相同存儲(chǔ)數(shù)據(jù)量基數(shù)下,隨著查詢數(shù)據(jù)量的不斷增大,Mysql數(shù)據(jù)庫方法查詢耗時(shí)增加明顯;而利用HBase的RowKey查詢的方法與基于ES+HBase存儲(chǔ)方案的查詢耗時(shí)增加較為緩慢、變化較小,且兩者效率相近。
通過對(duì)以上兩種方式的對(duì)比實(shí)驗(yàn)進(jìn)行分析可知,隨著衛(wèi)星數(shù)據(jù)量的不斷增大,傳統(tǒng)Mysql關(guān)系型數(shù)據(jù)庫方法在查詢大數(shù)據(jù)量時(shí)的效率越來越低,而HBase通過RowKey查詢的效率仍維持在較好的狀態(tài),優(yōu)勢(shì)愈發(fā)明顯。同時(shí),基于ES+HBase的衛(wèi)星大數(shù)據(jù)存儲(chǔ)方案中雖然增加了ElasticSearch索引字段的查詢階段,但是該階段對(duì)整體查詢效率的影響是微乎其微的,其效率也非常好。因此,基于ES+HBase相結(jié)合的衛(wèi)星大數(shù)據(jù)存儲(chǔ)方法不僅增強(qiáng)了HBase的多條件組合查詢的能力,滿足了科研人員對(duì)衛(wèi)星數(shù)據(jù)的精準(zhǔn)查詢需求,還繼承了HBase RowKey查詢方法的高效性,實(shí)現(xiàn)了對(duì)海量衛(wèi)星數(shù)據(jù)的高效查詢?cè)L問。
以ZH-1空間電場(chǎng)探測(cè)儀的ULF頻段數(shù)據(jù)為例,利用3.1節(jié)的實(shí)驗(yàn)環(huán)境,測(cè)試基于ES+HBase相結(jié)合的衛(wèi)星大數(shù)據(jù)存儲(chǔ)方法的查詢響應(yīng)效果和在不同條件下檢索數(shù)據(jù)的應(yīng)用效果。
由于文獻(xiàn)[3]通過關(guān)系型數(shù)據(jù)庫方法顯著提高了衛(wèi)星數(shù)據(jù)的查詢?cè)L問時(shí)間,因此本實(shí)驗(yàn)在其基礎(chǔ)上,將2019年11月—2020年12月共計(jì)14個(gè)月的ULF頻段數(shù)據(jù)存入數(shù)據(jù)庫中進(jìn)行查詢響應(yīng)時(shí)間測(cè)試,分別測(cè)試ES+HBase大數(shù)據(jù)存儲(chǔ)方法、關(guān)系型數(shù)據(jù)庫和文件存儲(chǔ)方法的響應(yīng)時(shí)間,測(cè)試結(jié)果如表2所示。

表2 3種存儲(chǔ)方法查詢響應(yīng)時(shí)間對(duì)比Table 2 Comparison of query response time of three storage methods
雖然本實(shí)驗(yàn)的硬件環(huán)境比文獻(xiàn)[3]的實(shí)驗(yàn)條件差,數(shù)據(jù)庫存儲(chǔ)量比文獻(xiàn)[3]測(cè)試數(shù)據(jù)量多,但是由表2測(cè)試結(jié)果可以看出,ES+HBase存儲(chǔ)方法的響應(yīng)時(shí)間都要優(yōu)于關(guān)系型數(shù)據(jù)庫和文件查詢,該方法的性能幾乎能達(dá)到關(guān)系型數(shù)據(jù)庫的1.5倍,是現(xiàn)有文件存儲(chǔ)方式的幾十倍,這種效率的提升增加了進(jìn)行大規(guī)模電場(chǎng)數(shù)據(jù)應(yīng)用的可行性,同時(shí)也說明了所構(gòu)建的數(shù)據(jù)訪問平臺(tái)是高效的,基于ES和HBase的大數(shù)據(jù)存儲(chǔ)方法是可行的。
以軌道號(hào)13225為例。將軌道號(hào)13225和升降軌標(biāo)識(shí)1作為查詢條件,檢索13225軌道夜側(cè)半軌電場(chǎng)波形數(shù)據(jù)和功率譜數(shù)據(jù),約17 s即可繪制出如圖6所示的半軌電場(chǎng)波形圖,約23 s即可繪制出如圖7所示的功率譜圖。由此可知,存儲(chǔ)方法不僅具有在線數(shù)據(jù)分析功能,還大大提高了數(shù)據(jù)訪問效率,是文獻(xiàn)[3]關(guān)系型存儲(chǔ)方法的3倍以上。

圖6 13225_1電場(chǎng)波形圖Fig.6 13225_1 electric field waveform

圖7 13225_1電場(chǎng)功率譜圖Fig.7 13225_1 electric field power spectrum
圖6展示的是13225軌道夜側(cè)半軌電場(chǎng)波形三分量數(shù)據(jù)隨著時(shí)間、經(jīng)緯度的變化。圖7展示的是13225軌道夜側(cè)半軌中不同經(jīng)緯度、不同頻率下的電場(chǎng)功率譜三分量數(shù)據(jù)情況。
選擇2020年6月23日墨西哥瓦哈卡海岸近海7.8級(jí)地震(地理經(jīng)度為-96.75°,地理緯度為16.15°)的震前15 d電場(chǎng)ULF頻段3分量波形數(shù)據(jù)進(jìn)行研究。由于ZH-1的所有儀器設(shè)計(jì)為在緯度±65°的范圍內(nèi)開機(jī)工作,重返周期為5 d[3],因此將15 d研究數(shù)據(jù)劃分為3個(gè)周期。同時(shí)考慮到衛(wèi)星監(jiān)測(cè)電場(chǎng)數(shù)據(jù)在白天易受到太陽和人類活動(dòng)等因素干擾[13],將對(duì)ULF數(shù)據(jù)的搜索條件設(shè)置如下。
(1)將該震中區(qū)域地理經(jīng)度加減15°,得到-111.75°~-81.75°區(qū)域范圍。
(2)地理緯度-65°~65°區(qū)域范圍。
(3)震前第三個(gè)周期即2020年6月19—23日。
(4)選擇夜側(cè)升軌。
在存儲(chǔ)中查詢?cè)摋l件下的波形X分量數(shù)據(jù),約120 s即可繪制出該條件下波形軌道數(shù)據(jù)的空間分布圖,該效率是文獻(xiàn)[3]存儲(chǔ)方法的3倍,如圖8所示。

圖8 震中附近X分量波形軌道數(shù)據(jù)空間分布圖Fig.8 Spatial distribution of X component waveform orbit data near the epicenter
圖8中顯示了2020年6月23日墨西哥瓦哈卡海岸近海7.8級(jí)地震震前5 d所有經(jīng)過其震中附近矩形區(qū)域內(nèi)衛(wèi)星軌道波形數(shù)據(jù)空間分布情況。
通過分析當(dāng)前ZH-1衛(wèi)星數(shù)據(jù)的現(xiàn)有存儲(chǔ)方案在擴(kuò)展性、存讀取效率等方面的不足以及科研工作的需求,充分結(jié)合大數(shù)據(jù)存儲(chǔ)技術(shù)在海量數(shù)據(jù)高效存儲(chǔ)與讀取等方面的優(yōu)勢(shì),提出了基于ES+HBase的衛(wèi)星大數(shù)據(jù)存儲(chǔ)方案。通過搭建基于所研究方案的大數(shù)據(jù)存儲(chǔ)實(shí)驗(yàn)平臺(tái),進(jìn)行對(duì)比實(shí)驗(yàn)和應(yīng)用分析,得到以下結(jié)論。
(1)通過在ElasticSearch中建立索引字段的方法,基于ES+HBase的衛(wèi)星大數(shù)據(jù)存儲(chǔ)方案繼承了HBase 本身RowKey查詢的高效性,實(shí)現(xiàn)了對(duì)海量衛(wèi)星數(shù)據(jù)的高效查詢?cè)L問;增強(qiáng)了HBase的多條件組合查詢的能力,滿足了科研人員對(duì)衛(wèi)星數(shù)據(jù)的多條件組合查詢需求,為后續(xù)針對(duì)海量衛(wèi)星數(shù)據(jù)進(jìn)行的一系列科學(xué)研究工作提供高效的技術(shù)支撐。另外,該存儲(chǔ)方案具有橫向擴(kuò)展性、高可用性和高并發(fā)性等特點(diǎn),不僅解決了傳統(tǒng)關(guān)系型數(shù)據(jù)庫存儲(chǔ)方案的一系列瓶頸問題,還可以通過HBase的預(yù)分區(qū)、數(shù)據(jù)壓縮等高級(jí)功能進(jìn)一步提高該方案的性能。
(2)實(shí)驗(yàn)結(jié)果和實(shí)際應(yīng)用效果分析表明,面對(duì)不斷增加的數(shù)據(jù)存儲(chǔ)需求時(shí),基于ES+HBase的衛(wèi)星大數(shù)據(jù)存儲(chǔ)方案的高效查詢?cè)L問的優(yōu)勢(shì)越來越明顯,查詢速度可以比關(guān)系型數(shù)據(jù)庫方案高出幾倍、幾十倍;同時(shí)該方案實(shí)現(xiàn)了對(duì)衛(wèi)星空間電場(chǎng)ULF頻段數(shù)據(jù)的多條件組合的快速查詢。
由于涉及的實(shí)驗(yàn)可能會(huì)由于環(huán)境配置比較低、數(shù)據(jù)量不足夠大等原因沒能更好地體現(xiàn)基于ES+HBase存儲(chǔ)方案的優(yōu)勢(shì),因此后續(xù)將會(huì)在該方案的基礎(chǔ)上,通過提高服務(wù)器配置、調(diào)優(yōu)ES+HBase的性能參數(shù)等,對(duì)10 TB及以上的數(shù)據(jù)量存儲(chǔ)進(jìn)行更深層次的實(shí)驗(yàn)和實(shí)際應(yīng)用分析,進(jìn)一步證明基于ES+HBase大數(shù)據(jù)存儲(chǔ)方案在ZH-1衛(wèi)星數(shù)據(jù)服務(wù)中的適用性。