999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預分區策略的裝備數據分布式存儲方法

2021-01-15 07:27:28許利杰汪保龍楊富學黃驍飛
計算機與生活 2021年1期
關鍵詞:模型

高 健,魏 峻,許利杰,汪保龍,楊富學,黃驍飛

1.中國科學院軟件研究所軟件工程技術研發中心,北京100190

2.中國科學院大學,北京100049

3.北京電子工程總體研究所,北京100039

隨著計算機技術、傳感器技術、物聯網技術的發展,工業領域正前所未有地創造著大量數據,對于工業領域而言,大數據帶來了潛在價值的同時,也同時帶來了巨大的挑戰[1]。大數據的挑戰之一在于如何能在數據快速產生的同時實現數據快速存儲管理,這對于數據的價值挖掘有重要作用,對于提升裝備制造能力也具有重要意義。

研究裝備大數據管理首先應研究裝備數據特點,裝備具有“多樣性、大規模、高頻性、時序性、高價值性”的數據特點[2-3],這里以航空航天裝備數據為例說明。(1)多樣性:裝備在研制生產的過程中經歷多個過程,包括設計、研發、試驗、生產、使用和維護等,每一個過程又有多個種類的子過程,如飛機的試驗包括發動機上電和點火試驗、燃油系統的適墜性試驗、輪胎爆破試驗、疲勞試驗、地面滑行試驗等[4-5]。(2)大規模:裝備結構復雜,特別是高端裝備內部有數十個分系統、上百個子系統、成千上萬個裝備部件,一顆衛星、一架飛機可采集的參數往往有上萬個,一個型號一次試驗就能采集幾十GB 的數據,因此數據量巨大。(3)高頻性:隨著傳感器技術和傳輸網絡的發展,數據的采集和傳輸頻率特別高,如飛機總線協議ARINC664 采用全雙工通信模式,帶寬可達100 Mbit/s,終端數量理論無上限,采用這種協議采集的數據頻率可達納秒級[6-7]。(4)時序性:裝備數據是強時序的,這也是與互聯網數據的區別所在,互聯網數據一般是龐雜且是離散的,裝備數據一般是規則的且時序的,對于裝備數據的使用往往也具備較強的時序性特征。(5)高價值性:裝備在研制生產過程中產生的龐大數據量整體是高價值的,在工業生產的各個環節,數據直接反映裝備質量,通過數據可以發現并排除裝備研制生產過程中存在的隱患。

為解決裝備大數據的存儲管理問題,各界學者及工業部門開展了大量的研究與實踐。但是,一個不容忽視的現實是,裝備數據作為企業的重要核心資產,往往掌握在某些公司甚至某些部門手里,幾乎不能與外人分享,因此對于大數據存儲管理研究的大量成果,難以實現真正的驗證與應用,對于某些在工業制造中出現的實際問題也沒有解決辦法。

迄今為止,我國裝備數據存儲管理方式主要有兩種:一是將數據以原始文件的形式存儲在硬盤上,數據“現用現解析”[8];二是數據解析后存儲在關系型數據庫中,形成數據資產庫和數據倉庫。兩種存儲都是傳統的數據管理模式,在應對大數據方面都有一定的不足之處。使用文件的方式存儲,難以針對大量數據進行更進一步的復雜分析,無法有效洞悉數據的內在價值。使用關系型數據庫存儲,由于數據庫本身的限制,從技術上不得不將數據存儲表切割,進行大規模的分表和分庫,以緩解海量數據帶來的存儲壓力。但是分表分庫會帶來非常高的成本,特別是數據檢索效率很低,在眾多類型的裝備數據不斷累積的背景下,這種方式顯然已經無法滿足當前的需求。

針對裝備數據的特點,需要這樣一種數據存儲管理方式,首先要解決裝備數據多樣性和大規模特點,能夠從生產過程、裝備組成等多個維度存儲海量數據;其次要能有效存儲高頻數據,對不同頻率的數據進行分類存儲;最后要能較好地支持數據的時序性特征。

為解決以上描述問題,本文提出了基于預分區策略的分布式存儲方法,該方法使用分布式列式存儲管理海量裝備數據,可以實現數據存儲的負載均衡,并提高數據存儲效率;在數據模型方面,提出了基于列式存儲結構的裝備數據的分布式存儲模型,定義了數據的鍵值對存儲結構,有效解決單次TB 級裝備數據的存儲問題;在存儲過程方面,提出了一種基于列式數據預分區策略,進而解決海量裝備數據的高速存儲問題,實現TB 級裝備數據在15 min 內完成存儲。

1 分布式列式數據庫存儲

1.1 HBase數據庫簡介

分布式數據存儲技術是大數據的典型技術之一[9],其核心是將數據分散地存儲在多臺服務器設備上,這樣一方面可以減少因數據量過大而造成的對單一服務的高負載,另一方面也可以提高數據整體的安全性、可靠性和存儲效率,同時也可以提高數據存儲的可擴展能力[10-11]。

以Hadoop 為代表的開源大數據技術的問世,快速推動了分布式存儲技術的發展,HBase作為Hadoop架構下的分布式列式數據庫,其內在的分布式元數據管理架構可以將數據分散地存儲在多個節點上,進而解決了數據集中存儲帶來的瓶頸問題[12-13]。本文也是基于HBase 的分布式存儲模式展開裝備數據快速存儲策略的討論,在該模式中,裝備海量工程值數據可以<key,value>的數據格式快速地存儲在每個存儲節點上,每個節點的每個HRegion 分散地承擔數據存儲任務。

1.2 HBase分區機制

在HBase 的設計中,每一個Region 作為一個單獨的存儲單元,用于數據的分區存儲管理。每一個數據管理節點都分配一個Region server,用于管理若干個Region,Region server 和Region 是一對多的關系[14]。而Region 下面可以創建若干個store,每一個store 對應存儲每一個Hfile,Region 和store 是一對多的關系。HBase 自身設計了一套自動分區機制,包含多種自動分區策略,能夠在海量數據存入HBase 時,將數據平均存儲在多個Region 中,進而實現數據在多臺機器上的負載均衡。

HBase 分區策略的核心思想是通過判斷hfile 是否超出了一定的閾值(Region 的存儲能力),當達到閾值時Region 會進行裂變,HBase 的機制是選取Region 中間key 值,然后保留startkey 和endkey,將區間一分為二,新生成的Region 會重新掛載在Region server中,最后匯報給HBase中的master。

2 關鍵機制

2.1 數據表征

裝備數據具有大規模、高頻性、時序性等特征,但在裝備不同的生命周期有所差異,如試驗階段需要大量數據進行裝備功能和性能分析,因此特征最為明顯。裝備數據往往是以二進制方式進行傳輸處理的,圖1 給出了某型號飛機和某型號飛行產生的數據示例,表1 對裝備數據特征進行了說明,從數據來源階段、數據量、數據頻率、數據格式、數據組成、參數數量、數據相關性、數據標簽等方面進行了特征說明。

2.2 裝備數據快速存儲框架

本文研究基于HBase 預分區策略的裝備數據快速存儲的框架,該框架的主要目標是實現裝備數據在HBase 中進行快速而均衡的數據存儲,該框架以快速存儲中間件為核心,內置HBase 自動化預分區模塊,針對經過預處理后的格式化裝備數據,實現數據快速存儲。

Fig.1 Initial data format of aircraft圖1 飛行器初采數據格式

Table 1 Data characteristics表1 數據特征

圖2 展示了裝備數據快速存儲的框架。在數據處理層中,數據經過準備、預處理和數據解析之后,數據進入到中間件層。中間件層的作用是在數據處理層和數據存儲層之間搭建一個服務層,能夠將解析之后的數據按照需求進行快速處理和存儲。中間件層包含四個模塊,分別是數據標準化模塊、關鍵信息采集模塊、HBase 預分區處理模塊、HBase 服務接口模塊。其中,數據標準化模塊的作用是將不同類型的裝備數據進行標準化格式處理,形成可以存儲在HBase 數據庫中的數據格式;HBase 預分區模塊實現基于裝備模型的HBase 的預分區規則,執行規則算法;關鍵信息采集模塊可以將預分區所需要的數據從原始數據文件、數據配置文件、集群環境中進行采集;HBase 服務訪問接口提供標準的HBase 數據庫訪問服務。通過中間件層的數據存儲優化過程執行后,HBase 會根據命令執行相應的預分區操作,并接收中間件層下發的數據存儲命令。本文主要完成了中間件層以下的相關工作,通過研究自動化預分區算法實現數據的快速存儲。

Fig.2 Fast storage framework for equipment data圖2 裝備數據快速存儲框架

2.3 裝備數據分布式存儲方法設計

由于裝備在短時間內可產生大量數據,如某型號飛機在一次飛行任務里可產生10 億~100 億條數據,傳統關系型數據庫一張表的存儲上限為千萬級,數據量過億后查詢效率大大降低。而使用大規模的分表分庫會提升管理成本,同時也會降低跨時間域、參數域的數據檢索效率。因此采用分布式列式數據庫,可以同時解決海量裝備數據的高速存儲問題和快速查詢問題。

在分布式存儲設計中,首先建立基于HBase 的數據存儲模型,這影響著數據分區規則的制定。HBase的數據存儲是key/value 形式的,每一條信息使用rowkey作為索引,而HBase的分區機制是使用rowkey的前置字符作為分區邊界[15]。因此,如何基于裝備數據存儲模型實現自適應的預分區機制,將是整個研究的基礎。當然,裝備數據存儲模型的建立依托于分布式數據庫HBase和傳統的關系型數據庫。

以飛行器為例,一般的飛行器信息如飛行器表、飛行器型號表、飛行器分系統表、飛行器參數表仍然使用關系型數據庫管理,而產生大量數據的飛行器參數值表需要使用分布式數據庫進行管理,也就是需要對其建立分布式數據存儲結構。在分布式數據庫HBase 中建立飛行器參數工程值表,實現飛行器數據存儲方式的重構,完成數據模型的建立。對于rowkey 中索引的唯一標識,需要飛行器飛行任務、參數數據時間戳、參數名進行組合實現唯一標識索引,而value 中需要存儲每一個參數每一條數據的數值,將數據碎片化存儲。值得注意的是,這里不使用HBase 的列族,原因是會降低表的檢索效率[16]。這樣,就完成了裝備數據存儲模型的最初形態。參數值如表2 所示。

Table 2 Aircraft parameter value表2 飛行器參數值表

2.4 自動化預分區策略影響因子研究

HBase 是以key/value 的結構進行數據存儲的[17],其分區機制是通過數據表的rowkey 值進行分割的,HBase本身的分區機制存在以下不足。

(1)HBase 分區策略會導致數據存儲上的分配不均衡,對于數據如何分配才最合理需要有經驗的工程師進行干預。假設有10 GB的裝備試驗數據,如圖3所示場景,如果工程師將HBase Region 的分裂閾值設置成10 GB,數據就會在單個Region server 中集中存儲,導致其他資源閑置,集群資源極大浪費;如圖4所示場景,如果工程師設置的Region 閾值過小,導致Region 閾值與數據容量比值過小,數據分配給1 000個Region 進行分布式存儲,過多的分區會開啟過多的并發任務,占用過多的計算資源,會影響數據的寫入速度。

Fig.3 Uneven data distribution leading to idle and wasted server resources圖3 數據分配不均導致服務器資源閑置浪費

Fig.4 Too many data partitions affecting storage performance圖4 過多的數據分區影響存儲性能

(2)HBase 的分區機制是Region 不停地進行split裂變操作,進行裂變的Region 需要不斷地進行下線、創建、寫入、重新掛載、匯報master 等過程,造成大量的資源負載,增加系統開銷,數據量過大時還會導致系統崩潰。

這里設計自動化預分區的機制,在設計的裝備參數值表中可以判斷,需要將唯一標識“任務編號+參數名+時間戳”進行多段分割,以達到數據分布式存儲的目的。而針對數據設計模型,可以選擇按參數名進行分區或者按時間戳進行分區,具體選擇哪種分區方法,需要研究數據的本身,如不同采樣周期的參數數量和數據樣本量,找出相關的影響因子,從而做出正確的選擇。

這里以某型號飛行器為例,圖4 統計了某型號飛行器一次飛行試驗任務數據,分別統計了不同采樣率和采樣周期下的參數數量。在這個樣本數據中,共有3 萬多個采集參數點,參數點的采樣周期從最小的0.1 ms 到最大的4 000 ms 不等,由圖5(b)可以發現,2 000 ms 的采樣周期上共有2 萬多個采集參數點,也就是說大多數的參數點只有0.5 Hz 的采集頻率。而由圖5(a)所示,有少數樣本參數的采集頻率達到了8 000 Hz,單位時間內可產生大量數據,因此對于工業裝備而言,由于傳感器設置的差異,會導致即使在相同的時間內,參數樣本數量差異很大,大樣本參數0.5 Hz 與小樣本參數8 000 Hz 差了16 000 倍的數據量,因此說數據極不平衡,在數據處理和存儲過程中需要考慮數據傾斜問題。

更進一步地,需要在數據預處理的過程中計算出每個樣本參數點在存儲過程中產生的數據量,用于分區策略的判定標準。圖6(a)展示了樣本數據在25 個采樣周期下最大的數據量值,也就是在每一個點統計了最大數據存儲量值的參數。圖6(a)記錄了一幀數據的大小,根據存儲模型可知,一幀記錄數據量大小sr=f(rowkey,column,cell)=(任務單編號+參數名+時間戳+參數名+時間戳+參數值)。圖6(b)展示了在1.5 h 的飛行任務下每個采集參數點產生的樣本量,其中橫坐標表示樣本參數序號,橫坐標軸下方是對應了每個序號參數的采樣周期。通過圖可以看到,采樣周期為0.2 ms 和0.1 ms 的參數樣本量很大,0.1 ms 周期的參數產生了3 GB 的數據量。由于HBase 的Region 需要設有一定的閾值,數據量超過閾值后要進行分區存儲,因此需要將參數數據量納入影響因子進行研究。

Fig.5 Sample data analysis of aircraft flight test圖5 飛行器飛行試驗樣本數據分析

Fig.6 Flight data statistics of aircraft圖6 飛行器飛行數據量統計

因此,針對飛行器數據模型的分布式存儲,可以歸納出自動化預分區機制的影響因子,由表3 可知,影響因子包括裝備參數數量、裝備參數、裝備各個參數采樣率、任務總時間、單參數單條記錄數據量、HBase 中Region 的裂變邊界值。同樣表3 中也給出了影響因子的表達符號、影響行為說明和相應的數據來源。

2.5 列式存儲自動化預分區算法

列式存儲自動化預分區算法的目的是讓裝備數據快速而又均衡地存儲在每一個節點上[18],解決HBase 自動分區產生存儲效率低下或是資源閑置問題。此工作若人工進行,工作量較大、難度較高[19]。因此自動化預分區的目的就是通過計算機的計算能力實現海量裝備數據負載均衡的、快速的存儲,如圖6 所示。

表2 給出了裝備參數數據的分布式存儲模型,其唯一標識rowkey 組成為“任務編號+參數名+時間戳”。HBase 的分區規則是給不同的區間Region 設置起止索引,即“startkey”和“endkey”,這些key 值都是由字符串組成,也就是說,每一條數據存儲在哪一個分區中,是由每一條數據的rowkey 決定的,取決于rowkey 的前置字節落在哪一個的startkey 和endkey區間之內。

一般來講,由于裝備制造過程復雜、數據類型多樣、數據量龐大,HBase 的一張表中無法存儲大量數據,需要將數據進行分區存儲,分區方法可以分為按參數名分區和按時間戳分區兩種。按參數名分區,不同的參數將會分到不同的Region 中,同一個參數所有的時間段數據相鄰存儲;按時間戳進行分區,不同時間段的數據分到不同的Region 中,同一個時間戳下所有參數數據相鄰存儲。如何進行選擇,需要通過數學模型進行計算,通過參數量值的計算決定使用哪種分區方法。圖7 在圖6(b)的基礎上增加Region size 閾值線,可以看到,由于某些參數采樣率非常高,一次任務數據量可達數個GB,如果HBase 的Region size 小于某一參數的數據量,就不宜按參數進行分區,應該按時間戳分區,因為一個分區設置無法存儲一個參數的數據,如果HBase 的Region size 大于全部參數的數據量,可以按參數進行分區。

Table 3 Influence factor of automated pre-partition of industry equipment data表3 裝備數據自動化預分區影響因子

Fig.7 Comparison diagram of Region size and Data size圖7 Region size和Data size的對比圖

預分區算法流程如圖8 所示。開始階段需要讀取樣本數據文件中的參數采樣率、采樣時間、計算最大參數存儲量,同時要獲取存儲環境中的HRegion 閾值。接下來需要考慮兩種情況:

第一種情況:按參數名進行分區,將不同的參數數據按參數名均勻地劃分存儲在HBase 所有的Region中。判斷條件是所有參數中采樣率最高的參數數據量小于一個Region 設置的最大值,換言之,需要保證一個Region 至少能存下一個參數的完整數據。

第二種情況:按時間戳進行分區,判斷條件是存在某一個或多個參數數據量大于一個Region 設置的最大值,換言之,無法保證一個Region 至少能存下一個參數點的完整數據,某些數據會溢出Region 的空間。

預分區算法偽代碼如下:

Fig.8 Flowchart of pre-partitioning algorithm圖8 預分區算法流程圖

經過執行自動化預分區算法,飛行器的數據可以快速并均勻地存儲在HBase 的分布式表中,能夠適配每次試驗任務的變化,能夠解決數據的變化帶來的數據存儲效率問題和服務器負載不均衡問題。

3 試驗

3.1 試驗環境和設置

試驗環境如表4 所示,集群采用Hadoop 大數據架構進行構建,使用的是華為公司的FusionInsight 1.0 管理系統版本,集群系統包括22 個服務器節點(其中2 個調度節點、19 個計算和存儲節點、1 臺應用服務器)。調度服務器節點的配置為(2×Intel Xeon 4C Processor Model E5-2609v2 2.5 GHz,RAM 512 GB),計算服務器節點的配置為(2×Intel Xeon 4C Processor Model E5-2609v2 2.5 GHz,RAM 128 GB),集群環境還包括一個核心交換機和一個千兆交換機,網絡帶寬為1 000 Mbit/s。在集群環境中,兩臺調度節點配置為一主一備的熱備份方式,防止單點故障,19 臺計算和存儲節點不進行虛擬化操作,每臺機器包括2 顆CPU,每臺計算和存儲節點的CPU 可以在非虛擬化環境下做超線程。在19 臺計算節點上部署HBase 數據庫用于數據的分布式存儲,每臺節點部署Region Server 和Region 環境,在試驗過程中,所有的節點同時進行數據寫入操作,存儲過程也不存在單點故障。中間件部署在應用服務器上,和集群環境進行集成,用于實現裝備數據的快速存儲優化。

3.2 數據存儲性能評價

本節的目標是評價自動預分區模型的存儲性能,將提出的基于HBase 的自動化預分區策略數據快速存儲模型與HBase 已有的自動分區機制進行對比。數據方面選取了某型號飛行器8 次飛行試驗任務數據,并對其中部分數據進行了裁剪,使數據(原始數據)覆蓋度從159 MB 至90 GB。

表5 列出了8 次數據存儲試驗的結果。如表所示,每次試驗選取不同的數據量、不同的參數數量,并給出了每次試驗的數據膨脹之后的數據大小,如159 MB 數據解析之后膨脹到2.5 GB,90 GB 數據解析之后膨脹到1.5 TB。在存儲效率上計算數據從Hfile 進入到HBase 的時間,并將模型與HBase 自動分區機制進行對比。如表可以發現,當原始數據量超過20 GB 以后,HBase 分區機制無法對數據進行存儲,而自動預分區模型可以完成所有試驗數據的存儲。并且當數據量不大的時候,相比較HBase 自帶的分區機制,預分區策略明顯有更加優秀的性能。

Table 4 Experimental environment表4 試驗環境

從表5 中可以看出,與HBase 分區機制相比,預分區策略相比之下有更加優秀的性能,且隨著數據量的遞增,使用預分區策略沒有明顯的性能衰減,而HBase 分區機制會隨著數據量的遞增出現存儲效率降低的情況,其與本文提出的模型在性能衰減方面的差距逐漸變大,且在數據到達一定量級時失效。

3.3 負載均衡性評價

本節的目標是評價自動預分區模型的負載均衡性,針對試驗的19 臺存儲節點服務器,判斷數據是否能夠負載均衡地存儲在每個節點上。

表6 給出了某型號飛行器兩次飛行試驗數據進行的負載均衡性存儲試驗結果。第一次試驗選取的是50 GB 的原始數據文件,由于數據中某些參數采樣率高,數據量過大,經過預分區算法模型的計算,選擇了按時間戳進行分區存儲,結果顯示解析之后的數據平均分配到了19 個存儲節點上,每個節點Region 的數量為11、12 個,每個節點存儲的數據量在40~42 GB。

Table 5 Result of data storage performance test表5 數據存儲性能試驗結果

Table 6 Load balance test results of model表6 模型的負載均衡試驗結果

第二次試驗選取的10 GB 的原始數據文件,該文件數據量不大,因此經過預分區算法模型的計算,選擇了按參數進行分區,結果顯示解析之后的數據平均分配到了19 個存儲節點上,每個節點的Region 數量為16、17 個,每個節點的參數數量為533 個左右,每個Region 的參數數量為31 個。

可以看出,預分區策略可以對裝備數據進行良好的負載均衡存儲,數據平均分配在每一個節點的每一個Region 里,這也有助于提高對海量裝備數據的檢索效率,提高對多維度數據的檢索分析性能。

3.4 適用性評估

本節的目標是討論預分區策略在裝備領域的適用性并進行試驗。多點參數、時序性、采樣率、采樣點數值,凡是滿足這些特征的裝備數據都可以使用本文討論的預分區策略。

Fig.9 Airplane test data storage圖9 飛機試驗數據存儲

Fig.10 Airplane engine test data storage圖10 航空發動機試驗數據存儲

Fig.11 Satellite test data storage圖11 衛星試驗數據存儲

這里選擇四類裝備進行數據試驗,四類裝備數據分別為某型號飛機試驗數據、某型號發動機氣路故障數據、某型號導航衛星數據、某型號特種車輛行駛測試數據,檢測模型的適用性。如圖9、圖10、圖11、圖12 所示,描述了針對四種不同裝備數據進行模型適應性評估的結果,由于數據有限,無法針對不同種類裝備數據進行橫向比對,但是這里仍然可以根據多次試驗生成的結果進行分析。

圖9 描述了某型號飛機的數據試驗,這里選取了燃油系統(FS)、APU 系統、動力裝置(DS)、防火系統(FPS)、電源系統(CS)五個分系統數據,經過格式化之后的數據由Hfile 經過預分區模型進行存儲的時間在7~9 min 之間,證明模型對該型號飛機數據進行分布式快速存儲是有效的。

圖10 描述了航空發動機的數據試驗,這里選取的美國NASA 公布出來的發動機進行飛行試驗時內部高壓壓氣機(HPC)、低壓壓氣機(LPC)、高壓渦輪(HPT)、低壓渦輪(LPT)的試驗數據。在此基礎上進行了故障仿真注入,得到其在一定時間段內的故障數據。由于數據量有限,進行預分區試驗在很短的時間內完成,集中在12~17 s之間,證明模型對這類型號發動機故障數據進行分布式快速存儲是有效的。

Fig.12 Special vehicle test data storage圖12 特種車輛試驗數據存儲

圖11 描述了進行的某型號衛星的數據試驗,這里選取了電源系統(PS)和熱控系統(TCS)兩個分系統的數據及性能試驗,由于該類型衛星樣本數據積累時間較長,因此樣本數據量較多,其中電源系統數據存儲時間在12 min 左右,熱控系統數據存儲時間在18 min 左右,證明模型對這類型號衛星數據進行分布式快速存儲是有效的。

圖12 描述了進行的某型號特種車輛的數據試驗,這里選取車輛5 個分系統的數據,分別為中央充放氣系統(CCRG)、AMT 系統、制動系統(BA)、發動機(ES)、滅火控制盒(FECB)。由圖可知,幾個分系統數據可以進行存儲,存儲時間集中在2~3 min 內,證明模型對具備該類型特點的裝備數據進行分布式快速存儲是有效的。

3.5 討論

上述試驗評價了裝備數據快速存儲優化模型的有效性。試驗結果表明,該方法可以有效提高海量裝備數據在分布式存儲上的性能,并使數據在存儲過程中實現負載均衡。然而,本文工作仍存在以下幾點不足。

為降低問題的復雜度,本文假設硬件服務器的條件為當前主要使用規格,現有服務器規格對HBase Region 的支持能力最多為10 GB,未來會進一步研究針對更加先進的高聚合高物理核的服務器對模型的影響。

文中研究的數據樣本大多是裝備飛行器在軌運行數據、飛行試驗數據以及地面試驗數據,針對飛行器其他途徑產生的數據特點未做進一步研究,如指令數據、指揮控制數據、語音圖像數據等。

4 相關工作

近年來學者在大數據存儲優化方面進行了大量的研究,特別是針對大規模數據的分布式列存儲方面,文獻[19]提出了一種行列混合的存儲方法,該方法在通用的列式存儲的基礎上,為了提高查詢性能,將高頻訪問的列數據進行組合。但是該方法對HDFS(Hadoop distributed file system)內部進行了重新設計,影響了分布式文件系統的通用性,并不適合所有裝備大數據的存儲場景。日本NEC 株式社云系統研究試驗室的Nishimura和加州大學巴巴拉分校的Das 等人提出了一種基于HBase 的可擴展的數據管理基礎架構[20],該方法在鍵值存儲上加入了分層的多維索引結構,而在底層使用鍵值存儲保持系統高吞吐量和大數據量。雖然該方法在多維度查詢處理上具有良好的表現,但是在16 個節點的試驗環境中只能實現每秒幾十萬的數據寫入,顯然不夠高效。本文中提出的策略更有助于海量數據的快速和負載均衡存儲,對于數據量極其龐大的裝備數據而言具有良好的數據存儲表現。

還有部分學者以提高數據檢索效率為目的進行了數據存儲優化研究,文獻[21-22]提出了一種構建大數據索引的方式,利用多副本機制滿足不同海量數據查詢場景,這與本文中滿足不同查詢場景的目標相同,但是在實際應用中需要更大的系統開銷。加拿大阿爾伯塔大學的Vashishtha 等人[23]基于HBase開發了一個框架,可以實現復雜的聚合函數,如行數、最大值、最小值等,但是其解決的根本問題在于數據存儲之后的查詢性能優化,而本文更關注于數據的存儲性能優化。文獻[24]同樣通過設計一種新的算法,使用戶可以最高效地查詢到最優的列族,進而提高HBase 的查詢性能。事實上,對于裝備數據而言,多列族并不適合其數據模型,單一列族可以得到更優化的數據查詢性能。

數據壓縮技術也是大數據存儲優化研究的方向,文獻[25]介紹了Snappy、bzip2 等數據壓縮技術,通過壓縮技術實現大數據處理過程中中間數據的讀寫速度,從而提高海量數據的存儲問題,這與本文研究點有所不同,本文研究的數據處理過程是基于分布式內存技術,不存在中間數據寫入磁盤的問題,本文從數據最終寫入列式數據庫的優化方面進行研究。

5 結束語

本文的主要貢獻是提出了一種海量裝備數據的快速存儲方法,即基于HBase 自動化預分區策略的裝備數據存儲優化方法,該方法通過對分布式數據庫HBase 和裝備數據特點進行研究,解決海量裝備數據快速的、負載均衡的存儲問題。

該方法首先給出了裝備數據分布式存儲模型,并基于HBase 列式數據庫實現數據快速的分布式存儲。在裝備數據分布式存儲模型的基礎上,研究了裝備數據自動化預分區策略的影響因子,從數據層面和集群配置信息層面進行了關聯性分析。在影響因子確認的基礎上,給出了針對不同數據場景的自動化預分區算法模型。最后,通過在數據預處理層和數據存儲層之間搭建數據快速處理中間件,完成優化模型的實現。該方法選取了某型號飛行器多次試驗任務的數據對模型進行了驗證,對其基于Hbase系統的實現在存儲性能、負載均衡等方面的指標進行了評價。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 一区二区日韩国产精久久| 最新亚洲人成网站在线观看| 熟女日韩精品2区| 久久久久青草大香线综合精品| 2020国产在线视精品在| 制服丝袜国产精品| 香蕉久久永久视频| 夜精品a一区二区三区| 伊在人亚洲香蕉精品播放| 中文字幕无线码一区| 国产福利小视频高清在线观看| 毛片免费在线| 日本尹人综合香蕉在线观看| 极品国产在线| 久久精品人人做人人爽电影蜜月| 日本午夜视频在线观看| 日韩精品专区免费无码aⅴ| 欧美a在线视频| 91福利免费视频| 中文字幕va| 无码免费视频| 国产一区在线视频观看| 成年人国产视频| 91福利国产成人精品导航| 国产精品观看视频免费完整版| 熟妇丰满人妻| 婷婷成人综合| 在线视频一区二区三区不卡| 中文无码毛片又爽又刺激| 99这里只有精品在线| 狠狠色丁香婷婷| 亚洲天堂区| 久热中文字幕在线| 伊人久久大香线蕉影院| 尤物亚洲最大AV无码网站| 国产综合在线观看视频| 国产又大又粗又猛又爽的视频| 国产乱码精品一区二区三区中文 | 亚洲日韩精品综合在线一区二区| 亚洲精品欧美日本中文字幕| 日韩精品无码免费一区二区三区| 她的性爱视频| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 久久婷婷色综合老司机| 永久在线精品免费视频观看| 久久人妻xunleige无码| 黄色国产在线| 91黄视频在线观看| 国产成人免费视频精品一区二区| 2021国产在线视频| 国产69精品久久久久孕妇大杂乱| 久久亚洲AⅤ无码精品午夜麻豆| 国产精品一区二区不卡的视频| 国产精品深爱在线| 亚洲人成网18禁| 在线免费无码视频| 中文字幕久久亚洲一区| 在线看片国产| 国产门事件在线| 国产精品内射视频| 国产欧美日韩综合一区在线播放| 欧美精品二区| 成人免费午夜视频| 精品国产网站| 欧美日韩专区| 国产手机在线观看| 亚洲日韩精品欧美中文字幕| 国产人在线成免费视频| 美女无遮挡免费视频网站| a级毛片在线免费观看| 久久99国产综合精品1| 国产簧片免费在线播放| 中文字幕精品一区二区三区视频 | 中国国产A一级毛片| 思思热精品在线8| 2020国产免费久久精品99| 国产肉感大码AV无码| 思思热精品在线8| 欧美激情伊人| 亚洲成人播放| 国产97公开成人免费视频| 国产福利微拍精品一区二区|