翟中霞/河南油田物探院
?
地震資料處理數據分級存儲集群的建設與應用
翟中霞/河南油田物探院
【摘 要】本文分析了河南油田地震資料處理對存儲系統的需求,根據地震資料處理的數據特點,通過對并行存儲技術、分級存儲技術的研究,設計并建設分級存儲系統,滿足地震資料處理中不同應用對存儲性能的不同需求,在存儲容量、存儲速度和成本之間取得了平衡,建成了高效實用的分級存儲環境。
【關鍵詞】分級存儲;地震資料處理;并行存儲;數據備份
隨著勘探難度增加和技術的發展,野外三維高精度采集的數據量大規模的增長,加之地震資料處理新技術、新方法的應用,地震資料處理對存儲系統的存儲容量和存儲性能有了更高的需求,目前河南油田地震資料處理的存儲系統在性能和容量上還有待提高,但是存儲系統的設計要考慮容量、速度和成本三個問題。容量是存儲系統的基礎,都希望配置盡可能大的存儲系統;同時要求存儲系統的讀寫速度能與處理器的速度相匹配;成本也應該在一個合適的范圍之內。但這三個目標不可能同時達到最優。一般情況下,存儲設備讀寫速度越快,平均單位容量的價格越高,存儲容量越小;反之,存儲設備讀寫速度越慢,平均單位容量的價格越低,存儲容量越大。
分析地震資料處理的數據流特點,我們發現:
1.在進行疊前時間偏移、深度偏移、逆時偏移等并行作業處理時,數據流表現為高并發IO和大聚合帶寬,需要高性能存儲系統的支撐。
2.在常規處理中的數據流相對平穩,IO吞吐量相對小,對帶寬和存儲的性能要求相對較低。
3.需要備份的原始數據及成果數據,需要一定數量安全級別較高的存儲系統進行數據備份。
為了在容量、速度和成本這三者之間取得平衡,需要根據其地震資料處理數據的特點,采用分級存儲為不同的應用提供不同性能的服務,建成高效實用的并行存儲環境。
(一)體系架構
地震資料處理數據分級存儲系統采用開放式的存儲體系架構,基于分布式的Glusterfs并行文件系統,將多臺存儲設備的存儲容量虛擬成一個具有統一訪問接口的存儲空間。按照一定的負載均衡策略存儲用戶的數據,將數據條帶化的存儲到多臺物理存儲設備上,從而獲得更高的并發數據訪問性能,同時可以制定存儲策略進行數據分級存儲,對所有的存儲設備可以實現統一的管理和監控。

圖 分級存儲體系架構
分級存儲系統包含管理控制器、索引控制器、數據控制器和應用服務客戶端四類組件:
管理控制器:安裝并行存儲管理軟件,提供統一的控制管理界面,實現存儲系統的集中化部署、管理、監控和維護。
索引控制器:內嵌高性能數據索引引擎,管理存儲系統的所有索引數據和命名空間,實現全局統一命名空間,實現數據索引的負載均衡和故障冗余。
數據控制器:提供數據存儲空間,并實現數據存取的動作。
應用服務客戶端:向上層應用提供數據訪問接口。
(二)配置方案
整個存儲系統包括2臺管理控制器、2臺索引控制器、22個數據控制器,總容量1197TB。分為三級存儲結構:
一部分為高速存儲,高速為主要特點,由容量較小、價格較貴而性能較高的SSD固態硬盤構成,為實時提供高性能的數據IO能力;
一部分為在線存儲,采用容量較大、價格較便宜而讀寫速度較慢的SAS硬盤構成,支持一般性數據讀寫;
一部分為備份存儲,采用容量大,價格低廉,讀寫速度慢的SATA硬盤,創建高安全備份卷,存儲我們的原始、階段性數據、成果數據和磁帶庫數據備份。

表 分級存儲系統軟硬件配置表
(一)虛擬化管理平臺Ovirt
oVirt是一個基于x86架構上的KVM虛擬化技術的開源云服務平臺。它在架構設計上由ovirt-engine和ovirt-node兩部分組成,這種Node/Engine分離的結構,方便功能的劃分與管理。
Engine是系統的管理者,并對外提供管理服務,它掛載了自己的數據庫,記錄系統中虛擬機的配置,各個存儲節點的狀態信息,網絡狀態等。通過在Engine中的設置實現系統的管理邏輯,狀態及策略控制。本存儲系統通過在管理控制器上安裝ovirt-engine來實現管理功能。
Node只負責功能上的實現,不進行狀態的記錄和策略的實現。oVirt里的Node可以由一個普通的Linux上安裝VDSM(Virtual Desktop Server Manager)構成,也可以由一個專為oVirt定制的Linux系統構成。本存儲系統采用安裝VDSM的方法配置數據控制器作為node節點,實現網絡、存儲器、虛擬機的創建與修改。VDSM的功能包括組織數據,實現存儲集群的數據共享與數據保護,故障恢復。
(二)GlusterFS集群文件系統
GlusterFS是一個開源的分布式文件系統,具有強大的橫向擴展能力,通過擴展能夠支持數PB存儲容量和處理數千客戶端。GlusterFS通過TCP/IP或者InfiniBand網絡將多個物理存儲資源匯聚在一起,使用全局統一命名空間來管理數據。GlusterFS可為各種不同的數據負載提供優異的性能。
GlusterFS文件系統支持標準的網絡訪問協議,用戶可以使用NFS/CIFS等標準協議訪問數據。GlusterFS使得用戶擺脫原有的獨立、高成本的封閉存儲系統,利用普通廉價的存儲設備也可以部署可擁有集中管理、橫向擴展、虛擬化的存儲系統。
地震資料分級存儲系統采用的Glusterfs文件系統,支持五種邏輯卷,即Distribute卷(分布式卷)、Stripe卷(條帶卷)、Replica卷(鏡像卷)、Distribute stripe卷(分布式條帶卷)和Distribute replica卷(分布式鏡像卷)。分級存儲系統搭建完成后,根據地震資料處理需要創建邏輯卷,創建分布式條帶卷來滿足并行處理作業時高并發IO和大聚合帶寬數據流對高性能存儲的需要。創建分布式鏡像卷作為備份存儲卷來存儲地震資料原始數據和成果數據,滿足數據高安全性的需要。投入生產運行后,多個處理項目使用了該套存儲系統進行生產,在項目結束后成果數據直接轉移至備份存儲卷,回收存儲空間。
根據河南油田地震資料處理的數據特點,采用分級存儲系統滿足地震資料處理中不同應用對存儲性能的不同需求,在存儲容量、存儲速度和成本之間取得了平衡,建成了高效實用的分級存儲環境。分級存儲系統在存儲性能、功能上滿足了生產項目的需要,取得了良好的應用效果。
參考文獻:
[1]楊傳輝 大規模分布式存儲系統:原理解析與架構實戰 機械工業出版社 2013
[2]G.Somasundaram Alok Shrivastava 信息存儲與管理 人民郵電出版社 2013
[3]潘紅芳,張瑜 智能分級存儲系統的研究 吉林大學出版社2014