999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云平臺NoSQL的海量天文圖像存儲研究

2014-02-04 02:55:58陳慧英
計算機與網絡 2014年15期
關鍵詞:數據庫實驗

陳慧英

(昆明理工大學教育技術與網絡中心 云南 昆明 650500)

基于云平臺NoSQL的海量天文圖像存儲研究

陳慧英

(昆明理工大學教育技術與網絡中心 云南 昆明 650500)

云計算所提出的全新計算和存儲思想,對海量數據的存儲解決方案以及快速訪問有效數據資源提供了參考。以云存儲平臺NoSQL數據庫為背景,研究海量天文數據的存儲和訪問技術。首先構建了基于MongoDB平臺的天文圖像FITS文件存儲原型,在此基礎上設計并分析存儲實驗。實驗結果表明,數據分片存儲以及選擇最佳的分片大小能有效提高天文數據的存儲和訪問效率。

海量天文數據云存儲NoSQL MongoDB數據分片

1 引言

虛擬天文臺天文數據存儲基本采用“Linux+IDE硬盤+軟RAID技術”模式[1]。實際上,傳統的直接存儲技術難以滿足天文領域每日TB級動態增長的海量數據存儲以及數據的實時處理、同步傳輸和多點備份等一系列需求[2]。近些年來,由于微軟、蘋果、google、IBM、戴爾和Amazon等知名服務商的加入,云存儲技術發展更為迅速。iCloud、Cloud Drive、Dropbox和SkyDrive等都是典型的云存儲應用[3]。鑒于云存儲技術所具有的安全性、性能和可擴展性等方面的優勢,美國加州理工大學的G.Bruce Berriman等人就將商業的云計算應用于天文學,以EC2云服務平臺為科學工作流應用研究數據共享方案,比較了傳統架構與商業云服務在成本和性能上對科學應用的影響[4]。與此同時,NoSQL(Not Only SQL)—非關系數據管理技術開始出現,作為云計算(存儲)的重要組成部分,NoSQL強有力地支撐了分布式存儲技術的發展[5]。至此,國際上已有將云存儲技術和NoSQL技術應用于天文圖像存儲的先例,并取得了一定進展[6]。

2 面向NoSQL的海量天文數據存儲

天文觀測采集到的原始數據一般存在數據量大、讀寫比例高和改寫率低等特征。FITS(Flexible Image Transport System)文件于1982年由國際天文學會確定為各天文臺之間用于傳輸和交換天文數據的統一標準格式[7]。FITS文件由

FITS頭和二進制的圖像數據組成,數據量極大。對天文數據進行分析時,需要讀取大量數據,而檢索數據具有局域性,需要對相鄰區域的數據進行連續訪問。采集到的天文數據一旦存儲下來,很少有機會再對其更改。基于此,天文數據存儲的需求可歸納為:①海量存儲;②可將FITS文件分開存儲(FITS頭部分和數據部分),并通過FITS頭文件中的特定參數進行數據檢索;③實時高速讀寫。

2.1 NoSQL存儲海量天文數據的優勢

NoSQL存儲海量天文數據的優勢有:①海量數據存儲:同傳統數據庫不同的是,NoSQL將分布式系統、分區和集群等技術應用于數據分布式存儲,使其具有出色的水平擴展能力,以有效擴大存儲規模,滿足海量數據存儲的要求;②多模式存儲自由:目前來看,未來存儲的數據不僅僅是結構化數據(整數和浮點數等),更多的是半結構化數據(XML、電子郵件等)和非結構化數據(文檔、圖片和視頻等)。而NoSQL數據庫所存儲的數據,不再是整數和浮點數等基本的數據類型,而是擴展到了整個文件,為數據存儲提供了更多的自由度;③高效的讀寫性能:有實踐證明,面對每秒數萬次的讀寫請求,傳統數據庫難以承受,而NoSQL數據庫卻能夠從容應對(如Google就是使用了NoSQL數據庫[8])。

2.2 NoSQL與天文數據的融合

2.2.1 FITS文件頭存儲

FITS文件頭中包含一系列固定長度的標題記錄,且每個標題記錄由關鍵字和對應的值組成。在NoSQL數據庫中,標題記錄可以以“鍵/值”的形式表示,一個FITS頭作為一條“鍵/值”記錄存儲。這樣,NoSQL數據庫可以按照標題記錄中的任何關鍵字進行檢索。

2.2.2 存儲二進制數據

存儲二進制數據有2種方式:①采用如GridFS(一種大型文件存儲規范)等文件上傳工具,直接將整個數據文件上傳至數據庫;②采用分片的方式,將一個二進制文件切分成多個數據片,每一個數據片作為一條記錄的一個字段存儲,并在該記錄中增加一個描述分片的信息字段,將每個分片以數據記錄的方式存儲到NoSQL數據庫中。在前期對NoSQL相關數據庫做了詳細的調研分析工作,結合研究需要,最終選取MongoDB作為平臺進行后續的研究工作。

3 海量天文圖像存儲

3.1 FITS文件頭解析和提取

3.1.1 FITS頭解析

FITS頭包括FITS文件的標識符,比特數,圖像維數以及圖像輔助信息和說明。FITS頭總共有2 880 Bytes,每個標題記錄均為80 Bytes,共含36個標題記錄。每一標題記錄存儲圖像的某一特征信息。標題記錄的第一列開始為關鍵字,第9列一定是“=”,緊跟“=”號之后的是關鍵字的值。值最后的字符在第30列。每個FITS文件必須包含SIMPLE、BITPIX、NAXIS和END關鍵字,且必須按此順序排列。在關鍵字之間可插入其他的標題記錄,但第一個標題記錄的關鍵字一定是以SIMPLE開始,最后以END關鍵字作為FITS頭的結束。

3.1.2 提取FITS文件頭

所謂提取FITS文件頭,即按每80個字節為單位,從FITS文件中讀取標題記錄,并將該記錄的關鍵字作為字段名,值作為字段值,END關鍵字表示提取結束。然后將整個FITS文件頭中的所有記錄按照“鍵/值”的方式組成一條數據記錄存儲到NoSQL中。

3.2 文件頭和文件的存儲規范設計

在對FITS文件制定存儲規范時,應充分考慮到數據檢索的便利性。考慮到NoSQL數據庫的特點,為了方便實現分片存儲,把FITS頭和FITS數據文件分開存儲到不同的數據集,然后通過FITS頭中的關鍵字檢索整個FITS文件。而當將FITS數據文件分片后,要通過FITS頭檢索到所有數據文件時,必須在FITS頭和所有分片數據之間找一個關聯關鍵字。研究中,選取FITS文件名作為此關聯關鍵字。

文件頭作為一條記錄存儲至MongoDB的數據集中,而FITS數據文件進行分片之后存儲在另一個數據集中。其中,每個分片文件作為一條記錄存儲起來。每條記錄由FITS文件名、分片號、FITS文件總大小、該分片大小和該分片數據組成。每條記錄都是以“鍵/值”方式存儲的。

3.3 FITS文件分片

FITS文件分片記錄生成規范:首先按照指定的分片大小對FITS數據文件進行切分,然后通過FITS文件的總長度對指定分片大小取模,得到每個分片數據的分片號。將每個數據分片加上FITS文件名、總大小和分片大小等就組成了一條分片記錄。

4 海量天文圖像存儲實驗分析

4.1 分片存儲效率

實驗測試數據分布式存儲時,文件分片與不分片對系統存儲效率的影響。實驗基于4 M大小的FITS文件。將分片大小設置為存儲文件的實際大小即為不分片。分片則是隨機選取512 K作為指定分片大小對FITS文件進行分片。實驗中按上述描述分別將FITS文件存儲到MongoDB數據集中,連續

寫文件400次,統計每次寫時間,得到2組實驗數據。2組測試數據的對比分析結果如圖1所示。

圖1 不分片與分片時寫時間對比

以上對比分析表明,在MongoDB平臺上,分片與不分片在數據文件存儲效率上存在顯著差異,而且文件分片能夠較大幅度提升海量數據的存儲效率。

4.2 最佳分片大小(chunksize)

分片大小,即為數據集群中分片的塊大小。shard集群中數據以塊(chunk)為存儲單位,存儲在各個shard數據節點上。為了平衡數據的分布,集群會自動根據實際情況移動chunks。如果Chunksize設置過大,可能在每個塊傳輸過程中都會造成長時間的鎖表,設置過小,又可能會導致節點間塊傳輸過于頻繁,降低效率。本實驗參考MongoDB的分片機制手動編程實現文件分片,同時,設置不同chunksize反復執行測試。針對4 M的FITS文件,實驗選取了13組分片值分別測試,如圖2、圖3、圖4和圖5所示。

圖2 不同分片寫文件時間對比

圖3 不同分片寫文件時間平均值(加權平均寫時間散點圖)

圖4 不同分片讀文件時間對比

圖5 不同分片時讀文件時間平均值對比(加權平均讀時間散點圖)

圖2顯示到當分片過小時,寫效率很低,chunksize稍微增大寫效率明顯提升,當增加到一定大小時,時間降低的幅度逐漸減小,效率有提升,但不明顯,圖3表明分片值為512 K的時候存儲效率最高。從圖4和圖5可以看出讀文件效率隨著chunksize的不斷增大而提升,只是提升幅度成遞減趨勢。當增大到存儲文件大小的1/2時出現反彈。

4.3 文件大小與最佳分片大小

以上實驗都基于4 M大小的FITS文件展開。雖然天文圖像數據以4 M大小居多,但也存在其他大小的天文數據圖像文件。為了更好的滿足海量天文圖像的存儲要求,實驗將選取另外幾組不同大小的文件繼續做最佳分片大小的對比分析。實驗選取文件大小分別為2 M、8 M和16 M的3種文件,針對每種文件大小取7組分片。實驗二表明分片值大小越大讀效率越高,而本實驗實施過程中發現不同大小的文件有同樣規律,因此本文將不針對不同大小文件考慮讀效率分析。

經分析本實驗得出以下結論:文件為8 M或以下時,最佳分片大小參考值為文件大小的1/8,當文件大小繼續增大時,最佳分片大小不再增加,16 M以上文件(包含16 M)的最佳分片大小參考值為1 M。

5 結束語

采用云存儲平臺存儲海量天文圖像數據,并通過部署NoSQL環境驗證其良好性能。實驗選用標配服務器,部署2個數據節點搭建存儲集群,采用千兆每秒的帶寬,單網卡操作,4 M的FITS文件的讀寫性能達到80 M/s。如需更高效地實現海量天文圖像存儲可通過增加節點數,采用更高網絡帶寬以及多網卡。因此在實際天文研究中采用云計算和云存儲服務將大幅度地提高效率,節約成本。

[1]李文.虛擬天文臺環境下的海量數據存儲與訪問技術研究[D].天津:天津大學,2007.

[2]陳慧英.基于NoSQL數據庫的海量天文圖像分布存儲研究[D].昆明:昆明理工大學,2012.

[3]梁彪,曹宇佶,秦中元,等.云計算下的數據存儲安全可證明性綜述[J].計算機應用研究,2012,29(7):2416-2421.

[4]BERRIMAN G B,JUVE G,DEELMAN E,et al.The Application of Cloud Computing to Astronomy:A Study of Cost and Performance[C]//E-Science Workshops.2010 Sixth IEEE International Conference on.2010:1-7.

[5]STRAUCH C,SITES U L S,KRIHA W.NoSQL databases [M].German:Stuttgart Media University,2011.

[6]ENKE H,PARTL A,REINEFELD A,et al.Handling Big Data in Astronomy and Astrophysics:Rich Structured Queries on Replicated Cloud Data with XtreemFS[J]. Datenbank-Spektrum,2012,12(3):173-181.

[7]季凱帆,曹文達.FITS,BMP和SCR圖像格式及相互轉換[J].云南天文臺臺刊,1996(2):60-64.

[8]RAMANATHAN S,GOEL S,ALAGUMALAI S.Comparison of Cloud database:Amazon's SimpleDB and Google's Bigtable [C]//Recent Trends in Information Systems(ReTIS),2011 International Conference on,2011:165-168.

Research on Massive Astronomical Image Storage Based on NoSQL Cloud Platform

CHEN Hui-ying
(Kunming University of Science and Technology,Kunming Yunnan 650500,China)

The bran-new calculation and storage ideas proposed by cloud computing provide the

for storage solutions of massive data and rapid access of effective data resources.This paper studies the storage and access technologies of massive astronomical data based on cloud storage platform NoSQL database.Firstly,this paper builds an astronomical image FITS file storage prototype based on MongoDB platform.On this basis,this paper designs and analyzes the storage experiments.The experimental results show that the data partition storage and selection of optimal segment size can effectively improve the effectiveness of astronomical data storage and access.

massive astronomical data;cloud storage;NoSQL;MongoDB;data partition

TP391

A

1008-1739(2014)15-60-4

定稿日期:2014-07-12

猜你喜歡
數據庫實驗
記一次有趣的實驗
微型實驗里看“燃燒”
做個怪怪長實驗
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 一级毛片a女人刺激视频免费| 中文字幕精品一区二区三区视频| 欧美亚洲欧美| 亚洲va视频| 日韩毛片免费视频| 免费人欧美成又黄又爽的视频| 欧美在线网| 亚洲天堂首页| 国产美女一级毛片| 久草青青在线视频| 大乳丰满人妻中文字幕日本| 免费久久一级欧美特大黄| 欧美精品在线视频观看| 一本久道热中字伊人| 国产精品密蕾丝视频| 国产激情国语对白普通话| 国产SUV精品一区二区6| 久久综合干| 91亚洲精品国产自在现线| 国产精品亚洲精品爽爽| 欧美高清国产| 欧美日韩在线亚洲国产人| 亚洲美女视频一区| 国产综合网站| 国产免费羞羞视频| 亚洲精品自拍区在线观看| 熟女视频91| 亚洲精品无码久久久久苍井空| 农村乱人伦一区二区| 国产午夜无码片在线观看网站| а∨天堂一区中文字幕| 午夜啪啪网| 欧美第一页在线| 丁香婷婷激情综合激情| 国产伦片中文免费观看| 国产精品免费露脸视频| 免费在线视频a| 婷婷99视频精品全部在线观看| 波多野一区| 永久免费精品视频| 欧美天堂久久| 在线中文字幕日韩| 亚洲精品视频网| 内射人妻无套中出无码| 欧美日韩激情在线| 国产福利微拍精品一区二区| 又黄又湿又爽的视频| 久久这里只有精品66| 欧美精品成人| 国产在线高清一级毛片| 色婷婷色丁香| 欧美va亚洲va香蕉在线| 国产亚洲精品资源在线26u| 99视频在线免费| 国产全黄a一级毛片| 亚洲中文无码av永久伊人| 国产中文一区二区苍井空| 精品剧情v国产在线观看| 亚洲高清在线播放| 亚洲性一区| 亚洲欧美日韩综合二区三区| 亚洲黄色视频在线观看一区| 天堂在线视频精品| 熟女视频91| 亚洲综合在线网| 成人福利免费在线观看| 成人第一页| 亚洲人成网18禁| 日韩亚洲综合在线| 国产成人永久免费视频| 亚洲乱码在线视频| 在线精品亚洲一区二区古装| 国产成年无码AⅤ片在线| 国产丝袜第一页| 欧美黑人欧美精品刺激| 国产免费人成视频网| 波多野结衣在线se| 国产另类视频| 亚洲欧洲一区二区三区| 久久精品这里只有精99品| 国精品91人妻无码一区二区三区| 亚洲成a人片在线观看88|