999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云平臺NoSQL的海量天文圖像存儲研究

2014-02-04 02:55:58陳慧英
計算機與網絡 2014年15期
關鍵詞:數據庫實驗

陳慧英

(昆明理工大學教育技術與網絡中心 云南 昆明 650500)

基于云平臺NoSQL的海量天文圖像存儲研究

陳慧英

(昆明理工大學教育技術與網絡中心 云南 昆明 650500)

云計算所提出的全新計算和存儲思想,對海量數據的存儲解決方案以及快速訪問有效數據資源提供了參考。以云存儲平臺NoSQL數據庫為背景,研究海量天文數據的存儲和訪問技術。首先構建了基于MongoDB平臺的天文圖像FITS文件存儲原型,在此基礎上設計并分析存儲實驗。實驗結果表明,數據分片存儲以及選擇最佳的分片大小能有效提高天文數據的存儲和訪問效率。

海量天文數據云存儲NoSQL MongoDB數據分片

1 引言

虛擬天文臺天文數據存儲基本采用“Linux+IDE硬盤+軟RAID技術”模式[1]。實際上,傳統的直接存儲技術難以滿足天文領域每日TB級動態增長的海量數據存儲以及數據的實時處理、同步傳輸和多點備份等一系列需求[2]。近些年來,由于微軟、蘋果、google、IBM、戴爾和Amazon等知名服務商的加入,云存儲技術發展更為迅速。iCloud、Cloud Drive、Dropbox和SkyDrive等都是典型的云存儲應用[3]。鑒于云存儲技術所具有的安全性、性能和可擴展性等方面的優勢,美國加州理工大學的G.Bruce Berriman等人就將商業的云計算應用于天文學,以EC2云服務平臺為科學工作流應用研究數據共享方案,比較了傳統架構與商業云服務在成本和性能上對科學應用的影響[4]。與此同時,NoSQL(Not Only SQL)—非關系數據管理技術開始出現,作為云計算(存儲)的重要組成部分,NoSQL強有力地支撐了分布式存儲技術的發展[5]。至此,國際上已有將云存儲技術和NoSQL技術應用于天文圖像存儲的先例,并取得了一定進展[6]。

2 面向NoSQL的海量天文數據存儲

天文觀測采集到的原始數據一般存在數據量大、讀寫比例高和改寫率低等特征。FITS(Flexible Image Transport System)文件于1982年由國際天文學會確定為各天文臺之間用于傳輸和交換天文數據的統一標準格式[7]。FITS文件由

FITS頭和二進制的圖像數據組成,數據量極大。對天文數據進行分析時,需要讀取大量數據,而檢索數據具有局域性,需要對相鄰區域的數據進行連續訪問。采集到的天文數據一旦存儲下來,很少有機會再對其更改。基于此,天文數據存儲的需求可歸納為:①海量存儲;②可將FITS文件分開存儲(FITS頭部分和數據部分),并通過FITS頭文件中的特定參數進行數據檢索;③實時高速讀寫。

2.1 NoSQL存儲海量天文數據的優勢

NoSQL存儲海量天文數據的優勢有:①海量數據存儲:同傳統數據庫不同的是,NoSQL將分布式系統、分區和集群等技術應用于數據分布式存儲,使其具有出色的水平擴展能力,以有效擴大存儲規模,滿足海量數據存儲的要求;②多模式存儲自由:目前來看,未來存儲的數據不僅僅是結構化數據(整數和浮點數等),更多的是半結構化數據(XML、電子郵件等)和非結構化數據(文檔、圖片和視頻等)。而NoSQL數據庫所存儲的數據,不再是整數和浮點數等基本的數據類型,而是擴展到了整個文件,為數據存儲提供了更多的自由度;③高效的讀寫性能:有實踐證明,面對每秒數萬次的讀寫請求,傳統數據庫難以承受,而NoSQL數據庫卻能夠從容應對(如Google就是使用了NoSQL數據庫[8])。

2.2 NoSQL與天文數據的融合

2.2.1 FITS文件頭存儲

FITS文件頭中包含一系列固定長度的標題記錄,且每個標題記錄由關鍵字和對應的值組成。在NoSQL數據庫中,標題記錄可以以“鍵/值”的形式表示,一個FITS頭作為一條“鍵/值”記錄存儲。這樣,NoSQL數據庫可以按照標題記錄中的任何關鍵字進行檢索。

2.2.2 存儲二進制數據

存儲二進制數據有2種方式:①采用如GridFS(一種大型文件存儲規范)等文件上傳工具,直接將整個數據文件上傳至數據庫;②采用分片的方式,將一個二進制文件切分成多個數據片,每一個數據片作為一條記錄的一個字段存儲,并在該記錄中增加一個描述分片的信息字段,將每個分片以數據記錄的方式存儲到NoSQL數據庫中。在前期對NoSQL相關數據庫做了詳細的調研分析工作,結合研究需要,最終選取MongoDB作為平臺進行后續的研究工作。

3 海量天文圖像存儲

3.1 FITS文件頭解析和提取

3.1.1 FITS頭解析

FITS頭包括FITS文件的標識符,比特數,圖像維數以及圖像輔助信息和說明。FITS頭總共有2 880 Bytes,每個標題記錄均為80 Bytes,共含36個標題記錄。每一標題記錄存儲圖像的某一特征信息。標題記錄的第一列開始為關鍵字,第9列一定是“=”,緊跟“=”號之后的是關鍵字的值。值最后的字符在第30列。每個FITS文件必須包含SIMPLE、BITPIX、NAXIS和END關鍵字,且必須按此順序排列。在關鍵字之間可插入其他的標題記錄,但第一個標題記錄的關鍵字一定是以SIMPLE開始,最后以END關鍵字作為FITS頭的結束。

3.1.2 提取FITS文件頭

所謂提取FITS文件頭,即按每80個字節為單位,從FITS文件中讀取標題記錄,并將該記錄的關鍵字作為字段名,值作為字段值,END關鍵字表示提取結束。然后將整個FITS文件頭中的所有記錄按照“鍵/值”的方式組成一條數據記錄存儲到NoSQL中。

3.2 文件頭和文件的存儲規范設計

在對FITS文件制定存儲規范時,應充分考慮到數據檢索的便利性。考慮到NoSQL數據庫的特點,為了方便實現分片存儲,把FITS頭和FITS數據文件分開存儲到不同的數據集,然后通過FITS頭中的關鍵字檢索整個FITS文件。而當將FITS數據文件分片后,要通過FITS頭檢索到所有數據文件時,必須在FITS頭和所有分片數據之間找一個關聯關鍵字。研究中,選取FITS文件名作為此關聯關鍵字。

文件頭作為一條記錄存儲至MongoDB的數據集中,而FITS數據文件進行分片之后存儲在另一個數據集中。其中,每個分片文件作為一條記錄存儲起來。每條記錄由FITS文件名、分片號、FITS文件總大小、該分片大小和該分片數據組成。每條記錄都是以“鍵/值”方式存儲的。

3.3 FITS文件分片

FITS文件分片記錄生成規范:首先按照指定的分片大小對FITS數據文件進行切分,然后通過FITS文件的總長度對指定分片大小取模,得到每個分片數據的分片號。將每個數據分片加上FITS文件名、總大小和分片大小等就組成了一條分片記錄。

4 海量天文圖像存儲實驗分析

4.1 分片存儲效率

實驗測試數據分布式存儲時,文件分片與不分片對系統存儲效率的影響。實驗基于4 M大小的FITS文件。將分片大小設置為存儲文件的實際大小即為不分片。分片則是隨機選取512 K作為指定分片大小對FITS文件進行分片。實驗中按上述描述分別將FITS文件存儲到MongoDB數據集中,連續

寫文件400次,統計每次寫時間,得到2組實驗數據。2組測試數據的對比分析結果如圖1所示。

圖1 不分片與分片時寫時間對比

以上對比分析表明,在MongoDB平臺上,分片與不分片在數據文件存儲效率上存在顯著差異,而且文件分片能夠較大幅度提升海量數據的存儲效率。

4.2 最佳分片大小(chunksize)

分片大小,即為數據集群中分片的塊大小。shard集群中數據以塊(chunk)為存儲單位,存儲在各個shard數據節點上。為了平衡數據的分布,集群會自動根據實際情況移動chunks。如果Chunksize設置過大,可能在每個塊傳輸過程中都會造成長時間的鎖表,設置過小,又可能會導致節點間塊傳輸過于頻繁,降低效率。本實驗參考MongoDB的分片機制手動編程實現文件分片,同時,設置不同chunksize反復執行測試。針對4 M的FITS文件,實驗選取了13組分片值分別測試,如圖2、圖3、圖4和圖5所示。

圖2 不同分片寫文件時間對比

圖3 不同分片寫文件時間平均值(加權平均寫時間散點圖)

圖4 不同分片讀文件時間對比

圖5 不同分片時讀文件時間平均值對比(加權平均讀時間散點圖)

圖2顯示到當分片過小時,寫效率很低,chunksize稍微增大寫效率明顯提升,當增加到一定大小時,時間降低的幅度逐漸減小,效率有提升,但不明顯,圖3表明分片值為512 K的時候存儲效率最高。從圖4和圖5可以看出讀文件效率隨著chunksize的不斷增大而提升,只是提升幅度成遞減趨勢。當增大到存儲文件大小的1/2時出現反彈。

4.3 文件大小與最佳分片大小

以上實驗都基于4 M大小的FITS文件展開。雖然天文圖像數據以4 M大小居多,但也存在其他大小的天文數據圖像文件。為了更好的滿足海量天文圖像的存儲要求,實驗將選取另外幾組不同大小的文件繼續做最佳分片大小的對比分析。實驗選取文件大小分別為2 M、8 M和16 M的3種文件,針對每種文件大小取7組分片。實驗二表明分片值大小越大讀效率越高,而本實驗實施過程中發現不同大小的文件有同樣規律,因此本文將不針對不同大小文件考慮讀效率分析。

經分析本實驗得出以下結論:文件為8 M或以下時,最佳分片大小參考值為文件大小的1/8,當文件大小繼續增大時,最佳分片大小不再增加,16 M以上文件(包含16 M)的最佳分片大小參考值為1 M。

5 結束語

采用云存儲平臺存儲海量天文圖像數據,并通過部署NoSQL環境驗證其良好性能。實驗選用標配服務器,部署2個數據節點搭建存儲集群,采用千兆每秒的帶寬,單網卡操作,4 M的FITS文件的讀寫性能達到80 M/s。如需更高效地實現海量天文圖像存儲可通過增加節點數,采用更高網絡帶寬以及多網卡。因此在實際天文研究中采用云計算和云存儲服務將大幅度地提高效率,節約成本。

[1]李文.虛擬天文臺環境下的海量數據存儲與訪問技術研究[D].天津:天津大學,2007.

[2]陳慧英.基于NoSQL數據庫的海量天文圖像分布存儲研究[D].昆明:昆明理工大學,2012.

[3]梁彪,曹宇佶,秦中元,等.云計算下的數據存儲安全可證明性綜述[J].計算機應用研究,2012,29(7):2416-2421.

[4]BERRIMAN G B,JUVE G,DEELMAN E,et al.The Application of Cloud Computing to Astronomy:A Study of Cost and Performance[C]//E-Science Workshops.2010 Sixth IEEE International Conference on.2010:1-7.

[5]STRAUCH C,SITES U L S,KRIHA W.NoSQL databases [M].German:Stuttgart Media University,2011.

[6]ENKE H,PARTL A,REINEFELD A,et al.Handling Big Data in Astronomy and Astrophysics:Rich Structured Queries on Replicated Cloud Data with XtreemFS[J]. Datenbank-Spektrum,2012,12(3):173-181.

[7]季凱帆,曹文達.FITS,BMP和SCR圖像格式及相互轉換[J].云南天文臺臺刊,1996(2):60-64.

[8]RAMANATHAN S,GOEL S,ALAGUMALAI S.Comparison of Cloud database:Amazon's SimpleDB and Google's Bigtable [C]//Recent Trends in Information Systems(ReTIS),2011 International Conference on,2011:165-168.

Research on Massive Astronomical Image Storage Based on NoSQL Cloud Platform

CHEN Hui-ying
(Kunming University of Science and Technology,Kunming Yunnan 650500,China)

The bran-new calculation and storage ideas proposed by cloud computing provide the

for storage solutions of massive data and rapid access of effective data resources.This paper studies the storage and access technologies of massive astronomical data based on cloud storage platform NoSQL database.Firstly,this paper builds an astronomical image FITS file storage prototype based on MongoDB platform.On this basis,this paper designs and analyzes the storage experiments.The experimental results show that the data partition storage and selection of optimal segment size can effectively improve the effectiveness of astronomical data storage and access.

massive astronomical data;cloud storage;NoSQL;MongoDB;data partition

TP391

A

1008-1739(2014)15-60-4

定稿日期:2014-07-12

猜你喜歡
數據庫實驗
記一次有趣的實驗
微型實驗里看“燃燒”
做個怪怪長實驗
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 成人亚洲视频| 免费人成黄页在线观看国产| 亚洲中文精品人人永久免费| 午夜久久影院| 91最新精品视频发布页| 欧美性天天| 婷婷久久综合九色综合88| 92精品国产自产在线观看| 午夜免费小视频| 国产亚洲男人的天堂在线观看 | 日韩在线播放欧美字幕| 成人福利免费在线观看| 国产精品第| h视频在线观看网站| 婷婷五月在线| 亚洲AⅤ无码日韩AV无码网站| 九色视频一区| 国产欧美视频综合二区| 好吊色妇女免费视频免费| 久久精品人人做人人| 伊人色综合久久天天| 99re精彩视频| 亚洲性影院| 国产亚洲欧美日韩在线观看一区二区| 在线五月婷婷| 国产一级在线播放| 综合色亚洲| 亚洲高清中文字幕| 国产在线自乱拍播放| 热久久国产| 一区二区三区成人| 宅男噜噜噜66国产在线观看| 91啪在线| 亚洲第一区在线| 午夜免费小视频| 日本欧美午夜| 日韩人妻少妇一区二区| 亚洲国产在一区二区三区| a级毛片免费看| 国产SUV精品一区二区| а∨天堂一区中文字幕| 制服丝袜国产精品| 91香蕉国产亚洲一二三区| 午夜国产理论| 亚洲 欧美 偷自乱 图片| 波多野结衣视频网站| 第一区免费在线观看| 亚洲国产91人成在线| 久草美女视频| 亚洲欧美日韩成人在线| 亚洲天堂日韩在线| 91精品国产91久无码网站| 国产欧美日韩资源在线观看| 久久国产精品77777| 亚洲成人黄色在线| 久久精品日日躁夜夜躁欧美| 亚洲国产综合第一精品小说| 亚洲 欧美 日韩综合一区| 亚洲综合香蕉| 色综合五月| 国产精品亚洲综合久久小说| 欧美日在线观看| 无遮挡国产高潮视频免费观看| 色综合久久综合网| 五月丁香在线视频| 亚洲色图另类| 全部免费毛片免费播放| 亚洲精品男人天堂| 成人字幕网视频在线观看| 成人a免费α片在线视频网站| 三级毛片在线播放| 91国内外精品自在线播放| 91午夜福利在线观看| 国产真实乱子伦视频播放| 欧美日韩中文字幕在线| 国产91无码福利在线| 午夜高清国产拍精品| 国产成人免费手机在线观看视频 | 亚洲综合色区在线播放2019| 欧类av怡春院| 国产一区二区三区在线观看视频| 国产成人一二三|