999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向健康大數據快速讀寫的存儲系統設計

2018-10-24 03:06:44楊東日劉姝祎
計算機工程與設計 2018年10期
關鍵詞:效率系統

楊東日,陳 躍,劉姝祎

(1.工業和信息化部軟件與集成電路促進中心,北京 100013;2.西安交通大學 電信學院,陜西 西安 710000)

0 引 言

健康大數據來源多種多樣,涵蓋了人的全生命周期,既包括個人健康,又涉及醫藥服務、疾病防控、健康保障和食品安全、養生保健等多方面數據的匯聚和聚合[1,2],主要包括7個方面的來源,來源的定義請參見文獻[3]。

與其它的行業數據相比,健康大數據具有特殊性,一方面與人類的健康相關,另一方面更加復雜多樣,需要研究更多的未知事件[4]。具體來說,健康大數據具有以下特點:一是數據規模大,據統計,人類基因測序一次產生的數據量可高達100 G-600 G左右,單一公衛系統中一年的數據規模約為10 T;二是數據結構復雜多樣;三是數據增長速度快,隨著科技的不斷發展,醫療信息被數字化,產生在線、實時數據;四是數據價值高,有利于擴大醫療資源供給、降低醫療成本、提升醫療服務運行效率,關系到國家乃至全球疾病防控、新藥研發和頑疾攻克的能力[5,6]。健康大數據除了包含了大數據5個V的特點之外,還有多態性、時效性、不完整性、冗余性、隱私性等特點[7,8]。

1 健康大數據存儲面臨的問題

大數據與健康、醫療的結合給健康行為和醫療模式帶來了巨大的變革,是重要的戰略資源。隨著信息技術不斷發展,醫療信息越來越多被數字化,海量的健康醫療數據存儲面臨嚴峻考驗[7,8],主要包括以下兩個方面:一是健康醫療數據存儲類型復雜,大文件的數據存儲效率較高,而分散的小文件存儲效率則比較低[9];二是從現有存儲系統的技術架構來看,通常采用P2P無中心管理節點的存儲系統,這樣會造成同步效率比較低[10,11],而有中心管理節點的存儲系統,其管理節點服務器會影響整個系統的性能[12,13],很多問題挑戰了醫療健康大數據的采用和成功[13]。

針對以上的問題,本文通過分析海量數據快速讀寫特點,提出了海量數據的快速訪問機制,并進一步研究和設計出健康大數據快速讀寫的存儲系統。該系統通過提供專有應用程序接口(API)解決大規模小文件的高效存儲,提升小文件存儲訪問性能;同時該系統通過對于大文件提供高速并行訪問接口,提升大文件存儲性能。實驗結果表明,系統性能良好。

2 健康大數據的快速數據存儲技術

2.1 當前主流的云存儲技術

分布式文件系統處于云存儲的核心位置,主要是組織和管理存儲于數據中心的信息[15,16]。根據實現方式,分布式存儲技術可以分為4種:分布式塊存儲、分布式文件系統存儲、分布式對象存儲和分布式表存儲[17-19],見表1;根據其系統技術架構分為兩種:有管理節點的分布式文件系統架構和無管理節點的分布式文件系統架構[20,21],見表2。

表1 分布式存儲技術對比

表2 文件系統對比

2.2 主要的容錯技術

為了實現數據的高效、安全、可靠存儲,在健康大數據快速讀寫存儲系統的設計過程中,除了考慮存儲技術和存儲架構之外,還需要考慮數據容錯技術[13,21]。當前有代表性的數據容錯技術主要有兩種:一是基于復制(replicaiton)的容錯技術,優點是易于實現和部署[23,24];二是基于糾刪碼(erasure code)的容錯技術。

當前,在實際應用中,適用于健康大數據快速讀寫存儲系統并不多,雖然有些系統開放了技術要點,但是并不是具體的產品和技術支持,因此需要設計出適用于健康大數據的存儲系統。

3 健康大數據快速讀寫的存儲系統設計

3.1 健康大數據快速讀寫存儲系統結構設計

健康大數據快速讀寫存儲系統應該具備便捷的存儲功能調用和管理監控,具有較好的文件和數據讀寫性能,健康大數據的分布式文件系采用有管理節點的存儲模式[25],其系統架構包括:應用接口模塊、元數據管理模塊、塊數據存儲模塊和監控配置中心模塊4個模塊,如圖1所示。

(1)應用接口模塊。主要包括客戶端、FTP/NFS/CIFS/HTTP等應用程序接口兩部分,其中客戶端是支持POSIX(portable operating system interface的縮寫),X表示其對Unix API的傳承,可以將存儲系統掛載成本地目錄或磁盤,用戶應用系統可以不修改即使用本存儲系統;為了健康大數據快速讀寫存儲系統應用簡單方便,設計了FTP/NFS/CIFS/HTTP等應用程序接口,有利于跨平臺、跨局域網系統的應用。

(2)元數據管理模塊。此模塊主要是完成存儲調度任務,通過一定的負載均衡策略將用戶的存儲訪問請求分配主元數據管理節點和備元數據管理節點進行響應。同時也保證健康大數據快速讀寫存儲系統統一的命名空間,保持數據的同步性和安全性。

圖1 健康大數據的分布式文件系統架構

(3)塊數據存儲模塊。用戶數據存儲在塊數據節點的本地文件系統之上,用戶訪問的數據流也是直接在用戶服務器與塊數據服務器之間。

(4)監控配置中心模塊。此模塊是對整個健康大數據分布式存儲系統的監控,包括節點管理、告警配置、CPU以及內存監控、設備狀態,異常警告等,通過用戶管理功能實現對用戶空間和配額以及權限的管理。

以上4個模塊之間彼此耦合度比較低,具有一定的獨立性,可以單獨部署。如果添加或者刪除存儲節點,對健康大數據的分布式文件系統可以進行伸縮,系統存儲服務不會中斷。同時由于各個模塊是運行于操作系統之上的應用程序,因此可以部署在不同的服務器平臺上,減少了硬件的差異化,對于系統后續的擴容和維護帶來了便利。

3.2 健康大數據分布式文件系統讀寫策略

3.2.1 采取中心服務器模式

為提高數據的存儲和讀取效率,減少對管理節點的訪問,健康大數據分布式文件系統采取中心服務器模式,實現數據流和控制流分離。通過太網網絡,將應用服務器、元數據管理服務器以及各存儲節點連接起來。在實際過程中,應用服務器使用客戶端應用程序掛載到元數據服務器上,然后通過與云數據服務的交互,得到需要讀取或者存儲的信息,直接通過網絡完成與存儲服務器進行數據交互,服務流程如圖2所示。

在數據流與控制流分離的整個過程中,元數據服務器和存儲服務器是獨立的。當客戶端完成數據的存取操作時,其中包含控制信息的控制流與包含數據信息的數據流是分離的。通過這樣的操作,可以提高系統的吞吐率,最大限度的利用服務器帶寬。

圖2 數據流與控制流分離的讀寫流程

在健康大數據快速讀寫存儲系統中,采用數據流與控制流分離技術,不僅可以將元數據服務器的負擔轉移到各個存儲服務器上,提升各個服務器的服務能力。而且還可以提高健康大數據快速讀寫存儲系統的服務能力和可維護性。

3.2.2 實行元數據內存讀寫

在計算機系統中,內存資源是十分寶貴的。健康大數據要求海量存儲空間,因此系統的內存可能無法滿足此需要。為解決這個問題,在健康大數據快速讀寫存儲系統中采用分級存儲的思想,即將元數據存儲在固態硬盤中,最大程度的平衡訪問效率和內存資源問題。在實際系統中,為了提高操作的效率和內存的利用率,采用相應的壓縮機制降低元數據的空間占用率。

3.2.3 采用預讀和寫緩存

為提高數據的訪問效率,減少文件讀寫流程,在健康大數據快速讀寫存儲系統中,采用預讀和寫緩存技術。在實際存儲系統中,利用預讀和多線程并發處理的機制來減小串行模式對文件讀寫性能的影響。同時,為了把IO和傳輸并行起來[25],在健康大數據快速讀寫存儲系統采用一種流式數據預讀方法,和原有的預讀策略相比,流式數據預讀方法適當的調整了部分發送預讀請求和收取預讀數據的順序式數據。

3.2.4 提供專有API接口

健康大數據快速讀寫存儲系統要考慮到的應用場景是存儲海量大數據,因此系統對于大塊文件(MB或GB單位)的存儲上性能要比小文件(KB或B為單位)優異。針對小文件的應用場景,采用小文件序列化的思想,建立打包文件,通過API的形式提供給上層應用使用。同時,健康大數據快速讀寫存儲系統也應該包含開放API接口,供開發人員使用,并且也彌補POSIX接口本身機制對存儲系統效率的影響,專用API提供高度并行存儲訪問技術,最大限度提升訪客戶端存儲訪問性能。

4 測試與結果分析

由于健康大數據是新興產業,目前業內還沒有一個標準的測試體系,本文的測試方法是參照基于網絡的虛擬化存儲系統的功能和性能測試技術和方法進行的。本文的測試環境是,2條元數據服務器(雙路八核CPU,32 GB DDR3內存,2 TB SATA系統盤)、8臺存儲服務器(雙路八核CPU,16 GB DDR3內存,500 GB系統盤,3 TB SATA數據盤×8)、1臺客服端(雙路八核CPU,16 GB DDR3內存,3 TB系統盤)。為了保證存儲內部網絡不成為系統的瓶頸,采用InfiniBand交換網絡,其單網口帶寬為40 Gbps。

在本次測試中,主要是大文件單流讀寫速度和小文件實時IO性能進行測試。其中,大文件單流讀寫主要測試系統數據流的存取效率,小文件實時IO主要測試存取效率。

在單客戶端情況下,健康大數據快速讀寫存儲系統在處理250 GB大文件的測試結果見表3。

表3 單客戶端讀性能

從表3我們看出,健康大數據快速讀寫存儲系統在處理大文件讀寫方面性能穩定,寫入速度達到3 GB/s,讀入速度約2 GB/s,帶寬最大利用為60%。

通過表3、表4的實驗結果,我們可以看出,健康大數據快速讀寫存儲系統在處理大文件讀寫方面性能較為優異,對于小文件讀寫方面上的性能還需要進一步改進。因為,本系統主要的應用場景主要是處理海量的醫療數據,基本達到了研究的預期目標。

表4 系統實時IO測試結果

5 結束語

本文在分析了近幾年存儲領域的主要技術研究成果后,深入討論了針對海量數據存儲的基礎架構和提升效率、簡化應用的主要方法,提出了面向健康大數據的快速訪問機制,研究和設計出了健康大數據快速讀寫存儲系統。在本文的基礎上,分析和挖掘健康大數據是下一步的研究重點。隨著信息技術的不斷發展,醫療信息被數字化的程度逐漸加重,健康大數據的分析利用已成為經濟社會中相關領域的核心關鍵需求。

猜你喜歡
效率系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
注意實驗拓展,提高復習效率
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
效率的價值
商周刊(2017年9期)2017-08-22 02:57:49
跟蹤導練(一)2
主站蜘蛛池模板: 久久精品66| 精品国产电影久久九九| 国产成人8x视频一区二区| 久久久久久久蜜桃| 国产激情影院| 日韩精品亚洲一区中文字幕| 国产精品成人不卡在线观看| 日本欧美中文字幕精品亚洲| 亚洲国产中文精品va在线播放| 国产菊爆视频在线观看| 国产97视频在线观看| 色天天综合久久久久综合片| 丰满人妻一区二区三区视频| 日韩大乳视频中文字幕| 看看一级毛片| 国产一级视频久久| 国产日韩精品欧美一区喷| 永久在线播放| 国产第四页| 久久久噜噜噜| 亚洲αv毛片| 国产真实乱人视频| 亚洲精品无码人妻无码| 精品偷拍一区二区| 国产草草影院18成年视频| 91在线一9|永久视频在线| 啦啦啦网站在线观看a毛片| 国产亚洲精品91| 中国精品久久| 婷婷综合在线观看丁香| 97av视频在线观看| 99在线观看精品视频| 亚洲欧美天堂网| 国产福利在线免费| 国产亚洲精久久久久久无码AV| 欧美日韩一区二区三区在线视频| 欧美不卡二区| 国产在线精品网址你懂的| 尤物在线观看乱码| 欧美国产精品不卡在线观看| 国产女同自拍视频| 久久精品嫩草研究院| 欧美精品v| 亚洲成a人片77777在线播放| 亚洲福利视频一区二区| 青青久久91| 国产在线自在拍91精品黑人| 亚洲熟女偷拍| 久久人妻系列无码一区| 日韩欧美综合在线制服| 国产美女在线免费观看| 欧美日韩午夜| 国产美女在线免费观看| 亚洲国产成熟视频在线多多 | 在线亚洲精品自拍| 中文字幕欧美日韩| 国产微拍精品| 国产在线精彩视频二区| 国产JIZzJIzz视频全部免费| 国产欧美日韩综合一区在线播放| 欧美一级大片在线观看| 国产91av在线| 色老头综合网| 国产一级无码不卡视频| 国产丝袜91| 97se亚洲综合| 永久免费精品视频| 国产精品偷伦视频免费观看国产| 欧美日韩国产系列在线观看| 成人国产免费| 日韩无码视频专区| 国产在线视频二区| 久久一本日韩精品中文字幕屁孩| 少妇精品在线| 中日无码在线观看| 在线观看无码av免费不卡网站| 国产欧美精品专区一区二区| 日韩 欧美 国产 精品 综合| 亚洲免费毛片| 97一区二区在线播放| 9啪在线视频| 视频国产精品丝袜第一页|