錢(qián)文君
(蕪湖高級(jí)職業(yè)技術(shù)學(xué)校 安徽 蕪湖 241000)
云存儲(chǔ)作為延伸云計(jì)算的并行計(jì)算核心技術(shù),已經(jīng)成為新型網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)與管理新技術(shù)。云計(jì)算技術(shù)的迭代,分布式存儲(chǔ)系統(tǒng)、虛擬化技術(shù)與容災(zāi)技術(shù)的應(yīng)用,促使云存儲(chǔ)技術(shù)得到全面的性能提升。以分布式、并行化方式存儲(chǔ)大數(shù)據(jù)已經(jīng)成為云計(jì)算主流趨勢(shì),云數(shù)據(jù)庫(kù)系統(tǒng)大多數(shù)情況下基于鍵值模型設(shè)計(jì),由于非關(guān)系數(shù)據(jù)存儲(chǔ)不存在固定表結(jié)構(gòu),事務(wù)一致性并不嚴(yán)格,因而在數(shù)據(jù)模型上相對(duì)松散,能夠自動(dòng)切分?jǐn)?shù)據(jù)至不同服務(wù)器,支持并發(fā)寫(xiě)入與查詢,擴(kuò)展水平呈現(xiàn)較大規(guī)模。
在存儲(chǔ)與計(jì)算過(guò)程中,云計(jì)算利用規(guī)模龐大的數(shù)據(jù)與應(yīng)用中心,在服務(wù)過(guò)程中,通過(guò)互聯(lián)網(wǎng)隨時(shí)訪問(wèn)、分享、管理與使用相關(guān)資源,根據(jù)計(jì)算資源數(shù)量,進(jìn)行可用資源匹配,快速?gòu)椥蕴峁┵Y源,在大數(shù)據(jù)領(lǐng)域發(fā)揮橫向擴(kuò)展與優(yōu)化的基礎(chǔ)作用,支撐大數(shù)據(jù)實(shí)際實(shí)施。大數(shù)據(jù)是TB 級(jí)結(jié)構(gòu)化傳統(tǒng)數(shù)據(jù)與非結(jié)構(gòu)化新數(shù)據(jù)的新處理模式,能夠在合理時(shí)間內(nèi),高效處理海量數(shù)據(jù),大數(shù)據(jù)相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫(kù)”[1]。大數(shù)據(jù)處理無(wú)法運(yùn)用單臺(tái)計(jì)算機(jī)實(shí)施,主要采取分布式計(jì)算架構(gòu)挖掘海量數(shù)據(jù),依托云計(jì)算分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和虛擬化技術(shù),完成海量數(shù)據(jù)抓取、管理、處理,從數(shù)據(jù)中快速獲取具有價(jià)值的信息資訊。
云存儲(chǔ)技術(shù)應(yīng)用過(guò)程中,將數(shù)據(jù)存放于第三方服務(wù)器,為確保數(shù)據(jù)隱私性和安全性,需要采取數(shù)據(jù)加密、身份認(rèn)證與訪問(wèn)控制等一系列措施,建立健全的安全審計(jì)機(jī)制,提升數(shù)據(jù)權(quán)限管理層級(jí),防止出現(xiàn)數(shù)據(jù)泄露與惡意攻擊風(fēng)險(xiǎn)。為降低云存儲(chǔ)技術(shù)發(fā)展與云存儲(chǔ)設(shè)備更新維護(hù)成本,采用更高標(biāo)準(zhǔn)的存儲(chǔ)設(shè)備和存儲(chǔ)技術(shù),迅速提升數(shù)據(jù)可靠性與可恢復(fù)性,便于應(yīng)對(duì)硬件故障、災(zāi)害性和損壞性突發(fā)情況,確保數(shù)據(jù)備份、容災(zāi)與恢復(fù)的重要性。
海量數(shù)據(jù)索引分析過(guò)程中,關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)提供性能分析命令,能夠?qū)x擇語(yǔ)句予以分析,輸出執(zhí)行詳細(xì)信息后,供針對(duì)性優(yōu)化應(yīng)用,便于通過(guò)索引查詢主鍵值,進(jìn)行聚簇索引查詢記錄信息。解釋命令輸出結(jié)果的附加字段為使用索引時(shí),觸發(fā)索引覆蓋。實(shí)現(xiàn)索引覆蓋最為常見(jiàn)的方法為,將被查詢字段建立到組合索引中。復(fù)合索引使用最左前綴原則,查詢過(guò)程中使用最左邊列。關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)查詢支持管理系統(tǒng)排序與指示函數(shù)數(shù)組兩種排序方式。使用index 需要利用索引實(shí)現(xiàn)自動(dòng)排序,效率相對(duì)較高。
存儲(chǔ)模型設(shè)計(jì)與實(shí)現(xiàn)能夠有效解決海量數(shù)據(jù)存儲(chǔ)過(guò)程中的數(shù)據(jù)存儲(chǔ)問(wèn)題,在批量應(yīng)用數(shù)據(jù)過(guò)程中形成數(shù)據(jù)存儲(chǔ)方案,規(guī)劃低成本數(shù)據(jù)高并發(fā)讀寫(xiě)操作路徑;利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)與關(guān)系數(shù)據(jù)庫(kù),完成對(duì)結(jié)構(gòu)、半結(jié)構(gòu)與非結(jié)構(gòu)化海量數(shù)據(jù)的高效并發(fā)與訪問(wèn);一旦某個(gè)節(jié)點(diǎn)產(chǎn)生故障并被標(biāo)記為不可用,快速完成數(shù)據(jù)恢復(fù),保證高級(jí)別數(shù)據(jù)安全性,呈現(xiàn)出較為顯著的擴(kuò)展能力。
第一,在設(shè)計(jì)原則上,需要以存儲(chǔ)設(shè)備為核心,通過(guò)應(yīng)用軟件進(jìn)行數(shù)據(jù)存儲(chǔ)備份服務(wù),根據(jù)不同邏輯功能,完成云環(huán)境下海量數(shù)據(jù)組織與資源共享的存儲(chǔ)模型的分層。
第二,海量數(shù)據(jù)組織與資源共享的存儲(chǔ)模型的設(shè)計(jì)需要符合具體業(yè)務(wù)需求與數(shù)據(jù)特征,有效確保數(shù)據(jù)存儲(chǔ)高效性。
第三,在數(shù)據(jù)存儲(chǔ)總體結(jié)構(gòu)上需要以適應(yīng)海量數(shù)據(jù)載量與業(yè)務(wù)需求增長(zhǎng)為前提進(jìn)行可擴(kuò)展性的設(shè)計(jì),要求考慮到海量數(shù)據(jù)規(guī)模的增大、系統(tǒng)運(yùn)行負(fù)載的增加等綜合因素,進(jìn)行適配的大數(shù)據(jù)分區(qū)、分表與集群等[2]。
第四,數(shù)據(jù)存儲(chǔ)模型總體結(jié)構(gòu)設(shè)計(jì)需要高度關(guān)注大數(shù)據(jù)的安全性,在設(shè)計(jì)過(guò)程中需要針對(duì)性設(shè)計(jì)出合理的必要的數(shù)據(jù)訪問(wèn)權(quán)限、數(shù)據(jù)加密傳輸、數(shù)據(jù)備份與傳輸機(jī)制、防止數(shù)據(jù)泄露、網(wǎng)絡(luò)攻擊等安全防護(hù)措施。
第五,易用性是存儲(chǔ)模型總體架構(gòu)設(shè)計(jì)過(guò)程中需要遵循的原則之一,在設(shè)計(jì)過(guò)程中應(yīng)當(dāng)優(yōu)先考慮數(shù)據(jù)存儲(chǔ)實(shí)際需求和使用習(xí)慣,在模型架構(gòu)設(shè)計(jì)上需要以簡(jiǎn)單易懂、易于維護(hù)和擴(kuò)展的結(jié)構(gòu)為首選。
2.3.1 基礎(chǔ)設(shè)施服務(wù)層
基礎(chǔ)設(shè)施服務(wù)層主要提供最為基本的計(jì)算資源、基礎(chǔ)設(shè)施,在架構(gòu)的這一層,通過(guò)虛擬化技術(shù)能夠集成多種存儲(chǔ)設(shè)備與物理服務(wù)器,在虛擬化實(shí)現(xiàn)方式上主要是在主機(jī)級(jí)別、存儲(chǔ)設(shè)備級(jí)別與存儲(chǔ)網(wǎng)絡(luò)級(jí)別,借助虛擬化軟件與系統(tǒng)完成存儲(chǔ)設(shè)備的連接與運(yùn)行邏輯虛擬化。
2.3.2 數(shù)據(jù)資源服務(wù)層
數(shù)據(jù)資源服務(wù)層通過(guò)集群功能實(shí)現(xiàn)、網(wǎng)絡(luò)技術(shù)運(yùn)行、分布式文件系統(tǒng)或類似虛擬服務(wù)器的聯(lián)合,完成云環(huán)境下多存儲(chǔ)設(shè)備的互聯(lián)設(shè)置,在高度協(xié)同條件下達(dá)到運(yùn)行目標(biāo),完成對(duì)各類數(shù)據(jù)的建立與維護(hù),對(duì)空間與非空間進(jìn)行索引,為數(shù)據(jù)組織提供數(shù)據(jù)管理與訪問(wèn)服務(wù),體現(xiàn)出高效的訪問(wèn)效果。與此同時(shí),利用數(shù)據(jù)與系統(tǒng)備份、容災(zāi)技術(shù)等,確保在處理海量數(shù)據(jù)過(guò)程中,不產(chǎn)生任何數(shù)據(jù)的丟失,保證云存儲(chǔ)模型運(yùn)行的數(shù)字化程度與安全化標(biāo)準(zhǔn),與云存儲(chǔ)系統(tǒng)的穩(wěn)定性。
2.3.3 業(yè)務(wù)管理層
業(yè)務(wù)開(kāi)放標(biāo)準(zhǔn)協(xié)議(Web-based distributed authoring and versioning, WeBDAV) 是基于超文本傳輸協(xié)議(hypertext transfer protocol, HTTP)1.1 的通信協(xié)議,能夠直接添加其他新方法,同時(shí)能夠?qū)ξ募姹具M(jìn)行有效控制的管理,帶有預(yù)見(jiàn)性地完成云環(huán)境下云存儲(chǔ)系統(tǒng)不同服務(wù)內(nèi)容的管理。
2.3.4 云應(yīng)用服務(wù)層
云應(yīng)用服務(wù)層支撐應(yīng)用隔離、應(yīng)用安全與服務(wù)集成整合等服務(wù),能夠在提供應(yīng)用、服務(wù)的過(guò)程中實(shí)現(xiàn)針對(duì)海量數(shù)據(jù)的高速瀏覽,在完成數(shù)據(jù)統(tǒng)計(jì)分析過(guò)程中,提供門(mén)戶服務(wù)等云環(huán)境下的云應(yīng)用服務(wù)。具備授權(quán)的任何用戶,可以通過(guò)較為標(biāo)準(zhǔn)的系統(tǒng)云應(yīng)用接口進(jìn)行系統(tǒng)登錄,在運(yùn)行模型的過(guò)程中,使用云存儲(chǔ)模型中的海量數(shù)據(jù)資源及相對(duì)應(yīng)的服務(wù)內(nèi)容。見(jiàn)圖1。

圖1 存儲(chǔ)模型架構(gòu)圖
進(jìn)行資源共享過(guò)程中,需要構(gòu)造資源標(biāo)識(shí),進(jìn)一步完成尋址定位,通過(guò)統(tǒng)一資源標(biāo)識(shí)符(uniform resource identifier, URI)對(duì)資源表現(xiàn)出的相應(yīng)特征進(jìn)行描述性分析,具有相同特征的資源應(yīng)當(dāng)根據(jù)屬性的一致性放置于同一層,應(yīng)當(dāng)包含請(qǐng)求過(guò)程中所需要的全部信息。
針對(duì)本次研究所提出的云環(huán)境下的云存儲(chǔ)模型結(jié)構(gòu)對(duì)應(yīng)的構(gòu)造所產(chǎn)生的資源表示,在資源共享需求上,需要對(duì)應(yīng)性預(yù)設(shè)索引中的時(shí)間與地理位置等,在設(shè)置完成后,將對(duì)應(yīng)管理需求修改目錄。
資源共享模型設(shè)計(jì)強(qiáng)調(diào)以合作和共享的方式實(shí)現(xiàn)資源共享,通過(guò)建構(gòu)共享資源平臺(tái)、協(xié)同型項(xiàng)目或共同進(jìn)行設(shè)備使用等方式予以實(shí)現(xiàn)。在設(shè)計(jì)過(guò)程中,資源共享模型更加關(guān)注資源的公平分配,在分配資源過(guò)程中,需要制定出公正的分配準(zhǔn)則和標(biāo)準(zhǔn),建立透明化的資源分配機(jī)制,通過(guò)公平的資源評(píng)估過(guò)程語(yǔ)義模型設(shè)計(jì)實(shí)現(xiàn)。資源共享模型設(shè)計(jì)的目標(biāo)之一在于提升資源實(shí)際利用能效,規(guī)避資源重復(fù)浪費(fèi)與購(gòu)買(mǎi)行為,達(dá)成更高資源利用效率。
定義資源共享目錄的基礎(chǔ)屬性與數(shù)據(jù)指標(biāo),通過(guò)生成資源目錄及相應(yīng)的元數(shù)據(jù),描述資源目錄的指標(biāo)項(xiàng),進(jìn)而建立和資源目錄相關(guān)的數(shù)據(jù)表,在數(shù)據(jù)表屬性與元數(shù)據(jù)屬性上需要保持一一對(duì)應(yīng)的效果。將元數(shù)據(jù)部分指標(biāo)和全部指標(biāo)作為數(shù)據(jù)查詢基本條件進(jìn)行發(fā)布,通過(guò)驗(yàn)證資源使用端口資源申請(qǐng)權(quán)限的有效性,構(gòu)建服務(wù)接口,確保這些接口包含的資源查詢條件能夠滿足實(shí)際的資源共享需求。[3]。假如資源共享申請(qǐng)權(quán)限已經(jīng)通過(guò)驗(yàn)證,則對(duì)應(yīng)性構(gòu)建已經(jīng)被選中的資源查詢條件對(duì)應(yīng)的服務(wù)接口,假如驗(yàn)證所屬共享資源過(guò)程中使用端口的資源獲取權(quán)限已經(jīng)通過(guò),則需要根據(jù)所描述的資源共享獲取請(qǐng)求,進(jìn)行相應(yīng)數(shù)據(jù)表的調(diào)用和獲取。
研究在通用識(shí)別任務(wù)完成過(guò)程中及識(shí)別任務(wù)上進(jìn)行評(píng)估,在數(shù)據(jù)集中,為公平比較,研究使用標(biāo)準(zhǔn)數(shù)據(jù)集劃分,運(yùn)用數(shù)據(jù)增廣和數(shù)據(jù)訓(xùn)練策略,通過(guò)訓(xùn)練確保子集間不產(chǎn)生類別的重疊,實(shí)驗(yàn)使用224×224 大小的圖像進(jìn)行輸入,其他實(shí)驗(yàn)使用84×84 分辨率進(jìn)行輸入。模型經(jīng)由連續(xù)3 個(gè)通道數(shù)完全一致的卷積層共同構(gòu)成,網(wǎng)絡(luò)的每個(gè)通道數(shù)量分別為64/160/320/640,基礎(chǔ)架構(gòu)–殘差塊(residual block, RB)數(shù)量為1/1/1/1。
建構(gòu)通用的存儲(chǔ)模型和資源共享機(jī)制的性能評(píng)估框架,需要建立與存儲(chǔ)模型和資源共享機(jī)制性能評(píng)估對(duì)應(yīng)的性能評(píng)測(cè)指標(biāo)[4]。通過(guò)借鑒存儲(chǔ)系統(tǒng)性能評(píng)估指標(biāo),研究面向多維性能的評(píng)估指標(biāo),典型應(yīng)用性能需要針對(duì)不同的測(cè)試類型、環(huán)境等進(jìn)行性能測(cè)試,可以在確定測(cè)試環(huán)境的基礎(chǔ)上完成測(cè)試實(shí)踐等。較為常見(jiàn)的云存儲(chǔ)系統(tǒng)應(yīng)用如表1 所示。

表1 云環(huán)境下海量數(shù)據(jù)組織與資源共享存儲(chǔ)模型典型應(yīng)用表
面向不同接口訪問(wèn)類型的具體評(píng)測(cè)指標(biāo)如表2 所示。

表2 云環(huán)境下海量數(shù)據(jù)組織與資源共享存儲(chǔ)模型不同接口評(píng)估指標(biāo)表
在性能分析評(píng)估過(guò)程中:第一階段的因素分析主要針對(duì)模型性能與實(shí)例類型間關(guān)系、最優(yōu)文件大小、云存儲(chǔ)模型支持最大用戶數(shù)量進(jìn)行評(píng)估;第二階段的分析在詳細(xì)規(guī)劃長(zhǎng)期動(dòng)態(tài)運(yùn)行過(guò)程的條件下,對(duì)統(tǒng)籌性目標(biāo)、內(nèi)容、布局與規(guī)模的變化予以實(shí)時(shí)調(diào)整,在有效空間資源的條件支撐下,為系統(tǒng)優(yōu)質(zhì)的性能調(diào)整分析結(jié)果,最終提出具有針對(duì)性的導(dǎo)引建議[5]。
4.3.1 評(píng)估指標(biāo)及環(huán)境
針對(duì)存儲(chǔ)模型的評(píng)估指標(biāo)如表3 所示,評(píng)估拓?fù)鋱D如圖2 所示。

表3 云環(huán)境下海量數(shù)據(jù)組織與資源共享存儲(chǔ)模型云存儲(chǔ)接口評(píng)估指標(biāo)表

圖2 性能評(píng)估環(huán)境拓?fù)鋱D
4.3.2 結(jié)果與分析
為排除異常數(shù)據(jù)干擾,評(píng)估通過(guò)去掉一個(gè)最大值和一個(gè)最小值的方式,進(jìn)行評(píng)估結(jié)果的平均值取值。不同實(shí)例的配置信息如表4 所示。

表4 云環(huán)境下海量數(shù)據(jù)組織與資源共享存儲(chǔ)模型不同實(shí)例配置信息表
文件傳輸速率與API 響應(yīng)時(shí)間相對(duì)于其他實(shí)例配置明顯更為優(yōu)質(zhì),主要原因?yàn)樯鲜鰞蓚€(gè)類型實(shí)例為雙中央處理器,內(nèi)存為8GB,t2.large 實(shí)例類型的API 響應(yīng)時(shí)間為上傳6.917 s、下載8.701 s,m4.large 實(shí)例類型的API 響應(yīng)時(shí)間為上傳6.857 s、下載8.554 s。
伴隨互聯(lián)網(wǎng)信息爆炸式劇增,云計(jì)算大數(shù)據(jù)技術(shù)的應(yīng)用,海量數(shù)據(jù)的高效存儲(chǔ)面臨巨大難題。研究出于對(duì)海量數(shù)據(jù)統(tǒng)一組織與資源共享的實(shí)際需求,建立基于云計(jì)算與大數(shù)據(jù)技術(shù)的云存儲(chǔ)模型,該模型能夠?qū)崿F(xiàn)分析、計(jì)算與存儲(chǔ)海量數(shù)據(jù)的效率提升, 采用映射與歸約(Map&Reduce)計(jì)算模型與優(yōu)化策略,減少無(wú)關(guān)數(shù)據(jù)項(xiàng)的訪問(wèn),保持海量數(shù)據(jù)寫(xiě)入過(guò)程的高效性、一致性。最終,通過(guò)實(shí)驗(yàn)測(cè)試,該海量數(shù)據(jù)組織與資源共享的存儲(chǔ)模型能夠有效克服傳統(tǒng)存儲(chǔ)模型在存儲(chǔ)海量數(shù)據(jù)過(guò)程中存在的低效性。