楊文暉,袁進俊*,苗 放,1b,2
(1.成都理工大學(xué)a.地球探測與信息技術(shù)教育部重點實驗室,b.地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護國家重點實驗室,成都 610059;2.成都大學(xué)模式識別與智能信息處理四川省高校重點實驗室,成都 610106)
面向海量空間數(shù)據(jù)的分級存儲模型研究
楊文暉1a,袁進俊1a*,苗 放1a,1b,2
(1.成都理工大學(xué)a.地球探測與信息技術(shù)教育部重點實驗室,b.地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護國家重點實驗室,成都 610059;2.成都大學(xué)模式識別與智能信息處理四川省高校重點實驗室,成都 610106)
空間信息技術(shù)和遙感遙測等技術(shù)的飛速發(fā)展,產(chǎn)生了海量的遙感、地災(zāi)等行業(yè)空間信息數(shù)據(jù)。如何對海量空間數(shù)據(jù)進行合理的分級存儲,以滿足大數(shù)據(jù)時代下空間信息、地理信息等行業(yè)應(yīng)用,這已成為日益緊迫的問題。海量空間數(shù)據(jù)分級存儲作為一種全新的存儲模式,為解決該問題提出了新的思路。結(jié)合海量空間數(shù)據(jù)的特點和日常數(shù)據(jù)應(yīng)用的規(guī)律,提出了基于訪問熱度和聚類關(guān)聯(lián)的海量空間數(shù)據(jù)分級存儲模型,該模型主要包括熱點數(shù)據(jù)分級、關(guān)聯(lián)數(shù)據(jù)分級、數(shù)據(jù)的遷移三部分。最后通過嫦娥2號遙感數(shù)據(jù)模擬訪問試驗,優(yōu)化了數(shù)據(jù)升級閥值,證明了分級存儲模型用于海量空間數(shù)據(jù)的可行性。
空間數(shù)據(jù);遙感遙測;分級存儲;密度聚類算法;數(shù)據(jù)關(guān)聯(lián)
空間數(shù)據(jù)已廣泛應(yīng)用于社會各行業(yè)、各部門,如城市規(guī)劃、交通、銀行、航空航天等。隨著空間信息技術(shù)和遙感遙測等技術(shù)的飛速發(fā)展,產(chǎn)生了海量、實時、異構(gòu)的空間信息數(shù)據(jù)。如何對海量空間數(shù)據(jù)進行合理的分級存儲,以使海量空間數(shù)據(jù)能夠滿足不斷變化的地理信息等應(yīng)用的需要,這已成為日益緊迫的問題[1]。海量空間數(shù)據(jù)分級存儲模型的提出基于四點因素:①數(shù)據(jù)分級方面,空間數(shù)據(jù)和所有數(shù)據(jù)一樣具有2-8效應(yīng),即一段時間內(nèi)只有兩成左右的數(shù)據(jù)被系統(tǒng)經(jīng)常用到,所以常被用到的數(shù)據(jù)應(yīng)該備份存儲在能被系統(tǒng)快速獲取的設(shè)備上[2-3];②數(shù)據(jù)存儲方面,數(shù)據(jù)存儲設(shè)備的I/O性能和價格相差很大,比如內(nèi)存、固態(tài)硬盤SSD、磁盤陣列RAID、機械硬盤等,所以應(yīng)當根據(jù)不同數(shù)據(jù)讀寫速度需求的不同,選擇不同的存儲設(shè)備以節(jié)約成本提高效率[4-5];③數(shù)據(jù)遷移方面,數(shù)據(jù)本身的價值和使用率也處在不斷變化之中,所以就要求存儲的數(shù)據(jù)根據(jù)其價值和使用頻率的變化動態(tài)調(diào)整其存儲位置[6-7];④數(shù)據(jù)關(guān)聯(lián)方面,空間數(shù)據(jù)本身具有地理坐標的特殊屬性,熱點數(shù)據(jù)的關(guān)聯(lián)與地理坐標密不可分。基于以上四點因素,海量空間數(shù)據(jù)分級存儲模型的研究勢在必行。
1.1 空間數(shù)據(jù)的特點
空間數(shù)據(jù)表現(xiàn)了地理空間實體的位置、大小、形狀、方向以及幾何拓撲關(guān)系。空間數(shù)據(jù)的組織表達采用柵格數(shù)據(jù)和矢量數(shù)據(jù)作為兩種最基本的形式。
遙感影像數(shù)據(jù)是一種以柵格形式表示的數(shù)據(jù)。隨著所描述范圍的擴大和空間分辨率的提高,數(shù)據(jù)量呈幾何級數(shù)地增長。
柵格數(shù)據(jù)是以二維矩陣的形式來表示空間地物的數(shù)據(jù)組織方式,每個矩陣單位稱為一個柵格單元(cell)。柵格的每個數(shù)據(jù)表示地物或現(xiàn)象的屬性數(shù)據(jù),而矢量數(shù)據(jù)結(jié)構(gòu)是利用點,線,面的形式來表達現(xiàn)實世界。然而不論是柵格數(shù)據(jù)還是矢量數(shù)據(jù),它們都有個共同的地理坐標屬性。因此我們在對空間數(shù)據(jù)進行分級存儲時,應(yīng)當充分利用空間數(shù)據(jù)的地理坐標屬性。這里在對關(guān)聯(lián)空間數(shù)據(jù)進行分級時,就充分利用了空間數(shù)據(jù)的坐標屬性,采用空間數(shù)據(jù)密度聚類算法來對關(guān)聯(lián)的空間數(shù)據(jù)進行分級。
1.2 密度聚類算法介紹
基于密度聚類算法[8]來判斷熱點數(shù)據(jù)區(qū)域,從而對關(guān)聯(lián)的熱點數(shù)據(jù)進行分級。密度聚類算法認為,在整個數(shù)據(jù)樣本空間中,各目標類族是由一群稠密樣本點組成的,而這些稠密樣本點被低密度區(qū)域(噪聲)分割,而密度聚類算法就是要濾過低密度區(qū)域,發(fā)現(xiàn)樣本稠密的樣本點。
DBSCAN(Density-based Spatial Clustering of Applications with Noise)[9]是一種基于高密度聯(lián)通區(qū)域的聚類算法,它將類簇定義為高密度相連點的最大集合,它本身對噪聲不敏感,并且能發(fā)現(xiàn)任意形狀的類簇。
1.3 空間數(shù)據(jù)分級存儲模型
本模型采用3級分層結(jié)構(gòu):硬件層、管理層、應(yīng)用層(圖1)。
1.3.1 硬件層
硬件層是空間數(shù)據(jù)的存儲實體,具體的數(shù)據(jù)遷移操作都實際發(fā)生在硬件層。硬件層根據(jù)所存儲的數(shù)據(jù)熱度優(yōu)先級不同,以及存儲設(shè)備自身訪問速度的不同,將數(shù)據(jù)和存儲設(shè)備都由高到低分為一一對應(yīng)的1級~3級。分別是:存儲1級數(shù)據(jù)的內(nèi)存DDR、存儲2級數(shù)據(jù)的固態(tài)硬盤SSD、存儲3級數(shù)據(jù)的機械硬盤。
所有數(shù)據(jù)一開始都放置在最低優(yōu)先級的3級存儲設(shè)備上,系統(tǒng)運行中新寫入的數(shù)據(jù)一開始也都存儲在第3級存儲設(shè)備中。當最低級3級設(shè)備中的數(shù)據(jù)優(yōu)先級提高,需要遷移到較高級別的設(shè)備中時,都采用復(fù)制的方式把數(shù)據(jù)拷貝到高優(yōu)先級的設(shè)備中。當高級別的設(shè)備(即1級、2級)之間進行數(shù)據(jù)遷移時,都采用移動的方式進行數(shù)據(jù)遷移。

表1 設(shè)備優(yōu)先級和數(shù)據(jù)熱度優(yōu)先級對照表Tab.1 Equipment priority and data heat priority table
1.3.2 管理層
管理層存儲著所有空間數(shù)據(jù)的標識,負責整個系統(tǒng)模型的數(shù)據(jù)訪問管理、數(shù)據(jù)分級管理和數(shù)據(jù)遷移管理,管理層的具體功能通過數(shù)據(jù)管理中心實現(xiàn)。
數(shù)據(jù)管理中心包含一個數(shù)據(jù)訪問單元,用于管理數(shù)據(jù)的訪問操作(圖1)。

圖1 數(shù)據(jù)訪問示意圖Fig.1 Schematic diagram of data access
數(shù)據(jù)管理中心記錄了最近一月甚至更久的數(shù)據(jù)使用記錄。數(shù)據(jù)使用記錄的格式如表2所示。

表2 數(shù)據(jù)使用記錄格式Tab.2 The format of Data using record
數(shù)據(jù)管理中心存儲著所有空間數(shù)據(jù)的數(shù)據(jù)標識,這些數(shù)據(jù)構(gòu)成一個數(shù)據(jù)標識散列表中。數(shù)據(jù)標識的結(jié)構(gòu)如表3所示。

表3 數(shù)據(jù)標識結(jié)構(gòu)Tab.3 Data identification structure
數(shù)據(jù)管理中心包含一個分級遷移控制器,它負責數(shù)據(jù)升級和數(shù)據(jù)遷移操作。當數(shù)據(jù)標識的數(shù)據(jù)使用記錄達到某個熱度升級閥值時,分級遷移控制器對數(shù)據(jù)進行遷移,并修改該數(shù)據(jù)標識的優(yōu)先級和優(yōu)先訪問位置。
1.3.3 應(yīng)用層
應(yīng)用程序根據(jù)不同的業(yè)務(wù)需求對數(shù)據(jù)進行不同的處理,實現(xiàn)多種多樣的功能。硬件層和管理層對應(yīng)用層是透明的。當應(yīng)用層需要請求數(shù)據(jù)時,直接給管理層發(fā)送所請求數(shù)據(jù)的ID,并從管理層得到該數(shù)據(jù)的訪問位置。然后應(yīng)用層再直接從硬件層讀取數(shù)據(jù),模型結(jié)構(gòu)圖見圖2所示。

圖2 空間數(shù)據(jù)分級模型結(jié)構(gòu)圖Fig.2 The spatial data classification model
2.1 分級策略思想
該分級策略是一種基于訪問頻率和密度聚類的空間數(shù)據(jù)分級策略[10],該策略采用兩套分級規(guī)則,①用于調(diào)整被訪問數(shù)據(jù)的優(yōu)先級;②用于調(diào)整關(guān)聯(lián)數(shù)據(jù)的優(yōu)先級。
首先對于被訪問數(shù)據(jù),每次數(shù)據(jù)使用時,數(shù)據(jù)管理中心都會增加一條數(shù)據(jù)使用記錄,并定時將該記錄寫入數(shù)據(jù)標識中,從而使得分級遷移控制器根據(jù)該數(shù)據(jù)最近的使用頻率,判斷該數(shù)據(jù)是否需要升級或者降級,并將優(yōu)先級發(fā)生變化數(shù)據(jù)遷移到新的優(yōu)先級對應(yīng)的存儲設(shè)備中。
其次對于熱點關(guān)聯(lián)數(shù)據(jù),鑒于空間數(shù)據(jù)具有顯著地地理坐標特性,當有數(shù)據(jù)提升到較高優(yōu)先級時,數(shù)據(jù)管理中心的分級遷移控制器根據(jù)空間數(shù)據(jù)密度聚類算法,可以找到該被訪問數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù),從而將熱點數(shù)據(jù)區(qū)域中的關(guān)聯(lián)數(shù)據(jù)進行熱度升級,并將其遷移到新的優(yōu)先級對應(yīng)的存儲設(shè)備中,以此滿足系統(tǒng)對高密度訪問的熱點數(shù)據(jù)進行快速訪問的需求。
2.2 分級策略實施規(guī)則
2.2.1 數(shù)據(jù)分級存儲規(guī)劃
將空間數(shù)據(jù)的優(yōu)先級分為1~3級,數(shù)字越小優(yōu)先級越高,數(shù)據(jù)初始放置的時候,將所有數(shù)據(jù)的優(yōu)先級都定為最低優(yōu)先級別3級。按1~3優(yōu)先級從高到低的順序,不同優(yōu)先級的數(shù)據(jù)分別存儲在內(nèi)存DDR、固態(tài)硬盤SSD、機械硬盤中。
2.2.2 基于訪問頻率的熱點數(shù)據(jù)分級方法
當數(shù)據(jù)標識表中某個數(shù)據(jù)標識的使用記錄的頻率達到某個閥值時,就需要變更該數(shù)據(jù)的優(yōu)先級,并對該數(shù)據(jù)做遷移,再將遷移后的優(yōu)先訪問位置存入該數(shù)據(jù)標識中(圖3)。

圖3 熱點訪問數(shù)據(jù)分級示意圖Fig.3 Classification of hotspot access data
具體步驟:每次應(yīng)用層使用數(shù)據(jù)時,管理層的數(shù)據(jù)管理中心都會在數(shù)據(jù)使用記錄表中增加一條使用記錄。數(shù)據(jù)使用記錄表里面存放了一個月甚至更長時間的數(shù)據(jù)使用記錄,以便以后系統(tǒng)功能擴展使用。數(shù)據(jù)管理中心的分級遷移控制器,每隔一分鐘定時讀取最近一分鐘的數(shù)據(jù)使用記錄,再把這一分鐘內(nèi)的數(shù)據(jù)使用記錄增加到對應(yīng)數(shù)據(jù)ID的數(shù)據(jù)標識表中,同時刪除該數(shù)據(jù)標識中一周以前的數(shù)據(jù)使用記錄,然后統(tǒng)計該數(shù)據(jù)標識中使用記錄的頻率,再根據(jù)以下數(shù)據(jù)優(yōu)先級分級規(guī)則決定該數(shù)據(jù)的分級變化,若該數(shù)據(jù)優(yōu)先級發(fā)生變化,升級遷移控制器則向硬件層下達數(shù)據(jù)遷移指令,遷移完成后再將新的數(shù)據(jù)優(yōu)先訪問地址寫入該數(shù)據(jù)表示中。
熱點數(shù)據(jù)優(yōu)先級分級規(guī)則:設(shè)定一個數(shù)據(jù)訪問頻率分級閥值K,對于每分鐘使用次數(shù)達到K1次的數(shù)據(jù),將優(yōu)先級直接提升為最高級1級;對于每小時使用次數(shù)達到K2次的數(shù)據(jù),若當前優(yōu)先級未達到2以上,則將其優(yōu)先級直接提升為2級表(表4)。

表4 熱點數(shù)據(jù)優(yōu)先級分級規(guī)則Tab.4 Hot data priority classification rules
2.2.3 基于密度聚類算法的關(guān)聯(lián)數(shù)據(jù)分級方法
當某個數(shù)據(jù)的優(yōu)先級被提升到較高級別時,需要查找其關(guān)聯(lián)數(shù)據(jù),然后將得到的關(guān)聯(lián)數(shù)據(jù)的優(yōu)先級也相應(yīng)提高(圖4)。

圖4 關(guān)聯(lián)數(shù)據(jù)升級示意圖Fig.4 Associated data upgrade
具體步驟:當數(shù)據(jù)管理中心的升級遷移控制器,檢測到某個數(shù)據(jù)的優(yōu)先級被提升到較高級別時,升級遷移控制器就通過空間數(shù)據(jù)密度聚類算法得到其關(guān)聯(lián)數(shù)據(jù)的一組數(shù)據(jù)ID,并將這組數(shù)據(jù)ID對應(yīng)的數(shù)據(jù)優(yōu)先級提升為該數(shù)據(jù)優(yōu)先級的下一級別,并將這些數(shù)據(jù)依次遷移到新的存儲設(shè)備中,然后將新的優(yōu)先訪問位置更新到數(shù)據(jù)標識中。
關(guān)聯(lián)數(shù)據(jù)優(yōu)先級分級規(guī)則:因為第2級數(shù)據(jù)的下一級別為最低級3級,所以對第2級數(shù)據(jù)進行聚類算法查找關(guān)聯(lián)數(shù)據(jù)是沒有意義的;同時也因為聚類算法會占用大量計算資源,所以只有當數(shù)據(jù)的優(yōu)先級被提高到較高的優(yōu)先級時,才對該數(shù)據(jù)進行空間數(shù)據(jù)密度聚類算法找出其關(guān)聯(lián)數(shù)據(jù),并提升其關(guān)聯(lián)數(shù)據(jù)的級別。具體規(guī)則為:當某一數(shù)據(jù)的優(yōu)先級被提高到1級時,對該數(shù)據(jù)進行一次空間數(shù)據(jù)密度聚類算法,對于聚類算法得到的相關(guān)數(shù)據(jù),若這些相關(guān)數(shù)據(jù)的級別未達到2級以上,則將這些相關(guān)數(shù)據(jù)的優(yōu)先級提升為2級。
3.1 實驗數(shù)據(jù)及實驗環(huán)境
實驗數(shù)據(jù)對象選擇的是嫦娥2號遙感數(shù)據(jù)(1T)。作為空間數(shù)據(jù)的一種,嫦娥2號遙感數(shù)據(jù)具有量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜的特點,處理起來速度非常慢。通過對數(shù)據(jù)進行分級存儲實驗,驗證該方法的效率。
實驗環(huán)境部署在三臺DELL PowerEdge 2950服務(wù)器上面,一臺部署應(yīng)用程序用于請求遙感數(shù)據(jù);一臺部署數(shù)據(jù)管理中心用于分級和調(diào)度遙感數(shù)據(jù);一臺部署為硬件層用于存儲數(shù)據(jù),并額外掛載了多種存儲設(shè)備,實現(xiàn)數(shù)據(jù)分級存儲(表5)。
3.2 熱點訪問數(shù)據(jù)分級策略數(shù)據(jù)遷移實驗
該實驗通過模擬高頻率數(shù)據(jù)調(diào)用,得到了各數(shù)據(jù)升級閥值K值在不同取值下的設(shè)備利用率,收據(jù)訪問命中率及數(shù)據(jù)平均訪問延遲曲線。

表5 實驗環(huán)境Tab.5 Experimental environment
3.2.1 實驗結(jié)果
由圖5可以看出,隨著應(yīng)用程序?qū)?shù)據(jù)的持續(xù)訪問,一級設(shè)備的利用率會不斷增加并逐漸趨于穩(wěn)定;其中當K1取值10次/s時,設(shè)備率利用率最高。
由圖6可以看出,隨著應(yīng)用程序?qū)?shù)據(jù)的持續(xù)訪問,數(shù)據(jù)訪問在一級設(shè)備中的命中率不斷增加;但是當K1取值10次/s時,由于設(shè)備使用率滿負荷導(dǎo)致命中率陡然降低。

圖5 一級SSD設(shè)備利用率在不同K1值的變化曲線Fig.5 Change curve of level 1SSD equipment utilization in differentvalues of K1

圖6 一級SSD設(shè)備數(shù)據(jù)訪問命中率在不同K1值的變化曲線Fig.6 Change curve of level 1SSD equipment data access shot in differentvalues of K1
由圖7可以看出,隨著應(yīng)用程序?qū)?shù)據(jù)的持續(xù)訪問,數(shù)據(jù)訪問的平均延遲逐漸減小,分級存儲的優(yōu)勢不斷顯現(xiàn),但是當K1取值10次/s時,由于設(shè)備很快滿負荷,導(dǎo)致數(shù)據(jù)延遲陡然增加。

圖7 數(shù)據(jù)平均訪問延遲在不同K1值的變化曲線Fig.7 Change curve of average data access delay in different values of K1
3.2.2 實驗分析及結(jié)論
綜合以上三個實驗指標,可以發(fā)現(xiàn)當K1取值10次/s時,設(shè)備利用率最高,但由于設(shè)備很快滿負荷運轉(zhuǎn),會導(dǎo)致系統(tǒng)運行緩慢,影響數(shù)據(jù)命中率和數(shù)據(jù)訪問速度;當看取值20次/s時,數(shù)據(jù)命中率和數(shù)據(jù)訪問延遲最佳。綜合分析可以知道,當數(shù)據(jù)升級閥值K1取值20次/s時,系統(tǒng)的綜合性能最佳。
3.3 關(guān)聯(lián)數(shù)據(jù)分級策略數(shù)據(jù)遷移實驗
該實驗通過對關(guān)聯(lián)數(shù)據(jù)的遷移測試,在實驗一中得到的最佳升級閥值K1取值20次/s的情況下,對有無運用關(guān)聯(lián)數(shù)據(jù)分級策略二者之間的數(shù)據(jù)訪問延遲進行比較,以及對二者數(shù)據(jù)遷移量的大小進行比較,以此驗證關(guān)聯(lián)數(shù)據(jù)遷移策略的優(yōu)勢。
熱點數(shù)據(jù)升級閥值K1取最佳值20次/s,隨著系統(tǒng)的運行,高級設(shè)備中的熱點數(shù)據(jù)慢慢增加,數(shù)據(jù)更多的在高速存儲設(shè)備中訪問,使得數(shù)據(jù)訪問的整體延遲逐漸減小,并且在采用了基于空間數(shù)據(jù)密度聚類算法的關(guān)聯(lián)數(shù)據(jù)分級策略后,數(shù)據(jù)的訪問延遲總體減少,加快了數(shù)據(jù)的訪問速率。
從圖9可以看出,隨著數(shù)據(jù)訪問的繼續(xù),系統(tǒng)單位時間內(nèi)的數(shù)據(jù)遷移量由高到低逐漸趨于平穩(wěn)。采用了關(guān)聯(lián)數(shù)據(jù)分級策略后,系統(tǒng)的數(shù)據(jù)遷移量會有所減少,從而緩解了系統(tǒng)的性能。
大數(shù)據(jù)時代,帶來了海量遙感遙測,地質(zhì)災(zāi)害等空間信息數(shù)據(jù)存儲的問題。作者提出了一種基于熱點訪問頻率的數(shù)據(jù)分級策略和一種基于空間數(shù)據(jù)密度聚類算法的數(shù)據(jù)分級策略。通過對嫦娥2號數(shù)據(jù)進行模擬實驗,提升了數(shù)據(jù)升級閾值,大大加快了熱點數(shù)據(jù)的訪問速率,并充分利用了高級存儲設(shè)備的利用率。由于關(guān)聯(lián)數(shù)據(jù)分級策略的貢獻,使得設(shè)備的數(shù)據(jù)遷移量明顯降低。整體的分級存儲策略及模型,實現(xiàn)了空間數(shù)據(jù)的高效存儲,為海量空間信息數(shù)據(jù)存儲提供了一個可行解決方案。

圖8 有無關(guān)聯(lián)數(shù)據(jù)分級策略的數(shù)據(jù)訪問延遲比較Fig.8 Data access delay compareof associated data and no associated dataclassification strategyin best upgrade threshold

圖9 有無關(guān)聯(lián)數(shù)據(jù)分級策略下的單位之間數(shù)據(jù)遷移量對比Fig.9 Data migration quantity between unitscontrast ofassociated data and no associated datain best upgrade threshold
[1] 百度百科.面向數(shù)據(jù)的體系結(jié)構(gòu)[OL].http://baike.baidu.com/subview/649092/12822804.htm. Baidu Encyclopedia.DOA[OL].http://baike.baidu.com/subview/649092/12822804.htm.(In Chinese)
[2] 聶雪軍,秦磊華,周敬利.內(nèi)容感知存儲系統(tǒng)中自動分級存儲模型研究[J].小型微型計算機系統(tǒng),2011,32 (6):1151-1156.
NIE X J,QIN L H,ZHOU J L.Research on auto-tiering storage model in content aware storage system [J].Journal of Chinese Computer Systems,2011,32 (6):1151-1156.(In Chinese)
[3] 劉曉然.基于文件的數(shù)據(jù)分級存儲的研究與實現(xiàn)[D].昆明:昆明理工大學(xué),2013.
LIU X R.Research and implementation of data-based hierarchical storage of files[D].Kunming:Kunming University of Science and Technology,2013.(In Chinese)
[4] MEI H,LING X,LI G B,A data migration strategy for HSM based on data value[J].Journal of Information &Computational Science,2011,8(2):312-319.
[5] ZOLGHADRI M J,MANSOORI E G.Weighting fuzzy classification rulesusing receiver operating characteristics(ROC)analysis[J].Information Sciences,2007,177(11):2296-2307.
[6] 敖莉,于得水,舒繼武,等.一種海量數(shù)據(jù)分級存儲系統(tǒng)TH-TS[J].計算機研究與發(fā)展,2011,48(6):1089-1100.
AO L,YU D SH,SHU J W,et al.A tiered storage system for massive data:TH-TS[J].Journal of Computer Research and Development,2011,48(6):1089-1100.(In Chinese)
[7] 呂帥.基于對象的分級存儲系統(tǒng)數(shù)據(jù)遷移技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2009.
LV SH.Research on object-based data migration technology of hierarchical storage system[D].Changsha:National University of Defense Technology,2009.(In Chinese)
[8] 王芳,張順達,馮丹,等.對象存儲系統(tǒng)中的柔性對象分布策略[J].華中科技大學(xué)學(xué)報:自然科學(xué)版,2007,35 (3):46-48.
WANG F,ZHANG SH D,F(xiàn)ENG D,et al.Hybrid object allocation policy for object storage systems[J].Journal of Huazhong University of Science and Technology:Natural Science Edition,2007,35(3):46-48.(In Chinese)
[9] 聶躍光.基于密度聚類的空間數(shù)據(jù)挖掘算法研究[D].太原:太原科技大學(xué),2008.
NIE Y G.Study of spatial data mining algorithm based on density clustering[D].Taiyuan:Taiyuan University of Science and Technology,2008.(In Chinese)
[10]馮少榮,肖文俊.DBSCAN聚類算法的研究與改進[J].中國礦業(yè)大學(xué)學(xué)報,2008,37(1):105-110.
FENG SH R,XIAO W J.An improved DBSCAN clustering algorithm[J].Journal of China University of Mining &Technology,2008,37(1):105-110.(In Chinese)
[11]于彥偉,王沁,鄺俊,等.一種基于密度的空間數(shù)據(jù)流在線聚類算法[J].自動化學(xué)報,2012,38(6):1051-1058.
YU Y W,WANG Q,KUANG J,et al.An on-line density-based clustering algorithm for spatial data stream[J].Acta Automatica Sinica,2012,38(6):1051 -1058.(In Chinese)
Research of tiered storage model for massive spatial data
YANG Wen-h(huán)ui1a,YUAN Jin-jun1a*,MIAO Fang1a,1b,2
(1.Chengdu University of Technology a.Key Lab of Earth Exploration &Information Techniques of Ministry of Education,Chengdu University of Technology,b.State Key Laboratory of Geohazard Prevention and Geoenvironment Protection,Chengdu 610059,China;2.Key Lab of Pattern Recognition and Intelligent Information Processing of University of Sichuan Province,Chengdu College,Chengdu 610106,China)
With the rapid development of space information technology and remote sensing technology,vast amounts of spatial information data like remote sensing and geological disasterwere produce.How reasonable tier stored massive spatial data to make meet the needs of applications like spatial information and geographic information is becoming an increasingly urgent problem.Hierarchical storage massive spatial data as a new model for solving the problem put forward new ideas.Combined with the characteristics of massive spatial data and rule of daily data application,put forward the data presented hierarchical data storage model and the associated heat-based access massive spatial clustering,the model includes hot data classification,association data classification,data migration in three parts.Finally,simulation access testing on Change 2remote sensing data optimized the threshold of data upgrade;it proved the feasibility of the tiered storage model for spatial data.
spatial data;remote Sensing;tiered storage;density clustering algorithm;data association
TP 301
:A
10.3969/j.issn.1001-1749.2015.06.19
1001-1749(2015)06-0783-07
2014-11-11改回日期:2015-04-19
國家自然科學(xué)基金項目(61071121);成都市經(jīng)信委科技專項項目(201102153)
楊文暉(1969-),女,副教授,從事計算機技術(shù)及應(yīng)用方向的研究,E-mail:ywhui@cdut.edu.cn。
*通信作者:袁進俊(1989-),男,碩士,從事分布式存儲與計算、空間信息技術(shù)及應(yīng)用方向的研究,E-mail:373611905@qq.com。