常 濤 周愛華 朱韻攸 朱力鵬 饒 瑋 鄧 松
1(國網(wǎng)重慶市電力公司 重慶 400014)2(國網(wǎng)智能電網(wǎng)研究院 江蘇 南京 210003)3(國網(wǎng)重慶市電力公司信息通信分公司 重慶 401121)4(南京郵電大學(xué)先進(jìn)技術(shù)研究院 江蘇 南京 210023)
?
基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法
常 濤1周愛華2*朱韻攸3朱力鵬2饒 瑋2鄧 松4
1(國網(wǎng)重慶市電力公司 重慶 400014)2(國網(wǎng)智能電網(wǎng)研究院 江蘇 南京 210003)3(國網(wǎng)重慶市電力公司信息通信分公司 重慶 401121)4(南京郵電大學(xué)先進(jìn)技術(shù)研究院 江蘇 南京 210023)
傳統(tǒng)的基于糾錯碼的數(shù)據(jù)恢復(fù)算法既提高了數(shù)據(jù)存儲的可靠性,又增加了數(shù)據(jù)恢復(fù)的計算時間。為了解決這個問題,首先對整個樣本數(shù)據(jù)采用粗糙集進(jìn)行約簡,然后基于網(wǎng)格服務(wù)思想,提出基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法DR-GSPMD(Distributed Recovery based on Grid Service for Power Mass Data)。仿真實(shí)驗(yàn)表明針對所有測試數(shù)據(jù)集,隨著校驗(yàn)碼個數(shù)的增加,整個系統(tǒng)的最大容錯率和數(shù)據(jù)恢復(fù)時間也隨著增加。同時針對約簡后的數(shù)據(jù)集隨著計算節(jié)點(diǎn)數(shù)的增加,算法降低了計算復(fù)雜度,加快了范德蒙矩陣運(yùn)算的速度,減少了整個數(shù)據(jù)恢復(fù)的時間。
數(shù)據(jù)恢復(fù) 網(wǎng)格服務(wù) 屬性約簡
隨著云計算、物聯(lián)網(wǎng)等新型信息通信技術(shù)在智能電網(wǎng)中的不斷深入應(yīng)用,智能電網(wǎng)發(fā)電、輸電、變電、配電、用電及調(diào)度等各個環(huán)節(jié)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)呈幾何級數(shù)增長[1,2]。如何保證這些數(shù)據(jù)存儲的安全可靠性是需要解決的一個重要問題。為了解決這個問題,各類分布式存儲系統(tǒng)應(yīng)運(yùn)而生。這些基于分布式環(huán)境的存儲系統(tǒng)最終目標(biāo)就是要使得用戶能連續(xù)且高可靠地訪問存儲數(shù)據(jù),尤其是當(dāng)存儲數(shù)據(jù)被外部攻擊或者損壞時,業(yè)務(wù)系統(tǒng)仍能正常運(yùn)行,保證用戶的最大服務(wù)質(zhì)量,這對智能電網(wǎng)業(yè)務(wù)系統(tǒng)運(yùn)行,特別是與外部因特網(wǎng)環(huán)境直接連接的業(yè)務(wù)系統(tǒng)至關(guān)重要。
副本技術(shù)[3-6]就是一種通過創(chuàng)建數(shù)據(jù)的完整或者部分的備份,然后分布式存儲在各個網(wǎng)絡(luò)節(jié)點(diǎn)中的一種技術(shù)。這種技術(shù)具有提高數(shù)據(jù)訪問效率(可以就近訪問)、增強(qiáng)數(shù)據(jù)可用性、改善數(shù)據(jù)冗余性等優(yōu)勢。左方等提出一種基于蟻群算法的云存儲副本動態(tài)選擇算法,實(shí)現(xiàn)了副本的有效分發(fā)和虛擬機(jī)集群的負(fù)載均衡[7]。針對服務(wù)質(zhì)量比較敏感的用戶,文獻(xiàn)[8]提出一種基于QoS 偏好感知的副本選擇策略。李功麗等提出一種云計算數(shù)據(jù)副本動態(tài)管理策略[9],通過基于用戶需求來確定副本數(shù)目以此確定副本的位置,降低平均響應(yīng)時間。
但現(xiàn)有電力行業(yè)中的數(shù)據(jù)由于采集手段和采樣頻率的多樣化,各業(yè)務(wù)系統(tǒng)所包含的數(shù)據(jù)集大部分都是比較龐大的,維度較高,完全復(fù)制會帶來相當(dāng)高的帶寬和存儲空間需求。在不考慮存儲經(jīng)濟(jì)性的前提下,直接利用數(shù)據(jù)完全副本進(jìn)行數(shù)據(jù)恢復(fù)的前提是該副本本身是完整可靠的,為了解決這個問題,很多研究者借鑒了信號處理領(lǐng)域的冗余容錯技術(shù)[10-12],提出利用Erasure編碼來解決數(shù)據(jù)恢復(fù)問題,但是隨著數(shù)據(jù)量的呈幾何級數(shù)增加以及數(shù)據(jù)的高維特征,直接利用Erasure code進(jìn)行編碼和解碼將耗費(fèi)大量的計算時間,從而大大影響了整個數(shù)據(jù)恢復(fù)的時間,最終會影響到對實(shí)時性要求較高的電力業(yè)務(wù)系統(tǒng)運(yùn)行。因此,本文針對電力海量數(shù)據(jù)安全存儲的實(shí)際需求,為了提高Erasure Code的編碼和解碼速度,結(jié)合屬性約簡和網(wǎng)格服務(wù)的思想,提出了基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法DR-GSPMD。
Erasure Code是一種典型的糾錯碼技術(shù)[10],具有良好的容錯性和安全性。它的實(shí)現(xiàn)形式有很多類型,由于基于范德蒙矩陣的編碼簡單、易實(shí)現(xiàn)等特點(diǎn),本文重點(diǎn)研究該RS編碼中基于范德蒙矩陣的數(shù)據(jù)恢復(fù)技術(shù)。首先給出相關(guān)的概念[10]。
定義1對于n塊子數(shù)據(jù)塊和m個校驗(yàn)塊,構(gòu)造如下的矩陣:
(1)
則稱式(1)為范德蒙矩陣,其中ai,i∈[1,n]可以為任意自然數(shù)。

但隨著云計算、物聯(lián)網(wǎng)在智能電網(wǎng)中的廣泛應(yīng)用,越來越多的智能電網(wǎng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)維度越來越高,數(shù)據(jù)量越來越大,使得在分布式存儲過程中直接基于Erasure Code進(jìn)行數(shù)據(jù)恢復(fù)的時間復(fù)雜度過大,從而影響后臺業(yè)務(wù)系統(tǒng)所提供的服務(wù)質(zhì)量。為了更快地基于Erasure Code進(jìn)行數(shù)據(jù)恢復(fù),首先需要對電力高維海量數(shù)據(jù)進(jìn)行屬性降維,其方法主要包括主成份分析方法,奇異值分解法,以及粗糙集等。前兩種方法不可避免地會造成原始數(shù)據(jù)信息的部分丟失,而基于粗糙集的屬性約簡在降維的同時,并沒有改變約簡后數(shù)據(jù)的決策規(guī)則。因此本文提出基于粗糙集和Erasure Code的數(shù)據(jù)恢復(fù)算法DR-RSEC(Data Recovery algorithm based on Rough Set and Erasure Code),首先利用粗糙集對待恢復(fù)的海量高維數(shù)據(jù)進(jìn)行屬性約簡,降低其數(shù)據(jù)自身復(fù)雜度,然后再通過Erasure Code進(jìn)行數(shù)據(jù)恢復(fù)計算,這樣在不改變數(shù)據(jù)本身決策能力的前提下,提高數(shù)據(jù)恢復(fù)的效率。
在介紹DR-RSEC算法之前,首先給出相關(guān)基于粗糙集的屬性約簡的定義[13]。
定義3樣本決策表SDT。設(shè)T=,其中U為樣本數(shù)據(jù)的研究對象集合,C∪D=R為樣本數(shù)據(jù)的屬性集合,C={c1,c2,…,cn}為樣本數(shù)據(jù)的條件屬性集合,D={d1,d2,…,dm}為樣本數(shù)據(jù)的決策屬性集合,V=∪vr,r∈R是樣本數(shù)據(jù)屬性值的集合,vr表示某一個屬性r∈R的屬性值范圍,f:U×R→V定義一個信息函數(shù),它指定U中每一對象x的屬性值,即對于?r∈R,x∈U,有f(x,r)∈vr。稱滿足上述條件的T為樣本決策表。
定義4對于?P?R,且x,y∈U,當(dāng)且僅當(dāng)對于?r∈P,f(x,r)=f(y,r)時,x和y是不可分辨的,也即:IND(P)={(x,y)∈U|?r∈P,f(x,r)=f(y,r)}。
定義5設(shè)樣本決策表T=,對于相同的條件屬性值,其對應(yīng)的決策屬性值也相同,則稱樣本決策表T是協(xié)調(diào)的。

整個基于粗糙集和Erasure Code的數(shù)據(jù)恢復(fù)算法DR-RSEC的形式化描述如算法1所示。
算法1DR-RSEC
Input: 原始數(shù)據(jù)集Odata,n個數(shù)據(jù)塊,校驗(yàn)碼個數(shù)m;
Output: 恢復(fù)后的數(shù)據(jù)RData;
Begin
1. 針對原始數(shù)據(jù)集Odata,構(gòu)造樣本決策表T=;
2. for (c∈C) {
3. if (rC-{c}(D)=1)C=C-{c};}
4. 得到約簡后的T=;
5. 將約簡后的樣本數(shù)據(jù)集分割為n塊;
6. 根據(jù)分割塊數(shù)n和校驗(yàn)碼個數(shù)m,分別構(gòu)造范得蒙矩陣Fm×n以及分割后的數(shù)據(jù)矩陣Dn×1;
7. 校驗(yàn)碼矩陣Cm×1=Fm×n×Dn×1;

9. if (n塊數(shù)據(jù)子塊中有p塊受損) {
10. if (p<=m) {

12. RData==Merger(Dn×1);}
13. else {print (“不可恢復(fù)!”)}
14. Return RData.
算法1的時間復(fù)雜度為O(n(m+n)+|U||C|),主要集中在屬性約簡和矩陣運(yùn)算中。隨著數(shù)據(jù)量和數(shù)據(jù)維度的增大,以及分割塊數(shù)和校驗(yàn)碼個數(shù)的增加,整個算法的時間復(fù)雜度將會急劇增加,這勢必將影響到數(shù)據(jù)恢復(fù)的時間。
2.1 算法思想
為了解決傳統(tǒng)的Erasure code的海量計算的問題,本文在算法1的基礎(chǔ)上,結(jié)合網(wǎng)格服務(wù)的思想,提出了基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法DR-GSPMD。通過網(wǎng)格服務(wù),來構(gòu)造并行分布式計算平臺,大大減少了計算的時間,提高了數(shù)據(jù)恢復(fù)的效率。
DR-GSPMD算法的主要思想就是首先利用粗糙集對原始數(shù)據(jù)集進(jìn)行屬性約簡;然后根據(jù)分割塊數(shù)和校驗(yàn)碼個數(shù)來分別構(gòu)造范得蒙矩陣、分割后的數(shù)據(jù)矩陣以及計算恢復(fù)所需的其他矩陣,接著把按照行對每一個矩陣進(jìn)行分解,然后把分解后的各個子矩陣分別傳輸?shù)礁鱾€網(wǎng)格節(jié)點(diǎn)中;其次編寫相關(guān)矩陣的乘運(yùn)算以及求逆運(yùn)算的網(wǎng)格服務(wù),并把該網(wǎng)格服務(wù)部署到相應(yīng)的服務(wù)端;然戶分別把相應(yīng)矩陣運(yùn)算網(wǎng)格服務(wù)所需的參數(shù)通過數(shù)據(jù)傳輸服務(wù)傳輸?shù)街付ǖ姆?wù)端;最后客戶端通過門戶并行地調(diào)用和執(zhí)行各網(wǎng)格服務(wù),并把處理后的最終結(jié)果返回給客戶端。
2.2 算法描述
基于網(wǎng)格服務(wù)的分布式數(shù)據(jù)恢復(fù)算法主要就是把數(shù)據(jù)恢復(fù)中的有關(guān)矩陣運(yùn)算進(jìn)行分解,然后利用網(wǎng)格服務(wù)來并行化處理這些計算,從而提高計算的效率。整個算法的描述如下所示:
算法2基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法DR-GSPMD
Input: 原始數(shù)據(jù)集Odata,n個數(shù)據(jù)塊,校驗(yàn)碼個數(shù)m;
Output: 恢復(fù)后的數(shù)據(jù)RData;
Begin {
1. 客戶端首先根據(jù)原始數(shù)據(jù)集,基于粗糙集進(jìn)行屬性約簡,求解得到約簡后的待分割數(shù)據(jù)集;
2. 基于約簡后的待分割數(shù)據(jù)集,根據(jù)分割塊數(shù)和校驗(yàn)碼個數(shù),分別構(gòu)造范得蒙矩陣Fm×n以及分割后的數(shù)據(jù)矩陣Dn×1;
3. 根據(jù)部署矩陣乘算法網(wǎng)格服務(wù)的節(jié)點(diǎn)個數(shù),分解Fm×n和Dn×1,然后把分解后的各個子矩陣分別傳送到各個算法服務(wù)的節(jié)點(diǎn)上;
4. 對于每一個網(wǎng)格服務(wù)節(jié)點(diǎn),并行進(jìn)行矩陣相乘,最后傳輸?shù)娇蛻舳诉M(jìn)行合并成校驗(yàn)碼矩陣Cm×1;

6. if (n塊數(shù)據(jù)子塊中有p塊受損) {
7. if (p<=m) {
8. 將p個數(shù)據(jù)子塊對應(yīng)的矩陣A(n+m)×n和E(n+m)×1中的行刪除掉,得到新的矩陣A(n+m-p)×n和E(n+m-p)×1;
11. 對于每一個網(wǎng)格服務(wù)節(jié)點(diǎn),并行進(jìn)行矩陣相乘,最后傳輸?shù)娇蛻舳诉M(jìn)行合并成數(shù)據(jù)矩陣Dn×1;
12. RData=Merger (Dn×1);}
13. Return RData;
算法2的通信開銷主要集中在各個網(wǎng)格節(jié)點(diǎn)之間傳輸數(shù)據(jù)子矩陣、各個矩陣相乘的耗時,同時由于對各個矩陣分解后利用網(wǎng)格服務(wù)進(jìn)行并行運(yùn)算,故整個算法的時間復(fù)雜度大大減少。整個恢復(fù)過程是利用矩陣乘算法服務(wù)以及矩陣求逆算法服務(wù)協(xié)同工作,大大提高了矩陣求解的效率,節(jié)約了數(shù)據(jù)恢復(fù)的時間。
為了證明DR-GSPMD算法的有效性,本文在實(shí)驗(yàn)室環(huán)境下做了仿真實(shí)驗(yàn)分析。整個實(shí)驗(yàn)平臺為P4 1.8 GHz+512 MB+Java+Windows XP+WS-Core 4.0.2,所有的程序由Java語言實(shí)現(xiàn)。其中包括5臺計算節(jié)點(diǎn),每個節(jié)點(diǎn)配置為2×E5-2620v2 CPU,128 GB內(nèi)存以及2×4 TB硬盤。為了說明算法的有效性,本文的數(shù)據(jù)源主要包括隨機(jī)產(chǎn)生大小分別為100 MB、500 MB、1 GB和50G的三個數(shù)據(jù)集和來自國家電網(wǎng)公司某業(yè)務(wù)系統(tǒng)2006年-2012年的網(wǎng)絡(luò)安全日志數(shù)據(jù)約1.5 GB。整個實(shí)驗(yàn)數(shù)據(jù)的屬性如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)1針對表1中所示的實(shí)驗(yàn)數(shù)據(jù)集,表2給出了屬性約簡后的各個數(shù)據(jù)集的屬性個數(shù)。圖1給出了當(dāng)數(shù)據(jù)分割塊數(shù)固定時,隨著產(chǎn)生校驗(yàn)碼個數(shù)的增加,數(shù)據(jù)集最大容錯率的變化情況。圖2則給出了當(dāng)數(shù)據(jù)塊數(shù)為5,隨著校驗(yàn)碼個數(shù)的增加,上述5個數(shù)據(jù)集約簡前的恢復(fù)算法的計算耗時的變化情況。圖3給出了當(dāng)數(shù)據(jù)分割塊數(shù)為5,校驗(yàn)碼個數(shù)為3時,約簡前后的數(shù)據(jù)恢復(fù)算法的計算耗時比較。

表2 基于粗糙集的數(shù)據(jù)集屬性約簡前后條件屬性個數(shù)變化

圖1 不同數(shù)據(jù)塊條件下最大容錯率隨著校驗(yàn)碼數(shù)變化的情況

圖2 不同校驗(yàn)碼個數(shù)條件下五個數(shù)據(jù)集的數(shù)據(jù)恢復(fù)算法耗時

圖3 約簡前后的數(shù)據(jù)恢復(fù)算法的計算耗時比較
從表2中可以看出針對表1中的5個測試數(shù)據(jù)集而言,約簡后的條件屬性個數(shù)分別下降了62.5%、54.55%、75%、84.09%、72.73%。從圖1中可以看出,隨著校驗(yàn)碼個數(shù)的增加,整個系統(tǒng)的最大容錯率也隨著增加,而最大容錯率的增加表明了整個恢復(fù)系統(tǒng)的可靠性增加,允許有更多的數(shù)據(jù)子塊的丟失。而圖2則表明當(dāng)數(shù)據(jù)塊數(shù)為5時,隨著校驗(yàn)碼個數(shù)的增加,表1中五個數(shù)據(jù)集的數(shù)據(jù)恢復(fù)算法平均計算耗時分別增加了27.42、51.07、21.93、21.17、21.81倍。這是因?yàn)殡S著校驗(yàn)碼個數(shù)和數(shù)據(jù)集大小的增加,構(gòu)造的范得蒙矩陣、數(shù)據(jù)矩陣以及校驗(yàn)碼矩陣的復(fù)雜度也隨之增加,從而使得整個算法花費(fèi)大量的時間在矩陣的運(yùn)算中。圖3則顯示當(dāng)數(shù)據(jù)分割塊數(shù)為5,校驗(yàn)碼個數(shù)為3時,通過對表1中所示的五個數(shù)據(jù)集進(jìn)行屬性約簡,大大降低了表1中五個數(shù)據(jù)集恢復(fù)算法的計算耗時。
實(shí)驗(yàn)2由實(shí)驗(yàn)1可以看出,較多的校驗(yàn)碼個數(shù)可以保證數(shù)據(jù)存儲的高可靠性,但同時也增加了數(shù)據(jù)恢復(fù)的計算耗時。為了很好地解決這個問題,實(shí)驗(yàn)2利用網(wǎng)格服務(wù)設(shè)計并行數(shù)據(jù)恢復(fù)算法DR-GSPMD,在保證數(shù)據(jù)存儲高可靠性的同時,也極大地降低了數(shù)據(jù)恢復(fù)的時間。圖4表明了當(dāng)分割塊數(shù)n=5,校驗(yàn)碼個數(shù)m=4時,隨著節(jié)點(diǎn)數(shù)目的增加,數(shù)據(jù)恢復(fù)的計算耗時變化情況。

圖4 不同計算節(jié)點(diǎn)個數(shù)條件下5個數(shù)據(jù)集恢復(fù)的平均耗時
從圖4中可以看出,在分割塊數(shù)為5,校驗(yàn)碼個數(shù)為4的條件下,隨著計算節(jié)點(diǎn)的增加,五個隨機(jī)數(shù)據(jù)集的平均恢復(fù)時間分別最大降低56.88%、43.19%、26.08%、62.28%、46.58%。這主要是因?yàn)樵诜指顗K數(shù)和校驗(yàn)碼個數(shù)確定的情況下,恢復(fù)所有的計算都集中在矩陣的乘法和求逆運(yùn)算,而DR-GSPMD算法利用網(wǎng)格服務(wù)使得矩陣的乘法和求逆計算并行化,加快了整個矩陣的運(yùn)算,最終導(dǎo)致整個恢復(fù)時間的下降。
本文在傳統(tǒng)基于Erasure code的數(shù)據(jù)恢復(fù)算法基礎(chǔ)上,結(jié)合網(wǎng)格服務(wù)和屬性約簡的思想,提出了基于網(wǎng)格服務(wù)的電力海量數(shù)據(jù)分布式恢復(fù)算法DR-GSPMD。首先利用屬性約簡降低原始數(shù)據(jù)維度從而減少數(shù)據(jù)恢復(fù)算法的計算耗時;同時對于數(shù)據(jù)恢復(fù)算法中的大量的矩陣乘法和求逆運(yùn)算,DR-GSPMD設(shè)計了相應(yīng)的網(wǎng)格服務(wù),使得數(shù)據(jù)恢復(fù)中的各種矩陣運(yùn)算并行化。仿真實(shí)驗(yàn)表明,隨著節(jié)點(diǎn)的增加,DR-GSPMD算法加快了矩陣計算的速度,減少了整個數(shù)據(jù)恢復(fù)的時間。
[1] 秦立軍, 馬其燕. 智能配電網(wǎng)及其關(guān)鍵技術(shù)[M].北京:中國電力出版社, 2010.
[2] Nouredine Hadjsaid.有源智能配電網(wǎng)[M].陶順, 肖湘寧, 彭騁,譯.北京:中國電力出版社, 2013.
[3] Ranganathan K, Foster I. Identifying Dynamic Replication Strategies for a High Performance Data Grid[C]//Proceeding of the Second International workshop on Grid Computing, Denver, November, 2001:75-86.
[4] 楊濤.數(shù)據(jù)網(wǎng)絡(luò)中復(fù)制管理研究[D].北京:中國科學(xué)技術(shù)大學(xué),2007.
[5] Rahman R M, Alhajj R, Barker K. Replica selection strategies in data grid[J].Journal of Parallel and Distributed Computing, 2008,68(12):1561-1574.
[6] Al Mistarihi H H E, Yong C H. On fairness, optimizing replica selection in data grids[J].IEEE Transactions on Parallel and Distributed Systems, 2009,20(8):1102-1111.
[7] 左方, 何欣. 一種基于蟻群算法的云存儲副本動態(tài)選擇機(jī)制研究[J].計算機(jī)應(yīng)用研究,2015,32(11):3368-3370,3374.
[8] 熊潤群, 羅軍舟, 宋愛波,等.云計算環(huán)境下QoS偏好感知的副本選擇策略[J]. 通信學(xué)報, 2011,32(7):93-102.
[9] 李功麗, 趙曉焱, 劉慧.一種云計算數(shù)據(jù)副本動態(tài)管理策略[J].河南師范大學(xué)學(xué)報:自然科學(xué)版,2015, 43(4):138-143.
[10] 羅象宏, 舒繼武.存儲系統(tǒng)中的糾刪碼研究綜述[J].計算機(jī)研究與發(fā)展, 2012,49(1):1-11.
[11] 毛波, 葉閣焰, 藍(lán)琰佳,等.一種基于重復(fù)數(shù)據(jù)刪除技術(shù)的云中云存儲系統(tǒng)[J].計算機(jī)研究與發(fā)展,2015,52(6):1278-1287.
[12] 潘利偉,谷建華,朱靖飛,等.基于Erasure Code 的分布式文件存儲系統(tǒng)[J].計算機(jī)工程,2010,36(17):45-47.
[13] Pawlak Z. Rough sets[J].International Journal of Computer and Information Sciences,1982,11(5):341-356.
DISTRIBUTED RECOVERY ALGORITHM FOR MASSIVE POWER DATA BASED ON GRID SERVICE
Chang Tao1Zhou Aihua2*Zhu Yunyou3Zhu Lipeng2Rao Wei2Deng Song4
1(State Grid Chongqing Electric Power Company, Chongqing 400014, China)2(State Grid Smart Grid Research Institute, Nanjing 210003,Jiangsu, China)3(State Grid Chongqing Information and Telecommunication Company, Chongqing 401121, China)4(Nanjing University of Posts and Telecommunications, Nanjing 210023,Jiangsu, China)
Traditional error-correcting code-based data recovery algorithm improves the reliability of data storage but increases the computational time of data recovery as well. To solve this problem, we first employed the rough set to carry out reduction on entire sample data, and then proposed the grid service-based distributed recovery algorithm for massive power data (DR-GSPMD), which is based on the idea of grid services. Simulation experiments showed that for all test datasets, the maximum error rate and data recovery time of whole system increases along with the augment in numbers of check node. Meanwhile, aiming at the problem that the reduced datasets increases along with the augment in numbers of computational nodes, DR-GSPMD reduces the computing complexity, speeds up the calculation of Vandermonde matrix and decreases the time of entire data recovery.
Data recovery Grid service Attribution reduction
2015-09-24。國家自然科學(xué)基金項目(51507084)。常濤,高工,主研領(lǐng)域:電力信息化。周愛華,工程師。朱韻攸,工程師。朱力鵬,工程師。饒瑋,工程師。鄧松,高工。
TP3
A
10.3969/j.issn.1000-386x.2016.11.047