陳小鵬
(國網山東省電力公司濱州供電公司,山東 濱州 256600)
碳排放信息可以為分析溫室氣體氣候變化,進而調整降低碳排放量提供幫助[1-3],研究碳排放信息定向提取具有重要意義。
許多相關學者對信息定向提取展開研究,如王一洲等[4]采用密度統計的方法,根據信息結構特征對信息進行聚類,完成信息提取,但在面向大規模信息時具有局限性。如延安等[5]通過概念運算,獲取提取規則,但運算量較大且過于復雜,不具有全面性。
數據挖掘是用一種方法,從海量的數據中尋找隱藏的信息。區塊鏈技術由分布式信息存儲、傳輸、加密算法等計算機技術構成。加密算法包括對稱和非對稱加密算法,區塊鏈中一般采用非對稱加密算法。
為此本文有效結合數據挖掘和區塊鏈技術提出一種定向提取碳排放信息的方法,在定向提取信息時,信息集屬性之間是相互獨立的,具有較高的穩定性,可以處理多分類的信息,算法簡單,且具有普遍性,在信息有不同特征時,其性能不會出現大的不同。
在設計碳排放信息定向提取模型時[6],主要從碳排放信息的使用、管理、安全性設計模型,在模型設計時,考慮數據傳遞、儲存,運用區塊鏈技術完成傳輸加密處理。本文采用MapReduce計算模式下樸素貝葉斯提取信息及同態加密的計算方法實現碳排放信息的提取和加密傳輸。碳排放信息定向提取模型結構如圖1所示。

圖1 碳排放信息定向提取模型結構
碳排放信息來源于工業碳排放及碳排放績效信息[7],構建碳排放信息庫,通過數據挖掘技術對碳排放信息定向提取,運用區塊鏈進行加密傳輸,最終碳排放信息傳輸到碳排放信息管理網絡,與管理者及用戶實現信息交互。
1.1.1 工業碳排放信息
工業碳排放信息由能源活動及生產的碳排放信息構成[8],工業能源活動碳排放計算公式為
Hind-energy=∑Gi×∑HGi
(1)
(2)

工業生產碳排放Hco2計算公式為

(3)

1.1.2 碳排放績效信息
碳排放績效信息的獲取涉及多種指標,本文選取能源結構、經濟結構等指標評估獲取碳排放績效信息。權重作為表述所有碳排放績效指標重要程度的變量[9],可表達出所有指標重要程度差異,因此為獲取碳排放績效信息,提出熵值法,通過全部碳排放績效指標傳輸到管理者的信息量確認權重,信息熵是碳排放績效不確定性的度量,基于信息熵理論,熵值越小時,表示碳排放績效信息量和管理時的作用越大,其權重也越大。
設碳排放區域有n個,指標為m個,正向指標和逆向指標分別描述碳排放的綜合評價結果越好對碳排放績效的正效影響和負效影響越大,碳排放數據運用極值法標準化處理,減少指標不同單位的影響。碳排放績效指標矩陣如表1所示。

表1 碳排放績效指標矩陣

(i=1,2,…,n;j=1,2,…,,m)
(4)

(i=1,2,…,n;j=1,2,…,m)
(5)
第j項指標在第i個區域在該指標所占的比重計算公式為
(6)
式中:Yij為碳排放績效指標;Sij為其所占比重;第j項指標的信息熵用bj表示,表達式如下:
(i=1,2,…,n;j=1,2,…,m)
(7)
運用熵值方法確定權重,權重vj計算公式為
(8)
線性加權求和公式表示為

(9)
綜上可知計算權重流程如圖2所示。

圖2 權重計算流程圖
根據工業碳排放信息和碳排放績效信息構建的碳排放信息庫,提出樸素貝葉斯定向提取的方法[10-11],獲取碳排放信息待分類定向數據及其分配概率,實現碳排放信息的定向提取。對碳排放定向信息到最大分類概率的類別進行劃分,完成碳排放信息定向提取。
設碳排放信息類別F1,F2,…,Fm,類別的數量用m表示,所有碳排放信息相應屬性數量用n表示,定向碳排放信息可用n+1維碳排放信息屬性向量R表達,定向碳排放信息R表達式為
R={r1,r2,…,rm,F}
(10)
待分類定向碳排放信息R′從屬于類別Fi的結果,滿足條件表述為
W(Fi|R′)|>W(Fj|R′),1≤j≤m,j≠i
(11)
對W(Fi|R′)進行最大化處理,令R′屬于Fi的概率比其余類別高,處理公式表示為
(12)
式中:W(R′)為常數;W(Fi)推算公式為
(13)
W(R′|Fi)推算公式為
W(R′|Fi)=W(r′1|Fi)×W(r′2|Fi)×…×
W(r′n|Fi)
(14)
式中:數據庫A里的類別為Fi的訓練元組數用|Fi,A|表示。
如W(r′k|Fi)為計算目標,對其屬性ηk進行判定,在ηk處于離散狀態時,W(r′k|Fi)為屬性取在r′k的Fi類別元祖數量和全部定向碳排放信息Fi的元組數量的百分比,在ηk是連續狀態下,遵循高斯分布,其均值和標準差分別用λ及γ表示,W(r′k|Fi)界定表達公式為
(15)
式中:e為指數函數,依據以上求解的最大概率類別,完成碳排放信息的定向分類及提取。
Map和Reduce函數并行推算下進行樸素貝葉斯定向提取,Main和Reduce函數描述如下:
Map函數:定向信息id號和傳輸內容分別是key和walue,熟知信息集里的定向信息及其屬性,如屬性屬于離散型,把定向碳排放信息類別的屬性取值數量求和,若屬于連續型,求解屬性取值總和及平方和,當前分片經過遍歷、統計,將所得的定向提取信息結果進行輸出。
Reduce函數:獲取Mapper的臨時提取信息,對離散型統計結果進行整理,得到概率,對于O個定向信息的連續屬性,如為平方和,利用以下公式求加屬性均值和標準差,計算公式分別為
(16)
(17)
對項目進行統計,對MapReduce程序輸出最終碳排放信息定向提取結果。
根據1.2的提取到的碳排放信息,在信息傳輸過程中加入區塊鏈技術,區塊鏈技術是一種利用分布式的數據儲存方法來進行信息的處理[12],并通過點到點傳輸、共識機制、加密算法等方法來完成信息的處理與運用。在本文的設計中,使用區塊鏈實現一個分布式的、沒有人管理的信息庫,其使用與傳統的管理員信息管理方法有很大的不同;將此技術用于定向提取碳排放信息的傳輸,節約大量的人力、物力。在區塊鏈技術中,引入一種加密算法,完成碳排放信息的加密和解密,如圖3所示。

圖3 區塊鏈加密流程圖
利用同態加密算法實現碳排放信息加密[13-14],加密信息是以文字與數字構成的記憶詞,使用者只有透過固定的記憶詞,方可獲得登錄密碼的數據。在加密時,利用解密進行運算,得到密碼信息。碳排放信息加密與解密處理時,對碳排放信息釋放進行設置,將釋放的信息置于內存空間中;在實際使用時,它是以malloc功能為基礎,隨著內存的增大,碳排放信息被釋放,在釋放時,malloc調用時,獲取空閑空間,按照使用者的要求進行下一階段的輸出。它所能提供的信息的數量與所能提供的存儲空間是一樣的,所以它能有選擇地加密信息。
區塊鏈技術將定向提取的碳排放信息利用同態加密方法傳輸給管理網絡[15],保證傳輸信息的準確性,在Map函數分布計算中,不能將Mapper信息交互,用最終生成的中間結果,保證信息定向提取的獨立性,將定向提取的碳排放信息運用同態加密進行推算,利用代數推算,在相同的明文情況下操作信息代數,完成加密碳排放定量提取的信息。把同態加密全過程設置成JK,加密過程通過生產密鑰、加密、解密及信息評估共4個環節構成,4個環節分別表示為:KG、Enc、Decc及Eval,加密過程為
JK=(KG,Enc,Dec,Eval)
(18)
若AK和BK私鑰相互作用產生信息安全參數,私鑰分別應用加密及解密密文。設置明文U∈Sn,n表示整數,Sn表示整數的集合。把明文U的同態加密用Xod(ι)表示,推算公式為
Xod(ι1+ι2)=Xod(ι1)⊕Xod(ι2)
(19)
式中:ι1、ι2為碳排放信息。
以上公式為碳排放信息的加密傳輸,傳輸完成后開展信息解密,利用私鑰解密密文υ,解密結果σ表示為
σ=Dec(υ,AK)
(20)
最終,評估解密結果完成碳排放定向提取信息的加密傳輸。若評估函數為ψ,密文設置為υ,評估密鑰用φ表示,評估算法運用φ的評估函數ψ開展評估,形成評估密文L,評估密文公式表示為
L=Eval(φ,ψ,υ)
(21)
基于以上公式,完成碳排放信息的同態加密傳輸,實現信息安全傳輸及保證信息的精準傳輸。
利用以上過程對碳排放信息加密處理,確保定向提取碳排放信息的正常傳輸,在信息傳輸過程中,加入IoT設備,運用不對稱加密的公鑰,把公鑰信息設置為129字節的加密信息。利用同態加密的路徑傳輸到Raft集群中,且對公鑰信息進行保存,利用私鑰解密,獲得ID號,連接信息防止緩存中及本文區塊鏈,完成信息傳輸。
以某地區碳排放管理中心為實驗對象,其中包含abalone、covtype、Data1和Data2四種碳排放信息集,采用本文方法在不同信息集下定向提取碳排放信息。碳排放信息集數據見表2。

表2 實驗數據
設置集群節點數分別為2、6、10、16個,在不同集群節點數量下,測試本文方法的從不同碳排放信息集中定向提取碳排放信息的速度,測試結果如圖4所示。

圖4 碳排放提取時間變化圖
由圖4可知,集群節點數量不同情況下,碳排放信息集abalone、covtype的定向提取時間整體變化波動不大,整體表現為平穩趨勢,原因在于這兩個碳排放信息集數據量較小,信息定向提取效率受集群節點數量影響較小;碳排放信息集Data1和Data2的定向提取出時間受集群節點數量影響較大,集群節點數量越多提取效率越快。實驗證明本文模型在大規模的碳排放信息定向提取效率方面具有明顯優勢。
為驗證本文模型定向提取碳排放信息的加密效果,以從Data2碳排放信息集中提取的包含的A、B、C、D、E及F區域的定向碳排放信息為實驗對象,6個區定向提取的原始信息如表3所示,用本文模型同態加密結果如表4所示。

表3 6個區定向提取碳排放信息的原始數據

表4 6個區定向提取碳排放信息加密結果
由表3和表4可知,本文模型應用后,可實現6個地區的碳排放信息數據的加密處理,6個區所有碳排放量數值中間兩位顯示為*,未出現定向提取碳排放信息的加密遺漏現象,可有效保障定向碳排放信息輸出安全性。實驗結果表明,本文模型對碳排放信息的加密效果好,可保護碳排放信息的安全傳輸,避免出現在傳輸過程中碳排放信息泄露的現象。
在企業碳排放信息管理系統中,用本文模型定向提取某地區企業每年的碳排放申報信息,如圖5所示。

圖5 企業碳排放信息提取結果展示
由圖5可知,提取某地企業從2016年—2022年碳排放申報信息。填報類型分為初次填報和核查申報,2016年—2019年的填報狀態均已審核通過,2022年的已填交狀態,可編輯操作。
將文獻[4]方法、文獻[5]方法作為本文方法的對比方法,測試三種方法在數據量不同的情況下,進行數據挖掘時所需的時間,分析結果如圖6所示。

圖6 三種方法的對比結果
由圖6可知,隨著數據量的增加,三種方法完成挖掘所需時間隨之增加,但本文模型數據挖掘過程的所需時間始終小于兩種對比方法,當數據量數量達到20 000個時,本文方法的挖掘時間僅為330 ms,數據挖掘效率高。
本文研究數據挖掘和區塊鏈技術的碳排放信息定向提取模型,設計碳排放信息定向提取框架,依據采集到的工業碳排放及碳排放績效信息,構建碳排放信息庫,利用大數據技術中的樸素貝葉斯的方法對信息庫的信息進行定向提取,在提取傳輸信息時,利用同態加密方法保護碳排放信息傳輸的安全性,定向提取速度快,適用于大規模的碳排放信息提取。在區塊鏈中利用同態加密算法進行傳輸數據加密,可有效確保碳排放信息安全傳輸。