傅曉菲,陳 涵,陳 磊,翁斌新,嚴 安
(1.國網福建省電力有限公司福州供電公司數字化部,福州 350002;2.國網信通億力科技有限責任公司數據管理事業部,福州 350003)
近年來,信息技術發展迅猛,應用范圍不斷擴大,致使每個行業的數據資源體量急劇增大。根據調查研究數據可知,2021 年中國產生數據資源總量約為6.6 ZB,位居全世界第二位,同比增長率高達29.4%,并且數據資源增長速率逐年遞增,“大數據時代”悄然來臨[1]。電力工業是社會基本能源支持體系中的關鍵構成單元,在信息技術作用下也進入大數據浪潮之中。伴隨著電力行業信息化水平的提升,再加之物聯網技術、云計算技術等的普遍應用,其數據資源總量也呈現著指數級別增長,并形成了一定的規模。電力行業具有一定的特殊性,其根據區域不同劃分為多級管理部門,部門之間溝通會產生較多的調度業務數據資源,是電力行業管理的主要依據。
不可再生能源儲量的減少,用戶電力能源需求劇增,再加之工業生產效率的加快,工業用電需求也出現大幅度增加,為電力行業提出了較大的挑戰,多級管理部門之間的調度業務數據資源隨之越來越多,為調度業務數據資源的處理、存儲、檢索等性能提出了更高的要求。多級調度數據資源檢索是電力行業管理過程中的關鍵環節,如何在海量數據資源中尋找到需求的調度數據資源是現今電力行業管理領域亟待解決的問題之一[2]。為了滿足電力行業的可持續發展需求,提出基于數據中臺的面向多級調度管理業務數據資源檢索方法研究。
為了能夠清晰掌握多級調度管理業務數據資源的實際架構,搭建電力行業數據中臺,為后續數據資源的分類處理奠定堅實的基礎。
數據中臺本質上是一種數據管理體系,核心能力為數據匯聚整合、數據提純加工、數據服務可視化與數據價值變現,能夠為電力行業其他部門提供業務數據資源與計算服務。簡單地說,數據中臺就是“數據倉庫+數據服務+中間件”,每個構成部分承擔不同的功能,具體如下:①數據倉庫:存儲結構性數據、離線數據、非結構性數據、實時數據等;②數據服務:數據研發、數據計算、數據分析、數據可視化等服務;③中間件:結構分為三層,分別為垂直數據層、公共數據層與萃取數據層。
相較于大數據平臺來看,數據中臺具備業務屬性,并能夠提供數據處理相關技術,可以為數據資源檢索提供一定的便利。基于多級調度管理業務數據資源的實際情況,搭建電力行業數據中臺,具體結構如圖1所示。

圖1 電力行業數據中臺結構示意圖
如圖1 所示,電力行業數據中臺結構主要包含五部分,具體內容如下:
(1)數據模型。搭建數據中臺能夠沉淀多種數據模型,其均具備較好的通用性,通過層次化對數據模型進行相應的管理,構成數據模型倉庫,對數據資源進行標準化存儲。
(2)數據服務。數據服務是數據中臺最根本的能力,其主要是根據調度業務實際情況,以服務導向對核心對數據進行封裝處理,上述過程難度系數較大,其他中臺幾乎無法完成。數據封裝服務對象主要為開發人員與業務分析人員。
(3)數據開發。數據模型與數據服務是數據中臺的基礎,其無法滿足前端個性化的需求,而數據開發是前端與后臺之間的關鍵橋梁,主要劃分為三層結構,分別為標簽庫構建、數據開發平臺架構與環境/組件,通過層層遞進、協作,共同為不同層次工作人員的需求提供數據深入挖掘、開發等服務。
(4)數據治理。數據治理貫穿整個數據中臺結構,主要承擔著數據資源管理的任務,其具備完整的制度、技術與管理行為等。常規情況下,多級調度管理業務數據資源必須保障實時性與準確性要求,故數據治理具有至關重要的作用。
(5)數據資產。數據資產是電力行業的關鍵資源,反映著數據價值得到了行業的重視[3]。數據中臺可以打破“數據孤島”現象,使得各個數據模型之間能夠進行數據共享,形成真正意義上的數據資產。
上述過程完成了電力行業數據中臺搭建任務,為后續數據資源處理與檢索打下堅實的基礎。
以上述搭建的電力行業數據中臺為基礎,應用其具備的數據資源預處理技術——深度學習模型,分類處理多級調度管理業務數據資源,為最終數據資源的檢索提供便利。
深度學習模型具有不斷迭代、靈活發展等特點,非常適合調度業務數據資源的分類處理[4]。若是直接對多級調度管理業務數據資源進行檢索,其體量極為龐大,數據資源類別混雜,會浪費較多的時間,并且檢索結果也不如人意。因此,此節應用深度學習模型對數據資源類別進行劃分,只需根據需求數據資源類別,在對應類別數據資源子集中檢索即可,可以大大降低檢索的時間,提升數據資源的檢索效率[5]。
基于深度學習模型的數據資源分類步驟如下:
步驟1:提取數據資源特征
隨機選取兩個數據資源,記為Xi與Yi,設定其來自于不同數據資源區域,其對應的跨區域轉換過程表達式為
式(1)中,εa,b(· ) 表示數據資源跨區域轉換函數;a表示數據資源攜帶信息的權重系數;b表示數據資源的偏置參量。
以式(1)輸出結果為基礎,對數據資源Yi特征進行提取,提取結果表示為
式(2)中,β表示數據資源特征參量;α表示數據資源之間的關聯強度;n表示數據資源總量。
步驟2:數據資源特征分析
以步驟1輸出結果——數據資源特征β為基礎,計算數據資源之間關聯的損失數值,表達式為
式(3)中,?表示數據資源的關聯損失數值,將其作為數據資源分類處理的約束條件,能夠最大限度地降低數據資源的丟失現象。
步驟3:以步驟2 計算結果δ?為依據,制定數據資源類別劃分規則,具體如下式所示:
式(4)中,δ°表示數據資源類別劃分閾值,需根據實際數據資源情況進行具體的設置。
依據上述步驟對全部數據資源進行遍歷,直至所有數據資源均以劃分至類別子集中為止,將最終結果記為R={r1,r2,…,rm},m代表數據資源類別總數量,可以為后續研究提供一定的便捷作用。
索引設計是數據資源檢索性能提升的關鍵所在。以不同類別數據資源特點為基礎,結合層次化索引思想,構建雙層索引結構,為數據資源檢索提供充分的依據。
數據資源雙層索引結構如圖2所示。

圖2 數據資源雙層索引結構示意圖
如圖2 所示,第一層數據資源索引結構主要針對數據資源屬性構建的,屬性內容均存儲在非葉子結點中。其中,Zi表示數據資源具體屬性,PType表示數據資源類型,Pointer表示指向第二層索引結構的指針。第二層數據資源索引結構主要針對數據資源數值構建的,數值信息存儲在B+樹非葉子結點中,并且葉子結點具有一定的順序。其中,ZiKj表示第i個屬性的第j個屬性值,Doc表示數據資源查詢的關鍵編號,其是唯一的,F表示標識碼,Loc表示數據資源屬性值所在位置信息。
上述過程完成了數據資源雙層索引的設計與深入分析,為后續數據資源檢索的實現做好充足的準備工作。
以上述設計的數據資源雙層索引為依據,應用DTW 算法度量數據資源索引之間的相似性,當相似性數值大于或者等于設定閾值時,確定其為數據資源檢索目標,從而實現數據資源的精準檢索,為多級調度管理業務數據資源的應用提供有效的幫助。
DTW 算法本質是一種非線性技術,有效地結合了時間規整與距離度量,能以最小代價匹配最接近的數據資源,即能夠在最短時間內尋找到需求的數據資源[6]。基于DTW 算法衡量數據資源索引相似性,表達式為
式(5)中,?(?,μXi)表示需求數據資源索引信息?與數據資源索引μXi相似性數值;τ表示標準因子。
依據公式(5)計算結果,制定數據資源檢索目標判定規則,具體如下:
(1)當?(?,μXi)大于或者等于閾值?*時,認定數據資源Xi就是檢索目標;
(2)當?(?,μXi)小于閾值?*時,認定數據資源Xi不是檢索目標。
需要注意的是,閾值?*的具體取值還需要根據實際數據資源體量、結構等信息進行設置。
綜上所述,實現了面向多級調度管理業務數據資源的檢索,為數據資源的尋找與應用提供有效的幫助。
選取深度學習驅動的跨模態數據檢索[7]與一種面向動態地球磁層的數據組織模型和高效檢索[8]作為對比方法1 與2,設計數據資源檢索對比實驗,驗證提出方法的應用效果,具體實驗過程如下。
準備階段是實驗順利進行的關鍵環節。依據實驗需求,準備階段具體內容為實驗工況設置。為了提升最終實驗結論的精確度,設置10種差異性較大的實驗工況,具體如表1所示。

表1 實驗工況設置
如表1 所示,設置的實驗工況數據資源總量與數據資源類別均不一致,每種實驗工況均具有不同的實驗環境,符合提出方法應用性能測試需求。
依據上述實驗準備階段內容,進行數據資源檢索對比實驗。選取數據資源檢索時間與檢索結果中正確數據資源占比概率作為評價指標,以此來直觀顯示提出方法的應用效果。
通過實驗獲得數據資源檢索時間如表2 所示。

表2 數據資源檢索時間
如表2 所示,相較于兩種對比方法來看,應用提出方法獲得的數據資源檢索時間更短,最小值為0.98 s。
通過實驗獲得檢索結果中正確數據資源占比概率如圖3所示。

圖3 檢索結果中正確數據資源占比概率
如圖3 所示,相較于兩種對比方法來看,應用提出方法獲得的檢索結果中正確數據資源占比概率較大,最大值為98%。
上述實驗結果顯示:與對比方法1與2相比較,應用提出方法獲得的數據資源檢索時間更短,檢索結果中正確數據資源占比概率較大,充分證實了提出方法應用效果更好。
電力行業信息化水平的不斷提升,再加之電力需求的急速增加,使得多級調度管理業務數據資源體量隨之增大,對其處理、應用性能提出了更高的挑戰與要求。現有檢索方法無法適應如此大體量的數據資源環境,故提出基于數據中臺的面向多級調度管理業務數據資源檢索方法研究。提出方法極大地縮短了數據資源檢索時間,提升了檢索結果中正確數據資源占比概率,為數據資源的檢索及其應用提供更有效的方法支撐。