孫 瑜
(中國人民解放軍92941部隊 45分隊,遼寧 葫蘆島 125001)
在軍隊數據信息化管理過程中,受到存儲方式以及管理系統差異等多方面的影響,數據的來源以及格式通常會存在較大的差異。不同的數據庫所存儲的數據在量綱和格式上均有所不同,然而在軍隊信息化管理中,通常需要對數據進行集成化處理,在該過程中,涉及將不同來源的數據進行整合,通過特定的方式對數據進行歸一化處理,從而實現信息化數據分析。因此,為提高對多源異構數據的管理效率以及智能化分析水平,需要采取必要的手段對數據進行治理。所謂數據治理指的是通過統一的方式,對多源異構數據中的噪聲部分、冗余部分進行剔除,同時對異常數據進行檢測,并通過設定檢測閾值,實現對異常數據的過濾處理。除此之外,還需要對數據中的不準確部分進行糾正,對時間尺度進行歸一化調整,從而保證數據的完整性以及連續性。
對此,文獻[1]結合學習事件,針對遠程教育系統中產生的多源異構數據進行語義融合處理,并對數據治理技術的實踐可能性進行了探討與分析。文獻[2]結合大數據技術,針對高爐數據中的冗余以及過曝問題進行了合理分析,在此基礎上提出了具體的數據治理方案。文獻[3]結合半監督學習算法,針對多源異構數據的數據特點,對數據治理流程進行了優化。文獻[4]以區域教育網格多維數據作為研究對象,通過結合大數據平臺,構建出了系統化的數據治理體系,為區域教育數據管理提供了高保真數據。文獻[5]針對使用一種異構數據進行深度學習故障診斷不可避免地會導致診斷準確性差的問題,通過設計具有交替優化機制的融合網絡,提出了一種深度公共特征提取方法。從兩種異構數據中獨立提取的粗糙特征用于以另一種優化方式訓練所設計的融合網絡。建立了替代優化所需的新的損失函數;因此,所有網絡都可以進行全局調諧。通過融合網絡的交替優化訓練過程,可以很好地提取多源異構數據的深層共性特征,提高了深度學習故障診斷方法的準確性。文獻[6]從經濟、社會和生態3個維度建立了可持續發展的標準體系,并給出了10個次級標準。然后為了充分表達專家的猶豫和模糊性,使用語言模糊猶豫集來描述主觀評價信息,并開發了云模型來處理LFHS的隨機性和模糊性。文獻[7]提出了一個基于資源描述框架的模糊時空RDF圖模型,該模型由萬維網聯盟(W3C)提出,以三元組(主語、謂語、賓語)表示數據。其次,對多源異構模糊時空數據的相關異構問題進行分析和分類,并利用模糊時空RDF圖模型定義相應的規則來解決這些異構問題。此外,還根據RDF三元組的特點,分析了RDF三元組中多源異構模糊時空數據集成的異構問題,并給出了FRDFG的集成方法。上述方法均可以在一定程度上實現多源異構數據的有效治理,但是在治理效果上還有待優化。多源異構數據由于自身的數據結構特點,數據間的信息冗余程度較高,因此常規的治理方法無法去除掉過多的冗余部分。同時,由于多源異構數據的規模較大,導致數據治理效率較低。
為了對數據治理效果進行優化與調整,本文提出了一種基于云數據中心的多源異構數據治理技術。使用ETL功能對數據進行清洗和轉換,在數據處理過程中引入互信息系數進行非線性數據相關性分析,并構建多源異構數據治理體系。實驗結果驗證了該技術在數據清洗方面具有較高的查準率,顯示對于云數據中心多源異構數據的理想治理效果。該研究提供了一種新的思路和方法,可以為數據治理領域的進一步研究和實踐提供有益的參考。
云數據中心具備強大的大規模數據處理能力和彈性擴展性,能夠輕松應對多源異構數據的處理需求。此外,云數據中心提供了豐富的數據集成和協同處理工具,通過統一的平臺實現數據的整合和清洗,更有效地發現數據之間的相關性。另外,云數據中心還擁有高級的安全機制和數據備份策略,確保數據的安全性和完整性?;谠茢祿行倪M行多源異構數據治理還能降低運維成本,用戶無需投入昂貴的設備和人力資源,由云服務提供商負責維護和管理。因此,結合以上優勢,本文基于云數據中心,對多源異構數據的治理架構進行設計,由此構建出的數據中心架構如圖1所示。

圖1 基于云數據中心的多源異構數據治理體系架構圖
通過上述數據治理中心的架構圖可以看出,本文所構建出的數據治理體系主要包括3個部分,分別為私有云、邊緣側以及設備端[8-9]。其中,私有云部分主要以云數據中心作為載體,集成了多源異構數據的關系型數據庫,對實時數據、歷史數據以及非結構化數據進行存儲,通過云數據中心平臺,可以對多源異構數據進行調取。而邊緣側主要負責提供數據治理服務,具體包括數據采集、數據清洗、數據相關性分析以及數據分類。通過結合機理模型以及數據庫的智能診斷功能,對數據格式進行轉換,從而實現數據量綱的統一。同時,在邊緣側結構中,還需要對多源異構數據中的異常部分以及冗余部分進行智能化處理,以此優化數據治理效果。設備端的主要功能在于物聯網的動態感知,通過配備多種傳感器,對當前服務的系統對象進行感知,從而獲取實時數據,并將其傳送到私有云,實現數據循環治理[10]。
多源異構數據在實際應用中面臨數據質量不高、格式不統一和缺失異常值等問題。由于數據來源的不同和數據傳輸過程中的擾動,數據可能包含錯誤、重復、無效值和缺失值等不規范數據。為了解決這些問題,為確保多源異構數據的準確性、完整性和一致性,在多源異構數據在入庫存儲之前,需要對其中的不規范數據進行清洗處理。數據清洗能夠發現和修復數據中的錯誤和缺失。通過識別和糾正異常值、重復值和無效值等錯誤,數據清洗可以保證數據的可靠性和準確性。其次,數據清洗可以統一數據的格式和結構,在多源異構數據中消除不一致性,使得數據能夠進行有效的整合和對比分析。此外,數據清洗還可以處理缺失值和異常值,填充缺失值、插值等方法能夠幫助補全數據并保持數據的完整性。
對此,本文通過構建數據清洗流程,通過定義數據轉換模式以及匹配規則,采用中間數據庫對多源異構數據進行轉換清洗,最后存入到目標數據庫中,從而實現數據治理。一般來說,多源異構數據[11-13]的來源主要有兩個,分別為不同規模的數據源以及外部文件。其中,數據源中的數據抽取可以通過SQL語句實現,而外部文件無法直接通過指令對數據進行調取,因此需要先抽取外部文件中的數據,然后將其傳送到中間數據庫中進行統一清洗與轉換。對此,本文采用關系型數據庫中的ETL功能對數據進行清洗,ETL數據清洗功能如圖2所示。

圖2 ETL數據清洗功能
多源異構數據的清洗流程主要包括4個步驟,分別為數據源分析、數據轉換模式定義、工作流驗證與評估以及執行工作流[14]。
步驟1:數據源分析。本文首先將手動檢查以及程序自動檢查兩種方式進行結合,對多源異構數據的來源進行篩查,從而明確數據的描述信息以及分布范圍等,明確多源異構數據的當前質量水準。手動檢查是指專業的數據管理人員或領域專家對多源異構數據進行目視檢查和分析。通過手動檢查,可以獲取數據的直觀認識,并發現可能存在的問題或潛在風險。程序自動檢查是利用算法、規則或模型來自動檢測和評估多源異構數據的質量。通過程序自動檢查,可以對大量數據進行快速檢測和分析,發現數據中的異?;蝈e誤,同時還可以提供數據的描述統計信息、數據分布范圍等。綜合應用手動檢查和程序自動檢查的方法,在多源異構數據來源的篩查過程中,可以有效地明確多源異構數據的描述信息、判斷數據質量水平和數據分布范圍,從而為后續的數據分析、挖掘和決策提供可靠和準確的基礎。同時,該方法還能夠節約時間和人力成本,提高數據的管理效率和質量。
步驟2:數據轉換模式定義。對元數據的存儲格式進行規定,具體格式如表1所示。

表1 元數據的存儲格式
數據源唯一標識符在完成數據源分析后,本文對數據轉換模式以及數據清洗規則進行定義。由于不同數據源之間的語義規則有所不同,因此在對數據轉換模式定義時,可以通過構建等價實體關系表,對不同數據源之間的數據格式進行轉換與統一處理。對此,本文選擇構建數據庫層面索引表,將不同數據源的數據按照數據庫進行分類,通過索引的形式進行管理,從而實現數據模式轉換。然后對數據清洗[15-17]規則進行定義,針對元數據的數據特點,本文為了方便對多源異構數據進行高效調度,數據清洗規則進行表2的定義。

表2 多源異構數據清洗規則
步驟3:工作流驗證與評估。該步驟中,本文關注的是針對多源數據的異常值判定。異常值是指與樣本的大部分觀測值顯著不同的觀測值,可能是由于測量誤差、輸入錯誤、系統故障或其他未知因素引起的。箱型圖是一種常用的可視化工具,用于展示數據的分布情況和異常值的存在。其主要由一個矩形箱體和兩條延伸的觸須構成。因此,針對多源數據的異常值判定[18],本文結合箱型圖的方式,通過對數據的邊緣魯棒性對異常數據進行識別。通過邊緣魯棒性分析,能夠利用箱型圖的特性來識別異常數據。異常數據可能表現為遠離箱體的離群點,因為箱體表示了數據的中間50%的范圍。所以,如果數據超出了觸須長度的1.5倍范圍,那么該數據點有可能被視為異常數據。
這一過程中,假設數據上邊緣以及下邊緣分別為A和B,則異常數據的判定表達式如下所示。
A=Q3+1.5(Q3-Q1)
(1)
B=Q1-1.5(Q3-Q1)
(2)
其中,Q1代表多源異構數據的下四分位數,Q3代表多源異構數據的上四分位數。箱型圖的具體示意圖如圖3所示。

圖3 箱型圖示意圖
步驟4:執行工作流。結合上述異常數據的判定方法,對異常值進行剔除,從而完成數據清洗。具體步驟如下:
1)首先,準備待清洗的多源數據。
2)異常數據判定:結合箱型圖的方式,對數據的邊緣魯棒性進行分析,識別異常數據。箱型圖根據數據的分布情況繪制出最小值、下四分位數、中位數、上四分位數和最大值,利用這些統計量來判斷是否存在異常值。將超過上下四分位數1.5倍或3倍的差距的數據點視為異常值。
3)異常值剔除:根據異常數據的判定結果,將被標記為異常的數據進行剔除。剔除異常值的方式是刪除包含異常值的整行數據。
4)數據清洗結果驗證:經過異常數據剔除后,使用描述性統計分析方法驗證數據清洗的效果,查看異常值是否被成功剔除,并評估數據的質量和一致性。
在完成數據清洗后,盡管數據的質量得到了提升,仍然可能存在冗余的信息。冗余數據可能是指多個數據字段之間存在高度重復或高度相關的情況,這種情況下,一些數據字段可能具有相似的信息,對于分析和決策過程中產生了冗余。為了降低冗余情況并提高數據治理效率,本文采用了皮爾遜相關系數法[19]進行多源異構數據的相關性分析。皮爾遜相關系數是一種衡量兩個變量之間線性相關關系強度和方向的統計量。通過計算數據字段之間的皮爾遜相關系數,可以判斷它們之間的相關程度,并識別出那些存在較高相關性的數據字段,從而降低數據信息的冗余情況,提高數據治理效率。
假設在多源異構數據庫中,存在兩個隨機數據分別為X和Y,則這兩個數據之間的相關性為ρ(X,Y)。為保證分析效果,本文采用線性優化的方式對數據相關性進行計算,具體計算公式如下所示[20]。
(3)
其中:Var(X)和Var(Y)分別代表隨機數據X和Y對應的方差大小,Cov(X,Y)代表兩個隨機數據之間的協方差。
上述公式可以針對多源異構數據中呈現線性關系的數據進行相關性分析,例如同一屬性下的衍生數據等[21]。但是針對相關性并不明顯的隨機數據,采用上述公式無法深度挖掘出隨機數據之間的非線性關系。因此為了保證相關性分析的效果更為全面,本文引入互信息系數這一參數,對隨機數據之間的相關程度進行判定。
互信息系數是一種衡量兩個變量之間關聯程度的統計量,通過引入互信息系數進行數據相關性分析,可以更準確地識別和量化數據之間的關聯關系。引入互信息系數有助于提高數據治理的準確性和效率,同時,互信息系數的值可以根據隨機數據的聯合概率密度計算而得,具體計算公式如下所示。
(4)
其中,I(X;Y)代表互信息系數[22],p(x,y)代表隨機變量X與Y的聯合概率密度函數,p(x)和p(y)代表兩個隨機變量X與Y對應的邊緣分布密度函數。通過上述公式對互信息系數進行求解,然后結合相關度閾值,對隨機數據之間的相關程度進行判定,具體判定規則如圖4所示。

圖4 數據相關性判斷規則
根據上述數據相關性判斷規則可以看出,相關系數越接近與1,代表兩個隨機數據之間的相關性越強。在對多源異構數據相關性進行分析時,首先結合互信息系數,對數據相關性進行判斷,然后結合皮爾遜相關系數法[23-24],計算相關系數,從而實現數據相關性的有效分析。
結合上述提出的數據清洗以及數據相關性分析等內容,即可構建出數據治理機制,通過結合私有云平臺,對關系型數據庫在內的多種數據進行集成存儲,并對數據進行清洗以及相關性分析,從而實現數據治理。至此,基于云數據中心的多源異構數據治理技術設計完成。
為了證明本文提出的基于云數據中心的多源異構數據治理技術的實際治理效果優于常規的多源異構數據治理技術,在理論部分的設計完成后,構建實驗環節,對本文方法的治理效果進行檢驗。
為驗證本文提出的基于云數據中心的多源異構數據治理技術在實際治理性能方面的有效性,本次實驗選取了兩種常規的多源異構數據治理技術作為對比對象,分別為文獻[1]基于學習事件的遠程教育多源異構數據語義融合與實踐研究和文獻[2]基于半監督學習的多源異構數據治理方法。通過構建實驗平臺,采用3種治理方法對同一組多源異構數據進行治理,對比不同方法的實際治理效果。
1)硬件環境準備:
本次實驗采用Hadoop集群框架對實驗平臺進行搭建,通過部署主節點以及從屬節點,分別模擬不同數據源之間的數據傳輸操作。Hadoop框架版本為2.5.0,采用Winows系統對框架進行開發。
2)數據準備:
為保證實驗的可靠性,本次實驗的測試數據來自某系統的用戶負荷數據。測試系統參數,如表3所示。

表3 系統參數
通過對該系統的歷史運行數據進行調取,構建原始數據集。
局部異常因子是一種用于檢測和識別異常數據的統計方法,它基于數據的局部密度和離群程度來判斷數據是否異常。在云數據中心等復雜環境中,數據源可能具有不同的特征和分布,可能會涉及多個數據類型和數據來源。而且,由于數據傳輸、存儲、處理等過程中可能引入噪聲、錯誤或數據異常,這些異常數據對于數據治理和決策過程可能會產生負面影響。因此,在基于云數據中心的多源異構數據治理測試中,為準確測試出不同方法對于異常數據的識別效果,本次實驗通過引入局部異常因子,對異常數據進行仿真,樣本數據的異常因子經過打亂后會更具備真實性,其具體分布如圖5和圖6所示。

圖5 局部異常因子原始分布圖

圖6 局部異常因子排序分布圖
本次實驗共設置了6個訓練集以及6組測試集,每個實驗數據集中包含的樣本數據均有所不同,具體數據集分配如表4所示。

表4 數據集分配情況
表4中,測試集A、測試集B、測試集C、測試集D、測試集E分別對應訓練集A、訓練集B、訓練集C、訓練集D、訓練集E。同時,為了滿足多源異構數據的多源性和異構性,綜合利用手動檢查和程序自動檢查方法對表4中的數據集A、B、C、D、E數據類型進行篩選,并將其總結為表5。

表5 被分配數據集概況
為對原始數據集中的離群點進行檢測,對負荷數據的離群點進行聚類分析,分3個維度對數據進行展示,從而構建三維散點圖,具體如圖7所示。

圖7 負荷數據三維散點圖
步驟1:數據準備:按照3.2部分準備多源異構數據,并確保數據經過數據清洗和預處理,以保證數據的質量和一致性。
步驟2:互信息系數分析:使用互信息系數來判斷數據之間的相關性。互信息是一種度量兩個隨機變量之間的關聯程度的統計量。通過計算互信息系數,可以評估兩個數據變量之間的非線性關聯程度。較高的互信息系數表明兩個變量之間具有較強的相關性。
步驟3:皮爾遜相關系數分析:在確定了可能存在相關性的數據變量后,使用皮爾遜相關系數計算它們之間的相關性。皮爾遜相關系數衡量的是兩個變量之間的線性關聯程度。皮爾遜相關系數的取值范圍從-1到1,其中-1表示完全負相關,1表示完全正相關,0表示無相關性。
步驟4:分別利用本文設計方法、常規方法1與常規方法2對用戶負荷數據進行治理,同時,為提高實驗結果的對比性,本次實驗設定了兩種不同的測試條件,分別為局部異常因子為4和8的異常數據集。通過采用3種數據治理方法對同一組數據集進行處理,對比不同異常數據密度下,3種方法的實際處理效果。
本次對比實驗選取的對比指標為不同方法的數據治理性能,具體衡量指標為數據查全率,計算公式如下所示。
(5)
其中,NTP代表準確檢測出異常數據的數量,NFN代表錯誤認定為異常數據的數量,NFP代表未被檢測出異常數據的數量。具體實驗結果如圖8和圖9所示。

圖8 局部異常因子為4的查準率對比結果

圖9 局部異常因子為8的查準率對比結果
通過上述實驗結果可以看出,局部異常因子的值會在一定程度上影響方法的治理效果。通過數值上的對比可以看出,本文提出的基于云數據中心的多源異構數據治理技術的查準率明顯高于兩種常規的治理方法,具備更為理想的治理效果。
實驗選取治理準確率作為實驗的評價指標,表示為公式(6):
(6)
式中,p為治理準確率;p1為多源異構數據被檢測出異常的次數;p2為多源異構數據被檢測出正常的次數。
基于以上指標,對3.2部分設置的多源異構數據進行進一步細分,得到準確率實驗數據集為表6。

表6 準確率實驗數據集
表6所示的數據集中包含了不同用戶和設備的用戶負荷數據,時間戳表示每個測量數據的時間點,用戶ID標識不同的用戶,設備ID標識不同的設備,用戶負荷表示對應時間點的用戶負荷值(以千瓦為單位)。基于以上數據集,分別利用本文設計方法、常規方法1與常規方法2對多源異構負荷數據進行治理準確率實驗。治理結果如圖10所示。

圖10 治理準確率實驗結果
從圖10中可以看出,本文設計的方法對比其它兩種方法而言,對多源異構數據的治理準確率較高,能夠準確治理多源異構數據。
本文針對常規的多源異構數據治理方法在治理性能方面較差的問題進行了研究,提出了一種結合云數據中心的新型數據治理技術。在關系型數據庫中使用ETL功能進行數據清洗的基礎上,引入互信息系數進行數據相關性分析,并以云數據中心為基礎,構建多源異構數據治理體系,從而實現數據治理的目標。該研究的創新點在于結合了云數據中心的優勢。云數據中心具有高效的數據存儲和處理能力,可以支持大規模的數據處理任務。通過將數據治理與云數據中心相結合,可以充分利用云平臺的資源和計算能力,提高數據治理的整體性能和效果。
在今后的研究工作中,還存在一些需要進一步探索和優化的方面。首先,將對數據治理技術進行約簡處理,以減少數據處理的復雜性和冗余性。約簡處理可以針對不同類型的數據,采用適當的方法進行特征選擇和降維,從而提高數據清洗的效果,并減少計算和存儲的開銷。其次,將完善多源異構數據治理體系的構建和管理機制。多源數據的種類繁多,數據結構和格式各不相同,需要建立統一的數據模型和標準,以便更好地對數據進行整合和分析。最后,將進一步探索云數據中心與邊緣計算的結合方式,實現數據治理的分布式處理。