999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向異構數據的風電大數據質量治理方法

2023-11-09 10:37:26馬輝張二輝劉一丁徐興朝田嶸
微型電腦應用 2023年10期
關鍵詞:實驗質量模型

馬輝, 張二輝, 劉一丁, 徐興朝, 田嶸

(1.北京金風慧能技術有限公司,北京 100176; 2.河北新天科創新能源技術有限公司,河北,張家口 075000;3.江蘇金風軟件技術有限公司,江蘇,無錫 214000)

0 引言

近年來以“大數據”“云計算”“物聯網”為代表的信息科學技術在風電行業得到廣泛的應用,提高了電力企業生產、運營工作的自動化、信息化水平,大量數據積累以及缺少有效數據管理方法將帶來一系列數據管理及應用問題,低質量的風電大數據將對決策產生誤導,嚴重時產生有害結果[1-2]。

針對風電大數據質量存在差異的問題,文獻[3]對智能電網的大數據特征進行分析,建立數據質量的評估管理體系,調度中心積累電網運行、生產管理和市場運行方面的大量數據。由于這些數據存在分散性和異構性,很難直接挖掘到數據背后隱藏的信息。文獻[4]提出標準化的數據質量管理規范,加強對數據質量的管控和評估,提高了電力企業決策分析的合理性和實用性。但由于數據質量的復雜性,形成廣泛應用的評估指標較為困難。

1 大數據環境下的風電數據質量評估系統設計

本文構建一套風電數據質量評估系統,風電數據質量評估系統由數據源、大數據處理模塊、數據結果集、數據評估和具體應用模塊組成,能夠實現風電大數據的自動化、智能化評估[5]。對風電大數據質量評估之前,先對數據集進行可信分析,根據時間和上下文的動態變化進行信任度的動態更新??尚哦鹊挠嬎阆扔嬎阒苯訑祿吹目尚哦?再計算具有鄰接關系的間接數據源的可信度。通過對異構數據信息處理,以實現多種形式數據的風電數據質量評估和計算,增強了數據兼容能力。本文的風電數據質量評估系統功能架構示意圖如圖1所示。

圖1 風電數據質量評估系統結構

本文系統應用RDS關系型數據庫服務,提供數據監控、異地容災和故障恢復的功能,RDS的內核基于MySQL和PostgreSQL,并能夠兼容Oracle,通過線程池技術提高了數據庫的并發處理能力,并增強了查詢緩存機制,面對大量數據庫連接時能夠保持較高的性能。系統根據得到數據可信度,將可信度低的數據移除,提高了數據質量。然后對系統底層各異構數據源進行整合,并提出基于貝葉斯網絡的數據質量優化方法[6]。利用樸素貝葉斯結構對劃分得到的子空間建立關聯模型,將數據質量不達標的數據字段的狀態發送給關聯模型庫,利用關聯模型庫對參數進行診斷。

本文系統基于KEYValue的一種REDIS的緩存服務,有效解決了系統數據讀寫速度較慢的問題,提高了系統的數據查詢能力。REDIS提供更加多樣的數據結構和便捷的數據持久化方法,支持字符串、鏈表、有序集合等數據存儲類型,通過SDS、LRU和TTL等數據處理方法加快了緩存系統的速度。通過對數據的分析結果,對風電數據進行計算,分析數據的有效性得到數據質量評價結果[7]。具體應用模塊對系統的功能進行管理,并將數據質量評價結果進行界面展示。通過接口編程,為其他文件類型提供統一的抽象實現,使功能模塊具有更好的可擴展性。

2 關鍵技術分析

2.1 基于可信分析的風電大數據質量評估模型

應用數據前需要對風電數據的質量進行評估,判斷給定質量不同的多維度數據中的數據是否有用,數據反映出的可靠性表示數據本身的質量?;诳尚欧治龅娘L電大數據質量評估模型的硬件結構如圖2所示。

圖2 硬件結構示意圖

硬件結構中包括了風電故障指示器、無線通信網絡、隔離組件和風電自動化主站等,通過主站層獲取硬件數據評估特征。在評估數據信息時,為提高數據質量評估模型的可靠性,通過可信分析判斷數據來源是否可靠,并利用層次分析法對評估結果進行綜合[8-9]。

在進行大數據治理時,數據質量評估模型的評估步驟如下。

步驟一:導入需要進行數據質量評估的數據。

步驟二:篩選數據。選擇對數據質量影響較大的數據進行評估。

步驟三:可信分析。從數據源間、數據源、數據本身分析數據庫中數據來源是否可信,并移除不可信數據。直接可信度可表示為

DTDn(xi,xj,C,t)=

(1)

其中,xi、xj表示可信度模型中數據,C表示數據上下文交互,t表示時間,δ表示可信度系數,ΔC=φ表示沒有上下文交互,n表示數據集合中的實體,λ(t)表示外界影響數據信息的因子。間接可信度表示與目標數據有鄰接關系,可信度為

ITDn(xi,xj,C,t)=

(2)

當t=0時,鄰接數據的可信度均勻分配,若鄰接數據與目標數據有上下文交互,間接可信度進行更新。

步驟四:設置評估規則。確實數據質量5個維度有限性、一致性、及時性、完備性和完整性的占比,通過設置好的規則對數據質量進行評估。

步驟五:得到數據質量分數。運行每個維度的每條規則得到規則得分,根據得分、權重、維度占比得出每個維度的分值,將5個維度的分值相加。

步驟六:維度綜合。采用層次分析法對數據質量評估維度進行權重分析,按照權重相加得出數據質量的綜合評估結果。

步驟七:質量優化。根據數據質量評價結果,針對影響數據質量較大的維度,觀測數據上下游找出影響較大的流程進行改進。

本文風電大數據質量評估模型的評估流程如圖3所示。

圖3 大數據質量評估模型的評估流程

在上述模型中,考慮到數據集交互的動態性,在數據質量評估模型中引入時效性因子λ對應時效性,懲罰性因子δ對應數據集交互的動態變化性。若兩個數據源進行交互,則乘以懲罰系數,懲罰系數與交互的正負有關;沒有進行交互則數據源的信任度隨時間衰減。信任度可表示為

(3)

其中,T(A,B)表示數據源A與數據源B之間的可信度,DirT(A,B,Inter(A,B))表示數據源在上下文交互情況下的信任值,Accept(A,B)表示數據源之間的相似度,λ(t)表示時間衰減函數,α1、β1表示懲罰系數,ΔI表示數據源A與數據源B之間的交互情況。如果數據源交互為正,數據的可信度增加;如果交互為負,則可信度下降。相鄰數據源對數據源A的綜合可信度可表示為

(4)

其中,T(data)表示數據data的可信度,Sum(A)表示數據源的總體數據量,sourcen表示n維向量,α2表示數據可信度影響程度的參數,β2為數據庫影響n維向量的參數。

數據data的可信度需考慮到直接數據源和間接數據源,數據的可信度可表示為

T(data)=1-∏data∈X(1-T(X,data))

(5)

其中,data∈X表示數據與數據源X有關。直接可信度就是數據源X的可信度。

2.2 面向異構數據的數據質量優化方案

面對不斷增長的風電數據,本研究提出一種優化策略提高SQL相應速度,然后通過貝葉斯網絡訓練關聯模型庫,訓練好后對風電數據質量評估系統的數據源進行分析,自動定位錯誤的數據字段。基于貝葉斯網絡的風電數據質量優化的主要流程如圖4所示。

圖4 基于貝葉斯網絡的風電數據質量優化流程

風電大數據中存在的異構數據來自不同的數據源,不同的數據源之間存在一定的關聯性,包含數據樣本的特異性信息,存在數據缺失、數據噪聲和數據分布不均衡的問題。本研究基于貝葉斯網絡對風電異構數據進行數據質量優化,解決異構數據中的缺失問題,建立數據之間的關系模型,進行數據聚類并定位異構數據中的問題字段,對問題數據進行數據質量優化,處理原始數據中存在的噪聲信息和冗余信息,優化目標為使輸出的風電數據滿足系統優化要求,輸出包含完整的細節特征和全局特征,不同的風電數據源包含同一樣本的特異性信息,且其中的數據完整不存在缺失值和冗余信息。

本文將風電數據狀態空間劃分成多個狀態子空間,使子空間中的數據字段具有較強的關聯性。對狀態空間進行子空間劃分的過程如下:

統計風電樣本數據sample={space1,space2,…,spacep}表示風電數據在不同的時間窗口下的狀態空間的集合,得到P(θi,η)、P(θi,η,θj)、P(η)。計算數據隨機變量直接的條件互信息熵,并找出最大值和最小值,可表示為

(6)

其中,H(x)為信息熵,p(x)為自信息量。采用中心聚類算法對數據字段field={θ1,θ2,…,θm}進行劃分,使子空間中的數據字段之間具有較強的關聯性,定義兩個參數之間的距離為

(7)

其中,Zmax表示條件互信息熵的最大值,Zmin表示條件互信息熵的最小值。進行聚類時隨機選擇k個數據字段作為中心點,每輪迭代過程中比較其他點和中心點的距離,與距離最小的中心點歸為一類,迭代超過一定次數或目標函數收斂時停止迭代。

劃分后的子空間為Sub_spacei={η,sub_fieldi},其中sub_fieldi表示在中心聚類算法中被分到同一類的數據字段。

對劃分好的子空間分別建立基于貝葉斯網絡的關聯模型,從而定位影響業務數據質量的問題字段。計算每個Sub_spacei中數據字段的Score(θj)值,選出Score(θj)最大的p個變量作為問題字段輸出,修改問題字段提高風電數據的數據質量。

3 應用測試

為驗證本研究風電數據質量評估系統的性能,分別使用文獻[3]系統、文獻[4]系統和本研究系統進行實驗,對比3種系統對數據的質量評估效果。實驗環境如表2所示。

表2 實驗環境

本研究實驗數據通過查詢風電歷史數據和模擬產生,實驗中模擬的數據量超過10萬條,實驗數據如表3所示。

表3 實驗數據

試驗架構示意圖如圖5所示。

圖5 風電大數據試驗架構示意圖

由于實驗數據中可能存在大量確實數據和噪聲值,為避免對實驗結果造成影響,對樣本進行實驗之前對數據進行預估并消除實驗數據中的噪聲。對缺失的實驗數據進行補全和修正,與真實值更加接近。實驗過程對實驗數據進行5個維度的評估,完成評估后采用層次分析法將維度進行綜合,得到實驗數據各維度的權重分布如圖6所示。

本文系統對實驗數據進行質量評估參考有關數據源之間的可信度模型,選出實驗數據屬性列與數據源屬性列相關程度低的數據,去除可信度低的數據。使用3種系統對實驗數據進行數據質量評價,得到數據質量的各維度評價結果如圖7所示。

圖7 數據質量評價結果

對比3種系統得到的實驗數據質量評價結果可知,本文系統得到各評價維度的評價結果更高,去除低可信度數據后,提高了數據質量各維度的評價結果,評價維度中的規范性和及時性高達100%,準確性為99%,數據整體質量高達95%以上。

為驗證系統的數據評估效率,測試系統評估模型的執行效率,設定實驗數據集大小為0~100 MB,每組實驗數據集中的數據量為0~10 000,文獻[3]系統和文獻[4]系統作為對比實驗,使用3種系統的進行數據質量評估并記錄評估時間,系統的平均運行時間如圖8所示,具體數據如表4所示。

表4 系統運行時間

圖8 運行時間

數據量在60 M以下時,進行數據質量評價系統運行時間不超過15 s,數據量增加到100 M時,系統運行時間低至20.08 s。數據量達到100 M時文獻[3]系統的運行時間達到63.45 s,文獻[4]系統的運行時間高達56.47 s,評估模型的評估效率較低。

測試本文系統處理風電大數據的效率,進行數據分類實驗,為減少原始數據噪聲對分類結果的影響,去除原始數據集中包含的噪聲信息,得到風電實驗大數據集如表5所示。

表5 風電實驗大數據集

為確保本研究算法的有效性,排除其他因素的干擾,將表5中的實驗數據集隨機劃分為5個子集,選擇其中1個子集作為測試集進行測試,其他的4個子集作為訓練集。實驗設計設定為60 min,進行5次數據分類實驗,文獻[3]系統和文獻[4]系統作為對比實驗,得到對測試集數據的分類結果如圖9所示。

圖9 數據分類結果

根據5次實驗結果可知,本研究系統對風電大數據集的平均分類準確率為97.74%,系統處理大數據任務能夠取得較好的分類效果,數據質量的優化有助于提高數據集的分類準確率,其中第4次實驗時得到的分類準確率最高為99.1%。

文獻[3]系統的分類準確率最高為93.8%,文獻[4]系統的分類準確率最高為95.7%,第2次實驗的分類準確率最低為91.8%。文獻[3]系統和文獻[4]系統在面對大量風電數據集時處理效果不穩定,數據分類精度出現一定的波動,分類準確率不超過96%,存在錯誤分類的情況。

4 總結

本文基于風電大數據特征,建立風電數據質量評估系統,結合海量風電信息數據,對評估模型進行分析和檢驗,從風電運行、市場運營和生產管理各個環節描述了影響數據質量的因素,并建立層次結構,提出基于可信度的數據質量評估模型,在原有數據質量評估維度的基礎上進行可信分析,去除不可信數據對5個維度進行評價,進行綜合得到數據質量評估結果。

本文仍存在一些不足之處還需進一步改進,在對風電大數據的研究過程中也會出現新的評估維度,評估模型也需不斷更新和完善評估維度。

猜你喜歡
實驗質量模型
一半模型
記一次有趣的實驗
“質量”知識鞏固
質量守恒定律考什么
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
做夢導致睡眠質量差嗎
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 欧美在线综合视频| 亚洲欧洲自拍拍偷午夜色| 538国产视频| 97在线免费| 国产va在线| 伊在人亚洲香蕉精品播放| 亚洲天堂日韩在线| 黄色网站在线观看无码| 亚洲国产综合第一精品小说| 青青久视频| 国产欧美成人不卡视频| 欧美一级高清片久久99| 人妻一区二区三区无码精品一区| 亚洲欧美一区二区三区麻豆| 午夜福利视频一区| 国产成+人+综合+亚洲欧美| 福利在线不卡| 亚洲国产在一区二区三区| 婷婷色婷婷| 亚洲天堂视频在线播放| 久久久久无码精品| 日韩国产亚洲一区二区在线观看| 国产超薄肉色丝袜网站| 国产特一级毛片| 国产91无毒不卡在线观看| 最新日韩AV网址在线观看| 久久77777| 无码日韩视频| 日韩无码黄色网站| 欧美激情第一区| 亚洲欧美不卡| 99久久精彩视频| 毛片大全免费观看| 精品国产三级在线观看| 国产女人喷水视频| 亚洲AV无码精品无码久久蜜桃| 国产乱人视频免费观看| 91年精品国产福利线观看久久 | 亚洲永久视频| 欧美精品H在线播放| 欧美在线视频不卡第一页| 亚洲综合一区国产精品| 国产精欧美一区二区三区| 少妇精品久久久一区二区三区| 国产免费羞羞视频| 四虎影视库国产精品一区| 97色婷婷成人综合在线观看| 久久99国产综合精品女同| 亚洲国产精品日韩专区AV| 国产乱人乱偷精品视频a人人澡| 国产精品无码作爱| 日韩欧美国产区| 亚洲六月丁香六月婷婷蜜芽| 看av免费毛片手机播放| 操操操综合网| 日本AⅤ精品一区二区三区日| 精品一区二区三区无码视频无码| 伊人久久婷婷五月综合97色| 伊人久久精品亚洲午夜| 久久毛片基地| 四虎精品国产AV二区| 少妇露出福利视频| 久久精品丝袜| 久久久久久久久亚洲精品| 成年片色大黄全免费网站久久| 成人伊人色一区二区三区| 久久久精品无码一二三区| 国产精品视频公开费视频| 无套av在线| 女人av社区男人的天堂| 国产精品护士| 大乳丰满人妻中文字幕日本| 日本人妻丰满熟妇区| 亚洲视频欧美不卡| 在线欧美日韩国产| 国产香蕉97碰碰视频VA碰碰看| 免费看一级毛片波多结衣| 伊人久久综在合线亚洲91| 亚洲首页在线观看| 成人午夜福利视频| 又粗又硬又大又爽免费视频播放| 99ri精品视频在线观看播放|