許駿龍 葛志松 陳琪 穆志君 周方



摘要:隨著信息系統的快速發展,數據的重要性越來越凸顯,身處大數據時代,數據質量在數據交互、數據應用中也成為重點關注對象,并且數據質量的含義也在悄然發生改變。該文對數據質量的概念及常見的導致數據質量不高的異常情況進行了討論,并介紹了在數據獲取及數據清洗等階段加以干預提高數據質量的方法,結合供能機構采集的電力數據實際情況探討了提高數據質量的手段。
關鍵詞:電力數據;數據質量;數據清洗
中圖分類號:TP311 ? ? ? ?文獻標識碼:A
文章編號:1009-3044(2019)13-0271-02
當今節能降耗這一主題已經變得越來越重要,工業企業是節能降耗的主體,而計量則是節能效果量化的基礎,是科學用能的基本條件。通過能源計量,企業確保能耗統計信息和相關數據資料的準確性,保證能源消耗量的可比性,進而制定合理的用能計劃。在此基礎上許多供能機構或用能單位通過對能源計量表具安裝數據采集裝置或構建遠程集抄系統實現了能耗數據在線采集,但是能耗數據的獲取僅僅是最基礎的第一步,確保數據的準確可靠、實時有效才是實現數據價值的重要前提,但實際上大部分在線采集的能耗數據都存在各種質量問題,因此,本文以供能機構獲取的電力能耗數據為例,探討如何通過科學合理的手段對大批量的數據進行處理分析,避免過多人工干預,提高工作效率。
1數據特點
傳統的數據質量指的是數據的準確性、及時性、一致性和完整性這幾個指標在信息系統中得到滿足的程度[1],這四方面數據特性也是數據質量的基本體現。
數據準確性指的是數據本身所包含的內容是否準確,是否存在異常或者錯誤的信息。準確性關注的是數據本身的邏輯歸納,要保證其準確就必須保證數據來源的真實,這也是能耗數據在線采集逐漸取代人工填報的重要原因。
及時性通過獲取數據延時的時長反應,指的是數據從產生到最終使用一般都會有的一段時間間隔,是影響數據質量的一個隱形因素。以功能機構電力數據為例,由于用戶量龐大,從巡抄指令下達到最終數據獲取一般都存在一個小時以上的延時。
數據一致性通常指關聯數據之間的邏輯關系是否正確和完整,而數據存儲的一致性模型則可以認為是存儲系統和數據使用者之間的一種約定[3]。
數據的完整性是指數據的信息是否完整,是否存在缺失。數據的缺失主要為某個字段信息的缺失,完整性是數據質量的重要體現和基本保證,信息的缺失會導致應用時的不準確,也是數據質量評估的一項重要考核指標。
但是隨著信息系統的快速發展,數據的來源越來越豐富,數據體量和覆蓋面也越來越廣,對數據質量的定義也從狹義走向了廣義,以上四個指標不再是衡量數據質量的唯一指標,在大數據的時代背景下,個人認為數據的可用程度成為評價數據質量的更關鍵因素。
2 數據異常情況
供能機構現行的方式是通過采集終端獲取包括表具信息、終端信息、運行狀態信息、能耗數據及變更信息在內的各種數據,由于各地采集終端數量龐大,需要實現采集的數據源種類繁多,采集頻次高,傳輸方式多樣,且各類數據對用戶重要程度存在差異,導致最終采集的數據質量參差不齊,導致數據質量不高的主要原因包括:
1) 現場的采集設備出現故障,造成遠程抄表系統采集的現場數據丟失或者偏離正常值;
2) 在更換設備的時候,由于規則不同導致,或者有些數據需要人工獨立維護時出現的數據同步不及時;
3) 各個供能機構內部的數據庫分類繁多,采集篩選出的源數據不一定可靠,沒有將更準確或者完善的數據推送過來;
4) 傳輸網絡故障,導致現場數據無法傳輸到主站,雖然現場設備有存儲功能,但還是會導致數據應用大范圍滯后[4]。
以2017年全年采集的上海市重點用能單位關口電力數據為例,反應電力消耗的數據為凍結數據和負荷數據兩類,采集頻次分別為1天/次及15分鐘/次,覆蓋表頭凍結累計電量,日峰、平、谷電量、最大需量、有功功率、無功功率及平均電力負荷。針對數據缺失的情況,某個采集終端全年傳輸凍結數據統計情況如下圖所示:
對于數據異常的情況。觀察某些采集終端某一時段采集到的表頭凍結值曲線,可以發現如下異常情況:
1) 表頭讀數出現反向變化,突然變為0值;
2) 表頭讀數在很長時間內無變化;
3) 表頭讀數在一定時間內出現反復變化;
可以看出常規數據采集中存在毛刺值、零值、缺省值等多種異常情況,且時常存在表頭讀數長時間無變化的情況,考慮到用能單位存在季節性停產的可能性,此種情況需要經驗判斷是否屬于異常情況。
3 數據質量控制
針對數據質量的定義,提升數據質量的方式大致相同,主要是在數據獲取及數據清洗等階段加以干預。在數據獲取階段,采取的手段主要針對硬件設備或網絡傳輸設備,增加其可靠性,減少產生的偶然結果對后續數據使用產生影響。在數據清洗階段提升數據質量的主要方式是去除不相關的指標、異常值、缺省值等。同時根據數據的實際情況,設計數據識別校驗的方法,如分段設定閾值判別法、數據橫向對比法、數據縱向對比法、置信區間估計法、多數據來源校驗、基于數據間關聯關系的校驗或針對非結構化數據的結構化模型表示與多源多尺度數據的融合[7],達到提升數據質量以便數據應用。
同樣以2017年全年采集的上海市重點用能單位關口電力數據為例,凍結電量的采集頻次為1日/次,使用相鄰兩天的凍結電量相減可以得到當天的用電量,對于供能機構而言,結算日的凍結電量由于要進行月度費用結算,采集優先級很高,相對而言非結算日的凍結電量采集的優先級就比較靠后,時常出現缺失,針對此種情況,可以設計算法用能夠計算出來的月度用電總量對日用電量數據進行修正,即可滿足日用電數據的展示及分析。
針對計算出單日用電數據為負值的情況,參考終端b的異常情況,判斷為由換表導致的單日用電數據為負值,應該直接予以剔除,用算法對此日用電數據進行補充。
針對計算出單日用電數據為零值的情況,參考終端c的異常情況,此時需要結合終端采集的負荷數據判斷企業是否存在停產等特殊情況導致的暫停用電。對于計算所得單日用電量數據明顯大于平均值的情況,也應結合采集的負荷值判斷是否為企業停產后恢復用電,設定閾值并結合相鄰日用電量進行判斷。
對于成對出現的絕對值相近但符號相反的異常日用電量數據,參考終端d的異常情況,考慮為毛刺值導致的相鄰兩天日用電量異常,應該成對剔除后用算法進行補充。
4 結論
隨著網絡技術的和大數據技術迅猛發展,信息系統的連接越來越緊密,也朝著智能化、邏輯復雜化、自動化、數據爆炸式的方向發展,數據質量的重要性越來越凸顯。同時對數據處理速度也提出了更高的要求。數據質量的定義在海量數據面前也在悄然改變,準確性、及時性、一致性和完整性等指標在數據質量中的權重都在下降,可以被越來越豐富、全面的數據來彌補其他指標的不足,從整個系統的角度來看待整個系統的數據質量,增加數據的可讀性,讓海量的數據在系統中流轉,提高整個系統的性能,也提高了數據最終應用的準確性。
參考文獻:
[1] ?Aebi Daniel, Perrochon Louis, Towards Improving Data Quality[M]. 1993:278-281.
[2] 赫佳,楊海成,閻艷, 等. 面向產品設計任務的可配置知識組建技術[J]. 計算機集成制造系統,2012, 18(4):705-712.
[3] 江疆,黃劍文,楊秋勇.基于廣東電網大數據的數據質量管理方法[J]. 現代計算機(專業版),2016(7).
[4] 楊通國.智能電網大數據技術的發展策略分析及研究[J]. 科技展望,2016(14).
[5] 黃慧,朱齊亮,智能電網數據質量控制的發展分析與展望[J]. 科技信息,2012(7):92-93.
[6] 曹建軍,刁興春,汪挺,等.數據質量控制研究中若干基本問題[J]. 微計算機信息,2010(3).
【通聯編輯:代影】