王玉
摘要:本文針對采煤機運行狀態數據實時清洗技術分析,結合理論實踐,在簡要闡述狀態數據實時清洗必要性的基礎上,分析了目前數據清洗中存在的問題,并提出采煤機運行狀態數據實時清洗技術的具體應用。分析結果表明,采煤機在運行過程中,會產生大量數據,一些是有用數據,一些是無用數據,科學合理的應用數據清洗技術,可保證數據質量,提升采煤機運行性能,值得高度重視。
關鍵詞:采煤機;運行狀態數據;數據清洗技術;數據檢測
引言
在信息化工程不斷推進的背景下,數據倉庫的應用愈發普遍,對采煤機而言,數據倉庫是決策支持的基礎,也是保證采煤機時刻處于最佳運行狀態的關鍵。但數據倉庫中包含多種數據,需要存儲在不同的硬件平臺上,采用不同的操作系統,在具體運行過程中,受到多方面因素的共同影響,難免會發生數據質量問題。如相似數據重復記錄、異常數據記錄等。通過數據清洗技術,可對數據倉中數據進行規范、標準、有序的整理,及時消除數據歧義,提升數據質量。基于此,開展采煤機運行狀態數據實時清洗技術分析就顯得尤為必要。
1、采煤機運行狀態數據實時清洗的重要性
采煤機運行狀態數據通常會存儲在數據倉庫中,但采煤機在運行中經常會形成一些臟數據,對數據倉庫造成不良影響,甚至會影響數據倉庫運行的效率,降低采煤機運行狀態數據的挖掘效能,影響最終的決策管理效果。為保證采煤機數據倉庫系統中各項數據記錄的準確性、一致性,就必須先對采煤機運行狀態數據進行預處理,數據清洗就是數據預處理的核心環節,在整個數據倉庫中占據非常重要的地位。
2、目前數據清洗中存在的問題
第一,數據清洗屬于一個嶄新的研究課題,專業研究數據清洗機構比較少。目前數據清洗的研究主要體現在英文數據上。而中文數據清洗和英文數據存在較大出入,英文數據清洗的排序方式,還不能完全適應中文數據清洗。
第二,雖然目前檢測重復記錄備受關注,也出現了很多措施方法,但無論是檢測效率,還是檢測精度,都不太理想。尤其是大規模數據清洗時,耗時比較長,需要更加先進算法的支持。
第三,現有的很多數據清洗軟件、系統、工具都只能對特定的領域進行清洗,存在較大的局限性。
第四,我國現有數據清洗工具比較少,且多集中在重復記錄數據清洗上,很少有研究關于完整數據、錯誤數據的清洗問題。很少利用孤立點的檢測方法來檢測數據源中的各項異常記錄。
3、采煤機運行狀態數據實時清洗技術
3.1構建數據清洗系統框架
現有的數據清洗系統存在很多局限性,如:缺乏必需的擴展性、交互性等,急需設計出一種全新的數據清洗系統框架。
3.2數據檢測
數據檢測是采煤機運行狀態數據實時清洗的第一步,主要作用是確定目標數據存在何種問題,再通過現成的檢測算法進行檢測,用戶還可以實際情況,適當添加和調整算法,利于提升數據檢測的效率和準確性,這也反應了該數據實時清洗系統的靈活性及擴展性。常用的數據檢測算法有以下兩種:
第一種,統計學算法,如切比雪夫定理、貝葉斯推理等,都是數據檢測中常用的統計學算法,其中切比雪夫定理的應用最多,主要內容是假設X是一個隨機變數取區間(0,∞)上的數值,F(x)是其分布函數,設Xα(α>0)的數學期望M(Xα)存在,a>0,則不等式成立。通過切比雪夫定理,可計算某個字段值的平均值、標準差、取值范圍、最大值、最小值等。依次來發現數據中存在的異常字段,可隨機選擇樣本數據進行分析,雖然隨度比較快,但準確有待提升。
第二種,模式識別法。通過數據挖掘和機器學習算法來尋找異常數據,通過劃分、分類、聚類等技術相互結合的方法,可發現采煤機運行狀態的異常記錄數據。如果一個模式被定義為數據集中的一組記錄具有P%的相似字段,P是根據采煤機運行實際情況的確定值,一般都在90%以上,應用此種數據檢測算法,可生成一個記錄子集,而不是整個數據集,發現模式的幾率會大幅度提升。
3.3數據清洗策略
就采煤機運行狀態數據而言,數據質量問題主要存在兩大類,其一是模式數據質量問題,其二是數據本身的質量問題,因此,在數據清洗時也有兩種清洗策略,一種是模式層的數據清洗策略,另一種是實例層的數據清洗策略。
3.3.1 模式層的數據清洗策略
在模式層中,數據質量問題主要體現為結構設計不合理,缺乏屬性間的完整性和約束性,從沖突的角度來看,包括兩種沖突,一種是命名沖突,另一種是結構沖突。命名沖突又可分為同名異義和異名同義,其中同名異義指的是相同名稱代表著不同的對象,異名同義則指不同名稱代表了相同對象。結構沖突引發的主要原因是在不同數據源中進行的不同表示方式引起的。常見結構沖突包括:數據類型沖突、數據依賴沖突、數據關鍵字沖突等。一旦發現數據模式問題,也不代表能夠非常輕松的解決相關問題,僅憑計算機對數據模式結構進行結構修改,很難完成數據清洗。需要手工清洗來完成。在手工清洗過程中,可采用計算機轉換函數,如隊列操作的SUM函數、ADD函數、DROP函數等輔助清洗,以降低手工清洗的工作量。
3.3.2實例層數據清洗策略
在采煤機運行狀態數據實例層數據清洗中,需要結合不同的情況,選擇與之相適的數據清洗策略。
數據集中異常記錄清洗,可采取空值清洗策略,空值問題可簡單的分為兩種,一種是缺失值,另一種是空值。其中前者是字段的值實際存在,但值卻是空值。在處理時可將字段值直接替換為空。缺失值處理時,某些缺失值可從根本數據源或者其他數據源中推導出來,可以用平均值推導、中間值推導,也可以用復雜的概率統計函數值來代替缺失值在,但準確性有限,此時可人工屬于一個比較接近的值,以保證數據清洗質量。
結束語
綜上所述,本文結合理論實踐,分析了采煤機運行狀態數據實時清洗技術,分析結果表明,針對采煤機運行狀態數據存在的質量問題,需要采取有針對性的數據清洗技術,有數據檢測系統、數據清洗清洗、設計評估系統、元數據管理系統組成的數據清洗系統,可對各項數據進行全面分析,然后開展有針對性的清洗,保證數據質量,具有很強的通用性、適應性及交互性,滿足采煤機持續穩定運行的需求,值得大范圍推廣應用。
參考文獻
[1]曹勇,崔治國,武根峰,等.基于機器學習算法的空調系統運行數據噪聲識別與清洗技術研究[J].建筑節能,2018,046(005):79-83.