張杰 李昱曉
黃金葉生產制造中心 河南鄭州 450016
在卷包生產過程中,形成了以設備為中心的數據生產池,我們可以從卷包生產設備上獲取無數的數據,包括產量、消耗、故障、設備性能等,這些數據作為生產過程的研究依據,具有十分重要的研究價值,然而設備生產過程具有較多的不穩定因素和干擾的因子,設備的數據都會存在或多或少的問題,這就需要對設備的數據進行管理,管理的內容包括對設備數據的清洗、數據整合、相似記錄檢測、數據質量評估、數據處理等方面;
在行業內對卷包設備數據已進行了大量的學術研究和實際應用的探究,在這些研究中,卷包設備數據質量評價是提高數據質量的基礎和必要的前提,它能對設備產生數據質量狀況給出一個合理的評價,從而可以幫助用戶了解設備數據質量水平,從側面保證設備數據能正確反映設備的運行生產情況,幫助卷包生產企業能更好的了解設備、維護設備,保證生產活動能有序穩定的進行[1]。
在進行數據質量評價時,需要根據具體的數據質量評價需求對數據質量評價指標進行取舍,但是,數據質量評價至少應該包括以下幾個基本的數據評價指標:
完整性:數據完整性,主要研究采集數據是否完整,包括兩個方面,一個是字段完整性,另外就是記錄的完整性
準確性:是指數據記錄的信息是否存在異常或錯誤,和一致性不一樣,存在準確性問題的數據不僅僅只是規則上的不一致,最為常見的數據準確性錯誤就如亂碼。
一致性:是指數據是否遵循了統一的規范,數據記錄是否符合存在一致性規范,數據集合是否保持了統一的格式。
及時性:包括數據采集、數據整理、數據加載的及時性,數據更新的及時性,按照采集規則,每條橫向數據記錄到達時間應該是一致,每個數據記錄縱向到達時間間隔是應該是相同。
穩定性:描述數據是否穩定,是否在有效期內。
在數據質量評價過程中,隨著對數據的應用不同,對數據質量的評價模型需求也會有較大的差異,一個數據集可以對應多個質量評價模型,在一個數據質量評價模型中,一個數據集可以對應多個評價指標,一個評價指標可以對應多個規則。
將數據質量評估模型定義為一個六元組:
M=(D,I,R,W,E,S)
D:需要評價的數據集。
I:數據集D上需要進行評估的指標,如準確性、完整性、一致性等;
R:與評價指標對應的規則。
W:賦予規則R的權值,數據為大于0的整數,描述了該規則在所有規則中所占的比重。
E:對規則R給出的期望值,數據介于0到100之間的實數,是在評估之前對該規則所期望得到的結果。
S:規則R對應的最終結果,數據介于0到100之間的實數,是在檢測該規則后所得的結果。
在評價數據質量時,首先確定要評價的數據集的評價指標,其次根據要評價的指標制定評價規則,再次根據規則R的賦予權值W,給出規則R的期望E,得到該規則下的檢查結果S,最后當數據質量評價模型構造完成并計算了每條規則的結果后,并可以利用該模型計算出每個數據集的數據質量結果。
假設數據集D對應的規則集為Ri,規則Ri的權值為Wi,期望值為Ei,Ri的計算結果分別為Si,由此計算結果集D的數據質量:

數據質量絕對量化值:

SA是規則集R所得結果得分的加權平均值,它反映了數據集D的真實的數據質量狀況,SR反映了規則集R下所期望結果得分的加權平均值,如果SA大于SR說明數據質量比預期的好,若小于則數據質量比預期的差。
基本規則
數據缺失,該規則用于評價數據集D的基礎規則,包括評價數據集的字段內記錄缺失和字段缺失,記錄缺失,對待評價數據集D,數據缺失判定規則如下,則評價結果為:

式中S1是使用規則R1對數據集中的第一列記錄進行評價的結果,其中CMV 是在數據集中字段X缺失的記錄數,Cf為數據集中字段X的總數,同理,可以得出(2…n)列的評價結果(S2,S3…Sn),也能同步獲取字段記錄缺失評價結果Se,記錄缺失評價結果Sf;
由此可以獲取數據集的數據缺失評價結果:

邏輯規則
數據集的生成是按照一定的邏輯規則生成的,并且數據的產生應該符合生產現場客觀規律,所以在數據集內部數據記錄間應該滿足相應的邏輯關系,我們可以根據數據集內部的邏輯關系建立相應的判定規則,用以評價數據質量,例如在數據集中,相同時間點的總煙產量應該比好煙產量數據大,單位時間內理論產量大于實際產量,由此可以建立規則R2,獲取數據質量評價結果。對數據集中相同時間點的第ROW1行,使用邏輯判定規則,形成如下判定結果:

式中Cm為m行中不符合邏輯規則的記錄數,Cf為m行的記錄總數,Sm1為使用邏輯規則評價數據集中第m行的評價結果;由此可知,該數據集的對該邏輯評價規則的評價得分為:

在生產過程中,由于每個數據功能作用不相同,每個數據在相同的生產單位內有相應的數學特征,如數據產量、消耗、故障、時間數據,在一個生產單位時間內只能是單調增加,或者有電控掉電后,從0開始計數的情況;對某些數據是在一定值域范圍內波動,但是這些值不能超過設定的額定值,如設備的車速一般在某個范圍內波動,但車速不會超過設備設定的額定車速,同樣我們也可以通過這些特性建立相應的判定規則,用以獲取數據質量評價結果[2]。
對數據集的第n列數據,理論上該行數據為單調增加,我們可以考慮使用數據點數學特性判定規則來評價該數據集,如下所示:

式中Cn為不符合單調增加邏輯規則的記錄,Cf是改行數據集的總記錄數,Scn為第n列數據評價結果,由此可以得出該數據集的邏輯規則判定的結果為:

其他規則在評價數據質量時,我們也可以采用相應的其他方法來建立數據判定規則,如可以建立數據的相互驗證規則來,判斷數據質量,該規則是一種基于擬合的數學模型驗證方法,其思想是:給定的樣本數據Xij(i=1,2….n,j=1,2…m),我們按照樣本組成字段進行拆分,Ai1,Bij-1;





得出相對誤差后在置信水平條件下找出異常值,當相對誤差在置信區間外,該記錄被認為不符合數據一致性規則,統計規則外的記錄為Co,由此可以得到數據相互驗證評價結果:

式中,CO為數據集中,數據置信區間外的記錄數,Cf為記錄總數,Sco為Ai1的評價結果,由此可以獲取數據集關于相互驗證規則的評價結果:

隨著現代卷煙企業發展規模的不斷壯大,技術革新的不斷進行,在激烈的行業競爭環境下,要想取得輝煌的業績和高速的發展,就必須要有正確經營決策。新的決策手段需要使用大量的數據進行支撐,用數據說話;在目前的大數據背景下,需要我們不僅要注意數據的量,也要關注數據的質,沒有足夠的數據就無法支撐復雜的數據分析,數據沒有較高的數據質量,就無法保證決策的正確性,信息化與工業化的兩化融合是企業提高核心競爭力的有效途徑。