周玲,郝礦榮
(東華大學信息科學與技術學院,上海201620)
目前,雖然對數據質量的定義有很多,但依然缺少統一的定義[1]。表1 從多個維度對數據質量進行定義與評判[2]。
如果按照對采集數據的來源進行分類,單一來源的數據存在的質量問題稱為單數據源問題,多個來源的數據存在的質量問題稱為多數據源問題。
按照數據質量問題所在的層次來分類,如果數據質量問題出現在模式層,那么造成這種情況的主要是因為缺少完整性約束、設計模式不合理、結構沖突和命名沖突,稱為模式層數據問題[3];如果發生在實例層,主要原因是在錄入數據的過程中出現拼寫錯誤、冗余或缺失、數據沖突和不一致,稱為實例層數據問題。具體見圖1[4]。

圖1 數據質量問題的分類

表1 數據質量維度及其定義
上述對數據質量的定義或相關描述是基于信息系統或數據庫中的靜態數據,即數據已從數據源獲取并存儲到了相應的位置,并不適用于聚酯生產從數據源實時獲取數據這個過程[5]。本文根據聚酯生產的特點通過對數據質量的度量與應用進行定義,并利用ELM算法填補缺失數據,從而對聚酯纖維數據質量進行提高。
目前,聚酯生產實時數據流中關于數據質量的定義、度量及應用的相關研究很少。基于數據質量的聚酯生產過程的數據采集和傳輸技術應用于無線傳感器網絡,主要是為了在有限的網絡資源和龐大的數據量的約束條件下,能夠最大化多任務并行的無線傳感器網絡中總體數據的可靠性。圖2 是并行執行三個任務的傳感器網絡示意圖[6],S1,S2,…,S5分別表示聚酯生產工藝過程其中的5 個源數據節點,它們獲取數據并將其傳輸給聚合、熔體輸送和紡絲各個工業過程的接收器節點d1,d2,d3。sink 節點對應任務,在源數據節點中,某些感知節點可以為不止一個任務提供數據,例如節點S3提供數據給任務1,2 和3,節點S4提供數據給任務2 和任務3。節點S6,…,S10不采集數據,它們是數據傳輸節點。線當中的數字為任務代號。可以看出,同一條鏈路可以服務于不同的傳輸任務。

圖2 有三個并發任務的傳感器網絡說明圖
在聚酯纖維工業現場的無線傳感器網絡中有大量的關于現場參數的連續查詢操作,將對聚酯生產現場參數的查詢結果的準確性和時延性組合定義為關于聚酯生產數據質量的目標函數[7]。查詢到達時,首先查找符合條件的結果是否存在于高速緩存中,若有符合條件的結果,返回結果值,若沒有,請求無線傳感器網絡更新數據并提供查詢結果。
面向聚酯生產的數據流應用系統構建了聚酯生產工業數據的數據質量框架,該框架是基于聚酯生產數據的,具體見圖3。聚酯生產數據是框架的核心,其中存儲與數據質量有關的所有元數據,如衡量聚酯生產工業數據質量的維度以及相關的判定方法等[8]。在對聚酯生產數據流進行處理時,對數據質量基于聚酯生產數據進行處理。該質量框架為聚酯生產數據流應用系統提供基于內容、查詢以及應用的數據質量模塊服務。

圖3 基于聚酯生產數據的數據質量框架結構圖
(1)準確性度量
在聚酯纖維工業生產中,數據的準確性是指數據準確、不存在異常或錯誤以及可依賴的程度[9]。常見的影響數據準確性的錯誤有亂碼、過大的異常值或過小的異常值等[10]。假設:

則數據的準確性定義為:

(2)完整性度量
在聚酯纖維工業生產中,數據的完整性是指數據沒有缺失、可完整表達當前對象的程度[11]。若t 時刻數據流中共有N 個屬性值,其中有Nt個屬性值為空,利用單源多模態數據元組中缺失數據占整體的比例來衡量數據流D 的完整性,則數據的完整性定義為:

(3)一致性度量
在聚酯纖維工業生產中,數據一致性是指數據的數列間相似的程度[12]。設數據流D 中各時刻采集到的數據相似度集合為ψi={ψi1,ψi2,…,ψiL},數據與對應的比較數列間的相似度應滿足?ψj∈Ψi。設對于ψj≥σ,有:

則數據的一致性定義為:

ELM 的算法原理如下:
算法 ELM(D)
輸入: 訓練數據集D
輸出: 隱層輸出權重矩陣β
1.for(i=1 to l)do
2.assign input weight ω randomly;
3.assign hidden layer bias b randomly;
4.calculate hidden layer output matrix H;
5.calculate output weight β;
6.return β;
用極限學習機完成聚酯生產缺失數據填補的步驟如下:
(1)選取聚酯生產數據集,構建缺失數據集;
(2)將聚酯生產數據集隨機分為兩組,分別作為測試集和訓練集;
(3)分別用缺失的聚酯生產訓練集和完整的聚酯生產數據集對極限學習機進行訓練,從而求出隱含層輸出權值矩陣β;
(4)利用缺失的聚酯生產測試集及經上述訓練所得模型進行測試。
結合極限學習機的特點,用極限學習機對缺失數據進行填補的優勢如下:
(1)隱含層節點參數無需調節,可以大大縮短訓練時間;
(2)隱含層映射h(x)滿足通用的近似條件,具有良好的泛化性能,無需對特定數據進行分析;
(3)激活函數是任何無限微分的非常數函數,可以得到零誤差的估計輸出值,大大減小了數據填補的誤差,具有良好的填補效果。
為了檢驗極限學習機(ELM)是否會提高數據的質量,以聚酯纖維生產過程中紡絲過程和聚合過程的數據為樣本,進行了驗證實驗。
(1)實驗中,輸入參數是紡絲速度、溫度、吹風速度、溫度,輸出參數是EYSCV 伸長率不均勻率,對應的ELM 神經網絡如圖4 所示。樣本數為10000。實驗前對數據進行預處理,分別使輸入參數出現5%、7.5%、15%、20%的缺失,進行了四組填補實驗。圖5 為完整數據集的實驗結果,圖6(a)~(d)是對輸入數據缺失率分別為5%、7.5%、15%、20%進行填補實驗的實驗結果。表3 和圖7 是通過極限學習機(ELM)對聚酯生產紡絲數據質量的準確率、完整率、一致率的提高結果。

圖4 紡絲數據對應的ELM神經網絡圖

圖5 完整數據集

圖6 缺失數據集
表3 和圖7 為極限學習機(ELM)對聚酯生產紡絲數據處理前后的實驗對比結果,從中可以看出,缺失數據經過極限學習機(ELM)的填補處理,數據的準確率、完整率和一致率都得到了提高。據此可以得出結論,用ELM 算法處理缺失數據可有效提高數據的準確率、完整率和一致率。
(2)將聚合過程EG 灌內的壓力、溫度、密度和流量作為輸入參數,將EG 灌內的液位作為輸出參數,樣本數為10000。對應的ELM 神經網絡如圖8 所示。實驗前對數據進行預處理,分別使輸入參數出現5%、7.5%、15%、20%的缺失,進行了四組填補實驗。圖9 為完整數據集的實驗結果,圖10(a)~(d)是對輸入數據缺失率分別為5%、7.5%、15%、20%進行填補實驗的實驗結果。表4 和圖11 為極限學習機(ELM)對數據質量準確率、完整率、一致率的提高結果。

表3 實驗對比結果

圖7 實驗對比結果

圖8 聚合數據對應的ELM神經網絡圖

圖9 完整數據集
表4 和圖11 為極限學習機(ELM)對聚酯生產聚合數據處理前后的實驗對比結果,從中可以看出,缺失數據經過極限學習機(ELM)的填補處理,數據的準確率、完整率和一致率都得到了提高。據此可以得出結論,用ELM 算法處理缺失數據可有效提高數據的準確率、完整率和一致率。

圖10 缺失數據集

表4 實驗對比結果

圖11 實驗對比結果
聚酯纖維工業現場的硬件資源有限、抗干擾性差,又由于聚酯纖維的工業數據流是實時數據流,本文定義了聚酯纖維實時數據流的數據質量,主要包括數據的準確性、完整性和一致性。為了提高數據的質量,本文使用極限學習機(ELM)對缺失數據進行填補,實驗結果表明,用極限學習機(ELM)對缺失數據進行數據填補可以有效提高數據的準確性、完整性和一致性。