文/冉冉 劉穎 劉為 胡非
數據質量監控系統是測度質量以及整合數據的方法等一套處理準則,而數據傳輸數量龐大、運行速度快和數據類型多樣化的特點,決定了大數據質量監控所需的系統構建方式有別于傳統信息系統的質量監控系統,需要進行全方位的革新。
系統硬件應盡量選擇高性價比的設備,盡量節省開銷,在實現系統功能的前提下,能對系統的功能實現提供扎實的基礎,提高監控系統平均性能(即啟動延遲時間、峰值負荷等)及目標平均負荷(即用戶總量、處理信息量等)。
系統硬件設備的選擇如表1所示。
數據監控軟件主要面向數據管理人員,便于其實施信息監控。為了減輕數據管理人員的操作負擔,也為了方便非專業的管理層領導進行決策,指揮數據運營,軟件應當盡量操作簡便、界面友好和易于調控。對數據質量的檢測軟件,采用開放式式的管理思維,借助大數據運營的分流管理模式,對流經系統的數據質量進行關聯和參數設置,形成對數據完整、邏輯、準確和規范等檢測過程 ,通過階段性的擴展和Limit限制,形成最終的數據質量監測日志。
本軟件設計借助的是中國聯通開發的TWONET開發云平臺,平臺能夠幫助軟件開發者輕松實現設備接入與設備連接,提供多線程功能模塊,實現軟件開發的簡易化。本數據質量監控系統軟件的功能模塊設計如圖1所示。

表1:數據質量監控系統硬件組成

表2:系統測試實驗結果
完整性包括實體完整性、引用完整性和域完整性。
(1)實體完整性要求每一個數據唯一屬性必須是完整的。
(2)引用完整性要求不同相關性之間的引用關系必須完整。
(3)域完整性要求某一列的數據在合法的范圍內保持完整。
該模塊實現對內核數據不變量(除第一類靜態不變量外)的監控,通過周期性的驗證動態不變量和第二類靜態不變量的是否符與標準不變量一致,判斷當前內核數據不變量是否被破壞,從而實現對數據完整性的監控。
數據的邏輯一致性包括:
(1)上下游數據棧間對接的數據邏輯結構保持一致;
(2)上下游數據棧間對接的數據屬性內容保持一致;
(3)上下游數據棧間對接的數據屬性描述、口徑保持一致。檢測邏輯一致性的程序設計中應用的屬于Expara 參數設置。監控系統此模塊需設計一個線程,實時檢測數據中繼器的連接請求,驗證通過后,開啟數據接收線程,實時接收數據庫。根據邏輯類型處理數據并將結果存儲于系統檢測結果中,供遠程使用者實時在界面中監測。

圖1:監控軟件系統結構設計
數據準確性監控模塊主要對數據真值、數據文件表與屬性分類真值范圍的符合程度進行監控,如項目管理中描述業務結果的定量數據屬性的值、計量單位、計算指標要正確。多數據源的監控有兩種方式:針對每個數據源定制實現一部分準確性邏輯,也可以通過實用化任務將多數據源中的數據結果通過任務寫入一個數據源中,再對該數據源進行監控實時數據監控:區別在于掃描周期的不同,因此在設計的時候可以先以離線為主,但是盡量預留好算法監控的設計。算法異常數據放到一張結果表中,再在上面配置簡單的告警規則即可。對關鍵數據從原始指標直接開始計算結果,和日常的結果表做數據對比,發現不同則發出預警信號。這種方式也可以理解為是數據之間的審計對賬。
數據質量的規范檢查功能自帶的規范類型非常多,包括:身份證、手機號碼、郵箱、郵政編碼、固定電話、Ipv4地址、Ipv6地址、Mac地址、純中文、純英文、數值、日期、長度范圍等。不同環境和用戶對安全具有不同的需求,如果使用統一的監控標準雖然降低了監控機制實現的難度,但卻可能給低安全性需求用戶帶來不必要的安全開銷。我們可以修改系統自帶的類型,在資源管理器中的root/products/edq/rule//standardConfig.xml中修改自帶類型的正則表達式,重啟服務器后生效。
根據實驗室現有條件,對阿里云的I/O數據庫進行兩種不同方式的篡改。運用傳統數據質量監控系統和本文構建的系統分別對其進行質量監控。若系統反饋出現異常報告,則證明成功實現了對該數據庫監控;否則,說明數據質量監控失敗。實驗結果如表2所示。
PLCHash 表和任務鏈表都是內核中的動態數據結構,根據上述測試結果可知傳統數據質量監控系統無法發揮作用,相比之下本文構建的數據質量監控系統具有優越性與實用性。
數據質量是數據資源建設、數據應用建設和運營決策的關鍵因素,可通過完善部門間銜接和協調,加強組織架構和管理流程,嚴格按照標準或考核指標執行,確保數據質量方能將數據的商業價值最大化,進而提升我國數據管理領域的核心競爭力和保持經濟的可持續發展。隨著時代發展,數據并發量逐漸增大,各種系統交互更加頻繁,該數據監控系統的應用也會向其他管理平臺拓展。如何保證數據的實時性監控、提高監控信息交互的效率,將是下一步需要著重研究解決的問題。