數據質量量化評價研究與實現

2019-09-12 10:41:42莊計龍陳敏剛

智能計算機與應用 2019年4期

莊計龍陳敏剛

摘要：近年來，隨著科學技術的飛速發展，信息化、數字化社會正在形成。伴隨而來的是數據質量問題越來越凸顯。本文在分析了當前數據質量評價標準的基礎上，確定以GB/T 25000.24為基礎構建數據質量評價模型，并對指標權重進行研究。相比使用單個權重計算方法，本文綜合Delphi法、層次分析法和基于信息熵的熵權系數法計算綜合權重，使得權重進一步客觀。針對當層次分析法的判斷矩陣經計算不滿足一致性時，重新構造判斷矩陣成本高的問題，文章引入了誘導矩陣修正法來修正判斷矩陣以盡可能避免重新構造判斷矩陣。最后本文開發了相應的數據質量評價系統，有效地提高了數據質量評價工作的質量和效率。

關鍵詞：數據質量;評價模型;層次分析法;熵權系數法

文章編號：2095-2163（2019）04-0071-05 中圖分類號：TP311.13 文獻標志碼：A

0 引言

近年來，隨著科學技術的飛速發展，信息化、數字化社會正在形成。計算機系統軟件已經滲透到生活的各個方面，這些軟件不斷地產生新的海量數據。此外，不僅僅是IT行業，越來越多的行業涉及到了數據的處理，如銀行、保險、零售業、等等，數據已經成為新時代最重要的資產之一[1]。

但這些數據可能由于人為錄入的錯誤、人為篡改、機械故障等原因，往往會存在數據屬性缺失、數據相似重復、數據屬性值異常等問題。這些錯誤可能會造成數據冗余，浪費存儲的空間，甚至可能導致數據分析挖掘時產生嚴重的偏差[2]。在對數據進行分析挖掘之前，數據質量的好壞對于人們能否準確利用數據獲得決策信息非常重要，甚至決定著數據應用的成敗[3]。雖然目前關于數據質量的研究已經蓬勃興起，但工作主要集中在數據的存儲、管理、挖掘分析等方面，數據質量問題沒有得到足夠的重視[4]。這些缺失數據或錯誤數據等原因導致了數據不能很好地利用，甚至造成很大的決策失誤。因此已有越來越多的專家、學者意識到數據質量對數據分析挖掘的重要性并投身于相應的數據質量研究中。

1 構建數據質量評價模型

1.1 GB/T數據質量模型

數據質量研究的誕生和發展主要是在國外，因此早期國內相關研究中的主要理論依據都是根據ISO/IEC發布的一系列標準。隨著國內對數據質量的關注度逐漸提高，中國對數據質量測量的標準化也有了實質性的進展。在GB/T 25000.12-2017和GB/T 25000.24-2017（2018年5月1日開始實施）這2個國家標準中，為計算機系統中以某種結構化形式保存的數據定義了一種通用的數據質量模型，從固有的以及依賴系統的角度劃分了質量特性以及對應的屬性。其中包括15個特性，63個屬性。

1.2 裁剪構建數據質量評價模型

裁剪指標的依據來源主要有：

（1）根據最新的國家相關數據質量標準;

（2）咨詢相關領域的專業人士的意見;

（3）上海軟件中心實習期間的見聞;

（4）統計相關信息系統的指標要素構成。

通過裁剪所得到的數據質量評價模型完備性、一致性、依從性、準確性、唯一性、現時性和保密性等7個一級指標構成。

2 改進數據質量評價指標權重分配方法

2.1 改進的層次分析法

處理數據質量評價過程中的權重分配需要使用層次分析法[5]。這里使用的層次分析法與傳統意義上的層次分析法有區別，因而要做相應的改變。重新定義層次分析法的層次結構為目標層、指標維度層。因此新的層次分析法使用步驟如下：

（1）構建層次結構模型。層次分析法是確定權重的基礎。首先需要通過對數據的理解和分析去設定頂層也即目標層，其次需要確定指標維度層;

（2）判斷矩陣的建立與計算。通過所有指標維度的兩兩比較，然后按照某一尺度建立。這里通過邀請專家根據Santy提出的1-9標度方法作為評價尺度來建立判斷矩陣;

其中，R.I.為隨機一致性指標（Random Consistency Index）。對于一致性比例，當 C.R.<0.1時，認為該判斷矩陣通過一致性校驗，說明該判斷矩陣的不一致性程度在容許范圍內，則由其導出的特征向量即可作為子特性的權重向量。當C.R.>0.1時，稱D不具有一致性。一般需要再次構造判斷矩陣重復上述過程。為解決重新構造判斷矩陣成本高的問題，文章引入了誘導矩陣修正法來修正判斷矩陣以盡可能避免重新構造判斷矩陣。具體說來：當閥值0.1

誘導矩陣修正法的計算步驟如下：

2.2 面向權重的熵權系數法

這里引入基于信息熵[7]的熵權系數法[8]。如果某評價指標的熵越小，說明該指標提供的信息量就越大，在綜合評價中所起的作用就越大，權重就越高。反之，若評價指標的熵越大，說明該指標提供的信息量就越小，在綜合評價中所起的作用就越小，權重就越低[9]。應用熵權系數法可以盡可能消除人為因素對計算各指標權重的影響，使評價結果更為準確。

在本文實際的數據質量評價中，使用熵權系數法進行權重值求取的步驟如下。

2.2.1 評語集和指標集的確立

原始的熵權系數法所考慮的評估問題，一般是設有n個評價對象（方案），m個評估指標，這樣的設定方法并不適合本文數據質量評價的需求。因而本文對其所表述的含義進行如下修改，并將其記為WEWCM（Weight-Oriented Entropy Weight Coefficient Method）。

2.2.2 評價矩陣的建立

2.2.3 指標權重的求解

上文通過專家打分和統計已經構建了初始評價矩陣。在上述步驟的基礎上，就可結合信息熵的知識進行指標權重的求解。其具體計算步驟如下：

3 數據質量量化評價設計與實現

3.1 功能性設計

功能性設計如圖1所示。

3.2 技術架構設計

結合最新的前后端分離技術，以及對各類技術應用研究和分析，設計系統的技術采用B/S架構[10]，如圖2所示。

在前后端分離總體架構的基礎上，邏輯上將技術架構分為4個層次，分別是視圖層、業務邏輯層、數據訪問層和數據層。前后端分離后，難以避免跨域問題。解決跨域問題核心代碼如下：

public void addCorsMappings（CorsRegistry registry） {

registry.addMapping（"/**"）

.allowedOrigins（"*"）

.allowCredentials（true）

.allowedMethods（"GET"，"POST"， "DELETE"， "PUT"）

.maxAge（3600）;

}

3.3 系統功能模塊實現

首先明確系統的開發環境和開發工具，前端基于Node框架，所使用的開發工具為WebStorm，后端基于JDK1.8，所使用的開發工具為IntelliJ IDEA。這里僅給出數據質量評價配置模塊的實現說明。

數據質量評價配置模塊是本文所開發系統的核心功能模塊，具體實現流程是：在前端系統的數據質量綜合量化指標維度編輯界面，設置好相應規則約束等字段，然后把數據以JSON的形式發送給后端進行相應指標計算，并將結果保存到數據庫和Redis緩存中，供后面計算總得分、可視化以及評價報告使用。這部分為了提高運算的速度，充分發揮CPU的性能，系統使用線程池技術。模塊時序如圖3所示。

4 實驗

文章使用真實電商領域的數據集進行數據質量評價實驗。

（1）利用AHPIM計算權重。通過一系列步驟算出權重為：

W={0.094，0.054，0.104，0.037，0.134，0.292，0.285}，

（2）利用WEWCM計算權重。通過一系列步驟算出權重為：

w={0.149，0.184，0.149，0.230，0.184，0.070，0.035}，

（3）綜合AHPIM與WEWCM計算綜合權重。

根據公式（10）求得質量維度的綜合權重為：

w^=0.136，0.097，0.151，0.083，0.239，0.198，0.096.

在確定了指標的綜合權重后，權重也作為電商領域數據的默認權重保存到系統中。接下來在所設計并實現的數據質量評價平臺上評價數據的數據質量。最后得到評價分數如圖4所示。

5 結束語

本文研究了數據質量現狀和方向，分析了目前數據質量研究存在的不足。針對存在的問題，首先利用GB/T來替代ISO標準，其次綜合多種方法計算權重，最后設計并開發了系統。詳細展示了數據質量評價流程和評價方法的使用，對評價結果進行了可視化圖表展示，對系統存在的問題也進行了進一步的優化，驗證了方案和系統的可用性及高效性。

參考文獻

[1]Jaime Campos，Pankaj Sharma，Unai Gorostegui Gabiria，Erkki Jantunen，David Baglee. A Big Data Analytical Architecture for the Asset Management[J]. Procedia CIRP，2017，64.

[2] 張元新. 網絡開源數據可用性評價系統[D]. 哈爾濱工業大學，2017.

[3] 楊忠勝. 數據質量中精確性的研究[D]. 哈爾濱工業大學，2013.

[4] 延婉梅. 動車組大數據清洗關鍵技術研究與實現[D]. 北京交通大學，2015.

[5] Suvendu Chandan Nayak，Chitaranjan Tripathy. Deadline sensitive lease scheduling in cloud computing environment using AHP[J]. Journal of King Saud University-Computer and Information Sciences，2018，30（2）.

[6] 張炳江.層次分析法及其應用案例[M].北京：電子工業出版社，2014.

[7] Michael W. Grenn，Shahram Sarkani，Thomas Mazzuchi. The requirements entropy framework in systems engineering[J]. Systems Engineering，2014，17（4）.

[8] 湯永利，徐國愛，鈕心忻，等. 基于信息熵的信息安全風險分析模型[J]. 北京郵電大學學報，2008（2）：50-53.

[9] 文軍. 基于熵權法的航空公司績效評價研究[J]. 科學技術與工程，2009，9（22）：6939-6941.

[10]李大為. 基于B/S架構的績效考核管理系統設計與實現[D]. 吉林大學，2018.