999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據質量量化評價研究與實現

2019-09-12 10:41:42莊計龍陳敏剛
智能計算機與應用 2019年4期
關鍵詞:數據質量層次分析法

莊計龍 陳敏剛

摘 要:近年來,隨著科學技術的飛速發展,信息化、數字化社會正在形成。伴隨而來的是數據質量問題越來越凸顯。本文在分析了當前數據質量評價標準的基礎上,確定以GB/T 25000.24為基礎構建數據質量評價模型,并對指標權重進行研究。相比使用單個權重計算方法,本文綜合Delphi法、層次分析法和基于信息熵的熵權系數法計算綜合權重,使得權重進一步客觀。針對當層次分析法的判斷矩陣經計算不滿足一致性時,重新構造判斷矩陣成本高的問題,文章引入了誘導矩陣修正法來修正判斷矩陣以盡可能避免重新構造判斷矩陣。最后本文開發了相應的數據質量評價系統,有效地提高了數據質量評價工作的質量和效率。

關鍵詞:數據質量;評價模型;層次分析法;熵權系數法

文章編號:2095-2163(2019)04-0071-05 中圖分類號:TP311.13 文獻標志碼:A

0 引 言

近年來,隨著科學技術的飛速發展,信息化、數字化社會正在形成。計算機系統軟件已經滲透到生活的各個方面,這些軟件不斷地產生新的海量數據。此外,不僅僅是IT行業,越來越多的行業涉及到了數據的處理,如銀行、保險、零售業、等等,數據已經成為新時代最重要的資產之一[1]。

但這些數據可能由于人為錄入的錯誤、人為篡改、機械故障等原因,往往會存在數據屬性缺失、數據相似重復、數據屬性值異常等問題。這些錯誤可能會造成數據冗余,浪費存儲的空間,甚至可能導致數據分析挖掘時產生嚴重的偏差[2]。在對數據進行分析挖掘之前,數據質量的好壞對于人們能否準確利用數據獲得決策信息非常重要,甚至決定著數據應用的成敗[3]。雖然目前關于數據質量的研究已經蓬勃興起,但工作主要集中在數據的存儲、管理、挖掘分析等方面,數據質量問題沒有得到足夠的重視[4]。這些缺失數據或錯誤數據等原因導致了數據不能很好地利用,甚至造成很大的決策失誤。因此已有越來越多的專家、學者意識到數據質量對數據分析挖掘的重要性并投身于相應的數據質量研究中。

1 構建數據質量評價模型

1.1 GB/T數據質量模型

數據質量研究的誕生和發展主要是在國外,因此早期國內相關研究中的主要理論依據都是根據ISO/IEC發布的一系列標準。隨著國內對數據質量的關注度逐漸提高,中國對數據質量測量的標準化也有了實質性的進展。在GB/T 25000.12-2017和GB/T 25000.24-2017(2018年5月1日開始實施)這2個國家標準中,為計算機系統中以某種結構化形式保存的數據定義了一種通用的數據質量模型,從固有的以及依賴系統的角度劃分了質量特性以及對應的屬性。其中包括15個特性,63個屬性。

1.2 裁剪構建數據質量評價模型

裁剪指標的依據來源主要有:

(1)根據最新的國家相關數據質量標準;

(2)咨詢相關領域的專業人士的意見;

(3)上海軟件中心實習期間的見聞;

(4)統計相關信息系統的指標要素構成。

通過裁剪所得到的數據質量評價模型完備性、一致性、依從性、準確性、唯一性、現時性和保密性等7個一級指標構成。

2 改進數據質量評價指標權重分配方法

2.1 改進的層次分析法

處理數據質量評價過程中的權重分配需要使用層次分析法[5]。這里使用的層次分析法與傳統意義上的層次分析法有區別,因而要做相應的改變。重新定義層次分析法的層次結構為目標層、指標維度層。因此新的層次分析法使用步驟如下:

(1)構建層次結構模型。層次分析法是確定權重的基礎。首先需要通過對數據的理解和分析去設定頂層也即目標層,其次需要確定指標維度層;

(2)判斷矩陣的建立與計算。通過所有指標維度的兩兩比較,然后按照某一尺度建立。這里通過邀請專家根據Santy提出的1-9標度方法作為評價尺度來建立判斷矩陣;

其中,R.I.為隨機一致性指標(Random Consistency Index)。對于一致性比例,當 C.R.<0.1時,認為該判斷矩陣通過一致性校驗,說明該判斷矩陣的不一致性程度在容許范圍內,則由其導出的特征向量即可作為子特性的權重向量。當C.R.>0.1時,稱D不具有一致性。一般需要再次構造判斷矩陣重復上述過程。為解決重新構造判斷矩陣成本高的問題,文章引入了誘導矩陣修正法來修正判斷矩陣以盡可能避免重新構造判斷矩陣。具體說來:當閥值0.1

誘導矩陣修正法的計算步驟如下:

2.2 面向權重的熵權系數法

這里引入基于信息熵[7]的熵權系數法[8]。如果某評價指標的熵越小,說明該指標提供的信息量就越大,在綜合評價中所起的作用就越大,權重就越高。反之,若評價指標的熵越大,說明該指標提供的信息量就越小,在綜合評價中所起的作用就越小,權重就越低[9]。應用熵權系數法可以盡可能消除人為因素對計算各指標權重的影響,使評價結果更為準確。

在本文實際的數據質量評價中,使用熵權系數法進行權重值求取的步驟如下。

2.2.1 評語集和指標集的確立

原始的熵權系數法所考慮的評估問題,一般是設有n個評價對象(方案),m個評估指標,這樣的設定方法并不適合本文數據質量評價的需求。因而本文對其所表述的含義進行如下修改,并將其記為WEWCM(Weight-Oriented Entropy Weight Coefficient Method)。

2.2.2 評價矩陣的建立

2.2.3 指標權重的求解

上文通過專家打分和統計已經構建了初始評價矩陣。在上述步驟的基礎上,就可結合信息熵的知識進行指標權重的求解。其具體計算步驟如下:

3 數據質量量化評價設計與實現

3.1 功能性設計

功能性設計如圖1所示。

3.2 技術架構設計

結合最新的前后端分離技術,以及對各類技術應用研究和分析,設計系統的技術采用B/S架構[10],如圖2所示。

在前后端分離總體架構的基礎上,邏輯上將技術架構分為4個層次,分別是視圖層、業務邏輯層、數據訪問層和數據層。前后端分離后,難以避免跨域問題。解決跨域問題核心代碼如下:

public void addCorsMappings(CorsRegistry registry) {

registry.addMapping("/**")

.allowedOrigins("*")

.allowCredentials(true)

.allowedMethods("GET","POST", "DELETE", "PUT")

.maxAge(3600);

}

3.3 系統功能模塊實現

首先明確系統的開發環境和開發工具,前端基于Node框架,所使用的開發工具為WebStorm,后端基于JDK1.8,所使用的開發工具為IntelliJ IDEA。這里僅給出數據質量評價配置模塊的實現說明。

數據質量評價配置模塊是本文所開發系統的核心功能模塊,具體實現流程是:在前端系統的數據質量綜合量化指標維度編輯界面,設置好相應規則約束等字段,然后把數據以JSON的形式發送給后端進行相應指標計算,并將結果保存到數據庫和Redis緩存中,供后面計算總得分、可視化以及評價報告使用。這部分為了提高運算的速度,充分發揮CPU的性能,系統使用線程池技術。模塊時序如圖3所示。

4 實 驗

文章使用真實電商領域的數據集進行數據質量評價實驗。

(1)利用AHPIM計算權重。 通過一系列步驟算出權重為:

W={0.094,0.054,0.104,0.037,0.134,0.292,0.285},

(2)利用WEWCM計算權重。通過一系列步驟算出權重為:

w={0.149,0.184,0.149,0.230,0.184,0.070,0.035},

(3)綜合AHPIM與WEWCM計算綜合權重。

根據公式(10)求得質量維度的綜合權重為:

w^=0.136,0.097,0.151,0.083,0.239,0.198,0.096.

在確定了指標的綜合權重后,權重也作為電商領域數據的默認權重保存到系統中。接下來在所設計并實現的數據質量評價平臺上評價數據的數據質量。最后得到評價分數如圖4所示。

5 結束語

本文研究了數據質量現狀和方向,分析了目前數據質量研究存在的不足。針對存在的問題,首先利用GB/T來替代ISO標準,其次綜合多種方法計算權重,最后設計并開發了系統。詳細展示了數據質量評價流程和評價方法的使用,對評價結果進行了可視化圖表展示,對系統存在的問題也進行了進一步的優化,驗證了方案和系統的可用性及高效性。

參考文獻

[1]Jaime Campos,Pankaj Sharma,Unai Gorostegui Gabiria,Erkki Jantunen,David Baglee. A Big Data Analytical Architecture for the Asset Management[J]. Procedia CIRP,2017,64.

[2] 張元新. 網絡開源數據可用性評價系統[D]. 哈爾濱工業大學,2017.

[3] 楊忠勝. 數據質量中精確性的研究[D]. 哈爾濱工業大學,2013.

[4] 延婉梅. 動車組大數據清洗關鍵技術研究與實現[D]. 北京交通大學,2015.

[5] Suvendu Chandan Nayak,Chitaranjan Tripathy. Deadline sensitive lease scheduling in cloud computing environment using AHP[J]. Journal of King Saud University-Computer and Information Sciences,2018,30(2).

[6] 張炳江.層次分析法及其應用案例[M].北京:電子工業出版社,2014.

[7] Michael W. Grenn,Shahram Sarkani,Thomas Mazzuchi. The requirements entropy framework in systems engineering[J]. Systems Engineering,2014,17(4).

[8] 湯永利,徐國愛,鈕心忻,等. 基于信息熵的信息安全風險分析模型[J]. 北京郵電大學學報,2008(2):50-53.

[9] 文軍. 基于熵權法的航空公司績效評價研究[J]. 科學技術與工程,2009,9(22):6939-6941.

[10]李大為. 基于B/S架構的績效考核管理系統設計與實現[D]. 吉林大學,2018.

猜你喜歡
數據質量層次分析法
電子商務平臺數據質量控制系統及仿真模型分析
現代情報(2016年11期)2016-12-21 23:41:05
強化統計執法提高數據質量
淺析統計數據質量
中國市場(2016年40期)2016-11-28 04:58:19
金融統計數據質量管理的國際借鑒與中國實踐
時代金融(2016年27期)2016-11-25 19:02:25
淺談統計數據質量控制
提高政府統計數據質量,增強政府公信力
微電子科學與工程專業評價指標體系研究
大學教育(2016年11期)2016-11-16 20:27:55
基于AHP—GRA的工程施工項目進度風險管理研究
價值工程(2016年29期)2016-11-14 01:02:43
關于三江源生態移民創業能力評價指標體系構建的研究
基層社會管理關鍵績效指標體系構建研究
中國市場(2016年35期)2016-10-19 02:03:21
主站蜘蛛池模板: 国产一级无码不卡视频| 欧美日韩国产在线播放| 成年网址网站在线观看| 国产亚洲精品在天天在线麻豆| 无码av免费不卡在线观看| 无码福利日韩神码福利片| 久久精品无码一区二区日韩免费| 日本三区视频| 波多野结衣视频一区二区| 精品黑人一区二区三区| 农村乱人伦一区二区| www亚洲精品| 91成人在线观看| 在线亚洲精品自拍| 天天综合网在线| 波多野结衣一区二区三区AV| 日本欧美视频在线观看| 青草视频免费在线观看| 91精品aⅴ无码中文字字幕蜜桃| a级毛片视频免费观看| 亚洲欧洲一区二区三区| 色久综合在线| a级毛片免费播放| 久久这里只有精品2| 最新亚洲av女人的天堂| 在线欧美a| 精品一区二区久久久久网站| аⅴ资源中文在线天堂| 日本不卡免费高清视频| 欧美福利在线| 在线观看国产黄色| 91小视频版在线观看www| 亚洲无码免费黄色网址| 中文字幕免费视频| 精品福利网| 动漫精品中文字幕无码| 亚洲欧美h| 国产精品成人一区二区不卡| 国产成人艳妇AA视频在线| 欧美区一区二区三| 国产成人精品午夜视频'| 国模在线视频一区二区三区| 中文字幕欧美日韩高清| 国产精品入口麻豆| 99re这里只有国产中文精品国产精品 | 国产在线精彩视频二区| 丝袜国产一区| 狂欢视频在线观看不卡| 黄色免费在线网址| 精品福利国产| 国产成人福利在线视老湿机| 伊人成人在线| 五月婷婷丁香综合| 国产成人精品一区二区三区| 91在线高清视频| 国产天天色| P尤物久久99国产综合精品| 在线看AV天堂| 久久亚洲天堂| 99精品视频在线观看免费播放| 亚洲三级影院| 九色免费视频| 成人a免费α片在线视频网站| 精品久久久久久中文字幕女| 91久久大香线蕉| 亚洲精品第一在线观看视频| 精品丝袜美腿国产一区| 久久久噜噜噜久久中文字幕色伊伊| 亚洲人成网站在线观看播放不卡| www.亚洲一区二区三区| 国产亚洲欧美在线中文bt天堂 | 亚洲国产91人成在线| 久久这里只精品热免费99| 香蕉精品在线| 亚洲国产欧美国产综合久久 | 天天色综网| 亚洲国产综合精品中文第一| 天天躁夜夜躁狠狠躁图片| 国产欧美精品一区aⅴ影院| 99re在线免费视频| 日本伊人色综合网| 无码区日韩专区免费系列|