999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下基于主客觀賦權的數據質量評估方法研究

2020-12-15 08:37:50張文婷
科學技術創新 2020年36期
關鍵詞:評價質量模型

張文婷

(華北電力大學,北京102200)

隨著互聯網技術的普及,進入信息化時代,數據越來越成為公認的最有價值的資產,對于數據質量高低的研究也越來越成為人們孜孜不倦討論的課題。數據質量的提升對于公司決策有著重大的作用,但是,由于數據的復雜性,影響因素太多,它們處于不同的層次,同時也具有不同的重要性權重,很難客觀地評估數據質量。目前,針對數據采集信息系統中數據質量評估的方法大多是從主觀層面得出,主觀評價依賴性過強[1]。因此,針對質量評價體系的評價指標的構建、評價方法的研究等各個方面的不足,本文采用基于AHP- 信息熵的數據挖掘方法,通過挖掘隱藏在指標隸屬度中的客觀分類知識信息來定義權重[2]。按照數據質量評價指標在總評選指標中的重要性的不同,分離出決定性的指標維度,并且通過熵權法客觀分析數據中隱藏的權重信息,本文通過實驗驗證了所提出模型的有效性,實現了采集的數據質量的精準有效評估。

1 數據質量評估方法背景

1.1 方法研究的必要性

在如今的大數據環境下,數據量十分龐大,數據包含的維度也較為復雜, 如果不能及時地采集到的數據進行實時有效的評估,在后續的工作中,依舊讓臟數據參與工作,這對于領導決策、有著非常大的危害作用[2]。數據質量評估是一項很重要的事情,因為它對于發揮數據的商業價值有著非常重大的意義。目前,數據質量評價方法的實現主要有兩類,一類是通過人工評價的方式,組成評價小組直接對其進行打分,但是,這種人工的方式僅僅適用于人數較少情況,若是人數較多,統計起來也同樣費時費力、結果也有可能并不準確;另一種便是基于傳統統計學的機器學習方法的評估,主要包括灰色理論、神經網絡等,具有一定的表達能力和學習能力,但是考慮的因素過于簡單,對于評估結果的精確性有一定的影響[3]。因此,受這些想法的啟發,在傳統統計學的基礎上,本文對于這些方法做出了改進,基于層次分析法和客觀熵權法對數據質量評估模型進行了深入的研究。

1.2 主客觀賦權法

層次分析法是一種定性與定量結合的方法,它能夠將我們所要研究的問題拆分成許多組成因素,并對于這些組成因素賦予不同程度的重要性比較值,根據相關關系及隸屬關系分成不同的層次,轉化為多層次決策型問題[4]。根據各影響因素的重要程度構造重要性矩陣,通過一致性檢驗便可使用其最終的權重結果。

而熵權法中的熵值本是評估系統無序程度的一個重要指標。在多指標權重的確定過程中,熵權法的思路是通過各個指標間的差異大小來求得權重值。若計算出的信息熵值較小,表明該指標的差異程度越大,在綜合評價中起的作用也就越大,提供的信息越多,所偶得到的該指標的權重值也就越大[5]。在電力質量評價、醫療評估各方面熵權法都表現出了良好性能。

由于層次分析法(AHP)是根據專家經驗構造重要性比較矩陣,經過逐層檢驗得到的主觀權重值,受到主觀想法影響較多,因此在此基礎上,我們結合基本不受主觀因素影響僅僅通過數據來判斷的熵權法得到的客觀權重值,將二者進行結合,能使各指標的權重值配比更加合理,對于數據質量的評估也更精確,同時也減少了人工的復雜性與干預程度。

2 模型及驗證

2.1 本文提出的模型

為建立合適的數據質量評估模型,我們首先需要選定合適的指標,我們從準確性、完整性、依賴性三個角度出發,選取合適的指標。準確性(T1):數據語義是否準確(T11)、數據的表達語法是否準確(T12)、數據值是否準確(T13);完整性(T2):數據屬性是否完整(T21)、數據值域是否完整(T22)、數據量規模是否充足(T23);依賴性(T3):數據值依賴性(T31)、數據格式依賴性(T32)、數據格式依賴性(T33)。

對于不同的信息系統,指標的貢獻程度也有所差異。例如,各行各業對于數據的準確性要求是必然的,因此針對此屬性我們需要進行詳細的檢測,必要時需預先設置好可參照庫,但某些領域對于數據值之間的依賴性并沒有提出過高的要求。因此,我們的模型首先采用(1)層次分析法計算權重值,對各層中的因素進行兩兩比較,構造出判斷矩陣,我們計劃選取有經驗的專家構造重要性矩陣,使得我們的主觀權重更加精確,得到權重值Wij;(2)熵權法。

(1)本模型對數據三個維度的情況進行統計,針對各層次各指標得到打分值Xij(表示i 層次j 指標的打分結果);

表1 多層次判斷矩陣

表2 AHP 求得各指標權重結果表

(2)根據公式(1)(2)分別計算指標信息熵Ei,信息冗余度Di

(3)計算指標權重值

(4)計算組合權重值

(5)根據(2)中統計得的各層次各指標分數與組合權重值計算最終得分。

2.2 實驗結果及驗證

以某地交通信息采集系統中的電能質量數據為實驗對象,對其傳輸的數據進行評估,驗證本文所提出模型的有效性。

我們首先構造多層次的判斷矩陣如表1。

經過一致性檢驗,其CR<0.1,因此通過了一致性檢驗,我們得到各指標的AHP 權重值如表2 所示。

本文根據所設定的模型將主觀權重和客觀權重分別通過層次分析法和熵權法算出,并求得了綜合權重與初始分數相乘,得到了各項指標的最終結果。從結果可以看出,我們的得分,并不完全依靠主觀評判,也同時擺脫了過于依賴數據的客觀結果,證明了本模型的有效性。

3 結論

本文通過主客觀賦權的方法提出了數據質量評估模型,該模型適用于大多數的信息采集系統,本文以交通數據采集系統的數據為例,多層次地對采集到的數據進行了評估,以便于及時匯報其中的差錯數據與臟數據,為后續數據的應用提供強有力的保證。同時本文所提出的維度尚有不足,希望隨著時代的進步能夠提出更精確有效的應用范圍更為廣泛的數據質量評估模型。

猜你喜歡
評價質量模型
一半模型
“質量”知識鞏固
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
質量守恒定律考什么
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做夢導致睡眠質量差嗎
3D打印中的模型分割與打包
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
基于Moodle的學習評價
主站蜘蛛池模板: 国产在线欧美| 日韩最新中文字幕| 欧美激情综合一区二区| 久久精品视频亚洲| 伊人成人在线视频| 精品国产自在现线看久久| 激情亚洲天堂| 毛片网站观看| 久久久久亚洲精品无码网站| 国产成人禁片在线观看| 中文字幕 欧美日韩| 九九热视频精品在线| 久久 午夜福利 张柏芝| 人妻精品全国免费视频| 久久午夜影院| 欧美中文一区| 久久网欧美| 亚洲av无码牛牛影视在线二区| 久久99国产视频| 成人国产三级在线播放| 久久这里只有精品66| 激情综合婷婷丁香五月尤物| 无码人妻免费| 91精品伊人久久大香线蕉| 在线免费观看AV| 国产精品30p| 欧美中出一区二区| 亚洲—日韩aV在线| 无码一区二区三区视频在线播放| 91丝袜美腿高跟国产极品老师| 无码国产伊人| 一级毛片免费不卡在线| 好吊色妇女免费视频免费| 无码中文字幕精品推荐| 亚洲国产一区在线观看| 久久国产香蕉| 国产女人18毛片水真多1| 亚洲男人天堂久久| 成年人免费国产视频| 91伊人国产| 天天综合网亚洲网站| 亚洲an第二区国产精品| 中文字幕乱码中文乱码51精品| 8090成人午夜精品| 日韩黄色大片免费看| 91无码国产视频| 日韩黄色大片免费看| 凹凸精品免费精品视频| 97成人在线视频| 久久国语对白| 免费毛片全部不收费的| 免费毛片网站在线观看| 婷婷六月天激情| 亚洲国产在一区二区三区| 亚洲国产系列| 国产欧美日韩在线在线不卡视频| 在线免费观看AV| 久久国产毛片| 无码精油按摩潮喷在线播放| 亚洲国产中文精品va在线播放| 日本精品影院| 国产91九色在线播放| 久久久久人妻一区精品| 亚洲热线99精品视频| 亚洲欧洲自拍拍偷午夜色| 天天摸天天操免费播放小视频| 亚洲高清中文字幕在线看不卡| 亚洲人成网站在线播放2019| 国产精品男人的天堂| 久久这里只精品国产99热8| 中文字幕亚洲精品2页| 亚洲国产成人精品青青草原| 毛片网站观看| 亚洲福利视频网址| 亚洲精品色AV无码看| 亚欧成人无码AV在线播放| 精品無碼一區在線觀看 | 国产电话自拍伊人| 2020国产免费久久精品99| 特级毛片免费视频| 高清亚洲欧美在线看| 无码免费视频|