999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

軍事數(shù)據(jù)質(zhì)量管理研究

2016-10-31 00:50:06戴超凡劉麗華曾賽紅張苒
指揮與控制學(xué)報(bào) 2016年4期
關(guān)鍵詞:質(zhì)量管理

戴超凡 劉麗華 曾賽紅 張苒

經(jīng)過(guò)多年努力,我軍信息化建設(shè)取得長(zhǎng)足發(fā)展,信息化水平得到大幅躍升,信息化建設(shè)進(jìn)入了一個(gè)加速發(fā)展的新階段.與此同時(shí),也遇到信息能力較弱等矛盾問(wèn)題,面臨新的機(jī)遇挑戰(zhàn),要求以提高信息資源開(kāi)發(fā)利用效率、奪取信息優(yōu)勢(shì)為目標(biāo),以網(wǎng)絡(luò)信息體系建設(shè)為抓手,以信息能力建設(shè)為聯(lián)合作戰(zhàn)體系能力建設(shè)的根本著力點(diǎn)[1],以數(shù)據(jù)資源建設(shè)為核心,突破制約體系作戰(zhàn)能力生成和提高的最大瓶頸.當(dāng)前,大數(shù)據(jù)戰(zhàn)略如火如荼,數(shù)據(jù)質(zhì)量問(wèn)題日益凸顯[2].

數(shù)據(jù)質(zhì)量已成為我軍數(shù)據(jù)建設(shè)質(zhì)量與效益的關(guān)鍵因素,數(shù)據(jù)質(zhì)量評(píng)估與控制是確保數(shù)據(jù)準(zhǔn)確能用的關(guān)鍵環(huán)節(jié).沒(méi)有好的數(shù)據(jù)質(zhì)量,再多的數(shù)據(jù)、再?gòu)?qiáng)的軟件、再好的硬件,也不會(huì)有好的應(yīng)用效果,更談不上“用數(shù)據(jù)說(shuō)話,依數(shù)據(jù)決策”.數(shù)據(jù)質(zhì)量的好與壞,已經(jīng)成為了體系作戰(zhàn)能力“放大器”與“衰減器”的重要因素.重視和改進(jìn)數(shù)據(jù)質(zhì)量問(wèn)題已成為包括各級(jí)數(shù)據(jù)管理人員和數(shù)據(jù)工作者的普遍共識(shí).同時(shí),我們也應(yīng)該清醒地認(rèn)識(shí)到,數(shù)據(jù)質(zhì)量問(wèn)題是一個(gè)全軍性、全國(guó)性,甚至世界性的難題,涉及到數(shù)據(jù)生命周期的各個(gè)階段,涉及業(yè)務(wù)和技術(shù)兩個(gè)層面,數(shù)據(jù)質(zhì)量改進(jìn)實(shí)踐永遠(yuǎn)在路上.這需要我們找出符合我軍網(wǎng)絡(luò)信息體系建設(shè)特點(diǎn)的數(shù)據(jù)質(zhì)量評(píng)估和控制方法,運(yùn)用軍事系統(tǒng)工程的理念和方法,推進(jìn)全面數(shù)據(jù)質(zhì)量管理.

1 數(shù)據(jù)質(zhì)量基礎(chǔ)

1.1 數(shù)據(jù)質(zhì)量概念與度量

數(shù)據(jù)質(zhì)量,是一個(gè)要素多維的概念,還具有很強(qiáng)的客觀性和主觀性.客觀上,數(shù)據(jù)質(zhì)量是指數(shù)據(jù)符合客觀實(shí)際的程度,主要由規(guī)范性、有效性、一致性、準(zhǔn)確性、完整性和時(shí)效性等進(jìn)行量化約束的指標(biāo)來(lái)度量[2?4].從業(yè)務(wù)和技術(shù)等角度,可以將數(shù)據(jù)質(zhì)量維度區(qū)分為內(nèi)在維度和上下文維度,如圖1所示.主觀上,數(shù)據(jù)質(zhì)量指數(shù)據(jù)的適用度[5],即滿足用戶需要的程度[6?7].不同的用戶和不同的應(yīng)用,對(duì)數(shù)據(jù)質(zhì)量的要求也不同.比如,針對(duì)主戰(zhàn)武器裝備數(shù)據(jù),戰(zhàn)術(shù)級(jí)裝備管理者要求數(shù)據(jù)精確到單裝的數(shù)質(zhì)量情況,而高級(jí)指揮員則更關(guān)心綜合的數(shù)量、技術(shù)狀況和能發(fā)揮的作戰(zhàn)效能等方面的數(shù)據(jù).

數(shù)據(jù)質(zhì)量度量是數(shù)據(jù)管理面臨的首要問(wèn)題,目前主要采用定性與定量相結(jié)合的方式對(duì)關(guān)心的數(shù)據(jù)質(zhì)量維度進(jìn)行分析[2?4,8?10].

圖1 數(shù)據(jù)質(zhì)量維度

1.2 數(shù)據(jù)質(zhì)量控制

數(shù)據(jù)質(zhì)量控制指提高或改進(jìn)數(shù)據(jù)質(zhì)量的策略、方法和手段.數(shù)據(jù)質(zhì)量控制如同產(chǎn)品質(zhì)量控制一樣貫穿于數(shù)據(jù)的整個(gè)生命周期,其主要方法包括:一是數(shù)據(jù)質(zhì)量的評(píng)估與監(jiān)控,二是保證和提高數(shù)據(jù)質(zhì)量的策略和技術(shù).

數(shù)據(jù)質(zhì)量控制策略多種多樣.從數(shù)據(jù)生命周期來(lái)看,數(shù)據(jù)質(zhì)量控制可分為兩類:一是預(yù)防策略,即在數(shù)據(jù)生命周期的每一個(gè)階段,都有嚴(yán)格的數(shù)據(jù)規(guī)劃和約束來(lái)防止問(wèn)題數(shù)據(jù)的產(chǎn)生.二是事后診斷和修正策略,即在數(shù)據(jù)演化或集成后,采取特定的方法檢測(cè)和修正可能的問(wèn)題數(shù)據(jù).從業(yè)務(wù)依賴性的角度來(lái)看,數(shù)據(jù)質(zhì)量控制策略可分為兩類:一是不依賴特定業(yè)務(wù)規(guī)則,從數(shù)據(jù)本身尋找特征來(lái)解決,如數(shù)據(jù)格式錯(cuò)誤、某些值缺漏等問(wèn)題;二是與特定業(yè)務(wù)規(guī)則相關(guān),即領(lǐng)域相關(guān)知識(shí)是消除數(shù)據(jù)邏輯錯(cuò)誤的必需條件.數(shù)據(jù)質(zhì)量問(wèn)題涉及多種原因,有效的數(shù)據(jù)質(zhì)量控制方法往往是綜合應(yīng)用多種策略而形成的[2?4,8?10].

1.3 數(shù)據(jù)質(zhì)量管理體系

在對(duì)數(shù)據(jù)質(zhì)量進(jìn)行客觀評(píng)估和有效控制的過(guò)程中建立數(shù)據(jù)質(zhì)量管理體系是實(shí)現(xiàn)數(shù)據(jù)質(zhì)量持續(xù)改進(jìn)的有效途徑.國(guó)外關(guān)于數(shù)據(jù)質(zhì)量管理體系的研究大都基于全面數(shù)據(jù)質(zhì)量管理(Total Data Quality Management,TDQM[11?12])的原則、方法和指南,也繼承了ISO9000系列標(biāo)準(zhǔn)的框架[13].

2002年,我國(guó)統(tǒng)計(jì)數(shù)據(jù)的采集、質(zhì)量評(píng)估、結(jié)果公布等開(kāi)始與國(guó)際標(biāo)準(zhǔn)趨同,開(kāi)啟了我國(guó)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理體系建設(shè)的新紀(jì)元[14].近年來(lái),我國(guó)公安部[15]等開(kāi)始嘗試運(yùn)用現(xiàn)代質(zhì)量管理的方法,在組織內(nèi)部建立起系統(tǒng)性的數(shù)據(jù)質(zhì)量管理體系,對(duì)影響數(shù)據(jù)質(zhì)量的關(guān)鍵流程和重要環(huán)節(jié)實(shí)施控制,以實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的不斷提升.

2 數(shù)據(jù)質(zhì)量管理發(fā)展歷程

數(shù)據(jù)質(zhì)量管理隨著信息技術(shù)與思維的發(fā)展而發(fā)展.互聯(lián)網(wǎng)的廣泛使用[16],大數(shù)據(jù)技術(shù)的迅猛發(fā)展[17],更是加速了問(wèn)題數(shù)據(jù)的產(chǎn)生與傳播.

2.1 發(fā)展階段

總體上,數(shù)據(jù)質(zhì)量管理可以分為3個(gè)階段.

2.1.1 以“應(yīng)用”為中心階段

在早期的磁盤時(shí)代,磁盤作為主要存儲(chǔ)介質(zhì),存儲(chǔ)容量小、數(shù)量有限、成本高昂.因此,數(shù)據(jù)錄入前對(duì)存儲(chǔ)策略進(jìn)行嚴(yán)格設(shè)計(jì),數(shù)據(jù)經(jīng)過(guò)嚴(yán)密篩選.在此階段,根據(jù)用戶需求,針對(duì)特定的數(shù)據(jù)集開(kāi)發(fā)特定的應(yīng)用,數(shù)據(jù)與應(yīng)用緊密捆綁,通過(guò)代碼直接對(duì)數(shù)據(jù)進(jìn)行操作.因此,本階段數(shù)據(jù)冗余少,數(shù)據(jù)更新及時(shí),審核校驗(yàn)到位,數(shù)據(jù)質(zhì)量總體水平很高.

2.1.2 以“數(shù)據(jù)”為中心階段

隨著數(shù)據(jù)庫(kù)及存儲(chǔ)技術(shù)的飛速發(fā)展,數(shù)據(jù)質(zhì)量問(wèn)題日益凸顯,數(shù)據(jù)質(zhì)量管理進(jìn)入快車軌道,TDQM逐步建立[11?12],基于規(guī)則的數(shù)據(jù)質(zhì)量治理方法大行其道[18],應(yīng)用領(lǐng)域常見(jiàn)于政府統(tǒng)計(jì)[14]、公共管理[15]和國(guó)防軍事[9,19]等行業(yè)領(lǐng)域.

從數(shù)據(jù)管理與應(yīng)用的角度來(lái)看,信息技術(shù)的發(fā)展,催生并加劇了數(shù)據(jù)質(zhì)量問(wèn)題.

1)數(shù)據(jù)獲取

數(shù)據(jù)庫(kù)的出現(xiàn),促進(jìn)了數(shù)據(jù)與應(yīng)用分離.數(shù)據(jù)的采集獲取與綜合集成已經(jīng)成為了工作重心和研究熱點(diǎn).無(wú)論采用哪種方法采集獲取數(shù)據(jù),均可能產(chǎn)生問(wèn)題數(shù)據(jù):

a)手工錄入數(shù)據(jù):采集規(guī)則不合理、人為錄入失誤,錄入手段不合理等,是造成數(shù)據(jù)質(zhì)量的主要原因.

b)數(shù)據(jù)集成:數(shù)據(jù)集成帶來(lái)的質(zhì)量問(wèn)題主要是在源數(shù)據(jù)正確的情況下,造成的數(shù)據(jù)冗余、匹配錯(cuò)誤、數(shù)據(jù)二義性等問(wèn)題[20].

c)自動(dòng)生成數(shù)據(jù):數(shù)據(jù)自動(dòng)生成條件的合理性和一致性是產(chǎn)生問(wèn)題數(shù)據(jù)的主因.

d)網(wǎng)絡(luò)爬蟲(chóng):篩選條件設(shè)置恰當(dāng)與否,直接影響著數(shù)據(jù)質(zhì)量的高低.

2)數(shù)據(jù)存儲(chǔ)及應(yīng)用

存儲(chǔ)介質(zhì)的容量從兆級(jí)躍升為G級(jí)、T級(jí)時(shí),基本上可滿足用戶的存儲(chǔ)需求.存儲(chǔ)成本的降低,放松了對(duì)獲取數(shù)據(jù)的篩選及質(zhì)量控制,導(dǎo)致大量冗余、不一致,數(shù)據(jù)質(zhì)量明顯降低[21].同時(shí),數(shù)據(jù)庫(kù)管理系統(tǒng)不提供完整的數(shù)據(jù)質(zhì)量管理服務(wù),導(dǎo)致從數(shù)據(jù)采集、集成到存儲(chǔ),可能存在不同程度的數(shù)據(jù)質(zhì)量問(wèn)題.

2.1.3 以“服務(wù)”為中心階段

當(dāng)前已步入云計(jì)算時(shí)代,數(shù)據(jù)存儲(chǔ)于“云”中,大數(shù)據(jù)應(yīng)用風(fēng)起云涌.數(shù)據(jù)建設(shè)與應(yīng)用開(kāi)始從采集管理數(shù)據(jù)轉(zhuǎn)向從數(shù)據(jù)中獲取有用信息[17],從單純的數(shù)據(jù)積累到通過(guò)數(shù)據(jù)挖掘開(kāi)發(fā)高價(jià)值的數(shù)據(jù)產(chǎn)品來(lái)支持決策[2],終端用戶開(kāi)始從原始數(shù)據(jù)采集加工轉(zhuǎn)向從“云”端通過(guò)服務(wù)獲取數(shù)據(jù)或數(shù)據(jù)產(chǎn)品[22].當(dāng)用戶使用“云”端數(shù)據(jù)時(shí),對(duì)其可靠性和可信度提出了更高要求[23].

在本階段,數(shù)據(jù)質(zhì)量問(wèn)題甚至超越了數(shù)據(jù)本身,數(shù)據(jù)質(zhì)量管理是服務(wù)提供商需要重點(diǎn)考慮的問(wèn)題之一.通過(guò)分析、改進(jìn)、提高“云”中數(shù)據(jù)質(zhì)量,挖掘數(shù)據(jù)的內(nèi)在含義及語(yǔ)義關(guān)聯(lián)信息,進(jìn)行深度的數(shù)據(jù)質(zhì)量管理,有助于支持決策.

2.2 數(shù)據(jù)質(zhì)量管理框架模型

全面數(shù)據(jù)質(zhì)量管理[11?12]旨在通過(guò)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行全面分析研究,綜合組織和用戶的需求,建立涵蓋管理制度、規(guī)范標(biāo)準(zhǔn)及技術(shù)手段的數(shù)據(jù)質(zhì)量管理框架模型,涉及從質(zhì)量問(wèn)題定義、分析、改進(jìn)策略,從評(píng)估、檢測(cè)到改進(jìn)的方法和工具.

數(shù)據(jù)質(zhì)量管理必須以分析用戶需求為前提,從管理制度、標(biāo)準(zhǔn)規(guī)范及方法技術(shù)3方面構(gòu)建數(shù)據(jù)質(zhì)量管理框架模型[24],如圖2所示.

1)數(shù)據(jù)質(zhì)量元數(shù)據(jù)

主要包括數(shù)據(jù)質(zhì)量元模型,數(shù)據(jù)產(chǎn)品,業(yè)務(wù)規(guī)則、維度及需求,度量、驗(yàn)證及行動(dòng)等規(guī)則.

2)數(shù)據(jù)質(zhì)量評(píng)估監(jiān)測(cè)

主要包括數(shù)據(jù)剖析、數(shù)據(jù)質(zhì)量度量及數(shù)據(jù)質(zhì)量驗(yàn)證.

a)數(shù)據(jù)剖析:以異常檢查為目的,基于業(yè)務(wù)規(guī)則對(duì)數(shù)據(jù)進(jìn)行剖析,找出數(shù)據(jù)值被評(píng)定為與用戶或業(yè)務(wù)期望不符的情況.

b)數(shù)據(jù)質(zhì)量度量:依據(jù)應(yīng)用需求確定數(shù)據(jù)質(zhì)量維度,與業(yè)務(wù)規(guī)則相結(jié)合確定度量指標(biāo),運(yùn)用定量與定性相結(jié)合的方法進(jìn)行質(zhì)量度量.

c)數(shù)據(jù)質(zhì)量驗(yàn)證:將度量后的數(shù)據(jù)質(zhì)量水平與用戶期望的水平或閾值相比較.閾值應(yīng)根據(jù)用戶上下文使用環(huán)境進(jìn)行設(shè)置.

3)數(shù)據(jù)質(zhì)量控制

主要包括數(shù)據(jù)質(zhì)量改進(jìn)、操作管理、數(shù)據(jù)治理等.

a)數(shù)據(jù)質(zhì)量改進(jìn):通過(guò)使用六西格瑪、持續(xù)改進(jìn)等活動(dòng)從而避免數(shù)據(jù)質(zhì)量問(wèn)題再次出現(xiàn).

b)操作管理:對(duì)因數(shù)據(jù)錄入或操作失誤造成的錯(cuò)誤數(shù)據(jù)進(jìn)行及時(shí)跟蹤和修復(fù).

圖2 數(shù)據(jù)質(zhì)量管理模型

c)數(shù)據(jù)治理:對(duì)已產(chǎn)生問(wèn)題數(shù)據(jù)進(jìn)行修改糾正.

此外,數(shù)據(jù)質(zhì)量管理框架模型還涉及許多其他主題,包括數(shù)據(jù)質(zhì)量意識(shí)、管理規(guī)范、組織結(jié)構(gòu)、職責(zé)、角色等,它們涉及數(shù)據(jù)生命周期中各個(gè)階段的質(zhì)量管理.

3 數(shù)據(jù)質(zhì)量管理現(xiàn)狀分析

數(shù)據(jù)質(zhì)量管理研究涉及到管理學(xué)、統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫(kù)等多個(gè)領(lǐng)域[25].本節(jié)從管理政策、標(biāo)準(zhǔn)規(guī)范和方法技術(shù)3個(gè)層面對(duì)國(guó)內(nèi)外數(shù)據(jù)質(zhì)量管理工作進(jìn)行梳理.

3.1 管理制度

管理制度是數(shù)據(jù)質(zhì)量管理常態(tài)化、制度化的保證.目前,我國(guó)政府統(tǒng)計(jì)、公共管理部門和重點(diǎn)企業(yè)已經(jīng)開(kāi)始制定和試行數(shù)據(jù)質(zhì)量管理相關(guān)制度,如文獻(xiàn)[15].美軍在數(shù)據(jù)質(zhì)量管理方面的研究起步較早,且已形成了較為完善的體系,對(duì)我軍數(shù)據(jù)質(zhì)量管理工作具有一定的借鑒意義.

3.2 標(biāo)準(zhǔn)規(guī)范

數(shù)據(jù)質(zhì)量管理標(biāo)準(zhǔn)規(guī)范主要用于規(guī)范數(shù)據(jù)質(zhì)量管理工作在技術(shù)層面的要求和約定,對(duì)影響數(shù)據(jù)質(zhì)量的關(guān)鍵流程和重要環(huán)節(jié)實(shí)施控制,以實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的有效控制和不斷提升.標(biāo)準(zhǔn)規(guī)范可涵蓋對(duì)數(shù)據(jù)生命周期,涉及數(shù)據(jù)質(zhì)量分析、質(zhì)量問(wèn)題發(fā)現(xiàn)、修正改進(jìn)、問(wèn)題數(shù)據(jù)溯源和影響追蹤等方方面面.

美國(guó)國(guó)防部有一套十分完善的數(shù)據(jù)管理和數(shù)據(jù)標(biāo)準(zhǔn)化規(guī)程,對(duì)數(shù)據(jù)的開(kāi)發(fā)、批準(zhǔn)、使用和維護(hù)等做出了全面和具體的規(guī)定,使數(shù)據(jù)標(biāo)準(zhǔn)化成為完備、標(biāo)準(zhǔn)的科學(xué)體系[19],頒發(fā)的《DoD發(fā)現(xiàn)元數(shù)據(jù)規(guī)范》和《與DoD數(shù)據(jù)標(biāo)準(zhǔn)的匹配和映射》等標(biāo)準(zhǔn)規(guī)范,有效確保了數(shù)據(jù)資產(chǎn)質(zhì)量,進(jìn)而支撐了美軍網(wǎng)絡(luò)中心數(shù)據(jù)策略.

相對(duì)而言,目前我國(guó)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)規(guī)范仍處于起步階段,側(cè)重于將數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)類的相關(guān)內(nèi)容作為標(biāo)準(zhǔn)規(guī)范的主要內(nèi)容,且通用性、可操作性普遍不強(qiáng)[8,15,27?29].

3.3 技術(shù)手段

現(xiàn)有的技術(shù)手段針對(duì)不同的質(zhì)量問(wèn)題,采用預(yù)先分析和事后診斷相結(jié)合的策略,綜合運(yùn)用數(shù)據(jù)治理、溯源及影響分析、不確定性數(shù)據(jù)處理等方法,支持度量、檢查和改進(jìn)數(shù)據(jù)質(zhì)量問(wèn)題.

3.3.1 數(shù)據(jù)關(guān)聯(lián)關(guān)系分析

數(shù)據(jù)關(guān)聯(lián)源于計(jì)算機(jī)中的表達(dá)與現(xiàn)實(shí)世界中物體的不一致,是數(shù)據(jù)集成問(wèn)題的核心,是數(shù)據(jù)分析挖掘的前提.錯(cuò)誤的拼寫、縮寫、不同的命名習(xí)慣、名稱變體等現(xiàn)象會(huì)導(dǎo)致大量的數(shù)據(jù)冗余、不一致等問(wèn)題,嚴(yán)重影響了集成數(shù)據(jù)的質(zhì)量,從而影響進(jìn)一步分析挖掘的效果.數(shù)據(jù)關(guān)聯(lián)關(guān)系分析的主要任務(wù)是:找出不一致、冗余和不完整等數(shù)據(jù)錯(cuò)誤,建立數(shù)據(jù)集和數(shù)據(jù)屬性間的關(guān)聯(lián)關(guān)系.研究主要集中在對(duì)象識(shí)別、冗余相關(guān)分析、重復(fù)檢測(cè)、表象消歧、記錄連接和數(shù)據(jù)值沖突的檢測(cè)與處理[30?32]等.通過(guò)相似度度量函數(shù)來(lái)描述兩個(gè)屬性或者兩組屬性之間的相似度,一直是數(shù)據(jù)關(guān)聯(lián)關(guān)系方面的研究重點(diǎn).

3.3.2 數(shù)據(jù)約束關(guān)系分析

網(wǎng)絡(luò)環(huán)境下的家校溝通更方便快捷,微信、微家園等社交軟件的開(kāi)放和自由,不僅可以加強(qiáng)教師與家長(zhǎng)間的交流,更能促進(jìn)家長(zhǎng)間的交流與信息共享。利用互聯(lián)網(wǎng)的社交平臺(tái),可提供家長(zhǎng)間的有效交流,分享各自的教育經(jīng)驗(yàn),同時(shí)能夠加強(qiáng)班級(jí)團(tuán)結(jié)。各班家長(zhǎng)微信群、年級(jí)家長(zhǎng)微信群、作業(yè)群、教育交流群,家長(zhǎng)可以通過(guò)這些軟件進(jìn)行交流,參與到學(xué)校活動(dòng)。

數(shù)據(jù)約束是對(duì)數(shù)據(jù)應(yīng)該遵守的一種語(yǔ)義限制.目前,數(shù)據(jù)約束的主要表現(xiàn)形式是數(shù)據(jù)依賴.對(duì)于一個(gè)關(guān)系來(lái)說(shuō),如果該集合中的所有數(shù)據(jù)依賴都能夠滿足,則認(rèn)為該關(guān)系的數(shù)據(jù)質(zhì)量達(dá)到要求;反之,則認(rèn)為存在數(shù)據(jù)質(zhì)量問(wèn)題.

數(shù)據(jù)約束主要分為3類:第1類是函數(shù)依賴、連接依賴、多值依賴等傳統(tǒng)的數(shù)據(jù)依賴,它在整個(gè)數(shù)據(jù)庫(kù)范圍內(nèi)成立.第2類是條件依賴,如內(nèi)置謂詞函數(shù)依賴[33]、內(nèi)置謂詞條件依賴[34]等.第3類則是應(yīng)用結(jié)合的依賴.找出這些數(shù)據(jù)約束,確保數(shù)據(jù)的完整性和一致性,是提高數(shù)據(jù)質(zhì)量的基礎(chǔ).

3.3.3 數(shù)據(jù)溯源與影響分析

在數(shù)據(jù)質(zhì)量管理中,數(shù)據(jù)溯源及影響分析是極其重要的一環(huán).通過(guò)對(duì)問(wèn)題數(shù)據(jù)的起源追蹤,對(duì)其派生過(guò)程進(jìn)行展示分析,可獲取該質(zhì)量問(wèn)題的等級(jí)及傳播途徑[35],從而及時(shí)有效地控制問(wèn)題數(shù)據(jù)的傳播和演化[36].

1)數(shù)據(jù)溯源

數(shù)據(jù)溯源技術(shù)誕生于20世紀(jì)90年代,是隨著數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)而出現(xiàn)的一個(gè)研究領(lǐng)域.在不同的應(yīng)用領(lǐng)域,數(shù)據(jù)溯源有不同的提法,如數(shù)據(jù)血統(tǒng)、數(shù)據(jù)譜系、數(shù)據(jù)志等,其核心是對(duì)數(shù)據(jù)產(chǎn)生來(lái)源的追蹤和探究,其目的主要是為用戶提供數(shù)據(jù)的起源信息,幫助用戶完成數(shù)據(jù)質(zhì)量分析、數(shù)據(jù)起源審核、錯(cuò)誤信息定位以及集成流程優(yōu)化等[37].

目前,數(shù)據(jù)溯源方法主要有注釋和逆運(yùn)算兩種[38],在實(shí)際應(yīng)用中需要二者的有機(jī)結(jié)合.在標(biāo)準(zhǔn)化方面,已形成了開(kāi)放起源模型[39](Open provenance model,OPM)、Provenir[40]、PROV[41]等多種數(shù)據(jù)溯源模型,并針對(duì)不同應(yīng)用領(lǐng)域構(gòu)建了一系列溯源系統(tǒng),如數(shù)據(jù)庫(kù)應(yīng)用中的DBNotes[42]、VDS[43]和Trio[44]等,工作流應(yīng)用中的myGrid[45]、Kepler[46]和Vistrail[47]等.

2)數(shù)據(jù)影響分析

問(wèn)題數(shù)據(jù)的影響分析主要包括問(wèn)題數(shù)據(jù)定位、后續(xù)數(shù)據(jù)模式影響、后續(xù)數(shù)據(jù)實(shí)例影響和業(yè)務(wù)影響[48]等方面.

分析數(shù)據(jù)影響時(shí),需針對(duì)問(wèn)題數(shù)據(jù)進(jìn)行逐條分析,避免將正常數(shù)據(jù)剔除,同時(shí)推薦提供問(wèn)題數(shù)據(jù)修正和恢復(fù)機(jī)制.

3.3.4 不確定性數(shù)據(jù)管理

由于不確定數(shù)據(jù)具有龐大的實(shí)例集合、概率維、多樣的數(shù)據(jù)形態(tài)等顯著特點(diǎn),使得數(shù)據(jù)質(zhì)量問(wèn)題廣泛存在而且難以有效解決.目前主要集中在不確定性數(shù)據(jù)的預(yù)處理、集成、存儲(chǔ)、檢索及查詢分析處理等方面開(kāi)展研究[49?52].

在軍事等領(lǐng)域,數(shù)據(jù)的不確定性普遍存在,其存在性未知而且各屬性值存在誤差,如測(cè)繪導(dǎo)航數(shù)據(jù)、軍事物聯(lián)網(wǎng)采集獲取、多源情報(bào)數(shù)據(jù)等.盡管數(shù)據(jù)預(yù)處理能夠提升原始數(shù)據(jù)集合的質(zhì)量,但也可能會(huì)喪失原始數(shù)據(jù)集合的部分性質(zhì),導(dǎo)致無(wú)法返回高質(zhì)量的查詢結(jié)果.

4 軍事大數(shù)據(jù)質(zhì)量問(wèn)題分析

我軍數(shù)據(jù)建設(shè),經(jīng)過(guò)“九五”以來(lái)的持續(xù)建設(shè),特別是在一系列全軍性大型工程建設(shè)的牽引下,取得了重要階段性成果,各領(lǐng)域已形成了一批有代表性、可用、實(shí)用的數(shù)據(jù)資源,并且這些成果在業(yè)務(wù)工作以及演習(xí)演練和搶險(xiǎn)救災(zāi)等重大活動(dòng)中得到了應(yīng)用,發(fā)揮了巨大的軍事效益.在大數(shù)據(jù)背景下,數(shù)據(jù)質(zhì)量問(wèn)題尤為突出.近年來(lái),我軍數(shù)據(jù)建設(shè)開(kāi)始關(guān)注數(shù)據(jù)質(zhì)量問(wèn)題,一些領(lǐng)域和系統(tǒng)已經(jīng)采用基于規(guī)則的審核校驗(yàn)方法來(lái)評(píng)估和控制數(shù)據(jù)質(zhì)量[9],但是重心仍局限于數(shù)據(jù)的采集與共享,局限于結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量評(píng)估與控制,對(duì)數(shù)據(jù)質(zhì)量的重視程度和資源投入還遠(yuǎn)遠(yuǎn)不夠,缺少專業(yè)權(quán)威的部門及手段對(duì)數(shù)據(jù)質(zhì)量進(jìn)行有效評(píng)估和控制,數(shù)據(jù)的規(guī)范性、一致性、準(zhǔn)確性、完整性和時(shí)效性等關(guān)鍵質(zhì)量要素還難以得到有效保證,這也將直接影響數(shù)據(jù)建設(shè)成果的價(jià)值和使用.

4.1 記錄型數(shù)據(jù)常見(jiàn)質(zhì)量問(wèn)題

記錄型軍事數(shù)據(jù)的常見(jiàn)質(zhì)量問(wèn)題如下:

1)數(shù)據(jù)有效性問(wèn)題,主要是指數(shù)據(jù)值不符合客觀邏輯或軍事需求,如經(jīng)度大于180?等.

2)數(shù)據(jù)準(zhǔn)確性問(wèn)題,主要是指數(shù)據(jù)不夠真實(shí)客觀.一是數(shù)據(jù)不正確,如出生年月符合有效性要求,但是填報(bào)的數(shù)據(jù)不符合實(shí)際情況.二是數(shù)據(jù)不精確,如經(jīng)緯度的小數(shù)保留位數(shù)不足等.

3)數(shù)據(jù)一致性問(wèn)題,主要是指存在于多個(gè)數(shù)據(jù)庫(kù)表中同一屬性的取值及含義不一致.一是數(shù)據(jù)量綱不一致.比如射程,有的采用公里,有的采用米.二是數(shù)據(jù)取值不規(guī)范,此類問(wèn)題在名稱和地址類數(shù)據(jù)中非常普遍,還與各業(yè)務(wù)領(lǐng)域數(shù)據(jù)應(yīng)用字典的規(guī)范程度及遵循情況直接相關(guān).

4)數(shù)據(jù)完整性問(wèn)題,主要是指數(shù)據(jù)不能完整地與軍事需求相對(duì)應(yīng),不能反映研究對(duì)象的全貌.如部隊(duì)情況,沒(méi)有提供部隊(duì)基本情況、任務(wù)、部署和實(shí)力等全面數(shù)據(jù).

5)數(shù)據(jù)時(shí)效性問(wèn)題,主要是指數(shù)據(jù)不是當(dāng)前采集的,或者采集的不是當(dāng)前的狀態(tài).

4.2 文本型數(shù)據(jù)質(zhì)量問(wèn)題分析

在大數(shù)據(jù)背景下,數(shù)據(jù)資源開(kāi)始由結(jié)構(gòu)化數(shù)據(jù)為主向半結(jié)構(gòu)化甚至非結(jié)構(gòu)化數(shù)據(jù)并重轉(zhuǎn)變,從數(shù)據(jù)庫(kù)向文檔資料和網(wǎng)頁(yè)信息擴(kuò)展,這導(dǎo)致數(shù)據(jù)質(zhì)量問(wèn)題開(kāi)始由記錄型數(shù)據(jù)質(zhì)量問(wèn)題向文本型數(shù)據(jù)質(zhì)量問(wèn)題延伸.

文本數(shù)據(jù)被認(rèn)為是用自然語(yǔ)言“編碼”的信息.其來(lái)源可能是不明確的,語(yǔ)義性與用戶密切相關(guān),上下文關(guān)聯(lián)性靈活多變,導(dǎo)致可能存在更多的質(zhì)量問(wèn)題.常規(guī)的數(shù)據(jù)質(zhì)量管理方法,尤其是大多數(shù)數(shù)據(jù)治理方法,往往不適用于處理文本數(shù)據(jù)質(zhì)量問(wèn)題.即使檢測(cè)到文本數(shù)據(jù)質(zhì)量問(wèn)題,在不使用任何智能化處理手段之前,這些數(shù)據(jù)質(zhì)量問(wèn)題很難修正.根據(jù)用戶對(duì)數(shù)據(jù)質(zhì)量的特定要求,分離出重要的特定段落或子集,然后使用傳統(tǒng)技術(shù)進(jìn)行有限的處理,是一個(gè)比較務(wù)實(shí)的思路.若要處理大規(guī)模的文本數(shù)據(jù)質(zhì)量問(wèn)題,則需運(yùn)用新的數(shù)據(jù)質(zhì)量管理策略和手段提供支撐,如通過(guò)使用基于證據(jù)的概率模型組合多個(gè)(噪聲)信息源.處理文本數(shù)據(jù)質(zhì)量問(wèn)題的成本是一個(gè)不可忽視的因素.如果成本大于從文本提取的信息價(jià)值,則數(shù)據(jù)質(zhì)量問(wèn)題的處理將變得毫無(wú)意義.

5 軍事大數(shù)據(jù)質(zhì)量管理思考

目前,我軍數(shù)據(jù)質(zhì)量管理理念逐步樹(shù)立,數(shù)據(jù)質(zhì)量評(píng)估體系開(kāi)始具體化,數(shù)據(jù)質(zhì)量控制手段措施進(jìn)入實(shí)際操作層面,數(shù)據(jù)質(zhì)量管理機(jī)制已現(xiàn)雛形.但是,總體上來(lái)看,還處于數(shù)據(jù)質(zhì)量管理與控制的初始階段,離全面數(shù)據(jù)質(zhì)量管理的目標(biāo)還有很大差距.同時(shí),由于不同國(guó)家、不同領(lǐng)域的組織結(jié)構(gòu)和制度環(huán)境等存在明顯差異,當(dāng)前主流數(shù)據(jù)質(zhì)量管理框架與我軍實(shí)際數(shù)據(jù)環(huán)境不相適應(yīng),還難以形成從研究到應(yīng)用再到研究的良性可持續(xù)發(fā)展的閉環(huán),因而很難有效解決我軍數(shù)據(jù)質(zhì)量管理面臨的矛盾問(wèn)題.軍事數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的原因涉及到數(shù)據(jù)建設(shè)、管理與應(yīng)用的全生命周期,有的是數(shù)據(jù)庫(kù)設(shè)計(jì)問(wèn)題,有的是采集規(guī)范問(wèn)題,有的是采集工具問(wèn)題,有的是采集流程與制度問(wèn)題,還有的是數(shù)據(jù)應(yīng)用問(wèn)題.針對(duì)軍事數(shù)據(jù)質(zhì)量管理的需求和我軍數(shù)據(jù)建設(shè)的實(shí)際,建議開(kāi)展以下幾個(gè)方面的工作和研究.

1)軍事數(shù)據(jù)質(zhì)量管理是一個(gè)復(fù)雜的系統(tǒng)工程,需要牢牢樹(shù)立全面數(shù)據(jù)質(zhì)量管理的理念,將數(shù)據(jù)質(zhì)量管理作為軍事數(shù)據(jù)建設(shè)的基本內(nèi)容,以全面數(shù)據(jù)質(zhì)量管理的流程、方法和手段來(lái)推進(jìn)數(shù)據(jù)質(zhì)量建設(shè).

2)進(jìn)一步建立健全數(shù)據(jù)建設(shè)、使用、管理和保障等規(guī)章制度,對(duì)數(shù)據(jù)全生命周期內(nèi)的質(zhì)量要求制度化、系列化、常態(tài)化,規(guī)范如何采集到真實(shí)、有效、一致、規(guī)范的數(shù)據(jù),如何管好用好數(shù)據(jù),確保各項(xiàng)數(shù)據(jù)工作正規(guī)有序,提升數(shù)據(jù)質(zhì)量水平和使用效益.

3)充分借鑒國(guó)內(nèi)外、軍內(nèi)外數(shù)據(jù)質(zhì)量管理的先進(jìn)方法和技術(shù),針對(duì)軍事大數(shù)據(jù)特點(diǎn),深入研究面向軍事大數(shù)據(jù)的質(zhì)量評(píng)估與控制方法,研制通用和專用相結(jié)合的技術(shù)支撐手段,支持?jǐn)?shù)據(jù)質(zhì)量的評(píng)估、檢測(cè)和修正.

4)數(shù)據(jù)質(zhì)量管理涉及管理學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)等多領(lǐng)域多學(xué)科多專業(yè)的交叉融合.為解決數(shù)據(jù)質(zhì)量管理方面的專業(yè)人才供需矛盾十分突出問(wèn)題,建議依托院校設(shè)置數(shù)據(jù)質(zhì)量管理專業(yè)學(xué)科和課程體系,或采取院校送學(xué)、集中培訓(xùn)、崗位訓(xùn)練等多種方式,培養(yǎng)數(shù)據(jù)質(zhì)量管理專業(yè)人才.

5)面對(duì)新的形勢(shì)任務(wù),進(jìn)一步深化軍事數(shù)據(jù)質(zhì)量問(wèn)題特點(diǎn)規(guī)律的認(rèn)識(shí),把握實(shí)踐要求,全面梳理現(xiàn)有成果和實(shí)踐經(jīng)驗(yàn),積極借鑒國(guó)內(nèi)外數(shù)據(jù)質(zhì)量管理的先進(jìn)理念,構(gòu)建具有我軍特色的數(shù)據(jù)質(zhì)量管理理論體系,更好地指導(dǎo)和牽引我軍數(shù)據(jù)質(zhì)量管理工作.

猜你喜歡
質(zhì)量管理
棗前期管理再好,后期管不好,前功盡棄
“質(zhì)量”知識(shí)鞏固
質(zhì)量守恒定律考什么
加強(qiáng)土木工程造價(jià)的控制與管理
如何加強(qiáng)土木工程造價(jià)的控制與管理
做夢(mèng)導(dǎo)致睡眠質(zhì)量差嗎
關(guān)于質(zhì)量的快速Q(mào)&A
質(zhì)量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
“這下管理創(chuàng)新了!等7則
雜文月刊(2016年1期)2016-02-11 10:35:51
人本管理在我國(guó)國(guó)企中的應(yīng)用
主站蜘蛛池模板: 亚洲最新地址| 国产精品主播| 国模私拍一区二区| 欧美日韩在线亚洲国产人| 高清欧美性猛交XXXX黑人猛交| 全裸无码专区| 国产在线日本| 有专无码视频| 久久综合色天堂av| 国产成人久久综合777777麻豆| 最新亚洲人成网站在线观看| 国产无人区一区二区三区| 欧美激情视频在线观看一区| 国产欧美日韩免费| 亚洲欧美另类专区| 四虎精品国产AV二区| 久久久久久久97| 国产导航在线| 男人的天堂久久精品激情| 国产精品极品美女自在线| 国产精品欧美亚洲韩国日本不卡| 国产一级做美女做受视频| 五月天香蕉视频国产亚| 亚洲国产亚洲综合在线尤物| 欧洲成人在线观看| 欧美影院久久| 青草精品视频| 欧美成人a∨视频免费观看| 91无码国产视频| 国产91全国探花系列在线播放| 亚洲天堂精品视频| 思思热精品在线8| 国产欧美中文字幕| 国产真实二区一区在线亚洲| 国产在线小视频| 亚洲第一成年网| 亚洲天堂久久| 国产精品福利社| 日韩 欧美 国产 精品 综合| 久久精品无码中文字幕| 日本一区二区三区精品视频| 色老二精品视频在线观看| 91福利片| 国产成人精品第一区二区| 曰AV在线无码| 一本综合久久| 亚洲91精品视频| 91小视频在线| 在线视频一区二区三区不卡| 狠狠色丁香婷婷| 国产麻豆精品在线观看| 丁香六月综合网| 亚洲天堂视频网| 亚洲码在线中文在线观看| 国产亚洲欧美在线中文bt天堂 | 毛片基地美国正在播放亚洲 | 欧美日韩导航| 久久精品中文字幕免费| 国产精品区网红主播在线观看| 天天综合色网| 免费亚洲成人| 亚洲色图综合在线| 97久久免费视频| 国产精品毛片一区视频播| 国产成人亚洲精品无码电影| 国产小视频a在线观看| 国产精品九九视频| 毛片久久网站小视频| 无码中文字幕乱码免费2| 国产成人永久免费视频| 欧美精品一二三区| 亚洲欧美天堂网| 国产成人亚洲精品色欲AV| 国产欧美视频在线观看| 欧美激情一区二区三区成人| 欧美区日韩区| 九九久久99精品| 成人夜夜嗨| 国产精品成人啪精品视频| 思思热在线视频精品| 欧美日韩国产高清一区二区三区| 伊人激情综合网|