李惠松 王曉光


[摘? ? 要]互聯(lián)網(wǎng)以及數(shù)字技術(shù)的普及,使得人們的生產(chǎn)生活數(shù)據(jù)激增,也使得數(shù)據(jù)成為了輔助人們工作和生活的必要性工具。基于此,從數(shù)據(jù)治理的角度出發(fā),對質(zhì)量元數(shù)據(jù)的內(nèi)涵、內(nèi)容以及其規(guī)范集建立概況進行了簡要分析,闡述了數(shù)據(jù)治理的問題和危害,并對質(zhì)量元數(shù)據(jù)在數(shù)據(jù)治理中的應(yīng)用進行了論述。
[關(guān)鍵詞]質(zhì)量元數(shù)據(jù);數(shù)據(jù)治理;數(shù)據(jù)管理
[中圖分類號]TP311.13;TM7 [文獻標(biāo)志碼]A [文章編號]2095–6487(21)04–0–02
Research and Application of Quality Metadata in the Field of Data Governance
Li Hui-song,Wang Xiao-guang
[Abstract]The popularity of the Internet and digital technology has caused a surge in people's production and life data, and it has also made data a necessary tool to assist people in their work and life. Based on this, from the perspective of data governance, this article briefly analyzes the connotation and content of quality metadata and the establishment of its specification set, expounds the problems and hazards of data governance, and discusses the application of quality metadata in data governance.
[Keywords]quality metadata; data governance; data management
目前,為了能讓數(shù)據(jù)價值得以提升,開展數(shù)據(jù)治理勢在必行。在數(shù)據(jù)治理工作中,質(zhì)量元數(shù)據(jù)發(fā)揮著極為重要的作用,質(zhì)量元數(shù)據(jù)管理將成為數(shù)據(jù)治理的重要環(huán)節(jié)。因此,在實踐中應(yīng)該開展有關(guān)于數(shù)據(jù)治理和質(zhì)量元數(shù)據(jù)管理的研究。
1 質(zhì)量元數(shù)據(jù)的基本情況
質(zhì)量元數(shù)據(jù)就是質(zhì)量管理中所用的元數(shù)據(jù),在使用環(huán)節(jié)能幫助質(zhì)量管理人員提高質(zhì)量數(shù)據(jù)使用效率。目前,質(zhì)量元數(shù)據(jù)可以被分為質(zhì)量業(yè)務(wù)元數(shù)據(jù)和質(zhì)量技術(shù)元數(shù)據(jù),這兩種數(shù)據(jù)分別以業(yè)務(wù)用戶和技術(shù)客戶為使用者[1]。在實踐工作中,質(zhì)量業(yè)務(wù)元數(shù)據(jù)與質(zhì)量技術(shù)元數(shù)據(jù)的內(nèi)容存在交叉,但二者也存在明顯差異。比如,產(chǎn)品生命周期內(nèi)的質(zhì)量管理活動、業(yè)務(wù)活動信息、質(zhì)量數(shù)據(jù)結(jié)構(gòu)、質(zhì)量決策支持元數(shù)據(jù)等都屬于質(zhì)量業(yè)務(wù)元數(shù)據(jù);而數(shù)據(jù)ETL響應(yīng)時間、OLAP規(guī)則、決策與系統(tǒng)運行相關(guān)性等都屬于質(zhì)量技術(shù)元數(shù)據(jù)。
現(xiàn)階段,質(zhì)量元數(shù)據(jù)可以為企業(yè)質(zhì)量管理工作的開展提供巨大輔助,在使用環(huán)節(jié)需要建立質(zhì)量元數(shù)據(jù)規(guī)范集,該項工作的根本目的是為建立質(zhì)量元數(shù)據(jù)標(biāo)準(zhǔn)奠定基礎(chǔ),規(guī)范集就是這一標(biāo)準(zhǔn)建立的依據(jù)。因此,建立質(zhì)量元數(shù)據(jù)規(guī)范集時,需要遵循特定原則作業(yè)。比如,基于簡便性、適用性、交互操作性、易轉(zhuǎn)換性、可拓展性和結(jié)構(gòu)化原則建立規(guī)范集;同時,還應(yīng)該在作業(yè)時重視用戶需求和工作靈活性。
2 數(shù)據(jù)治理的問題和危害
數(shù)據(jù)治理是提高數(shù)據(jù)可用性的有效方法,從本質(zhì)上來說數(shù)據(jù)治理是一種集組織、制度和技術(shù)為一身的管理行為。元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)開發(fā)、數(shù)據(jù)安全、數(shù)據(jù)價值和數(shù)據(jù)組織都屬于數(shù)據(jù)治理的工作范圍,所以在其作業(yè)環(huán)節(jié)存在諸多干擾因素。
2.1 數(shù)據(jù)治理問題
數(shù)據(jù)治理工作意義重大,但在其開展環(huán)節(jié)卻十分容易出現(xiàn)以下問題:
(1)不完整問題。在數(shù)據(jù)治理環(huán)節(jié),數(shù)據(jù)不完整問題十分常見,這種問題主要表現(xiàn)為缺少關(guān)鍵性ID、存在明顯的位數(shù)不符問題和歷史數(shù)據(jù)保留期限缺乏一致性上。當(dāng)然,也有部分輔助信息的代碼缺乏規(guī)范性,許多以文本方式描述,也影響了數(shù)據(jù)完整性。
(2)邏輯錯誤。對于數(shù)據(jù)治理工作而言,數(shù)據(jù)邏輯的準(zhǔn)確性將會直接影響其處理成效。但是,在實踐中卻常常出現(xiàn)邏輯錯誤問題,具體表現(xiàn)為違反業(yè)務(wù)規(guī)則和業(yè)務(wù)代碼定義兩方面。
(3)缺乏一致性。數(shù)據(jù)的一致性是開展數(shù)據(jù)治理的基礎(chǔ),但是在相關(guān)工作開展環(huán)節(jié),很容易出現(xiàn)數(shù)據(jù)不一致問題。比如,不同系統(tǒng)的數(shù)據(jù)定義差異,就會導(dǎo)致同一業(yè)務(wù)的數(shù)據(jù)缺乏一致性;相關(guān)聯(lián)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)不同步也會導(dǎo)致數(shù)據(jù)缺乏一致性。
(4)冗余問題。在數(shù)據(jù)治理工作中,并非所有數(shù)據(jù)皆可用,許多數(shù)據(jù)之間都存在內(nèi)容重復(fù)的問題,而且在治理環(huán)節(jié)也存在數(shù)據(jù)記錄重復(fù)的現(xiàn)象,造成了非常嚴(yán)重的冗余問題。此外,非法鍵值的存在也同樣易引發(fā)數(shù)據(jù)冗余。
2.2 數(shù)據(jù)治理問題的危害
數(shù)據(jù)治理問題會對數(shù)據(jù)的正常使用以及相關(guān)工作的開展造成極大干擾,將會危害實踐工作的正常開展。基于上述治理問題,許多無效和重復(fù)性的工作浪費了人力物力資源,使得數(shù)據(jù)治理工作的成本大幅增加,數(shù)據(jù)集成項目的重復(fù)實施率高達83%。同時,面對數(shù)據(jù)治理問題,企業(yè)會錯失商機,還容易讓消費者喪失信心,低劣的數(shù)據(jù)質(zhì)量將會嚴(yán)重干擾企業(yè)的正常年收入[2]。此外,在數(shù)據(jù)治理問題的出現(xiàn)使得工作人員不得不在辨別數(shù)據(jù)可用性上花費更多時間,會導(dǎo)致作業(yè)成本進一步增加。所以,為了提高數(shù)據(jù)治理工作的有效性以及長效性,相關(guān)工作人員需要合理開展數(shù)據(jù)組織建設(shè)工作。在建設(shè)數(shù)據(jù)治理體系(圖1)時,應(yīng)該對數(shù)據(jù)治理委員會、數(shù)據(jù)管理指導(dǎo)委員會、數(shù)據(jù)管理制度團隊等基礎(chǔ)管理組織進行有效建設(shè)。
3 基于質(zhì)量元數(shù)據(jù)的數(shù)據(jù)治理
元數(shù)據(jù)可以用于描述數(shù)據(jù),是數(shù)據(jù)治理工作中極為重要的組成部分。對于數(shù)據(jù)治理工作而言,有效開展元數(shù)據(jù)管理至關(guān)重要。
3.1 質(zhì)量元數(shù)據(jù)管理作用
在數(shù)據(jù)治理工作中,質(zhì)量元數(shù)據(jù)的應(yīng)用應(yīng)該滿足端對端數(shù)據(jù)連線需求和業(yè)務(wù)反應(yīng)需求,同時業(yè)務(wù)和技術(shù)用戶還應(yīng)該共享數(shù)據(jù)庫。為有效開展數(shù)據(jù)治理,需要對質(zhì)量元數(shù)據(jù)進行科學(xué)管理,此項工作的開展可以發(fā)揮出如下作用:
(1)優(yōu)化業(yè)務(wù)導(dǎo)航。基于質(zhì)量元數(shù)據(jù)管理,業(yè)務(wù)人員能更為快速地明確業(yè)務(wù)范圍、流程、數(shù)據(jù)類別以及歸屬關(guān)系,將強化對工作整體內(nèi)容和需要的認(rèn)知,為相關(guān)工作的開展提供便捷性導(dǎo)航。
(2)強化數(shù)據(jù)質(zhì)量。質(zhì)量元數(shù)據(jù)是對質(zhì)量數(shù)據(jù)和其他相關(guān)數(shù)據(jù)的描述,所以質(zhì)量元數(shù)據(jù)管理工作的開展更有助于提高數(shù)據(jù)質(zhì)量,能為提升數(shù)據(jù)可用性和實用性奠定基礎(chǔ)。
(3)提高工作效率。質(zhì)量元數(shù)據(jù)管理工作的開展,能提高效整合工作成效,還能極大提升數(shù)據(jù)應(yīng)用環(huán)節(jié)的作業(yè)質(zhì)量。而且,在開展質(zhì)量元數(shù)據(jù)管理工作后,出現(xiàn)重復(fù)數(shù)據(jù)的概率將會大幅降低,那么數(shù)據(jù)冗余和非一致性問題也將得到緩解。此外,質(zhì)量元數(shù)據(jù)管理還將基于多種分析方式(圖2),為業(yè)務(wù)數(shù)據(jù)問題提供快速響應(yīng)的機會,可以極大提升問題數(shù)據(jù)定位的精準(zhǔn)性,降低定位難度。
圖2? 多元分析模式
(4)降低成本。質(zhì)量元數(shù)據(jù)管理能提高溝通和應(yīng)用的精準(zhǔn)性,數(shù)據(jù)邏輯錯誤問題將會被極大消除,數(shù)據(jù)的使用成本會降低。在實踐中,管理工作的開展為提高數(shù)據(jù)信息獲取速率、強化數(shù)據(jù)系統(tǒng)建設(shè)提供了輔助,所以數(shù)據(jù)開發(fā)和分析成本也將隨之降低。
3.2 質(zhì)量元數(shù)據(jù)管理方法
元數(shù)據(jù)主要用于描述其他數(shù)據(jù),質(zhì)量元數(shù)據(jù)的主要描述對象就是企業(yè)質(zhì)量管理工作中出現(xiàn)的各種數(shù)據(jù)。在實踐工作中,質(zhì)量元數(shù)據(jù)有著多樣化來源,其形式并非全都為數(shù)字,“數(shù)據(jù)”屬于事務(wù)性符號,是一種可用于統(tǒng)計計算工作的數(shù)值,也屬于可能是圖表信息、公式信息、數(shù)字信息或代碼信息[3]。
3.2.1 質(zhì)量元數(shù)據(jù)接入
確定質(zhì)量元數(shù)據(jù)的范圍是開展質(zhì)量元數(shù)據(jù)管理的第一步,而質(zhì)量元數(shù)據(jù)接入是質(zhì)量元數(shù)據(jù)管理中的另一個重要內(nèi)容,元數(shù)據(jù)通常由源系統(tǒng)接入。若企業(yè)沒有實時性要求或建立數(shù)倉,那么數(shù)倉就是接入已有元數(shù)據(jù)的最佳渠道,而其他元數(shù)據(jù)則主要由源系統(tǒng)補充。但是,這種方法存在較高風(fēng)險,容易引發(fā)數(shù)據(jù)治理當(dāng)中的不一致問題,所以現(xiàn)階段大多數(shù)企業(yè)都以配置自動化方式開展元數(shù)據(jù)抽取工作。
3.2.2 質(zhì)量元數(shù)據(jù)標(biāo)準(zhǔn)
質(zhì)量元數(shù)據(jù)的定義規(guī)范性將會影響質(zhì)量元數(shù)據(jù)管理和數(shù)據(jù)治理質(zhì)量,所以在實踐中應(yīng)該設(shè)立明確標(biāo)準(zhǔn),為確保質(zhì)量元數(shù)據(jù)具有一致性和完整性奠定基礎(chǔ)。在實踐中,企業(yè)的實際需求存在差異性,所以質(zhì)量元數(shù)據(jù)的開放對象也不完全相同。那么,要保證質(zhì)量元數(shù)據(jù)使用和管理質(zhì)量,就應(yīng)該明確其使用人群和應(yīng)用標(biāo)準(zhǔn)。比如,制定元數(shù)據(jù)開放權(quán)限,規(guī)范質(zhì)量元數(shù)據(jù)申請、發(fā)布和審核流程等。為了避免質(zhì)量元數(shù)據(jù)濫用,非質(zhì)量元數(shù)據(jù)對應(yīng)業(yè)務(wù)工作者必須在申請后才可使用質(zhì)量元數(shù)據(jù)。
3.2.3 質(zhì)量元數(shù)據(jù)查找和分析
質(zhì)量元數(shù)據(jù)內(nèi)容龐雜,包含大量信息,所以在使用時需要對相應(yīng)信息進行查找和分析。為了能提高數(shù)據(jù)治理效率,提升企業(yè)質(zhì)量管理成效,相關(guān)工作人員應(yīng)該為質(zhì)量元數(shù)據(jù)的快速查找提供支持。比如,開發(fā)單獨的質(zhì)量元數(shù)據(jù)查找頁面,設(shè)計模糊匹配和精準(zhǔn)匹配,提供關(guān)鍵信息查找等。在此環(huán)節(jié),應(yīng)該充分提升查找方式的便捷性、易操作性和多樣性,為迅速鎖定質(zhì)量元數(shù)據(jù)奠定基礎(chǔ)。同時,在質(zhì)量元數(shù)據(jù)分析方面,可以采取血緣分析法。如今,大多數(shù)數(shù)據(jù)倉庫都是Hadoop平臺,所以血緣分析主要存在兩種思路:①對hql腳本進行解析,進而基于正則表達式來完成各行字符串的匹配工作;②基于平臺自帶的語法進行分類解析。這兩種方法都可以滿足血緣分析需求,但是后者的使用便捷性較高。對于質(zhì)量元數(shù)據(jù)管理工作而言,血緣分析是一種十分重要的關(guān)聯(lián)影響分析方法,能有效提升數(shù)據(jù)分析和定位的速度與質(zhì)量。
4 結(jié)束語
質(zhì)量元數(shù)據(jù)已經(jīng)成為了企業(yè)質(zhì)量管理工作的重要工具,為優(yōu)化現(xiàn)代質(zhì)量管理提供了巨大幫助。在數(shù)據(jù)治理環(huán)節(jié),質(zhì)量元數(shù)據(jù)管理是極為重要的組成部分,所以在實踐中應(yīng)該通過合理應(yīng)用質(zhì)量元數(shù)據(jù)、有效開展質(zhì)量元數(shù)據(jù)管理來提高數(shù)據(jù)治理成效。
參考文獻
[1] 鄭躍平,甘祺璇,張采薇,等.地方政府?dāng)?shù)據(jù)治理的現(xiàn)狀與問題——基于43個政務(wù)熱線部門的實證研究[J].電子政務(wù),2020(7):66-79.
[2] 康軍.數(shù)字化轉(zhuǎn)型下通信運營商數(shù)據(jù)治理的“困”與“道”[J].江蘇通信,2020,36(3):58-64.
[3] 程芳,張權(quán),董少林.基于數(shù)據(jù)集成的質(zhì)量元數(shù)據(jù)研究[J].標(biāo)準(zhǔn)科學(xué),2019(5):140-142.