關鍵詞:數字兵器,數據,數據質量,數據治理
DOI編碼:10.3969/j.issn.1002-5944.2024.12.006
0 引言
據中國信息通信研究院發布的《中國數字經濟發展白皮書(2020)》,從生產力和生產關系的角度來看,數字經濟由數字產業化、產業數字化、數字化治理和數據價值化構成,其中數字化治理和數據價值化是基礎和保障。對于兵器制造業來說,數據是企業的核心資產。面對數字化轉型和智能化升級,數據的質量和價值至關重要。但優質數據產生的同時也必然存在大量的錯誤數據,垃圾數據給企業應用系統和運營管理帶來很大的困擾。數據治理可以確保數據湖、數據倉庫和數據分析等環節的合規性和一致性,提供可信的數據支持。
1 數據治理概述
1.1 數據治理的概念
數據治理(Data Governance)是組織中涉及數據使用的一整套管理行為,是數據價值發掘的基礎性工作[1]。由企業數據治理部門發起并推行,關于如何制定和實施針對整個企業內部數據的商業應用和技術管理的一系列政策和流程。國際數據管理協會(DAMA)給出的定義:數據治理是對數據資產管理行使權力和控制的活動集合。國際數據治理研究所(DGI)給出的定義:數據治理是一個通過一系列信息相關的過程來實現決策權和職責分工的系統,這些過程來實現決策權和職責分工的系統,這些過程按照達成共識的模型來執行。該模型描述了誰(Who)能根據什么信息,在什么時間(When)和情況(Where)下,用什么方法(How),采取什么行動(What)。
1.2 數據治理的背景
2022年第五屆數字中國建設峰會,國家網信辦在開幕式上發布了《數字中國發展報告(2021 年)》。報告顯示,2021 年全年,我國數據產量達到 6.6 ZB,同比增加 29.4%,占全球數據總產量(67 ZB)的 9.9%,僅次于美國(16 ZB),位列全球第二[2]。近三年來,我國數據產量每年保持 30% 左右的增速。2017 年到 2021年,我國數據產量從 2.3 ZB 增長至 6.6 ZB。
目前,各軍工企業在信息化、數字化建設方面已有了顯著的進展,ERP、PLM、主數據管理系統、數字化檔案館和自動化生產線也在被不同程度地應用和實施,在對橫向業務拓展和縱向打通方面有了質的改變。發展的同時,為滿足裝備研制、生產制造、企業運營能力的高度提升,對數據的標準化和有效性也有了更高的要求。
2 數據管理現狀和存在的問題
2.1 黑暗數據和數據尾氣
黑暗數據又稱睡眠數據,指被收集、處理但又不用于任何用途的數據。這些數據雖然有,但從不被任何業務使用,甚至企業中的大部分領導和業務人員都不知道此類數據的存在,這些數據可能會慢慢成為歷史被徹底埋沒。
數據尾氣與黑暗數據相似卻不完全相同,這類數據在收集、處理后被短暫使用過,但因初期收集時面向的業務范圍較窄,目標較單一,利用價值不高,故在使用后被閑置和遺棄。
之所以產生黑暗數據和數據尾氣主要大致分為三點。一是信息化建設過程中,系統設計者對業務數據不夠了解,數據采集范圍過大或過??;二是業務人員對系統建設的配合度不夠高,數據收集敷衍了事,數據質量無法保障;三是大部分軍工企業信息化數字化落后,數據標準化未能先行。據統計,企業的數據中有50%~80%可能為睡眠數據,始終無人知曉。
2.2 數據孤島
眾所周知,數字化建設對軍工企業來說是必要而艱難的。很多企業尚處于建設初期,由于缺乏整體規劃,內部還未形成完整的、連貫的系統域,各業務部門獨立的應用系統都是各自定義和存儲的,彼此之間數據沒有關聯,從而形成了數據孤島[3]。
2.3 數據“巴別塔”
巴別塔是《圣經》中的一個故事。這個故事有很多隱喻,其中之一就是強調在協作過程中順暢溝通的重要性。順暢溝通的前提是彼此之間有一套共同認可的對話標準。在很多企業中存在著數據“巴別塔”。不同企業、企業中的不同部門由于沒有統一的數據標準而出現溝通不順暢甚至是互相推諉的情況。
2.4 糟糕的數據質量
數據質量是在組織業務、管理要求下,符合數據使用者滿足業務及管理需求的評價方式,其標準不僅限于業務管理的價值,還包括其價值的準確性和周期。數據質量差是個大問題,企業數據普遍存在各系統不一致、屬性不完整、描述信息不準確、維護不及時等諸多問題。數據質量得不到保證,其價值的發掘就無從談起。
3 數據治理基礎
3.1 搭建統一的數據管理平臺
目前,企業已在信息化、數字化道路上穩步前進,多種應用系統的構建讓曾經存在于Excel表格甚至是經驗性的數據具象化地落于實處,但由于還未形成打通式的體系架構,數據更多的是獨立存在各應用系統。數據管理平臺可以幫助企業整合、管理、分析和利用數據資源,打通各應用系統數據資源,實現數據的統一管理、統一存儲[4]。支持不同業務的數據源和數據模板,將所有數據匯總到統一平臺,同時為下游各種業務提供有價值的數據,這也是數據治理的基礎。
3.2 建立統一的數據標準
企業內部數據普遍具有種類多、類型繁雜的特點,原材料、工具工裝、設備備件、往來單位等不同業務方面的數據分類混亂,沒有標準的存儲模板,給系統應用帶來困難和阻礙。數據標準化不統一,導致不同來源甚至同一來源的數據矛盾,產生大量的誤碼和重碼,這些數據增加了不必要的業務溝通時間和成本上的浪費。
標準化管理就是根據國家標準、行業規范和企業具體情況,對數據的名稱、屬性、字段、計量單位等進行統一規定。通過標準化管理可以提高數據的通用性、共享性、復用性和可移植性[5-6]。包括業務標準和數據模型標準,其中業務標準指的是數據來源、數據的管理級次、統一管理的基礎數據項、數據項在相關業務環境中產生過程的描述及含義解釋、數據之間的制約關系、數據產生過程中所要遵循的業務規則;數據模型標準指的是數據的存儲結構表,包括對數據長度、數據類型、數據格式、數據的缺省值、可否為空的約束關系,保證數據的唯一性編碼能夠準確地自動生成,并能與各應用系統集成傳輸[7-8]。
4 基于數字化轉型的數據治理
4.1 制定數據規劃
數據規劃是數據治理實施的第一步,也是至關重要的一步,其目的是為數據的完整性、準確性和唯一性提供來源和方法的保障。眾所周知,所有企業內部劃分出機構部門,但數據規劃時,不能簡單地依靠現行的機構部門,而是應該以業務內容為單元成立相應項目小組,分別對各自業務領域內的數據進行收集分析。數據規劃強調的是橫向全范圍和縱向業務關聯,業務調研是基礎。在調研分析后,收集上來的數據多且雜,涵蓋業務部門間、數據庫、各應用系統和流程等,數據量多達幾十萬甚至上百萬。數據治理初期無法同時處理全部信息,所以需要識別出當前著重處理的數據。識別依據可以是當年有訂單任務的產品。數據規劃的關鍵是參照標準和體系宣貫,項目小組的力量是有限的。數據治理的根本是企業內全體人員都能按照統一標準維護和使用數據,所以需要在初期通過培訓、公告或宣貫的形式讓各級管理人員和員工掌握標準和規范,保障數據治理的全過程順利進行。
4.2 數據分類
集團公司下發了關于數據管理和數據治理的范圍,按照類別對數據進行分類和編碼,主要包括:
(1)通用類:地區名稱、行政區、省份、計量單位、貨幣資金等;
(2)單位類:組織機構、往來單位代碼等;
(3)人事類:人員、工號等;
(4)財務會計類:會計科目、固定資產類別等;
(5)物品類:工具工裝、原輔料、設備備件、辦公用品、標識代碼等;
(6)產品類:產品分類、零件、部件、組件等;
(7)質量類:質量問題分類、質量問題標識代碼等;
(8)合同類:合同分類、標識代碼等。
4.3 制定數據標準和規范要求
制定數據標準是數據治理的基礎,也是多應用系統間數據共享的保障。數據標準需要綜合考慮簡單、唯一、可擴展三個特性,便于人員更替的業務交接,同時要便于當前已搭建的應用系統數據交流和未來可能搭建的應用系統做集成。
4.4 制定數據模板
不同的數據對應不同的模板,提前規劃制作數據模板便于更快捷、更標準地新增和使用數據,解決不同應用系統間的信息孤島和數據描述不規范等問題。以物料為例,其數據模版由物料的大中小分類、物料描述和物料代碼組成的,其中物料說明包括名稱、規格型號、技術條件、狀態、圖號等。不同類別的物料,其描述的屬性組合也不同。搭建數據管理平臺時,需要通過業務調研和數據分析劃分出不同的數據模板,以便實現準確又快捷的數據填報。
4.5 數據收集與清洗
前文已提到,收集上來的數據無法被直接使用,若歷史數據不準確不完整,數據治理也無從談起,此時數據清洗就顯得尤為重要。數據清洗是發現并糾正數據中可識別錯誤的最后一道程序,包括檢查數據的一致性,處理無效值和缺省值等,一般包括“準備”“檢測”“定位”“修正”和“驗證”5個步驟。
4.5.1 準備
數據清洗準備的核心工作就是確定清洗方案,首先通過分析當前企業數據管理平臺存在的問題,尤其是針對生產制造業務方面的隱患,信息部門需要統籌整體建設規劃長遠考慮,對于未來有可能出現的生產和財務角度的問題應及時詳盡地告知相關部門和領導,引起全公司的重視。其次要明確清洗任務目標。數據的清洗是長期工作而非一次性工程,故每一次的清洗目標都在無限靠近完美但又不盡相同。同時針對不同的任務目標,清洗方法也不同。例如清洗目標為工具工裝類物資,因為其數據數量大類型多,清洗方法應該是人工為主,若目標為原材料類物資,其數據模板較為規律,可先采用Excel表格初步篩選能夠提高工作效率。
4.5.2 監測
數據清洗監測的目的是獲得數據質量問題并對其進行質量維度分析,包括準確性、完整性、時效性、唯一性、合理性和一致性。目前兵器行業數據治理處于起步階段,對數據存在的問題認知有限,質量問題庫需要在治理中不斷完善,因此數據清洗監測是非常必要的。
4.5.3 定位
數據清洗定位是尋根溯源找到錯誤數據產生的原因。這個過程需要信息部門與科研產品技術人員、工藝編制人員、物資采購員、標準化人員共同分析錯誤數據類型及其對業務流程的影響。重點是判斷錯誤數據是在哪個環節產生的,如標準化宣貫不到位、賦碼過程屬性值缺失或是個人習慣符號不一致等。進而技術人員針對不同的原因給出不同的解決方法和管理辦法。
4.5.4 修正
經過準備、監測、定位具體問題后,數據清洗的主要內容是修正,針對不同類型的錯誤數據修正方法具體包括補全屬性值、刪除無意義數據、相同數據合并、篩選重復數據中有價值的數據、增加數據等。過程中需要注意,涉及采購、財務和庫存等業務時,若錯誤數據存在現有量或未完結的事務處理,為了保證前后端一致,數據是無法進行失效和刪除的。
4.5.5 驗證
由于數據清洗往往是人工與信息化結合工作,且操作者普遍對具體業務數據并不熟悉,數據清洗驗證起到檢驗、進一步提高準確率的作用。數據治理工作需要經過幾輪反復,為了最大限度發揮數據治理作用,需要對整體數據治理體系運行效果進行評估,通過建立完整準確的評價標準,保證數據治理的有效性[9]。
5 結語
數據是數字兵器建設中的重要戰略資源,數據標準化是數據使用和價值挖掘的基礎工作。數據治理主要價值點是統一業務信息定義,打通業務、系統壁壘,實現信息集成與資源共享,支撐戰略協同[10]。本文從數據治理的背景、意義、方法等角度闡述了此項工作是一個復雜的系統工程,涉及多個部門和單位的多個業務領域。同時,支撐軍工企業數字化轉型,數據治理也是一項必須進行且迫在眉睫的工作。
作者簡介
郭蕊,通信作者,本科,工程師,研究方向為電子信息科學與技術。
苗洋,本科,工程師,研究方向為計算機科學技術。
王廣福,研究生,高級工程師,研究方向為機械制造及自動化。
羅娜,本科,工程師,研究方向為計算機科學技術。
馬冬梅,本科,高級工程師,研究方向為計算機科學技術。
(責任編輯:張佩玉)