

摘要: 隨著信息技術的發展,大數據時代到來,數據及數據資產對組織的重要性越發突出。然而,如何將數據合理、標準化管理,并有效利用,這也成為許多組織所面臨的難題。當數據已經產生,或者發現數據混亂,再去做數據治理,勢必也會造成一定程度的資源浪費。因此,如何能夠從數據全生命周期的不同階段,管好數據、用好數據,成為大數據時代一個重要話題。本文將分析并探討在數據治理思想的指導下,如何進行數據全生命周期管理,以達到數據標準化管理及應用的目標,同時減少數據管理過程中所造成的資源消耗。
關鍵詞:數據治理;數據全生命周期;標準化;管理及應用
一、數據全生命周期管理的重要性及痛點問題
數據的生命周期包括:規劃、采集、傳輸、存儲、加工、利用、分析、退役等八個階段。數據生命周期管理(data life cycle management,DLM)是一種基于策略的方法,用于管理信息系統的數據在整個生命周期內的流動:從創建和初始存儲,到它過時退役。目前,絕大多數組織,缺少對數據的管理,甚至是發現問題后,只忙于做數據治理,而忽視對全生命周期的管理,且在此過程中,也面臨一些問題,典型痛點如下:
①無適應組織發展的數據生命周期模型;②缺少數據管理標準;③數據管理工作常表現為事后措施。
為解決組織中存在的數據管理問題,本文將以數據治理的思路為指導,從源頭對數據進行管理工作,從而盡可能降低因數據管理所產生的額外成本。
二、系統不同階段的數據特點
從軟件系統生命周期維度進行劃分,系統建設的核心部分基本可分為:規劃期、建設期、穩定期、衰退期等四個不同階段。其對應的軟件開發過程如圖1所示。
如表1所示,不同時期的系統及數據均有其特點,且工作重點及關注的數據生命周期階段也有所不同。
(一)規劃期
該時期的系統,處于規劃設計階段,主要關注數據生命周期過程中的規劃階段,系統計劃使用、產生、共享什么數據,如何產生并利用,這也是整個生命周期中最重要的一環。該階段還沒有數據產生,但是對規劃數據的唯一性、數據來源的準確性、是否重復建設等問題,起到至關重要的作用。規劃期的開展,也將成為決定后期還需花費多少成本用于數據治理的關鍵環節。
(二)建設期
該時期的系統,處于開發和實施階段,按照規劃期的標準和要求,通過軟件開發、數據庫、計算機網絡及其他硬件設備等技術,實現數據生命周期中的采集、傳輸、存儲、加工等過程。該階段的工作,是否能夠按照規劃嚴格執行,將直接關系到數據的質量問題,同時也將直接影響數據治理和數據資產管理實施的周期和成本。
(三)穩定期
該時期的系統已建設完成,并上線使用,且在較長一段時間保持平穩運行狀態,此階段的數據是最為活躍且復雜的,除系統本身所產生、使用的數據外,數據還會被加工、共享、利用、分析,如何將該階段的數據直接變現成為數據資產,是該階段數據管理的關鍵內容。
(四)衰退期
隨著業務的變更及信息技術的發展,部分系統可能會進入衰退甚至退役階段,數據大多數情況會被歸檔或銷毀,在此階段,數據已基本不會再發生變化,部分數據也將失去使用價值,如何保障數據的安全歸檔或銷毀,并且能在未來的業務中,繼續使用或調閱數據,是數據管理工作不容被忽視的內容。
三、數據治理及其關鍵技術
數據治理的定義有很多,國際數據管理協會(DAMA)給出的定義是:“數據治理是對數據資產管理行使權力和控制的活動集合”。在數據治理過程中,需要應用許多重要的技術及方法,其中,涉及數據和軟件生命周期的核心技術如下:
(一)標準管理
數據標準是做數據治理的前提。正所謂“沒有規矩不成方圓”,標準管理就是為整個數據治理工作制定的章法、規范,用于保障數據共享和交換的一致性和準確性,提升工作效率、數據質量。
(二)元數據和主數據管理
元數據是描述數據的數據,對數據及信息資源的描述性信息;主數據是描述具有共享性的基礎數據。對元數據的管理,是數據治理工作的核心,而對主數據的管理,則是實現數據資產管理的主要組成部分。將主數據再進行組合就能得到業務主題域數據。
(三)數據質量管理
數據質量對數據治理的難度及結果起關鍵性作用,若原始數據質量較差,則增加了數據治理的難度及時間周期;若在數據治理過程中,缺少對數據質量的控制,則數據治理的結果也將導致數據最終無法使用并失去價值。
(四)數據共享交換
數據治理的最終目標,是要形成數據資產,使其產生價值,通過數據共享交換,能最大程度降低數據重復采集、重復錄入帶來的成本,同時,經過了數據清洗及治理的數據,更具有準確性及唯一性,這也為數據資產產生價值提供了最重要的技術手段。
數據管理工作包含數據治理,但在數據治理出現后,其工作思想能更好的讓我們的數據管理工作標準化。數據治理更側重于數據已經產生后的工作,而數據管理貫穿整個數據的全生命周期。
四、基于數據治理思想的數據生命周期管理要點
(一)前期工作
1.成立數據管理部門
根據組織性質、規模,成立不同層級、規模的數據管理工作主要負責機構(如,小組、部門、委員會等),由該部門負責數據的全生命周期管理,并協調各方數據,最終形成組織的數據資產。
2.制定數據管理工作標準
這里的工作標準主要指兩方面:一方面是行政管理標準,包括工作的流程、管理辦法、約束規定、人員職責等;另一方面是技術標準,包括數據管理過程中所使用的思路原則、技術方法、管理工具、數據標準。
在這里,特別需要指出的是,不同組織所面臨的階段有所不同,有些組織已經擁有十分龐大的數據資源,而有些組織還未開始積累電子化的數據資源,而絕大多數組織介于兩者之間。針對這三種不同的情況,在制定工作標準時,其工作方法有所不同。針對已有數據資源的組織,需要首先初步梳理已有的數據資源,再參考國家、行業、企業標準,制定適合組織的工作標準,尤其是數據標準;而暫未有數據積累的組織,則可直接參考國家、行業、企業標準,從源頭開始,規范數據管理工作。
(二)數據全生命周期過程管理
1.規劃
處于數據管理規劃期階段,多為新建信息系統或新業務產生階段,該階段也是數據管理的源頭階段,更是決定日后數據管理難度及成本的核心階段。該階段的主要工作是按照前期制定的數據標準、結合業務情況,規劃好整個數據管理的過程,包括數據的采集、傳輸、存儲、加工。按照數據標準,規劃數據模型是其中的重點工作,梳理三類不同的元數據(業務元數據、技術元數據、操作元數據)、主數據以及業務主題數據,分層次、分類型對數據進行規劃,可將后期的重復勞動率降至最低。
2.采集
采集階段的主要工作有兩個:從確定的數據來源進行數據采集以及保障數據質量。
數據來源通常有兩類,數據共享和新采集數據。在能夠保障已有數據質量的情況下,可使用數據共享方式,從數據共享中心或其他平臺接入數據,減少數據重復產生而導致的后期數據治理工作量,同時能夠保障數據的準確性。
數據質量問題,更多來源于新采集和產生的數據,如何保障數據采集時,就具有較高的質量,是該階段工作的核心內容。對軟件系統而言,則需要通過代碼、程序校驗用戶輸入是否符合數據標準要求;對硬件系統或傳感器,則需要通過相應的內置應用,校驗數據,也可將數據傳入軟件平臺后,再進行數據標準化處理。
3.傳輸
如何保障數據安全、完整的傳輸到相應的系統中,是該階段數據管理的重點內容,也是網絡空間安全中,數據安全的組成部分。數據傳輸過程中,可能面臨被截獲、篡改、重發等威脅,從而導致接收端獲取到的數據,并非源端所產生的數據。因此,可以使用SSL、時間戳、數字信封、KMS等多種安全技術手段,對數據的傳輸過程和數據本身進行操作,從而保障數據能夠安全到達下一環節。
4.存儲
數據存儲,是前幾個步驟最后的結果,也是整個數據生命周期管理過程的樞紐和里程碑。當數據被安全、準確的存儲后,數據的管理工作的初步階段已經完成。存儲階段的核心工作是:按照規劃階段的數據模型,準確進行存儲。這里包括兩個核心要點:數據模型、準確存儲。數據的存儲,一定要按照數據標準和規劃期制定的數據模型進行存儲,尤其是表結構、表編碼等,不可隨意對數據模型及結構進行修改和存儲。該階段也是在數據產生過程中,最后一道控制數據質量的閥門,在數據通過規劃、采集、傳輸過程后,還可通過數據庫校驗,檢查數據質量是否符合要求和標準,校驗通過后,方可進行數據存儲。
5.加工
數據的加工,主要是數據治理過程的核心環節,通常涉及多業務及多系統,尤其是在未根據標準的數據生命周期管理的過程中,所產生的那類數據,其主要表現為:數據質量較低、數據重復率高、數據來源不唯一,這時,就需要對數據進行加工,從而保障數據在整個數據中都有唯一確定的源頭、較高的準確性及按標準存儲。
在加工階段,通常需要從宏觀角度開展工作,這也意味著需要較高權限的數據管理部門進行統一管理和指導,從而保障整個組織數據的標準化、統一化。
6.利用
數據的利用,通常指數據共享交換的過程,在保障了數據質量和唯一性的情況下,可以對內部和外部提供數據。在此階段,形成可供查詢的數據資源目錄、數據清單、共享方式等是該階段的重點工作。同時,數據使用權限的申請、批準、管理、撤銷等工作,是保障數據不被濫用的有效行政手段。另外,如何保障數據的及時性,又不導致基礎設施壓力過大,也是數據管理過程中,需要進行統一規劃的技術問題。當數據能夠被進行共享交換,也就意味著數據開始了流動,甚至可以形成數據資產。在此過程中,組織可以從一定程度上進行商業模式的探索,將數據變成可交易的商品,為組織產生一定的經濟價值。
7.分析
數據分析本身可產生價值,也可通過分析,得出哪些數據能夠產生價值。通過數據分析,尤其是高質量的數據分析,可以對現行的業務進行總結和分析,糾正或及時停止影響組織發展的業務或行為方式;也可以通過數據分析,對未來組織的業務發展趨勢進行預測,從而提前調整策略,并做好應對改變所采取的準備工作。另外,也可將數據分析作為組織的一項業務,對數據分析的方法和工作進行標準化,形成一項新的商業模式,拓展組織業務。通過對市場及組織業務的數據分析,可以分析出組織目前已有數據中,有哪些可以直接通過交易產生經濟價值,從而增加組織收入。
8.退役
數據退役的方式通常包括銷毀和歸檔兩種,從時間周期上來說,數據退役的過程,并不會與系統或業務的生命周期保持完全一致或同步,部分數據可能會周期性退役,該類數據主要為技術性數據,如日志等。因此,在進行數據退役管理工作時,首先需要區分數據的類別,及其根據國家、行業、企業標準所要求的保留時間。
對需要銷毀的數據,則需要確保其是邏輯銷毀還是物理銷毀,如果是物理銷毀,是否徹底銷毀,以防被竊取和非法利用,導致數據安全性無法保障。
對歸檔的數據,則需按照檔案管理的要求及標準,對數據進行歸檔管理,并對數據進行標簽化管理,從而保障數據在未來需要被查詢或利用時,能夠及時調閱。
(三)其他工作
除了上述的數據生命周期管理的重點工作外,對數據進行血緣分析、全過程的隱私保護,也至關重要。
1.血緣分析
該工作有助于日后組織數據圖譜的形成及數據的追溯,當數據發生異常或錯誤時,能夠快速定位其來源及所影響的業務,從而保障業務的連續性。
(22.隱私保護
數據的安全性,除了在傳輸和利用過程中,需要引起高度注意外,其實在數據生命周期管理的全過程,都需對數據進行隱私保護,從數據管理人員的意識到數據管理的方法及相關的技術,均需要進行隱私及安全性保護,保障數據不被泄露或引起其他安全性問題。
五、結束語
數據管理工作是一項涉及全組織各部門、各業務的工作,而且,數據管理工作具有一定的本土適應性和差異性,不同類型組織、不同規模,都會導致數據管理工作的差異,因此,結合組織自身特點,制定適合自己的數據全生命周期管理工作方案,是每個組織首先應當思考的問題。
作者單位:馮凡 陳輝 魏軍 蘇曉偉 克拉瑪依職業技術學院
參" 考" 文" 獻
[1]羅云凡.數據治理推動企業數字化轉型的機制與對策[J].經營與管理,2022-07-21.
[2]侯建斌. 加強數據全生命周期安全保護管理[N]. 法治日報,2022-07-15(006).
[3]薩洛梅·維爾約恩,趙精武,陸睿,等. 數據治理的關系理論[J]. 湖湘法學評論,2022,2(1):136-160.
[4]宋福琳. 淺談大數據生命周期[J]. 現代經濟信息,2020(16):159,161.
[5]朱穎琪. 數據分類和數據生命周期研究[J]. 貴州電力技術,2017,20(4):27-30,47.