摘要:大數(shù)據(jù)時代,企業(yè)“檔案數(shù)據(jù)湖”的構建順應企業(yè)檔案數(shù)據(jù)轉型趨勢,符合企業(yè)檔案數(shù)據(jù)治理需求,有助于消除企業(yè)檔案數(shù)據(jù)孤島,充分釋放企業(yè)檔案數(shù)據(jù)價值。以目前最典型的“數(shù)據(jù)湖”架構為參考模板,結合企業(yè)檔案數(shù)據(jù)的工作實際,從“入湖:檔案數(shù)據(jù)接入模塊”“蓄湖:檔案數(shù)據(jù)存儲模塊”“治湖:檔案數(shù)據(jù)管理模塊”“測湖:檔案數(shù)據(jù)計算模塊”“調湖:檔案數(shù)據(jù)調度模塊”和“用湖:檔案數(shù)據(jù)應用模塊”六大層級構建企業(yè)“檔案數(shù)據(jù)湖”功能模型。根據(jù)該功能模型,提出從數(shù)據(jù)摸底、技術選型、數(shù)據(jù)接入、融合治理、業(yè)務支持五方面著手構建該為企業(yè)在實際工作中構建“檔案數(shù)據(jù)湖”提供參考價值,充分發(fā)揮檔案數(shù)據(jù)賦能企業(yè)業(yè)務發(fā)展的新勢能。
關鍵詞:企業(yè)檔案 檔案數(shù)據(jù) 數(shù)據(jù)湖 構建路徑
Abstract: In the era of big data,the construc? tion of the enterprise\"Archival Data Lake\" aligns with the trend of enterprise archival data transfor? mation and meets the needs of enterprise archi? val data governance.It helps to eliminate archival data silos in enterprise and fully unleash the val? ue of enterprise archival data.Taking the most typical \"Data Lake\" architecture as a reference template, and combining the actual work of en? terprise archival data, the enterprise \"Archival Da? ta Lake\" functional model is constructed from six layers: \"In- Lake:Archival Data Access Mod? ule\"\"Store- Lake:ArchivalDataStorageMod? ule\"\"Manage- Lake:Archival Data Management Module\"\"Calculate- Lake: Archival Data Calcula? tion Module\"\"Dispatch-Lake:Archival Data Sched? uling Module\"and\"Use- Lake:Archival Data Appli? cation Module\".Based on the six functional mod? els of the enterprise \"Archival Data Lake\", it is pro? posed to build the enterprise \"Archival Data Lake\" from five aspects, namely data evaluation, tech? nology selection, data access, integrated gover? nance and business support, so as to provide ref? erence for enterprises to build the \"Archival Data Lake\" in practical work and give full play to the new potential of archive data in enabling the busi? ness development of enterprises.
Keywords:Enterprise archive; Archival data; Data lake;Construction path
當前,數(shù)據(jù)作為一種全新生產(chǎn)要素,與土地、勞動力、資本、技術等共同影響著經(jīng)濟社會的發(fā)展走向。隨著大數(shù)據(jù)時代的到來,各行各業(yè)相繼步入數(shù)字化、數(shù)據(jù)化轉型序列,檔案領域亦不例外。在此背景下,檔案數(shù)據(jù)的資源價值日益顯現(xiàn),尤其對于企業(yè)而言,檔案數(shù)據(jù)因其之于各項主營業(yè)務的賦能效用而備受重視。然而,與此同時,由于傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫技術等無法滿足其集中、統(tǒng)一管理需求,導致數(shù)據(jù)孤島現(xiàn)象頻頻出現(xiàn),企業(yè)檔案數(shù)據(jù)價值發(fā)揮受限嚴重。而“數(shù)據(jù)湖”作為一種新型數(shù)據(jù)存儲架構,正能夠為該問題解決提供技術支撐。如今,它已被初步應用于商業(yè)、交通、氣象等領域,并取得一定成效。由此,本文將“數(shù)據(jù)湖”引入企業(yè)檔案數(shù)據(jù)管理,探討其必要性、功能模型、構建路徑等,以期有助于企業(yè)檔案數(shù)據(jù)價值釋放與企業(yè)檔案工作高質量發(fā)展。
(一)檔案數(shù)據(jù)概念與特點
1992年,馮惠玲[1]首次在文章中使用“檔案數(shù)據(jù)”一詞,并在第十三屆中國電子文件管理論壇上指出其“雙向融合特點”[2],即檔案數(shù)據(jù)化與數(shù)據(jù)檔案化。然而,目前學界尚未對檔案數(shù)據(jù)達成統(tǒng)一認知。從概念上看,熊志云[3]、陳陽[4]等認為檔案數(shù)據(jù)是檔案;陶水龍[5]、于英香[6]、劉慶悅[7]等認為檔案數(shù)據(jù)是數(shù)據(jù);金波[8]、于瑾[9]等認為檔案數(shù)據(jù)既是檔案,又是數(shù)據(jù)。從特點上看,檔案數(shù)據(jù)的特點主要體現(xiàn)為“兩多兩性”,即多來源、多模態(tài)、異構性、動態(tài)性。多來源是指檔案數(shù)據(jù)形成主體既涵蓋組織層面的業(yè)務機構(部門)、檔案機構(部門),又包括個體層面的社會大眾;多模態(tài)是指檔案數(shù)據(jù)形態(tài)類目包括文本模態(tài)、圖像模態(tài)、音頻模態(tài)、視頻模態(tài)以及社交媒體交互數(shù)據(jù)等[10];異構性是指檔案數(shù)據(jù)結構特征包含結構化、半結構化、非結構化等;動態(tài)性是指檔案數(shù)據(jù)演化發(fā)展迅猛,檔案數(shù)據(jù)價值持續(xù)更迭。因此,本文將檔案數(shù)據(jù)定義為以數(shù)據(jù)態(tài)形式存在、具有檔案屬性、具有保存價值的記錄。
(二)“數(shù)據(jù)湖”的概念與特點
鑒于數(shù)據(jù)在網(wǎng)絡環(huán)境下的流轉與自然界的水生態(tài)系統(tǒng)存在相似之處,數(shù)據(jù)基礎設施因而被命名為“數(shù)據(jù)湖”。從概念上看,“數(shù)據(jù)湖”最早由企業(yè)提出、實施構建并進行定義。美國商務智能軟件服務商Pentaho公司首席技術官詹姆斯·迪克遜[11](James Dixon)于2010年首次提出“數(shù)據(jù)湖”大數(shù)據(jù)基礎設施架構,強調數(shù)據(jù)從來源流入,用戶或程序可按需從中查詢和抽取。亞馬遜公司[12]和維基百科[13]均將“數(shù)據(jù)湖”定義為一個可以存儲原始狀態(tài)數(shù)據(jù)的集中式存儲庫,不要求對來源數(shù)據(jù)進行結構化處理。微軟公司[14]則從功能角度對“數(shù)據(jù)湖”進行定義,認為“數(shù)據(jù)湖”既支持用戶存儲任意規(guī)模、任意類型、任意產(chǎn)生速度的數(shù)據(jù),又輔助用戶跨平臺、跨語言進行數(shù)據(jù)分析和處理。從特點上看,“數(shù)據(jù)湖”特點可概括為“五化”,即存儲空間可拓展化、存儲類型多元化、數(shù)據(jù)收集保真化、數(shù)據(jù)處理靈活化和數(shù)據(jù)管理雙重化。存儲空間可拓展化是指“數(shù)據(jù)湖”作為一種利用云計算等先進技術構建的存儲系統(tǒng),擁有龐大的數(shù)據(jù)存儲容量和良好的可擴展性。存儲類型多元化是指“數(shù)據(jù)湖”能夠存儲不同來源、模態(tài)、結構的大量原始數(shù)據(jù),既包括非結構化數(shù)據(jù),也包括半結構化數(shù)據(jù)和結構化數(shù)據(jù)。數(shù)據(jù)收集保真化是指“數(shù)據(jù)湖”采用“讀取型schema”,不需要預先設計標準化數(shù)據(jù)結構和模式,獲取數(shù)據(jù)時可以完整保留數(shù)據(jù)的真實性和原始性。數(shù)據(jù)處理靈活化是指“數(shù)據(jù)湖”保持數(shù)據(jù)的原始狀態(tài),使得企業(yè)可以根據(jù)實際需求對數(shù)據(jù)進行定制化加工處理,快速響應業(yè)務需求變化。數(shù)據(jù)管理雙重化是指“數(shù)據(jù)湖”一方面對原始數(shù)據(jù)進行管理,另一方面對原始數(shù)據(jù)讀取后生成的處理數(shù)據(jù)進行管理,滿足不同業(yè)務場景的可定制靈活應用。因此,本文將“數(shù)據(jù)湖”定義為一種能滿足多源異構數(shù)據(jù)存儲、管理、計算等需求,并按需為用戶提供數(shù)據(jù)應用的集中式、可擴展新型數(shù)據(jù)系統(tǒng)。
綜上,本文定義企業(yè)“檔案數(shù)據(jù)湖”是以檔案部門為主管、以檔案數(shù)據(jù)為對象、以數(shù)據(jù)存儲為基礎功能、以數(shù)據(jù)管理與計算為拓展功能的為企業(yè)提供數(shù)據(jù)應用、實現(xiàn)企業(yè)檔案數(shù)據(jù)價值釋放與企業(yè)檔案工作高質量發(fā)展的系統(tǒng)。
隨著市場環(huán)境日益數(shù)字化,企業(yè)構建“檔案數(shù)據(jù)湖”迫在眉睫。這既是順應企業(yè)檔案數(shù)據(jù)轉型趨勢之舉,又能契合企業(yè)檔案數(shù)據(jù)治理需求,助力消除企業(yè)檔案數(shù)據(jù)孤島,充分釋放企業(yè)檔案數(shù)據(jù)價值,為企業(yè)決策、創(chuàng)新、風險防控等提供有力支撐,驅動企業(yè)在激烈市場競爭中穩(wěn)健前行。
(一)順應企業(yè)檔案數(shù)據(jù)轉型趨勢
《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》提出:“主動融入數(shù)字經(jīng)濟、數(shù)字社會、數(shù)字政府建設,推動檔案全面納入國家大數(shù)據(jù)戰(zhàn)略。”[15]這就意味著企業(yè)檔案工作應注重以檔案數(shù)據(jù)為驅動,以相關技術為支撐,打通業(yè)務系統(tǒng)與檔案系統(tǒng),推動全流程、全鏈條檔案數(shù)據(jù)價值發(fā)揮。例如,采用物聯(lián)網(wǎng)、云計算、深度學習、多模態(tài)人工智能大模型等,實現(xiàn)檔案數(shù)據(jù)的高級處理、智慧服務和決策支持,助力企業(yè)的戰(zhàn)略規(guī)劃和市場適應。企業(yè)“檔案數(shù)據(jù)湖”正提供了一個高性能大數(shù)據(jù)平臺,它集檔案數(shù)據(jù)收集、存儲、管控、利用等諸多功能于一體,能夠推動企業(yè)檔案數(shù)據(jù)轉型工作向縱深化發(fā)展。
(二)符合企業(yè)檔案數(shù)據(jù)治理需求
檔案數(shù)據(jù)呈現(xiàn)多來源、多模態(tài)、異構性、動態(tài)性特點,具體表現(xiàn)為檔案數(shù)據(jù)形成主體之多、檔案數(shù)據(jù)形態(tài)類目之多、檔案數(shù)據(jù)結構特征之雜、檔案數(shù)據(jù)演化發(fā)展之快。因此,其管理系統(tǒng)至少應具備以下能力。一是完備的輸入、輸出能力。即能夠兼容多元化數(shù)據(jù)源,并實現(xiàn)從中采集;同時能夠將分析處理后的檔案數(shù)據(jù)提供給不同用戶,以滿足不同業(yè)務需求。二是完全的存儲能力。即能夠存儲任意類型的海量檔案數(shù)據(jù),包括結構化、半結構化和非結構化檔案數(shù)據(jù),也包括文本模態(tài)、圖像模態(tài)、音頻模態(tài)、視頻模態(tài)等檔案數(shù)據(jù)。三是完善的管理能力。即能夠滿足檔案數(shù)據(jù)在不斷積累、演變中所產(chǎn)生的新要求。鑒于傳統(tǒng)數(shù)據(jù)倉庫難以同時具備以上能力,引入企業(yè)“檔案數(shù)據(jù)湖”至關重要。它作為新型大數(shù)據(jù)架構,良好適配檔案數(shù)據(jù)內(nèi)在特點與治理需求,是其管理系統(tǒng)建設的極佳選擇。
(三)助力消除企業(yè)檔案數(shù)據(jù)孤島
新修訂的《中華人民共和國檔案法》指出:“推進檔案信息資源共享服務平臺建設,推動檔案數(shù)字資源跨區(qū)域、跨部門共享利用。”[16]這就要求推進檔案數(shù)據(jù)共享,使得其能夠在企業(yè)檔案部門與業(yè)務部門之間高效流動。然而,由于大多數(shù)企業(yè)在建設檔案管理系統(tǒng)時,未充分統(tǒng)籌業(yè)務管理系統(tǒng)建設,導致兩者之間因數(shù)據(jù)標準、接口規(guī)范等差異未能實現(xiàn)全面對接。[17]目前,大多數(shù)企業(yè)檔案管理系統(tǒng)僅實現(xiàn)與OA系統(tǒng)對接,[18]但與產(chǎn)品數(shù)據(jù)(業(yè)務)管理系統(tǒng)、企業(yè)資源計劃系統(tǒng)、會計核算系統(tǒng)、電子郵件系統(tǒng)等之間仍存在“隔墻”,檔案數(shù)據(jù)孤島現(xiàn)象較為嚴重。而企業(yè)“檔案數(shù)據(jù)湖”能夠提供統(tǒng)一的存儲位置,集中存儲來自各個部門和系統(tǒng)的檔案數(shù)據(jù)。這有助于打破檔案數(shù)據(jù)孤島瓶頸,促進檔案數(shù)據(jù)跨部門共享和協(xié)作,同時簡化檔案數(shù)據(jù)安全和合規(guī)性管理。
(四)充分釋放企業(yè)檔案數(shù)據(jù)價值
如今,數(shù)據(jù)要素發(fā)揮著至關重要的作用。檔案數(shù)據(jù)憑借其邊際成本低、規(guī)模效應大、流動性高和可復用性強等特點,[19]正日益成為推動企業(yè)高質量發(fā)展的新動力。企業(yè)“檔案數(shù)據(jù)湖”建設正為充分釋放檔案數(shù)據(jù)價值提供支撐。一方面,它能夠集中存儲企業(yè)的全量檔案數(shù)據(jù),打下堅實的資源基礎;另一方面,依靠全鏈條管理流程,既能應對多樣檔案數(shù)據(jù)爆發(fā)式增長,又能從中持續(xù)洞察檔案數(shù)據(jù)價值,幫助企業(yè)作出更多高質量決策。此外,企業(yè)“檔案數(shù)據(jù)湖”的高度靈活性和可擴展性支持更廣泛的數(shù)據(jù)處理技術與工具集成,有利于進一步增強檔案數(shù)據(jù)在促進業(yè)務創(chuàng)新、優(yōu)化運營流程、提升客戶體驗等方面的戰(zhàn)略價值,進而為企業(yè)發(fā)展提供強有力的數(shù)據(jù)支撐和智能驅動。
早期“數(shù)據(jù)湖”架構僅分為數(shù)據(jù)接收和數(shù)據(jù)存儲兩大功能,并在數(shù)據(jù)存儲中劃分臨時數(shù)據(jù)區(qū)和原始數(shù)據(jù)區(qū)兩層結構。[20]在此基礎上,Lambda架構[21]和 Kappa架構[22]相繼出現(xiàn)。它們均具有數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)服務三類功能,區(qū)別在于前者同時使用流處理與批處理,后者僅采用流處理。隨著大數(shù)據(jù)技術的融合發(fā)展,“數(shù)據(jù)湖”架構功能愈加完善。《2022年中國云原生數(shù)據(jù)湖應用洞察白皮書》提出,目前最典型的“數(shù)據(jù)湖”架構具備接入層、存儲層、管理層、計算層、調度層和應用層六個功能層級。[23]基于此,本文從檔案數(shù)據(jù)接入、檔案數(shù)據(jù)存儲、檔案數(shù)據(jù)管理、檔案數(shù)據(jù)計算、檔案數(shù)據(jù)調度、檔案數(shù)據(jù)應用六大模塊構建企業(yè)“檔案數(shù)據(jù)湖”功能模型,如圖1所示。
根據(jù)與數(shù)據(jù)湖對應的“湖泊水生態(tài)系統(tǒng)”的運行規(guī)律,[24]六大模塊可進一步劃分為六個層級:“入湖”“蓄湖”“治湖”“測湖”“調湖”“用湖”。其中,檔案數(shù)據(jù)接入對應“入湖”;檔案數(shù)據(jù)存儲對應“蓄湖”;檔案數(shù)據(jù)管理對應“治湖”;檔案數(shù)據(jù)計算對應“測湖”;檔案數(shù)據(jù)調度對應“調湖”;檔案數(shù)據(jù)應用對應“用湖”。
(一)入湖:檔案數(shù)據(jù)接入模塊
該模塊主要功能是從不同數(shù)據(jù)源中獲取檔案數(shù)據(jù)。其一,從業(yè)務角度上說,檔案數(shù)據(jù)接入模塊涵蓋了與企業(yè)內(nèi)部各業(yè)務系統(tǒng)的接口,如辦公自動化系統(tǒng)、產(chǎn)品數(shù)據(jù)(業(yè)務)管理系統(tǒng)、企業(yè)資源計劃系統(tǒng)、會計核算系統(tǒng)、電子郵件系統(tǒng)等,以及企業(yè)外部機構的系統(tǒng)接口,即與企業(yè)業(yè)務存在合作、隸屬關系的機構。其二,從數(shù)據(jù)源角度上說,檔案數(shù)據(jù)接入模塊覆蓋數(shù)據(jù)庫數(shù)據(jù)、binglog增量數(shù)據(jù)、日志數(shù)據(jù)、數(shù)倉存量數(shù)據(jù)、埋點信息和物聯(lián)網(wǎng)數(shù)據(jù)等各類數(shù)據(jù)源,能夠從這些數(shù)據(jù)源中獲取檔案數(shù)據(jù)。其三,從數(shù)據(jù)結構角度上說,檔案數(shù)據(jù)接入模塊兼容結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù),能夠對多源異構的檔案數(shù)據(jù)做到無差別采集,做到應收盡收。此外,為保障檔案數(shù)據(jù)的全生命周期管理,在檔案數(shù)據(jù)接入時,企業(yè)“檔案數(shù)據(jù)湖”不僅從不同的數(shù)據(jù)來源中采集原始狀態(tài)的檔案數(shù)據(jù),還攝取其對應的元數(shù)據(jù)。元數(shù)據(jù)所包含的數(shù)據(jù)存儲位置、數(shù)據(jù)格式、數(shù)據(jù)模式、數(shù)據(jù)分布等信息有助于確保檔案數(shù)據(jù)的可發(fā)現(xiàn)性、可理解性和可信度,為企業(yè)檔案數(shù)據(jù)資產(chǎn)化和檔案數(shù)據(jù)要素化提供了必要的支持。
(二)蓄湖:檔案數(shù)據(jù)存儲模塊
檔案數(shù)據(jù)存儲模塊的主要功能是對接入后的數(shù)據(jù)進行儲存,應當具有可擴展性、高可用性、可伸縮性、數(shù)據(jù)持久性以及安全性等特征。[25]因為檔案數(shù)據(jù)存儲模塊的存儲對象包括多模態(tài)、多結構的檔案數(shù)據(jù),所以傳統(tǒng)的單一存儲系統(tǒng)已經(jīng)無法滿足企業(yè)“檔案數(shù)據(jù)湖”的現(xiàn)有需求,需要采用多存儲系統(tǒng)來存儲檔案數(shù)據(jù)。在檔案數(shù)據(jù)存儲模塊中接入多類型數(shù)據(jù)庫,如關系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、圖數(shù)據(jù)庫等,對應地存儲不同類型的檔案數(shù)據(jù)。在此基礎上,為了保證數(shù)據(jù)安全和訪問權限控制,還可以對檔案數(shù)據(jù)進行分區(qū)存儲。橫向上可以根據(jù)檔案數(shù)據(jù)的生命周期進行劃分,分為原始數(shù)據(jù)區(qū)、數(shù)據(jù)加工區(qū)、數(shù)據(jù)產(chǎn)品區(qū);[26]縱向上,可以根據(jù)數(shù)據(jù)主題或者企業(yè)業(yè)務性質進行劃分,如在鐵路行業(yè)數(shù)據(jù)湖中,就將數(shù)據(jù)按照主題和業(yè)務劃分為了運輸對象、運輸產(chǎn)品、市場營銷、調度指揮、運輸生產(chǎn)、設備設施、物資管理、人員及機構、建設管理、綜合協(xié)同規(guī)劃、財務管理等11塊區(qū)域。[27]此外,為保證部分涉密檔案數(shù)據(jù)的安全問題,在上述分區(qū)方式外還可以單獨設置敏感數(shù)據(jù)區(qū),將涉密、不公開的檔案數(shù)據(jù)存儲在此區(qū)域以防泄露。

(三)治湖:檔案數(shù)據(jù)管理模塊
檔案數(shù)據(jù)管理模塊的主要功能是對存儲在企業(yè)“檔案數(shù)據(jù)湖”的檔案數(shù)據(jù)進行統(tǒng)一管理。檔案數(shù)據(jù)管理模塊是為了保證企業(yè)“檔案數(shù)據(jù)湖”的檔案數(shù)據(jù)能夠關聯(lián)的、有組織的供用戶檢索利用,具備良性價值,以免“檔案數(shù)據(jù)湖”退化為“數(shù)據(jù)沼澤”。在此背景下,企業(yè)“檔案數(shù)據(jù)湖”更強調對于檔案數(shù)據(jù)的管理、治理和資產(chǎn)化能力。具體實踐層面,企業(yè)“檔案數(shù)據(jù)湖”需要具備一系列的數(shù)據(jù)管理組件,即基本管理組件和擴展管理組件。其中,基本管理組件包括數(shù)據(jù)安全管理、主數(shù)據(jù)管理、元數(shù)據(jù)管理、數(shù)據(jù)資產(chǎn)目錄管理及數(shù)據(jù)標準管理等功能;[28]擴展管理組件包括任務管理、流程編排以及與數(shù)據(jù)質量、數(shù)據(jù)治理相關的能力。前者是為了保證企業(yè)“檔案數(shù)據(jù)湖”具備最基礎的檔案數(shù)據(jù)管理能力,后者是在前者的基礎上通過管理、編排、調度、監(jiān)測在“數(shù)據(jù)湖”中處理數(shù)據(jù)的各類任務來保證檔案數(shù)據(jù)不失準,確保企業(yè)“檔案數(shù)據(jù)湖”的可信性。
(四)測湖:檔案數(shù)據(jù)計算模塊
檔案數(shù)據(jù)計算模塊的主要功能是通過不同的計算引擎對存儲在企業(yè)“檔案數(shù)據(jù)湖”的檔案數(shù)據(jù)進行處理、分析。在檔案數(shù)據(jù)計算模塊中可以劃分為三種計算方式:離線數(shù)據(jù)處理、實時數(shù)據(jù)處理和人工智能處理。其中,離線數(shù)據(jù)處理,即批處理,是指在離線狀態(tài)下對企業(yè)“檔案數(shù)據(jù)湖”中存儲的歷史數(shù)據(jù)進行統(tǒng)一批次的處理;[29]實時數(shù)據(jù)處理,即流處理,是指企業(yè)“檔案數(shù)據(jù)湖”一旦獲取新的實時數(shù)據(jù)后就立即對實時數(shù)據(jù)進行處理分析。[30]前者的主要優(yōu)點是能夠處理的數(shù)據(jù)量巨大,自企業(yè)成立以來的歷史數(shù)據(jù),都可以存儲、計算處理、分析應用,且數(shù)據(jù)結果更加準確,但缺點是數(shù)據(jù)處理存在延時性。后者的主要優(yōu)點是數(shù)據(jù)處理結果時效性強,能夠為企業(yè)提供快速的數(shù)據(jù)分析和反映,提供即時性的決策支持,但缺點是資源消耗大。此外,隨著人工智能技術的發(fā)展,自然語言處理、機器學習等前沿應用更是日臻成熟,為企業(yè)的數(shù)字化轉型注入了強大動力。聚焦于企業(yè)“檔案數(shù)據(jù)湖”建設,借助自然語言處理技術,能夠讓系統(tǒng)精準理解檔案數(shù)據(jù)中的文本信息,無論是合同條款、報告內(nèi)容還是員工反饋,都可快速解析;機器學習算法則能依據(jù)海量檔案數(shù)據(jù)的內(nèi)在規(guī)律,自主構建模型,對檔案數(shù)據(jù)執(zhí)行深度挖掘、分類以及預測等復雜運算。如此一來,諸多原本依賴人工手動操作的檔案數(shù)據(jù)分析任務得以實現(xiàn)自動化處理,大幅削減了人工干預環(huán)節(jié),不僅有效規(guī)避了人為誤差,還極大地提升了檔案數(shù)據(jù)處理的效率與速度。企業(yè)在實際運用當中需要根據(jù)不同的業(yè)務需要選用企業(yè)“檔案數(shù)據(jù)湖”中不同的檔案數(shù)據(jù)計算組件。
(五)調湖:檔案數(shù)據(jù)調度模塊
檔案數(shù)據(jù)調度模塊的主要功能是支持用戶從企業(yè)“檔案數(shù)據(jù)湖”中讀取檔案數(shù)據(jù)。在檔案數(shù)據(jù)調度模塊中需要注意三點設計思路:一是構建“三個統(tǒng)一”體系。重點聚焦于設置統(tǒng)一標準、推行統(tǒng)一查詢語言,并為用戶打造統(tǒng)一的API接口。通過這一系列舉措,打通檔案數(shù)據(jù)流通渠道,切實達成檔案數(shù)據(jù)的全面共享,徹底打破長期以來阻礙檔案數(shù)據(jù)互通的“數(shù)據(jù)孤島”困境,為檔案數(shù)據(jù)的調度筑牢根基。二是設置讀取型schema模式。企業(yè)的“檔案數(shù)據(jù)湖”別具匠心地引入動態(tài)架構機制,根據(jù)具體的業(yè)務需求和使用目的,在每次調用檔案數(shù)據(jù)的瞬間定義所需的數(shù)據(jù)結構,順勢觸發(fā)ETL流程,高效地對原始數(shù)據(jù)進行抽取、轉換與加載,讓檔案數(shù)據(jù)能夠以最適配當下業(yè)務場景的形態(tài)呈現(xiàn)。這種靈活性不僅打破了傳統(tǒng)靜態(tài)數(shù)據(jù)架構的桎梏,還使得檔案數(shù)據(jù)猶如靈動的工具,能夠緊密貼合企業(yè)不斷變化的業(yè)務流程與決策需求,為企業(yè)發(fā)展注入強大的數(shù)據(jù)驅動力。三是強化用戶訪問權限管控。為了保障檔案數(shù)據(jù)的安全性,在統(tǒng)一API接口的訪問設置下認證和授權是至關重要的環(huán)節(jié)。將用戶清晰劃分如“普通查閱員”“數(shù)據(jù)錄入員”“系統(tǒng)管理員”等角色,并根據(jù)不同級別的用戶生成不同等級的API密鑰,即用戶訪問API的“電子身份證”。不同級別用戶的API密鑰對應不同權限集,每一級別的用戶只能訪問權限內(nèi)的檔案數(shù)據(jù),而無法跨權限訪問。
(六)用湖:檔案數(shù)據(jù)應用模塊
檔案數(shù)據(jù)應用模塊的主要功能是利用企業(yè)“檔案數(shù)據(jù)湖”為企業(yè)各業(yè)務部門提供檔案數(shù)據(jù)服務。企業(yè)“檔案數(shù)據(jù)湖”建立的最終目的是充分發(fā)揮檔案數(shù)據(jù)的潛在價值,賦能企業(yè)主營業(yè)務高質量發(fā)展,提升企業(yè)核心競爭力。為了實現(xiàn)這一目的,檔案數(shù)據(jù)應用模塊的建設不可或缺。檔案數(shù)據(jù)應用模塊需要根據(jù)企業(yè)的實際業(yè)務需求設計數(shù)據(jù)服務組件,包括BI報表、數(shù)據(jù)大屏、數(shù)據(jù)挖掘、機器學習、數(shù)據(jù)科學等,進而提供行業(yè)預測、用戶畫像、個性化推薦等服務。例如,油氣田企業(yè)在“勘探開發(fā)數(shù)據(jù)湖”中就設置了數(shù)據(jù)查詢、項目庫、高速索引、大數(shù)據(jù)分析、領域知識庫等數(shù)據(jù)應用。[31]
基于企業(yè)“檔案數(shù)據(jù)湖”的架構模型,可以從數(shù)據(jù)摸底、技術選型、數(shù)據(jù)接入、融合治理、業(yè)務支持五方面著手構建企業(yè)“檔案數(shù)據(jù)湖”。
(一)數(shù)據(jù)摸底
對于企業(yè)而言,進行全面的檔案數(shù)據(jù)資產(chǎn)摸底是構建企業(yè)“檔案數(shù)據(jù)湖”的基石,是至關重要的第一步。這一步不僅涉及對檔案數(shù)據(jù)的來源、類型、形態(tài)、模式、總量和增量等基本屬性的詳盡記錄,而且還包括對檔案數(shù)據(jù)的存儲位置、使用頻率、訪問權限和質量狀況等方面的細致盤點。通過數(shù)據(jù)摸底。企業(yè)能夠清晰掌握檔案數(shù)據(jù)資源的全貌,識別數(shù)據(jù)孤島,評估“數(shù)據(jù)湖”建立的復雜性和可行性。此外,數(shù)據(jù)摸底也是一次深入梳理分析企業(yè)結構的機會,通過追蹤數(shù)據(jù)流路徑,分析業(yè)務流程與企業(yè)結構的關系,有助于優(yōu)化企業(yè)流程,促進業(yè)檔融合,提升檔案數(shù)據(jù)共享效率。這一步的摸底結果將直接影響企業(yè)“檔案數(shù)據(jù)湖”的用戶角色設計、權限控制策略和服務交付模式。明確不同角色用戶的檔案數(shù)據(jù)處理和訪問需求,可以為企業(yè)設計出更加精細化和動態(tài)的權限管理系統(tǒng),在確保檔案數(shù)據(jù)安全的同時,也促進了檔案數(shù)據(jù)的合理利用。
(二)技術選型
根據(jù)數(shù)據(jù)摸底的情況,確定企業(yè)“檔案數(shù)據(jù)湖”建設的技術選型是一個關鍵決策點,它將直接影響數(shù)據(jù)湖的功能性、可擴展性和成本效益。目前,市面上已經(jīng)涌現(xiàn)了一些較為成熟的數(shù)據(jù)技術,可以為企業(yè)“檔案數(shù)據(jù)湖”提供參考:檔案數(shù)據(jù)接入上可以采用RDS全量模板、DTS增量模板、TableStore模板、SLS模板以及文件格式轉換5種模板;[32]檔案數(shù)據(jù)存儲上可以采用關系型數(shù)據(jù)庫、Hadoop分布式文件系統(tǒng)(HDFS存儲)、對象存儲等方式(云存儲,如S3、OSS和OBS)等;[33]檔案數(shù)據(jù)管理可以采用元數(shù)據(jù)管理系統(tǒng)如Apache Atlas等工具;檔案數(shù)據(jù)計算可以采用Spark、Trino、Prestodb、Flink、Hive等多模態(tài)計算引擎;[34]檔案數(shù)據(jù)調度可以采用Lake Formation[35]、YARN[36]、Apache Kyuubi[37]等為企業(yè)“檔案數(shù)據(jù)湖”提供統(tǒng)一的訪問接口;檔案數(shù)據(jù)應用可以采用人工智能、大數(shù)據(jù)等技術。
(三)數(shù)據(jù)接入
明確識別并選定將被整合進企業(yè)“檔案數(shù)據(jù)湖”的數(shù)據(jù)源,進行全面數(shù)據(jù)抽取和建立持續(xù)的數(shù)據(jù)增量更新機制。在數(shù)據(jù)接入環(huán)節(jié),需要根據(jù)數(shù)據(jù)摸底的結果并結合企業(yè)實際業(yè)務需求,明確需要接入企業(yè)“檔案數(shù)據(jù)湖”的業(yè)務系統(tǒng),如辦公自動化系統(tǒng)、產(chǎn)品數(shù)據(jù)(業(yè)務)管理系統(tǒng)、企業(yè)資源計劃系統(tǒng)、會計核算系統(tǒng)、電子郵件系統(tǒng)等,以實現(xiàn)檔案數(shù)據(jù)匯入企業(yè)“檔案數(shù)據(jù)湖”進行統(tǒng)一集中管理。同時根據(jù)選取的數(shù)據(jù)源選定檔案數(shù)據(jù)接入技術,保證能滿足非結構化檔案數(shù)據(jù)、半結構化檔案數(shù)據(jù)和結構化檔案數(shù)據(jù)的兼容性,同時涵蓋數(shù)據(jù)源元數(shù)據(jù)、檔案數(shù)據(jù)、檔案數(shù)據(jù)元數(shù)據(jù),為企業(yè)“檔案數(shù)據(jù)湖”的檔案數(shù)據(jù)處理打好基礎。
(四)融合治理
為保障檔案數(shù)據(jù)真實性、完整性、可用性和安全性,企業(yè)“檔案數(shù)據(jù)湖”將檔案數(shù)據(jù)治理與檔案數(shù)據(jù)管理、處理、應用等環(huán)節(jié)相融合。企業(yè)“檔案數(shù)據(jù)湖”可以實現(xiàn)對檔案數(shù)據(jù)的全生命周期的管理,依賴于檔案數(shù)據(jù)治理的要求融入檔案數(shù)據(jù)管理、處理、應用等環(huán)節(jié)。因為企業(yè)“檔案數(shù)據(jù)湖”采用讀取型sche? ma的特點,這會導致在調度檔案數(shù)據(jù)之前并不對檔案數(shù)據(jù)進行統(tǒng)一標準的定義,因而需要在檔案數(shù)據(jù)管理模塊對原始檔案數(shù)據(jù)進行有序性、關聯(lián)性管理,尤其是在處理低質量檔案數(shù)據(jù)、缺失檔案數(shù)據(jù)和重復檔案數(shù)據(jù)等問題時,保證檔案數(shù)據(jù)質量。而在調度檔案數(shù)據(jù)時,會觸發(fā)企業(yè)“檔案數(shù)據(jù)湖”對檔案數(shù)據(jù)進行ETL操作從而出現(xiàn)檔案數(shù)據(jù)精度缺失、格式錯誤、邏輯錯誤等問題。所以,企業(yè)“檔案數(shù)據(jù)湖”需要設計一整套全流程、全鏈條的檔案數(shù)據(jù)治理策略,包含數(shù)據(jù)清洗、數(shù)據(jù)質量監(jiān)控、數(shù)據(jù)規(guī)范、數(shù)據(jù)審計、數(shù)據(jù)加密和驗證等。
(五)業(yè)務支持
企業(yè)“檔案數(shù)據(jù)湖”的建立,為用戶提供了一個集中化的數(shù)據(jù)訪問和處理平臺,這個平臺通過統(tǒng)一的API接口,簡化了檔案數(shù)據(jù)的檢索和分析過程。然而,為了更深入地賦能企業(yè)的各主營業(yè)務,提升應用性能和用戶體驗,推薦采取一種更為主動的檔案數(shù)據(jù)服務策略。這種策略不僅響應業(yè)務需求,還通過預測和引導業(yè)務發(fā)展,提供更加精準和高效的檔案數(shù)據(jù)支持。利用企業(yè)“檔案數(shù)據(jù)湖”的技術優(yōu)勢,可以保持檔案數(shù)據(jù)處理和建模的高度靈活性和敏捷性,快速適應并支持業(yè)務的持續(xù)發(fā)展和變化。這意味著“數(shù)據(jù)湖”中的檔案數(shù)據(jù)不再是靜態(tài)存儲,而是動態(tài)地與業(yè)務流程和決策過程相結合,為業(yè)務創(chuàng)新提供源源不斷的檔案數(shù)據(jù)動力。在這種策略指導下,各個業(yè)務部門可以根據(jù)自己業(yè)務的獨特需求和特點,細化和定制檔案數(shù)據(jù)模型。這些檔案數(shù)據(jù)模型將更貼近實際業(yè)務場景,更有效地支持復雜的業(yè)務分析和決策。同時,業(yè)務部門還可以根據(jù)檔案數(shù)據(jù)模型優(yōu)化檔案數(shù)據(jù)使用流程,提高檔案數(shù)據(jù)處理的自動化和智能化水平,減少人工干預,提升檔案數(shù)據(jù)處理效率。
在企業(yè)實現(xiàn)高質量發(fā)展道路上,檔案發(fā)揮著基礎性、支撐性作用,數(shù)據(jù)發(fā)揮著放大、疊加作用。檔案數(shù)據(jù)因其擁有前述兩者的雙重特性,而發(fā)揮著“1+1>2”的倍增效能,是企業(yè)至關重要的資產(chǎn)與生產(chǎn)要素。但由于檔案系統(tǒng)與業(yè)務系統(tǒng)之間的融合度尚有提升空間、檔案信息化與企業(yè)信息化的協(xié)同發(fā)展程度有待加強、檔案數(shù)據(jù)化的推進速度相對較為緩慢等多重因素,企業(yè)仍存在著檔案數(shù)據(jù)供給質量不高、流通機制不暢、價值釋放不夠等問題。鑒于此,企業(yè)“檔案數(shù)據(jù)湖”建設勢在必行。作為企業(yè)高質量發(fā)展的重要驅動力量,它能夠為企業(yè)提供一個集集中存儲、有序管理、精準處理、智能服務等功能為一體的檔案數(shù)據(jù)平臺,進而充分發(fā)揮檔案數(shù)據(jù)賦能企業(yè)業(yè)務發(fā)展的新勢能。
*本文系中國人民大學科學研究基金(中央高校基本科研業(yè)務費專項資金資助)(項目編號:23XNL018)的研究成果之一。
注釋及參考文獻:
[1]馮惠玲,李華.檔案工作現(xiàn)代化的重大課題:論檔案計算機檢索的數(shù)據(jù)準備[J].檔案學通訊,1992(1):41-45.
[2]中國人民大學電子文件管理研究中心.會議速遞|2023檔案數(shù)據(jù)產(chǎn)教融合大會主旨報告內(nèi)容速覽![EB/OL].(2023-10-17)[2024-06-07]. http:// erm.ruc.edu.cn/n/2023/10/17/3553.html.
[3]熊志云.計算機輔助檔案管理概述[J].成人教育學報,1998(1):29-31.
[4]陳陽,吳雁平,劉永.檔案數(shù)據(jù)與數(shù)據(jù)檔案定義的演化過程[J].檔案管理,2022(3):20-24.
[5]陶水龍.大數(shù)據(jù)視野下檔案信息化建設的新思考[J].檔案學研究,2017(3):93-99.
[6]于英香.從數(shù)據(jù)與信息關系演化看檔案數(shù)據(jù)概念的發(fā)展[J].情報雜志,2018,37(11):150-155.
[7]劉慶悅,楊安蓮.檔案數(shù)據(jù):概念、分類及特點初探[J].檔案與建設,2019(10):4-7.
[8][10]金波,楊鵬.大數(shù)據(jù)時代檔案數(shù)據(jù)治理研究[J].檔案學研究,2020(4):29-37.
[9]于瑾.區(qū)塊鏈賦能高校檔案數(shù)據(jù)治理:價值審視與路徑分析[J].蘭臺內(nèi)外,2023(18):15-16+19.
[11]DIXON J.Pentaho,hadoop,and data lakes [EB/OL].(2010- 10- 14)[2024- 06- 09].https://jamesdixon.wordpress. com/2010/10/14/pentaho-hadoop-and-data-lakes.
[12]叢莉.淺析數(shù)據(jù)湖技術在檔案信息化領域的應用[J].山東檔案,2023(3):35.
[13][14]黃家凱.地質數(shù)據(jù)湖構建方法淺析[J].數(shù)字技術與應用,2020,38(11):135-138.
[15]中華人民共和國國家檔案局.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].(2021-06-09)[2024- 06- 13].https://www.saac.gov.cn/daj/toutiao/ 202106/ecca2de5bce44a0eb55c890762868683.shtml.
[16]中華人民共和國國家檔案局.《中華人民共和國檔案法》已由中華人民共和國第十三屆全國人民代表大會常務委員會第十九次會議于2020年6月20日修訂通過[EB/OL].(2020-06-20)[2024-06-14].https://www.saac.gov.cn/daj/yaow/ 202006/cfc8c422e68f4d3aae46389a3c470a5f.shtml.
[17]葉英俊.國有企業(yè)檔案數(shù)字化的探索與實踐探究[J].辦公室業(yè)務,2023(22):161-163.
[18]洪剛.“單套制”要求下的國有企業(yè)電子檔案自動歸檔及統(tǒng)一管理研究:以江蘇省N市為例[J].改革與開放,2023(22):7-15.
[19]趙德芹.智慧化背景下檔案管理信息化面臨的挑戰(zhàn)與對策研究[J].蘭臺內(nèi)外,2023(36):49-51.
[20]GIEBLER C,GROGER C,HOOS E,et al.Leverag? ing the data lake:current state and challenges[C]//0RDONEZ C,SONGL-Y,ANDERST-KOTSIS G,et al.Big Data Analyt? ics and Knowledge Discovery.Cham:Springer,2019:179-188.
[21] MUNSHI A A,MOHAMED Y A I.Data Lake Lambda Architecture for Smart Grids Big Data Analytics[J].IEEE Access,2018(6):40463-40471.
[22] J. Lin.The Lambda and the Kappa[J].IEEE Internet Computing,2017,21(5):60-66.
[23]馬妍嬌.2022年中國云原生數(shù)據(jù)湖應用洞察白皮書[J].數(shù)字經(jīng)濟,2022(Z2):20-27.
[24]趙生輝,胡瑩,白秋晨.基于數(shù)據(jù)湖架構的智慧檔案館生態(tài)系統(tǒng)構建研究[J].山西檔案,2021,(6):5-14.
[25]陳氫,張治.融合多源異構數(shù)據(jù)治理的數(shù)據(jù)湖架構研究[J].情報雜志,2022,41(5):139-145.
[26]秦麗娟,吳恩政,趙逸君,等.地質數(shù)據(jù)湖數(shù)據(jù)存儲架構與統(tǒng)一元數(shù)據(jù)實現(xiàn)[J].自然資源信息化,2024,(4):19-26;33.
[27]李國華,鄒丹,李海軍,等.鐵路數(shù)據(jù)分布式湖倉一體架構分析與設計[J].現(xiàn)代信息科技,2024,8(1):54-58.
[28]田蕾.油氣田企業(yè)數(shù)據(jù)湖的構建與應用探討[J].信息與電腦(理論版),2023,35(18):30-32.
[29]杜曉萍.融媒體監(jiān)測監(jiān)管大數(shù)據(jù)分析技術研究[J].廣播與電視技術,2023,50(6):124-127.
[30]陳洪軍,葉麗珠,陳其龍,等.產(chǎn)品全生命周期工業(yè)大數(shù)據(jù)采集與管理范式探究[J].機電工程技術,2024,53(3):72-77.
[31]張蕓.油氣田企業(yè)勘探開發(fā)數(shù)據(jù)湖架構設計[J].中國管理信息化,2022,25(12):133-136.
[32]彭志偉.數(shù)據(jù)湖|多數(shù)據(jù)源一站式入湖解決方案[EB/ OL].(2020-11-23)[2024-06-20].http://t.csdnimg.cn/XkjuU.
[33][37]郭利榮,童坤坤.數(shù)據(jù)湖研究綜述[J].軟件工程,2023,26(12):6-11.
[34]魏文定,鄂海紅,王曦,等.云原生數(shù)據(jù)湖服務平臺的設計與實現(xiàn)[J].計算機技術與發(fā)展,2024,34(2):17-22.
[35]賈寧波,孫琢,王凌.基于磁光電存儲技術的數(shù)據(jù)湖總體架構探討[J].中國信息化,2023,(5):39-44.
[36]謝麗.大數(shù)據(jù)分布式處理技術賦能企業(yè)財務報告審計研究[J].財會通訊,2024,(23):138-141;154.
作者單位:中國人民大學信息資源管理學院