文·王偉
數據治理(Data Governance)是涉及數據使用的一整套管理行為。國際數據管理協會對數據治理的定義是對數據資產管理行使權力和控制的活動集合。具體講數據治理就是對存量數據治理、增量數據管控的一個過程,對存量數據實現由亂到治、規范貫標,對增量數據實現嚴格把控、履行標準規范。檔案數字化是隨著計算機技術、掃描技術、掃描線性CCD技術、OCR技術、數字攝影技術(錄音、錄像)、數據庫技術、多媒體技術、存儲技術的發展而產生的一種新型檔案信息形態,它把傳統載體的檔案資源轉化為數字化的檔案信息,以數字化的形式存儲,網絡化的形式連接,并對檔案信息資源進行數據治理與服務開發利用,以期滿足新時期用戶高效化、知識化和個性化需求。近年來,檔案的數字化工作在機關和企事業單位推進較快,為機關企事業單位檔案信息化建設奠定了良好的基礎。目前由于檔案數字化工作中數據質量檢測環節不夠理想,已成為檔案數字化工作乃至整個檔案數字化轉型過程中的短板和瓶頸。解決好檔案數字化轉型過程中存在的數據質量問題,需要從源頭提升數據資源質量,做好數據治理體系建設,以助力實現檔案數據資產增值、挖掘利用、質量提升的發展戰略。
檔案數字化質量檢測工作是指對數字化檔案信息資源的質量檢測,從源頭上解決數據權責不清、數據重復錄入、數據質量規范參差不齊等問題,從而達到提升數據質量目的,做到事前預防、事中控制、事后檢查追溯,從而實現檔案數據質量、檢查、分析、提升的目標。依據檔案信息化的程度,可將檔案數字化工作的質量檢測,可分為治理前質量檢測和治理后質量檢測。
治理前質量檢測包括,一是對計算機處理及掃描處理等技術完成后信息進行檢測,對檔案掃描處理以及文本和圖像頁的匹配等質量進行檢驗;二是對文本域錄入與文本入域的標引、文件的頁號和頁數進行對比;三是對圖像質量的檢查,確保圖像版面清晰、干凈、大小一致、方向一致;四是對影像文件是否重頁、缺頁、漏頁、頁面信息不完整的檢測;五是對件內文件排序規則存在問題檢測等。
檔案數字化工作的治理后質量檢測,主要包括符合性質量檢測和適用性質量檢測。符合性質量是指數據符合國家標準、企業標準的程度;適用性質量是指數據適合業務需求目的、使用要求的程度。對數字化檔案治理后質量檢測可以從兩個維度進行處理,一級維度可包括規范性、完整性、準確性、一致性、及時性、可用性;二級維度可根據一級維度進行指標細化,例如在規范性方面進行進一步質量檢測,可包括數據模型、數據標準、業務規則、內容格式等細顆粒的檢測。在完整性維度可細化為非空檢查、內容完整性、參照完整性、接受完整性等,如圖1所示。對檢測后的數據質量進行評分,形成基于業務維度的數據質量分析報告和基于系統維度的數據質量分析報告。
檔案數字化質量檢測的重點,應在于檔案數字化治理后的質量檢測。治理后的質量檢測由評估維度管理、質量規則管理、初步質量分析、數據質量檢查、問題數據處理、質量評估報告等部分組成。通過管理數據質量評估規則,構建數據質量評估模型,建立質量規則庫、提供數據標準化清洗和質量稽核服務,實現數據的標準化、規范化應用,逐步實現對檔案數字化質量的檢測和管控。
根據對部分省直單位檔案數字化工作的調研,其數據質量檢測情況和治理水平現狀如下。
一是掃描文件和影像數據質量檢測簡單化,只完成圖片本身和著錄項目的質量檢測,沒有進行檔案數字化治理后的檢測,大多存在著重復存儲,價值密度低,不能形成多維度檔案數據質量報告和檔案數據的進一步應用開發。
二是檔案數字化質量檢測能力不足,數據治理水平不高。這是因為在檔案數字化質量檢測過程中,缺乏統一的數據質量管理流程體系,缺少對檔案數據質量的檢查、有效管理及考核,造成大量臟數據、多源數據等現象存在,影響了應用效果。同時,缺少問題數據管控,也會在發現問題數據后,不能進行合理的問題數據處理,導致在跨部門跨領域檔案數據集成與共享時的數據質量難以保證。
三是數據治理前的質量檢測信息服務功能單一,對后期檔案數字化綜合開發利用、協同性和共享性等不足,很難改變檔案單一的使用功能,無法實現檔案數字化的數據圖譜建設,構建圖譜模型和標簽模型,并進行加工建模分析,關聯量化,將檔案的數據資源轉變為管理資源、決策資源。
一是建立數據質量管理流程體系(見圖2),建立數據質量稽核制度,形成數據質量評估報告。

數據質量稽核由數據質量檢查服務對數據進行指定規則檢查,并分別根據不同規則特點提供不同的檢查方法,包括但不限于格式檢查、范圍檢查、相似重復記錄檢查、缺失記錄檢查等。經過數據質量稽核生成問題數據清單,并根據數據確權進行問題數據分派,方便數據操作者修改問題數據,形成閉環的問題數據管理體系。數據質量評估報告包括查看檔案數字化的數據質量匯總情況及評分,查看各表質量評估的明細信息,數據質量檢查的規則引用情況、問題數據檢測情況、問題記錄占比(包括但不限于按列、評測維度、檢查方法等維度的問題記錄占比情況)、問題數據修正情況等。
根據數據質量檢測、監控,跟蹤質量評估測量結果、發現質量變化趨勢,及時對質量異常問題進行預警。定期對增量數據的質量進行分析,形成數據質量關鍵指標數據和檢測監控報告,一旦檢測到數據質量檢測、監控異常情況,及時進行處理或人工干預。
二是建立一體化大數據治理與服務平臺(數據底座平臺)。該平臺能夠實現全鏈路、全生命周期的檔案數據設計、管理、應用的敏捷化、協同化、一體化,既能從業務、職責事項、質量、安全、分布、可信來源等角度了解數據資源,又能通過數據管理建立包含標準、質量、安全、標簽、來源、確權、編目、規則等八個維度的數據模型,通過數據模型驅動數據服務平臺提供數據采集、交換、加工、共享、協同等數據服務,實現“知曉全局,摸清家底;管好數據,運籌帷幄;用好數據,發揮價值;敏捷開發,降低風險”的目的。
三是要踐行“數字賦能、融合發展”的檔案服務理念,積極推動檔案部門與其他部門開展數據、技術、業務協同合作,制定統一的數據標準、接口規范、調用規則,為實現輕量化、協同化、區域化的數據對接與共享奠定基礎;完善檔案信息資源區域共享機制,建設互聯互通、數據共享、綜合利用的公共檔案資源數據服務平臺,構建全方位、全覆蓋的服務體系,以高質量的檔案數字化質量檢測工作推動擴展檔案數據資源的綜合利用。