■ 徐欽梅/福建警察學院
■ 戴 敏/福建省檔案館
按傳統整理方式,檔案以“卷”或“件”的形式存在。從人們寫作閱讀的思維習慣來看,一份公文或一篇文章即是一“件”。案卷則是為了方便管理和利用,把內容或邏輯相關的檔案進行歸類形成的聚合體。隨著計算機技術引入檔案工作,人們開始從數據維度審視檔案工作。早期計算機分析處理能力不夠強,相關的技術和工具也尚未產生,當時計算機對檔案工作的主要作用體現在按傳統整理方式建立相應的目錄和原文數據庫以提供利用。進入21世紀,隨著大數據、人工智能等技術不斷迭代發展,檔案工作逐漸打破以“件”為最小處理單元的傳統思路。檔案尤其是其內容文本,不應僅僅滿足于數字化管理,更應實現數據化管理,融入“大數據”集合,為各類服務提供數據支撐。為此,新時代檔案工作者必須要在新的數據視角下探索檔案數據化管理。
傳統意義上的檔案不同于其他信息的特征,在于其“原始記錄性”,強調其記錄性和保存價值。隨著計算機技術的發展,大量自動化或半自動化的設備本身即具有記錄功能,逐漸擴大了記錄的外延。廣義上,數據是指對客觀事物的邏輯歸納,是表示客觀事物的未經加工的原始素材,經過加工成為信息。由此可見,數據也具有原始性(當然,數據的原始性與檔案的原始性還有所不同,數據的原始性主要是指其未經過分析處理,而檔案的原始性是指其在記錄上是第一手的,兩者的區別在于數據的原始性更加原始,因為一般而言檔案還經過了人為或設備的分析處理),同時數據背后是對事物的理解,因此數據是有邏輯關系或規則的。在計算機科學中,數據又特指所有能輸入計算機并被計算機程序處理的符號的介質的總稱。由于計算機存儲和處理的對象日益廣泛,因此客觀世界基本可以映射進計算機的虛擬世界,同時以數據形式收集整理的各類信息資料可以借助計算機技術進行分析處理。
因此檔案屬于廣義的數據,而且是一類重要的數據。除了其原始記錄性以外,檔案不同于“離散”的數據,它是經過整理的、有專門機構及人員管理的規范數據,這無疑為檔案實現數據化管理提供了便利。檔案數據與電子檔案是同一事物不同顆粒度的概念,但檔案數據的范圍更廣泛和復雜,它還包含了檔案相關的數據以及非電子形態存在的數據。同時,隨著檔案從“數字化”到“數據化”進程的加快,檔案以計算機領域的數據為形式進行處理也日益普遍。而數據形式的檔案與文檔形式的檔案雖然可能同樣是“數字態”(區別于“模擬態”,即模擬信息),其根本區別在于底層顆粒度的不同。與物理世界的開發取決于可操作的最底層物質結構一樣,信息的顆粒度直接影響虛擬世界信息處理的效率和層級[1]。因此,檔案數據化管理意味著檔案數據工作由傳統到粗粒度的文檔管理逐步過渡到細粒度、智能化的數據管理服務,更好地實現檔案管理內部的現代化和外部的精準高效化。
隨著大數據、人工智能、物聯網等數據技術應用的日益普遍化,檔案的來源也呈現數據化趨勢。如福建省在全國率先推行電子證照應用,電子證照數據源源不斷生成,其基本模式為“證照模板+數據庫”。證照模板相對固定,這樣就不用存放大量的非結構化證照圖文,而且在利用上數據化的證照信息更便于檢索、統計、分析[2]。類似的還有電子發票、工程檔案、醫療檔案等。數據化帶來的便利性使得前端文件管理和系統建設已經數據化了,而檔案管理卻相對落后,無法滿足政府部門“放管服”改革和大數據發展等的戰略要求。因此需要推進檔案數據化管理,實現數據時代文檔管理的“一體化”及檔案管理對象和檔案管理模式的匹配,推動新時代檔案工作高質量發展。
隨著人民群眾對個人權益和文化生活的日益重視,以及檔案工作服務中心大局的作用日益凸顯,檔案服務也日趨多元化,精準的定制化檔案服務成為人們對檔案服務提出的新的現實要求。目前傳統的檔案服務存在以下問題:一是未能實現精準服務。查詢利用的工具主要是檔案目錄,摘要和全文較少,因此很難在海量數據中準確找到所需數據,如利用者想要利用文件中的某個信息點,而該信息也可能存放在多份文件中,傳統的服務方式是通過檢索文件目錄信息查找到這些文件,再讓利用者逐份查看確認,這種做法既低效又不準確。此外,由于文件的開放控制是基于整份文件進行劃分的,這也限制了利用者對文件中某些開放信息的使用。二是未能實現智能化知識服務。傳統服務方式只能把檔案原文調出來,讓用戶自行分析整合信息,而不能基于數據和用戶需求智能生成定制化信息和進行知識服務,這在編史修志、文化研究或其他檔案信息深度開發利用中弊端尤為明顯[3]。這類問題導致的檔案服務中需求與供給不匹配現象,可稱為檔案服務供需失衡。
因此,要解決檔案服務供需失衡的現實問題,提升檔案服務水平,需要實現檔案數據化管理,在此基礎上開展以數據為顆粒度的檔案信息服務,這樣不但可支持全文、全庫檢索,也支持關聯信息的推薦,還可生成滿足用戶需求的定制化信息,具有重要的現實意義[4]。
從大數據對檔案管理工作帶來沖擊開始,檔案數據化管理就日益為檔案工作者重視。但現有研究主要是關于檔案數據資源的,部分涉及檔案服務,關于檔案數據化管理的文獻較少。總體來看,這些文章主要是將檔案數據化管理作為檔案工作的前沿方向進行研究,從思維、范式、轉型或某個視角進行闡述,較少探討實現路徑,未提出較為系統完整的實現路徑[5][6][7]。
綜合文獻來看,目前檔案數據化管理在實踐層面不夠充分,主要在電子發票、電子證照、工程檔案、科研檔案等本身來源就已數據化的電子檔案中開展。制約檔案數據化管理的主要問題在于:一是未完全實現從數據思維的視角收集和管理檔案。如一般要求將電子文件轉化為圖片或者版式文檔的檔案數據,這類檔案數據從人類閱讀的角度看可能較為直觀,但從計算機分析的角度則較為不便。二是以數據為顆粒度的電子檔案標準未能盡早確立,絕大部分相關標準依然是以“件”為主體而非以數據為主體考慮問題,尚未脫離將文件作為整體的管理思維,這導致檔案數據雖然在利用方面更有優勢,但在憑證性上得不到相關方面的支持,因此其服務范圍受到限制。三是傳統手寫體檔案的OCR識別率較低,提取數據文本多需要人工配合,工作效率較低,往往只能針對某類特別重要的檔案開展專項工作。
檔案工作的最重要模型之一即“收管存用”,實現檔案數據化管理的關鍵在“收”,重點在“管和存”,目的在“用”。實現路徑的要點是通過制定策略,運用計算機相關技術和工具自動進行數據治理,在治理過程中優化升級檔案數據,為利用提供各種便利。具體來說,檔案數據化管理的實現路徑包括以下幾個方面。
檔案是經過整理的規范數據,但問題在于符合何種條件的數據才能稱為檔案。數據背后有一定的邏輯關系,單純一個數值序列,如2米、1米、0.8米,并不能讓人明白是什么意思,但若告知是一個桌子的長寬高,這些數據就產生了意義。因此,面對數據的集合,要先理清其中的邏輯關系。傳統使用的文件或表單都有一定的制式,就代表著背后的邏輯關系。
新修訂《檔案法》第三十七條的“來源可靠、要素合規、程序規范”,明確了電子檔案的法定要求,但要具體落實檔案數據的憑證性,就必須事先定義符合什么樣邏輯描述的檔案數據可以稱為電子檔案。由于各種類型的檔案數據背后的邏輯關系是不同的,需根據業務實際進行定義,因此在確認檔案數據憑證性地位的同時,必須同步明確各類型檔案數據邏輯關系的相關標準。其關鍵點在于找到一種通用語言來描述檔案數據的邏輯結構,且這種語言必須足夠簡潔,具有足夠的擴展性,可以定義任何類型的檔案。因此,推薦采用XML(可擴展標記語言),它本身就是為了“提供統一的方法來描述和交換獨立于應用程序或供應商的結構化數據”而創設的,因此具有良好的通用性和可擴展性,理論上可定義任何類型的數據結構。
那么,是否可認為一份XML即是電子檔案呢?筆者認為是完全可以的,它可以滿足新修訂《檔案法》第三十七條“來源可靠、要素合規、程序規范”的十二字要求,只要是在相關機構的規范系統中生成的,采用了一定的技術手段,并有著相對齊全完整的元數據和內容數據,在邏輯上就能自足。應對數據篡改的風險可采用數據摘要、簽名、時間戳、區塊鏈等防篡改技術,與原始文件是何種格式并無關系。盡管傳統上一般僅考慮用XML來傳輸數據或者標記元數據,檔案的內容主體則認為仍需要用版式文件固化,但這是從人為閱讀的角度思考檔案數據帶來的結果。XML如何展示取決于閱讀器,尤其是從一般文本數據應用處理的場景來看,XML完全足夠且可支持全文檢索,如需展現為通常閱讀的版式,只要在閱讀程序中定制相關的模板,按閱讀習慣進行展示即可。真正有保存價值的檔案信息可完整存放在XML中,這樣就能保證在收集和整理階段大部分檔案直接以“數據態”形式存在,也能減少后期通過OCR等識別工作提取檔案數據的工作量。
對于圖像、音頻、視頻等媒體檔案,由于其價值本身就在于其媒體性,如圖像承載的是一幅書法作品,那么,即使能識別該書法的文本數據,使該書法便于查找利用,也必須保留其媒體數據的原始樣貌,否則便失去了作品本身的價值。因此一方面要運用人工智能技術不斷提高OCR識別的準確率,另一方面這類檔案無論提取的數據信息再怎么精確,原始的媒體仍需保留。可采用將媒體數據原封不動地存放在XML的一對標簽里的方式,對其他類似媒體檔案的特殊檔案也可采取這種做法。這類檔案在長期保存時要關注原始數據格式定期轉換為當前通用格式的問題。同時,媒體檔案確實存在內容識別的難題,但隨著技術的不斷成熟,可不斷提高內容識別的準確度,如圖像識別等技術可以幫助我們在電影的某一幀中標記相應的人物信息等。因此作為檔案部門,可先按原貌進行接收保存,待技術成熟時再進行相應的數據處理和開發。
“治理”一詞原本多出現在公共管理領域。從管理學角度,治理是指規范多元主體參與管理,從而彌補單一力量的不足。在數據化條件下的檔案管理必然是多元主體協同參與的檔案數據治理。檔案數據治理是檔案全生命周期管理的各類檔案治理主體基于一定的行動規則對檔案數據進行科學、規范、高質量管理的過程。在大數據時代,檔案數據治理的主體不僅僅是檔案部門,更延伸至社會各類組織,因此基于檔案全生命周期梳理治理主體,并適當放權、多元中心化,由管理本位轉換至治理角色,強調協同治理,是檔案數據治理應有之義。
收集是檔案數據治理的源頭,也是關鍵環節。在確認檔案數據的憑證性地位和保持媒體檔案的原始性樣貌基礎上,收集和治理應雙管齊下,貫穿整個檔案管理生命周期。在收集的同時就開始治理,將治理發現的問題主動反饋給收集主體,盡可能在前端解決問題。這里包含兩個問題:一是傳統的數字檔案,主要是數字化副本,由于提出了“檔案即數據”,急需轉型;二是新興的檔案數據或稱數據檔案,一方面要擴大傳統檔案數據的“歸檔”范圍,另一方面需要通過計算機技術和工具進一步挖掘和提升其價值。
當前檔案數據治理應基于數據層面進行分析處理。傳統數字檔案的治理還會是一個重要的工作,問題不僅僅在于格式的轉換和統一,還在于傳統數字檔案由于未實現全流程監管或無法監管到位,必然存在錯誤數據、誤差數據或數據丟失等問題。這些問題往往在利用時才會發現,而這時從事前期工作如數字化工作的人員已經離崗,追溯整改較為困難。
因此解決第一個問題,必須強調檔案數據的全流程監管和數據采集。但目前無論是在檔案部門內部,還是在檔案室和檔案館之間,都存在工作或系統銜接的問題,這樣反而無法全流程都按照一套標準貫徹執行下去。除了開發相應的系統打通全流程之外,還需要行政手段落實多元主體參與責任,相應工具(如檢測工具)輔助數據標準執行等。特別是軟件工具,可以直接內嵌數據標準,部署在前端,倒逼前端治理,減少監管成本。而對于已出現的數據問題,要充分運用技術和工具進行檢測,主動發現數據當中存在的問題并整改。
關于第二個問題,盡管目前已有不少相關技術工具,但人的理念是決定是否運用這些工具的前提,因此必須要先有數據采集和開發的理念,在治理主體中達成相應的合約或共識,才會在文檔生命周期中根據主體責任和義務適時對標收集相關數據,才能在治理中不斷優化提升各類檔案數據。特別在大數據時代,強調“全數據”屬性,因此應當將與數據檔案相關的數據也納入收集范圍。檔案治理主體應培養數據化管理思維,基于不同的項目合作共建,利用數據持續訓練優化檔案人工智能“大腦”,積累其“知識庫”,使其在應用中不斷更新迭代,實現檔案數據治理。
任何數據管理都必須基于數據的有效保存,而確保檔案數據的長期保存更是檔案部門的天職。當前,由于新的數字檔案爆炸式增長及其類型日益多樣化,其長期保存管理模式也日益復雜化,而長期保存管理模式,一則涉及保存的格式和數據組織形式,二則涉及保存的軟硬件環境和相關介質。檔案部門急需找到一種通用的、脫離依賴關系的保存格式。這種擺脫依賴性的格式必然是簡單的,如上文提到的XML,以及我們常見的TXT格式。至于其他展現時即相當復雜的格式,如DWG、WRL、DXF等格式,必然隨著時代進步和需求變化而不斷進化。長期保存對于檔案數據而言,還必須理清其邏輯關系,滿足“格式開放、自包含、自描述、自解釋”等要求。綜合來看,XML更符合大部分檔案長期保存通用格式的要求。如上文所述,XML展現形式可在應用層面實現,而底層數據依然采用最原始簡單的格式,這就需要檔案界和計算機界對此有相應的約定。
同時,部分不得不定期遷移的數據(即無法或不宜用通用格式表達的數據),不但要進行遷移,而且需要定期更新成當前格式,否則隨著時間流逝,可讀性會逐漸衰減。一般來講,新舊更換都有一定的過渡期,在對所存放的文件格式及內容認識的基礎上可以定制轉換策略,進行定期更新。過去認為保存能讀取原文件格式的閱讀器是一種方法,但由于底層操作系統也在迭代,需要保存的內容日益增多,難以落到實處,因此只有定期遷移和更新,才能保證數據是永“活”的。隨著理念的成熟,相應的數據遷移轉換工具和基于人工智能對數據狀況進行分析的工具也會逐漸開發出來,用于批量的格式轉換和預判數據是否需要進行遷移。
數據要在使用中驗證其可用性,因此對數據的適當使用和整理有利于數據治理,但過度或者不當的使用,會帶來數據保存的風險。傳統的觀念一般認為,檔案數據相對生產數據為“冷”數據,而在大數據時代,檔案數據不宜再視為“冷”數據,但其長期保存中的備份卻應當保持相當的穩定性。因此,在保證數據永“活”的前提下,配合采用多種介質備份的方式,整合不同介質的存儲特性,為檔案數據長期保存提供保障支撐。由于“數據態”檔案數據來源廣泛,因此在長期保存之前,可通過大數據相關技術進行“數據清洗”,減少無效檔案數據的存儲占用。同時引入監測和比對機制,可實時發現數據修改,確保數據與當初進入存儲池時完全一致。這種監測目前主要基于數據摘要技術,可進一步基于數據內容,運用人工智能進行更深度地監測。由于數據本身在不斷更新,因此數據除了保證和入存儲池時一致以外,還要定期在管理庫和長期保存庫之間做相應的擺渡,但不宜過于頻繁,以免干擾數據保存本身的機制。
以數據為顆粒度的檔案信息服務能有效解決當前檔案服務面臨的現實問題,實現這一服務也是檔案數據化管理的最終目的。因此在做好檔案數據“收、管、存”的基礎上,應進一步做好“用”:一是基于數據分析準確按需按權服務,即根據用戶的自身情況和實際需求,綜合分析該數據在此場景下是否可對該用戶進行開放,判斷該用戶是否有權限獲知該數據,做到“應知方知”,確保檔案數據利用的安全,同時做到“應知可知”,不因整件或整卷檔案的開放控制屬性影響其中可對用戶開放的檔案信息的獲取。二是定制化生成和推送用戶所需信息,即根據不同的用戶需求,智能地組織整理好所需要的信息,包括內容和對應的多媒體,在語義理解的基礎上,轉化為當前的語言進行回應,同時可引入VR、AR和3D展示等技術,豐富數據展現形式,實現人性化互動。三是跨區域統一共享服務。目前雖然各地陸續建成了數字檔案館,但數據孤島的問題依然突出,這嚴重制約著檔案數據服務的成效,特別在大數據時代,數據的匯集關聯可能會產生新的有價值的數據。檔案如能按標準生成,基于統一的交換格式,則天然地具有可共享的特性。因此共享除了行政方面的干預之外,數據標準的統一尤為關鍵。以數據為顆粒度定義檔案數據標準,在共享時會更具優勢。由于數據在提供利用時更為準確,安全性更有保障,也為其在互聯網等公共網絡上的利用提供了便利,如不用在網絡上傳輸整份檔案數據原文,只需要反饋用戶所需的數據或具有憑證性的碼即可。同時,基于數據顆粒度開展檔案數據協同共建工作,建立相應共識和長期貢獻機制并將其寫入系統,有利于各類檔案數據主體厘清權利和義務,安全共建共享,激發檔案數據資源共享的動力,推動檔案數據共享可持續深入發展。四是實時便捷提供檔案數據服務。在“馬上就辦”“一趟不用跑”“最多跑一次”等政策的指引下,檔案數據服務的效率也日益受到關注。基于人工智能技術,解決傳統開放審核工作滯后問題,使大量有價值的檔案數據得以及時開放,并通過文件和檔案數據的在線統一交換共享,加速文件歸檔,方便用戶異地查檔和遠程在線查檔,在提升檔案服務質量的同時提升檔案服務效能。