陳嘉鈺
摘? 要:本文認為數字技術為智慧檔案館奠定了數字化的基礎,智慧技術則能使數字技術更加智能化;只有通過運用物聯網、云計算、云存儲等技術來提高檔案館系統的數據傳輸與計算能力、應用擴展能力和安全存儲能力,才能促進智慧檔案館持續健康的發展。
關鍵詞:智慧檔案館;數字檔案館;數據化
Abstract: This article believes that digital technology has laid the foundation for digitization of Intelligent Archive, and smart technology can make digital technology more intelligent; only through the use of Internet of Things, cloud computing, cloud storage and other technologies to improve the data transmission and computing capabilities of the archives system, Application scalability and secure storage capabilities can promote the sustainable and healthy development of Intelligent Archive.
Keywords: Intelligent Archive; Digital Archives; Digitalization
檔案館是各類信息資源的主要保存和服務機構,長期致力于數字記憶保護工作,其中既包括文本內容的長期保存,也包括元數據的有效獲取。[1]面對大數據時代這一新型學術需求,智慧檔案館數據化管理應當借助數字技術,提高資源的語義化、智慧化水平,擴大信息共享的范圍和深度,積極創新服務方式和方法。
1 智慧檔案館數據化管理的必要性
1.1 檔案數據化轉型。檔案館收藏和保存了社會活動中的各政府機構和職能機構的重要文件、特殊手稿以及具有文化、歷史和文學意義的珍貴資料。檔案通常屬于未公開發表的唯一版本資料,更具有珍貴性與稀缺性的特點。另外,檔案的史料價值和證據價值也決定了其必然成為網絡基礎設施建設中的主力軍。新環境下,檔案館必須轉換思路,變藏為用,變被動為主動。
檔案數據化轉型指的是在檔案中,以數據作為載體和表現形式的那部分檔案,其外延既包括檔案內容、結構、背景數據,也包括非檔案內容本身但檔案產生的軟硬件環境數據、檔案業務活動過程中產生的數據以及應該歸檔但未進行歸檔的政務數據等,既具有檔案性也具有數據性。
1.2 做好數據的前端控制和版本的永續存儲。對于數據的質量控制和長期存儲來說,檔案館具有理論和經驗優勢。檔案專家應該積極加入數據的前端控制和版本的永續存儲方案設計、實施和維護的各個階段中,幫助實現數字環境下的動態、原生數字數據進行實施數據采集、質量監控和版本的永續存儲,以備后期人文研究查考、利用。[2]因此,必須保證數據安全、可靠、完整。可讀的措施付諸數據“采集-處理-呈現”的全過程中,才可以有效防止數據的丟失和損壞。檔案專家應該積極介入專題數據庫及服務平臺的建設,在系統設計階段實行前端控制,對數據生成和管理質量進行監控,保證項目的后續實施效果和版本的永續存儲。
2 智慧檔案館數據化管理功能的實現路徑
2.1 數字技術支持讓檔案數字資源有了更為寬廣的生存空間。盡管網絡技術和數字技術飛速發展,讓檔案數字資源有了更為寬廣的生存空間,存儲技術、搜索技術、編目技術的出現使檔案數字資源各個管理環節更加趨于自動化、智能化、高效化,并且管理成本也在大幅降低。但對于其中檔案內容的數字化來說,智慧技術并不能取代數字技術。智慧檔案館對實體檔案可以運用射頻識別標簽實現泛在感知,可以運用3D庫房技術實現實時監測,但將實體檔案轉化成為不受時空利用限制的數字化資源則需要數字技術,數字技術將傳統載體檔案進行掃描、轉錄等,以數字信號形式保存在計算機中,同時還可以結合數字技術實現聲影檔案展示,為用戶提供虛擬體驗。如果沒有數字技術實現的數字化館藏,那么智慧檔案館的智慧將要大打折扣。
2.2 數字技術將人工智能與傳統文字識別技術進行結合。傳統的文字識別技術是將圖像進行二值化和灰度化后,將文字作為前景信息,其他部分作為背景信息,通過區分兩者的明暗不同來判別哪些是識別區域,再對文字識別區域進行切割和分類,最后基于統計模型進行糾錯和識別。但傳統識別方法在面對復雜的識別環境時難以提高識別準確率,如多語言混合、低分辨率、非均勻光照、藝術字體、復雜版式等情況,研究人員為了克服這些難點,嘗試了很多種方法。近年隨著深度學習的興起,打破了傳統OCR的技術瓶頸。傳統的機器學習需要先確定特征和標簽,然后用一系列算法對這些數據進行計算,然后保存模型,最后對分類的準確性進行預測。這種方法有其缺點,如果提取的特征數量過多,可能會因為偏向于某個特征而出現過擬合的情況,如果提取的特征數量過少,則可能沒辦法進行精確分類,出現欠擬合的情況。
傳統神經網絡算法采用全連接的網絡結構,一個28×28的矩陣可能需要11萬多個參數,參數實在太多,計算量巨大,在圖像識別中顯然不是很適合。于是開始考慮卷積神經網絡。卷積神經網絡的思想是在識別一個物體時,通常通過某個局部特征就能識別出該物體為何,并不需要全部識別,所以也可以通過局部特征識別整體而不是全連接的方式。卷積神經網絡通過卷積神經元提取上一層圖像的局部特征在自身所在隱層單元上映射成一個平面,并通過同平面層具有同一神經元權重值來保證特征映射具有位移不變性和旋轉不變性,同時特征提取后還有一個亞取樣層或稱下采樣層,用來求局部平均和二次特征提取,以提高神經網絡的畸變容忍能力。[5]這種方法的優點是,只需對初始值進行設置,隨后機器通過自適應和自學習的過程不斷調整卷積核的數量和滑動步長,而且參數數量可以減少幾個量級。
2.3 數字技術實現智慧檔案館管理功能的全面感知。智慧檔案館在檔案實體、檔案內容信息和檔案管理信息上具備全面感知特點,在數據運算和存儲方面采用“自有”和“云”的雙模模式,能通過利用移動數字信息查閱服務中心等現有信息發布利用平臺和三網融合實現泛在應用,最后從上到下,從內到外,全面運用所有技術進行綜合管理。
智慧檔案館期望通過運用物聯網、云計算、云存儲等技術來提高檔案館系統數據傳輸與計算能力、應用擴展能力和安全存儲能力,但由于沒有相關成功案例參考,建設過程中遇到資金不足、人才短缺、技術難關、政策支持和法律規范缺失等問題,需要長期的建設和研究,才能促進智慧檔案館持續健康發展。[6]
3 智慧檔案館數據化管理功能的實現價值
3.1 智慧檔案館數據化實現檔案的“活化”。智慧檔案館館藏數據化管理功能的價值主要體現在兩個方面[3]:一方面體現在檔案數據中,檔案數據這一部分本身即具備數據特征,是智慧檔案館館藏的數據基礎。另一方面是對數字化館藏進行數據化,通過將數字態檔案轉變為數據態,實現檔案的“活化”,使檔案可以被計算機檢索、組織、復用等,從而進行內容管理和智能分析。
在智慧檔案館的建設中,物聯網的應用是其中一大創新,其前端設備層承擔整個檔案館環境內的各類信息感知服務,包括射頻識別、傳感器、視頻監控系統等,這些前端設備每時每刻都在與周圍環境交互,產生實時數據。相比于數字檔案館的數字化特征主要體現在數字態館藏上,智慧檔案館的數據化特征已不僅體現在館藏層面上,還體現在管理過程中的各個方面,包括了檔案與檔案之間、檔案與人之間、人與人之間交互的所有數據,數據化特征已經滲透到智慧檔案館管理的方方面面。
3.2 實現數據化帶來了智慧檔案館管理理念的改變。數字檔案館的館藏主要有傳統載體檔案、數字化館藏以及原生電子文件等三種類型。原生電子文件種類很多,包括文本文件、圖形文件、數據文件、圖像文件、聲音文件、影像文件和命令文件等,[4]涵蓋了非結構化、半結構化和結構化三種類型文件,其中對文本文件的管理相比于數字檔案館的紙質數字化檔案來說,減少了圖像轉變為文字的過程。
數字化館藏則多以PDF、JPEG、MP3等數字態形式存儲,針對不同格式進行數據化轉換的方式不盡相同,其中紙質檔案的內容除了文本,可能還包含圖像信息,在對此類檔案的數字態成果進行數據化時,關鍵在于將圖像形式的檔案轉變為文本文件。通常采用OCR技術對圖像內容進行文字識別,隨著多年的發展,OCR識別的準確率不斷提高,有些公司的OCR產品聲稱可達到99%的準確率,但運用OCR并不是一勞永逸的,還需要后期進行人工核對和糾正,成本較高。經過OCR識別后,可采用PDF雙層格式存儲來避免后續轉換的麻煩,PDF雙層格式是將圖像層置于上層,而文本置于底層,這樣既能保證用戶對檔案內容進行文檔操作,又能保證檔案的傳輸安全。OCR是全文檢索的基礎,但如果想要實現檔案內容智能服務,還遠遠不夠。
經過OCR識別后的文本內容多為非結構化或半結構化,原生電子文件的類型更加多樣化,為了有效利用不同結構類型的檔案,首先應對非結構化和半結構化的文檔進行結構化處理,處理的顆粒度可以根據需要按照章節、段落或句子等來拆分,拆分后形成一個個XML片段,再對這些片段打上標簽,目的是為多維度檢索做鋪墊。標簽的另一個作用是為人工智能打下基礎,利用海量檔案內容對機器進行訓練,使機器能夠對內容分類做出判斷,將分類結果與人工標識的標簽進行抽樣檢查,計算出人工智能分類的準確率,再進行調整。人工智能分類只是檔案內容智能管理的一個部分,還需利用其他技術,如知識挖掘技術對檔案內容進行深度分析和總結,才能實現檔案內容的智能知識推送。
檔案從傳統介質到數字態,再到數據態的轉變,體現了管理顆粒度由粗到細的不斷深入。每次轉變都離不開技術的進步,同時也帶來了管理理念的沖擊和改變。
參考文獻:
[1]劉瀟.檔案信息化與數字化的發展趨勢分析[J].陜西檔案,2020(08): 35-37.
[2]盧鈺.電子文件管理的前端控制原則[J].蘭臺世界,2016(12): 52-56.
[3]趙躍.大數據時代檔案數據化的前景展望:意義與困境[J].檔案學研究,2019(10): 52-60.
[4]王英,蔡盈芳,黃磊.電子文件管理[M].清華大學出版社,2016.
[5]尹文楓,梁玲燕,彭慧民等.卷積神經網絡壓縮與加速技術研究進展[J].計算機系統應用,2020(09): 16-25.
[6]李樺.談智慧檔案館建設的認識誤區及對策[J].北京檔案,2020(06): 33-35.
(作者單位:鄭州輕工業大學 來稿日期:2020-10-04)