軒紅
電子檔案是由傳統檔案數字化的結果,同時也可以是辦公自動化后產生的電子文件,都是計算機產生的文字、聲音、圖片、視頻等信息的集合,其管理和使用都需要借助專門的設備。電子檔案的出現,改變了傳統檔案事業的工作方式和管理模式。對電子檔案的使用和管理,都需要了解其特征。
1? 電子檔案的特征
電子檔案不同于傳統的紙質檔案和實物檔案,它有自己的獨特特征:(1)電子檔案的不穩定性,其主要是存儲在磁介質上,主要有磁盤、光盤、磁帶等。這種介質容易受到震動、磁信號的影響,載體結構稍微變化,就有可能造成數據的丟失和破壞,這對電子檔案保存的環境有嚴格的要求。(2)電子檔案的非直讀性,電子檔案的閱讀需要借助一定的設備來進行,需要相關的軟硬件設備來進行閱讀,這就要求檔案館在保存電子檔案的同時還要保存其專門的閱讀設備。(3)電子檔案的易更改性,電子檔案的更改過程不容易被察覺,更改后不會留下任何痕跡,電子檔案在傳遞或更換其他載體時,容易被更改。電子檔案的增加、刪除、修改都非常方便,給檔案的真實性鑒定和保密性帶來一定的困難。(4)電子檔案對設備和技術的依賴性,檔案信息的加工、組織都需要借助一定的設備和軟件,還需要統一標準,標準不健全、不統一,容易出現在其他設備和環境下不能讀取、不兼容的情況,檔案資源不容易進行載體互換。
2? 電子檔案管理的難點
2.1? 檔案數據的不兼容性。數字檔案產生的途徑很多,有辦公檔案、數據檔案、照片、文本、視頻、聲音等各種形式的檔案資源,并且產生這些檔案的管理系統和應用程序也不一樣。這樣產生的各種各樣的非結構化數據在兼容性上就不好把握。不同類型的檔案需要不同的軟件才能打開,即使同一種文件在軟件升級后也有可能不兼容或者丟失數據。這種不兼容性給數字檔案的保存和使用帶來很大的困難。
2.2? 檔案信息冗余。由于不是完整的數據庫文件,各種各樣的數字檔案資源容易出現重復,數字文件的易復制性決定了其文檔備份較多,并且因工作需要可能會不定期地修改,這樣就會造成備份的不統一,尤其是手工備份文檔,更容易造成數據的冗余,不利于數據的長期維護,容易造成數據不統一。
2.3? 數字檔案信息之間的聯系弱。很多數字檔案是相對孤立的,缺少相對的聯系,導致系統沒有辦法識別兩份電子檔案的聯系和區別。在保證電子檔案安全的同時,強化檔案關聯共享。這種數字檔案的獨立性容易產生大量的數據孤島,如果文件的擴展名被修改或者丟失,該文件所關聯的程序則會失效,這種情況給電子檔案歸檔帶來不少的麻煩。
3? 電子檔案管理技術研究
電子檔案的管理技術主要分為原生電子檔案歸檔技術和數字化檔案歸檔技術兩種。
3.1? 原生電子檔案歸檔技術。原生電子檔案主要是指在生活和工作中,直接產生的電子文件,又具有一定的保存價值,形成原生電子檔案。原生電子檔案歸檔技術主要有:在線數據收割技術、網絡數字資源鏡像、白色檔案轉換技術、fedora檔案存貯系統等。
(1)在線數據收割技術:利用開源的原理,采用自動收割技術下載整個網絡空間,對其進行抽取和標引,并組織成檢索庫供用戶使用。奧地利國家圖書館和維也納科技大學聯合開發和使用該項技術,目前已經應用到奧地利數字圖書館和網絡學習空間。(2)網絡數字資源鏡像技術:這種技術主要運用主題和事件的方式對網絡資源進行選擇,并形成檔案資源的元數據,包括對多媒體和超文本的采集、標引、存貯并使用,最后運用人工編目的方式,為每份檔案創建一條目錄。美國國會圖書館開展的MINERVA項目采用的就是這種方式。(3)白色檔案轉換技術:這種技術主要為了盡量提高檔案的利用效率,并且又不破壞數字檔案的結構而采用的方法,即對原生的電子檔案逐步地仿真和轉化,由黑色檔案(原始檔案)經過保密加工和災難恢復等工作,轉換成灰色檔案,最后再經過訪問的限定和遷移變成白色檔案,供用戶使用,既保證了檔案的安全,也提高了檔案的利用效率。(4) fedora檔案存貯系統:這是一套基于linux操作系統的管理軟件。其允許數據的錄入、刪除和修改,通過這個系統可以實現原生數字檔案館藏資源建設,主要由弗吉尼亞大學、赫爾大學、斯坦福大學、耶魯大學和英國赫爾歷史中心共同參與完成,可以通過系統實現電子檔案的評價和初審,可以實現檔案的病毒檢測、自動生成檔案清單和信息包,并形成相關的檔案訪問權限。同時fedora還有數字對象存儲庫,并配有數字檔案的采集和標引系統,主要由英國惠康圖書館開發,包含對不同標準的元數據重新創建、整理和組織,并開發了元數據自動提取和實施方案。
3.2? 數字化檔案歸檔技術。數字化檔案主要是指將紙質檔案數字化后形成的檔案,這種檔案的優點是使用的過程中不會對檔案本體造成損壞,并且方便多人同時使用。主要有頁面自動分析技術、檔案數字化技術、多媒體數字檔案技術、3D激光掃描技術。
(1)頁面自動分析技術,即在數字化的過程中,自動對檔案的信息資源進行采集和標引,該技術首先對圖像進行預處理,然后提取圖片的信息,包括圖片的線、背景線、特殊符號、標題和文本等,最后進行文字的識別和重建。希臘國家信息與電子通信研究中心正在研究使用這種技術。(2)檔案數字化技術,主要包括紙質檔案的初始轉換,數據的管理和訪問,采用文章逐條、逐頁的數據加載方式,自動創建頁面級,手動創建文章即元數據的方式,采用SGML DTD(標記通用語言——文件形態定義)來反映,英國的曼徹斯特大學學者正在開發這種模式的歸檔技術。(3)多媒體數字檔案技術,這種技術主要研究了音頻檔案信號轉換的波段分析和恢復、信號提取、副本保存等關鍵技術,采用半自動的方式從視頻和音頻中提取元數據以供檢索使用。通過檢索相似性和曲線對比來對數字資源進行識別,這樣減少了數字化抽取過程中的信息丟失,意大利的帕多瓦大學在對這項技術進行深入研究,歐洲的很多國家都是使用這種技術。(4)3D激光掃描技術,這樣技術對實物檔案數字化有很大的意義,主要是通過三維掃描和模擬,將其存儲和開放使用,目前研究這項技術的主要有斯坦福大學、加州大學和中國科技大學,已經取得了初步的成果。
4? 結語
隨著數字化進程的加快,數字檔案產生的速度越來越快,研究數字檔案的歸檔技術,已經迫在眉睫了,文中介紹了不少的數字檔案方面的新技術,這些是數字檔案的保存、提取、收錄、檢索等技術,國內外關于數字檔案滿足用戶的檔案信息需求方面需要進一步加深,要以讀者服務為宗旨進行開發。
(作者單位:河南牧業經濟學院? 來稿日期:2015-08-20)