深入推進檔案資源體系建設,加快檔案資源數字轉型,建立以檔案數字資源為主導的檔案資源體系,是“十四五”期間全國檔案事業發展的主要任務之一。對于全國縣級以上綜合檔案館來說,大力推進增量檔案的電子化,繼續做好存量檔案的數字化工作,最終實現“應數字化檔案數字化率達到80% ”的目標,將是今后一個時期內非常艱巨的一項工作。因此,從微觀的角度深度解析紙質檔案的數字化,不僅對于掌握檔案信息化關鍵核心技術,實現檔案信息技術創新發展具有重要的理論意義,而且對于高標準、高質量做好當前的檔案數字化工作具有重要的現實意義。
一、紙質檔案的數字化轉換過程
紙質檔案的數字化轉換過程是利用掃描儀等設備對紙質檔案進行圖像掃描,轉化為存儲在磁帶、磁盤、光盤等介質上的數字圖像的過程。平板掃描儀是最常用的紙質檔案數字化加工設備。進行檔案數字化掃描時,將紙質檔案放置于平板掃描儀的平臺玻璃板(稿臺)上,蓋好掃描儀蓋板,按下掃描鍵,掃描儀控制器發出掃描指令,開始對紙質檔案進行掃描。
掃描儀光源(冷陰極輝光放電管)發出的光線照射平臺玻璃板(稿臺)上紙質檔案。此時,大部分光線會被反射,少部分光線被吸收,還有極少一部分光線可能發生透射。其中,發生反射的光線再經過反光組鏡的反射照射到平板掃描儀的線陣電荷耦合器件(CCD,Charge-CoupledDevice的縮寫)上。CCD在光線的照射下生成大小不同的電壓信號,此時的電信號是模擬信號,無法被計算機直接識別和處理。接下來經過模數轉換器(ADC)進行信號的采樣、編碼等一系列轉換,將掃描檔案獲取的模擬電信號轉換成數字信號。
與此同時,步進電機控制器PWM(脈寬調制)技術控制步進電機轉動從而帶動驅動皮帶,驅動皮帶驅動掃描儀的光源和線陣CCD一起沿垂直于線陣CCD方向的傳動導軌上作線性運動,每運動一個增量,對檔案進行一行掃描。隨著步進電機的轉動,完成對整個檔案幅面的掃描,從而獲取該頁檔案的掃描數據。假設對1頁A4幅面的檔案進行掃描,掃描分辨率設置為 300dpi ,色彩模式選用8位256級灰度。掃描后得到的檔案圖像數據可達 210÷25.4×300)×(297÷25.4×300) I ÷
。以上數據中還不包括文件存儲格式中增加的大量標記所占用的存儲空間。如果采用24位、48位的色彩模式,那么數據量將分別增加3倍、6倍,達到24.90MB、49.80MB。這是僅對1頁A4幅面大小的檔案進行掃描而獲取的數據量。考慮到存儲成本、傳輸及利用等因素,特別是在以前存儲介質價格昂貴、網絡傳輸速率低的時候就顯得特別不經濟,因此通常不直接存儲、傳輸和利用這些數據,而是對這些數據進行壓縮處理,從而大幅減小圖像文件占用的存儲空間。目前常用有JPEG壓縮算法,根據不同的需要設置不同的壓縮比,可以將上述數據壓縮至幾百KB至1MB左右再進行存儲。
二、紙質檔案數字化的關鍵技術
在紙質檔案的數字化過程中,用到三個非常核心或關鍵的技術:一是掃描儀如何將紙質檔案轉化為數字信號即圖像數據,二是如何實現紙質檔案的彩色掃描,三是紙質檔案數字化掃描的數據如何存儲。
(一)CCD工作原理
CCD是美國貝爾實驗室在1970年前后發明的一種半導體器件。MOS(金屬一氧化物一半導體場效應晶體管,簡稱金氧半場效晶體管)電容器是構成CCD的基本單元,利用光電效應實現由光信號到電信號的轉換5。以P型硅為例來說明,MOS電容器是在同一P型硅襯底(半導體)上通過氧化在表面形成
絕緣層,然后在
層上沉積金屬電極(MOS電容的柵極),各柵級之間互相絕緣且相隔極小的距離。掃描儀的線陣CCD上均勻密集地排列著數千個MOS電容器,其表面的半導體是一個光敏元件,通常是一個光電二極管。1個MOS電容器構成1個像素點,而單位長度內CCD上包含的MOS電容器數量越多,其所能提供的掃描分辨率也就越高,掃描獲取的檔案圖像也就更清楚。CCD既是掃描儀的核心部件,也是實現檔案數字化轉換的關鍵。
1.光電轉換
光電轉換是CCD工作的第一步,其工作原理是半導體的內光電效應,也就是光生伏特效應。當掃描儀照射紙質檔案的光線反射在CDD的半導體上時,光子的能量被半導體吸收,MOS電容器金屬柵極附近的半導體內會激勵產生電荷(電子一空穴對)。人射半導體的光線越強,激勵出的電子一空穴對越多;電子一空穴對越多,電信號就越強,越容易被記錄或存儲,掃描檔案圖像的細節就更豐富、更接近原件。通過光電轉換的方式,把照射在MOS電容器半導體上的光強弱轉化成了電荷數量的多少,實現了光信號到電荷的轉換。
2.電荷的儲存
電荷的儲存原理是利用電子可以被高電勢所吸引的性質。P型硅里的多數載流子是帶正電荷的空穴,少數載流子是帶負電荷的電子。在沒有外電場的情況下,光電轉換激勵出的電子(空穴)對會在一定時間內復合并湮滅。于是,需要給MOS電容器的金屬柵極加上正偏壓,這樣產生兩個方面的作用,一是電場透過
層,在緊靠
層處形成耗盡區(勢阱),耗盡區的深度隨正偏電壓升高而加大。二是CCD光電轉換產生的空穴被排斥遠離,電子則能夠被吸引到柵極下的勢阱中,形成電荷包即信號電荷。
3.電荷的轉移
電荷的轉移是將儲存的電荷從一個MOS電容器轉移到另一個MOS電容器,直到轉移至輸出級的過程。它是通過變換MOS電容器的柵極電壓利用勢阱位置的移動來實現信號電荷轉移,具體過程是:首先通過控制相鄰MOS電容器柵極電壓的高低來調節勢阱的深淺。其次,相鄰MOS電容的兩個柵極之間的間隙很小。最后,在信號電荷自感生電場的庫倫力推動下,信號電荷由淺處流向深處,實現信號電荷的轉移。
4.信號的輸出
當信號電荷轉移至輸出級時,還不能直接利用,需要利用輸出節點電容將其轉換為電壓信號。電壓信號的強弱與信號電荷的多少成正比。由于光電轉換所激勵產生的信號電荷數量非常少,轉換的電壓信號也相當微弱,因此再利用放大器對電壓信號進行放大輸出。這時的電壓信號還是連續的模擬信號。放大后的電壓信號被送到模數轉換器(ADC)進行采樣、編碼等一系列轉換,最終得到檔案的數字化圖像數據。
(二)色分離技術
CCD只是將光信號轉換成大小不同的電壓信號,不能對所掃描檔案進行顏色識別,因此不能實現對紙質檔案的彩色模式掃描。要實現彩色掃描,需要對CCD光線進行色光分離,其原理是1666年艾薩克·牛頓發現的光的色散現象,即白光是由一端為紫色而另一端為紅色的連續色譜組成,人眼對紅、綠、藍色最為敏感,其他顏色則可以通過紅、綠、藍這三種顏色按照不同的比例組合產生,而紅、綠、藍這三種顏色也被人們稱為基色。
三CCD色分離技術與濾光片、光源交替色分離方式不同。三CCD色分離技術要使用三個CCD來完成紙質檔案的掃描過程。光源發出的光線經過一個特殊設計的分光棱鏡將紅、綠、藍光線分別反射到相對應的CCD上,每一個CCD產生一種顏色的圖像數據。這樣一次掃描即可得到紙質檔案數字化的彩色圖像。這種色分離技術掃描速度最快,但成本最高。隨著半導體制造工藝的不斷提升和成本的不斷下降,目前檔案數字化所采用的平板掃描儀大多使用三CCD分離技術來實現彩色掃描。
(三)JPEG
在檔案數字化工作中,通常將JPEG格式作為紙質檔案數字圖像長期保存的通用格式。這里的JPEG通常指的是將紙質檔案掃描后獲取的圖像數據經壓縮編碼后在硬盤、磁盤、光盤等存儲介質上儲存的一種數據封裝形式。我們習慣上稱之為JPEG格式或JPEG文件,但這并不準確。JPEG還可以是一個組織,是一種靜態圖像的壓縮編碼標準。JPEG組織、JPEG標準與JPEG文件格式既有關聯又有本質上的不同,三者不能混為一談
(1)JPEG組織。JPEG是聯合圖像專家組的縮寫,是1986年3月以個人名義發起的非官方組織,旨在開發一種靜態圖像壓縮和編碼標準間。(2)JPEG標準。1993年獲得國際標準化組織批準并于1994年2月發布,JPEG壓縮標準成為獲得CCITT和ISO共同認可的圖像數據壓縮標準。JPEG是一種有損壓縮算法。算法設計的基本原理是利用人的眼睛對圖像亮度變化的敏感程度大于對色彩變化的敏感程度,即對色彩中的高頻信息不敏感的特點,將亮度和色差分開表示,去除圖像中冗余的視覺信息和數據,從而達到壓縮數據的目的。(3)JPEG格式。JPEG是一種編解碼標準,不是文件格式。為了區分和識別圖像數據及其相關信息,JPEG在制定標準時定義了許多標記,解決了如何將圖像數據壓縮為字節流以及重新解碼為圖像的過程。
三、紙質檔案數字化的兩個技術指標
《紙質檔案數字化規范》第九章對紙質檔案數字化的掃描分辨率、掃描色彩模式進行了規定。
(一)掃描分辨率
分辨率是衡量一臺掃描儀掃描品質的最重要的性能指標,通常用圖像在每英寸長度內包含的點數或像素數表示。分辨率的高低不僅直接決定了掃描時所能獲取的圖像的精細程度,而且也影響到紙質檔案數字化的質量。關于掃描儀的分辨率又有光學分辨率、最大分辨率等提法。
光學分辨率又稱為物理分辨率、硬件分辨率或真實分辨率,是在紙質檔案數字化工作中所說的掃描分辨率。它是掃描儀的硬件(CCD)所能達到的實際分辨率,是衡量掃描儀掃描質量和掃描儀精度的決定性指標。如果掃描儀的性能參數信息為“光學分辨率
或“分辨率1200dpi”,則意味著這臺掃描儀的光學分辨率為
,即掃描儀電荷耦合器件CCD上每英寸包含有1200個MOS電容器
最大分辨率又稱插值分辨率,它是圖像處理軟件利用內插法對掃描出的圖像灰度、色彩等進行計算后得到的分辨率,對掃描儀的掃描質量沒有實質上的影響,掃描儀的分辨率實際以光學分辨率為準,光學分辨率相同的情況下,最大分辨率只能作為參考。
雖然掃描儀的光學分辨率越高,紙質檔案數字化掃描的質量也就越好。但是隨著分辨率的提高,檔案數字化掃描后生成的圖像數據也會急劇增加,掃描速度也會大幅度降低,紙質檔案數字化的成本也會相應增加,所以選擇合適的掃描分辨率對紙質檔案數字化工作尤其重要。《紙質檔案數字化規范》要求掃描分辨率應不小于
,當檔案文字偏小、密集、清晰度較差時,則要求掃描分辨率不小于
,這既是紙質檔案數字化工作的經驗總結,也是考慮到紙質檔案數字化成本問題,在掃描分辨率上作出的最優選擇。
(二)掃描色彩模式
1.黑白二值模式
黑白二值模式是指圖像上的任何一個像素點要么為黑色,要么為白色。如果用1位二進制數表示,則用0、1分別代表黑色、白色。如果用8位二進制數表示,則用0、255分別代表黑色、白色。掃描后獲取的檔案圖像黑白分明。當檔案的頁面為黑白兩色、字跡清晰、不帶插圖時,可以采用黑白二值模式進行掃描。
2.灰度模式
灰度模式是黑白二值模式的升級版。在灰度掃描模式下,若用8位二進制數來表示1個像素點,則將圖像的明暗程度從黑色至白色劃分為256個灰度等級,灰度值從0至255。紙質檔案數字化掃描時,像素點灰度值的二進制數位數越多,表示灰度級越多,掃描圖像的層次越豐富。目前市場上的主流掃描儀已經可以實現65536級(16位)的灰度掃描。當檔案頁面為黑白兩色,且字跡清晰度差或帶有插圖時,可以采用灰度模式掃描。
3.彩色模式
檔案數字化掃描中選用的彩色模式掃描一般是24位真彩色。24位真彩色代表的是用24位二進制數來表示掃描儀能夠區分色彩數的多少,24位也就是2的24次方(16777216)種顏色。24位二進制數分成3組,每8位表示一種顏色,即紅色、綠色、藍色三種基色,每種顏色又有256階層次。檔案掃描后每一個像素點的顏色值用一個24位的二進制數來表示。目前性能較好的掃描儀可以實現48位
參考文獻:
[1]中辦國辦印發《“十四五”全國檔案事業 發展規劃》[DB/OL].(2021-06-09)[2024-06-20]. https://www.saac.gov.cn/daj/toutiao/202106/ecca2de 5bce44a0eb55c890762868683.shtml.
[2]國家檔案局.DA/T31-2017紙質檔案數字化規范[S].北京:國家檔案局,2017.
[3]韓偉.掃描儀的工作原理(上)[].家電檢修技術,2012(10):41-42.
[4]韓偉.掃描儀的工作原理(下)].家電檢修技術.2012(11):41-42.
[5]掃描儀工作原理[EB/OL].(2010-07- 22)[2024-04-04].http://www.360doc.com/conte nt/10/0722/12/1726391_40629664.shtml.
[6] Istv á n Sebesty é n. Some little-known彩色掃描。掃描儀的色彩位數越多,表示顏色數量就越多,就越能真實地反映檔案原始圖像的色彩,掃描出的檔案圖像效果也就越真實。但是色彩的位數也不是越多越好,色彩的位數多,意味著會有更多數據產生,需要更大的存儲空間,產生更高的存儲成本。
紙質檔案數字化是一項理論性、實踐性都很強的業務工作。無論是2005年的《紙質檔案數字化技術規范》,還是2017年的《紙質檔案數字化規范》,都在宏觀層面上對紙質檔案的數字化工作進行了非常詳盡、具體的描述和規范,各級綜合檔案館在紙質檔案數字化的過程中形成了一套具有本單位特色的檔案數字化管理制度。雖然CCD的發展已經非常成熟,并且在圖形圖像領域有著廣泛的應用,但是在檔案數字化領域只是將掃描儀等設備作為實現檔案數字化轉換的工具,至今還沒有在微觀層面上對紙質的檔案的數字化進行技術或理論解析。各級檔案館(室)的檔案數字化工作主要是由外包公司來完成,大部分檔案工作者對檔案數字化的相關技術和原理不知其所以然。因此,檔案部門特別是各級檔案館的檔案工作者要掌握檔案工作話語權,從理論層面對紙質檔案數字化進行深入的研究。
aspects of the history of the JPEG still picture-coding standard,ITU-T T.81 | ISO/IEC 10918-1 (1986- 1993)[]ITU Journal: ICT Discoveries.2020(1):1-36.
[7] ITU.ITU-T T.81 Information TechnologyDigital compression and coding of continuoustone still images-Requirements and guidelines [S]. ITU,1993.
[8]令人拍案叫絕的JPEG圖像壓縮原理[EB/OL].(2022-12-16)[2024-04-05].https://zhuanlanzhihu.com/p/521617590.
[9]彩色掃描儀原理及優化設計[EB/OL].(2022-05-19)[2024-04-05].https://wenku.baidu.com/view/5d5483226ddb6f1aff00bed5b9f3f90f76c64dc7.html.
作者單位:河北省檔案館(省方志辦)