李曉明(國家圖書館 北京 100081)
中文字符數轉模清晰度研究*
李曉明(國家圖書館 北京 100081)
中、英文字符在結構、數量、字體等方面存在差異,相較來說,中文字符需要的線對數要求更高。數轉模技術結合中文字符的特征,以文字使用頻率和筆畫復雜度為遴選依據,確定中文典型字符。以中文典型字符為研究對象,采用縮微影像可讀性質量分析、文字光學等級測算和實驗驗證等方法進行分析,有助于厘清解像力、縮率與字符高度等要素的關系,提出數轉模技術對被拍攝中文字符高度的要求。中文字符數轉模工作的順利開展,有利于保證文獻拍攝清晰度符合要求,實現對文獻的保護。
數轉模 光學等級 中文字符 解像力
數轉模技術是將數字圖像通過數字存檔機轉換到縮微膠片上進行長期保存的技術,是對珍貴數字資源異質備份的有效手段,是數字資源長期保存的有效途徑。
近年來,全國圖書館文獻縮微復制中心(以下簡稱縮微中心)帶領多家成員館開展了數轉模轉換和設備研發工作,并從中發現了數轉模技術影像質量標準中存在的問題。當前國內數轉模技術所采用的相關標準均由國外標準轉化而來,而以國外相關標準考察中文文獻縮微影像,其清晰度并未達到理想水平。這是由于中文字符與英文字符在文字結構上的差異造成的。然而在實際工作中,這一點并沒有引起業界重視。業界普遍認為以120線對/毫米的解像力標準進行數轉模轉換便可得到令人滿意的影像,而忽略了字符結構的復雜程度對文字影像清晰度的影響。在此情況下,制定一套針對中文字符的數轉模技術標準來規范我國數轉模技術應用,是現階段亟待開展的工作。本文對中文字符進行系統分析,找出中文字符典型特征與數轉模各項技術參數之間的關系,從而提出中文字符原件的標準要求,為中文字符數轉模技術標準的制定提供理論基礎。
中文字符結構是指字符的形體和筆畫的復雜程度。在數轉模領域,字符結構是需要重點關注的,它和系統解像力、拍攝倍率、字符高度以及文獻的背景反差等縮微技術參數共同作用,決定著字符影像的清晰程度。
根據國家標準GB/T 16573-2008的早期版本GB/T 16573-1996《縮微攝影技術——在16mm和35mm銀明膠型縮微卷片上拍攝文獻的操作程序》中附錄D顯示,每個字符都有一定的光學等級(符號為C),并通過下列公式計算:C=H/d。其中,H為字型的大寫字符的高度,d為基本細部尺寸(基本細部可以理解為字符的最小線條寬度)[1]。
通過上述公式可以看到,在中文字符結構方面影響字符影像清晰度的關鍵在于字符的線條寬度。字符的結構越復雜,則線條寬度越小,光學等級越高。而光學等級越高代表字符可讀性越低。
在數轉模技術參數中,系統解像力為拍攝系統的固定參數,按國家標準要求應達到120線對/毫米;文獻的背景密度反差可通過曝光技術使其符合國家標準,其中涉及的變量是拍攝倍率、字符高度和字符線條寬度。
若要根據參數關系,獲得數轉模字符標準,則需要固定字符線條寬度,從而對其他兩項參數進行分析和研究。固定字符線條寬度的前提是明確研究對象,即遴選出中文典型字符。

表1 中文字符筆畫與使用頻率統計分析表
對于英文字符,通常選用小寫字母“e”為典型字母,這是由于在英文文獻印刷時,“e”字的清晰度最小。如果“e”的清晰度符合預定要求,那么其他字符的清晰度則都可以達到標準。1956年,美國NBS攝影技術部制作了“NBS解像力測試圖卡的使用法”手冊,其中有關于縮微膠片清晰度的鑒別基準項目,均采用字母“e”作為典型字符。然而,中文字符的識別與英文字符相比存在著很大的差異,如二者在字符遠近粘連、字體字符數量、形狀拓撲差別等方面各具特殊性。所以,在中文字符的清晰度鑒別上,“e”并不能作為參照,需要選取相應的中文典型字符。
在中文典型字符的選取過程中,我們以《通用規范漢字表》為基礎,其將中文字符總共分為三級:一級字表為常用字集,收字3 500個,主要滿足基礎教育和文化普及的基本用字需要。二級字表收字3 000個,使用度僅次于一級字。一、二級字表合計6 500字,主要滿足出版印刷、辭書編纂和信息處理等方面的一般用字需要。三級字表收字1 605個,為姓氏人名、地名、科學技術術語和中小學語文教材文言文用字中未進入一、二級字表的較通用的字,主要滿足各專門領域的用字需要[2]。在選取的過程中,我們以一級字表中的字符為選取范圍,以筆畫密度高、使用頻率高為原則,進行典型字符的篩選。中文字符結構復雜,僅選出某一文字作為典型字符是不具備代表性的。因此,筆者結合多重判斷條件,遴選出一組字符作為研究對象,結合相關漢字的使用頻率表和漢字的筆畫復雜程度[3],制作了數據統計分析表,如表1所示。
根據對一級字表中的漢字的橫畫進行統計,結合漢字的復雜程度與字符的檢出率,我們初步確定中文典型字符為 “是”“事”“藏”“最”“露”“量”“警”“矗”。
在確定中文典型字符的基礎上,我們需要結合縮微技術成像原理及相關標準,對上述字符進行分析研究。首先確定字符線條寬度,從而得到拍攝縮率和字符高度之間的對應關系,即在系統解像力為120線對/毫米的國家標準條件下,找出不同縮率對應的被拍攝原件文字高度標準的計算方法。
在中文典型字符分析中,筆者采用的方法是字符縮微影像可讀性質量分析法,分析對象是上述典型中文字符中最為復雜的“警”和“矗”。
在分析研究中,除了考慮文字本身的選取以外,我們還要考慮典型字符的字體。不同字體的光學等級不同,可識別程度也不同,因此典型字符的字體也是決定字符線條寬度的關鍵因素。在字體的選擇上,我們利用光學等級計算公式,對較為常用的宋體、楷體、黑體、隸書進行初步測算,每種字體所對應的光學等級數值如表2所示。

表2 不同字體對應的光學等級數值
從表2我們可以看出,宋體的光學等級最高,也就是識別度最差。因此,我們選擇宋體為研究對象的字體,便于適用到中文字符所有字體。
在選定典型字符和字體的基礎上,我們需要對字符線條寬度進行測量,并利用字符縮微影像可讀性質量分析方法進行進一步分析研究。
字符縮微影像可讀性質量分析可借鑒小穴純教授針對日文漢字縮微影像可讀性的研究成果。他在理論分析的基礎上提出了影像質量的計算公式和像質分級標準,最終指出:日文漢字縮微影像的可讀性質量(Q),與原件上漢字兩相鄰線條的最小距離,即細密度(S)和攝影解像力(R)成正比,而與拍攝時的縮率(M)成反比[4],如圖1所示計算公式為:

同時,將Q值分為3個質量等級,分別為:
Q≥2.5 影像清晰
2.5 > Q≥1 影像可分辨
Q<1 影像不清晰

圖1 字符高度與細密度圖示
為了力求精確,筆者在word中將文字大小設置為700磅,對文字的高度及細密度進行測量,并計算出高度與細密度的比值,結果如表3所示。
結合數轉模設備、膠片和光學成像原理,筆者將系統解像力設定為國家標準中要求的120線對/毫米,將縮率隨機設定為7.4、10.5和14.8,將質量等級設定為2.5及1.0,帶入公式1,并參照表3中計算出的文字高度與細密度的比值,可推算出中文字符的最小高度要求,如表4、表5、表6所示。

表3 基于不同文字的影像可讀性分析表

表4 “e”字字高數值對照表

表5 “警”字字高數值對照表

表6 “矗”字字高數值對照表
上述理論分析是在解像力符合國家標準的情況下,在不同字符、不同縮率、不同安全系數條件下,對文字的最小高度要求。從表4、表5、表6可以看出,數轉模技術對中、英文字符的最小字符要求差距較大。經分析,筆者認為,“矗”字為較復雜的常用文字,在一定程度上能體現常用中文字符的復雜程度。因此,在系統解像力為120線對/毫米、縮率為7.4時,原始文獻文字高度需高于2.4毫米;縮率為10.5時,原始文獻文字高度需高于3.41毫米;縮率為14.8時,原始文獻文字高度需高于4.81毫米。
這里需要說明的是,上述結論只適用于印刷字體,而不適用于手稿、油印件或是質量較差的原件。
為驗證上述理論值是否可靠,我們選用3張數轉模設備檢測標板,分別為7.4倍、10.5倍和14.8倍,以“是”“事”“藏”“最”“露”“量”“警”“矗”8個字符作為檢驗字符,如圖2所示,用數轉模設備OP300進行拍攝,采用FP505沖洗機進行沖洗,在顯微鏡下觀察試片、文字清晰度和文字高度。
5.1 觀察方法及原則
在觀察過程中,首先觀察固定縮率下能看清楚的文字高度,然后觀察在此縮率下所看到的測試圖的讀數,并詳細記錄。按照此方法對7.4倍、10.5倍和14.8倍3塊標板進行觀察,并記錄觀察數據。用顯微鏡觀察測試圖樣時,如果某個測試圖樣上兩個方向的線條都能區別清楚且筆畫等寬,則認為是可以分辨的;如果出現有某個筆畫突然變細的情況,則判定此字不能分辨清楚。按上述原則讀取并記錄可分辨的最小圖樣和最小字符高度。
5.2 實驗結果

圖2 實驗用技術標板
筆者綜合表7數據與表5和表6中文字高度的理論數值進行對比,考慮拍攝、沖洗等環節導致的誤差等因素,可以判斷實驗數據與理論數據基本吻合,可證明上述推斷方法具有參考意義。

表7 實驗中縮率、解像力、字高對應關系表
6.1 中文字符標準要求
根據上述理論分析及實驗結果,在將質量等級設定為2.5的情況下,數轉模工作可將字符高度標準要求設定如表8所示。

表8 文字高度與縮率、解像力關系
本文所選典型字符為中文字符中最為復雜的文字,因此,在制定標準時,文字高度最小值不必完全按照理論值進行設定。在實際工作中,數轉模工作者可結合工作項目情況和文字特點,自行選取典型字符按上述方法計算文字高度標準。同時,在質量等級的選擇上,數轉模工作者可根據項目需求在1到2.5之間選擇。
6.2 數轉模中文字符標準應用情況
自2011年縮微中心開始數轉模工作,截止到2015年底完成約140萬拍的數字文獻搶救工作,建立了完善的工作流程與攝制標準,并且將上述理論應用于實際工作中。
以地方志數字資源轉換為縮微膠片工作為例,縮微中心在數字文獻選取之初,先對文獻進行整理,測量待拍攝原件原始尺寸及文字高度。根據文獻原始尺寸確定拍攝縮率,以確保文獻影像大小符合國家標準。之后結合已確定的縮率和文獻文字高度,確定文獻拍攝清晰度是否符合要求。目前,地方志數轉模項目采用雙畫幅拍攝,縮率在10~14倍之間,按照表8 的縮率與文字高度的對應關系,最小文字高度應在4.05毫米到5.7毫米之間。若文字高度低于此標準,則利用120線對/毫米的解像力將無法得到完全清晰的縮微影像,這就需要通過提高系統解像力來提升影像的清晰度。目前,縮微中心所拍攝的地方志的文獻高度一般在6.5毫米左右,已高于該項目文字高度要求,經質檢檢驗,拍攝的文獻清晰度符合要求。
中、英文字符在結構、數量、字體等多方面存在差異,中文字符結構比英文字符更為復雜,字符細密度相差很大,在相同清晰度下,相應需要的線對數要求更高。數轉模技術在中文字符拍攝時需緊密結合中文字符的特征,將字體的光學等級與數轉模成像特點結合起來進行分析,進而確定中文字符在數轉模選取拍攝原始文件字體高度、縮率及解像力要求。同時,鑒于漢字結構所具有的復雜性、多樣性和密集性等特點,數轉模工作還需要在后期大量實驗基礎上,對前期數據進行不斷修正與整合,建立適合數轉模中文字符影像質量控制方法,保證國內數轉模的拍攝質量。
[1]GB/T 16573-1996縮微攝影技術——在16mm和35mm銀明膠型縮微卷片上拍攝文獻的操作程序[S].北京:中國標準出版社,1996.
[2]教育部國家語言文字工作委員會.通用規范漢字表[M].北京:語文出版社, 2013:4-41.
[3]漢字使用頻率統計[EB/OL].[2016-03-21].http://wenku.baidu.com/view/0902c8cf05087632311212b3.html.
[4]中國檔案學會檔案縮微技術委員會.第一次檔案縮微技術討論會論文選集 [C].北京:檔案出版社, 1991:141-143.
Research on the Technology of COM Concentrated on the Field of Chinese Characters
Chinese characters need higher logarithmic demand for the differences in structure, amount and font features between Chinese and English characters.The technology of COM(Computer Output Microfilm) determines typical Chinese characters by combining the features of Chinese characters, and using the frequency and the complexity of the strokes as the selection basis.It is helpful to analyze the relationship of resolution, shrinkage and text height, and determine the requirements in height of the Chinese characters in technology of COM to take typical Chinese characters as research object, and analysing by readability quality estimation method, text optical grade calculations and experimental verification methods.The development of COM would protect the documents and ensure the film clarity of the documents.
Computer Output Microfilm(COM); Optical grade; Chinese characters; Resolution
G255.72
A
*本文系2015年度國家文化科技提升計劃項目“中文字符數轉模技術研究”的成果之一,項目編號:2015-05。
李曉明 女,1970年生,現工作于國家圖書館,副研究館員,研究方向為文獻保存保護及數字化服務,已發表論文10余篇。
2016-03-31 ]