徐 晗,喻彥林,王宇嶸
(西南政法大學刑事偵查學院,重慶 400031)
字庫在文書檢驗中應用
徐 晗,喻彥林,王宇嶸
(西南政法大學刑事偵查學院,重慶 400031)
機制文書及印章的制作越來越依賴于計算機系統,而其文字形態、細節特征反映了計算機系統的字庫種類,間接反映了計算機的操作系統、排版軟件等軟件環境以及文書制作過程。因此,通過對計算機字庫的系統研究,對由文書上反映的字庫特征判斷其制作過程、制作軟件環境具有重要意義,它為文書檢驗提供一種新的視角以及方法手段。
字庫;文書檢驗;應用
機制文書及印章印文的檢驗是文書檢驗的重要內容。隨著計算機技術高速發展,利用計算機進行文字處理得到廣泛的應用,如各種現代印刷排版系統、計算機文字處理系統、印章制作系統等等。計算機系統進行文字的處理、輸出時,根據文字的編碼,調取指定字庫中對應編碼的字形信息,生成最終的輸出圖像。字庫特征受知識產權的保護,不同字庫中的相同單字字形特征存在或多或少的差異,并最終反映到制作出來的文書上。由于字庫技術與計算機操作系統、文字處理以及印章制作軟件版本、甚至打印機具的型號相關,因此,對機制文書以及印章印文中文字的歸屬字庫的檢驗對認定文書的制作軟硬件環境具有重要意義。
計算機所顯示和輸出的文字來源于其操作系統所安裝的字庫。計算機字庫是文字的字體以及相應的字符符號的集合[1],它定義了文字輸出的大小、分辨率等等,決定了字體形狀[2]。
(一)字庫種類
計算機字庫根據演變的歷程、使用的字形描述技術、顯示效果可以分為點陣字庫、輪廓矢量字庫以及曲線字庫[2]。
點陣字庫是以點的虛實來顯示每一個文字,根據其顯示的精細程度有16*16、24*24直到96*96以及更大,數字越大顯示質量也就越高。點陣字庫在早期的顯示屏幕、打印設備、排版印刷系統中有著廣泛的應用[3]。但由于其顯示質量存在局限性以及隨著顯示質量提高,其占用存儲空間也變大,讀取速度則變慢,不適用于高質量的顯示以及印刷。因此,隨著計算機技術的高速發展,點陣字庫逐漸失去主流地位,應用范圍也越來越小。
輪廓矢量字庫主要是以小段直線來描述文字軌跡,其精細程度比點陣字庫高但是比曲線字庫低[2],由此,其應用范圍越來越小,漸漸退出了計算機字庫的舞臺。
目前,曲線字庫是計算機字庫的主力軍,其制作原理以及顯示方式與點陣字庫和輪廓矢量字庫存在較大的區別,即不是以點的虛實或是小段直線來描述文字,而是以起始和終止坐標、半徑、弧度等參數來對一個字的筆畫輪廓進行描述,筆畫邊緣輪廓清晰、平滑,也不受放大倍數的限制和不失真[3],同時曲線字庫存儲量小、輸出質量高。根據輸出的質量以及應用范圍不同,主要有三種類型的曲線字庫,即 PostScript字庫、TrueType格式字庫、OpenType 格式字庫[2]。
1.PostScript字庫是按PostScript頁面描述語言語法定義的曲線字庫,其被認為是質量最高的字庫,主要運用在高質量輸出中,如照排機、CTP等設備[2]。
2.TrueType格式字庫由微軟與蘋果公司合作開發,它與PostScript字庫相比,在技術處理上,前者采用兩次曲線來描述字形輪廓,而后者采用三次,因此前者占用的存儲空間較小,但后者對文字的還原質量更高。TrueType字庫作為一種標準字庫格式兼容于所有流行的文字、圖形處理軟件,比如“Microsoft Word”文字處理軟件,用戶可以用它進行文字編輯,也可進行低精度的打印輸出[2]。
TrueType格式字庫為微軟的windows操作系統和蘋果的MAC系統的官方字庫格式,并預裝在操作系統中。目前應用于windows操作系統的中文曲線字庫格式主要為TrueType格式的字庫,在系統文件下的FONT文件下,后綴為“.TTF”格式。
3.OpenType格式字庫為Adobe公司與微軟公司于1995年合作開發出來的曲線字庫,是在TureType格式字庫基礎上的擴展,具有較強的兼容性以及豐富的排版特性,成為目前國際上流行的字庫格式。微軟公司從Windows 2000操作系統開始兼容OpenType字庫,其系統自帶的西文字庫都已升級到了OpenType字體格式[2],筆者相信未來的中文字庫也必將升級到這種格式。
(二)漢字字庫標準
漢字字庫標準主要是指漢字編碼標準,我國的漢字字庫標準從最早的GB2312-80標準經歷了幾代的擴充發展到2000年最新的GB18030-2000標準。其中GB2312-80標準為“基本集”于1980年發布,是中文信息處理的國家標準,該標準共收錄6763個簡體漢字,682個符號。GBK編碼兼容GB2312,共收錄21,003個簡/繁體漢字,883個符號,并提供1,894個造字碼位[4],windows95、windows98中的漢字字庫就使用的這個編碼標準。GB18030-2000標準于2000年3月17日發布,其作為國家強制性標準于2001年正式生效實施,該標準收錄了27,484個漢字,總編碼空間超過150萬個碼位,為解決人名、地名用字問題提供了方案,為漢字研究、古籍整理等領域提供了統一的信息平臺基礎,同時該標準與GB2312標準一脈相承,能夠實現新舊更新轉換[5]。
(三)windows操作系統中文漢字字庫概述
長期以來在計算機操作系統占主導地位的windows系列,其字庫兼用點陣字庫和曲線字庫,在%:windowsfonts中,以“.FON”和“.TTF”為字庫文件名后綴,其中,前者為點陣字庫,后者為曲線字庫。
在1995年,也就是從Microsoft windows 95操作系統開始,微軟公司使用中國中易中標電子信息技術有限公司(以下簡稱中易公司)的漢字字庫作為其簡體中文版windows系統的漢字字庫,其中中易宋體作為其操作系統和其他相關軟件的默認漢字字體,此時的中易字庫是基于當時的國家標準規定的漢字字型,在此稱為中易1995年字庫,總共包含兩種字體,即宋體和黑體。在此之后的windows98、windows2000/NT、windows XP 以及相關的軟件如office系列的默認字體都是使用的中易公司的1995年字庫[6]。
2000年,我國頒布了一項新的標準,即GB18030-2000,中易公司在此標準上開發完成了新的版本的字庫(5.00版本),在此稱為中易2001年字庫,該字庫相比之前的字庫增加了新的漢字,即對支持的字符集進行了大量的擴展,使一些生僻的或是以前老版本中沒有的文字能夠顯示并輸出,同時對字型進行了重新的設計[7]。同時,微軟在其windows Vista和windows 7操作系統和相應的office 2007軟件VP中使用了中易公司新開發的宋、黑、仿宋、楷體四種字體,但是其windows Vista和windows 7系統的默認字體則使用了由微軟自己發行的“微軟雅黑”字體,這款字體也隨著這兩款系統的簡體中文版同時發布。在2008年5月6日,微軟發布了適用于Windows XP的微軟雅黑字體版本[8]。
Windows操作系統中的字庫都存放在%:windowsfonts下,在安裝例如office軟件時,其office自帶的各種字庫將自動安裝到該目錄下,同時,電腦使用者可以根據自己的需要往該文件夾下安裝其他字庫文件,讓使用者在使用例如Word文字處理軟件時可以有更多的字體選擇。
(一)Microsoft Windows操作系統字庫對比
根據對以上各個版本的操作系統中Fonts文件夾的對比查看,可以將windows操作系統以Vista為分界線分為兩個時期,即windows 95至windows XP為一個時期,windows Vista與windows 7為另一個時期,其中前者中所使用的是依據GB18030-2000之前的舊標準制作的漢字字庫,操作系統默認字體為1995年中易字庫的中易宋體,同時還包括同時期的中易黑體,以及長城楷體(GB2312)、仿宋體(GB2312)等;而后者則為依據GB18030-2000標準制作的漢字字庫,其中中易宋體、黑體為2001年中易字庫,同時也使用了新標準下的中易楷體、仿宋體。但是其默認字體則使用了微軟公司自己開發的微軟雅黑字體庫,這又是一個區別較大的方面。
(二)Microsoft Office文字處理軟件字庫對比
Word軟件為Office系列軟件中的文字處理軟件,其根據不同的操作系統的發行而同步發行,在計算機文字處理領域占有主導地位,使用較為廣泛。筆者以Microsoft Word97到2007這幾個版本的軟件為對象,并分別將其安裝到對應的操作系統以及能夠兼容使用的操作系統中。在安裝該軟件時,其自帶的字庫自動添加到%:windowsfonts下。之后進行對比查看,其所反映的字庫使用情況與操作系統類似。
1.在Windows Vista之前的操作系統下,Word97到Word2003所使用的字庫都是基于GB18030-2000之前的舊標準,其常用字庫如宋體、黑體、楷體、仿宋體等都與操作系統字庫所反映的情況相同。
2.在Microsoft Windows Vista以及技術更為成熟Microsoft Windows 7操作系統下,Microsoft Word2007所使用的字庫則為新標準下的字庫,其常用字庫如宋體、黑體、楷體、仿宋體等都為中易公司2001年字庫,其與之前的Microsoft Word系列軟件所使用的字庫在字符數量和字型上存在了一定的差異,同時也新增了微軟雅黑字體庫。
(三)不同生產廠家字庫對比
Microsoft Word軟件在安裝的同時也會把其自帶的其他生產廠家的字庫安裝到%:windowsfonts下,使其在進行文字處理時擁有更多的字體選擇,同時根據使用者自身的需求也可以自己安裝系統能夠識別兼容的字體到該字體文件夾下,這就使不同廠家生產的字體進入Microsoft Word軟件的文字處理中。
眾所周知,字體庫的設計制作具有一定的創作性質,各個字庫也具有自己的版權,因此,各個廠家的相同字體會存在一定的差異,但這種差異相當細微,因為同是宋體,各個生產廠家都必須按照宋體字本身的特點和規范進行制作,而細微的差異就在于字庫中的相應字的節點、曲線、線上的控制點以及每個點的坐標值這些參數不同[1],這就如同手寫字跡的書寫人各有各的書寫習慣,書寫人在按照規范書寫樣式下書寫的字跡的起筆與收筆位置、形態,連筆方式、形態筆畫間的搭配、比例關系,各部首間的位置排列關系都會存在差異。筆者在此通過專業的字體設計解析軟件“FontLab”對不同生產廠商的字庫文字進行解析以了解其差異的真正原因。以下為筆者選取不同廠家(廠家名稱均以其簡稱代替)字庫的相同字體進行解析得出的圖例,其中楷體字為圖1,仿宋體字為圖2,微軟雅黑字以及黑體字為圖3,宋體字為圖4:

圖1

圖2

圖4
通過以上關于字庫的簡要介紹以及不同字庫間的對比分析,可以看到其中的差異在哪些方面,這些差異特點正是文書檢驗方法應用的切入點,筆者主要從以下方面進行探索。
(一)對文書形成方式的檢驗應用
在文書司法鑒定中,常常涉及到對于文書的形成方式進行檢驗鑒定,尤其是機制文書。例如是否偽造證書證件、是否一次打印形成,是否存在添頁換頁等等。
1.正規渠道發布的證書證件在印刷中會采取各種防偽措施,同時也是專門的印刷器械制作,其制作所使用的排版印刷系統當然會有其自己的字庫,如方正蘭亭字庫等等,因此除了在檢驗過程中重點檢驗其印刷用的紙張、油墨、特殊圖案、細微的背景底紋外,檢驗其上印刷文字的字庫特征也是一種初步檢驗方法,具有極高的否定價值,即如果被檢證書證件的印刷文字與真實的證書證件上的印刷文字屬于不同的字庫,那么該證書證件肯定不是真實的,而是偽造形成。
2.在對打印文書的形成方式進行鑒定案件中,常常涉及到單頁打印文書是否存在添加打印的內容而非一次打印形成,以及多頁打印文書是否存在換頁、添頁等情況。這類文書的檢驗方法主要是采取文件編輯格式的對比分析,以及打印機具的特征分析方法。例如字體字形、字間距、行間距、頁邊距、標點符號等編輯格式,以及打印機具造成的打印痕跡。在字體字形方面,一般來說偽造者肯定是按照原文本制作,做到字體的同一是很容易,但是做到字庫的同一卻絕非易事,因為紙質上的字跡沒有任何字庫信息的反映。
例如,同是宋體,不同生產廠家的宋體字庫也會存在差異,如果一個是中易宋體,一個是華文宋體或是方正宋體,都會存在差異。因此,在進行這類文書檢驗時,相同的字體也不能輕易放過其可能存在的差異,從而直接否定了文書為一次打印形成。添頁、換頁也是如此。
(二)對文書制作時間的檢驗應用
在文書司法鑒定中,文書形成時間的鑒定也是一個熱點難點。首先,其對文書本身的條件要求很苛刻,因為所采取的儀器分析方法對于文書字跡的形成成分有針對性,有些形成成分根據現有的儀器分析原理或者技術水平無法進行形成時間鑒定。其次,對于形成時間的精確程度不可能達到很高,只能確定一個時間段。在此,通過對字庫特征信息的分析雖然也面臨一些條件限制問題,以及無法做到很精確,但是其在初步檢驗中所具有的否定性結論價值很高,這不失為一種文書制作時間的檢驗方法,具有運用的價值。
利用字庫特征進行文書形成時間檢驗,存在一個前提條件問題,即該文書所用的字庫具有時間特性,如前文所說的windows Vista系統和windows 7系統的發布時間,其同時使用的字庫因此也具有時間特性,如微軟雅黑字體庫的使用;同時根據新的標準制作的新的字庫,若文書中使用了相應的字庫,則其發布時間便可作為其時間特性,如中易公司根據新標準制作的新的字庫,其也被收錄到微軟新的操作系統中。另一個方面,通過字庫特征進行文書形成時間鑒定,也主要是運用在儀器分析步驟之前的無損檢驗,同樣是具備極高的否定價值,如發現該文書所用字庫為微軟雅黑字體,而其時間鑒定要求是要鑒定其是否是在2006年的某一時期形成,那么可以直接否定,無需進行儀器分析。
(三)高仿真印文甄別的應用
在印章印文的司法鑒定實踐中,高仿真印章印文的檢驗是一個難點問題,容易出現錯誤。究其原因,還得從其制作方式入手,目前主流的印章的制作方式為激光刻章機、光敏印章機制章,這比以前的徒手雕刻的精度更高。激光刻章機的工作原理是激光管產生激光及其攜帶的高溫同步作用下,在印章材料上逐行掃描雕刻形成印章的圖文。光敏印章機的工作原理是將利用光敏墊的感光性,將文字、圖案通過曝光印在光敏墊上[9],再將光敏墊放入相應的章殼內注入標量光敏印油后制成印章。在激光刻章機和光敏刻章機制作印章過程中,二者都需要利用計算機中的印章制作軟件設計印稿,并通過印稿中圖文的數據信息來控制激光束對印章材料進行雕刻以及調節光敏印章機對光敏印章墊進行曝光,由此在印章材料和光敏墊上形成與印稿圖文基本一致的圖文[10]。其中,印稿上的文字都需要運用計算機中的印章雕刻軟件進行設計或處理,其對字庫的運用也與Microsoft Word等文字排版軟件相似,因而刻出的印章上之文字必然反映出印章雕刻軟件的字庫特征,從而為檢驗人員運用字庫特征對印章印文進行檢驗提供了依據。
對于制作高仿真印章的偽造人來說,其也應采取與其相同的制作方式進行偽造,因此,在制作印文印稿時會出現使用的印章雕刻軟件不同而使字庫不同,或者在使用相同的印章雕刻軟件時使用了不同字庫生產廠家的相同字體而造成字庫不同。從印文的字庫特征入手可以作為高仿真印章印文檢驗的一個視角,尋找到的不同字庫特征繼而可以作為甄別高仿真印章印文的確定性依據。
字體字庫是機制文書以及印章印文的重要信息,同時又是制作方式、制作軟件環境的反映,為追蹤機制文書以及印章印文的制作過程提供了新的線索。在文書檢驗過程中,通過對文書制作過程及原理的清晰認識,能夠透過被檢文書材料的外在特征反映而抓住其本質特性形成的真正原因,從而為檢驗過程中所做出的推理提供依據,對提高檢驗過程的科學性以及保證檢驗結論的正確性具有重要意義。因此,本文對計算機字庫進行探索,并將字庫分析引入文書檢驗方法中來,以作為文書檢驗中的一種視角以及方法手段。
[1]蔣玉宏,賈無志.計算機字庫的著作權保護及侵權判定[J].電子知識產權,2008,(9).
[2]孫幫勇,周世生.談談當前流行的字庫[J].印刷世界,2008,(2).
[3]殷笑秋.電腦漢字字體賞析與應用[M].上海:華東理工大學出版社,2001.12-25.
[4]信息交換用漢字編碼字符集[EB/OL].百度百科,(2009-12-30).[2010-04-13].http://bai-ke.baidu.com/view/25492.htm.
[5]GB18030[EB/OL].百度百科,(2010-03-24).[2010-04-10].http://baike.baidu.com/view/889058.html.
[6]中易宋體[EB/OL].維基百科,(2010-02-26).[2010-04-03].http://zh.wikipedia.org/wiki/%E4%B8%AD%E6%98%93%E5%AE%8B%E4%BD%93.
[7]字體門[EB/OL].百度百科,(2009-11-17).[2010-04-10].http://baike.baidu.com/view/2997688.htm.
[8]微軟雅黑[EB/OL].維基百科,(2010-03-29).[2010-04-03].http://zh.wikipedia.org/zh-cn/%E5%BE%AE%E8%BD%AF%E9%9B%85%E9%BB%91.
[9]殷軍華.激光刻章機與光敏印章機的3點區別 [EB/OL].(2008-12-01).[2009-05-01]ht-tp://www.lcgyjg.com/news/newsshow_138.html.
[10]賈智輝.利用激光刻章機雕刻、光敏印章機制印偽造印章印文的鑒定[J].中國司法鑒定,2009,(5).
Abstract:The making of documents and seals by machines becomes more and more dependent on computer system.The character form and detailed features reflect the types of word stock of computer system and indirectly reflect such software environment as operating system and typesetting software as well as the making process of documents.Therefore,systematic study of computer word stock is of great meaning for judging the making process of documents based on the characteristics of word stock reflected in them,and has offered a new visual angle and means of testing documents.
Key words:word stock;test of documents;application
(責任編輯:王道春)
The Application of Word Stock in the Test of Documents
XU Han,YU Yan-lin,WANG Yu-rong
(Southwest University of Political Science and Law,Chongqing,401120)
G201
A
1008-7575(2010)06-0110-04
2010-10-16
徐晗(1986- ),男,四川通江人,西南政法大學刑事偵查學院碩士研究生,研究方向為物證技術學;喻彥林(1980- ),男,河南周口人,西南政法大學刑事偵查學院博士研究生,講師,研究方向為物證技術學;王宇嶸(1986- ),男,浙江東陽人,西南政法大學刑事偵查學院碩士研究生,研究方向為物證技術學。