張文玥(西南大學 漢語言文獻研究所,重慶 400715)
?
數字化背景下古籍整理展望
張文玥
(西南大學 漢語言文獻研究所,重慶 400715)
摘 要:目前中文古籍整理的方式方法逐步走向數字化。在此背景下,展望古籍數字化在理論和實踐層面的發展方向,分析其發展過程中需要面對的變革迅速、資源整合、版權、參與主體等問題,以期古籍數字化的理論建設得到進一步完善,數據庫建設在職能化、智能化上能夠進一步深入。
關鍵詞:數字化;中文古籍;古籍整理;資源整合
古籍是一個民族歷史和思想的載體[1]。對它們的利用和保護,是古籍整理工作的重心所在。如今,用數字化手段進行古籍整理已經不新鮮。早在1988年,曹書杰先生對采用新技術整理古籍的新方法進行了初步分析[2]。1997年劉煒先生則正式使用了“古籍數字化”這一術語[3]?!肮偶當底只?,是從利用和保護古籍的目的出發,采用計算機技術,將常見的語言文字或圖形符號轉化成能被計算機識別的數字符號,從而支撐古籍文獻書目數據庫和古文全文數據庫,用以揭示古籍文獻信息資源的一項系統性工作[4]??梢哉f這是古籍整理范疇的一個問題。
計算機硬件和互聯網技術的發展是重要的技術變革,將此種新方法新手段應用到中文古籍的研究中,無疑能夠推動學術的進步。而數字化在現階段已經不僅作為古籍整理的一種手段,在一定程度上也成為古籍整理的大背景。
(一)職能化
樓宇烈先生從使用者的身份出發將中文古籍數據庫分為版本庫,專題庫和普及庫三種,分別對應著為了保護古籍,為專業研究者提供古籍數據和為一般讀者提供最基本額古籍讀本這三種職能[5]。這三種數據庫并不是平行的概念,而是涵蓋了不同年代不同質量,不同主題不同載體,不同用途不同目標人群的多個層次。為此,有必要按照這三個大類的方向進行具體的細致的建設,做好職能的區分,塑造多層次的立體化中文古籍數據庫網絡。
1. 版本庫
2. 專題庫
主要是為了向研究者提供研究資料,這也是我們建設數據庫的重要意義所在。除了按照主題分類(如中醫古籍、農業古籍、宗教經籍)和體裁分類(如地方志、家譜)等進行建設,筆者認為有兩個專題尤需重視:一是出土文獻數據庫。出土文獻相對于傳世文獻,“更為真實地保留著當時的面貌,具有極強的文獻真實性(authenticity)”[7],具有重大的文化價值。此外,它們更含有巨大的文物價值,所以,建立專門的出土文獻數據庫,不但有利于傳承文化信息,開放研究資料,更有利于它們的保護。而且,出土文獻的時間跨度極大,載體多樣,從商代甲骨,到周代青銅器,到戰國秦漢簡帛,到歷代碑刻,無疑值得細加分化和詳加考究。僅以簡帛數據庫而言,就將是一個巨大而艱難的工程,已有學者進行過相關討論,如張顯成的設想之一便是建設以圖版和釋文為主要組成部分的電子文字數據庫[7];二是少數民族古文獻數據庫。中國是一個多民族國家,雖然漢族占主體地位,但中華文化的輝煌離不開不同民族的碰撞與交融。而我們對漢族經典文獻的重視雖然必要,但也絕不可忽視少數民族古籍文獻,尤其在如今漢族趨于西化、少數民族趨于漢化的情況下,少數民族文化和文獻的保護更是尤為緊迫。以云南納西族為例,納西東巴文作為世界上唯一還活著的象形字,其研究意義不言而喻,但納西族東巴文的載體——各種經書,有相當一部分尚未得到徹底的整理,在現今的整理過程中,我們應緊跟潮流,及時進行數字化,建立納西東巴文(經書)數據庫。最早對納西東巴文字進行計算器處理的當屬云南啄木鳥計算機工作室楊曉輝開發的“東巴象形文字計算器處理系統”軟件。雖說納西東巴文的數字化已有一定進展,但繼續大膽設想、踏實建設仍是我們要不懈努力的。
3. 普及庫
主要是面向普通讀者,以普及古典知識,傳承中華文化。所以,我們需要注意以下幾個方面:一是降低閱讀障礙。版本庫和專題庫在整理未覆蓋到位的情況下可以暫緩斷句標點和文字的通俗化(古體字變今體,異體字變通行字等)等工作,畢竟它們的使用者多為具有一定古文閱讀修養的研究人員,但普及庫卻一定要進行,甚至對文言文內容進行今譯。二是形式更加多樣。在電子計算器普及、移動終端泛濫的當代,開發相應閱讀軟件,讓古籍數據以第三方應用軟件(Application)等形式面向手機、平板計算機開放,將極其有利于傳統文化的普及。除此,還可擴展古籍文獻的有聲化工作,如鍾華先生,長期致力于“中國古典文學全文朗讀”,已經完成了《漢書》《三國志》《封神演義》《儒林外史》等多部古典文獻的朗讀工作,并開放在網絡上無償提供下載,目前可下載的有1 000多小時[8]。三是數據分析。中文古籍本身是一個巨大的數據信息庫,同時,利用各種電子設備瀏覽古籍數據的閱讀者們,利用古籍書目數據庫和全文數據庫進行檢索的用戶們,他們在操作過程中留下的數據信息也十分龐大,在一定權限內,收集這些動態數據,并用云計算(Cloud Computing)對這些數據進行分析,以向潛在讀者推薦相關的文獻資料,既有利于達到普及的初衷,又可減少讀者的時間成本提高其學習效率[9];四是從學術到公益和從公益到商業。中文古籍的數字化,首先受益的是學術研究,在此基礎上強化普及庫的建設,進行文化的宣傳,則很大程度上是一項公益性事業,有賴于國家的支持和志愿者的奉獻。此外,我們還要致力于挖掘中文古籍數據庫的經濟價值,推進商業性運作,樹立市場意識、銷售意識、品牌意識。這也是促進中文古籍數據化整理可持續發展的途徑之一。
(二)智能化
人工智能(Artificial intelligence)是計算機應用的一個重要分支,通過使計算機具有智能化的功能,來達到模擬人類的某些智能行為的目的[9]。人工智能使計算器模擬人類思維,延伸人腦功能,在多種學科領域都有廣闊的發展前景。具體到中文古籍數字整理的智能化,也可以大大節省人力資源,提高工作的效率和準確性。它可以分為自動化處理和自動化分析兩大方面。
1. 文獻的自動化處理
一是字體轉換。包括繁簡轉換、古今字轉換、異體字轉換、不同書體的轉換等,它的實現前提之一是字庫的健全,這也是一個龐大的工作,需要文字學理論和字形收集整理工作的支撐,而且,鑒于中文字形、詞義的復雜性,自動化處理的錯誤非常難免,所以一定的檢查工作也是需要的。二是自動標點(斷句)?,F有相關研究多集中在中醫古籍和農業古籍等專業特征明顯的主題上。標點涉及到我們對中文語言結構的認知,需要對古籍文獻的語法特征、關聯詞、同義語標識、反義復合詞等進行梳理,先做到斷句。且標點一定意義上反映的是古籍文本內容的邏輯,有時專家尚且不能輕易判斷,所以這也必定成為自動化處理的一大難點。三是自動校勘。在20世紀90年代初,國內便有研究人員開始探索使用計算器進行中文自動校對[10],由于自動分詞問題是個難點,所以現在的處理還十分簡單。期盼今后可以在簡單上下文匹配的基礎上,進一步延伸到詞切上下文匹配、自然語言理解上下文匹配。四是自動編纂。主要包括自動分詞、自動文摘、篇章分割和段落檢索等幾個方面[11],我國古書命名的方式十分多樣,而隱括內容為名者較少,且古代學者的作品多為文集,其內容包羅萬象而少有內部編目,即便有編綱目也幾無統一標準,十分隨意,急需整理。而這是一個非常龐大的工作,若能采用自動編纂技術,將減輕很多負擔。除以上四個方面外,文獻的自動化處理還有很多方面可以探討,如自動翻譯、主動注釋、自動糾錯等等,足以專門做一番論述,在此就不再一一說明了。
權責發生制,又稱“應收應付制”或“應計制”,指以取得收取款項的權利或支付款項的義務為標志來確定本期收入和費用的會計核算基礎。凡是當期已經實現的收入和已經發生的或應當負擔的費用,不論款項是否收付,都應當作為當期的收入和費用;凡是不屬于當期的收入和費用,即使款項已在當期收付,也不應當作為當期的收入和費用。
2. 文獻的自動化分析
現在計算器只能進行字符簡的簡單比較,尚不能完全模仿人的邏輯。人具有主觀能動性,可以對客體進行分析作出判斷,雖然我們在努力編寫算法,設計應用程序,賦予計算器一定的邏輯分析能力,以解放人力,幫助中文古籍整理,初衷雖好,前途雖亮,但卻需要具體的龐大的基礎準備工作,并要仰賴技術的進步?,F階段下,我們可以初步藉助計算器對中文古籍進行字頻、用韻的統計,并探索用典、語句(語言結構)等方面的自動化分析。而主要難點是如何設計合理的算法,即程序編輯問題。程序編輯問題除了涉及電子語言的轉化和軟件的建設外,其基礎為語言的梳理。在現階段,我們還是要著力進行準備工作,完善語料,充實數據,為程序的編寫提供素材。
(一)變化的挑戰
1. 跟進信息
信息時代的特點除了信息量上的龐大外,還表現在信息更迭速率的迅速上。所以,面對不斷在更新的信息,中文古籍數據庫也要及時進行更新。不過鑒于中文古籍資源總體上是穩定的,所以需要跟進的主要為出土文獻的新發現新材料。
2. 跟進技術
中文古籍的數字化整理的產生無疑是源于計算器和電子信息技術的發展。在短短幾十年里,計算器脫去了神秘高科技面紗,飛入尋常百姓家,信息技術更是變更了我們的生活狀態,不敢想象以后還會發生什么,不論如何,中文古籍的數字化整理都要、也會緊跟技術的革新,不斷完善。
3. 跟進政策
我國政策的發展總體宏觀上具有連貫性,但微觀政策的變化也會對我們產生一些影響。例如,《文學遺產》2014年第6期發表的鄭永曉先生《加快“數字化”向“數據化”轉變》一文尙可檢索維基百科,并引用其對“大數據”一詞的解釋[12],但2015年國內網絡環境下已經無法在線使用維基百科。
(二)資源整合的挑戰
幾十年來,中文古籍數字化整理工作是參差發展的,首先是開發主體的不同:大學研究機構,館藏機構,私營企業,乃至私人個體;還有地域的不同,不同開發主體,在不同的地域不同的時間,采取不盡相同的標準和技術,導致了中文古籍數字化整理質量的參差不齊,也給研究者和使用者帶來了很大不便。所以,這要求我們進行資源的整合。
在國內范圍中,我們有必要強化古籍數字化控制主體的地位[13],以促進中文古籍數字化整理工作有序、高效的進行;在國際范圍內,我們有必要增進不同地區不同國家的交流合作,協商統一的標準,以方便研究者和使用者的檢索和查閱。
(三)版權與壁壘的挑戰
隨著數字化的發展,不少著作被整本掃描、公布在網上,雖然在一定程度上便利了大家獲取數據,但這種版權意識的淡漠長遠來看是不利于學術發展,也不利于中文古籍數字化整理的市場化的,所以,保護版權十分重要。首先,我們觀念上就應該重視版權問題;其次,保護智力成果的法律法規也需要完善;另外,還可以從技術層面,在電子書和數據庫的制作中加入保護程序。
但另一層面上,保護版權不能成為獨占材料、壟斷資源的借口。直面這一挑戰,努力在保護和開放中尋找平衡,既尊重智力勞動成果,又避免學術壁壘的產生,才能更長遠的維護學者權益,促進學術發展。
(四)人的挑戰
首先,顯而易見,是建設者的挑戰。面對浩浩蕩蕩的數字化浪潮,如果更好地融入并促進中文古籍文獻的整理工作,是一大挑戰。其次,是使用者的挑戰。數據庫的建立和數字化檢索的完善,對研究和閱讀中文古籍的用戶們而言,大家都平等地使用數據庫,而在同一起跑上如何更深一步,進行有價值的研究,將是隨之而來的挑戰。所以,未來的用戶需要在組織和架構信息,揀選和分析信息等方面,更努力地發揮自己的能動性。
[參考文獻]
[1] 朱成林,袁曦臨.中國古籍的數字化導讀研究[J].圖書館建
設,2014(11):50-55.
[2] 曹書杰.古籍整理與電子計算機應用研究的思考[J].古籍整理研究學刊,1988(1):44-49.
[3] 劉煒.上海圖書館古籍數字化的初步嘗試[J].圖書館雜志, 1997(4):33-34.
[4] 毛建軍.古籍數字化理論與實踐[M].北京:航空工業出版社, 2009:6.
[5] 樓宇烈.漢文化數據庫不同層次的實用需求[J].北京:古籍整理出版情況簡報,2003(8):2-6.
[6] 杜澤遜.文獻學概要[M].北京:中華書局,2008:104-105.
[7] 張顯成.簡帛文獻學通論[M].北京:中華書局,2004:3.
[8] 白云出岫.中國古典文學全文朗讀[EB/OL].http://weibo.co m/baiyuncx?from=profile&wvr=6,2015-12-01.
[9] 林闖,蘇文博,等.云計算安全:構架,機制與模型評價[J].計算器學報,2013(9):1765-1766.
[10] 杜瑞芝.數學史辭典[M].山東:山東教育出版社,2000:538-541.
[11] 常娥.古籍自動校勘和編纂研究[M].合肥:安徽師范大學出版社,2012:41-56.
[12] 鄭永曉.加快“數字化”向“數據化”轉變[J].文學遺產,2014, (6):141-148.
[13] 王立清.中文古籍數字化研究[M].北京:國家圖書館出版社,2011:106.
(責任編輯、校對:郭萬青)
The Expectation of Ancient Books’ Arrangement under Digitalization Background
ZHANG Wen-yue
(Research Institution of Chinese Language Documents, Southwest University, Chongqing 400715, China)
Abstract:At the information and network age, the arrangement of ancient books is on the way of digitalization. Under such background, the developmental direction of the digitalization of ancient books is discussed from the perspectives of theory and practice. The problems in its development such as the great change, resource integration, copyright, participate subject and so on are discussed. As a result, it is hoped that the theory of the digitalization of ancient books can get further development and improvement and that the database can also get further development both in its functions and capacity.
Key Words:digital; Chinese ancient books; the arrangement of ancient books; resource integration
作者簡介:張文玥(1992-),女,浙江杭州人,碩士研究生,研究方向為漢語言文字學。
收稿日期:2015-07-30
DOI:10.3969/j.issn.1009-9115.2016.01.012
中圖分類號:G255.1
文獻標識碼:A
文章編號:1009-9115(2016)01-0045-03