摘 要:本課題根據《關于推進實施國家文化數字化戰略的意見》和《2021—2035年國家古籍工作規劃》等重要文件,分析了古籍數字化在數字內容層面的重復與空白、面向用戶層面的專業化與大眾化、開發主體目的的商業性與公益性這三對關系;又分析了古籍數字化發展中的五方面的問題,如欠缺面向國際視野的整體統籌協調,格式、標引、接口標準尚不統一,版權獨創性認定難、侵權高發,重產品輕服務,古籍整理和編輯人才斷層問題嚴重等;并提出了解決問題的六項對策和建議。
關鍵詞:古籍數字化 古籍活化 古籍整理 數據庫 版本
古籍數字化是以數字技術為工具,對古籍內容進行再現和加工,是古籍整理保護和開發利用的重要方面。
在人工智能和虛擬現實技術、信息技術如此發達的今天,如何通過先進的數字技術,讓古籍中孕育的傳統文化在現實中“活起來”,成為當今的重要課題。
本課題分析了從事古籍數字化的出版機構、古籍存藏單位、古籍數字化科研機構、從事古籍數字化的互聯網科技公司等古籍數字化主體的特點和發展方向,剖析了古籍數字化發展過程中的幾對關系,并通過調研、匯總和分析,給出了古籍數字化發展的建議。
一、古籍數字化發展中的幾對關系
課題組在分析古籍數字化工作時,重點梳理了在數字內容層面中重復與空白的關系;在面向用戶層面專業與大眾的關系;在開發主體目的方面中商業與公益的關系,從而理清古籍數字化發展的脈絡,找出其中的關鍵問題。
1.數字內容層面:重復與空白
在古籍數字化領域,有些領域存在大量的重復建設,不少空白領域“無人問津”。古籍全文檢索數據庫建設,存在低質量、內容重復、建設范圍局限于已經影印出版的基礎古籍等問題。《四庫全書》《四部叢刊》《二十四史》等多種叢書就已經開發了多種檢索版本。[1]按照年代而論,元代以前的古籍數字化較為充分,明清兩代較少,因為大多數古籍數據庫是在《四庫全書》數據庫的基礎上開發的,而《四庫全書》中涉及明清兩代的古籍較少。這種問題的產生,第一是由于缺乏專門機構的宏觀調控和管理,古籍存藏單位、高校科研機構、出版機構、互聯網科技公司各自為政;第二是因為信息共享不足、項目規劃協調不夠;第三是某些商業平臺過于追求利潤,急功近利,導致某些資源重復開發,熱點項目重復建設、浪費人力財力。
古籍數字化存在大量空白領域,古籍數字化規模與我國古籍的存藏資源相比,比例太小。據統計,“全國普查古籍資源約有270萬部,但轉化為數字資源的只有約10萬部(件),占比3.7%”。[2]在專業領域,《關于推進新時代古籍工作的意見》中提到,文物、中醫藥、宗教、法律、農業、林草、水利、社會科學、科學技術、檔案、方志、古地圖等領域的古籍整理需要加強[3],強調各古籍存藏單位,要根據地域分布、資源特色、專業優勢推進古籍工作。還有一些地方性的古籍和少數民族的文獻資料沒有得到整理,更沒有得到充分的數字化關注。這些專業領域和地方性的古籍整理工作需要相關專業內的學科建設與跨領域人才培養,難度要高于一般文史領域的古籍整理工作。
2.面向用戶層面:專業化與大眾化
古籍數字化面向的用戶分為專業與大眾群體,隨著數字技術的日新月異,專業群體對古籍數字化產品的專業性要求越來越高,而大眾用戶對活化產品要求好玩好看好用,體驗感要好。
古籍數字化的專業化,是指將現代計算機技術與古籍研究結合起來。古籍數字化的專業研究是“數字人文”這一學科的重要分支,該學科發源于20世紀70年代,致力于將現代計算機技術與人文研究結合。
古籍數字化的大眾化,是指利用現代信息技術,激活傳統古籍,讓古籍“活起來”,走到大眾中,在現代生活中獲得新生,煥發活力。
面向專業用戶和大眾用戶,古籍數字化的功能和體驗是有差異的,需要古籍數字化單位做好定位分析。對專業性的要求,主要體現在以下幾個方面。
6nreZUQ5kH99hZG0yonTu9dhAFHqv1TIx0FcGcnl7EU=第一,研究者需求的古籍數字化產品,尤其是古籍知識庫相當于結構數據庫,包括古籍的分類、關系、結構等,是古籍數據庫中最難建立的一種。古籍知識庫建設,現階段多停留在對某一大書(《全唐詩》《全宋詩》)、某一體裁文獻(二十五史)或接近知識化機構的內容(目錄文獻)進行數字化,不論點還是面都不夠充分的。
第二,研究者針對古籍數字化產品研究時,需要分類清晰,體系完備,索引豐富科學,有元數據標引、語義關聯檢索等功能。現在各古籍存藏單位的檢索標準不統一,檢索方式不夠科學。
第三,研究者所需的古籍數字化產品豐富而專業,覆蓋面非常廣,其中也包括某些冷門專業或者偏遠地區的古籍資料,而這些資料尚未數字化。例如方志、家譜、科舉考試試卷、戲曲唱本、碑帖等等,往往只在某家古籍存藏單位有副本,需要一邊開展數字化工作,一邊開展學術研究,以研究促進數字化工作進步,以數字化工作帶動研究開展。
對于古籍數字化的大眾化,體現在以下幾個方面。
第一,數字化古籍內容傳播的廣度和深度。“酒香也怕巷子深”,古籍數字化單位耗費大量人力財力,但是數字化了卻很少人看,另一邊是公眾想找卻找不到,或者因為隱藏太深,難以發現;或者是找到了看不懂。針對紙質古籍信息不對外開放和瀏覽人數少的問題,要為更多人提供訪問和學習的機會,更要擴大傳播效果。
第二,數字化后的古籍可以實現多媒體的呈現形式,如文字、圖片、音頻、視頻等,豐富古籍的表現形式,使古籍的內容更易于理解和學習。例如,國家圖書館負責建設的“《永樂大典》高清影像數據庫”,還原了《永樂大典》原貌,用戶和讀者可以不接觸古籍本身就能深入研究該書。再如,故宮博物館開發的《清明上河圖3.0》、《紫禁城祥瑞PRO》APP、故宮游戲、壁紙和輸入法皮膚、小程序等,讓更多年輕人感知傳統文化的魅力。古籍存藏單位和出版機構可以利用AR、VR技術,數字展覽、文創、小程序等多種形式,促進古籍活化。
第三,可以開發數字藏品、文創、旅游小程序等數字產品,將古籍與地方文旅結合。古籍存藏單位很多是地方文旅部門的組成部分,古籍活化可以為當地旅游和古籍存藏單位帶來經濟收益,從而反哺古籍數字化工作本身,實現良性循環。
由此可見,古籍數字化的專業應用和大眾推廣都需要充分發揮數字技術的優勢。在專業應用方面,要加強數字搜索技術的推廣和普及,提高數字化的效率和精度,利用OCR、圖像處理、數據挖掘等技術,實現自動化和高速化的數字化過程,實現古籍數字化與相關專業的協同互動;在大眾推廣方面,要應用微信、音視頻、人工智能、虛擬現實等融媒體技術,將數字化的古籍資料向更廣泛的公眾傳播,提高公眾對數字化古籍的認知。
3.開發主體目的:商業性與公益性
古籍數字化的主體開發目標不盡相同,民營企業在沒有國家資金投入的情況下,僅靠自有資金投入,必然會以贏利為目的,哪個領域贏利多、利潤高就投入資金數字化。而公共服務機構則是國家給資金就做,不給資金就缺乏動力。
商業性本不是壞事,但過于商業性、或者沒有規則的商業性則會出問題。由于古籍數字化監管缺失,逐利驅動導致古籍數字化的重復開發、產品質量不高、隨意定價甚至盜版侵權。企業從經濟利益出發,收取高額使用費,忽視了古籍弘揚中華優秀傳統文化的功用,也忽視了其社會價值。
圖書館是古籍收藏的重要機構,是古籍公益性數字化主要的實施主體。但是,由于經費所限,某些單位把館藏資源當成了各單位的私有財產,不是嚴格限制古籍的閱覽、復制或拍照,要不就是抬高掃描拍照使用文獻的價格,有的圖書館沒有開展古籍數字化工作,無法將數字化成果共享。
古籍數字化進程主要瓶頸在于資金,國家應該給予經費的保障和政策的扶持。國外古籍存藏機構大都有充裕的國家資金進行古籍數字化,并為讀者提供服務。如日本的“東洋文化研究所藏漢籍善本全文影像資料庫”,供全球共享。
商業性和公益性既可互補,也可以互相轉化。企業在數字化方面有利益驅動,產品迭代更新快,能夠緊跟專業人員的使用需求和大眾用戶的體驗感不斷創新。公共服務機構在開放共享方面有資源基礎,也有社會義務,一些投入較大的項目更有實現商業收益的可能。
二、古籍數字化存在的突出問題
1.欠缺具有國際視野的整體統籌協調
古籍數字化投入周期長,見效慢,各古籍數字化機構分屬不同部委,各種稀見版本因收藏單位隸屬歸口不同,保護嚴格,難以有效利用。因此,需要國家統一規劃,統籌安排,才能避免重復建設和資金浪費等一系列問題。
2022年4月,中共中央辦公廳、國務院辦公廳(以下簡稱“兩辦”)印發了《關于推進新時代古籍工作的意見》(以下簡稱“意見”),明確了“全國古籍整理出版規劃領導小組履行全國古籍統籌協調職責,中央宣傳部發揮在全國古籍工作中的牽頭作用”,這結束了各自為政的局面,對推動出版機構、古籍存藏單位、高校圖書館以及古籍數字化科研機構協調一致,共同推動古籍數字化工作,具有重大意義。
在兩辦意見出臺之前,國家圖書館(中國古籍保護中心)承擔著推動全國古籍數字化普查和數字資源發布工作,已經開展了卓有成效的統計和示范工作。截至2020年11月,“全國古籍普查登記基本數據庫”累計發布264家單位古籍普查數據825362條7973050冊。截至2023年1月,全國累計發布古籍及特藏文獻影像資源達到13萬部(件),其中國家圖書館建設的“中華古籍資源庫”發布古籍影像資源超過10.2萬部(件),先后聯合39家單位發布古籍資源2.8萬部(件)。從以上普查數據和聯合發布資源的數據對比來看,古籍數字化的統籌工作任重道遠。
對中國古籍的數字化,國際上起步要更早一些,統籌協調不僅僅是面向全國,還要有面向國際的視野。
2.格式、標引、接口標準尚不統一
各古籍存藏單位和數字化單位所建立古籍數據庫互不兼容,沒有統一的平臺接口,這樣這些數據庫之間就很難共享數據,也為二次開發增加了難度。因為沒有統一標準,開發主體多元,制作單位則根據需要制定了各自的文本數據格式,導致了多種數據格式并存的局面。2001年,在兩次全國性的古籍機讀目錄格式研討會討論的基礎上,國家圖書館編寫的《漢語文古籍機讀目錄格式使用手冊》出版,古籍數字化有了初步的標準。目前,國際上還沒有統一的古籍數字化標準,“國際圖書館協會和機構聯合會”(International Federation of Library Associations and Institutions) 在 2015 年發布過《館藏善本與手稿數字化計劃指南》,但內容十分籠統,在古籍數字化技術問題尤其是采集和儲存上并未進行詳細規范,無法為我國制定古籍數字化標準提供具體性指導”。[4]古籍數字化的內容分散在各古籍存藏單位,而這些單位的管理又較為分散,數據的格式、標引、注釋情況各不相同。古籍著錄尚未執行統一的分類表和分類原則,造成了書目數據不準確現象。由于標準不一,各館所建古籍數據庫各有長短,且往往互不兼容,嚴重阻礙了資源的共享。
3.版權獨創性認定難,侵權高發
古籍屬于公版作品,整理的主體比較多,對已整理的古籍數字化成本較低,侵權盜版極大影響了古籍數字化單位的積極性。古籍數字化存在版權侵權、賠償標準認定難等問題。古籍數據庫作品屬于匯編作品,要通過獨創性認定,但是由于整理版本雷同,加之“分段、標點、校勘”相似度超過50%,一旦訴諸公堂,主觀性認定把握比較難。另外,古籍數據庫同行間互相剽竊、盜版現象也確實存在,侵權盜版訴訟多發。權利人也存在對古籍整理作品獨創性的認定、賠償數額的確定等難點。單憑《著作權法》相關條文,已很難適應古籍整理的發展。
4.重產品輕服務
在新媒體技術飛速發展的今天,如何結合融媒體傳播技術,讓傳統文化流光溢彩,是各古籍存藏單位和出版機構需要面對的問題。已經建成的古籍數據庫訪問量普遍較少,微信公眾號等新媒體點擊量不夠,缺乏爆款、出圈產品。古籍數字化的推廣普及效果并不盡如人意。有調查結果可窺一斑,“自2016年3月9日至2022年11月27日,河北大學圖書館自建的方志書目數據庫、家譜書目數據庫和中華再造善本等3個書目數據庫的總訪問量分別為250次、253次和424次,該訪問量與河北大學4.25萬師生規模相距甚遠”。[5]古籍數字化產品的生產機構重產品輕服務,普及和傳播的形式單一,缺乏生動形象的表現形式。通過新媒體、音視頻等手段開展古籍普及傳播的圖書館較少。古籍數字化產品提供商開發完產品,交付渠道銷售之后,基本上不和最終用戶交流,缺少產品反饋機制,對用戶使用效果和當中的問題了解不多,運維更新慢。尤其是出版機構和古籍存藏機構,工作人員普遍缺乏服務意識,為社會公眾提供古籍服務的意愿還比較低。
5.古籍整理和編輯人才斷層問題嚴重
古籍數字化人才斷層是個不爭的事實。古籍數字化從業人員既要熟悉傳統文化知識和相關專業背景,又要具備數字出版技術,具有創新精神,具有媒體思維,互聯網思維。如何培養人才,留著人才,成為古籍數字化工作中的瓶頸和難題。這體現在如下幾方面。
(1)古籍數字化綜合人才欠缺。古籍數字化從業人員不僅需要掌握古籍版本、校勘等傳統古籍文獻的專業知識,信息科學和數字技術等專業知識也是非常必要的。因此,古籍數字化工作需要掌握傳統古籍整理方法且熟悉現代科學和信息技術的綜合性人才。然而,目前從事古籍數字化工作的人才很少,特別是具備古籍整理知識又能熟悉現代信息技術的綜合型人才更為匱乏。
(2)古籍數字化人才很難留住。古籍數字化機構如古籍專業出版機構、科研院所和古籍存藏單位的薪資待遇,與互聯網科技公司相比較低,這導致古籍數字化綜合型人才很難留住。
三、對古籍數字化工作的建議
分析古籍數字化發展中的三對關系和五方面問題之后,課題組對古籍數字化工作提出了一系列建議。
1.加強跨部門跨系統的統籌協調
在統籌古籍數字化工作方面,建議從以下幾個方面開展。
第一,從國家層面統籌規劃古籍數字化工作。從國家層面協調分屬不同部門、不同系統的古籍存藏單位、古籍出版機構、高校科研機構、相關技術企業的關系;加快全國古籍普查數據和數字資源開放,每年將瀕危古籍和珍貴古籍數字化加入重點工程;加快古籍數字化各種標準的制定和建設,鼓勵骨干單位推廣古籍數字化標準。
第二,統一規劃,并實行系統化管理。《2021—2035年國家古籍工作規劃》中,已經包含國家古籍數字化資源總平臺建設的內容。為避免重復建設,需要加強各方之間的合作與協調,設立中宣部、文化和旅游部、教育部等相關部委的聯席會議,將各部委原有的相關平臺歸口統一到指定的平臺上。
除了規劃里提到的資源總平臺的架構,建議基于公共圖書館系統,或基于博物館系統,聯合大陸以外的藏書單位建設一個統一查詢圖書館古籍的系統;基于書目與內容,建設綜合的古籍書目知識系統十分必要。
第三,在應對重復建設和填補空白領域時,需要注重合作與共享。建立數字古籍數據庫和平臺,促進各方之間的信息共享和資源整合,避免資源的重復投入。對于經濟不發達地區和某些冷門專業領域的古籍數字化工作,國家和地方各級政府、專業部門應該予以更多支持。通過開展國際合作項目、舉辦學術論壇、研討會、年會和培訓班等方式,加強古籍數字化領域的交流與合作。
第四,按照差異化分工開展古籍數字化工作。各古籍存藏單位、古籍出版單位和科研機構,要結合自身古籍的特色(如地域特色、研究特色、存藏特色),明確古籍數字化的重點主攻方向,形成差異化。
2.加大國有資金投入,鼓勵民間資本參與
古籍數字化工作投入的資金少,見效慢,即使相比其他非物質遺產的保護工作,受重視程度也遠遠不夠。2022年,“財政部對國家文物保護資金預算638333萬元、非物質文化遺產保護資金預算82598萬元,而古籍數字化的專項資金僅有約1000萬元”。[6]古籍數字化單位面臨如何募集資金,動員社會力量參與等一系列問題。
針對資金投入嚴重不足的問題,課題組提出以下建議。
第一,加大對古籍數字化工作的資金投入,拓寬資金來源渠道。依托財政資金重點建設一批代表國家水準的古籍數據庫,提高我國古籍數字化整體水平,從而起到示范作用。定點幫扶一些古籍保護和古籍數字化的機構,獎勵一批優秀的古籍數字化人才。
第二,鼓勵地方政府投入地方古籍的數字化工作,與地方文化事業形成良性互動發展。地方政府要將地方古籍數字化工作經費納入預算,設立地方古籍數字化重大項目,制定地方支持古籍數字化產業相關稅收優惠政策等。讓地方古籍數字化事業與地方文化遺產和旅游事業發展融合在一起,實現良性互動和互相促進。
第三,鼓勵社會資金和社會力量參與。在英美等國家,“文化遺產保護多由政府認可并授權的非營利性民間組織負責,但我國的古籍數字化工作仍以政府主導為主,經費由各級財政撥付,古籍存藏單位大多屬于公益機構”。[7]要制定鼓勵政策,積極吸納社會資金和社會力量參與和支持古籍數字化和古籍保護等工作。古籍數字化機構也要“大力支持和引導公民、法人和其他組織以資助、捐贈和基金會等形式參與古籍數字化和古籍保護工作,不斷豐富古籍經費來源渠道”[8]。
第四,積極開發盈利渠道。可以開發數字藏品、文創、旅游小程序等數字產品,從而反哺古籍數字化工作本身,實現良性循環。
3.狠抓標準化工作,便于國內國際應用
近年來,古籍數字化標準規范在國家圖書館以及各古籍存藏機構的協助下不斷推進,先后出臺了漢文古籍定級標準、簡帛古籍定級規則、古籍修復技術規范與質量要求等標準、圖書館古籍特藏書庫基本要求等等。國家圖書館和中華書局等出版單位在實踐中總結了一些古籍數字化的標準,并且開展了多次“圖書館古籍存藏保護與數字化利用標準及工作實踐培訓”,推廣相關標準。
針對古籍數字化的標準化,課題組從以下幾方面提出建議。
第一,借鑒國內外相關標準,制定和推廣全國統一的古籍數字化標準。目前,漢字屬性字典、古籍用字規范、生僻字與避諱字處理規范、古籍全文版式XML規范、數字資源唯一標識符等6個標準規范項目正在研制中。元數據規范、對象數據規范、資源統計規范等正進行采購準備工作。數字資源長期保存、管理元數據、專門元數據規范等正在進行需求調研與準備工作。提升數據關聯和可視化的技術標準,正在進行細化和修訂,爭取由行業標準上升為國家標準。
第二,制定專門的數據加工和存儲標準。應該對數字化的流程進行規范,比如掃描圖像分辨率高低、內存大小等都需制定明確的標準。實現文獻存儲格式的標準化,協調聯合骨干企業,向全國推廣。要進一步打通不同古籍存藏機構的相同類型資源,開展古籍數字資源整合工作,從而實現古籍的“一站式檢索”。
第三,做好標準規范的推廣工作。標準出臺之后的推廣更重要。通過培訓、研討等形式,總結古籍數字化的實踐經驗,以優秀產品為示范案例推廣古籍數字化的標準,擴大標準規范的應用范圍,推廣我國相對全面和完整的古籍數字資源管理的團體標準、行業標準以及國家標準。
4.在版權認定、專業資質和技術保護方面齊抓共管
針對古籍數字產品的版權,課題組提出以下建議。
第一,制定關于作品獨創性以及侵權認定的行業規則,作為司法機關審理案件時可資參照的依據。比如作品獨創性的認定,古籍數字化內容相似度的比例超過多少才認定為侵權等,這需要古籍整理行業聯合起來商定行業規則并執行。
第二,加強行政管理,對古籍整理者的資質進行評估。對古籍整理者的資質要如同對教輔圖書和養生保健圖書等一樣,設置進入門檻,尤其是查驗專業人員的資質,以減少低劣盜版的整理作品,保證古籍整理作品的質量。
第三,利用數字化技術開展古籍數字版權保護工作。利用訪問控制技術、密鑰管理技術、數字水印技術、防火墻技術保護版權,對即將公開的古籍數字化資源提前進行數字版權認定,或者使用權證鏈、區塊鏈認定。
5.打通人才評價、晉升、培養通道
古籍數字化涉及的知識面非常廣闊,既有古籍文化的知識,也有現代信息技術的知識。古籍數字化機構如古籍專業出版機構、科研院所和古籍存藏單位的薪資待遇,與互聯網科技公司相比較低。如何培養人才,留住人才,成為古籍數字化工作中的瓶頸和難題,課題組提出以下建議。
第一,建立古籍數字化人才專家庫。對古籍數字化整理人才和編輯人才,要優先選拔進入宣傳文化系統的“四個一批”,通過中國版協古籍出版工作委員會進行分級評價,對這些人才開放專門的項目申請通道,給予專項資金支持,強化從業人員的職業成就感和榮譽感。
第二,通過高校與古籍數字化工作相關單位聯合培養人才。古籍數字化是實踐性很強的學科,也是知識密集型的學科,應該由古籍數字化單位、互聯網科技公司與相關古籍高校研究機構聯合培養人才,建設培訓基地,學習與就業崗位掛鉤,構建學位教育與項目培養相結合的培養模式。
第三,通過培訓和研討會培養古籍數字化人才。積極開展業界合作,開展不同地區、不同領域的古籍數字化單位的交流與合作。古籍整理出版骨干企業利用培訓班、研討會,推廣古籍數字化經驗,形成古籍數字化人才培訓長效機制。
6.強化古籍數字化傳播的廣度、深度和效度
古籍數字化產品要將服務場景深入生活中、文旅中,要充分利用互聯網傳播推廣的優勢,在古籍數字化傳播的廣度、深度和效度上多下功夫。
第一,打造古籍數字出版面向文化普及推廣的新服務場景。“要加快提升古籍數字化工作團隊的服務能力,促進古籍數字文化服務的社會化、多樣化、精準化”。[9]拓展古籍數字化產品服務模式,出版機構和古籍存藏機構通過互動、沉浸式和個性化定制等服務模式,拓展更多文化數字消費的應用場景。
第二,將學術研究與現實結合,促進古籍數字化產品轉化為文旅產品、出版產品。要將文化資源進行創造性轉化、創新性發展,“在與具體推廣場景結合時,要從相關古籍中遴選出最具代表性、最有感染力、關聯性最強的素材,開展數字化加工重組”。[10]
第三,將古籍內容與數字信息技術充分結合。鼓勵各古籍存藏單位借助音視頻產品、直播、抖音、快手、VR/AR技術以及數字技術等深入挖掘古籍中的內容。出版機構利用微信公眾號[如古聯(北京)數字傳媒科技有限公司旗下的經典古籍庫微信公眾號]、數字人(如中華書局和古聯數字傳媒公司發布元宇宙數字人蘇東坡)等多種形式宣傳古籍數字化成果。這樣的古籍活化案例值得推廣。
第四,產品和服務應該齊抓并進,推動古籍數字化成果轉化。為數字化產品增加互動模塊、用戶評價模塊,提高回復效率,提高用戶參與的積極性。提高用戶凝聚力和歸屬感,形成討論氛圍,促進學習交流。根據用戶的反饋和意見,積極改進古籍數字產品,并借助用戶口碑擴大平臺影響力,讓古籍從小眾走向大眾。
(課題組組長:林曉芳,成員:原業偉,侯君明,洪濤)