海外古籍數字化回歸：如何做到“為天下人所用”？

2021-05-27 11:21:05陸宇婷發自北京

南方周末 2021-05-27

關鍵詞：圖書館

南方周末特約撰稿　陸宇婷發自北京

陳力和何夢超討論古籍數字化方法。

源自文瀾閣的《宋百家詩存》及乾隆朱印?！∵_摩院供圖

在漢典重光技術團隊看來比較復雜的古籍版面樣式。達摩院供圖

★與大多古籍數字化項目一樣，“中華古籍資源庫”僅停留在掃描處理提供古籍影像的程度，在內容檢索和分析上依然困難，且提供的掃描版本總量也不及全國普查結果的十分之一。

流散海外八十多年后，文瀾閣本《四庫全書》中的《宋百家詩存》重現大眾視野。

在掃描影像中，這本中國古籍上的水浸、蟲噬、霉變歷歷可見，每一處都是歷史的風霜。1790年左右，《宋百家詩存》隨《四庫全書》入藏杭州文瀾閣，清咸豐年間在太平軍入杭后散失，1861年左右被嘉業堂收藏。抗戰時期，部分嘉業堂藏書流落到了上海，可能被日本人收購，并于1949年輾轉到了美國，如今藏于加州大學伯克利分校東亞圖書館。

東亞圖書館收藏了大量中國古籍善本，截至2021年5月18日，其中二十萬頁被掃描影像、讀取文字，以數字化形式回歸祖國。

這是海外古籍回歸項目“漢典重光”的成果之一。這批數字化古籍善本種既有宋元本，也有明清至民國時期著名學者的稿本、抄本，其中一些是以前很少有人見過的珍貴藏本，比如清文瀾閣本《宋百家詩存》。

古籍流散海外的原因多種多樣，實體回歸幾乎是不可能的，比較可行的辦法是數字化回歸。

此前的古籍數字化平臺，大多是展示掃描后的古籍圖片，讀者只能在這些平臺閱讀圖片，無法就書中內容進行檢索分析。此次漢典重光的數字化團隊不僅將古籍掃描，還將掃描下來的圖片識別轉化成了電子文字。搜索某一字詞，可以跳轉到字詞所在書本的具體章節段落。

這些古籍資源將向公眾免費開放。阿里達摩院院長張建鋒表示，漢典重光古籍數字化平臺將被捐贈給權威公共機構長期運營。

“讓蒙塵的古籍重煥新生”

四川大學歷史文化學院教授陳力是漢典重光項目的古籍專家。陳力的父親是教歷史的，1977年，陳力作為恢復高考的第一屆考生，填報的所有志愿都與歷史、中文、圖書館相關，最后被省內第一志愿四川大學歷史系錄取，從此“一輩子都在做這個”，對古籍積累下一份深厚的感情。

在漢典重光項目之前，陳力已經參與過古籍數字化項目。他曾經在國家圖書館工作18年，其中一半的時間分管古籍，經手過哈佛大學燕京圖書館的一個古籍數字化回歸項目。2009年，燕京圖書館館長鄭炯文專門從美國飛到中國商量相關事宜，目錄都篩選完成了，也做完了一部分書的掃描，但項目最終因為資金、技術等沒能達到預期而擱淺。

這次未竟的合作在某種程度上成為漢典重光項目的起源。在哈佛大學訪問期間，高曉松看到了燕京圖書館的古籍數字化系統。高曉松創辦的雜書館收藏了幾十萬種民間古籍，他產生了想讓流失的古籍回歸的想法，并于2017年10月28日第一次在釘釘上和阿里達摩院秘書長劉湘雯溝通這件事。

達摩院聯系上了燕京圖書館，館長依舊很愿意配合。但哈佛大學是一所私立大學，最后拍板的是哈佛董事會，這件事被董事會否決了。

與燕京圖書館的合作中止后，達摩院團隊繼續尋找海外古籍回歸的機會。他們聯系上了四川大學歷史文化學院副院長王果，王果找到了陳力。二人很快加入團隊，給項目命名為“漢典重光”?！皾h典”指中國古籍，“重光”是陳力提出的，意為“讓蒙塵的古籍重煥新生”。

在團隊討論中，陳力重點考慮的是項目的可行性——還是得找到愿意合作的海外圖書館。陳力首先聯系的是加州大學伯克利分校東亞圖書館原館長周欣平。周欣平1998年曾到四川大學訪問，與陳力進行過古籍數據系統檢索功能的討論。周欣平多次提及“古籍是天下之公器，要為天下人所使用”，如今受到陳力邀約，欣然同意合作。

陳力和王果去伯克利進一步溝通，與周欣平達成共識。在資金落實之前，伯克利那邊就開始了工作，并很快提供了十萬頁的古籍掃描版。

早在十多年前，上海圖書館曾對東亞圖書館的古籍館藏做了初步整理，編好了目錄。但是目錄沒法代替古籍本身，只有看到全書的原貌才能算是真正了解這本書的歷史，比如這次的重點回歸書目之一、晚清思想家王韜的《瀛壖雜志》，字跡密密麻麻的手稿，記錄的是這位洋務運動先驅人物自1840年代末期所親歷的上海開埠初期發展史。

和機器一起認字

此前國圖與燕京圖書館的合作主要是掃描古籍、回歸影像，漢典重光團隊更進一步，從單純的掃描圖像變成了內容識別整合，使古籍真正數字化，做到閱讀清晰、查詢方便，為后續的分析研究打下基礎。

團隊的算法負責人何夢超2017年參與過古籍OCR（對文本資料的圖像文件進行分析識別處理，獲取文字及版面信息的過程）項目，對北京龍泉寺的十本藏經進行識別。普通的OCR識別在現代印刷文本的使用上已經達到了很高的水平，2017年何夢超參與的《大藏經》項目里也能做到97%的準確率，但放到古籍上面，準確率降到了百分之三四十。

古籍的數字化錄入，比現代印刷品的數字化錄入難得多。由于古籍本身文字狀況的特殊性，古籍數字化無法套用已有的現代漢語詞典和機器學習模型，需要團隊從頭搭建古文數據庫和古文字識別人工智能模型。

何夢超去四川大學與陳力探討，陳力提到古籍文字種類非常多，而何夢超發現，其中很多字都是重復出現的。他想到了單字識別、再聚類的數據收集方法。也就是說，把一冊古籍里的字全部切分開來單個識別，然后把形狀、筆畫類似的字放入一個類別，再讓對古文字有所了解的人對聚類進行審核——拎出不屬于這個類別的字。最后給這個類別打上標簽，也就是這一類圖片字的打印版原型。

這是一項龐大的認字工程，幾千冊古籍，每冊幾千組文字需要人工審核。人手不夠，團隊招募對古籍感興趣、有一定知識的大學生加入。

四川大學歷史文化學院2018級本科生張楚玨是第一批加入的，她想借這個機會增加自己對古籍的認識，也補充一點零花錢。

最初，機器識別、分類的單字圖片讓張楚玨感到疑惑——有的圖片里有兩個字，有的圖片里不是字而是符號。

機器“認錯字”的原因是技術團隊低估了古籍版式的復雜性?，F代印刷品有通用的規范版式，古籍的版式則多種多樣，在豎排文字中可能突然出現一些橫排文字，同樣寬度的空間，有時寫著一列大字，有時寫著兩列小字。在二十萬頁古籍里就有近百種版式，技術團隊將它們一一區分，機器識別準確率大大提高。

版式問題解決之后，進入正式的人工審核環節。古文中的字有很多講究，同一個字在不同使用情況下、不同朝代不同版本的書籍中，都可能有不同的寫法，即一個字可能有多種異體字。比如國家的“國”字，有簡體的“國”，繁體的“國”，還有“太平天囯”里沒有一點的“囯”。在分組時，一個字的每種異體字都要單獨分為一組。

分組后，在電腦上把這些古漢字打出來也是一件難事。常用輸入法一般都打不出異體字，就算有也在相當靠后的位置。加入的前兩個月里，張楚玨一直都在摸索打古文字的方法。她找到了三個能夠檢索古文字的字典網站，即便遇到不認識的字，也可以通過檢索部首找到這個字。

學生們漸漸駕輕就熟，某個期末周，團隊忽然發布了四萬字的審核任務，一位男生一人就完成了一萬字左右。

“萬里長征第一步”

陳力在圖書館工作多年，收到過不少讀者、專家對古籍館藏的意見，其中最常見的就是關于全文檢索，即通過關鍵字詞的搜索來輔助自己的研究。紙質書時代，已經有不少這樣的工具書，國內燕京學社給古代具有代表性的文獻都編了索引，比如一個字在《尚書》里出現了多少次，都在什么地方。但這樣的工具書使用起來依然比較繁瑣。

2021年5月18日，漢典重光在中國科技館舉辦發布會，會后，包括國家圖書館、浙江圖書館、四川大學圖書館和一些私人館在內的二十多家機構向該團隊發來祝賀，并表示愿意在后續過程中與該團隊合作，將自己的館藏數字化并開放給公眾使用。

古籍的數字化最早是從美國開始的。1970年代末，美國線上電腦圖書館中心和圖書館聯盟先后推出了《朱熹大學章句索引》《王陽明傳習錄索引》《戴震原善索引》等數據庫。1980年代以后，中國臺灣、香港和大陸相繼開始了中文古籍數字化項目。

目前中國規模最大的古籍保護計劃是2007年國務院提出布置的“中華古籍保護計劃”，截至2016年，中國古籍保護網的“全國古籍普查登記基本數據庫”已累計發布涉及13個省份及中直系統的96家單位所藏388963部3587347冊古籍的普查數據。

計劃的又一成果“中華古籍資源庫”也于2016年在國圖上線，古籍總量超3.3萬部。但與大多古籍數字化項目一樣，“中華古籍資源庫”僅停留在掃描處理提供古籍影像的程度，在內容檢索和分析上依然困難，且提供的掃描版本總量也不及全國普查結果的十分之一。

據媒體報道，國家古籍保護中心辦公室副研究館員趙文友做過一個估算，如果將全國尚未數字化的40萬個版本的古籍全部數字化，采集、組織、加工、存儲、管理等費用大約需要60億元。而國家古籍保護中心每年用于古籍數字化工作的經費僅1000萬元，很多地方圖書館的古籍數字化經費更是捉襟見肘。

在官方組織的古籍影像保護計劃之外，國內也有商業公司對部分古籍做過數字化磁盤存儲處理，《四庫全書》早在2000年就已經有了全套電子版錄入的光盤版本，由北京書同文數字化技術有限公司研制，在國內古籍數字化進程中具有里程碑意義。然而，這套磁盤并未能解決生僻字的輸入問題，南方周末隨機選取的一頁，就有22個無法顯示的字。

官方項目資金容易短缺，商業公司項目又不可避免涉及盈利，各種條件的掣肘下，古籍數字化的發展一直都沒能實現飛躍。此次公益性質的漢典重光平臺，在古籍數字化上趟出了一條新路徑。

過去古文字錄入高度依賴人工，此次的古籍OCR機器學習模型的建立準確率高達97.5%，效率是人工的近30倍。然而，陳力認為目前的漢典重光平臺只走了“萬里長征第一步”，還有無數難題等待解決。“機器處理有規律的東西好辦，無規律的東西就不好辦，而古籍無規律的東西居多?！标惲φf。比如《瀛壖雜志》手稿，這次的模型系統就還沒有辦法做到自動識別。書中滿篇都是雜亂的批校，毫無規律可言，想要識別還是得進行大量人工干預?！芭５淖侄己懿?，人都不一定認得出來，更不用說機器了。古籍識別不是可以一個方法用到底的?！?/p>

技術團隊也意識到數字化的進步空間還很大，目前97.5%的準確率是基于這樣一個前提：訓練集和最終的測試數據來自同一批書。如果用目前標注出來的三萬字字庫去識別一本新的古籍，很可能達不到這個準確率。

即便達到97.5%的準確率，與國家對印刷品萬分之二的錯誤率要求相比，也相差甚遠。要提高準確率，需要優化模型算法，更要擴充字庫容量，將更多的古文字納入這個字庫。這也是達摩院把漢典重光捐贈給社會的初衷——希望更多的人參與到系統的搭建之中。

“苦恨年年壓金線，為他人做嫁衣裳”，這是陳力的微信簽名，也是圖書館工作的真實寫照。2021年5月底，專家團隊和技術團隊將再次碰面，商討古籍數字化的下一步。

海外古籍數字化回歸：如何做到“為天下人所用”？

海外古籍數字化回歸：如何做到“為天下人所用”？