
5月18日,“漢典重光“海外古籍?dāng)?shù)字化回歸發(fā)布會在位圭I岐的中國科技館舉行。_批珍藏于加州大學(xué)伯克利分校的中文古籍善本,以數(shù)字化方式回歸故土,落戶“漢典重光古籍”平臺。借助阿里巴巴達(dá)摩院的技術(shù),首批20萬頁古籍已完成數(shù)字化,并積累出3萬多字的古籍字典,公眾可通過漢典重光平臺(https://wenyuan.aliyun.com)翻閱、檢索、使用。
2019年,阿里巴巴公益基金會和四川大學(xué)提出“數(shù)字化回歸”設(shè)想,四川大學(xué)歷史文化學(xué)院王果副院長與該院教授、中央文史研究館館員陳力牽線搭橋,溝通北美、歐洲、日韓等地藏書機(jī)構(gòu),獲瞧國加州大學(xué)伯克利分玆持,達(dá)成共識,將伯克利東亞圖書館的中女古籍善本逐步數(shù)字化。此后,阿里巴在達(dá)摩院創(chuàng)新技術(shù)方式,將流散海外的珍貴中文古籍?dāng)?shù)字化,讓那些深鎖高閣的典籍重新回到世人眼前,讓所有人都可閱讀、調(diào)用,通過古籍與彌魘對法,與優(yōu)秀傳統(tǒng)文化對話。
目前,阿里達(dá)摩院已完成對美國加州大學(xué)伯克利分校東亞圖書館提供的首批20籍的識別。加州大學(xué)伯克利分校是美國的漢學(xué)研究重鎮(zhèn),中文藏書量排名全美第三。首批數(shù)字化的20萬頁古籍中,包含40余種珍貴宋元刻本、寫本,如宋刻本《后村居士集》、北宋寫本《金粟山大藏經(jīng)》寫本;明清至民國時期著名學(xué)者錢謙益、翁方綱、王韜的抄本、稿本;著名藏書樓嘉業(yè)堂、密韻樓的抄本,還有命運多舛的清文瀾閣《四庫全書》零本等,很多都是消失多年后重回公眾視線的珍本。
伯克利提供古籍的掃描圖片和編目數(shù)據(jù),達(dá)摩院將其全部文字化。古漢語常用字僅有幾千但中國古籍全部字符約有幾十萬,絕大部分不僅沒被現(xiàn)代字庫收錄,也幾乎找不到樣本供AI學(xué)習(xí)。面對海量無標(biāo)注的數(shù)據(jù),如何讓AI快速識別古籍,始終是古籍?dāng)?shù)字化領(lǐng)域的技術(shù)瓶頸。
據(jù)技術(shù)人員介紹,達(dá)摩院技術(shù)團(tuán)隊與四川大學(xué)專家聯(lián)手研發(fā)了一套全新的古籍識別系統(tǒng)。利用單字檢測、無監(jiān)督單字聚類、小樣本學(xué)習(xí)、主動學(xué)習(xí)等機(jī)器學(xué)習(xí)方法,構(gòu)造了一套邊識別古籍、邊訓(xùn)練模型的系統(tǒng),以97.5%的準(zhǔn)確率完成20萬頁古籍的整體識別。該系統(tǒng)已能批量識別百本古籍,并積累出3萬多字的古籍字典。比起專家錄入,這套人機(jī)交互的識別系統(tǒng)將效率提升了近30倍。隨著古籍識別規(guī)模的擴(kuò)增,機(jī)器還會自我進(jìn)化,不斷提升準(zhǔn)確率和效率。
因邦交、貿(mào)易、戰(zhàn)亂等,歷史上中國古籍不時流向海外。近代以來,戰(zhàn)爭和動蕩更加劇了古籍的損毀和流散。據(jù)不完全估計,散居海外的中國古籍超過40萬部、400萬冊,包括甲骨簡比、郭煤透書、宋元善本、明清精粱、拓本興圖、少數(shù)民族文獻(xiàn)等等。
“守護(hù)中華傳世典籍。是科技工作者和文化工作者共同的使命。”阿里巴巴達(dá)摩擦洗長張建峰鋪露,阿里計如圖這套技術(shù)工具連同古籍?dāng)?shù)字化平臺一井捐贈,交由權(quán)威公共機(jī)構(gòu)長期運營。在加州大學(xué)伯克利分校東亞圖書館的長度欣平者來,雖過數(shù)字化,讓流散海外的古籍善本和國內(nèi)的讀者見畫,也是另外一種形式的“回家”。與古籍打了一輩子交通的陳力認(rèn)為。典籍是中華文明的傳承載體,更是人類世界的公共財產(chǎn),希望有更多力量參與中國古籍的保護(hù)*傳承,讓更多普通人有機(jī)會授觸古籍使用古籍.讓所有蒙塵的古籍重?zé)ㄐ律W寱鴮懺诠偶锏奈淖只钇饋怼?/p>