999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海外古籍數字化回歸:如何做到“為天下人所用”?

2021-08-03 09:49:09陸宇婷
新華月報 2021年15期
關鍵詞:圖書館

陸宇婷

流散海外八十多年后,文瀾閣本《四庫全書》中的《宋百家詩存》重現大眾視野。

在掃描影像中,這本中國古籍上的水浸、蟲噬、霉變歷歷可見,每一處都是歷史的風霜。1790年左右,《宋百家詩存》隨《四庫全書》入藏杭州文瀾閣,清咸豐年間在太平軍入杭后散失,1861年左右被嘉業堂收藏。抗戰時期,部分嘉業堂藏書流落到了上海,可能被日本人收購,并于1949年輾轉到了美國,如今藏于加州大學伯克利分校東亞圖書館。

東亞圖書館收藏了大量中國古籍善本,截至2021年5月18日,其中二十萬頁被掃描影像、讀取文字,以數字化形式回歸祖國。

這是海外古籍回歸項目“漢典重光”的成果之一。這批數字化古籍善本中既有宋元本,也有明清至民國時期著名學者的稿本、抄本,其中一些是以前很少有人見過的珍貴藏本,比如清文瀾閣本《宋百家詩存》。

古籍流散海外的原因多種多樣,實體回歸幾乎是不可能的,比較可行的辦法是數字化回歸。

此前的古籍數字化平臺,大多是展示掃描后的古籍圖片,讀者只能在這些平臺閱讀圖片,無法就書中內容進行檢索分析。此次漢典重光的數字化團隊不僅將古籍掃描,還將掃描下來的圖片識別轉化成了電子文字。搜索某一字詞,可以跳轉到字詞所在書本的具體章節段落。

這些古籍資源將向公眾免費開放。阿里達摩院院長張建鋒表示,漢典重光古籍數字化平臺將被捐贈給權威公共機構長期運營。

“讓蒙塵的古籍重煥新生”

四川大學歷史文化學院教授陳力是漢典重光項目的古籍專家。陳力的父親是教歷史的,1977年,陳力作為恢復高考的第一屆考生,填報的所有志愿都與歷史、中文、圖書館相關,最后被省內第一志愿四川大學歷史系錄取,從此“一輩子都在做這個”,對古籍積累下一份深厚的感情。

在漢典重光項目之前,陳力已經參與過古籍數字化項目。他曾經在國家圖書館工作18年,其中一半的時間分管古籍,經手過哈佛大學燕京圖書館的一個古籍數字化回歸項目。2009年,燕京圖書館館長鄭炯文專門從美國飛到中國商量相關事宜,目錄都篩選完成了,也做完了一部分書的掃描,但項目最終因為資金、技術等沒能達到預期而擱淺。

這次未竟的合作在某種程度上成為漢典重光項目的起源。在哈佛大學訪問期間,高曉松看到了燕京圖書館的古籍數字化系統。高曉松創辦的雜書館收藏了幾十萬種民間古籍,他產生了想讓流失的古籍回歸的想法,并于2017年10月28日第一次在釘釘上和阿里達摩院秘書長劉湘雯溝通這件事。

達摩院聯系上了燕京圖書館,館長依舊很愿意配合。但哈佛大學是一所私立大學,最后拍板的是哈佛董事會,這件事被董事會否決了。

與燕京圖書館的合作中止后,達摩院團隊繼續尋找海外古籍回歸的機會。他們聯系上了四川大學歷史文化學院副院長王果,王果找到了陳力。二人很快加入團隊,給項目命名為“漢典重光”?!皾h典”指中國古籍,“重光”是陳力提出的,意為“讓蒙塵的古籍重煥新生”。

在團隊討論中,陳力重點考慮的是項目的可行性——還是得找到愿意合作的海外圖書館。陳力首先聯系的是加州大學伯克利分校東亞圖書館原館長周欣平。周欣平1998年曾到四川大學訪問,與陳力進行過古籍數據系統檢索功能的討論。周欣平多次提及“古籍是天下之公器,要為天下人所使用”,如今受到陳力邀約,欣然同意合作。

陳力和王果去伯克利進一步溝通,與周欣平達成共識。在資金落實之前,伯克利那邊就開始了工作,并很快提供了十萬頁的古籍掃描版。

早在十多年前,上海圖書館曾對東亞圖書館的古籍館藏做了初步整理,編好了目錄。但是目錄沒法代替古籍本身,只有看到全書的原貌才能算是真正了解這本書的歷史,比如這次的重點回歸書目之一、晚清思想家王韜的《瀛壖雜志》,字跡密密麻麻的手稿,記錄的是這位洋務運動先驅人物自1840年代末期所親歷的上海開埠初期發展史。

和機器一起認字

此前國圖與燕京圖書館的合作主要是掃描古籍、回歸影像,漢典重光團隊更進一步,從單純的掃描圖像變成了內容識別整合,使古籍真正數字化,做到閱讀清晰、查詢方便,為后續的分析研究打下基礎。

團隊的算法負責人何夢超2017年參與過古籍OCR(對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程)項目,對北京龍泉寺的十本藏經進行識別。普通的OCR識別在現代印刷文本的使用上已經達到了很高的水平,2017年何夢超參與的《大藏經》項目里也能做到97%的準確率,但放到古籍上面,準確率降到了百分之三四十。

古籍的數字化錄入,比現代印刷品的數字化錄入難得多。由于古籍本身文字狀況的特殊性,古籍數字化無法套用已有的現代漢語詞典和機器學習模型,需要團隊從頭搭建古文數據庫和古文字識別人工智能模型。

何夢超去四川大學與陳力探討,陳力提到古籍文字種類非常多,而何夢超發現,其中很多字都是重復出現的。他想到了單字識別、再聚類的數據收集方法。也就是說,把一冊古籍里的字全部切分開來單個識別,然后把形狀、筆畫類似的字放入一個類別,再讓對古文字有所了解的人對聚類進行審核——拎出不屬于這個類別的字。最后給這個類別打上標簽,也就是這一類圖片字的打印版原型。

這是一項龐大的認字工程,幾千冊古籍,每冊幾千組文字需要人工審核。人手不夠,團隊招募對古籍感興趣、有一定知識的大學生加入。

四川大學歷史文化學院2018級本科生張楚玨是第一批加入的,她想借這個機會增加自己對古籍的認識,也補充一點零花錢。

最初,機器識別、分類的單字圖片讓張楚玨感到疑惑——有的圖片里有兩個字,有的圖片里不是字而是符號。

機器“認錯字”的原因是技術團隊低估了古籍版式的復雜性?,F代印刷品有通用的規范版式,古籍的版式則多種多樣,在豎排文字中可能突然出現一些橫排文字,同樣寬度的空間,有時寫著一列大字,有時寫著兩列小字。在二十萬頁古籍里就有近百種版式,技術團隊將它們一一區分,機器識別準確率大大提高。

版式問題解決之后,進入正式的人工審核環節。古文中的字有很多講究,同一個字在不同使用情況下、不同朝代不同版本的書籍中,都可能有不同的寫法,即一個字可能有多種異體字。比如國家的“國”字,有簡體的“國”,繁體的“國”,還有“太平天囯”里沒有一點的“囯”。在分組時,一個字的每種異體字都要單獨分為一組。

分組后,在電腦上把這些古漢字打出來也是一件難事。常用輸入法一般都打不出異體字,就算有也在相當靠后的位置。加入的前兩個月里,張楚玨一直都在摸索打古文字的方法。她找到了三個能夠檢索古文字的字典網站,即便遇到不認識的字,也可以通過檢索部首找到這個字。

學生們漸漸駕輕就熟,某個期末周,團隊忽然發布了四萬字的審核任務,一位男生一人就完成了一萬字左右。

“萬里長征第一步”

陳力在圖書館工作多年,收到過不少讀者、專家對古籍館藏的意見,其中最常見的就是關于全文檢索,即通過關鍵字詞的搜索來輔助自己的研究。紙質書時代,已經有不少這樣的工具書,國內燕京學社給古代具有代表性的文獻都編了索引,比如一個字在《尚書》里出現了多少次,都在什么地方。但這樣的工具書使用起來依然比較繁瑣。

2021年5月18日,漢典重光在中國科技館舉辦發布會,會后,包括國家圖書館、浙江圖書館、四川大學圖書館和一些私人館在內的二十多家機構向該團隊發來祝賀,并表示愿意在后續過程中與該團隊合作,將自己的館藏數字化并開放給公眾使用。

古籍的數字化最早是從美國開始的。1970年代末,美國線上電腦圖書館中心和圖書館聯盟先后推出了《朱熹大學章句索引》《王陽明傳習錄索引》《戴震原善索引》等數據庫。1980年代以后,中國臺灣、香港和大陸相繼開始了中文古籍數字化項目。

目前中國規模最大的古籍保護計劃是2007年國務院提出布置的“中華古籍保護計劃”,截至2016年,中國古籍保護網的“全國古籍普查登記基本數據庫”已累計發布涉及13個省份及中直系統的96家單位所藏388963部3587347冊古籍的普查數據。

計劃的又一成果“中華古籍資源庫”也于2016年在國圖上線,古籍總量超3.3萬部。但與大多古籍數字化項目一樣,“中華古籍資源庫”僅停留在掃描處理提供古籍影像的程度,在內容檢索和分析上依然困難,且提供的掃描版本總量也不及全國普查結果的十分之一。

據媒體報道,國家古籍保護中心辦公室副研究館員趙文友做過一個估算,如果將全國尚未數字化的40萬個版本的古籍全部數字化,采集、組織、加工、存儲、管理等費用大約需要60億元。而國家古籍保護中心每年用于古籍數字化工作的經費僅1000萬元,很多地方圖書館的古籍數字化經費更是捉襟見肘。

在官方組織的古籍影像保護計劃之外,國內也有商業公司對部分古籍做過數字化磁盤存儲處理,《四庫全書》早在2000年就已經有了全套電子版錄入的光盤版本,由北京書同文數字化技術有限公司研制,在國內古籍數字化進程中具有里程碑意義。然而,這套磁盤并未能解決生僻字的輸入問題,記者隨機選取的一頁,就有22個無法顯示的字。

官方項目資金容易短缺,商業公司項目又不可避免涉及盈利,各種條件的掣肘下,古籍數字化的發展一直都沒能實現飛躍。此次公益性質的漢典重光平臺,在古籍數字化上趟出了一條新路徑。

過去古文字錄入高度依賴人工,此次的古籍OCR機器學習模型的建立準確率高達97.5%,效率是人工的近30倍。然而,陳力認為目前的漢典重光平臺只走了“萬里長征第一步”,還有無數難題等待解決。“機器處理有規律的東西好辦,處理無規律的東西就不好辦,而古籍無規律的東西居多?!标惲φf。比如《瀛壖雜志》手稿,這次的模型系統就還沒有辦法做到自動識別。書中滿篇都是雜亂的批校,毫無規律可言,想要識別還是得進行大量人工干預?!芭5淖侄己懿荩硕疾灰欢ㄕJ得出來,更不用說機器了。古籍識別不是可以一個方法用到底的。”

技術團隊也意識到數字化的進步空間還很大,目前97.5%的準確率是基于這樣一個前提:訓練集和最終的測試數據來自同一批書。如果用目前標注出來的三萬字字庫去識別一本新的古籍,很可能達不到這個準確率。

即便達到97.5%的準確率,與國家對印刷品萬分之二的錯誤率要求相比,也相差甚遠。要提高準確率,需要優化模型算法,更要擴充字庫容量,將更多的古文字納入這個字庫。這也是達摩院把漢典重光捐贈給社會的初衷——希望更多的人參與到系統的搭建之中。

“苦恨年年壓金線,為他人做嫁衣裳”,這是陳力的微信簽名,也是圖書館工作的真實寫照。2021年5月底,專家團隊和技術團隊再次碰面,商討古籍數字化的下一步。

(摘自5月27日《南方周末》。作者為該報特約撰稿人)

猜你喜歡
圖書館
去圖書館坐坐
發明與創新(2021年6期)2021-03-10 07:13:54
圖書館
圖書館里送流年
圖書館
文苑(2019年20期)2019-11-16 08:52:12
夜間的圖書館
幽默大師(2019年5期)2019-05-14 05:39:38
圖書館里的小驚喜
圖書館 Library
幼兒畫刊(2018年11期)2018-12-03 05:11:44
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
主站蜘蛛池模板: 日韩区欧美区| 国产18在线| 亚洲人成网站在线播放2019| 久久无码av一区二区三区| 波多野结衣国产精品| 日本少妇又色又爽又高潮| 2022国产无码在线| 日韩精品一区二区深田咏美| 日韩欧美中文字幕在线韩免费| 久久无码av三级| 欧美一区二区福利视频| 91视频首页| 91小视频版在线观看www| 国产精品久久久久鬼色| 欧美一区二区福利视频| 色噜噜在线观看| 亚洲精品桃花岛av在线| 亚洲国产清纯| 国产精品欧美在线观看| 亚洲精品午夜天堂网页| 国产精品久久久免费视频| 亚洲毛片在线看| 国产乱子精品一区二区在线观看| 久久免费看片| 中文字幕亚洲第一| 中国丰满人妻无码束缚啪啪| 亚洲最新在线| 国禁国产you女视频网站| 五月婷婷综合在线视频| 色综合中文字幕| 久久窝窝国产精品午夜看片| 91精品aⅴ无码中文字字幕蜜桃| 亚洲浓毛av| 久久99国产乱子伦精品免| AV无码一区二区三区四区| 国产一级毛片网站| 亚洲日本中文字幕天堂网| 91无码国产视频| 成人综合久久综合| 91探花国产综合在线精品| 欧美国产日韩一区二区三区精品影视| 欧美中文字幕无线码视频| 免费a在线观看播放| 国产一级妓女av网站| 四虎成人在线视频| 亚洲无限乱码| 老司国产精品视频| 国产激爽大片高清在线观看| 欧美一级高清免费a| 免费在线色| 激情乱人伦| 天堂久久久久久中文字幕| 久久精品这里只有国产中文精品| 精品一区二区无码av| 亚洲欧美极品| 久久夜色精品国产嚕嚕亚洲av| 日韩一区二区在线电影| 中文字幕 91| 四虎影视国产精品| 国产91导航| 久久中文字幕2021精品| 欧美成人综合视频| 2019年国产精品自拍不卡| 波多野结衣国产精品| 欧美综合区自拍亚洲综合绿色 | 亚洲第一福利视频导航| 无码内射在线| 亚洲中文无码h在线观看| 欧美成人免费一区在线播放| 91久久国产成人免费观看| 欧美激情视频一区二区三区免费| 日韩人妻少妇一区二区| 1级黄色毛片| 欧美成一级| 欧美午夜久久| 幺女国产一级毛片| 亚洲成人动漫在线| 精品亚洲欧美中文字幕在线看| 亚洲视频在线网| 99国产精品免费观看视频| 精品少妇三级亚洲| 一级毛片视频免费|