999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

當下我國古籍數字出版的發展趨勢

2025-09-28 00:00:00唐宸
出版參考 2025年8期

摘 要:在數字人文與人工智能技術的雙重驅動下,我國古籍數字出版呈現新的演進方向。與此同時,古籍數字出版主體的角色格局也正在發生顯著變化:公立圖書館通過強化古籍原始版本的公益化發布占據主導地位,古籍類專業出版社依托古籍整理本的數字化轉制實現對傳統數據庫廠商的超越,而公益性眾包發布平臺則將成為重要的補充力量。未來,業界需重點解決數據質量、版權規范與行業協作等問題,遏制灰色產業鏈不良勢頭,共同維護古籍數字出版與紙質出版良性互動的健康生態。

關鍵詞:古籍數字化 數字人文 人工智能

在當下數字人文與人工智能技術加速融合的背景下,我國古籍數字出版正經歷從資源數字化向知識智能化的深刻轉型。[1]古籍數字出版產品的形態、質量與交互模式發生了結構性變革,數據資源利用的深度開發與知識服務的創新應用成為行業演進的核心動力。與此同時,公立圖書館、公益性眾包平臺、古籍類專業出版社和傳統數據庫廠商通過差異化定位重構了出版主體的生態格局,正在推動古籍數字資源利用從封閉式商業化向開放式公益化轉變。本文通過系統梳理古籍數字出版在數據形態、質量層次、交互方式與功能支撐等維度的立體化演進路徑,剖析出版主體角色轉換的現實邏輯,旨在揭示數字人文與人工智能雙重技術驅動下我國古籍數字出版的發展趨勢。

一、古籍數字出版產品形態的立體演進

古籍數字出版產品從最初單一的古籍影像型數據庫,到結構化文本型數據庫、關系化本體數據庫,再到對話式人工智能應用,其形態的每一次變化都顯著提高了學者與公眾對古籍的利用度,其主要演變路徑可歸納為以下幾個方面。

(一)數據形態:從數字化到結構化、圖譜化

作為古籍數字出版生態體系中的基礎部分,影像型數據庫是古籍數據庫的傳統形式,但它卻長期存在數據資源分散、缺乏檢索功能等問題。隨著愛如生、鼎秀、書同文等重點數據庫陸續引入圖文對照機制、配置全文檢索功能等,有效解決了檢索利用不便的矛盾。筆者2023年研發推出的“全球漢籍影像開放集成系統”利用數據聚合技術,首次實現了全球古籍影像資源的“一站式”利用,初步化解了資源獲取不易的難題。然而隨著學界對深度結構化數據需求的日益凸顯,僅僅具備“全文檢索”的文本數據還不夠,要想實現更精準、更靈活的檢索乃至知識挖掘,還需要在文本中預先進行內容的層級標記與語義注解,即對書名、篇名、段落、注釋、批語、題跋、印章等進行標記,對人名、地名、官名、時間、人物關系等進行本體建模與標注。以浙江大學徐永明教授團隊2021年推出的“智慧古籍平臺”為例,該平臺借鑒知識圖譜理念,綜合運用計量統計、定位查詢、聚類查詢、空間分析、數據關聯、網絡分析、機器標引等技術,實現了古籍文獻和研究成果的圖譜化。[2]可以說,以“智慧古籍平臺”為代表的一批數字人文新式產品的涌現,使得古籍數據庫的結構化改造逐漸成為學界乃至整個文化界的廣泛共識。2025年4月,國家圖書館、國家古籍保護中心牽頭發布“中華古籍智慧化服務平臺”(第一期),不僅預置了篇卷標記和實體標引,還提供圖譜可視化檢索和知識詳情等功能。在未來十數年內,一旦高質量結構化和圖譜化的古籍數據積累到一定規模,學者將能夠輕易實現“點對點”乃至“點對線”的文獻追蹤,開展基于數字人文技術的量化分析和深度研究,同時也使得古籍數字出版向高階智能知識應用轉型成為可能。

(二)質量層次:從全文化到標點化、實體化

作為古籍數字出版生態體系中的核心部分,檢索型數據庫是古籍數據庫的主要形式,但它也長期存在數據質量低下、閱讀門檻過高等問題。全文數字化主要是建立在機器識別的基礎上,受到古籍版面復雜、識別技術落后等因素的制約,文本準確率較低。即使是在人工校對方面有所投入的幾家重點商業性數據庫,魯魚豕亥之失仍觸目可見。愛如生公司于2025年2月推出“愛如生數字再造古籍”首批25部,技術標準為全文錄入接近零錯誤、全息顯示復雜版式、逼真再現印裝技術等,令人眼前一亮,但其校對成本之高昂、版面復原之煩瑣、全面推廣之困難,是可想而知的。加之當下學界對古籍向量訓練需求的不斷增加,傳統檢索型數據庫因缺乏準確句讀導致分詞多誤、缺乏實體標注導致關聯度弱、充斥復雜噪聲導致RAG(檢索增強生成)和微調(Fine-tuning)效果不佳等問題也愈加突出。因此,從低質量的全文化走向高質量的標點化,同時以有效的實體化輔助結構化,應是檢索型古籍數據庫的重要改進方向。

需要指出的是,當下古籍數字出版的標點化和實體化存在兩種范式,一是直接使用業已完成紙質出版的高質量古籍整理本為數字化對象,從而預先實現標點和專名標記;二是利用專門的預訓練模型或通用性大語言模型,實現標點、標記的預處理或用戶端的實時處理。一些高質量專業預訓練模型(如廣受好評的北師大胡韌奮團隊“古詩文斷句”模型[3])的標點和標記準確性已達到中文專業碩士生水準,具備很強的日常實用性,但現階段錯誤仍無法避免。各種大語言模型應用,必將受限于底層Transformer機制本身的概率式和推測式弊端,使得其生成的標點結果在穩定性和準確性上都難以滿足高質量數字出版的要求。顯然,古籍數據庫要走向標點化、實體化,在可預見的未來,應當瞄準高質量古籍整理本的數字化轉制出版這一基本路線,而將大語言模型放在整理本的標點、標記錯誤校驗和數字化質量進階提升這一環節上,庶幾相得益彰,以滿足深層次的學術需求與大眾閱讀需求。

(三)交互方式:從檢索式到問答式、生成式

機械檢索是傳統古籍數字化產品的主流人機交互方式。檢索式交互的優點是操作邏輯簡便清晰,其缺點是當搜索詞不明確或資料規模過于龐大時,用戶將面臨命中失敗或結果過多等情況,以至于無所適從。近年來,生成式人工智能尤其是大語言模型的出現,為古籍數字出版的交互方式帶來了躍變契機。對古籍文獻直接提問并獲得更有上下文和總結提煉能力的生成式回答,甚至進行多輪追問、輔助引證和量化分析等,已成為學界潛在需求很大的應用場景。

鑒于目前主流大模型仍存在文本幻覺、錯誤引用、過程黑箱等弊端,對古籍文言文的語義查詢和RAG命中效果也偏弱,一些古籍數據庫開始在非核心功能層面開展初步實驗,如字節公益的“識典古籍閱讀平臺”支持用戶在古籍閱讀界面利用豆包大模型進行實時劃句翻譯和文意鑒賞操作,而前述“中華古籍智慧化服務平臺”(第一期)則支持用戶調用DeepSeek大模型展開提問檢索等等。筆者正在研發的“全球漢籍AI智能聚合系統”擬利用DeepSeek大模型實現全方位人機交互,甚至能夠根據用戶的提問進行自動化數據查詢、結果顯示、頁面跳轉等操作,最終實現傳統檢索和智能問答的初步銜接。雖然大模型和古籍數據庫之間的高效率無縫銜接尚需開展一系列技術攻關,但機械檢索與問答生成相結合必然是未來古籍數據庫的重要交互模式,值得業界重點關注。

(四)功能支撐:從工具集到工作流、知識庫

早期的古籍數字出版產品延伸功能相對貧乏,往往只能提供聯機字典、簡繁翻譯、紀年換算等工具集,若要對文本開展進階分析,如對語料要素進行統計、對不同版本加以比較、對各種實體開展標注,往往還需要借助各種外部工具,導致用戶頻繁在不同平臺之間切換,工作效率低下,技術門檻很高。一些具備工具集性質的數字人文平臺(如DocuSky等)也未能充分解決數據順暢流通問題。隨著數字人文技術的興起,學界越發呼喚可以做到從數據采集、字符識別、文本校勘、自動標點、自動標記,到空間分析、網絡分析、可視分析、圖譜生成等全流程一體化設計的平臺。目前這方面能達到生產級別的平臺首推字節公益2024年3月免費發布的“識典古籍整理平臺”。相較于阿里巴巴公益2021年5月免費推出的“漢典重光古籍數字化平臺”,“識典古籍整理平臺”在工具的上下銜接、數據的整體流通方面投入了更大的研發成本,技術創新可圈可點,有效實現了古籍數字出版的一站式“工作流”聚合,加之引入了眾包和實時審核發布技術,有效降低了技術門檻,簡化了數字出版流程,使得古籍數字化效率大大提升,引起了學界的廣泛關注。

更為重要的是,隨著彼此割裂的輔助工具集被整合為無縫銜接的強大工作流,古籍數據庫在數字出版領域的產業定位正在悄然發生重大轉變——這個傳統意義上的數據內容載體(即純粹的產品)正突破既有功能邊界,逐步進化為具有自主生產能力的在線知識加工平臺。換言之,數字出版的主體將迎來重大變化。與之相適應的是,一些有實力的機構開始謀劃搭建基于語義網絡和知識圖譜技術的大型知識庫,如清華大學數字人文團隊劉石、孫茂松、張力偉等倡議的“中國古典知識庫”,即以20多萬種存世古籍為基礎,在保障其完整性、邏輯性的基礎上突破其原有結構,構建實體屬性和關系,對文獻進行深層組織和知識管理。[4]古典文獻的知識庫化不僅能夠極大拓展學術研究的外延,更能為多角度、跨學科研究搭建重要的基礎設施,而這些目標與前述新型古籍知識加工平臺的功用相比,可以說殊途同歸。

二、古籍數字出版主體角色的多維轉換

在古籍數字出版產品形態不斷演進的同時,其出版主體的角色體系也在發生重大變化,業已形成以公立圖書館為核心,以公益性眾包平臺為補充的體系,而傳統數據庫廠商也開始受到古籍類專業出版社的有力挑戰,即將迎來行業的普遍調整轉型。

(一)公立圖書館和公益性眾包平臺的關系

近年來國家圖書館、各省市圖書館以及部分高校圖書館顯著加大對古籍原始版本的數字化經費投入,陸續搭建單館性或者聯合性、區域性的數字資源發布平臺,并免費向社會公眾開放。由國家古籍保護中心牽頭、自2017年開始的10余次“全國聯合發布古籍”活動,通過聯合發布、云端共享、持續建設等形式,已經形成了以“中華古籍資源庫”為根基、以各省級資源平臺(如“江蘇省古籍數字資源集成平臺”等)為主干、以市縣或單館資源平臺(如“蘇州圖書館古籍數據庫”等)為枝葉的大型立體化古籍數字資源平臺集群。雖然該集群的各個站點在運營持續性、數據規范性、架構一致性等方面尚有明顯不足,但確實有效緩解了長期以來傳統文史研究數字資料短缺的矛盾,因而得到了學界廣泛認可。2025年4月最新發布的“中華古籍智慧化服務平臺”(第一期)更是立足于“全國智慧圖書館體系古籍數字化整理加工項目”,采取“一站式”主體發布策略,聯合大量公立圖書館機構發布了一萬余部基本達到結構化且元數據著錄較豐富的古籍,可視作“中華古籍資源庫”版本迭代的一次重要“實驗”。由于掌握了大量原始版本資源且公開意愿愈加強烈、技術標準愈加規范,公立圖書館在古籍數字出版領域的上游主體角色還將進一步強化,并最終牢牢占據核心主導地位。

除了公立圖書館之外,公益性眾包平臺也在古籍原始版本數字化方面起到了關鍵補充作用。這些平臺大多依托志愿者群體或大學生社會實踐項目,將用戶上傳的古籍影像進行OCR(光學字符識別)結果人工校對或元數據標記等。與公立圖書館相比,由互聯網大廠建設的公益性眾包平臺建設制度靈活、技術條件先進、數據發布簡便,易與科研機構開展多樣化、項目制合作,但也存在圖像來源版權不清、文字質量參差不齊、篇卷實體標記多誤、審校問責難以落實等問題。這些問題倘若得不到足夠重視和有效解決,不僅會給社會公眾尤其是初學者的閱讀學習帶來負面影響,也會動搖平臺自身的可持續發展基礎,甚至存在因錯誤數據的廣泛傳播誘發中文互聯網古籍數字文本嚴重污染的風險。據悉,國家圖書館“中華古籍智慧化服務平臺”第二期將探索數據加工眾包等功能,這不僅反映出公立圖書館將加強對社會眾包機制的探索,更意味著公益性眾包平臺和公立圖書館平臺的未來架構模式將逐漸趨同,甚至有可能在長期角色互補之后最終迎來“此消彼長”的局面。

(二)古籍出版社與傳統數據庫廠商的關系

隨著古籍數字化成為大勢所趨,一些古籍類專業出版社開始嘗試把紙質整理本轉制成可檢索的全文化數字出版產品,目前這方面的代表性案例是中華書局的“中華經典古籍庫”和上海古籍出版社的“尚古匯典”。二者均采取以本社資源為主體、聚合各出版社資源的建設策略。截至2025年5月,前者已收錄古籍整理本一萬余部,后者則達到4000余部,而一萬部古籍正是此前重點商業性古籍數據庫產品——愛如生公司“中國基本古籍庫”的收書數量,這意味著專業性古籍出版社所出版的數字古籍化產品如今在質量、數量上均已實現了對傳統商業性數字公司的超越。對于古籍出版社而言這是一大利好:一方面,紙質古籍整理本可以進一步擴大受眾,有效提升聚合檢索利用率和數字化附加值,形成紙質出版和數字出版雙軌并進的良好生態局面;另一方面,可以探索一條嶄新的、可持續的盈利或公益推廣模式,有效實現知識產權(紙質整理本版權)與開放共享之間的平衡。而對于傳統數據庫廠商來說,這卻是一次不折不扣的、關系生死存亡的重大危機:一方面他們已經為我國的早期古籍數字化做了大量探索,尤其在文本錄入、軟件開發、版權談判、市場開拓等方面投入了海量成本、作出了重要貢獻;另一方面他們多年行之有效的“數據加工+按量收費”商業模式不僅早已受到公立圖書館和公益性眾包平臺等免費產品的持續挑戰,如今還受到古籍類專業出版社發布的高質量、零差錯數據庫產品的直接沖擊。未來,這些傳統數據庫廠商倘若能與公立圖書館、公益項目、學術機構進行戰略性合作,積極推動自我革命,在產品定制化或高階增值服務方面進行深耕,仍然能夠在新生態中保有一席之地。

值得一提的是,目前有個別古籍出版機構“另辟蹊徑”地探索出一條“反向”灰色產業鏈,把早已在互聯網上免費公開的大量古籍影像資源進行批量搜集,從而為個別急功近利的學術機構或個人迅速炮制出一套又一套的所謂“叢刊”“輯刊”“集成”等內容。這些叢書動輒收書數十種甚至上百種,碼洋數萬元甚至數十萬元,但大多未經過嚴格的選題策劃,重復出版嚴重,并被大量用作課題結項、職稱評審等用途,對科研和出版經費造成了極大浪費。這種純粹以牟利為目的的短視行為不僅產生了大量束之高閣、無人問津的古籍影印“垃圾”,傷害了各公益性古籍數字化出版主體的積極性,甚至存在侵權違法和學術不端嫌疑,對于我國古籍出版事業可謂有百害而無一利。國家有關部門應積極采取措施,對那些選書品質好、學術價值高的紙質影印本(如浙江古籍出版社的“宋刻大系”、國家圖書館出版社的“國學基本典籍叢刊”等)建立更多政策激勵和補貼機制,而對于有組織地剽竊古籍數字出版資源進行批量影印出版的個別出版機構要施以必要的約束處罰,從而維護數字出版與紙質出版相互促進、協同共生的良好格局,推動新時代古籍整理出版事業健康發展。

參考文獻:

[1]劉石.文獻學的數字化轉向[J].文學遺產,2022(6):10-13.

[2]徐永明,王兆鵬,歐陽劍,等.系列筆談之二:古籍數字化平臺的建設[J].數字人文,2022(2):133-156.

[3]李紳,胡韌奮,諸雨辰.古籍標點與專名的智能識別技術研究[J].數字人文,2023(3):63-76.

[4]劉石,孫茂松.關于建設“中國古典知識庫”的思考[N].人民政協報,2020-08-24(9).

(作者單位系清華大學人文學院)

主站蜘蛛池模板: 日韩成人午夜| 毛片网站免费在线观看| 麻豆精品在线| 国产欧美视频在线观看| 久久99国产综合精品1| 亚洲色图在线观看| 亚洲国产精品美女| 91国内在线视频| 国产精品999在线| 久久五月视频| 国内精品视频| 久久久久亚洲精品成人网 | 久久精品中文字幕免费| 欧美中文字幕无线码视频| 久久人人爽人人爽人人片aV东京热| 免费人成视频在线观看网站| 久久人妻xunleige无码| 亚洲欧美一区二区三区图片| 日韩av资源在线| 久久久久88色偷偷| 青青操国产| 国产人妖视频一区在线观看| 亚洲国产清纯| 香蕉久久国产精品免| 久久永久免费人妻精品| 亚洲综合色在线| 欧美日韩在线亚洲国产人| 精品国产Av电影无码久久久| 最新国产你懂的在线网址| 国产精品成人免费综合| AV片亚洲国产男人的天堂| 欧美高清视频一区二区三区| 四虎永久在线精品影院| 国产丝袜第一页| 日本精品影院| 强乱中文字幕在线播放不卡| lhav亚洲精品| 欧美精品在线免费| 97免费在线观看视频| 亚洲va视频| 中文字幕在线免费看| 2021天堂在线亚洲精品专区| 午夜成人在线视频| 五月天天天色| 亚洲无码高清一区| 国产美女一级毛片| 亚洲高清国产拍精品26u| 日韩无码视频专区| 国产精品亚欧美一区二区三区| 日本午夜精品一本在线观看| 综合天天色| 四虎精品免费久久| 亚洲国产AV无码综合原创| 亚洲精品不卡午夜精品| 中文字幕波多野不卡一区| 国产乱人激情H在线观看| 欧美国产成人在线| 精品国产成人av免费| 99精品影院| 久久大香伊蕉在人线观看热2| 98精品全国免费观看视频| 亚洲成A人V欧美综合天堂| 欧美成人影院亚洲综合图| 五月婷婷伊人网| 青青草国产免费国产| 欧美日韩中文国产| 99人妻碰碰碰久久久久禁片| 91麻豆精品国产高清在线| 成人综合网址| 久久99国产精品成人欧美| 日韩在线视频网| 国产黄在线观看| 国产办公室秘书无码精品| 国产黑丝视频在线观看| 三级国产在线观看| 久久情精品国产品免费| 九九久久精品免费观看| 国产一级毛片yw| 欧美另类视频一区二区三区| 一区二区午夜| 久久中文字幕2021精品| 色综合久久无码网|