【摘要】現階段,古籍文獻整理出版領域面臨技術應用不足、技術迭代緩慢、技術壁壘突出等難題,將人工智能技術群落應用于古籍文獻整理出版事業同樣存在技術挑戰和行業挑戰。基于當下人工智能技術群落的特性與功能,可以構建其在古籍文獻整理出版領域的三大未來應用場景:面向整理出版工作的精準高效服務場景、面向不同用戶群體的多元智慧服務場景、面向數字社會建設的深融創新服務場景。出版行業既要科學展望古籍文獻整理出版事業智能化、智慧化發展的前景,也要時刻警惕技術風險和行業挑戰,做好萬無一失的準備。
【關? 鍵? 詞】人工智能;古籍文獻;整理出版;技術群落;應用場景
【作者單位】段涵,解放軍新聞傳播中心出版社。
【中圖分類號】G239.2【文獻標識碼】A【DOI】10.16491/j.cnki.cn45-1216/g2.2023.12.009
據不完全統計,從1949年到2019年,我國共修復整理出版古籍文獻近38000種,其中既有《中國古籍總目》《續修四庫全書》等重大項目工程,也有《中華經典古籍庫》鏡像版、網絡版、微信版、專業版等數字出版產品。然而,技術手段落后、內容質量良莠不齊、數字化程度較低一直是限囿古籍文獻整理出版事業高質量發展的影響因素。隨著5G、人工智能、大數據、云計算、區塊鏈等新興技術的成熟運用,數智化時代已經到來。2022年4月,中共中央辦公廳、國務院辦公廳聯合印發了《關于推進新時代古籍工作的意見》(以下簡稱“《意見》”),這是繼1981年9月中共中央發布《關于整理我國古籍的指示》后,黨和國家又一次對古籍工作作出的重大指示。《意見》重點指出要“發揮科技保護支撐作用,推動古籍保護關鍵技術突破和修復設備研發”,“積極開展古籍文本結構化、知識體系化、利用智能化的研究和實踐”,這對現階段古籍文獻整理出版工作積極應用先進技術手段,全面提升古籍文獻整理出版效率和質量提供了新的指引。被譽為21世紀人類三大尖端技術之一的人工智能,對古籍文獻整理出版具有顯著的賦能作用。有學者指出,我國現存古籍文獻約有20萬種,若按現有速度全部整理出版,大概需要300年的時間,如果引入人工智能技術輔助整理與出版,大概只需二三十年就能完成[1]。
當前,以生成式人工智能為代表的技術迭代升級,為新時代古籍文獻整理出版提供了更強預期和信心,一些專家學者開始對以ChatGPT為代表的生成式人工智能在古籍文獻整理出版領域的應用前景展開深入討論。
一、古籍文獻整理出版的技術難題
黨的十八大以來,受黨和國家的高度關注和政策引領、多行業主體的積極參與實踐,古籍文獻整理出版工作取得顯著成績,發展現狀良好。然而,技術難題是現階段古籍文獻整理工作的核心問題之一。
一是技術應用不足,古籍文獻整理出版速度有待提升。我國古籍文獻資源種類龐雜、內容豐富,倘若僅靠人工整理出版,還需數百年時間才能勉強完成全部整理修復工作。目前古籍文獻整理出版主要采用影印技術,由于資金、人才及技術限囿,對新興技術的研發、應用普遍不足,多數數字化古籍文獻資源以微縮膠片轉換而成,需要專家人工錄入,不僅分辨率低,且操作周期長、時間成本極高,嚴重影響了新時代古籍文獻整理出版速度。若引入新興技術,尤其是人工智能和大數據技術,古籍文獻整理出版速度必將大幅提升。
二是技術迭代不足,古籍文獻整理出版效率仍需強化。目前,古籍文獻整理出版領域大多使用的技術仍以計算機自動化技術為主,主要應用于古籍文獻文本的編輯校對環節,不僅誤報率高,而且缺乏知識深度索引功能,導致古籍文獻整理出版的工作效率和資源利用率有待提高。胡佩等指出,以黑馬校對和方寸校對為代表的兩款產品是現階段中文校對領域的代表,盡管這些產品以人工維護的字詞庫或語法庫對古籍文獻數字化整理出版工作發揮了一定的積極作用,但也存在字詞庫擴容以后誤報率上升的固有缺陷,具體表現為整句糾錯能力差、校對能力不足等[2]。此外,僅憑計算機自動化技術并不能對古籍文獻資源進行精準、全面、深度、高效的內容索引,這也導致相關整理出版產品的知識服務功能和用戶使用體驗不足。
三是技術壁壘突出,古籍文獻整理出版影響有限。盡管目前已有部分出版機構、圖書館以及商業公司等利用新興技術打造古籍文獻整理出版平臺、數據庫等,但技術壁壘仍然突出,在一定程度上限囿了古籍文獻整理出版的影響力。一方面,技術內部壁壘突出。現有的古籍文獻數字資源庫大多注重資源數量與規模建設,且主要以古籍文獻物理單元為對象進行技術著錄、保存與服務,由于古籍文獻物理單元的局限,同一主題的古籍資源往往被分散在多個文獻單元之中,不僅存在資源重復的現象,而且大大降低了古籍文獻整理出版的內容效果和服務質量。另一方面,技術外部壁壘突出。我國古籍文獻資源本就分散,加之不少機構存在“各行其是”的傳統觀念,導致珍貴資源和核心技術并未實現共建共享目標。如果各出版社單打獨斗,就會出現多個小型古籍數據庫,難以形成規模優勢[3]。
二、人工智能技術群落對古籍文獻整理出版的賦能作用
新一代信息技術的發展及應用,尤其是人工智能技術群落的誕生和賦能,為古籍文獻整理出版事業的高質量、高效率發展提供了重要機遇,人工智能技術的出現為古籍修復整理帶來革命性變化[4]。近年來,包括北京大學、中華書局的古聯(北京)數字傳媒科技有限公司(以下簡稱“古聯公司”)、字節跳動等在內的不少高等院校、商業公司以及網絡平臺對古籍文獻整理出版的數字化、智能化發展付諸了巨大努力,打造了“識典古籍平臺”“古聯智能OCR系統”“匯典·古籍數字服務平臺”等系列尖端產品,以期通過人工智能技術群落的強勢賦能,實現古籍整理出版事業的理想目標。具體來看,人工智能技術群落對古籍文獻整理出版的賦能作用主要有三點。
第一, 人工智能技術群落能快速識別和自主分析古籍文獻文本資源,給后續的整理出版系列工作提供更高效、更便捷的多元服務。長期以來,在古籍整理出版領域,“一萬個小時”恐怕出不來一個熟手,“兩萬個小時”也未必能造就一個大師。人工智能技術群落應用于古籍整理出版領域,對實現古籍原典從紙本到數據的一站式轉換具有顯著作用。2022年,古聯公司以“古聯智能OCR系統”為核心,在籍合網上線了古籍智能整理平臺,將公司成立以來的一系列古籍整理AI技術如OCR、自動斷句標點、繁簡轉換以及支持14萬個古籍整理用字的XML編輯器成功融入新平臺建設,目前該平臺已初步實現了古籍文獻影像的數據挖掘和元素識別目標,大幅提升了識別和分析版刻本古籍文獻的速度,5分鐘便可達到人工錄入20個小時的工作量[5]。除了文本識別和數據轉換,隨著人工智能技術群落的迭代升級,“古聯智能OCR系統”還能針對古籍文獻資源進行更多元的開發利用,如給行文添加標點,對人名、地名、時間等內容要素進行詳細標注,并提供智能校對與編輯服務,從而達到古籍文獻整理出版的一站式、數字化發展目標,為后續古籍文獻的活化開發利用提供更多支撐。
第二,人工智能技術群落能對古籍文獻文本資源進行精準糾錯和深度標引、智能關聯,為提升整理出版工作效率以及優化用戶服務體驗保駕護航。目前,“識典古籍平臺”“古聯智能OCR系統”“匯典·古籍數字服務平臺”都積極應用了系列人工智能技術,如OCR、NLP、ML等。借助上述技術群落賦能,古籍文獻整理出版效率得以大幅提升。例如:“古聯智能OCR系統”借助人工智能技術識別,誤報率降低了75%[5];利用人工智能技術賦能,北京大學數字人文中心在從先秦到明清跨時代的大規模古籍文獻文本語料整理方面實現了對古文本的自動句讀,平均準確率達到94%,并實現了對人名、地名、時代名、官職名等古籍原典要素的自動識別,在中古史料上的準確率接近98%[5];通過技術群落多重賦能,“人工智能+古籍文獻整理出版平臺”能進一步實現全文檢索、圖片檢索等目標,并通過自然語言處理技術深度解析古籍文獻數據文本實現古籍文獻知識結構化,重構古籍文獻內容服務形式,增強知識深度索引和智能服務能力。有學者指出:過去的古籍文獻整理出版目標是把傳統紙本的古籍文獻資源整理出來再次出版,或以現代文的注釋便利大眾閱讀;現在的古籍文獻整理出版重在抽取古籍文獻中蘊藏的歷史文化知識,以先進技術構造成各種各樣的專業資源庫,以知識圖譜的形式支撐互聯網前端應用,以此實現資源利用高效便捷和知識服務專業權威的核心目標[6]。
第三,人工智能技術群落對加快古籍文獻資源共建共享,進一步打破古籍文獻整理出版邊界,實現活化開發利用目標,具有不容忽視的促進作用。復旦大學張曉虹教授認為,作為傳統史料的重要載體之一,古籍文獻因其表達方式的復雜性、精度的不確定性和收藏機構的分散性,在開發利用上存在較大困難[4]。在此背景下,充分利用人工智能技術群落賦能加速古籍文獻資源一體化整合和平臺化共建,打破行業壁壘和數據孤島,對新時代古籍文獻整理出版事業具有重要意義,甚至能延伸出更大的“活化”空間。“識典古籍平臺”作為古籍整理出版領域高等院校與網絡公司聯合打造的一站式智能服務平臺,其通過雙方在技術上的優勢互補和資源共享,進一步打破并模糊了行業壁壘和邊界,讓古籍文獻資源得以在更大范圍內被開發利用,真正實現“活起來”目標。在人工智能技術群落的賦能與支撐下,古籍文獻整理出版邊界日趨模糊,行業壁壘逐漸消失,一體化跨界協同趨勢不斷增強,這不僅有利于古籍文獻資源的深度開發利用和價值效益釋放,而且對古籍文獻于當代“活起來”和“傳下去”具有重要意義。
三、人工智能技術群落在古籍文獻整理出版領域的應用場景
基于人工智能技術群落的強大賦能,加之技術迭代速度不斷加快,古籍文獻整理出版事業迎來了新的機遇,呈現智能化甚至智慧化發展態勢。基于當下人工智能技術群落的特性與功能,本文合理構建了其在古籍文獻整理出版領域的三大未來應用場景。
1.面向整理出版工作的精準高效服務場景
在人工智能技術群落的強勢賦能下,未來古籍文獻整理出版領域的工作場景將得以重塑,呈現精準高效的服務特色,為提升體量龐大的傳統整理出版速度發揮重要作用。
一是文本自動識別與高效轉化。基于深度學習、機器學習等人工智慧技術群落的強勢賦能,古籍文獻整理出版將不再依靠再生性保護方式進行影印再造和人工轉換,而是通過OCR、AI句讀、智能掃描設備的使用,實現古籍文獻資源的自動識別與高效轉化目的。例如,通過OCR技術應用,僅需“掃一掃”古籍文獻原典,便可自動錄入相應內容,同時生成數字文檔,為后續的編輯校對、整理分類以及出版發行等提供有效支撐。
二是內容智能精校與深度索引。借助自然語言處理、大規模語言模型生成等人工智能核心技術賦能,可建成面向古籍文獻資源的大規模預訓練數據庫和語料庫,為智能精校古籍文獻數據資源并實現深層知識索引提供可能。例如,通過大規模古籍文獻文本語料整理,即大量古籍文本數據的學習模仿,可實現對數據文本的自動精校,包括但不限于人名、地名、時代名等內容元素的整理分類、智能標注和深層檢索,并以此進行智能知識索引,在協助編輯和作者更高效、便捷地處理文本的同時,為古籍文獻資源的深度開發利用和多元用戶服務提供保障。
三是智能出版工具包及多元解決方案。通過人工智能技術群落的落地應用,諸如版式自動調節、一站式資源發布、繁簡自動轉換等系列工具包以及數據保護存儲、系統自查自檢、平臺定期維護等技術解決方案也將接踵而至,讓古籍文獻整理出版工作全部轉移至線上,且能實時操作,以此實現提質增效目標。
2.面向不同用戶群體的多元智慧服務場景
通過人工智能技術群落的強勢賦能,未來古籍整理出版領域的用戶群體及其服務場景將愈發多元、個性化。在人工智能技術群落的賦能作用下,根據不同用戶群體的個性需求提供相應的智慧場景服務,是新時代古籍文獻整理出版工作的核心目標之一。
一是面向專家學者及高校師生群體的智慧知識服務。隨著人工智能技術群落的飛速發展,尤其是機器學習、深度學習技術的廣泛應用,越來越多的古籍文獻資源得以問世,并能按照用戶指令提供精準、專業、個性的智慧服務,這對專家學者的學術科研和高校師生的知識學習提供了重要支撐。例如,針對不同專家學者和高校師生的知識需求,人工智能技術群落可實現對古籍文獻數據資源的智能檢索和自動生成,幫助他們精確獲取內容要點,從而提高學術知識服務質量。
二是面向一般大眾和古籍愛好者的智慧閱讀服務。通過人工智能技術群落的普及應用,古籍文獻數據庫或平臺可研發自動標點、繁簡轉換等多元工具,從而將古籍整理出版領域使用的技術工具擴展成一般大眾或古籍愛好者觸手可及的智慧閱讀產品,加大古籍文獻資源在智能信息環境下深度開發、利用和傳播的力度。例如,借助人工智能技術群落研發并使用的知識標引與檢索、繁簡自主轉換等應用工具,一般大眾和古籍愛好者可直接進行古籍文獻閱讀活動,甚至能借助AIGC機制自動生成個性閱讀和知識解決方案,幫助他們更好地理解和掌握晦澀難懂的古籍文化知識。此外,基于人工智能技術群落與AR/VR/MR等技術的融合創新,可將傳統的平面閱讀轉變為立體閱讀場景,給予用戶前所未有的沉浸式閱讀體驗。
三是面對文化企業和商業公司的智慧供給服務。通過人工智能技術群落搭建的一站式共建共享平臺,古籍文獻整理出版系統的上中下游合作關系將進一步強化,以此形成閉合產業鏈,即上中游的古籍文獻整理出版系統通過資源開發與維護、內容整理與出版,為下游文化企業、商業公司乃至古籍領域的跨界合作提供資源支撐,進一步釋放古籍活化價值。
3.面向數字社會建設的深融創新服務場景
人工智能技術群落應用于古籍文獻整理出版事業,可實現古籍文獻資源數字化、智能化、智慧化發展目標,這不僅滿足國家文化數字化發展戰略的現實需要,而且對數字中國、數字社會建設起到重要的支撐作用。
一方面,通過人工智能技術群落賦能,蘊藏在古籍文獻原典中的各類歷史文化知識、思想價值觀念將以數據形式被抽取和利用,再經知識圖譜的自動生成和古籍文獻內容的智能化整理出版,為數字社會建設提供豐富多元、價值深厚的文化數字化資源。例如,經過人工智能技術群落的實踐應用,古籍文獻資源可以通過音、視、圖、文甚至立體閱讀形態加以檢索、關聯閱讀和深度挖掘利用,從而面向社會構建一系列深融創新服務場景,助力全民數字閱讀事業的高質量發展,以古籍文獻數字資源的智能化應用為數字社會文化建設提供強勢動力。
另一方面,借助人工智能技術群落的強勢賦能和開放服務,古籍文獻數字資源還可被構造成各種各樣的知識智庫,為數字社會建設提供決策參考服務,并以知識圖譜的形式支持數字社會的各種前端應用和場景開發,如數字教育、數字文化等,切實實現古籍文獻整理出版工作效益最大化的目標。
長期以來,科學技術在人類社會發展進程中都是一種起到推動作用的、革命的力量。在人工智能技術群落的賦能下,古籍文獻資源的數字化轉換對社會各行各業人才培育具有不容忽視的作用,這也是數字社會建設的核心動力。例如,通過人工智能技術賦能,古籍文獻蘊含的中華優秀傳統文化精神將擺脫以往專業化、小眾化傳播桎梏,借助技術優勢打破時空隔閡,實現傳播效果最大化目標,即與不同行業、不同領域進行不同程度的深度融合與創新,為培養“既有專業素養,又有文化內涵”的優秀人才提供重要助力,這也是推動數字社會建設的核心力量。
四、結語
綜上所述,數字信息技術的發展,尤其是人工智能技術群落的誕生和應用,為古籍文獻整理出版工作帶來了全新機遇,是推動古籍文獻整理出版事業轉型升級和智能化甚至智慧化發展的重要力量,也是未來古籍文獻資源活化利用和深度開發的有效支撐。然而,無論從技術層面還是行業層面來看,人工智能技術群落應用于古籍文獻整理出版事業,仍存在一些現實挑戰。
第一,技術挑戰。盡管以ChatGPT為代表的新一代人工智能技術群落已經在部分行業領域率先落地應用并推出了智能檢索、數據挖掘、自主生成等多元服務,但在古籍文獻整理出版領域還處于理論探討階段。不少高等院校、商業公司以及網絡平臺陸續推出初步具備人工智能技術特性的先進產品,但這些技術不夠成熟,對古籍文獻整理出版事業的智能化、智慧化發展助力有限,未能真正實現古籍文獻資源活化開發利用的理想目標。因此,基于人工智能技術群落賦能的古籍文獻整理出版事業還需要深入探索實踐,尤其要注重對應用場景、技術方案、知識服務的開拓創新。
第二,行業挑戰。目前,利用人工智能技術群落加快古籍文獻整理出版事業的高質量發展和轉型升級正在成為現實中的生動實踐,但也引發了新的行業挑戰。一是技術研發應用及硬軟件設施建設需要投入大量的人力物力財力,這給古籍文獻整理出版事業造成了巨大壓力。無論是構建古籍文獻大規模預訓練數據庫或語料庫,還是研發各種平臺系統和技術工具包,都需要投入大量資金、引進相應人才,這對本就缺乏資金和人才的古籍文獻整理出版機構而言無疑難上加難。在古籍文獻整理層面,無論是學者專家,還是編輯工作人員,都要保證古籍文獻資源的準確性,以確保更好地利用技術而不是被技術誤導。二是人工智能技術群落應用于古籍整理出版領域將開辟全新的交叉業務,需要進行跨學科、跨環境、跨文化、跨地區、跨行業的深度合作,并培養大量復合型人才,這對現階段“各行其是”的古籍整理出版系統而言,同樣是一項現實挑戰。此外,諸如古籍文獻數據的保護與存儲、古籍文獻服務對象的信息收集與監管、古籍文獻應用場景的開發與維護以及古籍文獻服務機制的構建與運行等,都是人工智能技術群落應用于古籍文獻整理出版事業后需要解決的諸多現實難題。
總之,人工智能技術群落的誕生與發展將為古籍文獻整理出版事業帶來一場深刻而廣泛的變革,危與機并存。我們既要科學展望古籍文獻整理出版事業智能化、智慧化發展方向與前景,也要時刻警惕技術風險和行業挑戰,做好萬無一失的準備。
|參考文獻|
[1] 黃洛鋒,陳艷芳,孔云. 高質量做好新時代古籍文獻整理出版工作的思考[J]. 出版廣角,2022(23):61-64.
[2] 胡佩,李小青. “人工智能+校對”的應用前景分析[J]. 現代出版,2019(2):59-61.
[3] 我國古籍藏量5000余萬冊 數字化不足一半[EB/OL]. (2016-06-23)[2023-06-02]. https://www.sohu.com/a/85361694_257321.
[4]張杰. 新技術為古籍整理注入活力[N]. 中國社會科學報,2022-03-17.
[5]洪濤,陳必佳. 古籍數字出版領域的知識服務模式和場景分析:以古聯公司為例[J]. 出版廣角,2022(24):51-56.
[6]韓業庭. 當古籍修復遇上人工智能[N]. 光明日報,2022-04-11.