人工智能大模型時代的古籍整理出版審思

2024-04-29 00:00:00王忠田

出版廣角 2024年4期

【摘要】以“荀子”“AI太炎”等為代表的古籍整理出版領域人工智能大模型的發布和應用，不僅意味著人工智能大模型正朝著專業垂直細分領域發展，同時也為貫通古籍整理出版上、中、下游各環節，加速古籍智慧化轉型升級提供重要機遇。研究發現，人工智能大模型在古籍整理出版領域主要有專業領域服務場景、學術知識服務場景、大眾開放服務場景三大應用場景，以及資源層面、技術層面兩大現實難題。基于此提出解決策略，即加快推進多方跨界協作，合力解決資源難題；全面強化行業規范發展，有效解決技術難題。

【關鍵詞】人工智能大模型；技術創新；古籍整理出版；古籍智慧化

【作者單位】王忠田，中南大學中國村落文化研究中心。

【基金項目】國家社科基金重大項目（19ZDA191）的階段性研究成果；中南大學中央高校基本科研業務費專項資金資助項目（2021zzts0015）的階段性研究成果。

【中圖分類號】G239.2；G206 【文獻標識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2024.04.006

2022年4月，中共中央辦公廳、國務院辦公廳聯合印發《關于推進新時代古籍工作的意見》（以下簡稱“《意見》”）并明確指出，要發揮科技保護支撐作用，推動古籍保護關鍵技術突破和修復設備研發，積極開展古籍文本結構化、知識體系化、利用智能化的研究和實踐，這為人工智能時代的古籍整理出版工作指明方向。目前，人工智能技術在古籍整理出版領域大有可為，且已經取得不俗成績，如古聯公司在籍合網上線的古籍智能整理平臺、北京大學—字節跳動數字人文開放實驗室研發的“識典古籍”平臺以及上海辭書出版社研發運營的聚典數據開放平臺等都是古籍數字化乃至智能化整理出版的代表。在以人工智能技術為代表的新一代高精尖技術迅猛發展和多領域滲透的當下，加快推動“人工智能+古籍整理出版”融合發展已經成為行業發展的重要趨勢。

一、人工智能大模型及其主要功能特征

人工智能大模型主要指擁有超大規模參數（一般在十億及以上）和超強計算資源的機器學習模型，能即時、高效地處理各類數據，完成各種指令下的復雜任務（自然語言處理、圖像識別等）。從自然語言處理的研究角度來看，人工智能大模型的構建并非一蹴而就，而是經過技術不斷迭代升級后的成果。基于Transformer的自然語言處理模型，在大規模語料庫預訓練和海量標注數據的微調作用下，能更好地適應特定的自然語言處理任務，具有極強的語言理解和內容生成能力，這是人工智能大模型更具智慧和應用前景的重要原因。人工智能大模型的功能特征具體包括以下三個方面。

第一，智能爬取和自主監督學習。相較以往的網絡爬蟲（數據爬取工具）而言，生成式AI賦能的大模型在數據爬取方面更加智能，不僅可以大范圍爬取公開可用的網絡數據（數據挖掘、網頁數據復制/拍照、網站鏡像），還能通過算法規制提高目標數據的精確性，為大模型提供更多的理想數據資源。2023年8月，OpenAI在官網介紹了新的數據爬取工具GPTBot并指出，該工具可能會用于改進未來的模型，因為其不僅能主動收集網絡公開數據，還能過濾需要付費的內容來源、涉及個人身份信息的消息來源以及違反規定的文本來源，進而提高大模型預訓練數據內容的準確性。此外，利用Transformer轉換器技術，人工智能大模型還能在缺乏人工標注數據的情況下自主監督學習，通過算法和算力的支撐讓海量數據進行模擬場景試驗并不斷優化權重，從而為后續的內容生成與輸出提供保障。

第二，降本增效和多領域微調通用。與以往的系統或模型不同的是，人工智能大模型更加智慧，無須人工標注和清洗數據，因而成本大幅降低。另外，人工智能大模型可以并行處理輸入序列中的所有信息，其性能和精度較以往的卷積神經網絡、循環神經網絡等模型更佳，任務處理時效顯著提升。不僅如此，基礎模型體量龐大，匯集各類數據資源，且具有跨領域知識特征，可以通過微調手段，以極低成本有針對性地進行數據訓練，從而適應不同領域的任務需求，這為其邁入多領域通用階段提供了重要支持。就2023年初至今國內相關機構研發的數百個人工智能大模型來看，其涉及但不限于教育、文化、科技等多個行業領域，文心一言、智海—三樂、書生、紫東·太初等都是典型代表。

第三，語言理解和按需生成內容。人工智能大模型最出彩的功能特征，無疑是強大的語言理解能力和按需生成內容的能力。以火爆全球的ChatGPT為例，RLHF是其基礎模型的核心技術之一，主要是指“人為干預AI對數據的分析，通過收集數據、訓練獎勵模型、利用PPO來強化學習算法，最終獲得模擬人腦思維、實現最優選擇、不斷優化答案的結果”。此外，得益于生成式AI技術賦能，現階段的大模型已經從過去的推理、判斷（如人臉識別、無人駕駛），進階到可生成語言、文本等，隨著人工智能大模型的技術性能、數據規模進一步迭代和擴大，其應用前景和功能作用必將更勝以往。

二、人工智能大模型在古籍整理出版領域的應用場景

1．專業領域服務場景——以智能編校工具提升工作效率

人工智能大模型在古籍整理出版領域的應用，主要是通過相關智能工具的研發使用和大模型系統的自主生成功能，為古籍整理出版專業工作提速增效。長期以來，古籍整理出版工作由于引文多、典故多、生字多等原因，極其耗費人力、物力和財力，且進度緩慢。盡管以古聯公司為代表的專業機構借助人工智能技術開發相關工具包和平臺，在古籍OCR識別、自動標點等方面發揮重要作用，但仍有較大限制，如不少平臺智能化水平一般，便捷性、實效性以及準確率還需提升。人工智能大模型的問世及其在古籍整理出版領域的應用可解決這一痛點問題。例如，通過包括《四庫全書》在內的超40億字的大型混合預料數據訓練，“荀子”大模型具有古籍智能標引、古籍信息抽取、古籍高質量翻譯、古籍閱讀理解等功能，加之大模型本身具有更容易理解人類語言模糊性的特性，因此，其在實踐應用中可衍生各種智能工具包，為專業對象提供智能編校、自動分類、智能標引等高質量服務。

不僅如此，由于人工智能大模型具有多模態轉換功能，其還能支持古籍領域專業人員靈活定義和管理任意“通感”任務。例如，經過專業數據“飼喂”和自主學習，人工智能大模型可自主識別、精準提煉包含圖片、文字、音視頻等在內的各種古籍資源信息，并在專業人員的指令下高效率、高質量地開展古籍整理出版工作。總之，對專業領域而言，人工智能大模型在提高古籍整理出版工作時效性和質量方面具有強大的服務性能和應用優勢。

2．學術知識服務場景——以個性微調手段強化研究實效

除專業領域服務場景外，人工智能大模型應用于古籍整理出版領域還能進一步滿足學術知識服務場景需要，為古籍研究和后續的開發利用提供強力支撐。目前已發布的“荀子”“AI太炎”等古籍領域專業大模型主要致力于滿足學術知識服務場景需求。例如，古籍相關領域的專家學者可借助人工智能大模型完成古籍詞法分析、古籍實體識別、古籍知識關系抽取與知識圖譜構建、古籍文本分類與匹配、古籍研究內容生成等研究工作，加速學術成果產出。南京農業大學信息管理學院王東波教授及其研究團隊和古聯公司在推出“荀子”大模型的同時還發布了基座模型，可供用戶根據自身的學術需求和研究任務，使用本地訓練語料微調“荀子”大模型，讓用戶在古籍下游處理任務上獲得更優越的服務性能和使用體驗。

由此可見，人工智能大模型的實踐應用和微調設置，可滿足不同專業細分領域的個性化任務需求，如利用大模型的內容生成功能構建學術研究網絡、自主輸出文本摘要、智能繪制學術圖表等，這不僅意味著通用型人工智能大模型的未來發展前景巨大，也為古籍細分學術研究提供了更多支持。隨著專注于古籍整理出版領域的人工智能大模型的不斷迭代升級，其服務性能和應用場景將得到進一步優化和拓延，真正滿足個性化學術研究需求，為古籍研究和價值挖掘提供強勢支撐。值得一提的是，在這一過程中，人工智能大模型僅僅是一個應用工具，雖然能幫助學術工作者更好地開展古籍研究工作，但仍需要使用人員恪守技術規范，盡可能避免學術不端問題的出現。

3．大眾開放服務場景——以活化開發利用提升價值效益

以往，作為古籍整理出版下游環節的古籍資源開發利用成效極為有限，其價值效益并未得到全面挖掘，與“傳之于眾”的理想目標仍有一段距離。人工智能大模型的問世或可緩解甚至解決這一不足，真正實現“兩創”初衷。目前發布的人工智能大模型多以ToC模式與大眾直接交互，可根據個人需求提供開放性、定制性服務，這對古籍資源的活化利用和多元推廣具有重要促進作用。目前，“荀子”大模型除了在古籍處理與研究方面表現出優越性能，還具備詩歌生成、個性問答等功能，可為大眾讀者及古籍愛好者提供智慧閱讀與內容生成服務。古聯公司在“荀子”發布會上表示，未來將致力于古籍大模型的多場景應用和各領域推廣，除古籍整理、數字化等專業服務外，還會積極布局人工智能寫作、人工智能教學、數字文娛等市場領域。據了解，今日頭條、抖音等互聯網公司的開發、測試團隊已經涉足“古籍數字化平臺”開發領域，目標直指互聯網前端應用，以期加速古籍資源的活化開發和商業化利用。從這個角度來看，在人工智能大模型的強勢賦能下，古籍整理出版的商業化、市場化和大眾化發展趨勢將愈發鮮明，不僅會成為面向大眾的智慧閱讀平臺，助力古籍資源活化開發和全球推廣，還會通過跨領域、跨行業、跨地區協作構建古籍整理出版產業鏈，以更加豐富、多元的商業應用場景進一步釋放古籍資源的價值效益。

三、人工智能大模型在古籍整理出版領域的現實難題

1．資源層面：數據成本高、人才缺失、資金投入大

盡管人工智能大模型的問世和應用為古籍整理出版提供了諸多便利，但也存在現實掣肘。一是高質量專業數據成本高昂。人工智能大模型尤其是專注于古籍整理出版領域的大模型，對高質量專業數據資源的需求量巨大、訓練成本極高。以“荀子”大模型為例，其作為古籍專業領域的智能大模型，雖已投喂40億字大型混合語料數據，但仍有不足，主要是“高質量精加工數據資源的缺乏所致”。此外，“荀子”大模型的數據資源主要來自團隊從2013年至今積累的大量標注、精加工語料庫，這一過程耗時久、要求高，需要專業人員付出極大努力，時間、人力、物力成本極大。二是專業人才缺失。人工智能大模型應用于古籍整理出版領域，既需要懂技術的優質人才，也需要懂古籍的專業人才，還需要懂運營的優秀人才，才能在數據標注與加工、參數調優和優化、場景應用和推廣等方面發揮實效。據王東波教授介紹，“荀子”大模型研發團隊雖然涵蓋計算機、信息管理、語言學、古典文獻學以及目錄學等各個領域的專業人才，但仍有不足，未來還需進一步擴大和優化人才結構。三是資金投入大。目前，ChatGPT、文心一言等通用型人工智能大模型的資金投入都是天文數字，更不用說古籍整理出版專業領域的模型構建和實踐運用。有業內人士指出，相對于通用型大模型而言，專業垂直領域的大模型所需的研發成本更大，但實際應用場景更小，極容易造成“入不敷出”的局面。

2．技術層面：模型構建要求高、配套研發難度大、技術應用難題多

盡管古籍整理出版垂直領域的大模型較通用型大模型在解決行業問題方面更具優勢和針對性，但其技術要求更高。一方面，大模型作為大算力和強算法結合的產物，對硬件設備和軟件技術的要求極高。從這個角度來看，無論是構建古籍整理出版垂直領域的人工智能大模型，還是引入通用型人工智能大模型，都需要研發團隊著力解決算力、算法層面的技術難題。不僅如此，要想確保大模型的優良性能，需要不斷優化和調整技術方案，這對現階段的古籍整理出版領域而言也是一個現實難題。另一方面，人工智能大模型應用于古籍整理出版領域，需要技術團隊配套研發系列工具包，如專注于數據集爬取的專業爬蟲和針對古籍領域的專業技術方案等，這對古籍垂直領域而言更是一個不小挑戰。

除模型構建和配套研發問題外，古籍整理出版領域的技術應用難題也有待解決。一是技術應用場景仍較模糊。以“荀子”為代表的古籍整理出版垂直領域的人工智能大模型雖已規劃了多個技術應用場景，如人工智能教育、人工智能文化產業等，但大多較為泛化，缺乏具體部署，加上模型本身就專注于古籍處理與研究領域，技術應用場景極為受限。二是技術規范應用問題。目前，無論是垂直領域的大模型還是通用領域的大模型，技術迭代性和成熟度仍有不足，稍有不慎極易出現技術濫用現象，引發社會信任危機和行業版權糾紛。此外，人工智能大模型潛在的技術弊端可能會導致虛假內容生成問題，這對古籍整理出版領域也是一個潛在的巨大威脅。

四、人工智能大模型助力古籍整理出版的建議

1．加快推進多方跨界協作，合力解決資源難題

首先，古籍整理出版領域的人工智能大模型技術研發團隊可與專業機構、權威公司合作，依靠技術和資源有效互補解決高質量專業數據規模小、獲取成本高等現實難題。例如，相關技術團隊在古籍垂直大模型構建過程中可與國家圖書館等公共機構以及古聯公司達成跨界合作，以自身技術優勢進行資源置換，以此獲得大規模、高質量的古籍數據資源，達到降本增效目的。相關技術團隊還可與古籍研究領域的專家建立合作關系，獲取專業、權威、珍貴的古籍數據資源，為模型構建提供助力。例如，在2023年11月舉辦的世界互聯網大會烏鎮峰會上，有文化遺產保護領域的專家提出，愿意提供相關數據，希望未來能夠將大模型與自己研究的垂直領域相結合。從這個角度來看，技術團隊只有與行業機構、數據既有者建立跨界合作機制，以技術優勢置換海量、權威的數據資源，才能在合理管控成本的同時實現互惠共贏目標。

其次，人才是第一生產力，面對古籍整理出版領域人工智能大模型復合人才短缺的難題，應該從兩個方面著手解決。一是建立跨學科通力合作機制。隨著人工智能大模型的快速發展及其在古籍整理出版領域的廣泛應用，必將開辟全新的交叉學科領域，這也意味著高校古典文獻學等相關專業應加大與技術企業、研發機構的合作力度，共同培養兼具專業素養、技術素養和職業素養的綜合應用型人才。此外，在古籍整理出版大模型構建和應用過程中，研發團隊還應注重與人文社科學研究者等通力合作，以“眾包”機制吸引更多專業人士積極參與，解決人才不足的難題。例如，古聯公司早在2018年便上線國內第一個大規模古籍整理在線眾包平臺，目前注冊用戶近萬人，為古籍整理出版工作的提質增效發揮了重要作用。古籍整理出版大模型在實踐應用中亦可學習這一運行機制，獲得更多古籍文獻學領域專家學者、在校師生及廣大研究團隊的支持，以社會多元人才力量的積極參與，為人工智能大模型在古籍整理出版領域的落地應用和全面發展保駕護航。

最后，針對資金難題，古籍整理出版大模型研發團隊既要積極尋求國家和行業相關部門的資金支持，也要主動接洽優質市場企業并獲得一定資助。一方面，在古籍整理出版大模型研發過程中，團隊可申報國家和行業的重大專項資金支持，如“荀子”大模型便得到國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”的有力支持；“AI太炎”大模型得到國家語委重大項目“古籍整理智能化關鍵技術研究”的大力資助。此外，研發團隊還可與市場頭部企業接洽，以古籍整理出版領域大模型的市場前景和預期成效來獲取資助，拓寬資金來源渠道。例如，北京大學數字人文研究中心主任王軍及其團隊在“識典古籍”平臺項目建設過程中便得到了字節跳動公司的資金、技術和人才支持。

2．全面強化行業規范發展，有效解決技術難題

在古籍整理出版領域的大模型建設過程中，技術團隊可加強對國內外專業垂直領域大模型建設經驗的學習和借鑒，也可向專業技術公司等尋求幫助和指導。例如，在“荀子”“AI太炎”等古籍垂直領域人工智能大模型的研發和構建過程中，其團隊便參考和學習國內外頂尖科技公司的模型開發經驗，本著“取其精華，去其糟粕”原則，對它們的技術方案和運行機制進行提煉和活用。不僅如此，古籍整理出版領域大模型研發團隊還可向專業技術公司尋求幫助和技術指導。例如，2023年8月，高等教育出版社聯合浙江大學、阿里云、華院計算等多方機構共同發布教育垂直領域人工智能大模型“智海—三樂”，該模型主要以阿里云的“通義千問”通用模型為研發基礎，有效降低出版機構研發專業垂直領域大模型的難度，這對研發古籍整理出版垂直領域大模型無疑具有重要啟示。

在人工智能大模型應用于古籍整理出版領域的當下，要高度重視和全面強化行業發展規范，為技術合理使用提供有效保障。一是進一步拓延技術應用場景，加速古籍整理出版大模型的多元推廣和效益增值。技術研發方和合作方應根據古籍整理出版領域的多元需求和人工智能大模型的發展前景，加快延伸古籍大模型的應用范圍，如文化、教育等行業領域，以大模型的技術性能和功能作用配套開發數字人、游戲、文旅文創、古籍教學、古籍閱讀等細分場景，實現古籍資源的價值效益最大化目標。在這一過程中，應注意調和古籍整理出版工作公益性、開放性價值導向和人工智能大模型商業化、市場化應用趨勢之間的矛盾沖突。《中國人工智能大模型地圖研究報告》顯示，我國自2020年進入大模型快速發展階段，目前已形成龐大的大模型技術產業群，并沿著產業化路徑開啟商用征程。然而，古籍整理出版本就是一項以公益性為主導的文化傳承與創新工作，這與人工智能大模型的發展應用趨勢存在本質差異。因此，在人工智能大模型應用于古籍整理出版領域的未來，如何兼顧和平衡其公益性和商業性屬性，又應該構建怎樣的控制與管理模式，都需要學業界高度重視并給出科學、合理的解決方案。二是進一步強化技術應用規范，以多主體、多維度協同共建大模型時代古籍整理出版的“防火墻”和“安全線”。從法律層面來看，以古籍整理出版相關機構、高校科研團隊為代表的技術研發方在模型構建、數據爬取、內容生成和用戶服務等環節都需遵循相關法律法規，如古籍大模型研發和應用團隊應依據《生成式人工智能服務管理辦法》的相關要求規范使用人工智能及相關技術。從行業層面來看，古籍整理出版上、中、下游各環節在應用人工智能大模型的同時要共同做好版權保護工作，避免因為技術濫用導致的行業發展危機和用戶信任危機。從技術層面來看，大模型研發方和技術合作方應針對古籍整理出版工作的重要性和特殊性，在專業垂直大模型基礎上研發更敏感、更高級、更專業的技術方案和應用工具，同時在模型訓練方面做好古籍數據標注工作，盡可能避免版權侵權問題的發生。此外，還可引入第三方監督管理機制，如與第三方技術公司合作，對古籍整理出版人工智能大模型的訓練數據、生成內容、用戶信息等進行輔助保護和有效監管。

｜參考文獻｜

［1］黃洛鋒，陳艷芳，孔云. 高質量做好新時代古籍文獻整理出版工作的思考［J］. 出版廣角，2022（23）：61-64.

［2］韓春磊，姚嘯華，張宏玲，等. 新時代古籍智慧化服務實踐探討：以古典小說續作研究場景為例［J］. 圖書館雜志，2023（12）：58-68.

［3］聶慧超. 出版人站上大模型風口［N］. 中國出版傳媒商報，2023-12-22.

［4］劉挺. 從ChatGPT談大語言模型及其應用［J］. 語言戰略研究，2023（5）：14-18.

［5］段涵. 人工智能技術群落與古籍文獻整理出版思考［J］. 出版廣角，2023（12）：48-52.

［6］韓業庭. 當古籍修復遇上人工智能［N］. 光明日報，2022-04-11.

［7］李晨. 與“荀子”對話：古籍版ChatGPT發布［N］. 中國科學報，2023-12-15.

出版廣角2024年4期

出版廣角的其它文章: 芻議醫學期刊學術生態圈的構建; 農業科技期刊精準知識服務模式構建與實證分析; 加快原創少兒科普圖書出版發展; 原創少兒出版發展路徑探析; 科技出版高質量發展的態勢、薄弱環節及應對; 大學科技出版服務母體高校“雙一流”建設的路徑研究