基于GAI技術的圖書版本數字化加工方法研究

2024-08-29 00:00:00李重

出版廣角 2024年13期

【摘要】在信息技術快速演進的當下，尤其是生成式人工智能技術的飛速發展下，圖書的數字化處理尤顯關鍵。圖書數字化涉及的關鍵環節，包括掃描技術、圖像處理、字符識別、內容編輯與校對、元數據生成及數據存儲與發布。在生成式人工智能必將獲得廣泛應用的未來，圖書版本數字化將朝著數字化技術的發展、跨界融合、社會化參與的方向發展。為了使圖書版權持有者、圖書館及數字化服務提供者可以充分利用生成式AI的優勢，出版社需要基于不同技術的應用成效，大幅提升圖書版本數字化的效率和質量，提供更加豐富多樣的數字化產品和服務。

【關鍵詞】圖書數字化；版本數字化；圖像處理；生成式人工智能

【作者單位】李重，西安交通大學出版社。

【基金項目】陜西省社科基金資助項目“版本數字化的理論與實踐”（2023BB02）。

【中圖分類號】G230.7 【文獻標識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2024.13.006

隨著信息技術的迅猛發展，數字化已成為當代社會不可逆轉的大趨勢。在出版領域，數字版圖書正逐步取代傳統紙質書，成為人們獲取和傳播知識的主要媒介。這一轉變不僅是技術革新的結果，也是信息時代應對海量數據處理需求的迫切現實。因此，圖書數字化已成為圖書館、出版社等相關機構刻不容緩的關鍵任務。

生成式人工智能（Generative Artificial Intellige

nce，以下簡稱“GAI”）技術的飛速發展，為圖書數字化進程注入了新的動力。GAI技術具有數字化、規?；突ネㄐ缘忍攸c，是大數據環境下技術變革和業態轉型升級的助推劑。因此，基于GAI技術對圖書數字化進行探索，無疑將為出版業的數字化轉型提供堅實的理論基礎和技術支撐，也為智能化知識服務體系的構建鋪平道路。

一、版本數字化加工方法的發展現狀

版本數字化加工方法是將紙質文獻轉換為數字化文獻的過程，包括文獻的掃描、文字識別、圖像處理、文本挖掘等多個環節。近年來，隨著互聯網技術的普及和數字出版業的興起，版本數字化加工方法在圖書、期刊、檔案等文獻領域得到了廣泛應用。版本數字化不僅有利于保護文獻資源、提高文獻利用效率，還可以為讀者提供便捷、高效的文獻服務。在國外，版本數字化加工方法的研究已經取得了顯著成果，學者們針對數字化加工過程中的關鍵技術進行了深入探討，如光學字符識別技術、圖像處理技術、文本挖掘技術等。這些研究成果在實際應用中取得了良好的效果，推動了數字化出版業的發展。然而，在國內，版本數字化加工方法的研究尚處于起步階段，許多技術難題尚未得到解決。因此，對我國版本數字化加工方法進行深入研究，既是順應國際發展趨勢的需要，也具有重要的現實意義。當前，圖書版本數字化的發展呈現以下幾個主要特點。

1．版本數字化的速度不斷提升

圖書版本數字化高度依賴先進技術，包括光學字符識別、圖像處理、自然語言處理以及當前迅猛發展的GAI。光學字符識別技術能夠“讀取”掃描的紙質圖書頁面上的文字并轉換為可編輯和搜索的文本格式。自然語言處理技術能進一步對這些文本數據進行深入處理和理解。值得一提的是，隨著GAI技術的不斷進步，文本生成和校對的自動化程度顯著提升，這不僅極大地提高了數字化的效率，還顯著提高了數字化的質量和速度，為圖書版本數字化帶來了積極影響。

2．版本數字化的范圍不斷擴大

當前，從古籍善本到現代出版物，各類圖書的數字化工作正如火如荼地開展。在這場數字化的盛宴中，許多國家和地區的圖書館、檔案館以及科研機構都投入了大量資金和人力來進行文獻數字化工作。例如：英國圖書館的“Turning the Pages”項目，利用先進的3D技術，數字化展示館藏的珍貴手稿；中國國家圖書館啟動了“中華數字書苑”數據庫，逐步將館藏圖書和檔案數字化，為用戶提供在線訪問服務。

3．版本數字化的應用場景不斷豐富

圖書版本數字化并不局限于將紙質圖書簡單地轉化為電子版，還是一個涵蓋多種增值服務和創新應用的綜合過程。例如，借助元數據標注和全文搜索功能，用戶可以更加便捷地查找和獲取所需的信息資源。此外，許多數字圖書館和電子書平臺還提供文本轉語音、多語言翻譯以及個性化推薦等一系列功能，極大地提升了用戶的使用體驗。

4．版本數字化的標準和規范不斷強化

為了確保數字化圖書的質量與互操作性，業界廣泛采納了各類國際標準和規范。例如，國際數字出版論壇推出的EPUB標準、PDF/A標準，以及各種元數據標準（如DublinCore），在現代圖書數字化進程中扮演著舉足輕重的角色。這些標準不僅為數字化流程提供了明確的規范，還確保了數字化產品能夠長期保存并易于訪問。

我國在數字化加工技術領域已經取得令人矚目的進展，特別是在中文光學字符識別和圖像處理等方面的研發成果上，更是展現了非凡實力。然而，與國際上的先進水平相比，我國仍然存在一定的差距。為了縮小這一差距，我國需要積極借鑒國外的成功經驗，不斷加大研發投入力度，持續創新并優化相關技術。與此同時，國內學者在版本數字化加工研究中也展現了獨特的視角和深度，其主要聚焦于三個方面：項目的組織與管理，致力于探索如何有效協調各個環節，以提高整體工作效率，確保項目順利進行；質量控制，致力于確保數字化過程中的文獻質量，提升文獻的可用性和可讀性，讓數字化成果更加貼近用戶需求；成本核算，主要研究如何降低加工成本，提高項目的經濟效益，為數字化加工技術的可持續發展注入經濟活力。

總的來說，圖書版本數字化是一項復雜而系統的工程，它如同一座橋梁，連接著傳統與現代、技術與文化。在這個過程中，技術、法律、資金等多方面的問題相互交織，共同構成了這一領域的豐富內涵。盡管我們面臨諸多挑戰，每一步都充滿了未知和困難，但正是這些挑戰，激發了我們不斷前行的動力。隨著技術的不斷進步，我們有理由相信，圖書版本數字化的發展前景將變得更加廣闊。

二、版本數字化加工方法的技術分析

圖書版本數字化是一個復雜的過程，旨在將各類不同版本的文字資料（包括紙質書籍、手稿、平版印刷、圖像、古籍等）轉換為數字格式，以便于存儲、檢索、傳播和保護。

1．文獻采集

文獻采集是圖書版本數字化加工的第一個環節，其目的是獲取需要進行數字化轉換的文獻資源。圖書版本數字化加工的文獻采集主要包括以下步驟。一是確定加工范圍，根據項目需求，確定需要進行數字化加工的文獻類型、數量和主題范圍。例如，針對某個學科領域的圖書版本數字化項目，確定具體的出版社、出版年份和圖書種類等。二是文獻獲取。通過各種途徑獲取需要進行數字化轉換的文獻資源，常見的文獻獲取途徑包括圖書館、出版社、網絡書店等。在獲取文獻過程中，出版社需要關注文獻的版權問題，確保數字化加工的合法性。三是文獻整理。對獲取的文獻資源進行整理，包括去重、分類、編目等。對于同一本書的不同版本，需要進行版本識別和區分，以便后續更好地進行數字化轉換和質量控制。四是文獻存儲。將整理好的文獻資源存儲到指定的服務器或數據庫中。在存儲過程中，需要保證文獻資源的完整性和安全性，防止數據丟失或被篡改。

2．數字化轉換

數字化轉換是版本數字化加工的核心環節，目的是將文獻資源由其他格式轉換為數字格式，便于存儲、檢索和共享。圖書版本數字化加工的數字化轉換主要包括以下步驟。一是光學字符識別。對紙質文獻進行掃描，使用光學字符識別技術將圖像中的文字轉換為可編輯的文本格式。在光學字符識別技術的識別過程中，出版社需對識別結果進行校驗和糾錯，以提高文本的準確性和可讀性。二是圖像處理。將紙質文獻掃描得到的數字圖像進行處理，包括圖像去噪、圖像增強、圖像裁剪等，以提高圖像的質量和可用性。三是文本處理。對光學字符識別得到的文本進行進一步處理，包括文本編輯、格式轉換、去重、分詞、詞性標注等。文本處理的目標是提高文本的準確性和可用性，以便后續的檢索和分析。四是文獻存儲。將處理好的文本格式存儲到指定的數據庫或文件夾中，以便后續的檢索和共享。在存儲過程中，同樣需要保證文獻資源的完整性和安全性，防止數據丟失。

3．質量控制

質量控制是版本數字化加工中至關重要的環節，它直接關系到數字化文獻的質量，并對數字化文獻的可用性和保存周期具有決定性的影響。因此，質量控制需要貫穿整個數字化加工過程，包括文獻采集、數字化轉換和數據庫構建等各個環節。通過制定并嚴格執行質量控制標準，可以確保數字化文獻的質量達到預期標準，提高數字化文獻的可用性和長期保存能力。一是根據項目需求，制定質量標準，包括文本的準確性和可讀性、圖像的質量和清晰度等。二是對光學字符識別得到的文本進行質量控制，包括文本校驗、糾錯、格式檢查等，以確保文本的準確性和可用性。三是對數字圖像進行質量控制，包括圖像去噪、增強、裁剪等，以提高圖像的質量和可用性。四是將處理好的文本和數字圖像進行整合，形成完整的數字化文獻資源。在數據整合的過程中，需要保證數據的完整性和一致性。五是對數字化文獻進行質量評估，包括文本和圖像的質量評估，以確保數字化文獻的質量達到預期標準。

4．數據庫構建

數據庫構建是版本數字化加工的最后一步，是將數字化文獻資源進行有效存儲、管理和檢索的關鍵。數據庫構建的質量直接影響數字化文獻的可用性和易用性，對數字化加工的質量控制具有決定性影響。

以西安交通大學出版社的圖書版本數字化項目為例。在數據庫構建過程中，首先，需要選擇合適的數據庫管理系統（DBMS），如MySQL、PostgreSQL等。其次，需要根據數字化文獻的特征，設計合適的數據結構，如書籍信息表、作者信息表、出版社信息表等（見表1）。再次，選擇合適的數據存儲方式，如關系型數據庫存儲、分布式文件存儲等。最后，對數字化文獻數據庫進行有效的管理和維護，包括數據備份、恢復、安全、性能優化等。

在表1的示例中，我們設計了一個包含三張表的數據庫：books、authors和publishers。books表包含了書籍信息，包括書籍ID、書名、作者、出版社、出版年份和ISBN號；authors表包含了作者信息，包括作者ID、姓名、出生年份和去世年份；publishers表包含了出版社信息，包括出版社ID、名稱和所在地。這個示例中的數據結構簡單明了，易于維護和擴展。當然，在實際的數據庫設計過程中，示例中的數據結構還是相對簡單，需要根據具體的需求和數字化文獻的特征，進行更加復雜和精細的數據結構設計。

不同的方法各有優缺點，適用于不同的應用場景。表2是幾種常見的數字化加工方法及其優缺點分析。

總的來說，各種數字化加工方法都有其優缺點。在實際應用中，出版社需要根據具體需求和條件選擇合適的數字化加工方法，同時也需要關注數字化加工技術的發展趨勢，以期在實際應用中取得更好的效果。特別是近年來，隨著GAI技術的快速發展，其成為數字化加工領域的新興力量。GAI技術能夠通過自學習和演化算法顯著提高數字化加工的效率和精準度，使得復雜的數據處理步驟和內容生成方式變得更加智能化和自動化。隨著GAI技術的不斷進步，我們可以預見其在數字化加工領域的廣泛應用和巨大潛力。

三、GAI技術在版本數字化中的應用

出版本質上是一種知識生產方式［1］，與生產技術息息相關。在圖書出版領域，盡管各出版社對人工智能技術的應用情況和應用程度不盡相同，但數字化和智能化已成為大勢所趨，這是出版界的共識。隨著 ChatGPT 的推出，GAI技術的快速發展引發了行業內關于GAI技術對圖書出版影響的廣泛討論。學術界和業界不僅專注于文獻的掃描與存儲，也在積極探索更為先進的AI技術應用，以提升數字化水平。特別是在圖書版本數字化領域，GAI技術能夠大幅提升數字化文獻的質量和可訪問性。這不僅為文化傳播和知識共享奠定了堅實基礎，也為未來出版業開辟了更廣闊的空間。

眾所周知，GAI是一類旨在生成新數據的模型，能夠學習一系列輸入數據的分布規律，然后基于學習的分布規律生成類似的新數據。隨著深度學習的發展，神經網絡已成為GAI的主要工具之一［2］。基于神經網絡的生成模型如生成對抗網絡、變分自編碼器和生成預訓練變換器，在圖像生成、文本生成和其他生成任務中表現出色。生成式模型需要在大量數據上進行訓練，學習數據的分布規律和特征。在訓練過程中，模型通過迭代優化參數，逐漸提高生成數據的質量。訓練完成后，使用者可以通過輸入特定條件或隨機噪聲來生成新的數據。例如，在文本生成任務中，使用者輸入一個初始句子或關鍵詞，模型能夠生成一段連貫的文本；在圖像生成任務中，使用者輸入隨機噪聲，模型能生成一幅逼真的圖像。GAI技術利用概率模型和深度學習神經網絡，通過設計合適的損失函數和優化方法，在大量數據上進行訓練，從而生成高質量的新數據。

為了有效地將GAI技術應用于圖書版本數字化，我們可以制定技術路線圖（見表3）。路線圖分為幾個階段，每個階段都有明確的目標和實現步驟。

該技術路線圖從數據采集、處理，到生成多語言內容、開展智能檢索和互動，再到最終系統部署，構成了一個全面的技術流程。通過逐步實現各個階段的目標，出版社可以充分利用生成式AI的優勢，大幅提升圖書版本數字化的效率和質量，為用戶提供更加豐富多樣的數字化產品和服務。例如，美國國會圖書館實驗室于2022年提出了《美國國會圖書館實驗室人工智能規劃框架》，并于2023年11月進行了更新發布［3］。該框架旨在為圖博檔機構提供實用的指導和戰略方針，以應對迅速發展的人工智能技術帶來的挑戰和機遇?？蚣苤忻鞔_提出了三個規劃階段，即了解、實驗、實施，并對支持機器學習的數據、模型和人員三要素進行了詳細評估。

盡管GAI技術在圖書出版領域的應用為出版業帶來了諸多便利和優勢，但也使出版業面臨多種挑戰，主要包括隱私保護、知識產權保護、算法歧視、信息準確度和透明度等方面的問題。為了規范和管理GAI技術在版本數字化方面的應用，保障知識產權和用戶權益，未來關于規范GAI技術的一些措施有待研究與施行。

四、版本數字化的發展趨勢

回顧出版史，我們可以清晰地看到，新技術已經深刻影響了圖書的形態和發展。在GAI必將獲得廣泛應用的未來，這些技術將為圖書的數字化版本帶來更多可能性，從而推動知識生產和知識傳播的不斷創新。展望圖書版本數字化的發展前景，其可能會在以下幾個方向實現新突破。

1．數字化技術的發展

隨著科技的進步，人工智能技術可以在圖書版本數字化過程中應用于文本挖掘、自動分類、關鍵詞提取等方面。通過自然語言處理技術，出版社可以對大量文本數據進行快速處理與分析，提高數字化圖書的質量和效率，進而對讀者的閱讀習慣、偏好等進行深入挖掘，為圖書版本數字化提供有針對性的建議，從而提高數字圖書的市場競爭力。物聯網技術可以實現實體圖書與數字圖書的深度融合，為讀者提供更加豐富的閱讀體驗。總之，在未來的發展中，圖書版本數字化將繼續在數字化技術的推動下不斷優化和創新，滿足多樣化的需求，促進數字出版產業的發展。

2．跨界融合

未來，圖書版本數字化將與其他領域進行更深入的跨界融合，形成多元化的數字出版產品和服務，滿足讀者多樣化的需求。例如：圖書版本數字化與教育領域的融合，可以為教育領域提供豐富的數字化教學資源，幫助學生和教師更好地進行教學和學習；圖書版本數字化與文化領域的融合，能夠將傳統圖書數字化，并與文化展覽、文化活動等相結合，形成具有文化特色的數字出版產品，吸引更多讀者關注和了解文化知識。

3．社會化參與

隨著圖書版本數字化的發展，更多的社會力量將參與其中，如個人創作者、小型出版社等。這將推動圖書版本數字化的創新，豐富數字圖書市場的內容和形式。越來越多的個人創作者開始進入數字圖書市場，為讀者提供豐富多樣的數字圖書內容。這些個人創作者的加入，不僅豐富了數字圖書市場的作品類型，還提高了圖書版本數字化的創新水平。隨著開放獲取資源的普及，越來越多的學術機構和組織開始將圖書資源分享給公眾。這為圖書版本數字化提供了豐富的內容資源，有利于推動圖書版本數字化的創新和發展。

｜參考文獻｜

［1］范軍. 出版本質上是一種知識生產［J］. 出版科學，2022（3）：1.

［2］LV ZHIHAN. Generative artificial intelligence in the metaverse era［J］. Cognitive Robotics，2023（3）：208-217.

［3］Introducing Chat GPT［EB/OL］. （2022-11-30）［2024-06-25］. https：//openai.com/blog/chatgpt.

出版廣角2024年13期

出版廣角的其它文章: 深耕“一帶一路”版權貿易，細做中華文化對外傳播; 日本科學繪本的科普路徑與推廣機制分析; 網絡文學IP跨媒介產業的數字化出版路徑; 大學社發展新質生產力的優勢和特色路徑; 文化強國戰略背景下數字出版產業創新發展研究; AIGC賦能文化產業高質量發展的法律隱憂和分層治理