科學技術的飛速發展,為各行各業帶來了前所未有的機遇和變化。習近平總書記高度重視傳統媒體和新興媒體的融合發展,作出了一系列重要指示。
在人工智能逐漸成熟且產業化步伐加速的背景下,可引入人工智能技術的應用場景不斷增多,各行各業也不得不正視這種技術變革訴求。尤其是那些與計算機技術緊密結合的行業,更需快速回應人工智能技術的挑戰。新聞出版業正是應用計算機的典型行業,必須積極響應人工智能技術帶來的變革訴求[1]。
出版業的發展,離不開技術的革新。中國新聞出版研究院發布的《2016—2017中國數字出版產業年度報告》提出了“人工智能技術將重塑出版流程”的論述。即以大數據、人工智能等技術為支撐,建立健全眾智眾創、協同創新的生產管理流程,提高數字內容生產、流程管控、發行傳播的智能化水平,研發、應用和推廣支持智能選題策劃、智能審校、智能排版、智能印刷、智能發行等環節的技術工具集[2]。
本文主要探討人工智能,尤其是智能編校工具在出版流程中輔助傳統編務工作的相關問題。
在傳統編務工作中,編輯加工環節是整個出版鏈條中最為耗時耗力的環節。編輯首先要在宏觀層面上對圖書所體現出的價值判斷和價值選擇進行把關;其次,需要在微觀層面上對圖書的文字語句進行修改和校對;最后,還要根據目標受眾的閱讀期待對書稿進行整體潤色。而互聯網平臺的發展和全民創作的熱潮又促使文學作品的數量呈指數級增長,給編輯的身高加工帶來了更大的挑戰[3]。
智能輔助審校工具可以使用海量的真實語料對算法模型進行訓練,結合自然語言處理技術(NLP)、人工智能技術和內容結構化技術,同時參考國際標準,以及編輯行業相關標準規范或權威資料,在字詞符號審校、文檔大綱審校、圖表公式序號審校、知識內容審校,以及內容相似性檢查等方面輔助編輯加工。
例如,利用北大方正電子有限公司研發的“方正智能輔助審校系統”中的標點符號檢查功能,可以檢查稿件中是否存在成對的標點符號有缺失或格式不一致的情況,以及發現不同標點符號是否疊用、連用等錯誤(圖1)。
圖1中,利用方正智能輔助審校系統嵌入的《標點符號用法GBT 15834-2011》中的規定,通過一定算法結合上下文即可快速查找出標點符號疊用的錯誤,有效提高的編輯加工的效率,為提升出版單位整體編務運營效率起到了良好的輔助作用。

圖1 方正智能輔助審校系統的標點符號檢查功能
人工智能在解放生產力、提高編校效率方面具有積極的作用,利用智能編校工具不僅可以將編輯從大量低端、重復性的工作中解放出來投入到對內容及專業性問題的審校中,而且可以規避人工處理帶來的差錯。
將海量的數據資源有組織地存入數據庫內,利用計算機技術進行信息檢索與核對,比之于人工檢查,具有遺漏率低、定向精準等特點。如對錯詞、錯字、敏感詞的檢查,以及上下文查重等,依靠敏感詞識別與排查技術、自動糾錯技術等手段,能夠實現自動發現和識別稿件中存在的相關問題,一定程度上規避了人工查閱可能出現的遺漏問題,對提升圖書質量、提高流程效率、確保圖書的導向正確和質量過硬等具有十分重要的意義。
例如,北京黑馬飛騰科技有限公司研發的“黑馬校對軟件”擁有超過1萬億字的語料信息,通過對海量分類語料進行量化統計、分析、提煉、迭代學習,同時采用高倍信息壓縮、快速檢索、漢字高精度快速切分等技術生成語言模型來檢查各類文字錯誤。能夠對大部分中文、英文、標點、計量、重句、異形詞等文字錯誤,大部分政治性問題(如國家領導人姓名、職務、排序,大部分臺灣問題,敏感詞語、部分落馬官員等)進行錯誤提示。同時具有8 000萬條核心庫,800萬條錯誤規則庫,79個專業庫(圖2)。

圖2 黑馬校對軟件運行界面
圖2中,黑馬軟件通過對全稿進行檢索,依據其內嵌的大規模專業庫,可快速識別稿件中存在的錯詞、錯字及敏感詞并給出正確建議共編輯參考。對因編輯學科專業原因造成的漏錯起到了補充作用。
除了上述提到的兩款使用量相對較大的智能輔助審校工具之外,各出版單位及技術公司也在積極投身于該領域,研發出了各式有針對性的審校工具。如鳳凰出版傳媒集團自主研發的鳳凰智能校對系統可進行文字類、標點類、語法類、知識類、政治類差錯檢查(圖3)。中國科技出版傳媒股份有限公司石家莊分公司自助研發的括號核對工具可對數學及計算機類稿件中出現的大量括號進行成對核對,避免編輯肉眼核對造成的漏錯。龍源數字傳媒集團旗下的人工智能平臺“知識樹”可在編輯定義部分內容后,利用機器自動完成圖書寫作和修改工作,等等。

圖3 鳳凰智能校對系統校對前及校對后
隨著智能編校工具在傳統編務工作中的不斷滲透,越來越多傳統意義上機械性、重復性的核查、統改等加工工作將通過智能編校工具的輔助作用迅速得到解決。一方面,大大釋放了文案編輯的工作量;另一方面,也是編輯的工作重心逐漸向稿件加工的終審者轉移。同時,在掌握好編輯基本功的基礎上,也能熟練掌握相關智能編校工具的使用,了解何種稿件、何種類型的問題適合何種工具進行智能化處理,何種問題仍需人工處理等。通過不斷調整、及時與開發人員進行溝通交流,不斷完善智能編校工具的功能,從而成為人工智能時代的“新編輯”。
目前的智能審校工具雖然可以通過采用大規模詞庫和重點詞監控等技術對漢語文本中的常見錯誤進行審校,對文本審校起到較大的助益,在一定程度上降低了人工審校的工作量,但仍存在一些不足與局限性,集中表現在以下方面:1)算法的局限性;2)詞庫更新機制的局限性;3)產品架構的局限性[4]。
漢語本身博大精深,在不同語境下有著不同的含義。當前階段使用的智能編校工具在編輯加工環節中仍以“機械”處理為主,即通過計算機快速檢索詞庫、對比、處理等進行檢查,尚處于人工智能發展的初級階段。通過查找嵌入詞庫指明錯誤的方法,在獲得較高報錯率的同時,很難保證詞庫的全面性及無歧義性。在具體的邏輯推理、上下文結合、圖書結構、相近詞辨析等需要深度學習的環節,則是智能工具無法駕馭的階段,也是智能工具無法取代人腦的關鍵點所在。
如對中國科技出版傳媒股份有限公司使用方正智能輔助審校各功能的頻次進行統計,可發現在日常工作中,編輯使用頻次較多的仍然是基于詞庫檢索對比類的檢查項目,如標點符號檢查、不規范名詞檢查、敏感詞檢查、異體字檢查、易錯詞檢查等。而對于邏輯推理等需要深度學習辨別的內容,如譯文檢查、重點詞檢查等,則使用較少(表1)。
這也在一定程度上反映出該款審校工具在數據的深度學習和挖掘方面存在局限性。

表1 中國科技出版傳媒股份有限公司2020年5-7月使用方正智能輔助審校系統各功能頻次
由于當前智能編校工具多數由專業技術公司開發,無法及時掌握新聞出版業實時變化的海量信息,從而造成相關數據庫中的信息滯后,產生新的錯誤。而對出版行業最新信息較為了解的編輯、校對等業內人士,由于不懂得相關技術,無法將最新數據補充入數據庫中,造成了實際使用過程中“腸梗阻”的狀態。
未來如果想要實現編校智能化的更深層次發展,傳統出版企業、專業技術公司等在深度融合或企業內部構件上需要有更多的探索與突破?!俺霭?技術”的組合拳需要被不斷推出并完善。平臺資源整合有待創新和升級,技術服務商、渠道運營商和內容提供商等再功能設計與實現、內容推廣及內容資源供應等方面應進一步融合,才能不斷實現新的突破。
智能輔助審校工具大多數屬于閉源軟件,開發公司將其視為自有資源或商業機密。因此,不同軟件之間的數據庫互補聯通,造成同一種功能不同的工具都有但都不夠全面的現狀,往往一個編輯在處理一部書稿時,要同時使用若干種智能審校工具的同一功能,在一定程度上造成了時間成本的浪費。專業詞庫的更新完全依賴于開發公司,編輯無法根據日常工作實時更新、調整與補充,不便于使用及管理。
在人工智能沖擊著幾乎所有行業的今天,出版業,尤其是傳統編務工作面臨著前所未有的發展機遇及挑戰。從人工智能的角度而言,未來的“智能輔助編校系統”應該具備如下功能:在運用大數據分析和自然語言處理、神經網絡、深度學習等技術的基礎上,不僅通過對比,也模仿人的推理邏輯,自動發現文稿中字詞、語法、語義、常用數據、知識性甚至引文、格式、遵循相關技術標準方面的錯誤,并提出修改建議。
隨著人工智能技術的不斷發展,基礎性編輯工作將越來越多地由計算機完成,編輯將成為稿件加工的終審者,將會向統籌全局、調整參數、終審檢查等方面轉變。因此,我們必須高度重視出版行業從業人員的智能化信息素養工作,不斷提高編輯的信息化素養。
與此同時,出版單位也要加強對編輯的引導,鼓勵從業者采取開放、包容的心態擁抱人工智能。對于編輯來說,機器的核心是軟件,而軟件的核心是它的哲學。編輯在使用人工智能輔助編務工作時,應不斷進行思考,不斷將自己的想法引入到技術中,真正實現人與技術的融合。
如今,我國出版業正在經歷著轉型升級的重大變革,相信隨著越多、越來越成熟的生產流程和生產工具的運用,出版行業將會逐步從人員密集行業向智力密集行業轉變,從而實現全行業高質量發展的目標和預期。當前階段,人工智能,尤其是智能編校工具,在出版行業中的傳統編務工作中正處于起步階段,相信隨著日臻成熟的人工智能技術,以及更多從業者的努力,編務工作實現真正意義上的智能化指日可待。