付洪韜 趙婧 黃萌 肖云
科技期刊作為學術傳播與交流的重要載體,在發布和記錄科研成果、推動學術爭鳴、激發創新思維、引領學科發展等方面長期發揮著非常重要的作用。2018年11月14日,國家主席習近平主持召開中央全面深化改革委員會第五次會議并發表重要講話,會議審議通過了《關于深化改革培育世界一流科技期刊的意見》(以下簡稱《意見》)。《意見》中強調,科技期刊傳承人類文明,薈萃科學發現,引領科技發展,直接體現國家科技競爭力和文化軟實力。要以建設世界一流科技期刊為目標,科學編制重點建設期刊目錄,做精做強一批基礎和傳統優勢領域期刊。習主席的講話,為中國科技期刊的發展注入了推進劑。
近年來,在互聯網、大數據、人工智能等技術的迅猛發展和帶動作用下,國內外科技期刊出版領域在生產方式、傳播方法、內容服務模式等方面都發生了巨變[1]。技術作為重要催化劑,對創造先進生產力、變革生產方式、推動出版方式升級都起到重要的推動作用。
國際科學技術和醫學 (Scientific, Technical and Medical, STM) 出版商協會自2011年起,每年4月份會發布一張技術對科技出版趨勢影響的預測圖,簡稱 STM 報告。2018年4月推出的最新版本《STM技術趨勢2022》(STM Tech Trends 2022),其口號為:“進入人工智能時代,創新的人類和智能的機器(Entering the AI Era,Creative Humans &Smart Machines)。”由此可以看出,國際學術出版領域非常重視技術對于行業發展的推動作用。中國科技期刊未來的發展,必然愈加重視通過技術手段轉變出版模式,提高服務能力。
中國科技期刊已經在內容采集、生產、加工、管理、發布和專業領域的知識服務等方面進行了有益探索。但是我們必須要看到,目前我國科技期刊出版單位在新技術使用方面普遍還比較落后,通過技術手段改進現有出版模式的意識也還不夠。我們對3438種科技期刊的官方網站進行了調研,其中,有1807種期刊網站提供全文PDF閱讀形式;285種期刊網站提供全文HTML閱讀形式;274種期刊網站預留了優先出版欄目,但其中只有68種在進行內容更新。期刊網站刊文的時效性普遍存在滯后現象,提供全文HTML閱讀的期刊,內容更新的時間比紙質期刊出版的時間滯后2至12個月。
從以上數據不難看出,雖然科技期刊出版單位有非常強烈的優先出版、快速傳播的愿望,但由于絕大部分期刊出版單位仍然采用傳統紙刊生產的方式,一本期刊完成整期排版和印刷后,再將排版文件進行后結構化加工。在這種生產方式下,數據質量無法保障,同時也極大地影響了傳播的時效性,網刊優先發布形同虛設。傳統出版方式和新媒體傳播之間的技術壁壘急需打破。
北京北大方正電子有限公司(以下簡稱方正電子)依托其雄厚的技術實力,近年來加強了機器學習、自然語言識別、動態出版、基于領域本體的知識庫構建等技術在學術出版領域的應用研發。以下,我們從內容生產方式、內容的科學存儲和管理以及專業知識服務能力等幾個方面闡述相關新技術在科技期刊出版中的應用。
國際上科學技術和醫學出版商近十年以來在升級生產平臺方面的實踐經驗告訴我們,對科技期刊數字化生產流程的改造,最根本的措施是將文獻內容的結構化工作前置,從源頭實現文檔XML數據化,并以唯一的XML數據在文獻的整個生產周期中流轉[2]。
XML數據作為一種可擴展的標記語言,它的設計宗旨是用于傳輸和存儲數據。由于它出色的碎片化內容的組織描述能力以及良好的擴展性,使其在管理信息、跨介質傳播以及交流與共享方面具有良好的表現,這項技術也因此被廣泛地應用于數字出版領域[3]。在學術出版領域,美國國家信息標準組織(NISO)發布的JATS XML數據標準,是在該領域越來越被廣泛應用的XML數據標準。JATS XML的前身是美國國家醫學圖書館定義的NLM DTD 3.0。目前,JATS已經被廣泛地應用于標記全球出版商出版的數以千計的期刊中,在科技期刊的生產、存儲、傳播和交換過程中起到了非常積極的作用,代表了XML技術在學術出版領域的高水平應用。近幾年,國內期刊出版單位、技術廠商都積極嘗試在該領域進行技術改造和實踐。現以方正電子研發的“方正平臺”為例,介紹新技術在科技期刊生產領域的應用。
方正平臺基于國際上先進的、被廣泛認可的JATS XML數據標準,同時引入人工智能等相關技術,旨在為中國科技期刊實現數字出版流程的升級與再造、提升媒體融合的傳播能力提供一種可行的技術解決方案。
方正平臺的核心組件示意圖如圖1所示。
由圖1可以看到,方正平臺最核心的組件分別是“智能文檔結構化引擎”“XML動態出版引擎”和“飛翔可視化版面精修工具”。
(1)智能文檔結構化引擎
“智能文檔結構化引擎”的核心能力是對錄用稿件進行“稿件清洗”“稿件規范化檢查”和“文檔結構化”。“稿件清洗”是系統對錄用稿件中的冗余無效信息進行清理;“稿件規范化檢查”是對稿件中非法的內容樣式,如浮動圖、表格的錯誤用法等進行校驗和規范。以上兩步操作完成后,系統會自動對稿件進行細顆粒度結構化拆分。
“智能文檔結構化引擎”部署在云端,整個工作過程不需要人工介入。系統通過大數據、機器學習等相關技術對近10萬篇不同領域的稿件進行了學習和訓練,確保可正確識別稿件中的要素,并完整地建立起要素之間的關聯。目前,該結構化引擎的稿件結構化正確率可達95%以上,通過對越來越多稿件的解析和識別,正確率還會不斷提升。

圖1 方正平臺核心組件
(2)XML動態出版引擎
“XML動態出版引擎”是將“智能文檔結構化引擎”生成的XML數據匹配不同的發布渠道模板,生成滿足不同渠道傳播的成品數據文件。該組件實現了結構化數據與不同發布模板樣式的自動匹配,包括各種不同呈現布局下內容與模板容器的自適應。通過對上萬篇稿件發布速度的評估,單篇稿件平均發布時間小于90秒,這為單篇稿件的優先網絡出版提供了重要的技術手段。
(3)飛翔可視化版面精修工具
對于稿件生成版式文件后還可能需要對內容進行反復修改的情況,方正平臺還提供了“飛翔可視化版面精修工具”。即使是沒有任何排版基礎的人,也能非常直觀地對內容進行可視化修改。這種操作方式避免了傳統出版方式中出版單位和排版機構之間要反復交互校次稿、等待返修結果的問題,優化了出版流程,極大地縮短了出版周期,讓出版單位自主掌握出版時機。
上述幾個核心組件通過方正平臺提供的生產過程管理系統進行連接,為出版單位提供了以單篇稿件生產為主線的新型生產流程。
方正平臺為用戶提供的主要應用場景為稿件中心和組刊中心。稿件中心完成單篇稿件從生產、編校到單篇發布的流程;組刊中心實現期刊整期組稿合版。方正平臺提供的期刊生產流程如圖2所示。
由圖2可以看到,新型的科技期刊生產流程是以一個單篇稿件的生產過程為主線的。優質的單篇稿件一旦達到學術質量和出版的要求,就可以隨時隨地優先上網,不需要受到整期期刊出版周期的影響。而整期期刊的組織環節相比傳統出版的時間也大大縮短。用戶僅需選擇本期需要上版的單篇稿件,調整好順序和欄目,通過一鍵操作智能實現整期組刊,中英文目錄、年卷期頁碼即刻完成,大大減少了人工操作的步驟,讓生產環節不再成為整個出版周期的瓶頸。

圖2 方正平臺生產流程
通過近半年的實踐,《含能材料》等期刊單篇優先出版的時間平均縮短了50%以上,整期組刊環節的效率也大幅提升。以《2018中國紡織學術年會論文集》為例,該編輯部從收到稿件開始以單篇稿件為單位進行編輯、排版、校對等工作任務,最終,一本近300篇論文、頁碼數近2000頁的論文集,系統僅用了20分鐘左右的時間即完成了自動化合成,極大地提升了出版單位的生產效率。
打開微信,掃描圖3所示二維碼,可以觀看方正學術出版云服務平臺的操作演示。

圖3 方正學術出版云服務平臺操作視頻演示
新型數字化生產流程通過重塑數字出版流程,從源頭生成高質量的XML數據,驅動科技期刊生產、發布和傳播,從根本上轉變了生產理念,提高了生產效率,保障了數據質量,降低了技術革新成本,為媒體融合和開展知識服務創造了條件。
(1)生產理念轉變
傳統出版流程是為紙刊生產服務的。在媒體融合的時代背景下,傳統的生產流程已經嚴重制約了內容傳播的時效性。方正平臺改變傳統出版過程中整期紙刊生產和內容數字化流程割裂的現狀,幫助期刊出版單位實現在滿足紙刊生產的基礎上,同時服務于多種渠道的傳播,改變了紙刊生產和數字出版串行工作的方式,節省了人力和物力的成本。
(2)生產效率提升
方正平臺基于單篇稿件進行生產、編校和多格式輸出,滿足“生產即發布的愿景”,助力單篇文獻的PDF文件和全文Rich HTML的優先出版,為期刊出版單位爭奪內容首發權提供了有力的技術支撐。在傳統出版流程中,科技期刊基于整期出版的傳統生產流程,排版工作交由排版公司完成,造成編排分離的局面,增加了稿件處理的時間成本。方正平臺通過定制專業化的版面模板,實現自動化的排版工作,同時配備了同XML數據實現交互的所見即所得的版面精修工具,減輕了傳統出版流程的工作量,降低了編輯完成排版工作的技術門檻,提供了編排校一體化的可能性,使期刊出版單位優化期刊生產流程,及時、實時甚至同時報道最新學術進展。
(3)提供融媒體服務
期刊出版單位可以通過方正平臺,便捷地獲取滿足全文網刊發布所需要的Rich HTML數據。Rich HTML文件近年來已經成為科技期刊廣泛采用的一種全文閱讀模式,通過文章內容的結構化處理,實現了多種形式的鏈接,如文章導航與文中相應部分內容的鏈接、文中引用內容和參考文獻列表的鏈接、文中圖表符號與圖表內容的相互鏈接、作者關鍵詞等附加信息的外部鏈接、參考文獻相應的外部鏈接,不僅方便了文章內容的閱讀,還方便進行外部的延伸閱讀,提升了讀者的閱讀體驗。Rich HTML 的全文閱讀方式,不僅滿足了讀者碎片化、可復用的閱讀需求,同時還便于網站搜索引擎的抓取,增大了文章被訪問的概率,提升了期刊內容傳播效率[4]。Rich HTML 文件還可以滿足跨終端的移動閱讀需求,便于通過微信推送、分享等方式,擴大傳播范圍,提供更加精準的讀者服務。
(4)數據質量提升
優質的數據是期刊出版單位未來進行專業知識服務的基礎和保障。方正平臺提供的版面精修工具,采用了先進的中文信息處理技術和基于機器學習的版面算法,是專業、標準、可滿足紙刊出版要求的生產工具。方正電子是中國科技期刊XML數據標準起草單位之一,緊跟國際技術發展的趨勢,為用戶提供標準、優質的符合JATS1.1標準全文XML數據,可以實現與國際主流數據庫的內容共享。方正平臺確保文獻內容在整個生產周期中的唯一性、準確性,避免了割裂的加工過程和不同加工廠商的人工干預導致的二次錯誤引入,為期刊出版單位進行數據運營提供了高質量的數據保障。
(5)降低新技術革新成本
方正平臺的構建基于云端,免除期刊出版單位本地化部署、維護系統的煩惱,降低了科技期刊應用新技術的時間和資金成本,并可以隨著產品不斷地迭代,進一步完善利用新的技術和功能。用戶通過在線注冊獲取賬號,可以隨時隨地登錄系統完成生產工作,并在平臺中對每一篇稿件、每一個生產節點、每一次生產操作進行跟蹤記錄,通過版本管理實現專業化的生產過程管理,通過用戶角色界定和工作任務分發等功能實現多人協同的生產模式。在此基礎上,方正平臺通過底層高質量的XML數據和自然語義識別技術,進一步實現了版本比對功能,直觀地體現版本之間內容的增刪改、圖片的變化等,極大提升了編輯的工作效率。
方正平臺通過生產環節的技術革新和流程再造,改變了科技期刊傳統出版和數字出版“兩張皮”的現狀,生成的高質量XML數據為期刊出版單位開展知識庫建設、語義出版知識服務,實現自主運營、提供知識服務和開展集群化發展提供了堅實的數據基礎。
期刊文本資源作為學術通訊的重要載體,從其誕生至今,便被不斷地優化及完善,以便發揮其信息傳遞的最佳效果。隨著大數據概念的普及,一些科技期刊開始探索文本挖掘在期刊編輯工作中的應用,其中就包含前文所述的文獻結構化工作。經過結構化的文本通過重組和分析,可以產生大于文本本身的價值,這一點已經得到普遍的認同。國內外不少大型數字出版機構已經通過提供此類數據服務實現了數據的增值,并探索出了新的商業模式,例如知名的Highwire平臺、Elsevier的Scopus數據庫等。
近年來,數據出版已成為出版界積極探索的領域。[5]學術論文作為學術研究的傳播載體,最終的文獻形式是整個學術工作的冰山一角,文本背后大量的支撐數據,例如實驗過程數據、代碼、表格、圖片、病例等內容,無法通過傳統的傳播方式呈現,使得學術傳播呈現出不完整性,基于此,對于數據的管理在學術出版活動中顯得尤為重要。
通過對方正平臺用戶的調研,筆者發現,傳統的期刊出版單位在資源管理中存在的問題主要體現三個方面:第一,資源未實現科學管理。期刊出版單位內部數據大多經過多年積累,由于人員、設備等問題,文獻及其相關附件信息未能進行科學有效的管理,大多是經過簡單分類后存儲在編輯部本地服務器上,部分期刊出版單位的過刊數據甚至存在丟失的情況。第二,數據存儲形式過于單一。期刊出版單位只將文獻及其相關數據以文件的形式進行存儲,作為獨立個體的資源以文件夾的形式分散在電腦硬盤的各個角落,數據之間無法形成有機的關聯,這種存儲形式很難實現數據的再利用,也無法進行數據關系的挖掘,資源增值、數據出版更無從談起。第三,資源統計方式過于陳舊。手工的統計方式無法實時獲得期刊工作量的評估及資源的統計信息,使得對期刊資源實現宏觀管控面臨一定的難度。
針對上述問題,方正平臺在數字資源的管理及存儲方面進行了積極的探索,通過構建新型的資源存儲模式,為期刊出版單位解決上述問題,即通過提供云端的數據多元化存儲服務,實現文獻的結構化存儲、實時的數據統計及資源的重組策劃,將資源的價值發揮到最大限度。
方正平臺資源中心能夠幫助用戶實現資源結構化存儲、資源的實時數據統計和資源重組策劃功能。其架構圖詳見圖4。
在方正平臺提供的資源中心,每一篇文獻都將以結構化的形式進行存儲,系統會自動進行文獻的數據解析,將文獻中的作者、關鍵詞、機構、基金、圖片、表格等數據資源通過抽取進行獨立存儲,并將這些數據獨立成庫。此外,平臺還將這些獨立的數據片段通過算法實現數據之間的有機關聯,從而為期刊出版單位提供決策的輔助依據。如前文所述,數據資源的存儲和出版在學術傳播過程中變得更加重要,而這些數據資源的載體形式多樣,包括音頻、視頻、代碼、結構化數據等,方正平臺的資源中心可支持文獻相關附件數據的存儲,同時支持數據和文本之間關聯關系的建立,為數據出版打下基礎。期刊用戶通過使用該資源中心,可以有效管理、組織細顆粒度資源,包括每一篇論文、相關素材以及各種增值數據,從而使期刊出版單位可以科學管理自有內容資產,并在未來發揮更大的數據價值。

圖4 方正平臺資源中心架構圖
對于期刊出版單位來說,數據的統計至關重要。在沒有輔助手段的情況下,統計只能依靠人工,這項工作在一定程度上增加了期刊出版單位的工作量,且統計結果往往不夠精確。方正平臺的資源中心可實時統計期刊的各類數據信息,包括期刊生產加工信息、期刊出版數據信息等。在系統對接外部發布平臺的情況下,可統計外部讀者的使用行為等數據。
系統可通過入庫的稿件信息,自動統計期刊在一定周期內的稿件生產量、文字和圖片處理量、稿件生產周期等數據,并通過統計報表的形式直觀呈現。系統還可統計期刊的基金論文比、學科分布、作者分布、機構分布等信息,使期刊出版單位對期刊的學術信息一目了然,從而對期刊的現狀有一個更加清晰的認識和了解。出版學術期刊是為了及時發布、有效傳播學術成果,在學術出版日益互聯網化的語境下,針對互聯網用戶的行為分析有助于提升期刊的傳播力和影響力。資源中心支持期刊出版單位對接外網發布平臺,對接后,系統可實時反饋外部用戶的使用信息,幫助期刊出版單位根據讀者行為調整出版策略。
隨著信息技術的發展,我們處在“信息爆炸”的時代,各種信息極為豐富,導致有效知識相對匱乏。為了從大量信息中迅速獲得有效知識,基于數據挖掘技術的文本挖掘變得至關重要,如何將碎片化的隱性資源轉化為顯性的更加有價值的資源?國內一些期刊出版單位已經開始了碎片化數據重組再利用的探索之路。然而,對于大部分期刊出版單位來說,資源的重組及匯編具備一定的難度。一方面,結構化數據的處理需要具備專業的數據加工知識;另一方面,自主開發軟件項目的工具成本過高。基于此,方正平臺資源中心為用戶提供了一種低成本、便捷的數據管理和重組服務,幫助用戶充分發揮其資源的開發能力,支持期刊出版單位通過可視化的數據管理工具將文本中的數據進行抽離,同時進行標引加工,實現數據的多維自動重組,可快速生成期刊出版單位自有的圖片庫、文章專題庫、各類知識庫等產品,推動期刊出版單位從資源服務向知識服務過渡。
知識服務的目的是從各種顯性和隱形知識資源中有針對性地提煉知識,并在此基礎之上通過搭建知識網絡提供知識內容、給出解決方案。在這一過程中,對于內容的挖掘和組織是最關鍵的環節,而這一環節的基礎便是底層的優質結構化數據,[6]XML數據作為期刊文本的結構化載體,已經廣泛應用于期刊數字化傳播。然而,如何有效存儲并充分利用XML結構化數據,以及如何呈現多樣化的數據資源,依然是期刊數字化傳播亟待解決的痛點。此外,只有具備一定的數據量,才可以開展知識服務,所以對于數據的積累至關重要。因此,建議期刊出版單位盡快開展期刊的XML數字化加工及存儲,以便適應期刊的互聯網化趨勢。利用新的技術手段不僅可以優化期刊傳統出版流程,提高生產效率,還能實現期刊的多渠道、多樣化傳播。全流程基于XML數據的出版模式可以從源頭上實現對數據的管控,并對科學研究過程中產生的各種過程數據進行有效存儲和有機關聯,提供給讀者更加豐富的閱讀體驗,實現文本的增值。
目前,知識服務已經是國外數字出版的主流服務,國內期刊雖然有一定的差距,但是始終在進行積極地探索,而新技術將賦予這個探索過程一個新的契機。未來的科技期刊將更加側重于垂直領域的數據挖掘及更加多樣化的數據呈現,不同學科因呈現的數據形式不同而會擁有各自個性化的技術手段。追本溯源,呈現多樣化數據的基礎是對原始數據的有效加工及利用,如何進一步提升資源及數據的規范性,保持數據的完整性,同時賦予資源更加準確及豐富的描述,將是學術期刊未來提供知識服務的基礎。
綜上所述,筆者認為,中國科技期刊的發展已經迎來了前所未有的好時機,新技術有能力、也必將為傳統學術出版賦能,為中國科技期刊的發展帶來一場前所未有的革命。