王亞輝 王 晶
(中國農業科學院農業信息研究所,北京100081)
翻閱出版史,從“鉛與火”到“光與電”再到“數與網”,每一次重大技術突破和革新都給出版行業帶來巨大變化。以人工智能為代表的新一輪技術創新也必將驅動傳統科技期刊出版行業發生歷史性變革,加快智能出版融合發展進程。
有學者就人工智能與出版行業的融合發展做了一些有益的探究。如王曉光認為,人工智能作為一種顛覆性技術,對內容創作、內容編輯、發行傳播等多個出版環節都有潛在影響,而且這種影響難于預估。[1]武菲菲討論了人工智能融入內容生產、圖書編輯、營銷推廣和用戶需求挖掘等出版環節的可能性,認為人工智能技術可被視為未來出版行業的生態環境。[2]但多數研究或就廣義的出版而言,論述的視角較為宏觀,對具體出版媒介的指向性不強;或談及新聞出版、圖書出版及專業教育出版,鮮有涉及科技期刊出版;即便在少有的科技期刊出版相關研究中,大部分是概述性或暢想式討論人工智能對出版業態或出版流程的潛在影響,對具體案例和實踐應用的介紹不足,或是圍繞某一流程或某個環節,如選題策劃、同行評議、內容審校等展開論證,但研究的內容又略顯單一。總體而言,目前對人工智能和科技期刊出版在微觀和具象層面特別是涉及全出版流程、全鏈條環節的融合策略、創新路徑、制約瓶頸的研究還比較欠缺。[3-4]本研究就人工智能之于科技期刊的未來出版邏輯、出版業態全方位、多環節的變革與顛覆進行了全景的呈現、具象的闡述和案例的論證。在透析人工智能或將重塑科技期刊傳統出版流程、驅動內容生產、渠道分發和交流分享智能升級的同時,也討論了科技期刊出版行業應用人工智能仍存在的一些現實瓶頸和困擾,以及適應性治理策略。
人工智能利用數據挖掘、智能算法、機器學習等技術手段進行數據采集、分析和處理,通過智能感知和智能服務,將在很大程度上改變科技期刊的選題策劃、內容創作、文稿處理、發行傳播、閱讀體驗和社群建設等一系列業務流程,塑造出版產業全新的內容生產、加工、分發、服務和消費的生態環境,實現出版業態的智能化、高效化、精準化、定制化、場景化。
在大數據、云計算等技術支持下,人工智能借助數據挖掘算法和深度學習技術抓取、挖掘和分析海量數據,這些數據可能包括目標學科或專業的研究熱點和核心話題,以及讀者閱讀偏好和行為特征(評論、回復、下載、轉發等),有助于編輯發現并篩選出更具熱點性和前瞻性的內容,從而提升選題策劃的高效性、精準性。
目前在出版領域,人工智能參與選題策劃取得了一些積極的進展。德國的一家新興出版商Inkitt本是一個電子書寫作社區平臺,平臺上積累了超過20萬部可供閱讀作品的電子書資源,它利用算法模型分析讀者在線的閱讀行為和興趣偏好,預測電子書的市場潛力,將算法標注為暢銷書的電子書選題交由傳統出版商完成紙質圖書出版。[5]北大方正電子公司推出出版大數據解決方案,通過對電商、閱讀、評論平臺和社交網絡內容、用戶和市場數據去重去噪后的數據管理、可用評價、機器學習、情感分析、用戶畫像的繪制,幫助編輯發現研究熱點,優化出版選題。Springer Nature開發的SciGraph關聯開放數據平臺,集成了包括期刊、論文、項目、專利、主題、研究人員、科研機構、使用數據在內的高通量、跨領域的內容資源和知識數據,在數據融合、知識發現、內容計算基礎上,構建學術知識數據融通關聯的大規模知識圖譜,基于對知識圖譜的智能語義搜索、主題聚合探索分析,有助于掌握學科發展脈絡、挖掘特色選題。[6]美國Clarivate Analytics旗下的學術信息檢索平臺Web of Science期刊利用LDA(Latent Dirichlet Allocation)文檔主題生成模型,該模型是一種無監督的機器學習技術,通過對特定領域的學科數據進行分析處理,篩選關鍵熱點,借助算法抽取主題詞匯,按顯著性自動形成特定主題,為期刊的選題組稿以及熱點追蹤提供方便。[7]
自動化內容創作較早出現在新聞出版領域,尤其是在國內外主流媒體的新聞報道中,寫作機器人得到了大規模的應用,典型如美聯社的Wordsmith自動撰稿平臺、新華社的“快筆小新”、騰訊的Dream writer。在學術和專業出版領域,2019年4月,Springer Nature出版了世界上第一本由人工智能寫作的學術著作《Lithium-Ion Batteries》,這是由德國法蘭克福大學應用計算語言學實驗室合作開發的名為“Beta Writer”的算法完成的,它使用了基于相似性的聚類程序,將源文檔排序為連貫的章節,并生成簡潔的論文摘要,引文則以超鏈接形式注明,方便讀者查閱,通過對鋰離子電池領域53,000多篇學術文獻的跨語料自動摘要,綜述了該項技術的前沿進展。[8]來自美國倫斯勒理工學院等機構的科學家們開發了一款叫作“PaperRobot”的人工智能學術助手,借助自然語言處理和自然語言理解技術對生物醫學領域已發表的大量論文深度學習,構建背景知識圖,并協助撰寫給定主題的論文摘要、關鍵內容,梳理結論甚至提出進一步的研究建議,對“PaperRobot”生成論文的圖靈測試結果表明,機器創作的摘要、結論和研究建議比人工寫作有更高的接受度。[9]
值得警醒的是,上述人工智能的嘗試并不意味著在不久的將來,機器就能取代人類完成邏輯清晰、論述嚴謹且有創新發現的研究論文,人工智能現在所做的也僅僅是基于知識數據庫或背景知識圖對現有的知識、概念進行梳理、鏈接和聚合,它并沒有且短期內也不會創造新的知識和科學發現,而新知識、新發現恰恰是人類不斷探索、艱苦攻關、協同創新的智慧結晶。
在組稿階段,人工智能能夠基于知識圖譜、關聯分析和文本挖掘技術,從各大文獻檢索平臺和網絡數據庫中發掘學術資源,篩選相關研究方向的重要專家學者,跟蹤他們的研究動態,評估他們的學術影響,及時向他們發出稿約,提升組約稿件的針對性和匹配度。如Semantic Scholar、Iris.ai、UNSILO、Yewno等基于人工智能的學術搜索工具,采用機器學習、語義分析等方法,提取文本的含義和關鍵概念,幫助用戶快速理解論文內容,定位、分類、篩選有價值的研究、作者和機構,給選題與組稿帶來極大便利。[10-12]具體如UNSILO利用自然語言處理和機器學習技術,分析提煉論文內容,提取作者的主要論點和研究發現,還可抓取PubMed Central學術數據庫中數百萬篇的生物醫學論文全文,便于編輯對研究成果有快速、大概的了解。[11]清華大學計算機科學與技術系的研究團隊建立了科技資源大數據分析挖掘與服務平臺“AMiner”,該平臺囊括了超過2.3億篇學術論文、專利和1.36億位學者,集成了專家檔案智能抽取、專家智能搜索、學術大數據融合、學術評價等多項功能,提供了針對科技文獻、專家學者和學術活動的強大搜索能力。
在審稿階段,針對現有的論文查重軟件采用逐字匹配查詢且不能識別近義詞或相似句的問題,一些智能化的學術不端檢測工具支持識別整個句子或部分段落,甚至一些反剽竊工具開發了能夠發現偽造圖像的圖表檢測功能,幫助更加有效地打擊學術抄襲。如Elsevier設計的自動化編輯系統Evise,通過檢索和匹配程序與CrossCheck數據庫的文獻進行比對來檢查論文的剽竊;來自美國Syracuse University的Daniel Acuna博士研究團隊在bioRxiv上發表的一篇文章中介紹了一種機器學習算法,該算法使用基于關鍵點的檢測方法對來自生命科學領域4 324本期刊的76萬篇開放獲取論文的200多萬幅圖片進行了檢測,發現約有9%的圖像存在高度重復。[13]人工智能技術還可智能推薦合適的審稿人。如瑞士Frontiers Publishers研發的人工智能評審助手AIRA,結合內部自定義算法并嵌入Google、CrossRef的iThenticate(文檔原創性檢查工具)和Editage的Ada(論文自動化評估工具)的功能,快速準確評估稿件質量,還可匹配潛在的同行評審專家,并檢查編輯、審稿人和作者之間可能存在的利益沖突。
在編校階段,大量低端、重復的編輯加工校對工作都可交給人工智能的自動排查和糾錯系統來高效完成,包括稿件字詞句段、語法修辭有無錯誤,名詞術語、計量單位的書寫是否準確,篇章結構、體例格式是否規范,數理統計方法運用是否恰當。如Elsevier的Aries審稿系統采用StatReviewer軟件的AI功能核查論文的試驗方法、統計數據和研究結論的完整性和可靠性[11];方正智能輔助審校系統應用機器學習和深度學習技術,擁有分詞、實體識別、句法分析、深度語言模型等方法,已初步開發完成易錯詞、敏感詞、不規范名詞、連接符、全半角、單位大小寫、圖表公式序號檢查等11項功能。
科技期刊在長期的出版實踐中匯聚了豐富的研究成果、文獻資料等內容資源,以及作者、讀者、專家、編委等用戶信息,奠定了利用智能算法實現內容精準分發的數據基礎。人工智能可以追蹤用戶在各類數據平臺、社交媒體上對學術資源的瀏覽、下載、評論及分享行為,描繪精準用戶畫像,基于用戶閱讀需求和興趣領域,完成內容的適配性和個性化分發。
TrendMD是加拿大的一家出版技術服務公司,可提供跨平臺相關文章的個性化精準推薦,它通過在合作期刊網站后臺安裝插件,索引期刊論文的歷史元數據,并利用跨平臺內容推薦模塊的協同過濾技術,根據讀者閱讀趨向實現合作期刊平臺和第三方平臺論文的精準推薦,每月通過TrendMD平臺推薦的文章鏈接高達8億條,惠及超過1億的讀者。超星集團推出“域出版”移動出版平臺,為用戶提供智慧化的學習資源,其特色的“指紋采集”功能結合用戶在平臺上的“收藏”“最近瀏覽”“讀書排行”等源數據,可建立個人閱讀行為和閱讀曲線,并按照閱讀曲線推送定制化內容。
不同于傳統出版以圖文為主的靜態傳播,場景時代的媒體傳播更加關注內容產品本身為用戶創造的沉浸式、可視化體驗。VR(虛擬現實)、AR(增強現實)、MR(混合現實)等技術豐富了傳統出版的內容呈現樣式和用戶交互方式,對內容和信息的表達更加深刻、直觀,為用戶帶來了深度沉浸、主動參與的“臨場”體驗。
VR/AR技術引入科技期刊出版,也可豐富讀者的閱讀形式,提升讀者的閱讀體驗,特別是在理工農醫類科技論文中儀器設備、實驗過程、醫科手術的立體再現中有較大的應用優勢。《上海大學學報(自然科學版)》探索性地在“三值光學計算機”專題出版中,將期刊論文以動靜態AR呈現,讀者通過智能終端下載紙上AR的App,掃描文中圖片,即可在移動端完美展示三值光學計算機實物和體驗視頻。[14]
利用大數據技術的分類、聚類和關聯規則挖掘,借助人工智能的精準推薦和有效匹配,尋找具有共同學術旨趣的業內同行,建立科技期刊的用戶社群,通過社群傳播打造更加宏大的學術空間,提升科技期刊的平臺效益和品牌價值。在學術社群內用戶可以實時分享學術動態,交流最新的研究成果,還可以就自己感興趣的話題獲得個性化、精準化的學術資源。
Frontiers一直堅持社群驅動出版的理念和實踐,開發了科研社交平臺Loop,科學家們在平臺個人主頁上可發布科研成果、學術活動等內容,上傳論文、視頻、新聞等資源,學者間可相互關注,加入學術小組,向科研同行推薦有價值的學術內容,還可在線組織學術交流。國家新聞出版署出版融合發展(武漢)重點實驗室發起的開放科學計劃OSID平臺也有類似的功能,支持期刊社、編輯、作者、讀者構建學術交流社區,在學術圈內可就期刊論文、學科熱點進行學術討論、資源共享、開放交流和社交互動。
人工智能對科技期刊傳統出版的業務重塑和價值創新將催生出版的新業態、新模式、新邏輯。但在科技期刊出版行業完全應用人工智能,仍然存在現實的困難和挑戰。具體表現為算法驅動的選題策劃、內容生產同質化嚴重,創造性不足;精準推送可能造成信息窄化;出版數據共享困難,數據壁壘普遍存在。
人工智能依賴機器智慧跟蹤、篩選學術研究熱點和前沿動態,推動傳統出版選題策劃方式走向智能高效,但在算法主導下對熱點、熱詞的一味追逐,可能造成相同或相關學科不同刊物選題方向和選題內容同質化,而缺乏差異化、創新性,無法彰顯辦刊特色,不利于學科創新和出版生態的健康發展。
目前人工智能尚處于弱人工智能階段,還不具備人類意識特有的推理能力和創造能力,也就不具備思考分析并提出觀點的能力,自動創作更多適合模板化、程式化的內容生產,由于專業性、創造力的缺失,人工智能還不勝任需要專業研究、深度闡釋、復雜求證的科學論文的創作。
基于用戶興趣愛好提供個性化推薦,雖然提升了信息分發效率,但也會帶來“信息繭房”問題[15],從而造成用戶接收信息窄化、視野受限、思維固化,這對科技期刊的受眾,主要是科研工作者拓寬信息面、知識面,特別是從事跨領域、跨學科學習研究顯然是不利的。
數據是人工智能的“養料”,沒有數據支撐,就談不上人工智能的應用。但在傳統出版單位,數據的價值并沒有得到足夠的重視,對內容生產、內容傳播、出版流程以及用戶交互的數據積累、挖掘和利用不夠,這些數據的潛在價值并沒有被發揮出來,而且不同出版單位、文獻數據平臺之間的數據相互割裂,難以實現開放共享,數據孤島、數據壁壘廣泛存在。
人工智能在為科技期刊出版業態變革帶來一系列新機遇的同時,也不可避免地伴隨著一連串新挑戰。應對人工智能的風險挑戰,不能單從技術層面著手,根本上還是要處理好人工智能與人類的關系問題。
具體到科技期刊出版領域人工智能應用風險挑戰的規約與治理,其基本思路是:平衡人機關系,重塑編輯價值,增進協同共治。人工智能新時代下,需要深化對科技期刊出版流程的把控、編輯活動規律的認知、出版倫理和文化價值的堅守,加強前瞻預防,權衡技術利弊,調試價值沖突和倫理困境;公開算法,讓算法透明化,增強算法的可解釋性、可理解性、可預測性,關注和防范算法偏見、算法權利濫用和“信息繭房”,解決選題功利化、內容模式化、推送單一化等諸多問題;強化編輯的主體意識、責任意識和把關意識,在選題策劃、同行評審上發揮編輯在人文關懷和價值判斷上的文化引領性和主觀能動性,彌補人工智能的技術缺陷和價值失范,構建人工智能技術與編輯倫理和諧共生的出版生態;推進行業出版數據開放共享、標準統一和業務協同;需要加大全民人工智能的教育普及和人才培養力度,尤其是提高編輯人員了解運用人工智能新技術的專業素養。
人工智能對出版生態的變革和再造是全鏈條、多角度的,是出版生產力的進一步解放和生產關系的深層次變革。需要用發展的眼光、開放的心態主動擁抱人工智能,將人工智能技術積極融入出版產業發展進程中。強化編輯的主導地位和科學引領責任,引導好、利用好人工智能,也要認真評估算法偏見、“信息繭房”、數據越界、侵權追責等人工智能的技術、法律和倫理問題。