摘 要:技術有代謝,往來成古今。出版業因技術而生,也隨技術變遷,技術就刻在出版業的基因里。隨著以ChatGPT為代表的生成式人工智能工具的問世,專業出版領域也無可避免地卷入這場科技革新浪潮。本文簡要介紹了AI技術在專業出版和信息服務領域的應用,以及其所帶來的機遇和挑戰,并從四個角度探討了AI時代的出版策略:積極擁抱新技術、正視AI局限、關注可持續性以及始終立足高質量內容出版,讓出版業在技術變革時代理性、自信地立于浪潮之巔。
關鍵詞:專業出版 AI AI幻覺 版權保護
被譽為“當代達爾文”的博物學家、思想家愛德華·威爾遜(E.O.Wilson)曾說過:“困擾人類真正的問題是,我們擁有石器時代的情感、中世紀的制度和上帝一樣的技術(god-like technology)。”在最新一輪人工智能(Artificial Intelligence)熱潮中,媒體大肆炒作AI如“上帝一樣”無所不能,讓我們深深感受到了這種困擾和悖論。
2022年11月,OpenAI公司旗下的生成式人工智能工具ChatGPT橫空出世,引發了新一輪人工智能熱潮。ChatGPT的背后是“大語言模型”技術,一時間,國內外技術公司集中跟進,掀起“百模大戰”;媒體持續跟蹤報道,“革命”“炸裂”“取代”“顛覆”等抓眼球的詞語不斷出現在媒體頭條,甚至出現“AI將很快超過人類智能”“硅基文明將取代碳基文明”等觀點。在如此喧囂的人工智能熱潮中,專業出版從業人士應該如何思考自身定位?生成式AI給專業出版帶來了哪些機遇和挑戰?人工智能對于出版業未來發展究竟意味著什么?本文將結合全球領先的專業信息服務商之一勵訊集團(RELX)的實踐,嘗試探索回答這些問題。
一、人工智能發展歷程中兩個值得關注的問題
出版人應該對人工智能的發展歷史和技術本質有基本了解。我們不必也不可能都成為技術專家,但如果不了解基本歷史脈絡和技術本質,很容易被媒體的熱炒帶偏。新一輪人工智能熱出現以來,關于人工智能歷史的圖書資料很多,筆者不再贅述。遍梳文獻,有兩點值得我們關注。
(一)迄今為止,人工智能并無被廣泛接受的定義
眾所周知,人工智能這一名詞最早由計算機科學家約翰·麥卡錫于1956年提出,但在當時,就有人不同意這個提法。該領域的另一位先驅、諾貝爾經濟學獎、圖靈獎獲得者赫伯特·西蒙(Herbert Simon)建議使用“復雜信息處理”(Complex Information Processing)這一提法。[1]美國人工智能專家、圣塔菲研究所教授梅拉妮·米歇爾(Melanie Mitchell)在一次題為“人工智能的未來(The Future of Artificial Intelligence)的演講中說,提到人工智能,人們首先想到的是“一些技術”:會下棋的機器、GPS導航、語音識別、人臉識別、機器翻譯、對話機器人等,卻沒有統一的定義。人工智能學者和專業投資人李開復在《人工智能》一書中指出,討論人工智能的定義,就像哲學家討論“人何以為人”,沒有定論,并列舉了5種流行的定義。[2]國際經典教科書《人工智能:現代方法》也沒有給出特別明確的定義,只是列舉了自然語言處理等6個領域,并稱“以上6個學科構成了人工智能的大部分內容”。[3]
人工智能為什么沒有經典、統一的定義?主要有以下幾個原因:一是“智能”本身很難定義。大腦是已知世界最復雜的系統,我們尚不完全清楚智能產生的機理,因此很難定義智能。二是人工智能這門學科還很年輕。從1956年“人工智能”這個專業術語出現到現在,只有近70年的歷史,而且尚在成長、探索初期。三是尚無統一的理論。中國科學院院士、清華大學人工智能研究院名譽院長張鈸教授認為,人工智能目前只有一堆算法,沒有統一的理論。[4]華裔人工智能專家、斯坦福大學教授李飛飛在和AI科學家吳恩達的對話中說,人工智能還處在“前牛頓時代”,即沒有完備的理論,她夢想著將來有一天,人工智能領域能有一套公式,把原理說清楚。一門學科連統一的、被廣泛接受的定義都沒有,從一定程度上說明了該學科的某些局限性,這是出版人應該了解的。
(二)人工智能的發展曾經歷過兩次“寒冬”
縱觀人工智能發展的70年歷史,其進程并非一帆風順,而是起伏跌宕,既有熱潮,也有“寒冬”(見圖1)。[5]在AI寒冬期,過高的、不符合實際的預期一一破滅,公眾失望,政府科研經費縮減,企業減少投入,社會普遍唱衰。很多長期從事該領域研究的學者有切身體會,人工智能專家梅拉妮·米歇爾教授提到,她博士畢業時正值20世紀90年代初的“AI寒冬”,有人建議她千萬不要把“研究人工智能”寫在簡歷里,否則很難找到工作。李開復也提到,1998年他到北京創建微軟中國研究院的時候,正值人工智能低潮,從事這個行業的專業人士都羞于提及“人工智能”這個詞,當時人工智能就是“過分夸大、其實不管用的技術”的代名詞。根據科技咨詢公司Gartner發布的《2023人工智能技術成熟曲線圖》,當前生成式AI正處于“泡沫巔峰期”的頂點,未來很有可能經歷泡沫破裂帶來的低谷期,之后再穩步爬升至理性水平,并開始大規模應用。[6]
圖1 人工智能發展歷程
人工智能發展歷程的上述兩個特點對于我們有何啟示?首先,人工智能還不是一門理論完備的學科。對于一門學科的發展,基礎理論極其重要。清華大學張鈸教授在第十二屆互聯網安全大會上的演講中提到,人工智能與信息科學的發展路徑不同,信息科學從一開始就有完備的基礎理論,所以其發展是平穩的、線性上升的,研發出的技術、產品都是通用的。人工智能由于沒有完備的理論,只有一堆算法,其發展也是起起伏伏,研發出的技術和產品往往不能通用。其次,對新技術要抱有合理期待。對于一項新技術,人們往往容易高估其短期應用,而低估其長期影響。對于人工智能期望過高,賦予其無法完成的任務,繼而失落,是所謂AI寒冬產生的主要原因。
二、生成式AI在專業出版領域的應用
生成式AI技術的出現,給專業信息服務(出版)領域帶來了新的機遇。但必須指出的是,專業信息服務領域應用AI技術由來已久,在生成式AI技術出現之前,已經有十幾年的應用所謂“提取式AI”(Extractive AI,或稱為辨別式AI),即從海量的文本里梳理、提取出有價值的信息和知識,比較典型的應用是搜索、推薦、知識圖譜、文本可視化等。生成式AI的出現,并不會取代提取式AI,在專業信息服務領域,提取式AI仍然有巨大的應用價值。
專業人士也對生成式AI寄予了一定的期望。根據勵訊集團旗下兩家公司(律商聯訊、愛思唯爾)的調研報告,在法律信息服務領域,72%的專業人士預計生成式AI將對其日常工作產生積極影響;82%的受訪者希望生成式AI能夠幫助他們管理重復性的日常事務。[7]在科技醫學領域,72%的受訪者認為AI將對其工作領域產生變革性或重大影響,95%的受訪者認為AI將會加速知識發現的進程。[8]
國際專業出版機構迅速跟進,過去兩年內已經推出了一系列生成式AI產品。以筆者所在的勵訊集團為例,目前已陸續推出十幾款生成式AI產品,包括服務于科技醫學領域的Scopus AI,ClinicalKey AI和Sherpath AI,服務于法律信息服務領域的Lexis+AI、Nexis+AI,以及大宗商品市場咨詢領域的Ask ICIS和人力資源領域的Brightmine AI Assistant等。[9]國際專業出版機構何以能夠迅速跟進、占得先機?對于中國出版專業人士有何值得借鑒之處?筆者認為有三點經驗可供參考。
(一)高質量、可信賴的數據和內容是大廈之基
與一般大眾性、娛樂性AI產品不同,專業出版領域的生成式AI產品,準確性、嚴謹性是第一要求。以Scopus AI為例,其開發基于全球廣泛使用的摘要和引文數據庫Scopus,收錄包括自然科學、醫學、社會與人文科學及生命科學等不同學科領域的同行評審學術期刊超過2.8萬本、15萬次學術會議和超過1200萬篇會議論文、超過7.4萬卷系列叢書、35萬本學術專著以及全球五大專利局超過5000萬條專利記錄和信息。這些經過同行評審的、高質量可信賴的內容和數據,是降低“幻覺”(后文詳述)發生率的基礎。
(二)a95a7006f8a2ae73d15d12476247371aea186bac4364b634b01e4d5d8ea24e62較早實現數字化轉型是戰略關鍵
“無數據,不AI”。紙質的內容不是數據,無法被AI技術所利用。實現數字化轉型、積累海量數據是國際專業出版機構在AI浪潮中占得先機的首要原因。如勵訊集團從20世紀90年代初期開始探索數字化,早在1999年就推出了在線科技醫學信息平臺ScienceDirect。2000年該集團數字化收入只占總收入的22%,到2023年,集團的紙質收入已經下降到總收入的5%,基本實現了從紙質出版到數字化出版的轉變。
(三)正確的人工智能指導原則是指南針
人工智能與人類歷史上出現過的很多新技術一樣,是一柄“雙刃劍”,既能帶來效率和進步,創造巨大財富,但如果利用不當,也能造成嚴重危害。因此,合乎道德倫理和安全標準的技術指引至關重要。勵訊集團2022年6月發布《負責任的人工智能原則》(Responsible Artificial Intelligence Principles at RELX),要求企業內部在利用人工智能技術以及開發部署人工智能產品的過程中做到五點:①充分考量解決方案對人們的現實影響;②采取措施,防止產生或強化不公平的偏見;③能夠解釋解決方案如何運作;④通過人為監督來保證安全可信;⑤尊重隱私,倡導穩健的數據治理。隨著技術的發展和討論的深入,人工智能相關原則也會不斷地調整和演變,以確保適應最新的情況和需求。
三、生成式AI在專業出版領域的挑戰
生成式AI在給專業出版創造機遇的同時,也帶來某些嚴峻的挑戰。比如在科技醫學出版領域,有人擔心大量用AI工具寫成的低質量甚至假造的“垃圾論文”會如潮水般涌入科研界,助長“論文工廠”等頑疾;在同行評審方面,雖然絕大多數科研機構和出版商都禁止使用生成式AI工具代替科研人員本人進行同行評審,但《自然》(Nature)雜志2024年4月發表的一篇文章[10]發現,目前有17%的同行評審意見被生成式AI大幅修改過。這不僅會動搖同行評審這一科研出版評價的基石,而且有可能產生數據安全和保密性等方面的風險。除此之外,還有兩大挑戰需要引起我們的高度重視。
(一)生成式人工智能的“幻覺”問題
所謂人工智能“幻覺”(hallucination),表現為AI生成的回應中包含被當作事實呈現的虛假或誤導性信息,即“一本正經地胡說八道”。據《紐約時報》2023年5月27日報道,一位美國律師在準備辯護材料的時候使用了ChatGPT,AI工具給他編造了6個并不存在的司法案例。在科技醫學出版領域,也發現了某些大眾使用的生成式AI工具會編造并不存在的文獻進行引用的案例。另外一個更令人啼笑皆非的例子是,某國際搜索引擎在整合了生成式AI技術后,推出了號稱下一代搜索引擎的“AI Overview”功能,可是有媒體報道,這一功能竟然推薦用戶每天吃一小塊石頭以補充礦物質,制作披薩餅的時候放入膠水以防止奶酪滑落。[11]在大眾或泛娛樂的應用中,生成結果的輕度誤差或許無傷大雅,但在以嚴謹性著稱的科技、醫學、法律等領域,這是我們能夠接受和容忍的嗎?
生成式AI的“幻覺”是如何產生的?筆者認為主要有兩個原因。第一是數據質量。清華大學張鈸院士在“2023人工智能合作與治理國際論壇(香港)”上的演講中提到,人工智能“幻覺”的主要來源之一是訓練數據不完整、不準確。高質量、可信賴的訓練數據對大模型生成內容質量至關重要。西諺所謂“垃圾進,垃圾出(garbage in,garbage out)”,使用有缺陷、低質量的數據所訓練出來的模型,其輸出的內容也一定不會是高質量的。第二是機器學習算法的本質。“深度學習教父”之一楊立昆提到,目前大語言模型的機制本質上是概率統計,是“推測下一個詞”,如果前面一個詞推測錯了,就會影響到后面的輸出結果,一錯再錯。南京大學人工智能學院院長周志華教授在2023百度云智大會演講中指出,機器學習的本質是“概率近似正確”,“完全依靠大語言模型,無法做到對一件事情有絕對的把握”。他認為,人工智能領域長期存在的“圣杯”問題,就是如何能夠把機器學習和邏輯推理很好地融合起來。
從目前來看,解決“幻覺”問題的關鍵路徑之一,就是從使用高質量、可信賴的訓練數據入手。鑒于此,目前一些國家已經在法律法規層面提出了要求,例如歐盟的《人工智能法案》(AI Act)要求:“訓練、驗證和測試數據集應具有相關性和充分的代表性,并在盡最大可能地范圍內沒有錯誤,并且從預期目的來看是完整的。”[12]我國《生成式人工智能服務管理暫行辦法》規定:“采取有效措施提高訓練數據質量,增強訓練數據的真實性、準確性、客觀性、多樣性。”[13]
(二)生成式人工智能與版權保護
大語言模型之所以稱為“大”,原因之一是其訓練數據是海量的,動輒上萬億token,[14]生成式AI工具在訓練數據中究竟包含多少版權作品?該不該為此付費?這已經成為國際熱點話題。全球范圍內,很多作家、藝術家、出版商、其他權利人協會及政府主管部門正在采取行動,一系列訴訟案例正在高調進行。例如《權力的游戲》作者喬治·馬丁等17位作家起訴OpenAI,稱ChatGPT侵犯其版權;美國《紐約時報》將OpenAI和微軟告上法庭,指控這兩家公司未經授權使用該媒體數以百萬計的文章訓練AI大模型。2024年3月,法國市場監管機構針對谷歌公司開出了2.5億歐元的巨額罰單,原因是谷歌在未經法國出版商和新聞機構同意的情況下,擅自使用其內容訓練聊天機器人。
即使在AI公司內部也有不同聲音。頭部人工智能初創公司Stability AI 前任高管Ed Newton-Rex因無法認同公司使用版權內容訓練大模型而選擇離職,轉而創建了非營利組織“合理訓練(Fairly Trained)”,為能夠證明已獲得版權許可的AI模型提供認證標簽,從而推動版權友好型的人工智能訓練。
版權法已存在三百多年,是保護、激勵創新創造的重要機制。從歷史看未來,生成式AI要行穩致遠,未來需要堅持兩點:一是透明,即公開披露用于訓練大模型的數據,特別是有版權的內容和數據;二是授權,即人工智能公司應當在獲得權利人的授權許可之后才能使用其作品進行訓練。中國版權協會理事長閻曉宏在一篇采訪文章中曾經提到,國內外普遍對人工智能持積極推動的態度,但需要注意的是,支持使用、支持發展,但這種使用不能是無償的,我們需要考慮如何支付報酬,不能允許無償使用這些創作成果。[15]
國際和國內立法以及行業標準方面也已經展現出這一趨勢。國際層面,歐盟《人工智能法案》事實陳述第105條中規定“對受版權保護內容的任何使用都必須獲得相關權利人的授權,除非適用相關的版權例外和限制”。第107條中規定“為了提高通用人工智能模型的預訓練和訓練中使用的數據的透明度,包括受版權法保護的文本和數據,此類模型的提供者應就通用模型訓練中使用的內容制定并公開足夠詳細的摘要”。
在國內,由全國網絡安全標準化技術委員會發布的《生成式人工智能服務安全基本要求》(TC260-003)規定,“語料用于訓練前,應對語料中的主要知識產權侵權風險進行識別,發現存在知識產權侵權等問題的,服務提供者不應使用相關語料進行訓練;例如,語料中包含文學、藝術、科學作品的,應重點識別語料以及生成內容中的著作權侵權問題”;“宜具備以下知識產權措施:—— 公開語料中涉及知識產權部分的摘要信息。”[16]
必須指出的是,版權產業與AI技術公司并不是你死我活的競爭,而應該是“競合”的關系。近期網絡上出現多則AI公司與版權方達成合作的消息。如2024年4月,OpenAI與英國《金融時報》宣布達成戰略合作伙伴關系,ChatGPT可以從《金融時報》的文章中提取摘要來生成回答,并提供相關新聞引述和鏈接。5月,OpenAI與新聞集團簽署內容合作協議,獲準獲取新聞集團旗下包括《華爾街日報》等十余家媒體的內容并用于生成內容。
四、AI時代的出版策略
如果化用一句古詩,可以說“技術有代謝,往來成古今”。從1450年代古登堡發明印刷機算起,近現代出版業已經有五百多年的歷史。五百年來,每逢信息傳播領域出現新技術(如廣播、電視、互聯網),往往伴隨出現“出版衰亡”的論調。如互聯網技術出現以后,1995年的《福布斯》雜志就曾發表過一篇文章《互聯網的第一個犧牲品?》,預測互聯網將帶來專業出版的末日,并預言以勵訊集團(彼時稱勵德·愛思唯爾)為代表的專業出版商將走入窮途末路。20年過后,勵訊集團不但沒有破產消亡,反而在數字化和新技術應用方面越來越強大。在新一輪人工智能熱潮中,專業出版業應該采取何種策略?
(一)積極擁抱新技術,為用戶(讀者)提供更有價值的服務
縱觀出版發展歷史,出版業因技術而生,隨技術變遷,從來不曾畏懼過新技術。《大英百科全書》關于出版的詞條開篇就說:“回顧出版業的歷史,其突出特點就是與技術創新和社會變革緊密交織在一起,互相促進。今天我們所熟知的出版離不開三項主要技術發明:文字書寫、紙張和印刷,還有一項社會變革,即大眾讀寫能力的提升。”[17]可以說,技術創新和應用就刻在出版業的DNA里面,潛移默化地指導著這一古老行業的發展。新的信息傳播技術出現,是一件大好事,為專業出版界提供了更多服務好讀者的新工具、新方法、新渠道。
(二)正視生成式AI的局限,防止在AI熱潮中失去定力
目前人工智能有過度炒作的趨勢,導致人們忽視了其諸多局限。中科院院士、人工智能研究專家譚鐵牛曾經生動地將AI目前的局限性概括為四點:①有智能沒智慧:AI沒有意識和悟性,缺乏綜合規劃決策能力;②有智商沒情商:機器人對人的情感理解與交流還處于起步階段;③會計算不會“算計”:人工智能系統可謂有智無心,更無謀;④有專才無通才:會下圍棋的“AlphaGo”不會下象棋。[18]對于大語言模型,楊立昆認為,語言只承載著人類所有知識的一小部分,大部分人類知識以及所有動物知識都是非語言的(且非符號的),因此大語言模型永遠無法接近人類水平的智能[19]。螞蟻集團CTO何征宇也把大模型的原始、笨拙描述成“鉆木取火”,他說:“我們今天并沒有找到AI產生如此效果的本質,沒有人能用數學的方法描述它。這就好比鉆木取火,火有用處,但鉆木并非最好的方法。今天的AI仍然處在鉆木取火階段,因此成本高昂。”[20]基于相似的認識,楊立昆甚至預言大模型在5年之后就會消失。
(三)要重視生成式人工智能的可持續性問題
生成式人工智能的高成本和能源消耗問題日益凸顯。根據斯坦福大學AI Index的估算,OpenAI的GPT-4估計使用了價值7800萬美元的計算資源進行訓練,谷歌的Gemini Ultra的計算成本則高達1.91億美元。[21]南加州大學安納伯格新聞傳播學院教授Kate Crawford在其2024年發表于《自然》(Nature)雜志上的一篇論文中提到,ChatGPT目前總計消耗的電力相當于(美國)3.3萬個家庭的用電量,而其用于冷卻處理器消耗的水資源相當于當地6%的用水量。“幾年之內,大型人工智能系統消耗的能源可能會和整個國家一樣多。”[22]相比之下,人腦只有20瓦的能源消耗,卻能夠進行極其復雜的生物計算。中國科學院院士李國杰指出,目前的AI實現的是“大數據、小任務”,而人腦是“小數據、大任務”,研發實現低能耗的智能系統是未來方向。[23]一項新技術的能源消耗竟如此之大,令人始料未及。其可持續性如何?出版業應該為此投入多大規模資金和人力物力?這些是值得我們密切關注和思考的問題。
(四)專注于高質量內容的生產、傳播和保護
生成式AI技術的出現,再一次證明了高質量、可信賴的內容有巨大價值,是人類社會的寶貴財富。出版業最核心的能力和任務就是產出高質量的內容。據美國智庫Epoch研究,為訓練大模型,技術公司從互聯網上獲取的數據到2026年就會用完[24],AI研究專家和從業人員都認為,最有價值的數據就是出版社所出版的圖書、期刊等出版物,它們都是專業人員精心寫作和編輯的。AI公司正在考慮如何進一步利用這些高質量內容。據媒體報道,某大型技術公司內部流出的一段會議錄音爆料,該公司早在2023年3月就開始研究這一問題,3~4月間幾乎每天開會,對于新書,他們在考慮以每本10美元的價格獲得內容授權,甚至考慮干脆收購一家國際知名出版公司西蒙·舒斯特。[25]對于出版業來說,AI時代,仍然是內容為王。如何生產、傳播和保護好這些高質量的內容,是新時代出版人的責任。
AI時代專業出版商的策略,如果可以總結為一條公式的話,那就是:高質量、可信賴的內容+對用戶需求的深刻理解+技術與平臺+負責任的AI指導原則=專業出版的制勝關鍵。
五、結語
這一輪人工智能熱潮引發了很多科學和哲學思考,其中一個核心問題是:我們能否人工復制人類水平的智能?本文開頭引用過思想家愛德華·威爾遜的話,他對人工智能的未來做過如下判斷:因為人類智能本質上是一種物理現象(起源于大腦內部神經元及其復雜的物理連接),所以從理論上和原則上說,這是可能的,但實踐上卻難以做到。原因有二:第一個障礙是所謂“功能障礙”。腦科學研究發現,人類情感是智能的組成部分,情感和理性是不可分割的,“數學上有純定理,思想上無純理性”,必須能夠發明安裝“人工情感”,否則無論大腦科學如何發達,人工智能技術如何先進,都無法復制人類智能。第二個障礙是“演化障礙”。人類智能是生物長期演化、遺傳的結果,是所謂“上帝的磨坊”——在幾百萬年甚至幾十億年中緩慢地、仔細地“研磨”,才演化成如此復雜的系統。人腦有860億個神經元,每個神經元有五千到一萬只突觸,互相連接。如何在人工智能中填滿人一生的經驗?他認為即使人類潛能無限,也很難達到。[26]人工智能專家梅拉妮·米歇爾認為,人工智能要達到人類水平智能,恐怕需要100年以上,或者“100個諾貝爾獎之后”。
篇幅所限,本文無法詳細深入探討人工智能和人類的未來,在此僅用四個關鍵詞,代表筆者的看法。①敬畏——人類大腦是生物演化40億年的產物,是已知世界最復雜的系統,我們到現在也沒有完全掌握其產生智能的機理,人工智能能否達成人類大腦(包括身體)的全面智能,還是一個問題,要對大腦和人類智能充滿敬畏。②信心——在人類演化的700萬年歷史中,曾經使用、發明過許多工具,這些工具既能創造巨大價值,也能給人類帶來巨大災難,例如火、刀、核能等,但人類沒有被這些工具滅絕,要對人類充滿信心。③治理——人工智能是非常有用的工具,但也僅僅是人類使用的諸多工具之一。AI需要治理,就像交通、醫療需要管理,化學武器、核武器需要國際條約管理。通過治理,把人工智能牢牢掌握在人類手中。④理性——我們曾經歷過信息極度匱乏的時代,現在卻面臨信息過載。媒體如此喧囂、過度傳播,很多聲音,包括正面和負面的,都被放大。我們要理性對待AI熱。人工智能曾經經歷過兩次寒冬,都是由于寄予其不切實際的過高期望,喧囂過后,不要讓人工智能再次進入寒冬。
(作者單位系勵訊集團中國區)