999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大模型時代數字出版發展路徑研究

2023-11-04 11:25:11崔海教魏婧
出版廣角 2023年17期
關鍵詞:內容用戶能力

崔海教?魏婧

【摘要】一系列大模型落地應用為各領域帶來了全新的技術變革,數字出版也應加快與新技術融合發展的步伐。從技術賦能角度來看,大模型可以幫助數字出版簡化審校流程,助力內容分發,提高服務能力,但與此同時,在應用過程中也要注意防范信息準確性、內容導向性、數據安全性等方面的風險。面對機遇與挑戰,出版企業應建立健全數字出版大模型標準體系,積極推動數字出版與大模型融合發展,理性應對技術賦能帶來的衍生問題,趨利避害,尋求大模型與數字出版的融合發展之路。

【關? 鍵? 詞】數字出版;大模型;技術賦能;風險防范

【作者單位】崔海教,中國新聞出版研究院;魏婧,北京語言大學出版社。

【中圖分類號】G239.2;TP18【文獻標識碼】A【DOI】10.16491/j.cnki.cn45-1216/g2.2023.17.005

人工智能在各個領域的應用促進了社會的發展與變革,在經歷了從機器學習模型到深度學習模型,再到預訓練模型和大規模預訓練模型四個階段后,人工智能的研究迎來了大模型時代,以ChatGPT為代表的大模型吸引了國內外的廣泛關注。2023年3月,OpenAI將ChatGPT迭代至GPT-4,相較于前代,其語言能力得到了極大提高,各個領域也由此迎來了前所未有的發展機遇。基于此,本文在梳理大模型發展歷程與應用前景的基礎上,將大模型與數字出版產業屬性相結合,分析大模型為數字出版發展帶來的積極影響及其技術風險,探究大模型時代數字出版的發展路徑。

一、大模型的發展歷程與應用前景

大模型自問世以來飛速發展,國內外眾多企業競相研發,一系列大模型相繼問世。目前,大模型在自然語言處理、語音識別、計算機視覺等方面均具有強大的處理能力,能夠實現信息檢索、圖文生成、問答對話等功能,擁有廣闊的應用前景。

1.大模型的發展歷程

2017年,谷歌提出的Transformer架構具備出色的模型容量和并行能力,為大模型的開發提供了標準骨干模型[1]。2019年,OpenAI推出的通用語言模型GPT-2具備初步的文本理解和翻譯能力;2020年,OpenAI將其升級為GPT-3,能夠實現作詩、聊天等功能,參數量已經從GPT-2的15億躍升至1750億。此后,大模型的參數量呈指數級增長。2021年1月,谷歌推出的Switch Transformer模型以高達1.6萬億的參數量成為史上首個萬億級語言模型[2]。2022年,OpenAI基于GPT-3.5的支持推出了ChatGPT這一典型的生成式人工智能,ChatGPT采用“基于強化學習的人類反饋學習技術”,能夠進行零樣本學習和多語言處理,具有較強的邏輯推理能力和一定的遷移學習能力[3]。隨后,Meta緊跟著推出了LLaMA,由于源碼泄露備受產業關注。

2023年3月,具備更高水平的圖像識別和內容生成能力的GPT-4發布。Meta則在2023年7月發布LLaMA的商業版本LLaMA 2,其作為首個開源大模型,推動大模型應用進入“免費時代”。同時,國內對大模型的研究也正如火如荼。截至2023年5月底,國內已公布了至少79個10億級參數規模的大模型。其中,百度開發的文心一言、科大訊飛的星火、阿里云的通義千問、華為元的盤古均為通用型大模型。此外,國內還有網易有道開發的子曰、北京大學開發的ChatLaw等垂直大模型,為相關行業提供了更為高效、專業的服務[4]。

2.大模型的技術能力

與較小的預訓練模型相比,大模型的特點之一是其所具備的涌現能力,是在參數量級超過一定閾值才被觀測到的。其涌現能力主要來源于三大關鍵技術:一是情景學習,即模型可以參考已經學習到的情景例子來完成特定任務;二是思維鏈,即讓模型學習人類推導答案的過程來解決復雜問題;三是自然指令學習,即模型接受少量的任務指令化后進行適度微調,可以泛化到成百上千種任務[5]。

基于這三大關鍵技術,大模型不僅擁有了上下文學習和邏輯推理等能力,幫助解決復雜任務,還可以生成貼合實際需求的圖文內容,解讀文字描述并判斷其正確與否,解讀用戶深層意圖并進行會話式信息搜索等。由此可以看出,大模型擁有廣闊的應用前景,不僅可以生成文本、圖片、音頻等多媒體內容供用戶使用,還可以依托強大的推理能力和學習能力厘清用戶復雜的意圖,為用戶提供教育、醫療、心理咨詢、法律、投資等各種專業領域的幫助和服務。

二、技術賦能:創新數字出版業態

數字出版從內容上看,包括文字、圖片等傳統出版內容,還包括音頻、視頻、H5等多媒體內容;從形式上看,包括傳統出版物的數字化,以及在線平臺、知識服務等新形態。因此,數字出版在內容審校、平臺運維、用戶服務上會面臨更多的問題。而大模型自然語言處理能力、計算機視覺能力能夠更加精準、高效地為數字出版的審校流程、內容分發和知識服務等提供支持。

1.簡化審校流程

在數字出版的編校過程中,不僅需要對內容的政治傾向、觀點、文字進行審查,保證內容沒有知識性、科學性等各方面的錯誤,還要對音頻、視頻等各種多媒體內容進行審查,如音頻的清晰度、讀音的準確性、視頻畫面的完整性、字幕文字的正確性等。較之傳統出版流程,數字出版的編輯人員、校對人員的工作內容更加繁復。而大模型的技術能力可以為該流程提供智能化輔助,簡化審校流程。

其一,大模型的知識圖譜構建過程中,知識獲取采用無監督語言模型學習的方式,取代了以信息抽取為主的方式。信息抽取的方式是依據預設的知識結構從數據中抽取目標知識來構建知識圖譜,但這種方式存在效率低下、需要人力校驗、只能抽取已定義的知識類型等缺點[6]。而大模型的知識圖譜構建則弱化了上述缺點,可以更加高效準確地構建知識圖譜,為數字出版的智能審校提供可靠的知識庫依據。

其二,大模型的語義分析能力可以理解出版過程中需要校對的文本,并從知識圖譜中搜索相應的內容與之對照,進行錯誤提示。其結構化預測能力還可以幫助標注詞性和進行分詞,提高語義分析結果的穩定性。

其三,視覺大模型的圖像處理能力、語言大模型的語音識別能力可以為音視頻資源的審校提供輔助。多種技術能力相輔相成,可以讓大模型幫助數字出版內容審校實現高度智能化,從一定程度上解放編輯人員、校對人員,簡化審校流程。如蜜度開發的“校對通”目前可以實現對文本、圖片和視頻三種內容形式的校對,識別12類文字標點差錯和地理名詞、機構名稱、時政重點詞等9類知識性差錯,以及對涉及違法違規等敏感內容的6類內容導向風險進行自動校對。

隨著大模型落地應用,未來的編校系統將具備更強的知識庫更新能力,支持更多類型差錯的識別,為用戶提供更好的使用體驗。

2.助力內容分發

數字出版產品依托網絡進行傳播,而網絡發展至今,在擁有龐大用戶量的同時也有著不可計數的數據量。隨著大模型落地應用日漸增多,未來大模型可以更好地助力內容分發,其對數字出版內容分發的助力主要體現在營銷材料內容生成和個性化推送兩方面。

一是營銷材料內容生成。文本生成是人工智能時期就已廣泛應用的一項技術能力,主要用于新聞撰寫、智能聊天等。而作為大規模預訓練生成式語言模型,如ChatGPT在文本生成上則有更強大的能力,其獲取數字出版產品信息和文本需求后,可以生成創意文案供產品營銷使用。相似的,視覺大模型也有圖像生成能力,可以為產品營銷生成圖片、視頻材料,多形式地向用戶展示數字出版產品。以文心一言為例,其目前已經可以實現寫作協助以及根據文字描述生成視頻。

二是個性化推送。大模型經過預訓練具備邏輯推理能力和情感計算能力,可以理解用戶深層意圖。如ChatGPT的一大亮點就是“與人類意圖對齊”,這一能力讓其能夠更好地從用戶使用痕跡中推理出用戶喜好,精準描繪用戶畫像,從而實現真正的個性化推送。

3.提高服務能力

由于出版行業在內容資源方面占據先天優勢,加之知識付費興起、用戶對優質內容的需求增加,眾多出版企業在數字出版轉型的道路上開始整合自身資源開展知識服務。大模型時代的到來能為出版企業的知識服務添磚加瓦。

ChatGPT受到廣泛關注的原因之一就是其展現的強大的對話問答能力。在知識服務領域,大模型應用不局限于以往搜索引擎式的關鍵詞檢索,而是基于上下文學習和邏輯推理能力,根據用戶的語音或文字問題描述,理解用戶的深層意圖和需求,并提供精準、專業的答案和相關性強的拓展知識。目前,國內較多大模型圍繞垂直領域開發提供專業知識服務。如:京東的京醫千尋是醫學類垂直大模型,其整合了大量醫學知識、文獻和臨床實踐指南,既能為患者提供醫療建議,也能輔助醫生進行診斷決策;北大團隊開發的ChatLaw,主要用于提供法律服務。

為不同階段的少年兒童提供分級閱讀服務是眾多少兒出版社、教育出版社的著力點之一。大模型通過學習分級閱讀標準和分級閱讀文本,可以自動測評文本并向用戶推送,也可以按照用戶閱讀水平和需求生成相應的閱讀文本,實現個性化服務,提高分級閱讀服務水平。

三、風險防范:警惕技術衍生問題

數字出版是信息技術與傳統出版融合并不斷發展的結果,應當在發展中持續通過新技術為自己賦能,同時注意防范技術風險。正如人工智能專家所言,下一代大模型應該更加具有事實性、無害性、即時性。這警示我們需要審視大模型目前存在的信息準確性和內容無害性等問題。

1.信息準確性風險降低內容價值

大模型信息不準確較為常見的一個表現是提供的答案與用戶提問的內容不相關。雖然大模型的語言理解和生成能力均得到很好的體現,但二者各自為營,雖能夠理解用戶的提問意圖,也可以生成答案,但生成的內容與問題之間沒有邏輯關系。大模型信息不準確較為常見的另一個表現是提供的答案存在知識性、科學性、事實性等方面的錯誤。一是由于世界處于發展變化中,信息處于時時更新狀態,而大模型的訓練數據難以實時更新,其內容只能依據原本數據生成;二是數據質量問題導致錯誤的產生。

在傳統出版過程中,產品的內容質量需要嚴格把關。雖然數字出版內容形式多樣,擺脫了文字、圖片等傳統形態的限制,但對內容準確性同樣有嚴格要求,在為用戶提供知識服務時也需要注意避免各類錯誤。而對于大模型流暢的輸出回復,用戶往往難以通過自身知識儲備甄別信息準確性,如果生成內容中有不準確甚至錯誤的信息,就會對用戶產生干擾和誤導,降低數字出版產品的價值,長此以往將帶來不利影響。

2.內容有害性風險引發導向問題

一方面,由于大模型在預訓練過程中接收了海量數據,并具備上下文學習、邏輯推理等涌現能力,能夠模仿人類語言進行表達。這一能力使用得當可以生成用戶所需的優質內容,幫助用戶解決問題、學習新知識。但隨著大模型的訓練不斷深化,人類目前還難以解釋內容生成的決策過程,如果決策過程中出現謬誤,就可能導致產生暴力言論、歧視言論、仇恨言論等有害內容。

另一方面,從用戶的角度來看,大模型表現得越接近人類,對人類的理解程度越高、實用性越強,就越能獲得用戶的信任。但當它高度受到用戶信賴,介入人類社會生活時,用戶的觀念容易受到其潛移默化的影響,因此,保障大模型的內容無害至關重要。

數字出版產品是公開向社會發行的,意在傳播知識、傳承文化、推動社會發展,其傳播內容會對社會大眾的價值觀念產生一定的影響,因此在大模型生成的內容中,需要防止含有不正確導向的有害內容,如涉及恐怖主義、暴力傾向、違法違規等,避免有害內容在傳播過程中對社會產生不利影響。

3.數據安全性風險造成隱私泄露

無論是開發和使用大模型提供服務的運營商,還是借助大模型獲取服務的用戶,都需要將相關數據上傳到云端模型,由此帶來了數據泄露的風險,這是一個不容小覷的安全隱患。盡管已有相關研究在嘗試解決此問題,但對于參數量級達到萬億的大模型來說仍是難題。

此外,數據來源也暗藏安全風險。大模型需要大量的數據作為預訓練的基礎,因此會從網絡爬取數據,這些數據中可能包含網絡用戶的個人信息,如果不剔除這些信息,則會被大模型記住并在生成內容時使用,導致個人隱私泄露。如果訓練數據中含有受到知識產權保護的內容,則會侵犯所有者的合法權益[7]。數字出版領域,版權保護一直以來都是不可忽視的議題。數據泄露將導致用戶與自身的隱私信息和相關權益受到侵害,侵犯他人知識產權也將帶來版權糾紛和法律風險。

四、大模型時代數字出版發展路徑

進入大模型時代,各領域都在推動大模型的應用落地,數字出版領域也要在相關技術不斷完善、升級迭代的當下,以新技術推動自身發展,并理性審視其帶來的風險問題,趨利避害,積極探索大模型與數字出版的融合發展之路。

1.建立健全數字出版大模型標準體系

《國家標準化發展綱要》指出,“標準是經濟活動和社會發展的技術支撐,是國家基礎性制度的重要方面。標準化在推進國家治理體系和治理能力現代化中發揮著基礎性、引領性作用。”[8]大模型作為人工智能領域的一大技術突破,應當在標準化的基礎上應用,并以此為抓手建立健全數字出版大模型標準體系,推進與數字出版產業的融合發展。

2023年4月,中國信通院召開大模型標準體系2.0研討會,會議指出標準體系2.0將全面關注大模型的模型化、能力化、工程化、產業化等維度,從模型開發、模型能力、模型運營、模型應用、安全可信五個方向持續構建和完善大模型標準體系[9]。2023年7月10日,國家互聯網信息辦公室發布《生成式人工智能服務管理暫行辦法》,從技術發展與治理、服務規范、監督檢查和法律責任等方面對生成式人工智能進行管理[10]。這些標準體系的討論與制定為大模型在數字出版領域的標準建立提供了指引:一是技術能力標準,要保證大模型算法科學、算力充足、訓練數據質量高且來源合法;二是服務能力標準,大模型生成的內容要符合出版物政治性、科學性、思想性、知識性、獨創性、藝術性等方面的要求,形式上要保證多媒體內容清晰、音視頻播放狀態良好、鏈接跳轉正常、識別與評測效果達標等;三是監督管理標準,要求生成式人工智能服務提供者對訓練數據和生成內容負責,并依照相關法律法規進行運營活動,配合主管部門的監督檢查等。

2.積極推動數字出版與大模型融合發展

《出版業“十四五”時期發展規劃》提出要壯大數字出版產業,健全完善數字出版科技創新體系,突出科技創新在推動出版業數字化轉型升級、實現深度融合發展中的重要作用。數字出版在信息技術不斷發展的過程中隨之成長,如今,新一代技術的應用在各領域興起,數字出版也應當在健全標準體系的基礎上積極推動大模型的落地應用。

一方面,行業要給予支持。行業協會不僅要組織編輯人員進行交流學習,了解新技術的相關情況,還要在已經推動實現大模型技術融合的相關企業和出版單位中,遴選具有典型示范性的優秀案例進行推廣宣傳。另一方面,出版企業應付諸行動。目前,由于大多數出版企業無法獨立支撐大模型的技術開發,因此,可以借助大模型企業提供的平臺,整合與自身專業能力和業務范圍相契合的內容資源和數據,在大模型訓練中加入,以生成定制化、專業化的大模型供自己運營使用。

3.理性應對技術賦能帶來的衍生問題

大模型生成內容雖然給數字出版帶來全新的發展機遇,但也可能帶來內容價值降低、內容導向不正確、隱私數據泄露等衍生問題,出版企業要積極面對并尋求解決之道。

首先,進行數據篩選。大模型生成導向性、知識性等不正確的內容的原因之一是訓練數據質量參差不齊,因此,為了提高生成內容的準確性和可靠性,需要保證選取高質量的預訓練數據并及時更新。這不僅可以幫助大模型提高內容生成質量,還可以防止隱私數據被誤用。

其次,加強內容監測。出版企業既要從數據源頭防范相關風險,也應加強對大模型生成內容的監測與檢查,以及時發現并糾正大模型運行中產生的算法歧視、算法偏見等安全隱患。

最后,注重倫理建設。數據使用者在數據收集、處理、分析、共享的過程中要注意避免違反道德原則和核心價值觀的行為,重視數據治理和合規性控制,防止數據濫用;學界和科研機構要積極探索數據倫理問題的解決方案,建立健全數據倫理評估體系和治理體系,通過產學研協同加強數據倫理建設,讓大模型在可信賴的生態下為數字出版產業助力。

隨著造紙術、印刷術的發明,出版業不斷發展革新,新一代信息技術的出現,更是推動了數字出版產業的發展。在技術變革中產生和成長的數字出版產業,理應緊跟新技術的步伐,正確看待大模型帶來的機遇與挑戰,推進數字出版與大模型的融合發展,讓新技術發揮引領支撐作用,為傳播知識服務、構建智能化數字出版服務。

|參考文獻|

[1]羅錦釗,孫玉龍,錢增志,等. 人工智能大模型綜述及展望[J/OL]. [2023-09-04]. 無線電工程,http://kns.cnki.net/kcms/detail/13.1097.TN.20230829.11

11.002.html.

[2]云晴. 國外大模型發展分析[J]. 通信世界,2023(17):36-38.

[3]尚智叢,閆禹宏. ChatGPT教育應用及其帶來的變革與倫理挑戰[J]. 東北師大學報(哲學社會科學版),2023(5):44-54.

[4]克林. 2023中國大模型TOP70[J]. 互聯網周刊,2023(17):12-13.

[5]邱錫鵬. 解剖大型語言模型:原理、應用及影響[J]. 探索與爭鳴,2023(5):10-12.

[6]車萬翔,竇志成,馮巖松,等. 大模型時代的自然語言處理:挑戰、機遇與發展[J]. 中國科學:信息科學,2023(9):1645-1687.

[7]矣曉沅,謝幸. 大模型道德價值觀對齊問題剖析[J]. 計算機研究與發展,2023(9):1926-1945.

[8]中共中央 國務院印發《國家標準化發展綱要》[EB/OL]. (2021-10-10)[2023-09-04]. https://www.gov.cn/gongbao/content/2021/content_5647347.htm?eqid=f01b6dba0002a21000000006645af59d.

[9]可信AI標準|中國信通院順利召開大模型標準體系2. 0研討會 [EB/OL] . (2023-05-08)[2023-09-04]. https://szaicx. com/page192?article_id=13527.

[10]生成式人工智能服務管理暫行辦法[EB/OL]. (2023-07-10])[2023-09-04]. https://www.gov.

cn/zhengce/zhengceku/202307/content_6891752.htm.

猜你喜歡
內容用戶能力
消防安全四個能力
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
大興學習之風 提升履職能力
人大建設(2018年6期)2018-08-16 07:23:10
你的換位思考能力如何
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
抄能力
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 在线网站18禁| 国产乱码精品一区二区三区中文 | 男女男免费视频网站国产| 在线观看视频99| 久久婷婷人人澡人人爱91| аⅴ资源中文在线天堂| 四虎精品免费久久| 波多野结衣一区二区三视频| 日韩免费视频播播| 欧美在线精品一区二区三区| 国产拍揄自揄精品视频网站| 91精品综合| 国产精品久线在线观看| 久久永久精品免费视频| 国产黑丝一区| 天天视频在线91频| 亚洲人成在线免费观看| 亚洲手机在线| 日本精品视频| 成人福利在线观看| 99热这里只有精品国产99| 欧美成人日韩| 欧美 国产 人人视频| 欧美色综合久久| 亚洲色欲色欲www在线观看| 国产91无毒不卡在线观看| 欧美日韩一区二区三区在线视频| 色网站在线免费观看| 亚洲综合色婷婷中文字幕| 色成人亚洲| 99久久精品国产精品亚洲 | 国产在线观看精品| 色有码无码视频| 日本高清免费不卡视频| 视频一本大道香蕉久在线播放| 色135综合网| 色综合五月婷婷| 亚瑟天堂久久一区二区影院| 久久久久亚洲精品成人网| 国产在线小视频| 91欧洲国产日韩在线人成| 精品视频91| 日韩av无码DVD| 香蕉蕉亚亚洲aav综合| 亚洲欧美色中文字幕| 久久性妇女精品免费| 亚洲系列中文字幕一区二区| 亚洲丝袜第一页| 亚洲欧美日韩中文字幕一区二区三区 | 99无码中文字幕视频| 视频国产精品丝袜第一页| 久久成人免费| 国产亚洲成AⅤ人片在线观看| 欧美成a人片在线观看| 在线观看视频一区二区| 在线无码av一区二区三区| 亚洲人成人无码www| 人人爽人人爽人人片| 就去吻亚洲精品国产欧美| 五月天在线网站| 欧美在线网| 欧美色图第一页| 久久久精品无码一二三区| 日韩精品专区免费无码aⅴ| 欧美亚洲日韩中文| 好紧太爽了视频免费无码| 久久中文电影| 丁香五月亚洲综合在线| 91亚洲精品第一| 成人欧美在线观看| 久久网欧美| 亚洲永久视频| 精品国产美女福到在线直播| 熟妇人妻无乱码中文字幕真矢织江| 欧美特级AAAAAA视频免费观看| 香蕉视频在线观看www| 久久成人免费| 亚洲欧美人成人让影院| 国产真实自在自线免费精品| 久久99国产综合精品女同| 制服丝袜一区二区三区在线| 成人a免费α片在线视频网站|