【摘 要】大模型驅動知識服務范式變革,凸顯數據乘數效應,需深刻分析大模型知識服務平臺數據供需失衡的原因,破解大模型知識服務平臺數據困境。政府需做好頂層設計,完善規則體系;平臺需發揮協調作用,完善交易體系;企業需加強數據治理,提升數據資產管理應用能力。只有政府、平臺、企業多方主體協同配合,才能找到“法律、標準、技術”三位一體的系統調適路徑。
【關 鍵 詞】人工智能;大模型;知識服務;數據要素;數據治理
【作者單位】張安超,世界圖書出版有限公司;王飚,中國新聞出版研究院。
【中圖分類號】G230.7 【文獻標識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2024.12.003
知識服務概念萌芽于20世紀70年代中期的管理咨詢界[1],21世紀初由圖情領域學者引入國內。它是一種用戶目標驅動的定制化、全程式、面向增值、基于集成、手段現代化、服務效果效益化的高智能服務。知識服務強調以用戶為核心,注重動態過程和服務,注重解決問題,注重信息深加工,注重知識資源增值。它能夠根據用戶的現實需求,在眾多隱性和顯性信息資源中將用戶需要的信息精煉出來形成一個或多個方案提供給用戶,使用戶能將潛在價值轉化為現實效益[2]。
隨著數字出版的發展,知識服務模式受到出版界的青睞。在知識服務概念的內涵層面,圖情領域與出版領域有著顯著分歧,圖情領域更強調“知識組織”形式,如詞表、知識體系[3]等,出版領域更強調知識內容本身,如圖書、期刊、數據庫、在線教育等。有業界人士認為,出版本身就是一種知識服務的形式。早期的出版知識服務產品多為資源驅動型,內容資源稟賦決定了知識服務的形態和方式,如基于紙質出版物加工而成的數據庫、資源庫、知識庫等。隨著信息技術的發展,尤其是大數據、云計算、人工智能等技術的快速演進,出版知識服務不斷由資源驅動向技術驅動轉變。隨著通用大語言模型的出現以及AIGC產品的爆發,內容生產方式發生了變革,知識服務范式發生了轉向,出版知識服務正在向智能出版知識服務演進。
一、大模型知識服務平臺發展現狀
1.大語言模型概念及原理
近年來,以通用大語言模型為代表的技術變革掀起了新一輪的人工智能浪潮,并迅速滲透出版領域。大語言模型(以下簡稱“大模型”)是利用大規模語料庫訓練出來的自然語言處理模型,它是基于深度學習的自然語言處理模型,使用機器學習技術來理解和生成人類語言。其訓練過程主要分為預訓練和微調兩個階段。模型先在大規模文本數據集上進行無監督學習,掌握語言的基本結構和語義,然后在特定數據集上進行有監督學習,以適應任務需求。常見任務包括文本分類、問答、文本生成等。
大模型通過在海量無標注數據上進行大規模預訓練,讓模型學習大量知識并進行指令微調,從而獲得面向多任務的通用求解能力。ChatGPT背后的GPT是大模型的典型代表。2017 年,Google提出基于自注意力機制的神經網絡結構——Transformer架構,奠定了大模型預訓練算法架構的基礎。2018年,OpenAI和Google分別發布了GPT-1與BERT大模型,預訓練大模型成為自然語言處理領域的主流。2022年,OpenAI推出ChatGPT,其擁有強大的自然語言交互與生成能力。2023年,OpenAI發布多模態預訓練大模型GPT-4,其具備多模態理解與多類型內容生成能力。2024年,OpenAI發布視頻生成大模型Sora,提出時空碎片和擴散Transformer技術,大模型的多模態生成能力進一步成熟。
大語言模型及由此產生的AIGC產品,在語義理解、場景識別、內容生產方面具備了強大的性能,并具備快速迭代進化的能力。以ChatGPT為例,其在上線之初可提供文本生成、聊天機器人、語言問答、語言翻譯、自動文摘、繪畫、編程、視頻生成等功能,隨著大模型的不斷升級,ChatGPT可完成程序員、詩人、醫生、音樂家等160余種角色的任務。
除了文生文的ChatGPT,其他AIGC產品還包括文生圖的Midjourney、文生音樂的Suno以及文生視頻的Sora。根據國家互聯網信息辦公室發布的生成式人工智能服務已備案信息公告,截至2024年3月,已有117款生成式人工智能服務完成備案。根據Chatbot Arena網站的數據,截至2024年6月29日,參與該平臺測評的大語言模型有114款。
2.大模型知識服務的類型及特征
大模型知識服務,是指利用大語言模型為用戶提供智能化、個性化的知識內容或解決方案,服務形式有智能問答、智能審校、個性化內容推薦等,可有效提升信息獲取效率,滿足用戶在特定領域的深層次知識獲取需求。
根據大模型的作用方式、服務領域范圍,我們可將出版大模型知識服務平臺分為全場景、定制化、垂直式、嵌入式四種類型(如圖1)。全場景平臺的特點是基于自有通用大模型為用戶提供全場景服務,如ChatGPT、文心一言、通義千問、智譜AI等。定制化平臺的特點是基于通用大模型,為特定場景提供定制化服務,如Gakken ON AIR、智?!龢方逃骈咥I內容服務平臺[4]、AI·漢語學習平臺、外研在線AIGC平臺[5]等。垂直式平臺的特點是基于自有垂直領域大模型,為特定領域或場景服務,如Midjourney、中文逍遙、蜜度文修等。嵌入式平臺的特點是將垂直大模型嵌入現有知識服務產品,提高服務的智能化水平,如Scopus AI、Nature Research Intelligence、CNKI AI學術研究助手等。
大模型在原始知識基礎上,通過預訓練不斷拓展知識邊界,形成二次知識,并在使用中持續誕生新的內容,實現隱性知識的顯性化。相較于此前的知識服務模式,它有三個顯著特點。
(1)數據海量化。大模型訓練所需的數據有多種來源,如互聯網數據、書籍、語料庫等,通常需要處理數百億字節甚至上萬億字節的數據,以幫助模型捕捉語言中的復雜模式和細微差別。以OpenAI的GPT-3為例,該模型使用了大約570GB的文本數據進行訓練,這些數據量相當于4500億個單詞。海量的數據為大模型的通用性奠定了良好的基礎,使大模型可以適應多種角色或場景,如ChatGPT能以作者身份進行創作、以編輯身份進行策劃、以校對身份進行審核、以營銷人員的身份進行市場規劃等。此外,在大語言模型構建過程中,大量的事實性知識、常識知識可以直接提供給用戶。
(2)知識網絡化。大模型的深度學習架構主要基于神經網絡技術,在知識組織方面有著獨特優勢。以Transformer架構為例,它由多個層次的神經網絡組成,每一層都能夠捕捉和處理輸入數據中的不同特征和模式。通過層層堆疊的神經元和權重,神經網絡能夠自動從數據中提取特征,捕捉數據點之間的關聯性。這種能力使得神經網絡能夠在知識的網絡化組織中理解和表達各種復雜的語義關系和邏輯,從而構建起綜合和全面的知識體系。通過訓練和優化,神經網絡能夠識別和理解不同語言表達中的隱含含義和上下文的相關性,從而在知識網絡化組織中生成更加準確和連貫的內容。相較于傳統的線性知識組織模式,大模型可主動地將數據進行連接和上下文化,實現網絡化組織。
(3)交互智能化。傳統的知識服務產品通過結構化的數據庫或預定義的規則來提供答案,而基于大模型的知識網絡是動態和自適應的,能夠借助自然語言處理技術,根據用戶輸入的內容不斷調整,從而更精準地契合用戶需求。簡言之,大模型更懂用戶。傳統的數據庫和知識庫通常需要使用結構化查詢語言(如SQL)或特定的查詢格式,而大模型可以直接通過自然語言進行交互。用戶無需學習復雜的查詢語法,只需使用自然語言描述問題或需求,大模型便能依據上下文和語境,對用戶輸入的內容進行理解和解釋。用戶可通過對話的方式與模型互動,在互動中不斷細化需求,逐步求解。
二、 大模型知識服務平臺的數據困境
在計算機誕生的初期,數據主要用于基本的計算任務和簡單的存儲。由于計算能力和存儲容量的限制,數據的規模和復雜性相對較低,重要性還未完全顯現。關系數據庫管理系統出現后,企業開始意識到數據組織和高效檢索的重要性,數據的重要性逐漸得到認可。隨著互聯網的發展,尤其是電子商務、社交媒體和在線服務的興起,大量的用戶數據、交易數據和行為數據產生,數據開始被視為一種資產。人工智能技術的突破,將數據的重要性提升到新的高度。數據成為訓練AI模型的核心要素,數據的數量和質量直接決定了模型的性能和智能水平。
隨著互聯網經濟和數字經濟的持續發力,數據日漸成為創新驅動力的源泉和數字化轉型的核心生產要素,通過打造數據交易市場來實現數據價值的深度挖掘,健全數據要素生產、流通、應用、收益分配機制來推進數據資源的市場配置改革,已然成為社會各界尤其是政府部門的廣泛共識[6]。自黨的十九屆四中全會首次明確數據可作為生產要素參與分配以來,《中共中央國務院關于構建數據基礎制度更好發揮數據要素作用的意見》提出“加快構建數據基礎制度”。國家數據局等17個部門聯合印發《“數據要素×”三年行動計劃(2024—2026年)》,提出數據要素發展總體目標和十二項重點行動,旨在推動數據要素發揮乘數效應,賦能經濟社會發展。
1.數據具備三重價值屬性
數據是信息系統的基本要素,是數字時代的“石油”,具備資源和資產的雙重屬性。作為信息時代不可或缺的基礎資源,數據能驅動技術和業務創新。作為資產,其通過內在價值和經濟潛力,為企業和社會創造效益和競爭優勢。數據流動于大模型知識服務平臺的各個層面,發揮了乘數效應,輸入的數據通過處理和分析,生成有價值的數據,形成一個不斷循環和增殖的過程。數據可以在市場上進行買賣和交換,為數據所有者帶來直接的經濟收益,同時促進數據驅動創新的發展。
一是數據作為語料。數據是機器學習和大模型訓練的核心原材料,數據的規模、質量影響大模型的質量。豐富、準確和多樣化的數據能顯著提高模型的性能,并使大模型更好地應對多種場景。
二是數據作為產品。數據可以被定義、封裝、交易,具O7Ov4rZJDczvJdrw0G+VHA==備產品的相關特征。電子書、數據庫、知識庫等產品就是典型的數據型產品,其核心是知識數據的聚集和組織。
三是數據作為服務。數據可以通過API的方式按需調用,以幫助企業或者個人解決相關問題。API調用服務已經成為大模型的重要業務模式,GPT、GLM、文心等大模型均提供相關服務。
2.供需失衡制約數據要素價值發揮
在政策的大力推動下,數據交易的制度、平臺和標準建設均取得了明顯成績,但市場主體積極性仍偏低,數據交易活躍度不足,存在“不能交易、不敢交易、不愿交易”的困境。這種“數據安全”與“數據流通”難以兩全的悖論,極大降低了數據要素配置效率[7]。據大數據流通與交易技術國家工程實驗室的相關觀察,每年全社會數據量增長率約40%,但真正被利用的數據量增長率只有5.4%[8]。根據調研,2022年我國大部分企業尚未參與數據交易流通,在參與交易流通的企業中,約87.67%的企業購買數據,33.32%的企業出售數據,數據供不應求[9]。多邊市場環境下數據要素交易情況復雜,囿于數據要素確權、定價和交易機制等配套制度的不完善,數據要素交易平臺的交易量極低,數據要素市場化配置進展緩慢。
目前,大模型知識服務發展迅速,但仍處于成長期,相關的生態鏈條尚不完善,分散的知識生產主體與集中的大模型知識平臺之間話語權失衡,存在數據流通困難、數據交易意愿低、數據交易成本高等問題。
(1)主體分散,存在流動困境。在我國,知識生產主體小、散、多。以出版領域為例,我國出版產業具有條線分割的特點。根據主管部門的類型,出版單位分為中央、地方、高校三大類;根據產品類型,分為圖書出版單位、期刊出版單位、報紙出版單位、音像及電子出版單位、網絡出版服務單位等。雖有數十家出版集團,但總體上處于分割狀態,集中度較低。
(2)保護不足,存在安全困境。數據具有非實體性、可復制性、易加工性、易流通性等特征,數據確權困難,又容易被盜用、濫用甚至轉售。數據所有人對數據交易的安全性持懷疑態度,導致交易意愿不足。數據安全包括物理和法律兩個層面。物理意義上的數據安全,是指數據應得到充足的安全保護,以免遭受泄露、滅失、篡改和未經授權使用等,包括各種物理保護措施、組織保護措施以及計算機系統保護措施。法律意義上的數據安全,包括靜態安全和動態安全。靜態安全強調權利歸屬利益的確定,動態安全的核心問題是數據權屬的合法、明確[10]。在靜態安全方面,較為突出的問題是數據的確權問題。在動態安全方面,較為復雜的問題是數據的非法獲取、非法加工、非法交易問題。目前在法規和標準層面,雖然有相關規定和規范,但實操層面仍然存在較多盲區。在技術層面,雖然區塊鏈等技術可以解決部分數據的保護問題,但在實際中受效率和成本制約,難以普及。
(3)價格不明確,存在交易困境。小、散、多的出版單位在面臨大型平臺時,缺乏定價話語權。近兩年來,大模型企業頻繁拜訪出版單位,希望獲得出版單位的高質量語料數據,但合作成功的案例寥寥無幾,除安全問題外,定價也是一個重要原因。當前電子書發展進入瓶頸期,創作者缺乏吸引力是一個重要因素。以知網為代表的期刊數據庫平臺,也面臨著作權糾紛等問題。隨著產業形態的不斷創新,生態鏈條延伸拓展,作者、出版單位、數字出版三方共同構成了數字出版與融合傳播鏈條,但圍繞新型與傳統鏈條的收益分配機制尚無明確規則。此外,法律也存在滯后性,如現行的《使用文字作品支付報酬辦法》規定了以紙質出版方式使用文字作品支付報酬的方式,但對在數字或者網絡環境下使用文字作品的付酬標準,未作出明確規定。
三、 數據困境破解的路徑
要發揮數據要素作用,搭建數據基礎制度,需要培育活躍的數據要素市場。數據要素市場組織模式經歷了從單邊、雙邊到多邊的演進歷程,并形成了不同的發展特征[11]。在數據要素市場中,存在供給方、需求方、服務方、監管方等多種主體,各種主體相互作用、匹配協調,形成了數據要素價值實現的復雜社會技術系統。筆者認為,要解決大模型知識服務平臺的數據困境,需要發揮多方協同一體的治理效能,構建起技術、標準、法律一體的治理體系,通過系統調適構建起良性的生態系統,激發各方的積極性,形成良好的發展模式。
1.政府做好頂層設計,完善規則體系
政府發揮了關鍵的作用,尤其是做好制度和規則頂層設計并維護市場秩序,構建多元化和靈活的數據交易市場體系,促進數據要素在境內外的流動和配置,能夠更好地滿足不同主體的數據交易需求[12]。政府需做好如下工作:進一步完善相關法規,及時修訂或廢止不符合實踐需求的法律法規,制定數據確權、數據安全、隱私保護等方面的規則,為數據交易提供基礎規則和依據;不斷健全數據資產入表的相關規則,引導解決數據資源確權、記錄、計量、列報和披露等各環節的難點問題[13],通過政策引導、鼓勵企業和組織參與數據交易市場,推動數據資源的充分流通和利用;利用互聯網、大數據、云計算、人工智能等技術手段,提高智慧監管水平,有力維護數字市場的公平競爭秩序[14]。
2.平臺發揮調配作用,完善交易體系
數據交易平臺在整個數據交易市場中具有調配作用,發揮了資質把關、數據確權、需求匹配、安全保障等作用。數據交易平臺要加強技術創新,重點關注數據資產確權、數據資產量化評估、數據資產交易流通等方面的需求,解決數據確權、數據交易安全、需求高效匹配等突出問題。如設計基于區塊鏈的可追溯性數字水印,利用數字水印儲存相關確權信息等,在復雜的數據修改、加工和流通中明確數據信息授權,厘清產權主體各方以何種比例分享數字紅利并承擔數據隱私保護責任[11]。同時,完善數據交易技術體系,提升匹配算法和數據要素產品推薦模型的效率和性能。
3.企業加強數據治理,提升數據資產管理應用能力
數據供應方要積極探索更為清晰的數據資產化服務模式,完善數據治理體系,全面提升數據資產管理能力,喚醒“沉睡”的數據資產,充分實現其資產價值。具體而言,數據供應方可參照國家標準《信息技術 大數據 數據治理實施指南》(征求意見稿)完善數據治理體系,健全數據安全管理體系,搭建數據治理平臺,全面盤點數據資產,推動數據治理活動實施落地。數據需求方可快速融入數據要素市場新賽道,面向數據資產化需求,深耕行業數據資產化技術產品和解決方案,挖掘企業數據資產價值,保障數據產品可信流通,助力數據要素市場全產業發展。
四、結語
大語言模型驅動出版知識服務轉型升級,大模型知識服務平臺成為一種新的知識服務形態。在這種新的業態模式下,數據要素的價值凸顯,數據交易的需求更加迫切。但由于主體分散、確權困難、保護不足、定價不清、分配不當等問題,數據交易的實際效果不及預期。政府、平臺、企業等多方主體需要協同配合,完善數據交易體系,構建起“法律、標準、技術”三位一體的治理體系,推動數據交易市場的健康發展和數據資源的有效利用。
|參考文獻|
[1]張立,吳素平,周丹. 國內外知識服務相關概念追蹤與辨析[J]. 科技與出版,2020(2):5-12.
[2]張安超. 專業知識庫建設的探索與實踐:以化工知識庫為例[J]. 科技與出版,2016(12):89-92.
[3]張安超,韓娜. 化工領域本體的構建與應用[J]. 出版科學,2017(5):88-91.
[4]秦艷華,李一凡. 出版業應用人工智能大語言模型:現狀、挑戰與未來趨勢[J]. 中國出版,2024(5):11-18.
[5]許潔,袁小群,朱瑞,等. 基于大模型的輕量級智能出版知識服務:理論基礎與實現路徑[J]. 中國數字出版,2024(1):25-35.
[6]梅夏英. 數據交易的法律范疇界定與實現路徑[J]. 比較法研究,2022(6):13-27.
[7]徐玖玖. 從“數據”到“可交易數據”:數據交易法律治理范式的轉向及其實現[J]. 電子政務,2022(12):80-89.
[8]舒靜,龔雯,張超. 大數據交易漸熱,挖掘數據“石油”我們準備好了嗎[N]. 新華每日電訊,2022-02-18.
[9]邱海峰. 讓更多數據“活”起來[N]. 人民日報海外版,2024-01-04.
[10]徐玖玖. 數據交易法律規制基本原則的構建:反思與進路[J]. 圖書館論壇,2021(2):77-88.
[11]吳江,袁一鳴,賀超城,等. 數據要素交易多邊平臺研究:現狀、進路與框架[J]. 信息資源管理學報,2024(3):4-20.
[12]楊光. 構建全國統一的數據交易市場[N]. 中國信息化周報,2024-03-11.
[13]徐攀,李杰義. 企業數據資產入表路徑:框架與實踐[J]. 財會月刊,2024(7):58-62.
[14]孫晉. 數字平臺的反壟斷監管[J]. 中國社會科學,2021(5):101-127.