賀 芳
(中南財經政法大學 圖書館,湖北 武漢430073)
數字經濟時代,傳統內容生成技術已難以滿足用戶日益增長的數字內容需要。隨著人工智能技術發展,AIGC(Artificial Intelligence-Generated Content)應運而生。AIGC即“人工智能生成內容”,是繼專業生成內容PGC和用戶生成內容UGC之后的一種新型內容生產方式,是通過人工智能技術來生成符合用戶需求的文本、圖像,甚至音視頻等內容,內容生成主體由人變成了AI。中國信息通信研究院公布的《人工智能生成內容(AIGC)白皮書(2022)》將AIGC發展分成早期萌芽階段、沉淀積累階段和快速發展3個階段[1]。隨著深度學習算法、算力突破瓶頸和語料庫不斷完善,人工智能技術得以大幅進步,AIGC應用也變得更加豐富,包括圖像生成、文本生成、音視頻生成、跨模態生成等[2]。Stability AI公司發布Stable Diffusion模型,可以根據文字自動生成圖像。2022年11月以來,由OpenAI發布的聊天機器人ChatGPT引發廣泛關注[3],能與人類“對答如流”,眾多業界專家學者對此表達看法,一些學者觀點較為積極,認為ChatGPT將重塑社交媒體、語言翻譯、文字創作[4]、智能編程[5]等行業。也有專家對ChatGPT等AIGC的突出表現及引發的各種倫理風險[6]、法律問題[7]、能源環保問題[8]產生擔憂;美國語言學家諾姆·喬姆斯基認為,ChatGPT是一個高科技剽竊系統,部分高校及研究機構則明令禁止學生使用ChatGPT寫作業或者撰寫論文。ChatGPT是AIGC技術應用中的文本生成模態應用模型,是AIGC最新應用成果,也標志著AIGC的發展將進入新階段。
自ChatGPT出世以來,從目前市場各種測試數據來看,它具有強大的語言理解和自然語言生成能力;具有一定的自學習能力;設置一定的過濾處理機制,可以針對不恰當的請求進行合理回復,并對不正確的問題提出質疑;可以與用戶保持連續性對話,對不理解的指令進行追問;具備記憶力,能記住用戶生產的內容等,它可以算是生成式AI極為關鍵的發展節點,AIGC發展受益于生成算法、生成式AI預訓練模型、多模態等技術的不斷發展。
在自然語言處理方面,早期主流模型主要為RNN等循環神經網絡,后引入注意力機制,但是存在順序處理效率低、長序列數據處理模型不穩定等問題。2017年Google團隊首次提出基于自注意力機制的Transformer模型,擁有6 500萬個可調參數[9],ChatGPT則在這個模型的技術基礎上,從GPT-1到GPT-4,模型參數呈指數級增長,文本處理及生成能力大幅提高。而基于Transformer模型的BERT等預訓練模型具有較強的語義理解能力。
在圖像處理方面,Kingma等在2014年提出深度生成模型-變分自編碼器(Variational Autoencoder,VAE),以概率方式對潛在空間進行觀察,在數據生成方面有所應用,可以生成與原始數據類似但不完全相同的數據。2014年,Lan GoodFellow提出早期較為有名的生成對抗網絡模型(Generative Adversarial Networks,GAN),在人臉照片生成、漫畫人物生成、文字轉圖片、圖片修復、3D建模等方面廣泛使用。同時,基于自我注意力機制的擴散模型(Diffusion Model)等生成算法出現[10],擴散模型圖像生成性能顯著,且在圖像合成上可以取代GAN的性能,并能生成多樣化圖像。
此外,多模態技術發展在一定程度解決了AIGC多樣性的問題,例如Open AI推出基于Transformer的圖像生成模型DALL-E和圖像文本多模態模型CLIP,CLIP模型可進行圖像分類、搜索、對比等任務,具有更強的泛化能力;谷歌團隊推出文本到圖像的預訓練模型Imagen和Parti; Stability AI推出文本轉圖像模型Stable Diffusion等,因此預訓練模型從單模態走向多模態,AIGC通用性能力將得以進一步提升。
1.2.1 重構傳統互聯網商業模式,促進數字經濟新突破
隨著數字經濟不斷發展,各種數字化場景不斷出現,而數字內容生產取決于知識水平、創造能力等,傳統單純靠人的內容生產手段已經難以滿足日益增長的數字內容增量需求,引入ChatGPT等人工智能手段輔助內容生產,將進一步變革內容生產方式,并對人工智能利益鏈產生一定的影響。一方面從應用來看,現有GPT模型、OPT模型等可應用于市場營銷、銷售郵件、通用寫作等文本生成領域,Tabnine模型可自動完成代碼編寫,DALL-E、Stable Diffusion可用于圖像生成、廣告設計等領域,X-CLIP模型可應用于通用視頻識別, AI模型生成能力已在影響各行業解決問題的傳統思維;另一方面隨著應用不斷擴展,傳統企業或者用戶往往面臨著模型使用門檻高、內容生成存在偏差等問題,反過來促進算力芯片、數據標注、自然語言處理(NLP)等行業的進一步發展。同時,它通過支持人工智能生成內容與其他產業形成多維互動,為其他行業帶來新的商業模式。
1.2.2 輔助內容生產,提高數字內容生產效率
將人工智能技術應用于內容生產,一是能大幅提高內容生產效率,通過AI模型輔助內容生產,可以讓更多用戶以最簡單的方式進行內容創作,降低創作門檻,提升創作者生產力;二是隨著AI模型訓練數據不斷完善和算力的不斷增強,將能以更低的邊際成本滿足更多的個性化需求;三是AI模型被“投喂”的知識量可以遠遠大于人腦的知識儲備量,理論上來說其輸出的內容質量始終維持在較高水平;四是AI在數字內容生產領域的出色表現,將重塑人機協作的新范式,一個好的內容創意可能不僅來自于內容創作者,也可以來自內容生產工具使用者。
AIGC以人工智能為主體,不斷驅動內容生成產業革新,但不可避免存在一定價值偏向和意識形態色彩,具有一定的意識形態屬性。一方面,AIGC帶來內容生成主體和生成方式的變革,但其內容“三觀”完全由研發公司灌輸,其輸出結果依賴AIGC訓練集數據的統計規律,無法核實數據的來源及準確性,容易產生算法歧視和價值偏見;AI算法設計師自身的價值取向也會影響AI內容的公正性與公平性。另一方面,AIGC促進內容傳播方式改進,從傳統由用戶被動式搜索內容過渡到算法個性化推薦,并且支持千人千面的階段。人機交互過程中,人的主體性地位被不斷削弱,導致人對社會的認知過度依賴算法的過濾包裝,被算法塑造后的認知空間對人的價值認知更容易產生負面影響。且AIGC本身具有生產周期短、效率高、應用廣泛等優勢,智能算法已在各個領域扮演主導者角色,會形成“信息繭房”“過濾氣泡”“回音室效應”等問題,造成人機意識形態主導權與話語權之爭。有研究者指出人工智能對信息生成與傳播過程深入介入將進一步強化人對技術的依賴與盲從[11],進一步加劇用戶認知風險。
一方面是AIGC侵權風險,AIGC模型生成需要大量的訓練集數據,這些數據可能會包含受版權保護的內容。同時AIGC作品本身也是“從有到有”,例如藝術類作品,很可能AI生成最終作品只是原作品新的表達,或者與原作品在表達上構成“實質性相似”,都可能對原作品造成侵權。另一方面是關于AIGC著作的權利歸屬問題,一是AIGC作品是否受版權保護,美國版權局于2023年3月16日針對AIGC發布版權注冊指南,明確版權只保護人類創造力的產物,而在我國,《著作權法》只有自然人或法人才具備擁有著作權或版權的資格,從某種意義來說,AI不具備擁有著作權或版權的資格。有研究者認為,AI模型核心是數據,如果能做好數據確權,就能解決AIGC作品版權保護問題[12]。但是數據確權是一項復雜工程,全球尚無統一標準,因此關于AIGC作品是否受版權保護尚無定論。二是作為AI模型開發者或者使用者是否擁有版權,2018年騰訊狀告網貸之家網站未經授權許可,抄襲騰訊機器人Dreamwriter撰寫的文章,宣判結果為AI生成作品屬于著作權法保護范圍,騰訊公司勝訴。在此案中,著作權歸開發者所有。我國AI生成工具文心一言也認為用AI工具生成內容的版權屬于生成該內容的AI工具開發者。ChatGPT則認為由它生成的內容著作權歸ChatGPT使用者所有,AI工具只是進行作品創作的技術手段,具體內容及表現形式需要使用者來決定。科大訊飛的星火認知大模型則根據具體情況具體分析,如果作品由人類使用AI工具創作,版權通常屬于人類作者,如果作品由AI程序自動生成,則需考慮AI程序開發者和使用者對版權歸屬的責任與義務,以及使用場景及目的等因素[13]。由于AIGC著作權利歸屬問題無明確界定,導致AIGC作品無法受到著作權保護,阻礙人工智能技術使用,同時可能因AI的摹寫行為侵犯他人合法權益。
AIGC是以數據為中心構建的模型,訓練數據集合的全面性、準確性、多樣性和公正性決定了輸出結果是否具有相應特性,但在實際情況下,AIGC訓練數據是有限的,且受到相應AI模型開發者和使用者的個人價值觀影響,容易產生歧視、價值觀對抗、霸權、虛假信息等問題。例如訓練AI模型的數據可能是基于某特定地區或國家的文字進行訓練,它在理解其他語言語義上就會相對較差。如果數據集主要針對某些特定主題,則響應其他主題內容時,則無法給出理想答案。如果數據集存在一些種族偏見、性別偏見、歷史偏見等問題,則其生成的內容可能會固化這些偏見。 同時AI數據集來源包括大量用戶生成內容,內容具有一定的價值偏見,如果與主流價值觀點相沖突,就會削弱部分弱勢群體的利益,且AIGC傳播特性還可能造成這種價值偏見在傳播過程中不斷延續與強化。此外,AI模型主要是“向數據學習”,其可能無法區分事實數據和虛構數據,因此容易生成一些具有一定說服力和可信度的虛假作品,加上其生產效率高特點,有助于虛假信息的泛濫、傳播,如果不予以監管,將進一步加大偏見或有害刻板印象。
ChatGPT的橫空出世拉開了大語言模型產業的序幕,其模型參數和預訓練數據量呈幾何級數增長,模型訓練和部署需要消耗大量的電力和算力[14],艾瑞咨詢關于《ChatGPT浪潮下,看中國大預言模型產業發展》[15]提出,2020年微軟Azure為GPT-3準備的訓練研發平臺共部署1萬多塊英偉達V100,如果置換為A100,則GPU算力約3 000~5 000塊英偉達A100。在電力方面,AI算力用電需求龐大,訓練單個模型消耗的電力超過100多個美國家庭1年的用電量[16]。且模型不僅需要訓練,還需要用來為大規模用戶服務,這增加了幾倍的計算量,從總體來看會造成巨大的碳排放量。
通過出臺相關政策法規,對AIGC技術和內容進行正面價值引導、監管并治理。目前,各國政府針對AIGC等人工智能技術的健康可持續發展制定了相關規劃或政策。歐盟于2021年發布《人工智能法案》草案[17],提出人工智能風險預防機制和實踐路徑;2017年國務院印發《新一代人工智能發展規劃》指出[18],人工智能帶來法律適用性、社會倫理等方面的挑戰,要加強倫理法規制定,建立人工智能健康發展法律法規、倫理規范和政策體系,具備人工智能安全評估和管控的能力。同時,為明確算法推薦服務提供者的主題責任,加強網絡信息安全管理,并保障算法推薦服務規范健康發展,避免算法歧視、誘導沉迷等不合理應用現象,在《法治社會建設實施綱要(2020-2025年)》《網絡安全法》《個人信息保護法》《關于加強互聯網信息服務算法綜合治理的指導意見》等政策文件基礎上,《互聯網信息服務算法推薦管理規定》[19]明確算法推薦服務提供者應堅持主流價值導向、積極傳播正能量、禁止合成虛假新聞信息及禁止利用算法影響網絡輿論等;2022年11月,國家互聯網信息辦公室印發《互聯網信息服務深度合成管理規定》[20],該規定針對深度合成技術帶來的現實危害與潛在風險,提出科學化的治理要求,規定深度合成服務的使用范圍,界定各方主體責任與義務,強化和規范服務提供者責任,通過強化備案與評估等手段對深度合成服務進行全過程管理與監督;2023年4月,針對ChatGPT等生成式人工智能技術的高速發展,國家互聯網信息辦公室發布《生成式人工智能服務管理辦法(征求意見稿)》[21],擬對生成式人工智能進行專項監管,在該意見稿中,明確生成式人工智能的定義,生成式產品或服務以及預訓練數據應滿足的要求,服務提供者的合規義務及法律責任。雖然以上法律法規規定AIGC技術應用的紅線與底線,但針對AIGC產品或服務的責任認定、知識產權等權屬認定、訓練數據版權爭議等處于探索階段。且有研究者認為人工智能的大范圍使用才剛剛開始,其治理工作也處于起步階段,目前法規或者標準等在指導人工智能技術的有序開發與利用方面的作用仍然有限[22]。因此,政府應加強政策引導,一是在AIGC治理工作中起到統領作用,形成政府、社會組織、企業、群眾等主體共同參與的協同治理格局[23],政府作為AIGC治理的主導者,應進一步完善相應的法律法規,對人工智能研發者、管理者和使用者行為進行規范,以促進技術規范應用和行業健康發展;二是通過進一步細化法律法規,明確各相關方面的法律責任,持續完善監管框架,實現事前、事中、事后全流程、可溯源的監管;三是開展AIGC產品或服務權屬認定等方面的法律法規研究,明確AIGC獲取、利用版權數據進行模型訓練和模型應用是否合法,界定模型訓練和應用過程中利用版權數據的方式及合法使用行為,同時明確AIGC產品或服務權屬的認定標準及形式等。
通過行業層面加強“技術向善、倫理先行”意識,加強行業自律,促進AIGC行業良性發展。其中行業成員是AIGC治理的具體配合者,是人工智能技術能否得以有效和規范應用的具體生產者,行業成員應秉承負責任的態度發展人工智能技術,確保AIGC相關的軟件、工具、服務及其背后的算法等實現全流程可監管、可溯源。同時,行業應根據AIGC存在的各種風險制定行業管理規范,達到科技向善目的,并能有一定的安全措施保障,可以確認AIGC應用是安全可控的。此外,通過建立行業聯盟,發揮資源整合優勢,圍繞AIGC合法合規應用和健康發展目標,聯合制定行業發展規范,并通過行業黑名單、風險管理、倫理審查、內容治理、版權保護、違法打擊、危機應對等行業自治機制,實現AIGC良性發展生態。
Gran等[24]通過定量研究方法將算法意識和態度納入數字鴻溝研究發現,用戶對各種算法驅動下的廣告和內容推薦等態度與算法意識水平存在一定的關系,同時,算法意識水平存在明顯的人口統計學差異。而算法素養對理解用戶的人智交互行為至關重要[25],這種能力主要體現在感知算法、理解算法和使用算法[26]。Sundar[27]認為在人智交互過程中,用戶對人工智能的差異化理解都可能影響用戶對人工智能的判斷,算法素養高低將在一定程度決定用戶對人工智能究竟是選擇質疑還是信賴。ChatGPT等AIGC模式一方面在信息檢索等方面為用戶提供了便利,部分算法素養過低的用戶可能很難意識到AIGC僅僅是不斷迭代更新的算法模型,可能會對算法形成一定的依賴與盲從。此外這類用戶對于AIGC生成內容的真假缺乏一定的判斷力。因此,一方面,通過AIGC技術與應用的宣傳加強用戶對AIGC技術濫用帶來的風險認知和不良AIGC的甄別能力;另一方面通過科普等手段提升用戶對各類算法信息的鑒別意識、對操縱性信息的判斷力等,對AIGC生成內容持批判意識,從而避免信息繭房、算法利維坦等風險出現。
綜上所述,雖然AIGC技術帶來了多方面的風險,但不可否認其推動了內容生產方式變革,未來將會取代大量重復性的內容生產與傳播工作,并將重構產業結構,在提高內容生產效率的同時,為各行各業帶來新的發展機遇,如何通過政策制度來平衡技術發展和風險治理之間的關系,將是需要解決的難題。從風險來看,技術發展本身并沒有問題,關鍵在于如何約束、監督并使用它,發展與監管應統籌兼顧,并通過匯聚多方利益群體力量,不斷加強各個群體人工智能治理能力,建立健全全流程風險管理體系,從而實現人與人工智能和諧發展。