內容提要 智媒時代,涌現出人工智能與數據分析技術,給數字內容領域帶來新一輪的重塑。“深度合成技術”是人工智能發展到一定階段的產物,包括圖像合成、語音合成、視頻生成以及數字虛擬人等應用形式,對于當今社會重要性日益彰顯;另一方面,技術應用的社會意義及影響則需要以理性的態度觀察與思考。文章分析該技術潛在風險與倫理挑戰,探討當今時代應如何理性對待深度合成技術。
縱觀媒介發展史,沒有一個時代比今天更需要科技賦能。從印刷媒介到電子媒介,從大眾傳播到算法推薦,從社交媒體到智能媒體,從人與人的連接到人與物的連接進而到萬物互聯,可知“技術為先導、內容為基礎、連接為本質的‘智媒時代’已經到來”。[1]人工智能被認為是“關于知識的學科”,現代人工智能起源于1956年的達特茅斯會議,該會議確立了人工智能作為一個獨立研究學科的地位。人工智能技術的目標是了解人類智能的本質,以模擬、延伸和擴展人的智能。經歷過以深度學習模型的雛形貝爾曼方程為主的人工智能1.0時代和以多層神經網絡與BP反向算法為主的人工智能2.0時代,人工智能正在掀起第三次浪潮,即人工智能3.0時代。以2006年深度學習模型的提出為標志,產生了大數據、傳感器、深度合成等一系列數據與知識交叉融合、相互作用的技術新秀。
當前,人工智能合成內容(AIgenerated Media)正在快速興起,利用AI算法生產、修改數據和信息內容,從而改變圖像、語音、視頻的原本內容與畫面。尤其是隨著生成對抗網絡(GAN)這一算法的誕生,AI生成內容中的“深度合成”(deep synthesis)技術可以實現換臉、人臉合成、語音合成、視頻生成甚至是數字虛擬人等諸多功能,備受社會廣泛關注。2017年是深度合成技術進入公眾視野的第一年,直至現在,依托深度合成技術的諸多商業化應用問世,其技術潛力迅速顯現。
“深度合成”(deep synthesis)作為一種AI合成內容(AI-generated Media)技術,最早引發關注是在2017年。當時,一位名為“deepfakes”的用戶在美國新聞網站Reddit上發布了經過數字化篡改的色情視頻,即視頻中的成人演員的臉被替換成了明星的臉。此后,該網站便成為分享虛假色情視頻的主要陣地。新聞媒體也開始用“deepfake”一詞來描述一些基于深度合成技術制作而成的內容。盡管后來該網站因為充斥著大量合成的色情視頻而被關閉,但其背后的智能技術卻引起技術社區的廣泛興趣,相關的開源方法和工具性應用不斷涌現,例如Facewap、FaceAPP、ZAO等等。而一些涉及奧巴馬、特朗普等政治人物的偽造視頻,更是將深度合成技術推到了社會輿論的風口浪尖,引起歐美國家政府機構的廣泛關注。目前,深度合成技術最常用的有人臉替換、人臉合成、語音合成以及人臉再現等,用來進行圖片、語音、視頻的合成以及數字虛擬人的創建。
圖片合成最常涉及兩種功能,即人臉替換技術與人臉合成技術。人臉替換(face replacement),是指將原人物臉部圖像 “縫合”到目標人物臉上,從而覆蓋目標人物的面部。人臉合成(face generation),是指利用深度合成技術創建一個全新的人臉圖像。這些合成的人臉圖像逼真度很高,甚至可以與真實的人臉圖像相媲美,因此,有時作為商業用途使用,如用戶頭像、廣告宣傳等。
在新聞傳播領域,人臉識別技術多被用來制作創意性的H5新聞作品進行傳播。以《人民日報》為例,在2019年國慶期間相繼推出 “時代青年秀”(圖1)、“我的年代照”以及“愛國style”等廣泛流傳的新聞作品。其支撐正是人臉識別、人臉替換等合成技術。

□圖1 人民日報×美圖秀秀:時代青年秀 (圖片來源:H5案例分享網)

□圖2 將現代人類照片變成文藝復興時期的畫作(圖片來源:搜狐網)
與此同時,出現了諸多圖片合成相關的社交應用。包括FaceAPP(AI人臉編輯器)、Snapchat、Face2face、ZAO等圖像合成應用,在國內外市場皆產生了熱烈反響。FaceAPP推出的嬰兒濾鏡、老年濾鏡,可基于現有面部特征合成幼化面孔,也可以自動添加白發、皺紋和皮膚松弛等衰老跡象,照片真實感十足;應用軟件ZAO則主打視頻換臉,利用影視化素材進行表情遷移和姿勢遷移,讓用戶與明星同框,體會表演與展示自我的樂趣;社交平臺Snapchat此前和AI Factory 合作增強Cameos功能,讓用戶可以將自拍嵌入動態圖像,從而創造出合成的動圖,而且越來越多的網絡平臺開始推出類似功能;騰訊旗下的網絡游戲“和平精英”引入深度合成應用,玩家可化身游戲中的“和平精英”與火箭少女101同框合影。
伴隨技術發展,合成圖像質量突飛猛進,不僅實現人臉合成,也可以實現圖像疊加融合或直接生成全新的高清圖片,肉眼根本難以分辨真假。例如,2019年MIT和IBM沃森聯合實驗室發布的一個基于生成對抗網絡的AI藝術畫師,就可以學習文藝復興時期畫家的繪畫風格,將現代人類的照片變成文藝復興時期的畫作(圖2)。其中的技術優勢在于,這種神經網絡會根據自己學到的技巧為畫面重新構圖,也就是畫出新的圖片,而不是利用風格遷移的方式改變原圖色彩。
語音合成(speech synthesis),關鍵在于創建特定的聲音模型,不僅可以將文字轉換成聲音,而且可以轉化為接近真人語調和節奏的聲音。加拿大語音合成系統Realtalk,與以往基于語音輸入學習人聲的系統不同,它可以僅基于文本輸入生成完美逼近真人的聲音。此外,Modulate.ai的語音合成產品,允許用戶自主選擇任何年齡和性別的語音模型,而不是模仿特定目標的聲音。
語音合成技術之于音頻,一方面可用來升級音頻剪輯技術,為影視制作中特效、配音呈現更好效果,減輕編輯人員工作壓力;另一方面可減少演員以及拍攝現場的局限,拓展電影的創作空間,衍生出更多改編作品。例如,它可以創建演員的聲音模型,幫助因疾病而失去聲音的演員使用數字聲音繼續表演,或因為劇情需要改變角色臺詞,還可以自動執行各種語言的逼真配音,從而使不同受眾群體能夠更好地欣賞電影。深度合成技術還可用于“數字復活”已故演員,在2017年《星球大戰8:最后的絕地武士》中,萊雅公主的飾演者凱莉·費舍爾因心臟病突發去世,制片方利用她以往真聲錄音合成了更多臺詞,結合未公開使用的素材,延續了這一角色的“生命”。2018年,大型紀錄片《創新中國》發布,該紀錄片是世界首部使用人工智能模擬人聲完成配音的大型紀錄片,節目解說部分全程運用語音合成技術,使已故配音大師李易先生的聲音在技術支持下得以“重現”。
除圖片和音頻之外,深度合成技術還應用于視頻領域。其技術依托為人臉再現(face re-enactment),主要指利用深度合成技術改變人的面部特征,包括目標對象的眉毛、眼睛、鼻子、唇部等五官的呈現,操縱目標對象的臉部表情。人臉再現不同于AI換臉,不是為了替換身份,而是改變某個人的臉部表情,從而讓其看起來在說他們從未說過的話。
2019年6月21日,美國科技媒體The Verge報道,一段關于Facebook的首席執行官馬克·扎克伯格(Mark Zuckerberg)的人工智能深度合成“換臉”視頻被上傳到Instagram。在視頻中,“扎克伯格”說:“讓我們快速想象一下,一個人,手握偷竊來的數十億人的隱私信息,他們的所有秘密、生活和未來等等……我將其歸功于幽靈,幽靈告訴我,誰掌握了數據,誰就掌控著未來?!?/p>
視頻合成技術也多用于AI合成主播等智能化媒體產品。2020年5月21日,新華社發布一段視頻播報畫面,宣布全球首位3D版AI合成主播“新小微”的誕生(圖3)。這是繼新華社智能化編輯部聯合搜狗公司最新研發的智能化產品。和前一代AI合成主播相比,“新小微”實現了從單一景深機位到多機位多景深、微笑播報到多樣化精微表情播報等進步,播報形態可通過不同角度全方位呈現,立體感和層次感明顯增強。

□圖3 新華社發布全球首位3D版AI合成主播“新小微” (圖片來源:百度百科)

□圖4 對于美國前任總統巴拉克·奧巴馬的深度偽造視頻(圖片來源:搜狐網)
AI合成主播的核心是運用人臉識別、人臉建模、語音合成、智能傳感器及深度學習等多項合成技術,實現三大工作原理:“一是通過人工智能技術識別和匹配信息,根據語義合成面部表情并標簽化;二是通過深度學習技術、提取聲音、面部、表情等生成仿真模型;三是進行高逼真度的唇語合成,自動生成海量播報視頻。”[2]
作為新華社AI合成主播家族的最新成員,3D版AI合成主播“新小微”在2020年全國兩會期間通過新華社客戶端為公眾帶來全新的新聞資訊體驗,也進一步助力新華社智能化編輯部建設,推動媒體融合向縱深發展,為新聞生產的未來場景開辟空間。
深度合成技術可以生成相應的數字虛擬人,通過深度模擬個體生物特征,為個人創造虛擬化身、并通過虛擬化身參與媒體中各類社交活動,創造出超越現實的個性化體驗。在某種意義上,深度合成技術可以帶來更為真實的虛擬體驗,產生更強大的代入感和化身效果,從而實現目的性的自我表達和體驗。
使用人像數據創建3D模型,并實時更新眼神、表情及肢體語言,進一步增強虛擬與現實交互,這一技術已經在騰訊會議中使用。在線上會議中,結合語音識別與機器翻譯技術,同時改變參會者呈現出來的臉部表情與唇部動作,使每個人看起來像在使用相同的語言進行交流。這可進一步打破語言交流障礙,發展更好的人際關系和線上互動。但是相較于圖片與音視頻合成,數字虛擬人的發展還在初級探索階段,一旦發展趨于成熟,定將帶來前所未有的社交體驗。
深度合成技術的影響與日俱增。其背后的AI技術也顯示出很大的正向應用價值,如社交媒體換臉應用、“數字復活”演員、AI合成主播等等,極大地改變了傳統內容生產與傳播方式;另一方面,深度合成技術應用也面臨著潛在的道德風險與倫理挑戰。目前,已經出現利用深度合成技術偽造一些真假難辨的影像欺詐公眾現象。如色情報復、散布虛假信息、非法獲取個人信息、威脅國家安全與擾亂社會秩序等,網絡與信息安全問題被帶到一個全新的層面。
深度偽造(Deepfake)是通過人工智能深度合成技術,模仿、偽造人類行為特征從而生成圖片、音頻、視頻的行為,是智能生產、操縱、修改數據,最終實現媒體傳播的一種結果?!懊绹鴧⒆h員本·薩斯(Ben Sasse)在其提出的關于‘深度偽造’的法案中,專門從法律角度給予了界定:‘深度偽造’一詞是指以合理的觀察者(常人)誤認為是真實記錄個人實際言論或行為的方式制作或修改的視聽記錄?!盵3]
2016年,歐洲刑警組織發布的《網絡有組織犯罪威脅評估報告》中,點名了深度偽造將成為主要的犯罪趨勢?!耙院铣梢曨l為例,直至2019年12月,網上合成視頻的總數比2018年12月翻了一番,達到近15000個,其中合成色情視頻占比高達96%,深度合成已經成為了色情復仇的重要工具。”[4]這種深度偽造現象的廣泛存在導致公眾形成了深度合成技術等同于深度偽造的刻板印象。對此,騰訊研究院發文稱,“‘深度偽造’是以偏概全,不足以涵蓋所有的深度合成技術和相應的合成內容。追根溯源,deepfake最初只用于描述AI換臉的色情視頻,是一種特定的AI換臉技術。”[5]但無論怎樣,深度偽造風險已然出現,并且嚴重涉及個人最基本的隱私與權利,必須給予高度關注。
深度合成技術作為一種新興的人工智能技術存在“技術黑箱”現象。因為,幾乎所有的智能化技術都遵循著“收集數據—算法預測—個性化推送”的平臺邏輯,而正是這種邏輯將普通受眾隔絕于生產操作過程之外,使內容過濾、內容生產、推薦要素等過程完全“黑箱” 化,信息的真實準確性也無法得到保證。雖然當前深度合成內容的制作門檻已大為降低,人們通過一些開源代碼和網絡教程也可以制作一些初級的合成內容,但是高質量、高仿真的深度合成內容還需要專業化團隊來制作。相當于技術依舊掌握在少數人手中,“技術黑箱”現象依舊存在 。
在新聞傳播領域,技術黑箱化很容易導致虛假信息與反轉新聞泛濫。因為這種算法已經深度介入新聞生產的各個環節,將新聞生產過程推進更深的“黑箱”,人們無從得知新聞是如何被制作出來的、更無法推敲其中的技術因素。并且,當前也沒有針對深度合成內容的識別技術,對事實的核查、對真相的追尋面臨著更多的阻礙?!案鶕び妊芯恐行模≒ew Research)于2019年6月發布的一項報告顯示,約有2/3的美國人表示,篡改視頻和圖像已成為受眾理解時事和基本事實的主要問題。超過1/3的受訪者表示,‘虛假新聞’導致他們減少了接受新聞的數量”。[6]在這種情況下,“技術黑箱”不僅導致虛假信息泛濫,更嚴重的是逐漸成為不信任的符號,降低媒體公信力,從而威脅整個新聞業的未來。
深度合成技術歸根結底是人工智能發展到一定階段的產物。而在“人工智能發展的三大基礎——超強的運算能力、海量的數據以及精準的算法中除了超強的運算能力與計算機的硬件發展水平關系更為密切外,其余兩個都離不開數據。”[7]數據主義代替人文主義成為社會發展的基礎,而代價則是隱私權作為最后的私人領域遭到前所未有的侵犯。尤其是深度合成技術收集的不僅是個人的互聯網訪問記錄等,而是非常直觀的個人面部數據。如今很多日常應用軟件、支付設備都有“刷臉”技術的情況下,一旦用戶的肖像等個人信息泄露,將給用戶帶來非常大的安全隱患。
對此,有學者開始反思數據是不是財產、個人通過社交媒體生產的數據是否能夠擁有私人產權、怎樣界定其邊界等大數據時代資本主義市場邏輯所產生的悖論。同時,業界也迫切希望能夠最大限度地制止個人數據隱私的泄露。2018年10月,在布魯塞爾舉行的第40屆數據保護與隱私專員國際大會(ICDPPC)通過《人工智能倫理與數據保護宣言》,將視點聚焦于人工智能時代數據保護和隱私方面的問題,充分考慮到個人信息收集、使用和披露之間的關系,提出“人工智能系統的任何創建、開發和利用都應該充分尊重人權,特別是個人數據保護和隱私的權利,以及人格尊嚴、非歧視和基本價值,并應提供解決方案是個人保持對人工智能系統的控制和理解?!盵8]

□新華社推出的AI合成主播已成為一張靚麗名片。
深度合成技術的潛在風險除了“深度偽造”“技術黑箱”以及數據隱私侵犯之外,更為嚴重的后果是危及國家安全以及世界秩序。2018年,涉及美國前總統巴拉克·奧巴馬(Barack Obama)的一段視頻在網上流行(圖4),視頻中奧巴馬以犀利的言語攻擊現任總統唐納德·特朗普(Donald Trump)。但實際上,這段視頻并非奧巴馬本人所為,而是由美國導演喬丹·皮爾(Jordan Peele)模仿奧巴馬的聲音以及面部表情而制作的深度偽造視頻。2019年,美國眾議院議長南?!づ辶_西(Nancy Pelosi)的一段聽起來像醉酒后說話的深度偽造視頻在Facebook、Twitter等社交媒體上廣泛傳播,對其個人形象帶來了極大的影響。
這些有關美國政治人物的深度偽造視頻在社交媒體上的廣泛傳播引起美國政府的擔憂。正如美國加利福尼亞大學教授哈尼法里德所說,“我們應該擔心‘深度偽造視頻’的出現,如果我們不能相信自己所看到的,來自于世界各地的視頻,聽到的音頻,那就是很嚴重的事關國家安全的危險?!盵9]尤其在美國大選來臨之際,美國議會先后提出《Deepfakes責任法案》和《2019年Deepfake報告法案》,以防競爭敵手利用深度合成技術散布虛假信息,干擾選舉活動。畢竟,“在智媒時代海量信息生產與受眾有限注意力的相互掣肘和博弈之下,如何在社交平臺上快速‘吸睛’‘刷屏’、提升‘流量’,進而影響甚至操控新聞輿論和公眾認知成為‘數字選戰’的首要目標?!盵10]
在國內,深度合成技術及其應用也已引起政府的高度重視。根據中國國家互聯網信息辦公室于2019年12月20日發布的《網絡信息內容生態治理規定》,“網絡信息內容服務使用者和網絡信息內容生產者、網絡信息內容服務平臺不得利用深度學習、虛擬現實等新技術新應用從事法律、行政法規禁止的活動?!盵11]這一規定給當前“深度合成技術”應用劃定了邊界,同時也為其正向應用場景留出了探索與發展的空間。
深度合成技術正在顛覆當今的內容生產與傳播模式,對媒體融合發展產生一系列積極正面的影響。與此同時,深度偽造、虛假信息、隱私泄露等問題也共生共存,作為技術的創造者和使用者,人類需要共同直面與應對這些難題,讓深度合成技術對人類社會產生更為正向的價值影響。因此,對于深度合成技術的發展,我們不僅需要討論“術”,更需要討論“道”。當我們在享受深度合成技術便利的同時,不可忽視其規范性與治理層面的問題。
當我們溯源這些存在風險時會發現,問題早已存在。例如廣播出現時遭遇公眾反抗,相機的發明讓人類擔心隱私被侵犯。但這些都阻擋不住技術變革的腳步,倒不如尋求如何“以智治智”,從技術層面進行更多的探索,這是應對深度合成技術風險的必要途徑。首先,應致力于制作一整套事實核查技術,保證內容的真實性;其次,應努力提升內容生產的公開性,保證內容生產的可信度與透明度。
如微軟總裁布拉德·史密斯(Brad Smith)所說,“如果你的技術改變了世界,你就有責任幫助世界應對這些變化”?,F實中,微軟確實也踐行了這樣的創新理念,其團隊提出的Face X-Ray 算法,可以通過檢測換臉過程中產生的瑕疵來鑒別圖像真偽。并且在確定圖片是否進行過換臉同時還可以指出換臉操作的邊界在哪里。類似核查技術的成熟化正是擺脫當今難辨真偽的信息環境所需的必經之路。
深度合成技術等信息科技的迅速發展正在從根本上改變著傳統的社會信息生產與傳播模式,也重塑著法律所處的宏觀環境,傳統法律制度在新技術面前顯得無所適從。亟需進行自我完善,自我進化,以適應科技發展的新要求。尤其是在當前事實核查技術還不成熟的情況下,應對深度合成技術帶來的一系列挑戰,應從法律法規層面給予更多的關注與解決之道。
具體來說,從內容制作方與平臺傳播方兩面思考如何確定相關的技術使用規則與懲治措施是相對可行的思路。對于內容制作方,應制定專門性應用法規,明確規定深度合成技術的應用范圍、權力邊界、責任承擔等方面的內容;對于平臺傳播方,可以結合限制性與鼓勵性條款制定相關法規,在限制技術濫用的同時保留適當的發展空間,以發揮其正向應用價值。
技術濫用的風險雖已來臨,但技術本身并沒有善惡之分?!叭斯ぶ悄茏鳛橐环N新技術,它屬于誰,為誰所控制,又是為了誰,這是我們現在就要提出的問題?!盵12]科技是一種能力,而向善是一種選擇。在應對深度合成技術潛在風險時,不能僅僅依靠技術和法律法規,更重要的是社會各方的參與,從而建立一個多元協同的治理體系。包括法律工作者、新聞工作者、技術開發者等等。
尤為重要的是,公眾媒介素養的進一步提升。人工智能技術的發展使得信息環境變得更為復雜,公眾也要提升自身的媒介素養。如今的媒介素養不僅單純地指向媒介使用素養,也應當擴展到內容生產與傳播素養、相關法律素養、社會參與素養等方面,從而更好地應對人工智能時代的倫理風險。
我們正處于一個智媒化的人類世界,神經網絡、機器學習和算法機制等變得日益強大,深度合成技術也日漸成熟。其中包括語音、圖像、視頻等多種合成類型,并越來越朝著數字虛擬人等綜合性的方向發展,給內容生產與傳播帶來前所未有的變革。就目前而言,深度合成技術在新聞傳播、電影娛樂、通訊社交、電子商務等諸多領域嶄露頭角,甚至有學者預言2020年有望成為這一技術商業化應用的元年。
技術的應用總是具有兩面性,一方面可以消除一些風險,推動社會進步;另一方面也會帶來新的風險。我們不能在 “科技崇高化”的氛圍中為信息科技披上“科學神話”的霓裳,從而缺少一些應有的反思精神。在發揮其正向應用價值的同時意識到潛在風險與倫理挑戰,最大程度減少技術濫用的可能性。在這一過程,“除了技術從業者的努力,更需要全行業乃至整個社會的共同努力,將創造技術、使用技術、管理技術以及受技術影響的人和組織匯聚在一起,才能確保最終以負責任的方式去設計AI,真正造福人類?!盵13]
【注釋】
[1]傳媒圈.“人工智能編輯部”——主流媒體“智能+”的創新引領[EB/OL].(2019-11-1).https://baijiahao.baidu.com/s?id=1648947045964901352&wfr=spider&for=pc
[2]王媛.人工智能技術賦能傳統新聞報道——以新華社AI合成主播為例[J].出版廣角,2019(21):64-66.
[3]陳昌鳳,徐芳依.智能時代的“深度偽造”信息極其治理方式[J].新聞與寫作,2020(04):66-71.
[4]騰訊研究院.2020年AI生成內容發展報告[EB/OL].(2020-5-25).http://www.199it.com/archives/1049428.html.
[5]騰訊研究院.關于“深度合成”技術的十個誤解[EB/OL].(2020-5-11).https://www.sohu.com/a/394450226_455313.
[6]陳昌鳳,徐芳依.智能時代的“深度偽造”信息極其治理方式[J].新聞與寫作,2020(04):66-71.
[7]胡曙光,陳昌鳳.觀念與規范:人工智能時代媒介倫理困境及其引導[J].中國出版,2019(02):11-15.
[8]歐洲數據保護專員,意大利個人數據保護專員,孔祥盛,龐玲玲,孫舒暢.人工智能倫理與數據保護宣言[J].辦公自動化,2019,24(01):12-13+15.
[9]央視網.眼見也不一定為實,“深度偽造視頻”美國防部警惕[EB/OL].(2019-1-31).http://news.cctv.com/2019/01/31/ARTIJYHzB7hCBeeG7KqEsuJP190131.shtml.
[10]史安斌,王沛楠.2020全球新聞傳播新趨勢——基于五大熱點話題的訪談[J].新聞記者,2020(03):24-32.
[11]中華人民共和國國家互聯網信息辦公室.網絡信息內容生態治理規定[EB/OL].(2019-12-20).http://www.cac.gov.cn/201912/20/c_1578375159509309.htm.
[12]呂新雨,趙月枝,吳暢暢,王維佳,洪宇,田雷,胡凌,熊節,余亮.生存,還是毀滅——“人工智能時代數字化生存與人類傳播的未來”圓桌對話[J].新聞記者,2018(06):28-42.
[13]微軟亞洲研究院.AI換臉鑒別率超99.6%,微軟用技術應對虛假信息[EB/OL].(2019-11-1).https://www.msra.cn/zh-cn/news/features/ai-detect-fake-face.