鄧之湄
近期《夢華錄》熱播,劇迷追劇有了新玩法——只需上傳自己的照片,相關系統即可自動“換臉”,生成劇迷本人穿越到劇中做主角的流暢視頻。
這個實現“過把主角癮”的技術叫深度合成。作為AI技術的新應用、新實踐,深度合成早已在音樂、影視、綜合娛樂和社交等多個行業場景中被推廣應用。業內人士認為,未來隨著自動數據生成、全身合成、3D塑型等技術的逐漸成型,一個新的人類生存場景將以深度合成技術為基石展開。
值得注意的是,當真假交融難辨,眼見不再為實,深度合成技術就像一柄雙刃劍,在帶來歡笑和溫情的同時,也帶來新的威脅。
有的假冒領導口音打電話,騙公司員工轉款;有的“化身”知名演員,讓中老年影迷沉迷上當;還有的將女明星頭像嫁接在不雅視頻上,在色情網站大量播放,牟取利益。
通過深度合成技術,不法分子可輕易偽造音頻、視頻,實現變聲、變臉,進行新型詐騙。
2021年,山東省公安廳網絡安全總隊公布了幾個利用深度合成技術實施詐騙的案例。某公司財務接到領導電話要求立刻給供應商轉款兩萬元,并將轉賬信息以郵件形式發送到對方郵箱。由于電話中老板的口音十分逼真,公司財務毫不懷疑地在一小時內完成了轉賬。
安徽省合肥市警方在公安部“凈網2021”專項行動中打掉的一個犯罪團伙,其作案手法更令人吃驚。在警方抓捕現場,幾名犯罪嫌疑人利用電腦將一張張靜態照片制作為人臉動態視頻。模擬制作出來的動態人物不僅能點頭、搖頭,還可完成眨眼、張嘴、皺眉等表情動作。原來,該團伙是通過偽造他人人臉動態視頻,為黑灰產業鏈提供注冊手機卡等技術支撐。
在上述犯罪嫌疑人的電腦里,警方發現了大量公民人臉數據。“身份證正反面照片、手持身份證照片、自拍照等,被稱為一套。”民警介紹,成套照片被稱為“料”,出售照片的人被稱為“料商”,這些“料”在網上已轉手多次,而“料”的主人卻毫不知情。犯罪嫌疑人馬某交代,由于制作簡單,一個視頻價格僅為2至10元,“客戶”往往是大批量購買。
在深度合成技術加持下,不法分子“陰招迭出”:有的假冒領導口音打電話,騙公司員工轉款;有的“化身”知名演員,讓中老年影迷沉迷上當;還有的將女明星頭像嫁接在不雅視頻上,在色情網站大量播放,牟取利益。
根據國家互聯網信息辦公室2022年1月28日公布的《互聯網信息服務深度合成管理規定(征求意見稿)》,深度合成技術指的是:利用以深度學習、虛擬現實為代表的生成合成類算法制作文本、圖像、音頻、視頻、虛擬場景等信息的技術。
追溯起來,深度合成(Deep Synthesis)曾被稱為Deepfake,即深度偽造。2017年,一位名叫“Deepfake”的用戶在美國一網站上分享了篡改人臉的視頻,將深度合成技術帶到了大眾面前。
最初,深度合成的目標人物主要是影音圖像遍布互聯網的公眾人物,如明星、知名商界人士等,其偽造場景主要是公開講話、搞笑視頻等。為了吸引流量,境內外不少網站及UP主都對制作、發布“合成視頻”熱情高漲。
隨著技術進步,深度合成在影視制作、廣告營銷、社交娛樂等領域應用不斷豐富,包括AI合成主播、虛擬偶像、修復歷史老照片等。與此同時,越來越多的企業機構利用深度合成技術提供面向公眾的產品和服務:支持風格定制的特效視頻制作軟件;語音方向衍生出語音導航、有聲讀物等應用;文本合成在新聞報道、聊天問答等方面使用廣泛。

2021年“元宇宙”概念的流行,為深度合成技術提供了更加寬廣的應用場景。業內人士稱,未來隨著自動數據生成、全身合成、3D塑型等技術的逐漸成型,一個新的人類生存場景將以深度合成技術為基石展開。
清華大學人工智能研究院、國家工業信息安全發展研究中心等聯合發布的《深度合成十大趨勢報告(2022)》稱,2017年以來,深度合成內容被大量創作和傳播,關注度呈指數級增長。
以視頻為例,通過檢索國內外十家主流音視頻平臺,2021年新發布的深度合成視頻數量為24317條,較2017年增長超10倍;新增點贊或喜歡達3.16億次,呈指數級增長;平均每1000次播放,可產生8.92次點贊或喜歡,同時產生3.51次轉發,進行新一輪傳播。
在愛奇藝、騰訊視頻、優酷、嗶哩嗶哩等主流音視頻平臺上,深度合成視頻數量最多的類型是影視音樂,包含電影、電視劇、音樂等方面的內容。排名第二的視頻類型為科技教育類,該類視頻關注對深度合成技術的講解和討論,分享最新的研究成果。除此之外,排名第三到第五的視頻類型分別為生活、娛樂和資訊類。
報告稱,深度合成需求場景趨于多元且成熟,虛擬偶像、虛擬手語主播、老照片修復、劣跡藝人替換等新場景需求不斷涌現。
比如在影視制作領域,深度合成技術已成為藝人出現劣跡后的救場工具。電視劇《長安十二時辰》《光榮時代》《突圍》等多部作品均使用了該技術,而觀眾對影視作品AI換臉后的效果評價,已從最初的“慘不忍睹”變成“瑕不掩瑜”。
在知乎的“失獨媽媽把女兒做成AI,這樣留下摯愛的方式你能接受嗎?”問題下的166 個回答中,持接受態度的網友達七成以上。
最暖心的應用案例或許要數對失獨家庭的救助療愈。2019年9月,一位母親向阿里巴巴人工智能實驗室求助,希望能將她患癌離世的14歲女兒做成可以交互的軟件。3個月后,技術人員幫這位媽媽合成了一段長達20秒的語音存在天貓精靈里。在知乎的“失獨媽媽把女兒做成AI,這樣留下摯愛的方式你能接受嗎?”問題下的166個回答中,持接受態度的網友達七成以上。
值得注意的是,深度合成技術就像一柄雙刃劍,在帶來歡笑和溫情的同時,濫用的風險亦不斷加劇。
隨著技術的開放開源,普通人僅需少量圖像、音頻等樣本數據,就能模糊真實和虛擬的邊界。“現在你在任何社交平臺都可以看到大量的虛假視頻,有影視娛樂也有帶有惡意的內容。”瑞萊智慧首席執行官田天稱,技術濫用的危害涉及名譽侵害、財產損失甚至國家安全。
中國社會科學院科學技術和社會研究中心段偉文教授認為,由于人類對視覺更加信任,視覺上的偽造比其他形式的偽造影響更大。如果視頻內容偽造頻繁,公眾對媒體的信任會極大地削弱,喪失對真相的信心。
對此,中國工程院院士、信息技術專家鄔賀銓提出,深度合成衍生出的安全問題需從源頭解決,以技術規制技術,以魔法打敗魔法。
田天認為,深度合成和檢測就像“貓鼠游戲”,雙方都在不斷的學習攻防中自我進化,規避上一代對抗技術,因此檢測技術需要持續更新與迭代優化。
據介紹,早期的換臉視頻尚存在“微表情不自然”“面部邊緣有鋸齒”等明顯換臉痕跡,但隨著技術成熟,深度合成內容已能以假亂真,傳統的基于生物特征的鑒別方式越來越難以發揮作用。目前,對深度合成的檢測主要依賴于人工智能模型,依賴于訓練數據的完備性。
關于以魔法對抗魔法,浙江大學網絡空間安全學院院長任奎提出了數據集不足的問題。“訓練人工智能模型需要大量真實和偽造數據,但人臉和音頻數據都是高度敏感的個人信息,難以獲取。”他建議,由公信力高的非營利性機構把數據梳理出來,讓合格的機構一起參與研究。
科技進步,不僅要挖掘出機器的智能,更應展現出人類駕馭技術的智慧。為應對深度合成技術惡意使用帶來的挑戰,各國紛紛出臺相關法律法規。
美國從聯邦和州層面進行了專門立法,歐盟將深度合成納入《通用數據保護條例(GDPR)》等現有法律框架規制。德國、新加坡、英國、韓國等國家,均有適用于深度合成技術相關犯罪案件審理的法律法規。
我國也在積極探尋有效治理機制,2019年以來陸續出臺《網絡音視頻信息服務管理規定》《網絡信息內容生態治理規定》《互聯網信息服務算法推薦管理規定》等法規,對生成合成類內容等提出了不同程度的監管要求。2022年1月28日公布的《互聯網信息服務深度合成管理規定(征求意見稿)》進一步提出,深度合成服務提供者深度合成服務時,應當使用顯著方式對深度合成信息內容進行標識。若提供人臉、人聲等生物識別信息的顯著編輯功能,還需取得被編輯的個人信息主體的單獨同意。
這將是一場持續的攻守。不少專家呼吁加大宣傳普及力度,形成全社會協同治理格局。
“深度偽造的本質問題是透明度不足。”田天稱,提高公眾對深度合成技術的認知尤為重要,只有將門檻降低到所有受眾能夠在共同框架下認識、討論、理解這個問題的時候,深度合成技術才能健康良性發展。