日前,由騰訊研究院、騰訊優圖實驗室、騰訊科協聯合主辦的“深度合成技術應用與治理研討會”在線上召開。此次研討會聚焦“深度合成”技術,圍繞“深度合成”的技術趨勢、應用前景、挑戰應對以及倫理治理等議題進行了深度研討。此次研討會的圓桌環節邀請了清華大學新聞與傳播學院常務副院長陳昌鳳,中國人民大學未來法治研究院執行院長張吉豫,科技部新一代人工智能發展研究中心副主任徐峰,艾瑞咨詢泛娛樂研究主任郭成杰,騰訊優圖實驗室專家研究員、總監李季檁,由騰訊研究院高級研究員曹建峰主持,進行了跨學科、跨領域的研討。騰訊研究院秘書長張欽坤對會議進行了總結。
目前,基于AI的深度合成技術廣泛應用于社交、影視、醫療、虛擬現實等諸多領域,其不僅降低創作門檻,激發新形式的創造,還能以多種方式造福社會。其中,數字虛擬人(digital person)綜合運用了多種AI技術和方法,已成為深度合成技術的重要發展方向。在深度合成的行業應用現狀與前景方面,郭成杰分享了三點看法。
第一,AI換臉APP引發了一定的行業熱度,但體驗相對單一,未來還需要跟更多落地化的商業應用做結合才能產生持續性的發展。在文娛和社交領域,基于深度合成技術的換臉APP因其獨特的功能,一度風靡。但由于功能限制,用戶體驗單調,目前還在嘗鮮期,沒有找到能夠結合好的盈利模式的完整商業模式。該應用在實現商業落地的探索中,需要嘗試開發更多的功能,跟更多落地化的商業應用作進一步結合,同時解決目前存在的法律風險問題,引進良好的盈利策略,形成完整的商業模式。
第二,深度合成可以與影視行業更多地結合。一方面,深度合成技術可以大幅降低合成影像的技術門檻,以較低的成本實現影像的特效制作,助力創作;另一方面,利用AI換臉技術可以解決影視作品因故不能上線的問題,避免演員身故、生病或丑聞等因素對影視作品帶來的消極影響。雖然國內一些影視劇也在嘗試AI換臉,但對影視所要求的高品質而言,換臉的效果還有待提升。相信隨著技術的發展,AI會有更好的表現,也能夠跟影視行業有更好的匹配。
第三,數字虛擬人也是值得關注的方向,具有非常大的延展性。目前已經應用到比較多的領域,如虛擬主持、虛擬主播等。而且,數字虛擬人也在與智能家居、IoT做結合,讓用戶與智能家居的交互更加自然真實,提升智能家居服務的體驗。未來在教育、旅游、公共場所咨詢等需要較多重復性人力接待、播報或者講解的場合,都可以用數字虛擬人做一些場景。未來,隨著深度合成技術的發展,行業可以更好地結合現有的商業模式和服務模式,利用深度合成提升服務體驗。
李季檁介紹了深度合成技術的技術原理、發展歷程。技術原理方面,深度合成背后的技術包括自動編碼器、生成對抗網絡。典型的深度合成是以輸入一個隨機向量開始的,生成器根據這個隨機向量可以合成一張圖像,會與一張真實的圖像一起輸入鑒別器,進行差異的計算,通過訓練最終會達到一個均衡狀態,此時合成圖像足夠逼真,讓鑒別器難以區分其和真實圖像之間的差異。
這些根本上是源自于神經網絡的特性,即一種映射的能力。這種能力會讓人聯想到神奇的魔法盒,它可以將一件物品變成任何你想要的任何一件物品。深度網絡雖然現在對人類來說是黑盒模型,但它更是數字世界的魔法盒,這個魔法盒的魔力才剛剛被打開。
在技術發展趨勢方面,需要先往回看這個技術從哪里來,然后才能看到它往哪里去。在深度合成技術興起之前,照相機對物理世界的真實記錄,讓人們可以對數字圖像進行修改、再創作;圖形學技術在電影工業中的發展應用,讓人們可以在電影以及VR、AR中感受到數字合成的逼真世界。這些技術可統稱為數字合成技術。這些基于圖像和視頻的二次創作,極大地滿足了大眾的視聽消費需求。然而數字合成的成本很高,音視頻內容再創作的門檻很高,只有極專業的人,用極專業的工具才能合成出逼真的音視頻內容。但隨著深度合成的快速發展,尤其是生成對抗網絡的橫空出世,讓數字合成有了根本性的改變。主要體現在三個方面。
第一,合成工具的進化。傳統數字合成需要大量高級工具和復雜操作,現在只需一鍵式的端到端合成,這是生產力的巨大飛躍。拿圖像為例,原來的路徑首先需要學習專業的多媒體處理課程,然后耗費很多時間精通幾個專業的數字合成軟件,接到需求之后做定制方案,搜集各種素材,通過軟件一遍一遍修改,直到主觀效果達到滿意為止,這也是現在電影工業里面常見的流程。但是現在只需要下載開源的合成軟件,瞬間就可以自動生成令人滿意的圖像,并實現批量的、可復制化的合成。
第二,合成的效果越來越難分辨真假。一幅真實圖像是由光線、距離、姿態、形狀、材質、觀察者的視角、光學傳感器的特性等等大量真實的物理因素共同作用的結果。人在做這種編輯和合成時,無法考慮如此多的變量,即使使用專業的建模工具,傳統的數字合成也會不可避免地出現一些瑕疵,一般只能以大塊的區域為單位進行合成或者編輯,很難對單個像素進行精確的合成和修改。而深度合成是基于深度網絡和大量數據,在訓練過程中上述大量物理因素會蘊含在深度網絡的參數之中,算法可以同時考慮這些因素的影響,精確進行單個像素的合成。即使局部出現了瑕疵,算法在訓練過程中也可以不斷優化和修補,直至達到逼真的程度。
第三,可以實現創新性的合成。傳統的合成無法將所有頭腦中的想象落實到操作工具上,變成可以實際操作的步驟。例如,在游戲中將真實用戶的照片與游戲角色進行融合,這屬于跨界融合,用傳統的方法很難做出來,但用深度合成的方法可以毫無違和感地實現,光影、輪廓都可以栩栩如生。最后,從效果上看,未來的深度合成技術將會做到更高的分辨率,場景也會更加豐富,對于用戶而言技術門檻將更低。從應用上看,深度合成技術將與各種多維信息、視頻信息融合,也可以實現合成之后與人類進行互動,這些發展應用在數字虛擬人、VR內容等產業上,可能會取得一些重大的突破。
深度合成并非關于“偽造”和“欺騙”的技術,而是極富創造力和突破性的技術,雖然它像其他任何技術一樣,也催生了一系列必須面對的難題,但這并不會磨滅這一技術給社會帶來的進步。就如何更好地規范深度合成技術應用,張吉豫分享了三點看法。
第一,在基本理念上,應遵循包容審慎的監管原則。我們這幾年在應對新技術、新業態的發展問題上面,采取了包容審慎的政策理念。例如,今年起實施的《優化營商環境條例》,第55條提到包容審慎監管的原則,指出政府以及有關部門應該按照鼓勵創新的原則對新技術、新產業、新業態、新模式實行包容審慎監管。對于深度合成,也需要進行包容審慎監管。李克強總理在2018年考察市場監管總局并主持召開座談會時曾具體闡釋過“包容審慎”監管之含義:“所謂‘包容’,就是對那些未知大于已知的新業態采取包容態度,只要它不觸碰安全底線。所謂‘審慎’有兩層含義:一是當新業態剛出現還看不準的時候,不要一上來就‘管死’,而要給它一個‘觀察期’;二是嚴守安全底線,對謀財害命、坑蒙拐騙、假冒偽劣、侵犯知識產權等行為,不管是傳統業態還是新業態都要采取嚴厲監管措施,堅決依法打擊。”
第二,在基本原則之下,具體法律和監管應設置必要法律底線,并為深度合成技術發展留出空間。現有的立法為深度合成技術設置了一些必要的法律底線,規定了適當的平臺責任,同時推動法律和技術的結合。例如,《民法典》的人格權編為深度合成技術應用提出了公民權益保護的具體要求,擴展了肖像權方面的規定,以及提出對聲音的保護。這說明新的科技會催生新的權利要求,而人格權編規定的開放性的人格權可以更好應對科技催生的新型人格利益保護,但立法不會阻礙技術發展應用。平臺責任方面,《民法典》的通知-必要措施規則也蘊含了對網絡服務提供者進行分層、分類的責任分配的基本原則。此外,《網絡信息內容生態治理規定》里面提到不得利用深度合成等從事法律禁止的活動,在強調底線的同時,也表示了允許和鼓勵深度合成等新技術發展的態度。《網絡音視頻信息服務管理規定》要求對非真實的音視頻信息進行標識,表明需要結合技術進行一定的治理,充分發揮掌握技術的平臺企業的主觀能動性,實現共建、共治、共享的治理理念。
第三,對深度合成等互聯網新技術的治理和未來法治建設,需要遵循幾個基本的理念和方向。一是要以人為本。這是法律的基本原則和價值立場,也充分體現在《民法典》人格權編相應的規則中,尤其是對人格權的法定性和開放性的平衡。
二是法律與技術相結合。智能社會的治理是需要法治與技術治理進行有機統一、協調結合的。一方面,法律要對技術的發展予以很好的關照;另一方面,立法實踐中已有一些探索,包括技術保護措施、平臺注意義務或免責條件與技術發展的情況相結合、一些領域和標準認證相結合等,但技術與法律結合不能是任意的,而應建立在正當性、必要性以及充分可行性的論證基礎之上。
三是信用機制。新技術發展初期可能存在公共風險,比如深度合成技術也可能存在不合理的使用。所以認證溯源機制可能是保證未來發展的重要路徑,也是構建信用社會的必要發展途徑。
四是強調共建、共治、共享的治理理念。在智能社會的建設過程中,法治建設需要調動掌握先進技術企業的積極性、先進性,調動社會主體參與建設,同時要求法律人克服專業知識的限制,保持對新技術發展的關注。保證法治在必要時能夠突破舊機制和舊思維的束縛,引導技術更好地面向未來。
對于技術帶來的問題,除了法律應對,也需要探索技術上的解決方案。李季檁從技術工具支撐的角度,分享了對技術安全的看法。第一,從技術上說,深度合成是一個單點的技術,可以從整個系統的技術層面,復用現有數字社會中比較成熟的技術防御手段。第二,針對特定場景定制特殊的防御手段,在日常的技術演練中,優圖已經有比較切身的體會和豐富的經驗。
例如,近幾年深度合成的方法進展非常快,越來越逼真,網絡上開始出現真假難辨的視頻,優圖迅速在技術上跟進。一方面,優圖嘗試合成具有逼真效果的視頻;另一方面,去嘗試檢測這類效果的視頻。有些視頻可以騙過我們的眼睛,但是在極度精細的像素層面,和相機拍攝的真實圖像還是有所不同。真實世界的光線從鏡頭進入到傳感器,經過光電轉換、模擬信號轉換數字信號再進行若干圖像處理,才得到最終的照片,這其中包含了光學、電路、溫度等各種真實因素引起的噪音和退化,目前生成對抗網絡還不能精確合成這些信息。因此,我們制作了大量的深度合成數據,用深度網絡來學習真實視頻和合成視頻的差異。學界有一項專門評估深度合成的榜單,優圖的檢測模型刷新了記錄。這些檢測能力也會通過云計算的方式對外輸出,用戶上傳視頻時就可以判斷它是否是合成的。因此,深度合成并不可怕,要用技術的發展解決技術的問題,深度合成的魔力來自于深度學習,可以約束這種魔力的也將是深度學習。
陳昌鳳指出,深度合成是英文里“合成媒體”的下位概念,作為一種新形式的創造,會給媒體帶來很大影響,在諷刺、電影等非新聞類的大眾傳播以及歷史新聞等方面有很多應用。比如,利用深度合成技術把靜態的歷史新聞做成接近事實的動態視頻,這方面的價值是非常大的。此外深度合成也有助于核實一些事實。對于深度合成對媒體信任的影響,需要采取多利益相關方的方式來治理,而平臺的技術治理是一個重要方面,Facebook、Twitter等都在對內容進行事實核查。最后,用戶的媒介素養或者說技術素養在數字時代也特別重要,用戶需要有一種自覺的警醒,具有批判性思維(critical thinking)。
對于媒體信任問題,曹建峰指出,深度合成技術將如何影響大眾的行為和認知,目前還沒有足夠的研究支持,但是它提示我們,進入人工智能大眾化時期,對大眾信息分辨能力的培養也是治理的重要一環。媒體信任的塑造絕對不僅僅是封殺某一技術可以達到的,需要從內容的生產、傳播、接收等多方面進行規范。深度合成技術的出現已經讓我們意識到了眼見不一定為“實”,這是加強公眾信息辨別能力的一個重要契機。相信社會能很好地適應并使用這一技術。
深度合成技術的健康有序發展,也離不開對治理與倫理的關注。對此,徐峰談了五點看法。第一,關于新技術發展與治理的關系,兩者并不對立,治理是為了更好推動人工智能等新技術的健康發展。在發展新技術的同時,也需要做好政策儲備和相應的應對措施。第二,深度合成等人工智能技術的治理是一個系統性工作,不能泛泛地談治理,既需要有大的治理原則和框架,也需要針對具體技術、應用和領域提出針對性的治理措施。第三,從具體治理手段上看,既需要技術制衡、法律約束、市場準入、行業監管等治理措施更好監管、規范、引導技術發展和應用,也需要行業和企業自律,比如騰訊提出的科技向善等。第四,需要通過科普等方式幫助公眾更好地理解和認識新技術及其應用,才不至于使公眾對新技術產生一些偏見,反過來影響新技術本身的發展。第五,人工智能治理還需要加強國際合作,針對全球人工智能重大國際共性問題進行研究,共同應對全球性挑戰。
曹建峰指出,深度合成和其他人工智能技術的治理也需要權衡、兼顧四個目標:數字技術和數字市場的發展與創新;消費者權益保護尤其是個人數據和隱私保護;商業利益;以及公共利益和國家利益。避免顧此失彼,給技術和產業發展帶來不利影響。
張吉豫也指出,對于深度合成技術,需要構建多個維度的共同治理,而不僅僅依照法律,也包括倫理治理。倫理治理的一個重要方面就是培養技術人員的倫理意識,以及加強公民的數字素養。未來,法律與倫理會更好地銜接,科技公司及其人員在倫理意識和準則的引導下開發、提供解決方案,這可以轉化為智能時代的法理,為科技向善提供更好的保障,所以倫理與法理是一個發展互動的關系。此外,企業不能局限于滿足法律的最低門檻,也需要積極主動采取倫理方面的治理措施,比如成立內部的倫理委員會,對技術和產品進行倫理評估,管控倫理風險,并及時提出應對方案。
張欽坤最后提出了三點總結。第一,對于深度合成以及其他的創新技術,需要以堅持創新、鼓勵發展為導向,這一點無論是從國家競爭力來講,還是從人類社會發展規律上來講都是符合實際需求的。第二,前沿科技的發展,需要堅持安全的底線,堅持不侵害他人合法權益的底線。技術和商業模式只有保持一定的克制,不觸及底線,不試探底線,才能給整個行業帶來更大的發展福利。第三,堅持全球化的視野,現在整個科技創新和制度探索進入了無人區,沒有先例可循,需要形成全球共識和共識性規則。