金 炯,吳國芳
(紹興職業技術學院,浙江 紹興 312000)
隨著現代影視技術的高質量發展,人們對各類影視作品的特效要求越來越高,對一些高互動性的電視娛樂項目需求不斷增加。對此,本文以虛擬演播室技術的應用為例,介紹智能人物摳像技術,明確人物摳像方法的適應性與適用場景,提高摳像技術在現階段虛擬演播室領域的實際應用質量。
在視頻分辨率不斷提高的今天,人們對圖像的沉浸性效果要求越來越高。同時,摳像技術的發展也在不斷強調圖像與場景的深度融合。通常情況下,影視作品的摳圖工作以綠幕作為背景,利用色鍵摳像原理進行后期處理。一般情況下,在拍攝視頻過程中,為方便后期修剪,前景色彩不會使用與背景相近的顏色,這樣在后期摳圖中便可以分辨出哪部分是前景哪部分是背景。盡管這個辦法大大降低了拍攝難度,但也有很多困難和限制。一方面,在光線的作用下,背景的色彩會被反射到前景上,因此前景上不能完全認為不存在任何一種背景色彩,這就是所謂的“溢色”現象,是后期摳圖處理中的技術難點之一。另一方面,色彩的抓取和摳圖還得有專用的攝影棚,制作成本相對比較昂貴。因為該技術的發展已經相對比較成熟,并且具有較高的處理效率,所以現階段該技術在影視拍攝等場合得到了大量的應用。現如今,隨著云計算與人工智能(Artificial Intelligence,AI)技術的飛速發展,現階段虛擬演播室的摳像技術得到革命性的突破,使得系統能夠自動選擇前景,并且可以有效地對人物的頭發和邊緣進行處理,在不顯露出任何處理痕跡的情況下,還原各個細節[1]。
色鍵抓取摳圖的對象要求在特定的環境下拍攝,因此屬于非自然條件情況下拍攝,但是自然場景摳像則是在不做任何特別布景時對拍攝到的照片、影像進行的摳像操作,具有不受空間和時間約束的優勢,適用于事先拍好的照片或影像處理工作。目前,常見的方法有基于三分圖的人物摳象方法,單張圖像摳圖以及背景輸入的人物摳象。
從影視后期摳圖工作角度來看,色鍵摳像方法屬于一種對人物摳圖的簡化方法,與借助三分圖方法進行人物摳像處理原理相似,區別在于這里引入的約束并沒有實現背景與前景在圖像空間上的細致分割處理,實例如圖1 所示。

圖1 基于三分圖的摳像示意圖
由圖1 能夠看出,該方法通過人為畫出的方式確定大致前景區域(即圖中白色區域)以及背景區域(即黑色區域),還有圖中一些不確定前景與背景的區域。借助人工智能技術可預測出不確定是前景圖像還是背景圖像便可以實現圖像摳圖。現階段應用到摳圖領域的神經網絡算法與傳統方法都可以實現上述目的。盡管基于三分圖的摳圖方法對算法的要求不高,但是卻極大增加工作量。若在后期處理過程中想把一個視頻里的所有人體及其特征都摳出來,不但會花費大量時間,而且實際摳圖的效果無法確定,即摳圖后的質量會受到后期人員對三分圖劃分的精細度影響。對此,為簡化這個該方法,近幾年相關研究者進行過很多改進,比如只讓用戶簡單參與以此方式確認背景或前景[2]。
為避免影響,有研究提出采用一幅圖像的方式,將透明遮擋信息從一幅圖像中直接輸出出來。首先,該算法模型利用語義劃分的方式,對目標進行輪廓或大概的定位。該部分操作與之前的三分圖相似,只是由手工繪制變為由網絡自動生成,之后對目標具體細節部位進行預測,最終實現目標的精確定位與摳圖操作。
背景圖像輸入的摳像方法是一種圖像處理技術,旨在從包含人物和背景的圖像中將人物對象精確地提取出來,以便將其放置在不同的背景中或進行其他后續處理。這種方法通常涉及計算機視覺和圖像分割技術。
首先,需要做好數據準備工作,收集具有明顯人物和背景的圖像數據集,包括具有不同背景和姿勢的圖像,對這些圖像進行標記以標示人物的位置,可以使用邊界框或像素級別的標記。對圖像進行預處理和特征提取,包括去噪、亮度和對比度調整等操作,以確保輸入圖像的質量,使用計算機視覺技術來識別人物與背景之間的差異,包括顏色、紋理、形狀及邊緣等特征。
其次,借助分割算法進行分割操作。常用的分割算法有三種。基于閾值的分割,通過設置像素值的閾值來將圖像分成前景和背景;基于邊緣的分割,檢測圖像中的邊緣,基于邊緣將圖像分割成區域;基于深度學習的方法,使用卷積神經網絡(Convolutional Neural Networks,CNN)或語義分割網絡來實現像素級別的分割。
最后,進行圖像的后期處理,即對分割結果進行后處理,以去除可能的噪音或錯誤,包括填充孔洞、去除小對象或執行形態學操作。
使用該技術需要注意的是,基于背景圖像輸入的人物摳像是一個復雜的任務,成功的結果取決于圖像質量、分割算法選擇以及后續處理步驟的質量。在實際應用中,可能需要使用不同的技術和工具來適應不同類型的圖像和場景。深度學習方法在這個領域取得了很大的進展,特別是語義分割網絡,可以更準確地識別和分割人物對象[3]。
基于深度圖像輸入的人物摳像方法是一種圖像處理技術,利用深度圖像(包含圖像中每個像素的深度信息)來進行人物的精確分割。這種方法可以將人物從深度圖像中提取出來,并將其放置在不同的背景中,或用于對人物進行其他后續處理。該方法同樣需要進行圖像數據的預處理,獲取包含人物和背景的深度圖像數據集,可使用深度相機或其他三維傳感器進行采集,對數據集中的深度圖像進行標記,以標記人物的區域,常見的標記方式有像素級別的標注或邊界框標注。首先,對深度圖像進行預處理,如去噪、平滑或調整圖像的對比度和亮度等操作,以提升分割的效果。其次,從深度圖像中提取特征,可以使用形狀、深度值及表面法線等特征來描述人物和背景之間的差異;借助深度學習方法來進行圖像分割,特別是語義分割網絡,可以將每個像素分類為屬于人物或背景的類別,從而實現人物的精確分割。最后,將分割得到的人物對象與新的背景合成,或進行其他后續處理,如顏色校正、光照調整或添加特效等[4]。基于深度圖像輸入的人物摳像方法相比于僅使用RGB 圖像的方法可以提供更準確的分割結果,因為深度圖像提供了場景中物體的更多信息。然而,這種方法對深度圖像的準確性和質量要求較高,因此在應用此方法時,需要確保深度圖像的質量和準確性,并選擇適當的深度學習架構和算法來處理分割任務。
本節探究自然環境場景下的圖像摳圖方法。自然場景環境下,圖像人物摳像方法的優缺點對比如表1 所示。

表1 自然場景下圖像人物摳像方法對比
由表1 的對比可知,不同摳圖方法均有各自的優缺點,且都依賴拍攝原圖的質量與數據集,若拍攝圖像或視頻質量不高則會直接影響摳圖效果。另外,摳圖依賴數據集的完整性,若數據集中缺少某項數據或插件則不能達到良好的摳圖效果。比如,基于單張照片輸入的摳圖方法雖然具有通用性,并且適用于各種拍攝場景,但是存在明顯的缺陷,即對數據集有強烈的依賴性,若沒有數據集可能無法獲得良好的結果。基于三分圖片的算法要求使用三分圖片當作初始輸入數據,因此該方法更適用于一些專業領域的編輯軟件。而基于背景影像以及深度影像的摳圖技術則更適合直播、在線會議等領域,因為在上述環境中,攝像機是固定的,被拍攝者一般不會觸碰攝像機,拍攝背景不會改變,所以在這種情況下使用深度影像的影像處理方法實際處理結果將高于背景影像處理方法,但代價較高。在直播中,背景通常是經過設計的,主播需要展示自己的商品,因此將角色挖出并替換可能不符合主播的要求。然而,對于沒有實際角色或商品的虛擬直播來說,其具有更大的潛力[5]。
本節以阿里云視頻云技術為例,介紹摳像技術的線上應用。阿里云以AI 摳像技術為基礎,發布了一款云互動虛擬工作室,可以為用戶提供云上的場景摳像和虛擬場景制作。虛擬工作室采用“實時互動+導播”的方式,用戶只需要一款手機軟件就可以進行直播,滿足了用戶的操作要求,為用戶創造一種沉浸式的、可以達到廣電級效果的直播體驗。云計算交互虛擬演播室采用實景預設背景摳像以及摳像合成處理等眾多智能技術,可以實現多個實時實景的即時摳像以及虛擬背景生成,從而有效地解決主持人和嘉賓不在同一個空間不能進行專業演播的問題。因此,可以將處于不同地點的人合成到任何一個錄播室中,這樣即使相隔較遠,也可以利用虛擬演播技術,感受到在同一個空間中的沉浸感。
人工智能技術標志著社會進入新一輪發展時期。在虛擬演播室技術領域,借助人工智能技術,可有效減少人工處理的工作內容,簡化傳統摳圖方法,為后續演播室技術全面化與互動化發展奠定基礎。借助人工智能摳像技術,可為節目播出形式提供更加多元化的發展方向,為后續業務的發展提供服務。