基于音視頻的自動化低成本VR視頻生成方法分析

2021-11-22 16:55:56王天煬

電子技術與軟件工程 2021年13期

王天煬

（徐州工業職業技術學院信息工程學院江蘇省徐州市 065000）

在2016年1月的國際消費電子展（CES）上，與虛擬現實（VR）相關的展品在虛擬現實（電子展）上如火如荼地展開，德國以及其他國外VR長都會展出大量的虛擬現實VR設備，硬件設備不斷更新及客戶的需求不斷提升，著推動了VR產業的發展，使得生態VR產業鏈變得更加豐富，同時在一定程度上降低成本。

1 背景

1.1 VR視頻概念

虛擬現實（Virtual reality, VR）視頻又稱全景視頻或360視頻反饋，是一種使用虛擬現實硬件播放的視頻作品[1]。虛擬現實技術最重要的是它模擬了計算機的仿真技術，而計算機仿真技術就是要建立虛擬場景，然后通過虛擬技術實現現實虛擬，模擬現實世界的運動。用計算機模擬技術構建的虛擬場景可以是現實中的真實場景，也可以是完全虛化出來的場景。有許多不同的可能性，從不同的角度描述虛擬現實，但其中一個最重要的共同點是，虛擬現實可以通過不受時間和空間控制的虛擬環境，為用戶創造一種交互式、沉浸式的臨場感體驗，這個共同的特點也是VR視頻最大的特點。

因此，本文提出了一種利用現有的視聽資料制作虛擬現實視頻的新方法，結合自然語言處理、三維建模、虛擬現實等技術[2]，本文主要從以下幾方面展開探討：

（1）通過系列化的標準步驟以及較為完整的自動轉換操作，不需要過多專業計算機知識也能生成VR視頻；

（2）將攝影機錄制的VR視頻與運動相機所錄制的視頻進行對比，不但可以節省技術成本，同時也能縮短時間，從而在短時間內制作出大量視頻作品；

（3）針對那些歷史悠久或是視頻像素較差的，這種方式也能輕松將視頻轉換成VR視頻。

1.2 VR視頻生產方式

VR視頻制作過程包括多種現代成像技術，其中就包括計算機仿真技術、圖形切割技術、實時三維技術、人工智能技術等。虛擬現實視頻制作可以有兩種制作形式，第一種就是利用全景攝影機進行全景錄制視頻和制作視頻；第二種就是使用CG技術制作成三維建模所需視頻，從而生成VR視頻。

1.2.1 全景攝影機拍攝視頻

拍攝虛擬現實視頻需要用到全景攝影機也可以稱為多鏡頭攝影機對圖像內容進行全方位的拍攝和拼接，本文中的VR視頻制作多鏡頭系統制作全景視頻可以分為三個不同階段：就是將攝影機標定，將圖片進行同步和融合，從而生成視頻流。攝影機拍攝的虛擬現實視頻可以分為全景交互視頻、局部3D視頻、非全景視頻以及VR全景視頻這五種，這五種VR視頻制作差異化逐漸減小，體驗效果也逐漸提升，在這五種中，全景3D視頻具有良好的沉浸效果和互動效果，在這種視頻中用戶可以參與到視頻中，在視頻中用戶可以與歷史場景進行交互，而視頻內容也會根據用戶選擇而做出不同反應，從而改變視頻發展動向，這種全景3D交互視頻可以真正讓客戶體會到身臨其境的感覺。VR視頻制作一直都是難點，不管視頻是否交互，或是什么場景交互，怎樣進行交互，這些都是制作VR視頻的難點，除此以外，全景3D視頻制作所需周期較長，制作成本較高，在短時間內無法制作出大量成熟的視頻。

1.2.2 利用計算機圖形技術生成VR視頻

CG技術制作的VR視頻和3D動畫版本的VR視頻較為相似，通過充分使用映射、渲染等手段，它的視覺效果基本上與全景攝影機所拍攝的視頻沒有差異，通過與全景攝影機拍攝出的視頻對比，CG技術制作出的VR視頻更容易控制視頻節奏和工作速度。這種技術并不需要那些昂貴的設備以及專業攝影師的支持，同時也解決了一些創作難度較大的問題，其一就是對于構建和設計虛擬場景來說，所需要的內容腳本和希望表達的中心思想都需要具有創造力的人才；其次，虛擬場景多數是制作出具有角色模型的物理動畫人物，這是通過運動相機實景錄制的，錄制裝備不僅價格較高而且操作起來較為繁雜，這種設備需要非常專業的技術人員，同時需要他們熟練掌握技術，在一定程度上提高了制作虛擬現實視頻的門檻。

1.2.3 生成VR視頻面臨的挑戰

在已經存在的虛擬現實視頻制作基礎方，想要尋找一個新型的低成本、高質量制作視頻的方法無疑是一個挑戰。較為復雜的制作視頻過程在一定程度上降低了制作視頻內容的效率，例如全景視頻制作過程就包括了教學設計、腳本設計、實景拍攝以及后期制作等多個步驟，無論是哪種拍攝制作全景視頻都需要大量硬件設備支持，這不但增加了制作成本，同時也提高了對于攝影制作技術的要求，更重要的是這對視聽圖像以及錄制音頻都有重要價值。

2 研究方案

2.1 工作流程

文中所提到的制作多媒體視頻和轉換音頻成為虛擬現實視頻的方法可以有以下幾種：

（1）可以利用相關語音識別工具將視頻或是音頻中的信息提取出作為文本信息；

（2）可以用自然的語言處理方式獲取具有情感的文本信息；

（3）在虛擬三維場景中采用文本、音頻、說話人角色模型、人體運動動畫生成虛擬現實視頻。

2.2 語音識別獲取音頻字幕文件

VR視頻轉換中最重要的一步就是將視頻中信息進行文本化操作，從視聽資料中獲取字幕文件，在選擇語言識別軟件時，要保證一定的語言識別準確性，同時要以方便獲取語言字幕文件為出發點[3]。

現今市場中已經存在較多成熟的語音識別系統和識別軟件，如iFLYTEK、微軟語音SDK等，通過對市場上幾種語言識別軟件的測試和比較，本研究假設免費智能視頻翻譯軟件，軟件的智能性體現在能力上自動分割語音軸，識別字幕內容和語言信息，最后只要一鍵就能將文本輕松導出成為字幕文件，翻譯軟件需要設置簡單明了的操作界面，將功能設置進行細化區分，讓初學者也能輕松操作，軟件應該具有較高的聲音識別精準度，所導出的字幕文件應該包含不同的文本時間信息，同時使軟件滿足更多人需求。

2.3 通過語言處理技術獲得文本信息

2.3.1 文中所提獲取文本信息方法

自然語言文本轉換信息已經占到信息總量的八成，文本信息分析和信息處理都處于語言處理的范疇內，現如今的語言處理研究方式分為兩種：第一種就是現今較為流行的以數理統計機械性學習的方式，第二種就是在傳統語言處理基礎上進行自然語言處理工作，使用的方法應該按照實際的工作情況而定。

本文提出了一種自動化、經濟高效的虛擬現實視頻轉換方法，它是減少人工操作、節省時間和人力成本的出發點之一，本文之所以討論短語相等而不是文本相等，因為語言識別中的字幕文件都是作為字幕形式出現，語音分析也要根據句子的難易度進行區分，將句子詞級進行對比處理，可以更進一步降低文本情感分析的難度。

2.3.2 將情感詞典作為基礎獲取文本情感標簽

通常情況下，人們都會將情緒化語言作為表達自身觀點與想法的表現形式，例如說“優秀”可以作為表達鼓勵人們的積極想法，而“差”則是可以表達否定的想法，這種形式是最為直接簡單的表達情感的方式。因此，我們可以根據句子中的感情詞來粗略判斷句子的情感類型，并為所有領域建立一個完整的情感詞典。雖然感情詞的內容形式較為復雜多樣，但是人類情感的基本分類是一致的。例如，人類的情感無非是喜、怒、悲、喜，本研究以大連理工大學中文情感嘔吐本體數據庫作為情感詞典進行情感分析。

2.3.3 處理字幕文件中的時間軸標簽

打開字幕文件后進行音頻轉換，可以看到每一句話。它包含一個文本序列號和一個時間線標簽，我們將這三個元素視為一個字幕元素，在上一節中，通過自然語言對字幕中的文本進行處理，提取文本的情感日，在這一節中，將時間軸的名稱處理成字幕元素，得到每個句子的時差。最后，SRT字幕文件被轉換成可以以單位處理的字幕文件。

2.4 情感動畫的匹配

2.4.1 構建角色動畫以及場景模型

在文本匹配和制作動畫之前，應該建立相應虛擬場景、角色模型及運動動畫。在本研究中，使用3dsmax對角色動畫進行建模，場景模型是在unity中建立的。3ds Max是最常見的三維建模，世界動畫和渲染軟件。使用3dsmax建模可以分為三個步驟：第一，對于簡單的幾何圖形，使用3dsmax的內置圖形庫非常方便；對于復雜圖形，通常采用NURBS面片造型或多邊形造型；第二，構建模型所需材料就是模型的外觀。在3D全景視頻中，一般采用紋理作為模型材質，但是這些材質通常可以利用其它軟件進行處理，對模型進行微調、最終細化，包括設置相機位置、設置視角和反射模型等，在完成一系列操作后，將模型更改并發布為TGA序列格式在建立模型和場景后，下一步是在單元VR視頻中生成模型、音頻、字幕和動畫，對于分割視頻，本文的方案是分割全景圖像，從而實現將視頻制作成全景展示，這種制作方式還是和以往有所區別的，本文中主要是針對視頻元素展開討論，而不是視頻中的幀速。

2.4.2 將字幕、音頻、角色、情感動畫進行匹配計算

在3D制作軟件中導入字幕文件、音頻文件、角色模型等相關文件，利用軟件算法可以設計出相應所需的虛擬場景和原始的語言場景，這和傳統的視頻制作相似，軟件生成的VR全景視頻是相對較為完整的視頻，其中包好了人物、字幕、音頻等內容。因為字幕是通過語音文件轉換生成的，所以可以確保字幕與語音內容的一致性，這也是軟件算法的關鍵點。字幕和語音應該在同一時間出現，字幕所表達的內容也應該與人物肢體動作一致。

在播放視頻音頻時，軟件主程序應該顯示出文本字幕內容，之后在軟件進行短時間等待后再展示下一個字幕文本。兩個文本字幕應該有短時間的時間差，同時應該使用合適的情感標簽和人物肢體動作算法，從而將字幕內容和人物肢體動作、語音內容等進行一致化處理。

3 成本控制方法

3.1 VR全景視頻制作成本

3.1.1 拍攝視頻設備成本較高

在國內外都有很多知名的相機品牌，例如三星、諾基亞相機、索尼相機暴風眼相機等，這些品牌都有不同的機型型號，通過對比可以發現，不同相機不同功能所需價格也有所不同。因為現今的供求關系以及戰略影響，同一種相機同一種型號在不同地方和時期都會有不同的價格。

3.1.2 制作視頻時間成本大，人員動用多且復雜

在制作VR全景視頻時，對于攝影師以及攝影場景都要較高要求，這比普通視頻制作要困難，所以前期所做的準備工作也較為復雜，這也需要更多的工作人員進行策劃和溝通制作細節，同時也要有更多經驗豐富的全景攝影師，與此同時，VR全景拍攝所需要的時間成本、人力成本都較為高昂。

3.1.3 后期制作難度高

普通視頻的后期編輯主要涉及特效的編輯和編排。全景視頻VR首先要做的是將不同方向的素材進行拼接，同時還要對圖像進行校正，使影片的環境更加逼真，因此，VR全景視頻后期制作也需要相當的時間和制作能力。

3.2 VR及3D視頻生成方法成本

文中提到的方法減少了攝影設備和錄音設備的投入，所以可以從一定程度上縮減成本，更節省了開支[4]，我們只需要重新創建現有的音頻和視頻來生成高質量的VR內容，這意味著幾乎不需要花費任何成本，只需使用很少的軟件，對于人工需求也縮減了人員，只需要有人創建模型，需要專業人員將全景視頻進行單元分割。

4 總結

綜上所述，隨著虛擬現實技術的普及和硬件價格的提高，用戶們對虛擬視頻的內容不斷提高，但是現今虛擬現實視頻生成都有制作難度強和制作成本高的問題，對以往有價值的音視頻素材進行恢復，提出了一種利用現有音視頻數據生成虛擬現實視頻的新方法，與傳統的VR視頻制作方法相比，該方法可以節省大量的時間、人力成本。