章瑾 馮平



摘? 要: 配音節奏特征對于影視動畫人物理解與情緒表達尤為重要,基于此,設計影視動畫配音節奏特征的自動提取系統。配音采集模塊采用TLV320AIC23音頻接口芯片,該芯片內部集成A/D和D/A轉換器,可對采集的影視動畫配音音頻進行模數轉換,將獲取的模擬信號傳輸至節奏特征提取模塊。節奏特征提取模塊以TMS320VC5509 DSP芯片為核心,采用優化后的哈佛結構,利用配音節奏特征提取算法提取影視動畫配音節奏特征。配音節奏特征提取算法中,通過快速傅里葉變換確定復數域信息,確定發音點檢測信號,以及各幀發音點檢測信號函數的自相關函數。基于上下文的節拍周期推導算法推導配音片段節拍周期?;诎l音點檢測信號函數,通過HMM模型可推算節拍出現的詳細時間點并進行節拍跟蹤,確定節拍速度特征。實驗結果顯示,所設計系統可準確劃分影視動畫配音情緒類型,且能耗較低。
關鍵詞: 影視動畫; 配音采集; 節奏特征提取; 發音點檢測; 系統設計; 節拍跟蹤
中圖分類號: TN911.23?34; TP391? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)18?0059?05
Abstract: The dubbing rhythm features are particularly important for the understanding and emotional expression of the characters in the film and television animation. Based on this, an automatic extraction system for the dubbing rhythm features of film and television animation is designed. TLV320AIC23 audio interface chip is used in the dubbing acquisition module, and A/D converter and D/A converter is internally integrated in the chip, which can execute the analog?to?digital conversion of the collected dubbing audio of the film and television animation, and transmit the obtained analog signal to the rhythm feature extraction module. The rhythm feature extraction module takes TMS320VC5509 DSP chip as its core, adopts the optimized Harvard structure, and extracts the dubbing rhythm features of the film and television animation by means of the dubbing rhythm feature extraction algorithm. In the algorithm of dubbing rhythm feature extraction, the complex number field information is determined by the fast Fourier transform, so as to confirm the detection signal of the pronunciation point and make sure the autocorrelation function of the pronunciation point detection signal function of each frame. The beat cycle of the dubbing segment is deduced according to the contextual beat cycle derivation algorithm. According to the function of pronunciation point detection signal, the detailed time points where the beat appears can be deduced with HMM model to track the beats and determine the beat speed features. The experimental results show that the designed system can accurately classify the dubbing emotion types of film and television animation, and has low energy consumption.
Keywords: film and television animation; dubbing acquisition; rhythm feature extraction; articulation point detection; system design; beat tracking
0? 引? 言
信息與多媒體技術的發展使影視動畫成為現代娛樂生活的主要形式。影視動畫內聲音與畫面并非同時出現,通常通過音響模擬出適合的聲音效果和滿足實際的場景效果。影視動畫中配音包括角色配音、音效與背景音樂。影視動畫中背景音樂與動畫內容聯系緊密[1],起到豐富、烘托畫面內容,提升感染力、抒發情感,增強視聽感受的作用。人物是影視動畫的靈魂,動畫角色的配音與人物的話語具有相同的功能,不同性別、不同年齡、不同個性的角色其聲音的音質、音色以及語速均有所差異[2]。
節奏是有聲語言運動的一種形式[3],配音節奏控制是影視動畫角色把握人物形象特點與性格特征、抒發角色內心情感的主要方式,同時也是影視動畫增添內容趣味、渲染故事情節、突出事件特征的主要方式。由此可知,節奏控制對于影視動畫配音尤為重要,把握節奏特征是節奏控制的基礎[4]。基于此,設計基于影視動畫配音節奏特征自動提取系統,利用BPM配音節奏特征提取算法提取節奏特征,準確分析影視動畫配音內容的情感表達。
1? 影視動畫配音節奏特征自動提取系統
1.1? 系統整體結構設計
影視動畫配音節奏特征自動提取系統包含配音采集模塊、節奏特征提取模塊、RAM、FPGA及外部存儲器等。系統硬件結構如圖1所示。
配音采集模塊采用高性能立體聲音頻編解碼器TLV320AIC23單片音頻接口芯片,該芯片內部集成A/D和D/A轉換器[5],轉換器采用過采樣數字插補濾波的多位Sigma?Delta技術完成模數轉換。轉換后模擬信號發送到DSP芯片內進行節奏特征提取、壓縮編碼、HMM(隱馬爾可夫模型)識別[6]。數據流程與液晶顯示通過FPGA控制。ROM,RAM和FLASH模塊的功能分別為存放DSP程序與初始化數據、程序執行與數據暫存以及訓練樣本庫存儲。
1.2? 配音采集模塊
配音采集模塊結構如圖2所示。配音采集模塊的控制協議與數據傳輸協議分別為SPI總線和I2S總線[7],SPI總線連接MAXⅡ EMP240可編程邏輯與AIC23單片音頻接口芯片,利用I2S總線進行數據傳輸。各AIC23芯片無需單獨控制[8],通過一路SPI總線進行連接,降低EMP240內寄存器使用量。各AIC23芯片采集的配音信息相對獨立,使用I2S總線需單獨轉換。
TLV320AIC23單片音頻接口芯片數據傳輸字長包括16位、24位和32位,可滿足6~98 kHz之間的采樣頻率。EPM240采用具有非易失性的CPLD架構,將傳統可編程邏輯成本與功耗分別降低50%和90%,而密度和性能則提升400%和200%。EPM240的具體作用是提供一種解決方案來確保2種總線協議轉換過程中成本最低。在配音采集模塊中AIC23芯片的具體作用為數據轉換,利用A/D轉換器將4路配音信號轉換為數字信號,經由數據傳輸協議傳輸至EPM240內,利用其串并協議轉換,將各AIC23芯片的串行數據轉換為并行數據,供MCU讀取處理。處理后的數據被EPM240轉換為I2S協議數據,返回至AIC23芯片內,利用D/A轉換器轉為模擬量信號,傳輸至節奏特征提取模塊內。
1.3? 節奏特征提取模塊
TMS320VC5509 DSP芯片作為節奏特征提取模塊的中心,基于配音采集模塊轉換傳輸的模擬信號,完成影視動畫配音節奏特征提取。TMS320VC5509 DSP芯片以優化后的哈佛結構為支撐[9],內含16位定點,供電電壓、片內RAM和ROM分別為3.5 V、64 KB和6 KB,具有管理結束、不間斷運算以及功能調用等特性,功耗較低。該芯片內還設置了時分復用串口和帶緩沖區的標準串口[10],數量分別為1個和2個。該芯片指令周期設定為10 ns,也就是芯片運算速度卡達到100 MIPS。圖3為TMS320VC5509 DSP芯片與TLV320AIC23單片音頻接口芯片的連接示意圖。
1.4? 配音節奏特征提取算法
在DSP芯片內設計配音節奏特征提取算法并提取影視動畫配音節奏特征。配音節奏特征的提取可理解為節拍速度相關特征的提取[11],單位為BPM。通過確定配音音頻發音點可獲取其自相關函數,由此計算獲取節拍周期,基于節拍周期計算BPM值。
1.4.1? 音符發音點檢測
檢測音符發音點時采用能量與相位相結合的方法,即通過快速傅里葉變換確定復數域信息[12],公式為:
式中: [Ekm]和[wjεkm]分別為前一幀的振幅和能量;[m]和[εkm]分別為幀的編號和相位變化。[εkm]根據前一幀與更前一幀的相位差獲取,公式如下:
式中,[ξk]和[princarg]分別為相位值和將[ξk]映射至[-π,π]范圍內。通過下式描述第[k]個頻率段的實際復數域值確定過程:
式中:[Ekm]為快速傅里葉變換后當前幀的振幅;[wjξkm]為快速傅里葉變換后當前幀的相位。用式(4)描述各幀特征:
利用式(4)獲取影視動畫配音音頻全部幀的特征后將其歸一化,以此獲取音符發音點檢測信號,其具有時間上連續的特征。
1.4.2? 節拍周期推導
連續性與周期性是影視動畫配音節奏的主要特性[13],基于此,可利用發音點檢測信號,采用基于上下文的節拍周期推導算法推導影視動畫配音片段節拍周期。
確定各幀發音點檢測信號函數的自相關函數,通過數據預處理可獲取更清晰的自相關函數。設定自適應移動均值門限:
設定滑動窗口尺寸為16個點,計算檢測信號函數各點與相對門限差值,同時以半波整流形式輸出,表達式如下:
利用式(7)計算預處理后信號的自相關函數:
式中:[i=1,2,…,N]為單幀點數,[N]為幀長。用[δi]表示自相關域內任意點,利用式(8)將其映射至節拍速度上:
確定各幀自相關函數后,對其實施加權處理。由于各代表節拍周期的點權值一致將導致節拍周期存在過量自由度,造成輸出結果有所差異[14],因此采用基于瑞利分布的函數進行加權,表達式如下:
式中:[i]和[c]分別為節拍周期的各點和權值最大的點數,通常分別取值[1,128]和45。
利用式(8)可得權值最大的第45個點,其BPM大致為104。利用式(9)準確描述代表節拍周期的點與配音音頻節奏周期的對應關系。由節拍的連續性可知,相鄰兩幀數組的節拍速度具有相關性[15]。推導各幀音頻節拍周期過程中需考慮此相關性。用[tc]表示當前幀的節拍速度,可基于上一幀推導的節拍速度[tc-1]推導[tc]。
構建以標準差的高斯分布P作為狀態轉移矩陣各列的HMM模型,得到狀態轉移矩陣表達式:
式中,[ti]和[tj]為狀態轉移范圍,取值[0,127]。以瑞利分布為初始概率分布,配音音頻各幀的自相關函數作為觀測序列,通過維特比算法求解。以前一幀狀態概率向量與相對的狀態轉移矩陣向量間乘積的最大值作為當前幀狀態概率向量,表達式如下:
將當前幀狀態概率向量與對應點的自相關函數相乘,得到當前幀速度為狀態概率向量:
當前幀速度為狀態概率向量最大值的索引可用式(13)來描述:
利用式(13)將點數映射至節拍周期。
1.4.3? 節拍追蹤
基于發音點檢測信號函數,通過HMM模型可推算節拍出現的詳細時間點。節拍追蹤過程中需賦予發音點檢測信號函數各點一個狀態,用[ε]表示,描述此點與上一節拍點間的距離,單位為點數。舉例說明:節拍點為第[t]個點,其狀態[εt]為0,則下一個節拍點的狀態值[εt-1]為1。各狀態生成一個觀測[L],音符發音點檢測信號為觀測序列。通過上述過程可顯著提升節拍周期與BPM推算的精度。
2? 實驗分析
為了驗證本文設計的影視動畫配音節奏特征自動提取系統的實用性,分別在《哪吒之魔童降世》和《名偵探柯南》2部影視動畫中選取驚恐、興奮、輕松、難過4種情緒的影視動畫配音片段,每種情緒各100段。采用本文系統提取400段影視動畫配音片段的節奏特征,獲取不同情緒配音的BPM分布直方圖,描述不同情緒配音的差異。不同情緒配音節奏特性分布直方圖如圖4所示。
由圖4得到,不同情緒的配音片段中驚恐與興奮的BPM峰值較高,說明在影視動畫中出現令人驚恐與興奮的片段時,其配音節奏特征較為顯著,易被提取。在驚恐與興奮的情緒片段中,音效與背景音樂制作中多采用打擊類樂器。對比之下,輕松與難過的情緒片段的BPM峰值較低,說明在此類片段中配音節奏特征不明顯,不易被提取。對于此類片段,管弦類樂器使用較多。
分別采用本文系統、基于頻譜能量分布的配音特征提取系統和基于語調相關基頻的特征提取系統對所選的400段配音片段進行情緒分類,得到的結果如表1~表3所示。
根據表1~表3中情緒分類統計結果,確定3個不同系統情緒分類結果的準確率、召回率以及F1值,結果如圖5所示。根據表1~表3和圖5中的情緒分類結果能夠得到,本文系統提取影視動畫配音節奏特征進行情緒分類,準確率、召回率以及F1值均高于基于頻譜能量分布的配音特征提取系統和基于語調相關基頻的特征提取系統?;谡Z調相關基頻的系統對于驚恐與興奮情緒的分類效果優于基于頻譜能量分布的系統,說明該系統對于BPM峰值較高的配音分類效果較好。本文系統對于4種情緒的分類檢測指標變化差異較為平緩,對于BPM峰值較低的輕松與難過情緒配音分類效果也較好,說明本文系統能夠準確地提取影視動畫節奏特征,利于影視動畫配音情緒分類。對比3個系統提取影視動畫配音特征過程中的資源占用率,測試本文系統的能耗,結果如表4所示。
由表4得到,本文系統的CPU占用率和內存占用率在3個系統中最低,分別是3.32%和1.25%,說明本文系統提取影視動畫配音節奏特征時,能耗較低。
3? 結? 論
本文設計影視動畫配音節奏特征自動提取系統,在DSP芯片內設計配音節奏特征提取算法,融合發音點檢測算法、節拍周期推導算法和節拍追蹤算法,并進行優化,通過BPM體現影視動畫配音節奏特征。將本文系統應用于影視動畫片配音情緒的分類中,與對比系統相比,該系統具有顯著優越性。
參考文獻
[1] 李響,李國正,石俊剛,等.基于語音心理聲學分析的駕駛疲勞檢測[J].儀器儀表學報,2018,39(10):166?175.
[2] 胡婷婷,馮亞琴,沈凌潔,等.基于注意力機制的LSTM語音情感主要特征選擇[J].聲學技術,2019,38(4):414?421.
[3] 張興儉,袁樂平,趙嶷飛.疲勞及緊張狀態管制員通話語音反應特征研究[J].中國安全科學學報,2018,28(6):37?42.
[4] 王金華,應娜,朱辰都,等.基于語譜圖提取深度空間注意特征的語音情感識別算法[J].電信科學,2019,35(7):100?108.
[5] ZHENG Shuhe, LIN Changshan, YE Dapeng, et al. Structural optimization of grooved?roller seed metering device for Pennisetum and simulation and experiment of seed metering dynamics [J]. Transactions of the Chinese society of agricultural engineering, 2017, 33(21): 36?43.
[6] 張濤,任相贏,劉陽,等.基于自編碼特征的語音增強聲學特征提取[J].計算機科學與探索,2019,13(8):1341?1350.
[7] 許良鳳,劉泳海,胡敏,等.語譜圖改進完全局部二值模式的語音情感識別[J].電子測量與儀器學報,2018,32(5):25?32.
[8] 成帥,張海劍,孫洪.結合時變濾波和時頻掩碼的語音增強方法[J].信號處理,2019,35(4):601?608.
[9] 蔣梅笑,章光,徐衛青,等.基于三維激光掃描點云的邊界特征自動提取算法[J].武漢理工大學學報,2017,39(6):68?72.
[10] 侯一民,李永平.基于卷積神經網絡的孤立詞語音識別[J].計算機工程與設計,2019,40(6):1751?1756.
[11] 范開宇,王革麗,李超,等.利用慢特征分析法提取二維非平穩系統中的外強迫特征[J].氣候與環境研究,2018,23(3):287?298.
[12] 后方帥,黎美琪,劉若倫.利用諧波顯著度和語者音色特征的混合語音中目標人基頻軌跡提取[J].聲學技術,2019,38(4):408?413.
[13] STEPHANIE A B, KAITLIN L L, TYSON S B. Rhythm perception and its role in perception and learning of dysrhythmic speech [J]. Journal of speech language & hearing research, 2017, 60(3): 561?570.
[14] 周健,竇云峰,劉榮敏,等.采用低維特征映射的耳語音向正常音轉換[J].聲學學報,2018,43(5):855?863.
[15] 姜芃旭,傅洪亮,陶華偉,等.一種基于卷積神經網絡特征表征的語音情感識別方法[J].電子器件,2019,42(4):998?1001.