基于口型運(yùn)動(dòng)速度的視頻序列對(duì)齊方法

2018-01-03 01:55:02王小芳王文青

計(jì)算機(jī)應(yīng)用與軟件 2017年12期

關(guān)鍵詞：特征

王小芳王文青魏瑋

(河北工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與軟件學(xué)院天津 300401)

基于口型運(yùn)動(dòng)速度的視頻序列對(duì)齊方法

王小芳王文青魏瑋

(河北工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與軟件學(xué)院天津 300401)

基于視頻人臉替換系統(tǒng)中降低視頻抖動(dòng)和滿(mǎn)足語(yǔ)音跟口型匹配的要求，提出一種基于視頻圖像中口型運(yùn)動(dòng)速度特征的視頻口型對(duì)齊方法。視頻中將ASM和光流法相結(jié)合，獲取穩(wěn)定的口型運(yùn)動(dòng)速度特征;利用平行線約束條件對(duì)動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法的路徑搜索范圍進(jìn)行約束以快速求得最優(yōu)的匹配路徑；得到對(duì)齊后的視頻并給出相似性評(píng)價(jià)。實(shí)驗(yàn)結(jié)果表明，該方法可以使得兩段視頻中說(shuō)話的口型保持一致。口型對(duì)齊不僅滿(mǎn)足人物正臉不動(dòng)的情況，而且能滿(mǎn)足人物有任意小角度(<45°)的頭部運(yùn)動(dòng)的情況。最后對(duì)模仿視頻給出比較客觀的相似性評(píng)價(jià)，評(píng)價(jià)結(jié)果顯示該方法切實(shí)可行。

口型運(yùn)動(dòng)速度特征 DTW 視頻口型對(duì)齊相似性評(píng)價(jià)

0 引言

目前視頻中的人臉替換存在的一個(gè)最大問(wèn)題就是替換上的人臉出現(xiàn)抖動(dòng)的現(xiàn)象，許多人臉替換的前提假設(shè)源圖像和目標(biāo)圖像姿態(tài)的相似性[1]，其中視頻中替換人臉的口型與源視頻中人臉口型的相似匹配對(duì)替換結(jié)果是很重要的[2]。這是因?yàn)橐曨l中人臉變化最大、最不穩(wěn)定的區(qū)域就是嘴部，由于人物說(shuō)話的影響會(huì)使得人臉的長(zhǎng)度發(fā)生變化，從而對(duì)替換人臉中比例因子這個(gè)參數(shù)產(chǎn)生比較大的影響，如果視頻序列口型沒(méi)有對(duì)齊，最后會(huì)導(dǎo)致融合的結(jié)果中人物的臉大小變化比較大，從而出現(xiàn)閃動(dòng)的現(xiàn)象。

由于每個(gè)人的口型張合程度不一樣，視頻中人物鏡頭的遠(yuǎn)近不同以及視頻中人物頭部本身存在運(yùn)動(dòng)變化，單純利用嘴部特征的相對(duì)位置不能反映說(shuō)話口型真實(shí)的變化趨勢(shì)。本文選取了嘴部說(shuō)話的運(yùn)動(dòng)速度特征，能夠消除掉頭部整體運(yùn)動(dòng)產(chǎn)生的影響，從而體現(xiàn)出口型真實(shí)的運(yùn)動(dòng)變化趨勢(shì)。

本文進(jìn)行時(shí)間序列調(diào)整時(shí)利用的是動(dòng)態(tài)時(shí)間規(guī)整DTW算法來(lái)實(shí)現(xiàn)的。DTW算法最早是在20世紀(jì)60年代由Itakura提出，在1993年DTW算法最早應(yīng)用在語(yǔ)音識(shí)別中，該算法在處理語(yǔ)音信號(hào)相似性方面應(yīng)用比較廣[3-5]?，F(xiàn)在該算法已推廣到多種應(yīng)用領(lǐng)域，如單個(gè)手語(yǔ)識(shí)別[6]、動(dòng)態(tài)手勢(shì)識(shí)別[7-9]以及信息安全領(lǐng)域的簽名認(rèn)證系統(tǒng)[10]等。而該算法用在視頻中口型對(duì)齊這方面卻很少見(jiàn)。本文利用DTW算法根據(jù)口型的運(yùn)動(dòng)速度特征進(jìn)行時(shí)間規(guī)整，對(duì)視頻重新調(diào)整，達(dá)到兩段視頻序列中口型對(duì)齊效果理想。

本文的主要貢獻(xiàn)就是提出了正向口型運(yùn)動(dòng)速度特征和能夠適應(yīng)歪頭等復(fù)雜情況下的斜向口型運(yùn)動(dòng)速度特征，并對(duì)傳統(tǒng)的DTW進(jìn)行改進(jìn)，對(duì)路徑搜索時(shí)加入了平行線約束條件，提高了算法的運(yùn)行速度。最后本文提出了一種視頻對(duì)齊的相似性評(píng)價(jià)標(biāo)準(zhǔn)，能夠比較準(zhǔn)確地反映視頻中口型對(duì)齊的優(yōu)劣程度。

1 視頻圖像中口型特征提取

在本節(jié)中我們主要介紹一下視頻中對(duì)圖像序列提取反映語(yǔ)音信息的口型運(yùn)動(dòng)速度特征。人臉特征點(diǎn)跟蹤是計(jì)算機(jī)視覺(jué)中一個(gè)基本且極具挑戰(zhàn)性的研究課題。光流法是目前運(yùn)動(dòng)圖像分析的重要方法，因?yàn)楣饬骺梢詮膯蝹€(gè)像素的角度進(jìn)行特征點(diǎn)跟蹤而得到廣泛的應(yīng)用[11]。首先利用Haar_like算法對(duì)視頻首幀進(jìn)行人臉檢測(cè)，得到目標(biāo)人臉；用主動(dòng)外觀模型(ASM)對(duì)要對(duì)齊的目標(biāo)人臉進(jìn)行特征點(diǎn)提??；對(duì)要提取的特征點(diǎn)在以后的視頻幀中使用光流法跟蹤。最后根據(jù)設(shè)定的閾值用ASM進(jìn)行特征點(diǎn)矯正，計(jì)算得到反映人物語(yǔ)音信息的口型特征。

1.1 人臉特征點(diǎn)檢測(cè)

對(duì)視頻圖像進(jìn)行人臉檢測(cè)，然后選擇要進(jìn)行口型對(duì)齊的目標(biāo)人臉，再用ASM對(duì)人臉進(jìn)行特征點(diǎn)檢測(cè)，獲取人臉上的特征點(diǎn)。如圖1所示為檢測(cè)到的人臉及面部的特征點(diǎn)。

圖1 人臉及面部的特征點(diǎn)檢測(cè)

對(duì)于以后視頻幀中的特征點(diǎn)我們利用光流法進(jìn)行跟蹤，每次跟蹤都會(huì)與預(yù)先設(shè)定的閾值進(jìn)行比較，如果超出閾值則利用ASM進(jìn)行校正。假設(shè)當(dāng)前跟蹤的特征點(diǎn)位置為pi，前一幀的特征點(diǎn)位置為pi-1，考慮到嘴唇的點(diǎn)在縱向距離變化比較大，而在橫向的變化距離小，經(jīng)過(guò)實(shí)驗(yàn)獲得經(jīng)驗(yàn)閾值：橫向閾值r1=1和縱向閾值r2=3。當(dāng)|pi.x-pi-1.x|>r1or|pi.y-pi-1.y|>r2時(shí)重新進(jìn)行ASM人臉特征點(diǎn)檢測(cè)，更新當(dāng)前的特征點(diǎn)位置。

1.2 口型運(yùn)動(dòng)速度特征

經(jīng)過(guò)ASM特征點(diǎn)檢測(cè)，我們得到了人臉的77個(gè)特征點(diǎn)。因?yàn)樘崛〉氖欠从持v話的口型特征，考慮到嘴唇講話時(shí)張合變化最大的是嘴唇中間的點(diǎn)，所以本文選取的是上下嘴唇外輪廓的中心點(diǎn)，即第62和第74個(gè)特征點(diǎn)pi1和pi2，如圖1(b)中嘴唇上面的兩個(gè)特征點(diǎn)。在以后的視頻人臉跟蹤中分別跟蹤第62和第74這兩個(gè)點(diǎn)，嘴唇上面的點(diǎn)記作第一個(gè)特征點(diǎn)，嘴唇下面的記作第二個(gè)特征點(diǎn)。對(duì)于正臉和歪頭的情況，我們分別提出了正向口型運(yùn)動(dòng)速度特征和兼容兩種情況的斜向口型運(yùn)動(dòng)速度特征。

1.2.1 正向口型運(yùn)動(dòng)速度特征

對(duì)于視頻中人物正臉的情況，人物講話過(guò)程的嘴唇變化最主要的就是嘴唇的張合，所以本文計(jì)算嘴唇的上下相對(duì)距離來(lái)作為嘴唇張合的判斷依據(jù)。然后利用前后幀嘴唇張合的相對(duì)距離計(jì)算時(shí)間序列的一階差分獲得嘴唇的速度信息，這樣可以規(guī)避掉由于人物本身運(yùn)動(dòng)或頭部運(yùn)動(dòng)產(chǎn)生的速度干擾。那么視頻序列A的第i幀的口型運(yùn)動(dòng)速度為ai，如公式：

ai=(yi-1,2-yi-1,1)-(yi,2-yi,1)

(1)

式中，yi,1表示第i幀的第一個(gè)特征點(diǎn)的縱坐標(biāo)。如此就得到了反映口型速度的特征向量a=(a1,a2,…,am)。

1.2.2 斜向口型運(yùn)動(dòng)速度特征

由于式(1)只用了兩點(diǎn)的縱坐標(biāo)的變化，該方法可以很好地適應(yīng)人物正臉說(shuō)話的情況，但是不適合對(duì)于人物說(shuō)話有隨意的小角度(一般不超過(guò)45°)的頭部運(yùn)動(dòng)的情況。當(dāng)頭有歪頭的情況時(shí)，導(dǎo)致嘴的實(shí)際的運(yùn)動(dòng)方向并不是沿著垂直方向而是始終沿著人臉的垂直方向，自然地，口型運(yùn)動(dòng)的實(shí)際方向就有了一個(gè)偏轉(zhuǎn)角度θ，就是沿著垂直方向偏轉(zhuǎn)θ角度的方向，因此本文提出了斜向口型運(yùn)動(dòng)速度，定義視頻序列A的第i幀的斜向口型運(yùn)動(dòng)速度為ai，如公式：

(2)

式中:xi,1表示第i幀的第一個(gè)特征點(diǎn)的橫坐標(biāo)，yi-1,2表示第i-1幀的第二個(gè)特征點(diǎn)的縱坐標(biāo)，其他同理。

2 視頻對(duì)齊

DTW算法最早是由Itakura提出來(lái)的，主要目的是用來(lái)衡量?jī)蓚€(gè)長(zhǎng)度不同的時(shí)間序列的相似度。其在語(yǔ)音處理領(lǐng)域應(yīng)用范圍很廣。本文在傳統(tǒng)的DTW算法的基礎(chǔ)上對(duì)其進(jìn)行了改進(jìn)，提出了一種平行線約束條件對(duì)局部搜索路徑進(jìn)行約束，利用該方法來(lái)解決圖像信息處理中的口型對(duì)齊問(wèn)題，能夠使得模仿視頻中人物口型與參考視頻模板對(duì)齊，對(duì)以后視頻處理奠定了基礎(chǔ)。

2.1 改進(jìn)DTW算法

首先，設(shè)有兩段視頻序列，其中一個(gè)為參考模板A，另外一個(gè)為測(cè)試模板B，前提條件是視頻序列B是參照參考模板模仿得到的，即兩段講話中的語(yǔ)素是相同的，不同的就是說(shuō)話的語(yǔ)速、嘴型的張合力度等因素。兩段視頻序列的長(zhǎng)度分別為m和n。經(jīng)過(guò)這兩種人臉特征點(diǎn)檢測(cè)的介紹，就可以分別獲得兩段視頻序列的口型速度特征向量a和b，即：

a=(a1,a2,…,am);b=(b1,b2,…,bn)

為了對(duì)齊兩段視頻序列，就需要構(gòu)造一個(gè)m×n的累加距離矩陣D。首先定義一下視頻序列中任意兩個(gè)特征點(diǎn)之間的距離d(ai,bj)=(ai-bj)2；對(duì)于累加距離矩陣中任意元素d(i,j)，它的值只可能來(lái)自于三個(gè)方向，如圖2所示。只來(lái)自于(i,j-1)、(i-1,j-1)和(i-1,j)。因此定義累加距離矩陣的計(jì)算公式為：

(3)

圖2 相鄰節(jié)點(diǎn)示意圖

由于兩段視頻序列中m和n一般比較大，如果全部計(jì)算累加距離矩陣中的每個(gè)值，此矩陣必然很龐大，運(yùn)算量也會(huì)很大?；诖耍簧俜椒ǘ紝?duì)DTW的搜索路徑進(jìn)行了改進(jìn)，從而減少計(jì)算量，提高系統(tǒng)的效率，如文獻(xiàn)[12]中提出了基于菱形的全局路徑約束。以上方法固定了搜索路徑的斜率，不能夠很好地適應(yīng)兩段口型時(shí)間上差別比較大的情形。文獻(xiàn)[13]提出了三個(gè)矩形區(qū)域的路徑約束條件，該方法更適合視頻序列比較長(zhǎng)的情況。本文對(duì)DTW算法進(jìn)行了改進(jìn)，提出了平行線的路徑搜索約束條件，搜索范圍由兩段視頻的時(shí)間差異決定，適合任意長(zhǎng)度的視頻序列。

在匹配過(guò)程中，許多節(jié)點(diǎn)是到達(dá)不了的，因此通過(guò)設(shè)置匹配窗口的大小，只計(jì)算兩條平行線之內(nèi)的部分累加距離，平行線之外的距離是不需要計(jì)算的，如圖3中陰影部分，從而縮小了計(jì)算量，提高了運(yùn)算速度。

圖3 路徑約束示意圖

這兩條平行線的斜率由參考模板的長(zhǎng)度m和待測(cè)模板的長(zhǎng)度n共同決定，這兩條平行線的方程分別為：

x(m-n+r)-yr+r(n-r)+2r=0x(m-n+r)-yr+r(n-r)=0

(4)

(1) 當(dāng)i=0，j=0時(shí)，d(i,j)=2|a0-b0|。

(2) 當(dāng)1≤i≤r，j=0時(shí)，d(i,j)=d(i-1,0)+ |ai-b0|。

(3) 當(dāng)i=0，1≤j≤r時(shí)，d(i,j)=d(0,j-1)+ |a0-bj|。

(4) 當(dāng)istart≤i≤imax，1≤j

d(i,j)= min{d(i-1,j)+ |ai-bj|；d(i-1,j-1)+

2 |ai-bj|；d(i,j-1)+|ai-bj|}

累加距離矩陣計(jì)算完成之后，矩陣中最后位置(m-1,n-1)的值存放兩個(gè)時(shí)間序列對(duì)齊之后的最小距離，即d(m-1,n-1)。

2.2 逆向搜索法尋找最優(yōu)路徑

根據(jù)前面計(jì)算得到的累加距離矩陣，從最大位置(m-1,n-1)開(kāi)始逆向搜索，直到(0,0)點(diǎn)結(jié)束。首先給出任意兩個(gè)數(shù)p和q，兩數(shù)的較小者我們簡(jiǎn)單地定義為：

(5)

設(shè)m=min{min(d(i-1,j),d(i-1,j-1)),d(i,j-1)}，定義矩陣Pm×n來(lái)存放最優(yōu)路徑，初始化矩陣全部為零，當(dāng)某位置(i,j)處有路徑經(jīng)過(guò)時(shí)，則將此處元素賦值為1，即p(i,j)=1。具體過(guò)程如下：

(1) ifm=d(i-1,j) 則i--，p(i-1,j)=1。

(2) ifm=d(i-1,j-1)則i--，j--,p(i-1,j-1)=1。

(3) ifm=d(i,j-1) 則j--，p(i,j-1)=1。

(4) ifi==0，則j--，p(0,j-1)=1。

(5) ifj==0，則i--，p(i-1,0)=1。

最后遍歷整個(gè)矩陣P，將值為1的坐標(biāo)(xi,yi)輸出，即得到最后的最優(yōu)路徑p0,…,pi,…,pm=(x0,y0),…,(xi,yj),…,(xm,yn)，其中pi=(xi,yj)，即A序列的第xi幀與B序列的第yj幀相對(duì)齊。由于待測(cè)模板向參考模板對(duì)齊，最后調(diào)整的待測(cè)模板長(zhǎng)度與參考模板相同。對(duì)于最后得到的最優(yōu)路徑中待測(cè)模板某一幀同時(shí)對(duì)應(yīng)參考模板好幾幀的情況，即存在某段路徑：(xi,yj-k),…,(xi,yj),…,(xi,yj+l)，根據(jù)式(6)將該幀與參考模板重復(fù)的每一幀進(jìn)行比較，計(jì)算速度的差值，選取差值最小的那一幀作為最后的對(duì)應(yīng)幀。

(6)

3 視頻序列的相似性評(píng)價(jià)

針對(duì)視頻序列對(duì)齊的結(jié)果，本文給出了關(guān)于對(duì)齊結(jié)果的相似性評(píng)價(jià)準(zhǔn)則。它能夠給出待測(cè)模板根據(jù)參考模板對(duì)齊之后達(dá)到的相似性程度，通過(guò)定義的匹配時(shí)間誤差來(lái)判斷。因?yàn)橐曨l對(duì)齊的目的是使得替換的人臉口型保持相似，從而使得五官位于臉上的比例相似，視頻替換上的聲音仍取自電影聲音，所以要求的是口型的相似而不是發(fā)音語(yǔ)素的相似?；诖?，本文就認(rèn)為口型張合的程度越相近就認(rèn)為模仿越像，也就是相似性越高。

由于兩段說(shuō)話視頻中表演者開(kāi)始講話的開(kāi)始時(shí)間是隨意的，評(píng)價(jià)的對(duì)象是表演者從開(kāi)始說(shuō)話到講話完成為止這段時(shí)間內(nèi)表演者兩段講話的相似性，所以首先獲得整段序列中表演者講話的那部分序列幀，對(duì)兩段視頻序列的口型速度特征向量a和b對(duì)時(shí)間求導(dǎo)，計(jì)算其一階差分：

(7)

本文提出了口型相似性評(píng)價(jià)參數(shù)為相似度系數(shù)SC(Similarity Coefficient)，定義為：

(8)

式中：pi·x表示得到的最優(yōu)路徑的第pi個(gè)點(diǎn)的橫坐標(biāo)；該公式表示計(jì)算對(duì)齊之后的視頻與參考視頻兩個(gè)口型上下差值的歐式距離。經(jīng)過(guò)統(tǒng)計(jì)整段視頻每幀對(duì)應(yīng)的匹配系數(shù)，當(dāng)SC小于經(jīng)驗(yàn)閾值4時(shí)就認(rèn)為匹配正確，最后計(jì)算匹配正確的幀數(shù)占總幀數(shù)的比例得到視頻口型對(duì)齊之后的相似性概率SP(Similarity Probability)，即SP=正確匹配幀數(shù)/總幀數(shù)。

4 實(shí)驗(yàn)結(jié)果

靠嘴部的運(yùn)動(dòng)反映表演者說(shuō)話內(nèi)容，不同于直接提取語(yǔ)音信息，這就要求說(shuō)話者能夠?qū)⒃捴械拿總€(gè)字的發(fā)音口型表達(dá)清楚，只有這樣，才能得到對(duì)話語(yǔ)比較準(zhǔn)確的特征，才能夠使得匹配更加精確。實(shí)驗(yàn)中分別選取了不同的9段話，其中包括中文和英文。隨機(jī)找了10個(gè)人來(lái)講這9段話，每句講2遍，講話過(guò)程人物頭部隨意擺動(dòng)，只要擺動(dòng)角度在左右偏轉(zhuǎn)45度之內(nèi)就行，在實(shí)驗(yàn)室環(huán)境下拍攝共180段樣本數(shù)據(jù)；所有實(shí)驗(yàn)都是在Win7 64位+Intel core i3+CPU 2.30 GHz的PC機(jī)上進(jìn)行的。

實(shí)驗(yàn)一：下面是對(duì)人物正臉講話情況下，發(fā)音為“open”時(shí)對(duì)齊的結(jié)果如圖4所示，(a)是參考模板分別為第30、32、34、36、38、40幀時(shí)的圖片，(b)是待測(cè)模板對(duì)應(yīng)的相應(yīng)幀的圖片，(c)和(d)是分別用正向和斜向口型運(yùn)動(dòng)速度特征對(duì)待測(cè)模板口型對(duì)齊之后相應(yīng)幀的圖片。

圖4 正臉口型對(duì)齊結(jié)果

實(shí)驗(yàn)二：以下是對(duì)人物頭部有歪頭情況下，發(fā)音為“我是不是哪里不好啊”時(shí)對(duì)齊結(jié)果展示，如圖5所示，(a)是參考模板分別為第35、40、45、50、55、60、65、70、75幀時(shí)的圖片，(b)是待測(cè)模板對(duì)應(yīng)的相應(yīng)幀的圖片，(c)和(d)分別是用正向和斜向口型運(yùn)動(dòng)速度特征對(duì)待測(cè)模板口型對(duì)齊之后相應(yīng)幀的圖片。

圖5 歪頭情況口型對(duì)齊結(jié)果

從圖4可以看出對(duì)于正臉情況，本文提出的兩種口型運(yùn)動(dòng)速度特征都能使得兩段視頻口型對(duì)齊。但由圖5(c)、(d)與(a)比較可知，正向運(yùn)動(dòng)速度特征已不能滿(mǎn)足歪頭的情況。由圖4和圖5綜合比較可以看出，本文提出的斜向口型運(yùn)動(dòng)速度特征不僅適應(yīng)正臉情況，而且在人物歪頭或頭部有任意小角度(<45°)運(yùn)動(dòng)的情況下，都能夠使得兩段視頻序列的口型對(duì)齊。

實(shí)驗(yàn)三：為了避開(kāi)人物嘴唇形狀、厚度等外界因素的影響，本文設(shè)計(jì)的實(shí)驗(yàn)為每個(gè)人根據(jù)不同的9段話分別說(shuō)兩遍，然后測(cè)試每個(gè)人說(shuō)的這兩段話的相似性概率，最后計(jì)算每組匹配相似性概率的均值，共10組數(shù)據(jù)如圖6所示。

圖6 口型相似性評(píng)價(jià)結(jié)果

從圖6中可以看出，經(jīng)本文提出的口型對(duì)齊結(jié)果相似性評(píng)價(jià)方法進(jìn)行評(píng)價(jià)可以得到：有的對(duì)齊比較準(zhǔn)確，能夠達(dá)到正確率95%左右；但有的結(jié)果不理想，僅有73%。經(jīng)實(shí)驗(yàn)分析，即使是同一個(gè)人說(shuō)相同的話，這兩遍的發(fā)音口型也不完全相同，有時(shí)在開(kāi)始結(jié)尾處的差別比較大，導(dǎo)致對(duì)齊的相似性概率比較低。但總平均相似性概率能夠達(dá)到85.08%，說(shuō)明本文提出的方法能夠比較好地滿(mǎn)足口型對(duì)齊的目的。

實(shí)驗(yàn)四：實(shí)驗(yàn)比較了傳統(tǒng)DTW算法和經(jīng)過(guò)本文改進(jìn)之后的DTW算法應(yīng)用到本系統(tǒng)中的時(shí)間效率，實(shí)驗(yàn)中分別統(tǒng)計(jì)了兩種方法在180段實(shí)驗(yàn)樣本中運(yùn)行的時(shí)間，表1所示為對(duì)齊1 min的視頻序列所需的平均時(shí)間。

表1 算法平均時(shí)間比較

由表中的實(shí)驗(yàn)數(shù)據(jù)分析得出，本文改進(jìn)DTW算法相比傳統(tǒng)DTW算法可以使得整個(gè)系統(tǒng)的效率提高將近2倍。

5 結(jié) 語(yǔ)

在口型特征點(diǎn)檢測(cè)時(shí)本文將ASM和光流法跟蹤相結(jié)合，通過(guò)設(shè)定閾值來(lái)糾正跟蹤結(jié)果以獲得準(zhǔn)確的嘴唇特征點(diǎn)。在對(duì)齊過(guò)程中利用了DTW算法，經(jīng)過(guò)提出的平行線的路徑搜索約束條件的限制，算法運(yùn)算速度明顯提高。最后利用嘴唇上下運(yùn)動(dòng)的速度特征實(shí)現(xiàn)了正臉人物講話時(shí)的口型對(duì)齊，并在此基礎(chǔ)上又提出了斜向的運(yùn)動(dòng)速度特征，解決了人物講話頭部有任意小角度擺動(dòng)的情況下口型對(duì)齊問(wèn)題，為以后視頻人臉替換奠定了基礎(chǔ)。人物講話存在嘴部歪斜不對(duì)稱(chēng)的情況，如何解決這類(lèi)問(wèn)題將口型對(duì)齊更加完善，將是下一步研究的問(wèn)題。

[1] Bitouk D,Kumar N,Dhillon S,et al.Face swapping automatically replacing faces in photographs[C]//Proc ACM SIGGRAPH 2008.New York:ACM press,2008:1-8.

[2] Dale K,Sunkavalli K,Johnson M K,et al.Video Face Replacement[J].Acm Transactions on Graphics,2011,30(6):61-64.

[3] 李燕萍,陶定元,林樂(lè).基于DTW模型補(bǔ)償?shù)膫窝b語(yǔ)音說(shuō)話人識(shí)別研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(1):93-96.

[4] 吳康妍,李鏘,關(guān)欣.一種結(jié)合端點(diǎn)檢測(cè)可檢錯(cuò)的DTW樂(lè)譜跟隨算法[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(3):158-161.

[5] Sun X,Miyanaga Y.Dynamic time warping for speech recognition with training part to reduce the computation[C]//International Symposium on Signals,Circuits and Systems.IEEE,2013:1-4.

[6] 張露.基于DTW的單個(gè)手語(yǔ)識(shí)別算法[J].現(xiàn)代計(jì)算機(jī),2016(8):77-80.

[7] Moon C H,Kim Y C.Hybrid gesture classifying method using K-NN and DTW for smart remote control[C]//International Conference on Information Science,Electronics and Electrical Engineering.IEEE,2014:1298-1300.

[8] Hong D,Luo Y.A gesture trace detection method using DTW[J].Applied Mechanics and Materials,2013,380-384:3874-3877.

[9] Ruan X,Tian C.Dynamic gesture recognition based on improved DTW algorithm[C]//IEEE International Conference on Mechatronics and Automation.IEEE,2015:2134-2138.

[10] 鄢晨丹,楊陽(yáng),程久軍,等.基于統(tǒng)計(jì)模型的DTW簽名認(rèn)證系統(tǒng)[J].信息網(wǎng)絡(luò)安全,2015(7):64-70.

[11] Ahn B,Han Y,Kweon I S.Real-time facial landmarks tracking using active shape model and LK optical flow[C]//International Conference on Ubiquitous Robots and Ambient Intelligence.IEEE,2012:541-543.

[12] Jambhale S S,Khaparde A.Gesture recognition using DTW & piecewise DTW[C]//International Conference on Electronics and Communication Systems,2014:1-5.

[13] Lou Y,Ao H,Dong Y.Improvement of Dynamic Time Warping (DTW) Algorithm[C]//International Symposium on Distributed Computing and Applications for Business Engineering and Science.IEEE,2015:384-387.

VIDEOSEQUENCEALIGNMENTMETHODBASEDONVELOCITYOFMOUTHMOVEMENT

Wang Xiaofang Wang Wenqing Wei Wei

(SchoolofComputerScienceandSoftware,HebeiUniversityofTechnology,Tianjin300401,China)

Based on the requirement of reducing video jitter and video matching between mouth and voice in video face replacement system, a video mouth alignment method based on the characteristics of mouth speed in video image is proposed. In the video, the ASM and the optical flow method were combined to obtain the stable velocity characteristics of the mouth, and then the path search range of the Dynamic Time Warping (DTW) algorithm was constrained by the parallel line constraint condition to obtain the optimal matching path quickly. Finally, the aligned video was obtained and the similarity evaluation was given. Experimental results show that the proposed method can make the mouth speak two videos in consistent alignment. This method not only satisfies the situation of human face immobility, but also satisfies the human head motion at any degree less than 45 degrees. Finally objective similarity evaluation is given to the imitation video, and the evaluation results show that the method is feasible.

Velocity characteristics of mouth movement DTW Video mouth shape alignment Similarity evaluatio

2017-03-11。天津市科技計(jì)劃項(xiàng)目(14RCGFGX00846)；河北省自然科學(xué)基金面上項(xiàng)目(F2015202239)；天津市科技計(jì)劃項(xiàng)目(15ZCZDNC00130)。王小芳，講師，主研領(lǐng)域：機(jī)器視覺(jué)。王文青，碩士生。魏瑋，教授。

TP3

10.3969/j.issn.1000-386x.2017.12.040

基于口型運(yùn)動(dòng)速度的視頻序列對(duì)齊方法

0 引 言

1 視頻圖像中口型特征提取

2 視頻對(duì)齊

3 視頻序列的相似性評(píng)價(jià)

4 實(shí)驗(yàn)結(jié)果

5 結(jié) 語(yǔ)

0 引言