【摘要】手語合成是為了有助于聾啞人和聽力正常人自然交流以及計算機輔助教學。通過分析手語特點,通過粒子濾波算法手語手勢進行跟蹤,通過跟蹤結果進行有效的判斷,判斷出視頻中的手語詞與手語詞之間的過渡幀,從而推動了對手語動畫合成的研究和實現。
【關鍵詞】手語合成1;虛擬人合成2;關鍵點3;粒子濾波算法4
0引言:
作為聽障人士社交所用的手語是一種人體運動語言,通過手型輔之以面部表情和姿勢構成一個穩定的表達系統。手語合成[1]就是要將自然語言文本句子,通過機器自動翻譯成聾人手語,并由計算機自動生成虛擬人動畫來逼真的表示出來。手語動作的研究是作為手語合成的研究的前提,首先構造人體二維骨骼模型,在此基礎上作出了聾啞人手語關鍵動作可能手勢和不可能手勢的跟蹤判斷,在可能手勢情況下實現虛擬人連續手勢的變換,逼真的完成手語動作表達。
1 手語合成的相關方法和技術
1.1人體輪廓模型
人體輪廓模型[2]是將人體用一組由關節所連接的平面區域塊來表現。手語主要研究手及手臂并建立其運動控制模型,手及手臂之間包含肩、肘、腕、手指四大類的關節點。由控制點、線、體來顯示人體運動,并顯示出控制點模型,進而得出線型,直至二維人體模型。
1.2 手勢跟蹤
1.2.1 基本思想
虛擬人手語是由一些單位手語詞拼接而成的動畫,在相鄰手語詞以及同一個手語詞中不同詞根之間若不作處理會,手在相鄰詞根銜接處動作變化幅度大,因此我們需要在銜接處插補一定數量的關鍵幀。因此對采集的手語視頻進行手語詞的關鍵幀跟蹤,由跟蹤結果對關鍵幀進行判斷,是保證手語合成的前提。
1.3 粒子濾波算法概述
粒子濾波[3]通過隨機樣本的概率的分布,是由貝葉斯濾波器演變,并結合蒙特卡羅方法得出的一種實時推理算法。
粒子濾波算法具有卡爾曼濾波所沒有的算法收斂,且計算誤差小,其通過非參數化的蒙特卡羅方法實現貝葉斯濾波,用非函數形式的樣本形式進行先驗和后驗信息的概率表述。當樣本點迅速增至無窮大的時候,后驗概率密度的函數形式等價于蒙特卡羅模擬特性,濾波精度可達最優。其非高斯、非線性及多模的特點,可有效預測人體位置信息。在人體運動多關節點跟蹤下,可用加權粒子濾波[4]來精簡計算。
1.4 算法描述
基于粒子濾波算法的人體動關節點跟蹤的流程如1.1圖所示:
圖1.1 基于人體輪廓模型實現人體關鍵點跟蹤的流程圖
(1)視頻第一幀的初始化
視頻的第一幀要進行手動標注人的肘、腕、手部中心點等坐標,對粒子采樣的數量由實驗而定。
(2)狀態轉移
狀態轉移即粒子傳播的先驗概率過程,其中xt為目標在t時刻的狀態,wt-1是歸一化噪聲量,A和B是常數:
(1.1)
(3)系統觀測
對當前預測模型中的每一個狀態向量的外觀模型與當前圖像幀的相應區域進行相似性計算,并給每一個狀態向量賦一個權值。
首先將相鄰關節點中任意兩個粒子所處的矩形區域的顏色直方圖與手工標注的第一幀的模板區域顏色直方圖進行匹配比較,通過相似度計量函數得出該關節點的權值Wki。
圖1.2 觀測點的生成
再將相鄰關節點的粒子的距離與初始幀關節長度進行比較,并計算出權值Nki。對這兩個權值進行加權計算,得到第k個關節點的粒子i在此時刻的權值:
(1.2)
最后把所有的粒子權值進行歸一化操作:
(1.3)
(4)跟蹤結果
相應關節點中所有粒子的加權均值為關節點的最終狀態,即通過預測得到t時刻第k個關鍵點的坐標。
(1.4)
當完成當前幀的跟蹤計算后,對當前幀的后驗模型進行同樣的采樣,得到t+1時刻的先驗模型。依次類推直至最后一幀,完成了整個視頻的跟蹤。
2 系統設計與實現
2.1手語合成系統的框架
系統的主體框架如下圖所示
圖2.1 手語合成系統的主體框架
3 手語合成的關鍵技術
手語合成系統主要由以下四點所確立:
(1)通過數據手套等硬件設備實時采集足夠詳細的手語動作信息。
(2)根據關節點跟蹤的原始數據計算出人體上肢關節的位置和關節點在相對坐標系中的旋轉角度。
(3)將關節角度數據按照不同的關節形成運動曲線,從中提取能夠代表動作的關鍵幀數據。
(4)插入關鍵幀數據實現3D虛擬人動畫的自動生成。
4 結語
基于的粒子濾波算法的手勢跟蹤是進行手語合成的前提,通過手勢跟蹤有效的判斷手語詞與手語詞之間的轉折,并進行關鍵幀的插補,從而使虛擬人的手語表達更加逼真,實現合成手勢運動的均勻平滑過度。
參考文獻:
[1]鄭重雨.基于運動特征的手語動畫關鍵幀調整和插值方法的研究[D].北京:北京工業大學,2009.
[2]孫怡,王恩亮,安宏杰等.基于2-D模型的人體運動跟蹤[J],中國圖像圖形學報,2002,7(7):625-632
[3]胡士強,敬忠良.粒子濾波算法綜述[J].控制與決策,2005,20(4):362—371
[4]蔣戀華.基于粒子濾波的多目標跟蹤算法的研究[D].武漢:武漢科技大學,2011