Kinect的軟實力

2011-12-31 00:00:00

CHIP新電腦 2011年9期

自去年11月正式對外發(fā)布至今，Kinect在短短不到一年的時間中迅速躥紅。業(yè)界對其特殊的硬件設計也已經進行了諸多介紹，然而真正托起Kinect這顆明星的并不僅僅是其硬件設計，出眾的軟件算法更是其重要的制勝法寶。

微軟在今年6月正式對外公布了Kinect for Windows SDK Beta，這標志著Kinect正式從游戲領域開始向受眾更為廣泛的PC領域邁進，并將有可能徹底改寫PC人機交互界面的歷史。

Kinect何以有如此強大的實力？優(yōu)秀的硬件結構絕不只是解釋這一問題的唯一答案，事實上，Kinect所采用的硬件多數(shù)不是什么新發(fā)明，真正托起這顆新星的是其背后諸多優(yōu)秀的軟件和算法，是這些軟實力讓Kinect卓越非凡。而做為Kinect靈魂的軟件與算法有很多來自中國，來自微軟亞洲研究院。

我知道你是誰

任何機器設備，無論是游戲機還是計算機，它們被人所操控，要最先明確的一件事情就是，正在操控我的人是誰？傳統(tǒng)的游戲機通過游戲手柄和手柄所對應的Player1、Player2來進行區(qū)分。計算機通過用戶賬戶和登錄密碼來限定和判別訪問的用戶。而對于Kinect這種完全需要借助人們肢體動作進行操控和交互的設備來說，如何區(qū)分面前的人是甲還是乙，仍舊存在很大的困難。

身份識別3法則

為了解決這個問題，微軟亞洲研究院的研究員為Kinect構建了身份識別的3條基礎法則，分別是人臉識別、衣服識別和體型識別，Kinect根據(jù)人的這3項特征進行綜合的識別和判斷，最終實現(xiàn)對面前人物的準確分辨。

人臉識別是整個身份識別最重要的一個組成部分，由于Kinect攝像頭分辨率僅為640×480，在1.8m及以上（Kinect的設計工作距離）距離的情況下，攝像頭所能提供的面部的像素數(shù)據(jù)十分有限，并不適用于進行高維計算。另外，由于用戶使用Kinect的環(huán)境有很大的差異，光線的明暗、色溫和人的表情都不在可控范圍內，這種非控制環(huán)境的人臉識別本身也存在難度。為了能讓Kinect的人臉識別更加有效，微軟亞洲研究院的研究員采用了抽取人臉中層結構特征的方式，這種中頻的特征雖然無法提供100%的準確識別率，但是仍舊能夠提供85%左右的識別準確率。這種純二維的圖片識別算法也被應用在Windows Live Photo Gallery中，借助這種識別算法的幫助，Windows Live Photo Gallery能夠識別區(qū)分照片中的人物，并據(jù)此實現(xiàn)照片自動分組。

對于在短時間內需要多次進行身份識別的場合，例如在進行一個游戲的過程中，一個人暫時離開游戲去接電話，之后又返回繼續(xù)游戲的情況，另外一種身份識別方式會更為快捷和高效，那就是衣物識別。因為在這種短期內，人們更換服裝的概率很低，為此微軟亞洲研究院的研究員特別加入了衣物識別。這種識別技術首先區(qū)分人體的各個部分，如身體、四肢，之后再分別抽取不同部分的顏色和紋理，通過這些顏色和紋理總結出這一部分的表面特征。這些特征信息雖然都保存的是原始的彩色信息，但是通過一些算法可以使該識別技術對環(huán)境光線相對不敏感，以減少色溫變化對識別產生的影響。例如通常在鎢絲燈下的白衣服比在熒光燈下的看起來偏黃，而Kinect仍舊能夠正常地識別出這是相同的一件白衣服。

體型識別是Kinect識別身份的另一個重要依據(jù)，通過抽取和分析人們體型的特征信息，如身高來進行身份判別。這種技術在某些情況下具備極高的效率和準確率。例如，識別家中身高差異明顯的大人和小孩的時候，這種技術就尤為實用。這種算法十分巧妙地利用了Kinect的硬件特征，與傳統(tǒng)的攝像頭不同，Kinect能夠提供包含深度信息的圖像，可以上下擺動掃描人物，并可提供掃描時的俯仰角信息。借助深度信息、俯仰角、人物影像高度這3種信息可以幫助準確計算出人物的真實身高。人物與Kinect的距離即使發(fā)生變化，或者Kinect的擺放高度有變化都不會影響判斷的準確性。

綜合判別

為了提高識別的成功率并保證識別的效率，微軟亞洲研究院綜合采用上述3種識別方式的結果，并根據(jù)應用場合的不同進行合理的選擇。

首先，在整個Kinect的平臺體系中，人臉識別被應用在更底層的平臺領域，做為系統(tǒng)生物識別登錄的唯一依據(jù)，在用戶開機使用Kinect的整個過程中都會發(fā)揮作用，而且用戶的面部信息會被長期保存在Xbox360的數(shù)據(jù)庫中。當用戶進入某個應用的會話中，例如進入一個Kinect的游戲，游戲可以要求在進行身份識別時調用衣服識別和體型識別的數(shù)據(jù)進行更快捷和高效的身份識別。因為在特定會話過程中，這兩種身份識別技術更加穩(wěn)定和準確，可信任度更高。

在身份識別判斷過程中，每種身份識別技術都會在完成識別過程后從3種既定答案中選擇一種，即每種技術都可以給出“是”、“不是”或“不確定”的答案。系統(tǒng)會根據(jù)3種識別結果最后做綜合性的判定。

最真實的虛擬人

CHIP曾在幾年前為大家介紹過由微軟亞洲研究院推出的微軟卡通秀，這個工具可以對我們照片中的頭像進行分析，并根據(jù)每個人的面部特征生成與真人十分接近的、惟妙惟肖的卡通頭像。而在Kinect中，微軟亞洲研究院的研究員設計了Avatar Kinect，這個應用采用了被稱為面部追蹤的技術，其允許Kinect用戶通過Kinect的面部識別系統(tǒng)，以自身為原型建立3D版的卡通人物，我們將可以從正面、側面等多個角度觀看這個卡通人物。更重要的是這個與真人十分接近的卡通人物還能還原玩家的動作和面部表情，玩家在Kinect前的一顰一笑都會被卡通人物真實再現(xiàn)。多個在線玩家的卡通人物還可以置身于各種主題的3D聊天室中進行視頻聊天，該項技術未來還有可能被加入到企業(yè)電話會議的應用中。

就像我們前面所說，靜態(tài)的人物頭像向卡通頭像的轉換技術微軟亞洲研究院在幾年前就已經提出并產品化，這是一種2D的圖像技術，這種技術算法通過抓取最能反映人們面部特點的特征點信息，如眼睛周邊和嘴唇周邊區(qū)域的特征信息，并將這些特征點信息對應到卡通頭像上，即可得到與真人十分相近的靜態(tài)卡通形象。這種2D的特征提取技術在實現(xiàn)動態(tài)卡通影像時存在比較明顯的缺陷，例如在動態(tài)預判斷面部特征點在人臉表情發(fā)生變化后的位移量時往往很難準確，這一狀況在表情出現(xiàn)巨大變化時尤為明顯。直接的結果是只采用2D特征提取技術的卡通人物做出動態(tài)的表情時很可能會走樣。

我們可以用一個類似的例子來解釋出現(xiàn)這一情況的原因，如果拍攝并抓取一個人擺動小臂的特征信息，并對應生成一個卡通人物的小臂，此時在小臂需要擺動時，我們很難找到一個可靠的算法來準確預判擺動時指尖的位移量和手腕的位移量各是多少。但是當引入骨骼的概念后，即可得到指尖和手腕都是以肘關節(jié)為圓心，以相同的角速度和不同的半徑運動，借助這一規(guī)律即可得到相對準確的小臂特征點運動規(guī)律，使虛擬特征點的運動規(guī)律與自然界的真實規(guī)律更貼近。

而對應到面部特征點的預判，面部的3D模型就扮演了類似骨骼的作用，為面部特征點的位移預判提供了依據(jù)。微軟亞洲研究院的研究員們巧妙地利用了Kinect可以生成深度信息這一獨特的特性，深度信息可以準確地反映面部的凹凸和輪廓情況，借助這些信息即可進一步獲得準確的人臉3D模型。

接下來就是采用一些方式將2D算法中所抓取的特征點與通過深度信息獲取的3D特征點都對應到同一個3D卡通模型中，例如可以將3D特征點投影到一個2D平面上，將這個平面上的特征點與2D算法中的特征點相互匹配。匹配后，借助2D算法生成的面部圖片做為3D卡通模型的紋理貼圖，而借助深度信息獲得的3D特征點為面部特征點提供運動依據(jù)，使卡通模型的表情更加自然和真實。目前的Kinect可以抓取面部20~80個左右的特征點，真正在工作時，可能會在生成卡通人物的初期采用抓取較少的特征點以保障效率，之后再抓取更多的特征點以提高精度。為了盡可能地表現(xiàn)面部特征，微軟亞洲研究院的研究員還采用了分類器等方法進行優(yōu)化，目前一些眨眼等小的表情變化都可以被卡通人物反映出來。

現(xiàn)實照進虛擬

Kinect使我們能夠惟妙惟肖地在虛擬世界中構建另外一個自己，其實不僅是人物，在微軟亞洲研究院研究員的努力下，現(xiàn)實世界的任何一個物體都能被我們“搬”到虛擬世界中。Kinect在發(fā)布的時候曾經推出一個令人印象深刻的宣傳片，一個小孩站在Kinect面前舉起自己的滑板，拍下滑板正面和背面的樣子，在游戲中就會出現(xiàn)一個與現(xiàn)實中幾乎一模一樣的虛擬滑板。

這種3D掃描成像技術以往僅僅被應用于高端的商用領域，而Kinect由于配備了獨特的硬件，所以同樣可以實現(xiàn)類似的功能。不過，盡管Kinect可以提供物體不同角度的深度圖像和2D圖像，但是在實際實現(xiàn)時還有很多比較復雜的問題需要解決。

粗糙變平滑

Kinect是一款偉大的產品，它用很低廉的價格讓用戶可以獲得深度圖像即現(xiàn)實物體的3D結構，但是受到成本所限，Kinect的硬件能力并不算出眾。Kinect獲得的深度圖像分辨率比較低；另外，這種深度信息的噪聲非常大，例如，現(xiàn)實中表面光滑的物體在經過Kinect掃描后，獲得的深度信息表面卻是凹凸不平的。如何通過這些粗糙的信息獲得精細、平滑和可接受的輸出結果是微軟亞洲研究院的研究員首先面臨的挑戰(zhàn)。

微軟亞洲研究院采用了一種被稱為表面重構的技術來解決這個問題，這個技術可以借助物體表面的位置信息和噪聲非常大的數(shù)據(jù)，重構出完整的表面。傳統(tǒng)的平滑算法往往很難區(qū)分真正的噪聲點和物體表面實際的小凹凸，微軟亞洲研究院的研究員采用了泊松方程等算法進行噪聲濾除。在判斷某個特征點是噪聲還是真實存在之前，技術算法首先抓取該點周邊表面的角度和朝向的特性，進而判斷這個特征點可能存在于空間的什么位置。這些根據(jù)朝向判斷出的所有特征點可以形成一個虛擬的距離場。泊松方程用于幫助建立這個距離場，泊松方程認為，給一個采樣點的話，可以根據(jù)這個采樣點的位置，盡可能平均估計這個采樣點對周圍的影響，估計周圍表面距離場應該是什么樣。這種平均估計的方式能夠帶來幾個好處，首先，如果真實物體表面有一個洞的話，那么根據(jù)洞附近特征點的狀況及其產生的影響可以很好地擴散到洞的周圍，進而獲得非常平滑的形狀，使這個洞的形狀盡可能得到合理的填充。另外，每個特征點的最終狀態(tài)和特征并不僅僅取決于它本身，還取決于周圍很多點，這實際上就是一個很好的降噪過程。例如如果在采樣面中有一個凸起的點，這個點周圍的點在朝向特性上都沒有表現(xiàn)出這里有凸起的趨勢，那么這個點就會被識別成一個噪聲點并被去除，反之就會被保留。當然受到采樣精度的限制，一些十分小的表面特征信息也可能被判斷為噪聲并被處理掉。

對很多需要實時繪制的娛樂類應用來說，3000個頂點的人臉3D模型已經十分真實，而10000個頂點的模型就已經可以表現(xiàn)絕大部分的細節(jié)特征了。而目前Kinect的深度攝像頭可以提供320×240的分辨率，可采集的特征點已經遠遠超過10000，這樣的數(shù)據(jù)量用于生成多邊形頂點的話已經足夠，例如如果用這些采樣點表現(xiàn)一個人臉的3D模型的話，那么實際上已經可以做得十分逼真，只是會損失皺紋等一些比較小的細節(jié)特征。目前真正影響效果的還主要是噪聲，而微軟亞洲研究院的這項技術可以有效地將噪聲過濾，提升3D虛擬物體的展示效果。

缺陷自動補

除了解決物體表面的平滑問題外，還有很多困擾3D虛擬物體真實度的因素，例如掃描物體前后兩面的時候如何對齊，如何去掉干擾信息并補足有缺陷的信息。

為了解決翻面對齊的問題，物體掃描軟件內置了輔助工具，它在掃描正面的時候會生成物體的邊緣圖像，在用戶旋轉物體后，平面上會出現(xiàn)物體正面的輪廓線，以幫助用戶更好地對準進行掃描。但是這樣做會產生另外一個問題，因為用戶需要用手握持旋轉物體，所以要想僅僅掃描物體而不掃描人手的話，Kinect就需要具備區(qū)分人手和物體的能力，這個問題在計算機領域被稱為分割。傳統(tǒng)的分割主要通過顏色來實現(xiàn)，因為通常情況下手的顏色會與物體的顏色有很大的差別，但是事實上這種方法并不完善，效果也并不算好。而Kinect的好處是能夠提供深度信息，通常來說物體邊緣的深度信息會與手指的深度信息明顯不同，因此將深度信息和顏色信息結合考慮，能夠更好地將物體和手指分割開。只有極個別情況，如物體邊緣過于凸凹不平，而且顏色與人的皮膚又十分接近，所以才會出現(xiàn)識別不準確的情況，不過這種情況十分少見。

除了對齊和邊緣分割的問題外，物體邊緣的深度信息數(shù)據(jù)采樣會更加困難，噪聲和數(shù)據(jù)損失會更大。另外，手指會擋住物體的一部分表面，這些問題都導致獲取的物體表面會出現(xiàn)縫隙甚至漏洞，修補這些漏洞主要借助上面我們所提到的泊松方程和平滑算法，判斷漏洞附近的表面朝向，進而實現(xiàn)自動修補。實際測試證明，這種方式基本可以解決通常物體掃描后產生的漏洞，最終生成的虛擬物體也比較理想。

Kinect未來的版本會進一步提高深度信息和圖像信息的精度。非常期待看到未來的Kinect給我們日常生活帶來更大的影響。

——孫劍博士微軟亞洲研究院視覺計算組高級研究員

Kinect的“枷鎖”

傳統(tǒng)工業(yè)級的3D掃描技術和設備更強調精確度和高分辨率。但是考慮到成本就必須要犧牲精度，價格便宜的設備能夠被更多用戶使用，給用戶帶來的樂趣更多。

身份識別

目前的識別技術仍舊會存在失誤，比如在識別雙胞胎時仍舊可能出錯。事實上，目前已有的面部識別技術已經具備通過特征值準確分辨雙胞胎的能力，但是受到Kinect攝像頭分辨率的限制，尚無法獲得滿足要求的特征數(shù)據(jù)，但未來隨著硬件設備的升級，類似問題將會得到很好的改善。

Avatar Kinect

對于采用USB2.0的Kinect來說，數(shù)據(jù)帶寬有限，要保證流暢抓取和展現(xiàn)用戶的特征信息，就必須有所取舍，犧牲一些細節(jié)也就在所難免。另外，在2D圖像和深度圖像的分辨率都不高的情況下，在目前的Kinect中仍舊無法讓卡通人物百分之百地重現(xiàn)用戶的所有特征，比如額頭的皺紋或嘴邊的酒窩就不得不被舍棄。

計算力的束縛

在游戲機領域，游戲機會爭取把所有硬件資源、軟件資源完全提供給游戲。每次游戲運行起來以后，可以認為游戲自帶了功能更強大的操作系統(tǒng)，游戲和操作系統(tǒng)捆綁在一起運行，也就是說所有的系統(tǒng)資源基本上全部被游戲使用了。這些特殊性對Kinect技術的開發(fā)提出了更高的要求，并對Kinect的應用效果也產生了限制。

身份識別

傳統(tǒng)的基于統(tǒng)計學的數(shù)據(jù)分析往往能夠優(yōu)化和提高數(shù)據(jù)分析的輸出結果，例如搜狗拼音輸入法可以通過收集網絡上用戶經常輸入的字詞來優(yōu)化詞庫排名，來提高輸入命中率。但是Xbox360并不是一臺性能強大的PC，而且其絕大部分性能都要為游戲服務，身份識別這種功能并不允許占用過多的系統(tǒng)資源，因此其只能根據(jù)既有的識別算法模型來工作，也就是說通常不會出現(xiàn)用的越久識別效率和準確率會越高的情況。

3D掃描成像

事實上，將3D掃描成像是商業(yè)領域已經十分成熟的技術，但是需要強大的計算能力和比較長的處理時間。將這項技術遷移到計算性能不高的游戲機中提供給消費者使用的時候仍舊存在很大難度，計算占用的資源要非常小，同時算法應該盡可能快的生成結果。微軟亞洲研究院的研究員們花了很大精力對他們在PC上開發(fā)的算法進行優(yōu)化，將內存占用降到了20MB以下，并且使用CPU和GPU共同進行計算，最終使運算速度由原來普遍的20s左右縮短到2s以下。

Kinect很了不起，第一次普通用戶可以用這么少的錢拿到3D的信息，從而使很多應用成為可能。

——童欣博士微軟亞洲研究院網絡圖形組高級研究員

CHIP新電腦2011年9期

CHIP新電腦的其它文章: 特效圖像工具縱覽; 讓設備更長壽; Google宣布125億美元收購摩托羅拉移動等; USB接口支持127個設備; 別了,系統(tǒng)漏洞; CHIP俱樂部