微軟后院的酷技術(shù)

2013-12-31 00:00:00

CHIP新電腦 2013年12期

Power Map for Excel：

3D數(shù)據(jù)可視化工具

大部分人使用過Excel中的餅圖、條形圖等圖表對(duì)數(shù)據(jù)進(jìn)行可視化。現(xiàn)在，MSRA協(xié)助開發(fā)了一款先進(jìn)的Excel 3D數(shù)據(jù)可視化工具——Power Map。它允許我們將大量數(shù)據(jù)以3D可視方式映射到必應(yīng)地圖上，并通過3D柱形圖、泡泡圖/餅圖、熱量圖和區(qū)域圖等形式實(shí)現(xiàn)數(shù)據(jù)的可視化，從而讓至關(guān)重要卻容易混淆的數(shù)據(jù)變得易于理解。

讓手機(jī)更加聰明

手機(jī)上的3D發(fā)型設(shè)計(jì)

真正長(zhǎng)出來的頭發(fā)

在意自己的發(fā)型？或許大家也曾經(jīng)嘗試過用手機(jī)App查看自己心儀發(fā)型的效果，可無奈“二維”圖像總是顯得不夠真實(shí)，并沒有什么實(shí)際用途。現(xiàn)在，微軟亞洲研究院（簡(jiǎn)稱MSRA）開發(fā)了一款手機(jī)應(yīng)用程序，僅憑借一張照片便可創(chuàng)建一個(gè)非常逼真的3D頭發(fā)模型。

學(xué)過人物素描的朋友應(yīng)該知道，頭發(fā)是最難畫的部分。對(duì)計(jì)算機(jī)而言，讓上萬根發(fā)絲看起來自然也是一件難事。在現(xiàn)實(shí)世界中，頭發(fā)的一點(diǎn)點(diǎn)變動(dòng)都意味著發(fā)絲之間遮擋關(guān)系的變化：一些原來看不到的發(fā)絲暴露出來，另一些原先可見的發(fā)絲被遮擋住。而在計(jì)算機(jī)圖像中，這種變化是無法用傳統(tǒng)的基于像素操作的圖像編輯工具實(shí)現(xiàn)的。但是，來自MSRA的新技術(shù)模型基于物理真實(shí)性（physical plausibility）原則，即模型中頭發(fā)的根部應(yīng)總是固定在圖中人物的頭部，發(fā)絲本身應(yīng)平滑自然，且要盡可能地保持原圖中真實(shí)頭發(fā)的長(zhǎng)度和連續(xù)性。我們可以通過這個(gè)App改變頭發(fā)的顏色、長(zhǎng)度等塑造自己的發(fā)型。它是逼真的，不僅能用來娛樂，也可以在任何需要頭發(fā)圖像繪制的領(lǐng)域發(fā)揮作用。

基于多傳感器融合技術(shù)的室內(nèi)定位

解決導(dǎo)航的最后100m

打通移動(dòng)互聯(lián)時(shí)代位置服務(wù)的最后100m，才能觸發(fā)新的潛力和商機(jī)。在智能手機(jī)尚未普及的年代，MSRA的技術(shù)專家就想到了利用裝有加速度計(jì)、陀螺儀（即角速度計(jì)）和電子指南針的設(shè)備來跟蹤物體的運(yùn)動(dòng)狀態(tài)，從而實(shí)現(xiàn)室內(nèi)定位。2010年前后，這幾個(gè)傳感器成為智能手機(jī)的標(biāo)準(zhǔn)配置，他們的跟蹤技術(shù)也已經(jīng)成熟。同時(shí)，他們又發(fā)現(xiàn)隨著Wi-Fi網(wǎng)絡(luò)的普及，利用手機(jī)的Wi-Fi芯片可大大提升定位的準(zhǔn)確性和可靠性。與傳感器跟蹤運(yùn)動(dòng)狀態(tài)相比，Wi-Fi有自身的結(jié)構(gòu)，與建筑物的位置關(guān)系是固定的，它的定位誤差不會(huì)因?yàn)橛脩糇叩木嚯x變大而增大，所以能實(shí)現(xiàn)絕對(duì)定位。將Wi-Fi定位與運(yùn)動(dòng)狀態(tài)跟蹤技術(shù)進(jìn)行結(jié)合，室內(nèi)定位的精度甚至可能達(dá)到驚人的1m～2m。

相信用不了多久，我們就能通過室內(nèi)定位技術(shù)直達(dá)某一樓層的店鋪，甚至可以直達(dá)某個(gè)商品了。

語飛行云漢語教育互動(dòng)平臺(tái)

手機(jī)才是最好的學(xué)習(xí)機(jī)

真正學(xué)好外語，從來就不是一件輕松的事。對(duì)于外國(guó)小朋友以及小華僑而言，最難的地方是漢字的書寫和發(fā)音。現(xiàn)在，新加坡華僑小學(xué)的學(xué)生獲得了一個(gè)比較輕松的漢語學(xué)習(xí)秘方——把不認(rèn)識(shí)的東西畫在手機(jī)或者平板電腦上，通過“語飛行云”互動(dòng)平臺(tái)的“認(rèn)圖”功能，詞匯和發(fā)音就可以顯示出來。

這個(gè)“語飛行云”互動(dòng)平臺(tái)是MSRA與新加坡華文教研中心等教育機(jī)構(gòu)合作研發(fā)的教育互動(dòng)平臺(tái)。學(xué)生可以把平日的所見所聞拍下來，上載到該平臺(tái)上和同學(xué)分享討論，讓他們覺得漢語和自己的生活息息相關(guān)。“語飛行云”平臺(tái)提供了漢語語音合成器、詞匯學(xué)習(xí)、詞語解釋、配搭、查詢及例句篩選等功能。南僑小學(xué)校長(zhǎng)陳俊明表示，將電子科技技術(shù)有效融入教學(xué)并非易事，但他們發(fā)現(xiàn)利用該互動(dòng)平臺(tái)學(xué)習(xí)的學(xué)生在考試中表現(xiàn)比較優(yōu)異。

科技與人文之間

10億像素拍攝敦煌石窟佛像

連陰影都是清晰的

敦煌莫高窟俗譽(yù)為20世紀(jì)最有價(jià)值的文化發(fā)現(xiàn)。然而，人為的破壞和生態(tài)的惡化，使敦煌這一歷史文化遺產(chǎn)面臨著嚴(yán)峻的考驗(yàn)。在更大的游客量需求和為后代保護(hù)這份無比寶貴遺產(chǎn)的責(zé)任之間尋求平衡，是敦煌莫高窟面臨的最大挑戰(zhàn)。

MSRA向敦煌研究院捐贈(zèng)的專門為莫高窟量身定制的10億級(jí)像素?cái)?shù)字相機(jī)系統(tǒng) “飛天號(hào)”，大幅度提高了洞窟內(nèi)壁畫拍攝的效率，滿足了對(duì)佛龕、壁畫等文物顏色、幾何細(xì)節(jié)等高精度數(shù)字采集的要求。該相機(jī)的一大特色是利用焦點(diǎn)合成技術(shù)來高精度地捕捉被拍攝物的立體細(xì)節(jié)，這個(gè)功能是其他同類相機(jī)無法做到的。當(dāng)拍攝具有復(fù)雜景深變化的斜坡、洞頂和佛龕時(shí)，“飛天號(hào)”能夠自動(dòng)計(jì)算景深，分次拍攝多張同一場(chǎng)景但焦點(diǎn)不同的圖像，然后將所有的圖像合成，使得同一場(chǎng)景下的每尊塑像、每處壁畫都呈現(xiàn)焦點(diǎn)清晰的影像，陰影區(qū)域也保留了豐富的細(xì)節(jié)。這對(duì)敦煌莫高窟的數(shù)字檔案前期拍攝是一個(gè)突破，把過去無法高分辨率拍攝的佛龕變成了可能，使得洞窟的數(shù)字檔案實(shí)現(xiàn)了繪塑完整的統(tǒng)一空間。

不是每個(gè)人都有機(jī)會(huì)到莫高窟，但每個(gè)感興趣的人都可以在網(wǎng)上一睹敦煌壁畫的藝術(shù)風(fēng)采，甚至比在現(xiàn)場(chǎng)觀看更加栩栩如生。

基于Kinect的手語翻譯系統(tǒng)

人人都能“聽”懂手語

世界各地有3.6億的聽力障礙人士，每一天，他們都面臨著大多數(shù)人從來無需考慮也難以想象的溝通挑戰(zhàn)。如何開發(fā)一種工具，讓人“聽”得懂手語，幫助聽障人士改善生活質(zhì)量？MSRA與中國(guó)科學(xué)院計(jì)算技術(shù)研究所和北京聯(lián)合大學(xué)合作，希望借助Kinect設(shè)備打破溝通障礙。

首先，他們利用能同時(shí)捕捉色彩和深度圖像信息的Kinect，準(zhǔn)確捕捉到聽障人士的手勢(shì)，然后結(jié)合自然語言處理技術(shù)在屏幕上顯示手語的含義。這項(xiàng)成果以MSRA在翻譯和自然語言處理、語音和手勢(shì)識(shí)別等自然用戶界面領(lǐng)域的廣泛研究成果為基礎(chǔ)。設(shè)想一下，聽障人士在健聽的觀眾面前用手語發(fā)表演說，每位觀眾都能不費(fèi)吹灰之力聽懂他的演說，這讓我們看到了讓聾啞患者“發(fā)聲”的新希望。

用于觸摸屏與指尖互動(dòng)的觸覺反饋

觸摸屏有反應(yīng)了

現(xiàn)在，觸摸屏移動(dòng)設(shè)備已經(jīng)非常普及。當(dāng)我們點(diǎn)按屏幕上的圖標(biāo)時(shí)，通常會(huì)獲得視覺上的反饋——軟件會(huì)響應(yīng)我們的操作，屏幕顯示的內(nèi)容會(huì)有變化。有時(shí)候，我們還可以開啟“觸摸時(shí)震動(dòng)”的功能，獲得更明確的觸覺反饋。但震動(dòng)的是整個(gè)手機(jī)，我們沒辦法只讓屏幕的某個(gè)區(qū)域震動(dòng)，所以無法給視覺障礙人士帶來真正的幫助。

終于，MSRA的研發(fā)人員已經(jīng)能夠在觸摸屏上實(shí)現(xiàn)“觸覺反饋”——沿著手機(jī)觸摸屏滑動(dòng)手指，就可以借助貼在屏幕邊緣的壓電致動(dòng)器營(yíng)造表面摩擦效果。看似很簡(jiǎn)單，卻意義重大，它將轉(zhuǎn)變和提升基于觸摸的交互技術(shù)。除了幫助視覺障礙人士之外，普通人在玩帶有虛擬手柄的觸屏游戲時(shí)，也能體驗(yàn)到更真實(shí)的手感了。

從這里看到未來

實(shí)時(shí)語音翻譯

搶同聲傳譯員的飯碗

想象一下這樣的場(chǎng)景：我們只身一人在國(guó)外需要訂餐，如果我們所說的中文能夠立即被翻譯成當(dāng)?shù)卣Z言，并用自己的聲音念出來，而發(fā)音、聲調(diào)和語調(diào)與當(dāng)?shù)厝藙e無二致。是不是很神奇？微軟的實(shí)時(shí)語音翻譯系統(tǒng)正以此作為目標(biāo)，它集合了多項(xiàng)突破性研究成果，包括語音識(shí)別、文本翻譯、個(gè)性化語音合成等，將人們的交談內(nèi)容從一種語言同步地轉(zhuǎn)換成另一種語言，并嘗試保留使用者本人的語音特征。

該系統(tǒng)突破性地利用了深層神經(jīng)網(wǎng)絡(luò)（DNN）技術(shù)，相較傳統(tǒng)技術(shù)大幅提升了口語對(duì)話識(shí)別成文本的準(zhǔn)確度。借助這項(xiàng)技術(shù)并通過模擬人腦行為，微軟的研究人員開發(fā)出了具有更高辨別能力的語音識(shí)別器，可以說這是幾十年來通過單一技術(shù)提高語音識(shí)別準(zhǔn)確率的最大突破。另一項(xiàng)重要突破是個(gè)性化語音合成，它能夠保留使用者的個(gè)性化語音特征。此外，MSRA經(jīng)過不懈努力，在機(jī)器翻譯領(lǐng)域也取得了進(jìn)展，尤其是在英語和漢語間的互譯上，將單純的文本翻譯延展到了對(duì)語音的翻譯。當(dāng)前，微軟的實(shí)時(shí)語音翻譯還有很多約束條件，比如語速不能快，發(fā)音要足夠標(biāo)準(zhǔn)，但它依然讓我們看到了一個(gè)可以打破語言障礙的未來。

基于視網(wǎng)膜中央凹視覺的3D圖像

只有自己最清楚

高品質(zhì)3D圖像吸引著人們的眼球，并開創(chuàng)了各種視覺化的可能。然而遺憾的是，目前的硬件設(shè)備在實(shí)時(shí)處理超高分辨率的圖像時(shí)存在很大局限。人們往往面臨兩種選擇：為獲得極致的3D體驗(yàn)購買龐大且昂貴的設(shè)備；或是接受真實(shí)感略為遜色的效果而使用輕便的移動(dòng)設(shè)備。

如今，這種兩難的境況將有所改變。MSRA的研究人員正在開發(fā)一項(xiàng)技術(shù)，根據(jù)人類視覺形成的特點(diǎn)，對(duì)3D畫面進(jìn)行繪制——通過專門的設(shè)備跟蹤視覺焦點(diǎn)，然后僅在視覺焦點(diǎn)處繪制高分辨率和高精度的圖像；而在其他區(qū)域，由于人類視覺無法清楚感知，所以可采用相對(duì)較低的分辨率。這項(xiàng)名為“基于視網(wǎng)膜中央凹視覺的3D圖像”技術(shù)，正是在人眼觀察方向的度量范圍內(nèi)放置高層次細(xì)節(jié)，并以同心圓方式向外逐級(jí)減少細(xì)節(jié)。為了在現(xiàn)實(shí)世界的物理局限下實(shí)現(xiàn)我們所期望的視覺體驗(yàn)，就必須充分利用有關(guān)人類視覺的全部知識(shí)，超越對(duì)像素渲染的單純追求，展現(xiàn)人類的智慧而非顯示器本身。這種體驗(yàn)更貼合人類視覺的原理，在實(shí)現(xiàn)驚人的清晰度和逼真度的同時(shí)，卻更加節(jié)能。當(dāng)我們用更少的資源享受更好的3D圖像時(shí)，旁人只能盯著模糊的屏幕納悶了。

英庫問答

真正理解搜索意圖

英庫問答是一個(gè)通用問答引擎。對(duì)于用戶給出的問題，英庫問答通過對(duì)自然語言問題的深度理解，從知識(shí)庫、互聯(lián)網(wǎng)以及問答社區(qū)獲取候選答案和證據(jù)，并通過自動(dòng)推理、答案排序、可信度估計(jì)等步驟，最終提供精確的答案。英庫問答可以廣泛用于自然語言搜索、商業(yè)智能、語音助手等應(yīng)用場(chǎng)景中。與傳統(tǒng)的搜索引擎相比，它真正去分析和理解用戶的搜索意圖，而不是根據(jù)關(guān)鍵詞進(jìn)行網(wǎng)頁排序。蘋果的Siri和Google的Google Now已經(jīng)在嘗試讓用戶直接向手機(jī)提問，手機(jī)直接給出答案，但它們目前真正能做好的事情還非常有限，大部分時(shí)候仍要求助傳統(tǒng)搜索引擎。英庫問答雖然目前沒提供語音服務(wù)，但它是通用的問答引擎，對(duì)于事實(shí)性的問題都可以直接提供答案，適用范圍遠(yuǎn)比前兩者更廣。

CHIP新電腦2013年12期

CHIP新電腦的其它文章: 硬件技巧; Windows技巧; 為照片創(chuàng)建多重曝光效果; Gmail的新特性; 更新和恢復(fù)iOS設(shè)備; 更換三星GALAXY S3 mini手機(jī)屏幕