




Power Map for Excel:
3D數據可視化工具
大部分人使用過Excel中的餅圖、條形圖等圖表對數據進行可視化。現在,MSRA協助開發了一款先進的Excel 3D數據可視化工具——Power Map。它允許我們將大量數據以3D可視方式映射到必應地圖上,并通過3D柱形圖、泡泡圖/餅圖、熱量圖和區域圖等形式實現數據的可視化,從而讓至關重要卻容易混淆的數據變得易于理解。
讓手機更加聰明
手機上的3D發型設計
真正長出來的頭發
在意自己的發型?或許大家也曾經嘗試過用手機App查看自己心儀發型的效果,可無奈“二維”圖像總是顯得不夠真實,并沒有什么實際用途。現在,微軟亞洲研究院(簡稱MSRA)開發了一款手機應用程序,僅憑借一張照片便可創建一個非常逼真的3D頭發模型。
學過人物素描的朋友應該知道,頭發是最難畫的部分。對計算機而言,讓上萬根發絲看起來自然也是一件難事。在現實世界中,頭發的一點點變動都意味著發絲之間遮擋關系的變化:一些原來看不到的發絲暴露出來,另一些原先可見的發絲被遮擋住。而在計算機圖像中,這種變化是無法用傳統的基于像素操作的圖像編輯工具實現的。但是,來自MSRA的新技術模型基于物理真實性(physical plausibility)原則,即模型中頭發的根部應總是固定在圖中人物的頭部,發絲本身應平滑自然,且要盡可能地保持原圖中真實頭發的長度和連續性。我們可以通過這個App改變頭發的顏色、長度等塑造自己的發型。它是逼真的,不僅能用來娛樂,也可以在任何需要頭發圖像繪制的領域發揮作用。
基于多傳感器融合技術的室內定位
解決導航的最后100m
打通移動互聯時代位置服務的最后100m,才能觸發新的潛力和商機。在智能手機尚未普及的年代,MSRA的技術專家就想到了利用裝有加速度計、陀螺儀(即角速度計)和電子指南針的設備來跟蹤物體的運動狀態,從而實現室內定位。2010年前后,這幾個傳感器成為智能手機的標準配置,他們的跟蹤技術也已經成熟。同時,他們又發現隨著Wi-Fi網絡的普及,利用手機的Wi-Fi芯片可大大提升定位的準確性和可靠性。與傳感器跟蹤運動狀態相比,Wi-Fi有自身的結構,與建筑物的位置關系是固定的,它的定位誤差不會因為用戶走的距離變大而增大,所以能實現絕對定位。將Wi-Fi定位與運動狀態跟蹤技術進行結合,室內定位的精度甚至可能達到驚人的1m~2m。
相信用不了多久,我們就能通過室內定位技術直達某一樓層的店鋪,甚至可以直達某個商品了。
語飛行云漢語教育互動平臺
手機才是最好的學習機
真正學好外語,從來就不是一件輕松的事。對于外國小朋友以及小華僑而言,最難的地方是漢字的書寫和發音。現在,新加坡華僑小學的學生獲得了一個比較輕松的漢語學習秘方——把不認識的東西畫在手機或者平板電腦上,通過“語飛行云”互動平臺的“認圖”功能,詞匯和發音就可以顯示出來。
這個“語飛行云”互動平臺是MSRA與新加坡華文教研中心等教育機構合作研發的教育互動平臺。學生可以把平日的所見所聞拍下來,上載到該平臺上和同學分享討論,讓他們覺得漢語和自己的生活息息相關。“語飛行云”平臺提供了漢語語音合成器、詞匯學習、詞語解釋、配搭、查詢及例句篩選等功能。南僑小學校長陳俊明表示,將電子科技技術有效融入教學并非易事,但他們發現利用該互動平臺學習的學生在考試中表現比較優異。
科技與人文之間
10億像素拍攝敦煌石窟佛像
連陰影都是清晰的
敦煌莫高窟俗譽為20世紀最有價值的文化發現。然而,人為的破壞和生態的惡化,使敦煌這一歷史文化遺產面臨著嚴峻的考驗。在更大的游客量需求和為后代保護這份無比寶貴遺產的責任之間尋求平衡,是敦煌莫高窟面臨的最大挑戰。
MSRA向敦煌研究院捐贈的專門為莫高窟量身定制的10億級像素數字相機系統 “飛天號”,大幅度提高了洞窟內壁畫拍攝的效率,滿足了對佛龕、壁畫等文物顏色、幾何細節等高精度數字采集的要求。該相機的一大特色是利用焦點合成技術來高精度地捕捉被拍攝物的立體細節,這個功能是其他同類相機無法做到的。當拍攝具有復雜景深變化的斜坡、洞頂和佛龕時,“飛天號”能夠自動計算景深,分次拍攝多張同一場景但焦點不同的圖像,然后將所有的圖像合成,使得同一場景下的每尊塑像、每處壁畫都呈現焦點清晰的影像,陰影區域也保留了豐富的細節。這對敦煌莫高窟的數字檔案前期拍攝是一個突破,把過去無法高分辨率拍攝的佛龕變成了可能,使得洞窟的數字檔案實現了繪塑完整的統一空間。
不是每個人都有機會到莫高窟,但每個感興趣的人都可以在網上一睹敦煌壁畫的藝術風采,甚至比在現場觀看更加栩栩如生。
基于Kinect的手語翻譯系統
人人都能“聽”懂手語
世界各地有3.6億的聽力障礙人士,每一天,他們都面臨著大多數人從來無需考慮也難以想象的溝通挑戰。如何開發一種工具,讓人“聽”得懂手語,幫助聽障人士改善生活質量?MSRA與中國科學院計算技術研究所和北京聯合大學合作,希望借助Kinect設備打破溝通障礙。
首先,他們利用能同時捕捉色彩和深度圖像信息的Kinect,準確捕捉到聽障人士的手勢,然后結合自然語言處理技術在屏幕上顯示手語的含義。這項成果以MSRA在翻譯和自然語言處理、語音和手勢識別等自然用戶界面領域的廣泛研究成果為基礎。設想一下,聽障人士在健聽的觀眾面前用手語發表演說,每位觀眾都能不費吹灰之力聽懂他的演說,這讓我們看到了讓聾啞患者“發聲”的新希望。
用于觸摸屏與指尖互動的觸覺反饋
觸摸屏有反應了
現在,觸摸屏移動設備已經非常普及。當我們點按屏幕上的圖標時,通常會獲得視覺上的反饋——軟件會響應我們的操作,屏幕顯示的內容會有變化。有時候,我們還可以開啟“觸摸時震動”的功能,獲得更明確的觸覺反饋。但震動的是整個手機,我們沒辦法只讓屏幕的某個區域震動,所以無法給視覺障礙人士帶來真正的幫助。
終于,MSRA的研發人員已經能夠在觸摸屏上實現“觸覺反饋”——沿著手機觸摸屏滑動手指,就可以借助貼在屏幕邊緣的壓電致動器營造表面摩擦效果。看似很簡單,卻意義重大,它將轉變和提升基于觸摸的交互技術。除了幫助視覺障礙人士之外,普通人在玩帶有虛擬手柄的觸屏游戲時,也能體驗到更真實的手感了。
從這里看到未來
實時語音翻譯
搶同聲傳譯員的飯碗
想象一下這樣的場景:我們只身一人在國外需要訂餐,如果我們所說的中文能夠立即被翻譯成當地語言,并用自己的聲音念出來,而發音、聲調和語調與當地人別無二致。是不是很神奇?微軟的實時語音翻譯系統正以此作為目標,它集合了多項突破性研究成果,包括語音識別、文本翻譯、個性化語音合成等,將人們的交談內容從一種語言同步地轉換成另一種語言,并嘗試保留使用者本人的語音特征。
該系統突破性地利用了深層神經網絡(DNN)技術,相較傳統技術大幅提升了口語對話識別成文本的準確度。借助這項技術并通過模擬人腦行為,微軟的研究人員開發出了具有更高辨別能力的語音識別器,可以說這是幾十年來通過單一技術提高語音識別準確率的最大突破。另一項重要突破是個性化語音合成,它能夠保留使用者的個性化語音特征。此外,MSRA經過不懈努力,在機器翻譯領域也取得了進展,尤其是在英語和漢語間的互譯上,將單純的文本翻譯延展到了對語音的翻譯。當前,微軟的實時語音翻譯還有很多約束條件,比如語速不能快,發音要足夠標準,但它依然讓我們看到了一個可以打破語言障礙的未來。
基于視網膜中央凹視覺的3D圖像
只有自己最清楚
高品質3D圖像吸引著人們的眼球,并開創了各種視覺化的可能。然而遺憾的是,目前的硬件設備在實時處理超高分辨率的圖像時存在很大局限。人們往往面臨兩種選擇:為獲得極致的3D體驗購買龐大且昂貴的設備;或是接受真實感略為遜色的效果而使用輕便的移動設備。
如今,這種兩難的境況將有所改變。MSRA的研究人員正在開發一項技術,根據人類視覺形成的特點,對3D畫面進行繪制——通過專門的設備跟蹤視覺焦點,然后僅在視覺焦點處繪制高分辨率和高精度的圖像;而在其他區域,由于人類視覺無法清楚感知,所以可采用相對較低的分辨率。這項名為“基于視網膜中央凹視覺的3D圖像”技術,正是在人眼觀察方向的度量范圍內放置高層次細節,并以同心圓方式向外逐級減少細節。為了在現實世界的物理局限下實現我們所期望的視覺體驗,就必須充分利用有關人類視覺的全部知識,超越對像素渲染的單純追求,展現人類的智慧而非顯示器本身。這種體驗更貼合人類視覺的原理,在實現驚人的清晰度和逼真度的同時,卻更加節能。當我們用更少的資源享受更好的3D圖像時,旁人只能盯著模糊的屏幕納悶了。
英庫問答
真正理解搜索意圖
英庫問答是一個通用問答引擎。對于用戶給出的問題,英庫問答通過對自然語言問題的深度理解,從知識庫、互聯網以及問答社區獲取候選答案和證據,并通過自動推理、答案排序、可信度估計等步驟,最終提供精確的答案。英庫問答可以廣泛用于自然語言搜索、商業智能、語音助手等應用場景中。與傳統的搜索引擎相比,它真正去分析和理解用戶的搜索意圖,而不是根據關鍵詞進行網頁排序。蘋果的Siri和Google的Google Now已經在嘗試讓用戶直接向手機提問,手機直接給出答案,但它們目前真正能做好的事情還非常有限,大部分時候仍要求助傳統搜索引擎。英庫問答雖然目前沒提供語音服務,但它是通用的問答引擎,對于事實性的問題都可以直接提供答案,適用范圍遠比前兩者更廣。