可否請你介紹一下研究院目前比較好的研究成果?
張益肇:Kinect是一個很好的例子,里面有多項技術都是微軟亞洲研究院貢獻的,這些技術現在都得以產品化了。其中一項技術使得Kinect能夠在多個玩家中進行身份辨識;即使他們交換了角色,Kinect也能夠成功辨認。另外一項技術是Object Digitization(物體數字化)。也就是說,我們把一個玩具熊放在Kineet前,只要正面反面分別照一下,Kinect就能為玩具熊建立3D立體模型。還有一項技術是Avatar Kineet,通過它玩家可以用身體動作控制一個卡通人物,通過卡通人物與別的玩家進行交流。
我們經常會進行跨部門的合作。研究院與互聯網工程院都是在同一棟大樓。在有些項目的合作中,我們的研究人員基本上就是他們團隊的一部分,作為架構師一起討論系統怎么架構,怎么驗證,最后共同完成項目。
另外,在自然用戶界面方面,我們在語音領域十幾年來也有很多的技術進入到產品當中。我們是從2000年開始做語音合成技術的,工程院創立之初的項目之一就是把語音合成技術結合到Windows系統里面,最初做的僅僅是中文和英文的語音合成,現在已經超過二十幾種語言,包括德文、法文、意大利文等。我們的技術在微軟語音方面的應用中都有體現,不管是Windows Phone、Windows系統,還是Windows Server等,都利用了我們的語音合成技術。從基礎研究一直到最終做到產品,都是在北京完成的。
產品部門呢?
我們通過很多機制來建立相互間的關系,但簡單講可以歸納為3個C:第一,連接(oonneot),通過建立連接來知道哪些人在做跟你相關的事情,哪個產品組對你的研究有興趣;第二,溝通(communicate),就是讓大家知道你在做什么,讓別人知道你可以提供什么技術;第三,就是合作(collaborate)。
研究院設定了很多的機制來幫助3個C的順利開展。微軟總部內有一個項目經理的團隊,他們可以說是我們整個研究院的外交官和大使。這些人之前都在產品部門工作過很長的時間,對產品部門非常了解。即使他們現在身處研究院,還會定期參加產品部門的會議。比如說,在做Kinect研發的時候,他們有可能會參與到產品部門的討論中來,并且從中發掘出一些也許可以由研究院來解決的難題。
另外,微軟總部每年會舉辦一次TechFest,也就是微軟的“技術節”。平均每年有六七千位同事來看展示。通過這樣的機會,其他部門的人就可以了解研究院研究的技術,并搭起很多良好的合作橋梁。
接下來就是具體的合作。我們有一個由三十多人組成的內部工程團隊,叫做創新工程組。他們的主要工作是工程。做產品的工程要求比研究高很多。創新工程組的作用就是幫助研究員把他們原來的技術轉化成可以接受的產品。
語音識別方面,研究院未來的主攻方向是哪些?類似于非特定人的語音識別嗎?
兩種都需要。非特定人方面,亞洲研究院的同事通過與美國同事的合作開展了深層神經網絡的研究,因為原來所做的研究只有一層或者兩層,現在已經達到了七層的神經網絡。此前得出的結果非常好,識別錯誤率能夠降低33%左右。這在語音識別領域已經是非常大的改進了。通常做語音識別的基礎研究時,5%的改善就已經很了不起了。
我們有一個口號是,既要利用云,又要利用人群。一方面,我們有很多計算在云上完成,因為云上的計算能力非常強。另一方面,又有很多人使用這個系統,識別率就會越來越高。即使用戶是第一次使用這個系統,系統也可以很快找出來該用戶的口音跟過去哪個用戶的比較相近。人類也是這樣做的,比如一個人剛到美國的話,看到的電視里面都是講美國的標準英文,對標準英文就會比較熟悉。這個時候突然遇到一個印度人,他講英文有印度的口音,剛開始的時候就需要適應,慢慢地會了解到印度人講英文的腔調有什么不一樣。下次再遇到另一個印度人,雖然也是初次見面,但是會比上一次好很多,因為已經有了大致的概念,印度人通常講英文用什么腔調,我們可以借助類似的方法進行很好的識別。
在未來,語音識別是否會更多地用于移動設備上?
我們很早之前就開始做這方面的研究了。其實我們的模型是可以跟著用戶四處走的。假如用戶用筆記本電腦,就可以把語音模型放進筆記本電腦中,下次這個用戶繼續使用,機器還能知道是同一個用戶。語音模型是可以跟著用戶走的,因為最新的模型是在云上。也就是說,語音識別功能相關的技術對于設備的依賴不是很大,對云端的計算需求、相應軟件需求會更多?
對,隨著計算功能越來越強,就可以完成越來越多的計算。最基本的一步就是區分說話者是男還是女,說話者說出一句話來,系統可以立即通過男、女兩個不同的模型識別出來,這是最粗淺的部分。除了性別之外,可能還有腔調、口音等,可識別的內容都會越來越細,通過這種原理就可以找到與用戶越來越接近的聲音。
未來在語音識別方面會推出什么樣的平臺?基本上是語音界面無縫式融入,也就是成為自然用戶界面的一部分,因為在有些場景中,使用語音可能是最方便的,但是也不能百分之百取代過去的各種用戶界面,比如觸摸屏、鍵盤。我們希望打造一個多模式、自由變換的用戶界面。
現在針對非特定人的語音識別,能否取代曾經需要先說—段話,然后再輸入文字進行訓練的模式?之前軟件是否都要被取代了?
我可以確定的是,調試的過程會越來越短。相對以前的模式來講,用戶可能會越來越意識不到調試過程的存在。比如以前的軟件,安裝之后先要講二十分鐘的話,軟件要慢慢的熟悉用戶的說話習慣。以后這個時間會越來越短,可能剛開始使用,系統就會進行分類,雖然最初可能不是很準,隨著使用的增多,識別率會越來越高,用戶對這個過程的進行不會有太明顯的感覺。
互聯網技術的發展與人工智能的進步有什么關聯?
我覺得有非常大的關聯。可以看到,過去這二十年中,隨著互聯網的發展,提供了越來越多的數據來源,很多人工智能需要依靠大量的數據才能做起來。比如英庫項目就是借助了網絡上搜索而來的資源,通過前人翻譯的中英文對照例句,從中找出很多的規則,進而發現文字怎么在應用,怎么在演化。比如“給力”這個詞,雖然以前沒有用過,但是微博上突然有很多人開始使用“給力”,見得多了之后,機器也就能判斷出到底是什么意思了。互聯網在這方面的幫助很大,使機器可以很容易觀察到語言在如何轉變,沒有互聯網這一點就比較難實現。
從這個方面來講,互聯網和人工智能的發展是相輔相成的。互聯網使得大量數據的收集跟獲取成為可能,從而促使人工智能的能力進一步提高。互聯網上的數據對人工智能方面的機器學習、數據挖掘都有非常大的幫助和促進。
另外,互聯網提供的通訊機會也非常重要。比如,現在研究人員獲取信息以及與別人交流的途徑同十年前相比已經有了很大的不同。在十幾年前,研究院的研究員就很難獲取到國外研究的信息。互聯網為最新知識的獲取架起了非常好的橋梁。現在的學生可以直接寫一封電子郵件與教授進行交流,從這個方面來講,便捷度與十幾年前相比提高了非常多。更不要說課程方面了,現在在互聯網上有很多學校的課程錄像。這對整個領域的推動有很大的幫助,演變的速度也自然加快了。