張冬冬
它是未來的一部分,
我們才剛剛開始。
3年前,美國加利福尼亞州山景城神秘的谷歌X實驗室的研究人員從YouTube視頻中提取了1000萬個靜態圖像,并將其輸入“谷歌大腦”——由1000臺計算機構成的網絡,從而試圖像一個蹣跚學步的孩子一樣吸收這個世界的信息。經過3天尋找重復出現的模式后,谷歌大腦憑自身判斷,它可以識別一些特定的重復類別:人類面孔和人類身體,甚至是貓。
谷歌大腦發現互聯網上到處都是關于貓的視頻,這還曾引起一連串的笑話。不過,谷歌大腦是深度學習復興的一個里程碑。深度學習是一項有著30年歷史的技術,其中大量數據和強大的處理能力幫助計算機破解那些人類幾乎可以憑直覺就可解決的難題——從識別人臉到理解語言。
深度學習本身是對神經網絡這個更老的想法的復興。這些系統的靈感大多來自于大腦中緊密連接的神經元,通過改變模擬神經連接的強度來模擬人腦學習。谷歌大腦擁有約100萬個模擬神經元和10億個模擬連接,比之前任何深度神經網絡強度都要高10倍。該項目建立者Andrew Ng目前是加州斯坦福大學人工智能實驗室的負責人,他的開發已經使深度學習系統的強度又提高了10倍。
人工智能(AI)領域取得的這些激動人心的進步試圖讓電腦像人類一樣思考。紐約大學數據科學中心主任、深度學習領域先驅Yann LeCun說:“人工智能已經失敗了無數次,其間只有少許的進步。如今它實現了一次超越。”
“在未來幾年,我們將看到一種瘋狂的情況:很多人會跟隨深度學習的潮流。”加州大學伯克利分校從事圖像識別研究的Jitendra Malik表示同意。但是從長遠看,深度學習并不占上風,一些研究人員正在尋求其他有前景的技術。“我是不可知論者。”Malik說,“隨著時間的推移,人們會決定不同領域的最佳技術。”
初出茅廬
Malik稱,初期的深度學習程序并不比其他更簡單的系統有更好的表現。另外,它們還很難處理。“神經網絡管理一直是一種精妙的藝術,其中有一些黑魔法。”該網絡需要從豐富的事例來源中進行學習,就像一個嬰兒從世界收集信息一樣。在二十世紀八九十年代,并沒有太多可用的數字信息,而且計算機消化這些存在的信息需要很長時間。當時的相關應用很少,LeCun開發的技術是為數不多的應用之一,現在還被銀行用于讀取手寫支票。
然而到了21世紀,像LeCun和其前任主管、加拿大多倫多大學計算機科學家Geoffrey Hinton這樣的提倡者確信,計算能力的提高和數字數據的爆炸意味著是時候重新推動這一技術了。Hinton現在的學生George Dahl說:“我們想向世界展示,這些深度神經網絡真的很有用,并能提供真正的幫助。”
在開始時,Hinton、Dahl和其他一些人解決了語音識別中對商業應用很重要的一些難題。2009年,研究人員報告稱,通過典型數據集的練習,他們的深度學習神經網絡已經打破了將口語轉化為文本的精度紀錄。
巨大飛躍
當谷歌在其安卓系統的智能手機操作系統中采用基于深度學習的語音識別技術時,它的文字錯誤率下降了25%。“人們本來期待在10年后才能達到這種下降程度。”Hinton表示,“這相當于實現了10項突破。”
同時,Ng說服谷歌,讓自己使用其數據和計算機,谷歌大腦由此產生。該項目指認貓的能力是對無監督學習的有力證明,無監督學習是最困難的學習任務,因為其輸入中不包含任何像名字、標題或者類別等解釋性信息。
不過Ng很快就遇到了麻煩,谷歌公司之外很少有研究人員擁有進行深度學習研究的設備。因此Ng在回到斯坦福大學后,開始使用圖像處理單元(GPUs)研發更大、更便宜的深度學習網絡。
Ng說:“使用價值約10萬美元的硬件,我們可以用64個GPUs建立一個有著110億個連接的網絡。”
勝利之后
不過,要想說服計算機視覺領域的科學家還需要更多努力:他們希望看到標準測試中的收獲。Malik認為,在國際知名的ImageNet競賽中取得勝利將會達到理想的結果。
在該競賽中,各團隊基于大約含有100萬個圖像、屬于同類別的一個數據集開發計算機項目。2012年,Hinton的實驗室成為首個使用深度學習的競爭者,其錯誤率只有15%。這一次的勝利使Hinton在谷歌獲得了兼職工作,而2013年5月,谷歌公司使用該程序更新了其圖像搜索軟件。
Malik被說服了。他說:“在科學上,你必須接受經驗證據,而這正是明顯的證據。”之后,他使用該技術在另一個視覺識別比賽中打破了紀錄。很多其他團隊也跟隨這一趨勢,2013年,ImageNet比賽的參與團隊都使用了深度學習技術。
隨著深度學習技術在圖像和語音識別方面取得勝利,人們越來越有興趣將其應用于自然語言理解(例如,充分理解人類話語來改述或者回答問題)或者翻譯語言。同樣,這些工作目前可以通過使用手工編碼規則和對已知文本的統計分析來實現,例如谷歌翻譯。眾包專家Luis von Ahn說:“深度學習技術將有機會比現在使用的技術做得更好。”他的公司Duolingo位于賓夕法尼亞州匹茲堡市,依賴于人,而不是計算機進行文本翻譯。“每個人都認為,是時候嘗試一些不同的東西了。”
與此同時,深度學習技術被證明可用于完成各種科學任務。2012年,默克制藥公司為那些可以幫助預測有用候選藥物的最佳項目提供了獎金。Dahl和同事使用深度學習系統贏得了2.2萬美元。
盡管深度學習技術取得了不少成
功,但它仍處于起步階段。“它是未來的一部分。”Dahl稱,“我們才剛剛開始。”(來源:《中國科學報》,2014-01-14 )endprint