Michael Berthold
拿起雜志,瀏覽技術博客,或在行業會議上與同行聊天。你會很快注意到,技術世界中幾乎所有的事物似乎都有人工智能或機器學習的元素。討論人工智能的方式,聽起來像是在宣傳布道。人工智能是一種可以滿足我們所有需求的真正技術! 它們正在拯救我們所有人!
我們可以使用基于人工智能的技術做許多神奇的事情,這是真的。但是通常情況下我們并沒有完全體現“智能”這一術語的含義。智能意味著一個人們可以與之進行創造性對話的系統,即具有思想和創新能力的系統。這一術語存在著爭議。今天的“人工智能”通常描述的是實現了人類在某些方面的能力,例如物體或語音識別,但肯定不是人類智慧的全部潛力。
因此,對于描述我們今天正在使用的“新”機器學習技術來說,“人工智能”可能并不是最佳術語,但是事已至此,盡管機器學習還不是機器智能的代名詞,但是它們無疑已經變得更加強大,更具能力并且更易于使用。人工智能(指神經網絡、深度學習以及“經典”機器學習)最終將成為分析工具包的標準組成部分。
既然我們已經進入了AI革命,或者更確切地說是進化,那么重要的是要看一下人工智能的概念被采納的方式、原因以及未來的意義。下面讓我們更為深入地研究探討一下人工智能(即使是一些誤解的說法)在當今引起關注的原因。
在當前的炒作周期中,人工智能或機器學習經常被描述為是相對較新的技術。這些技術正突然變得成熟起來,并在最近從概念階段過渡到應用程序集成階段。
人們普遍認為,獨立的機器學習產品是最近幾年才開發出來的。實際上,人工智能取得的重要發展成就并不是新事物。今天的人工智能只是過去幾十年來取得的進步的延續。變化與AI技術本身并無太大關系,而是與人工智能技術相關的周邊技術,即數據生成和處理能力。我們之所以會誤認為人工智能技術發生了變化,是因為人工智能技術出現在了許多地方。

我并不想用“我們很快就要存儲多少ZB數據”這樣的話讓大家感到焦慮不安。我們都知道,我們生成和收集數據的能力正在顯著增長。同時,我們發現可用的計算能力也在驚人地增長。從單核處理器向多核的轉變以及通用圖形處理單元(GPGPU)的開發和采用為深度學習提供了足夠的算力。我們甚至不需要內部處理計算,只需簡單地租用云端中某個地方的算力即可。
有了如此多的數據和大量的計算資源,數據科學家終于可以使用完全不同于過去幾十年的方法。在20世紀90年代,需要花上幾天的時間訓練神經網絡來識別數以萬計的手寫樣本數字。如今,我們可以通過數以千萬計的圖像來訓練更復雜的(即“深度”)神經網絡,以識別動物、面容和其他復雜物體。我們可以部署深度學習模型以實現主流業務應用程序中的任務和決策自動化,例如檢測和預測產品成熟度或路由打入的電話。
這聽起來可能像建立真實的智能一樣令人感到可疑,但是需要著重指出的是,在這些系統下,我們只是在調整數學性相依參數,盡管這是一個相當復雜的參數。人工智能方法并不擅長獲取“新”知識,它們只能從呈現給它們的東西中學習。換句話說,人工智能不會問“為什么”這樣的問題。系統的運行方式不會像孩子在試圖了解周圍世界時不斷向父母問這問那。系統只知道它被“喂”了什么,它們不會識別以前未出現過的任何東西。
在其他“經典”機器學習場景中,了解我們的數據并清楚我們希望該系統如何找到模式非常重要。例如,知道生日對客戶是沒有用的,除非將生日轉換為客戶的年齡。我們也都知道季節性的影響,但是我們不應該期望系統會獨立于季節來學習時尚購買方式。此外,我們可能還想在系統中注入一些其他信息,讓系統在已知的基礎上進行學習。與深度學習不同,這種機器學習已經被企業使用了數十年時間,并正在穩步發展。
人工智能的最新進展主要集中在數據科學家能夠模仿人類識別能力的領域,例如識別圖像中的對象或聲音信號中的單詞。對于識別諸如音頻流或圖像之類的復雜信號中的東西,其學習能力是非常強大的,強大到足以使許多人懷疑為什么我們沒有在所有地方都使用深度學習技術。
企業領導者可能會問他們什么時候應該使用人工智能。在神經網絡解決與模仿人類擅長行為方面(對象識別和語音識別是兩個最突出的例子)基于AI的研究已經取得了巨大進展。每當有人問“好的對象表示法是什么?”且你無法回答時,深度學習模型就可能值得嘗試一下。如果數據科學家能夠構建語義豐富的對象表示形式,那么經典的機器學習方法可能是一個更好的選擇(嘗試找到一個好的對象表示形式是值得認真花一些心思的)。
人們只是想在同一平臺上嘗試不同的技術,他們不想讓軟件供應商限制他們的選擇,也不想因軟件供應商無法跟上當前發展而影響到他們的選擇。這就是為什么開源平臺是該市場的領導者的原因。這樣可以使從業人員將當前的最新技術與最新的前沿技術相結合。
展望未來,隨著團隊在使用機器學習來實現目標和方法上變得一致,深度學習將成為每個數據科學家工具箱的一部分。對于許多任務來說,在其中添加深度學習方法將提供巨大的價值。由于當前人們已經在收集和注釋足夠的數據方面遇到了麻煩,因此我們通過預先訓練的人工智能系統合并現有的語音或語音識別組件。最終我們會意識到,就像之前的經典機器學習一樣,深度學習實際上只是另一種工具而已。
就像二十年前一樣,我們面臨的障礙之一是:理解人工智能系統學到的東西以及它們是如何做出預測的是一件極為困難的事情。在預測客戶是否喜歡某一特定產品時,這一點可能并不重要。但是,當解釋為什么一個與人類交互的系統會以一種意想不到的方式運行時,問題就出現了。人類愿意接受“人類的失敗”,因為不期望人類是完美的。但是我們不會接受人工智能系統的失敗,尤其是如果我們不能解釋它們失敗的原因(并進行糾正)。
隨著我們對深度學習的逐漸熟悉,我們將意識到(就像我們二十年前對機器學習所做的那樣),盡管系統很復雜且用于訓練的數據量很大,但是如果沒有領域知識,就無法理解許多模式。人類的語音識別之所以如此有效,是因為我們通常可以通過了解當前對話的上下文來彌補未聽出來的地方。
當今的人工智能系統還沒有這么強的理解能力。我們現在看到的智能還處于非常淺顯的階段,即模仿孤立的人類識別能力,有時甚至在孤立的任務中它們表現的要優于人類。通過數十億個示例對系統進行訓練如今僅僅是關系到擁有的數據量和足夠計算資源的問題,已經不再是成敗的決定性條件。
人工智能還遠遠達不到像宣傳的那樣“拯救世界”。不過,它們將成為人們手中的一件令人難以置信的工具,幫助人們更快更好地完成工作。
本文作者Michael Berthold為開源數據分析公司KNIME的聯合創始人兼首席執行官。其在數據科學領域擁有25年以上的工作經驗,在學術界曾先后擔任過加利福尼亞大學(伯克利分校)、卡內基梅隆大學、德國康斯坦茨大學的教授,在產業界先后擔任過英特爾的神經網絡小組、Utopy和Tripos的專家。
原文網址
https://www.infoworld.com/article/3438322/artificial-intelligence-today-whats-hype-and-whats-real.html