劉峰

上世紀90年代,當時互聯網的發展狀態是這樣的:
1994年,我國正式接入了國際互聯網。
1997年,網易成立。1998年,搜狐成立。同年11月,騰訊成立。12 月,新浪成立。1999年,阿里巴巴成立。QQ的第一個版本 OICQ發布。 2000年初,百度成立。
從以上的信息中我們可以發現,那些在今天我們耳熟能詳的互聯網企業,大都成立于1998年這個時間點。
這是因為1998年滿足了兩個條件:第一個條件,個人電腦在沿海發達城市的普及。第二個條件,撥號上網資費從 1998 年開始大幅下調。這兩個條件使互聯網這片土壤擁有了足夠的肥沃度,具備了滋養企業的條件。如果我們把互聯網在國內的發展類比為一部連續劇的話,那么 1998 年就是這部連續劇的第一集。它拉開了互聯網之后連續20多年高速增長的序幕。
今天,和1998年的互聯網相對應的,是以人工智能為代表的一系列新的技術。
我個人對當下人工智能技術的定義是這樣的:人工智能技術是一種通過向機器學習系統輸入海量數據的方式,使機器可以處理之前只有人才能夠理解的抽象信息,進而使機器可以在更多的場景中代替人的一種工業化技術。
大體上,我們可以把這個定義展開為如下兩個關鍵點:“使機器可以在更多的場景中代替人的一種工業化技術”和“通過向機器學習系統輸入海量數據的方式,使機器可以處理之前只有人才能夠理解的抽象信息”。
第一個關鍵點:使機器可以在更多的場景中代替人的一種工業化技術。
我對工業化的理解是“以盡可能讓機器取代人為理念推行的標準化”。 雖然人類進入工業化時代已經有足足200年的時間了,但機器代替人的水平卻依然不高。這是因為在人工智能技術出現之前,機器只能應對規則有限的工作場景,它們無法勝任規則無限的工作場景。
“讓機器可以準確地從照片中識別出哪些是狗的照片”,就是一個規則無限的工作場景。
這是因為狗是一種抽象的概念,它是我們人為地定義出來,用來描述帶有某些共性特征的一系列生物的集合。在這個世界上,我們幾乎不可能找出兩只完全一樣的狗,它們總會在一些細微的地方存在差異。并且,就算我們只考慮同一只狗的情況,它也可以在不同的姿勢、動作、拍攝角度、光源、拍攝背景等條件的作用下,生產出無數張存在差異的照片。這些差異的邏輯是非常復雜的,我們無法通過有限的規則,讓機器可以從這些照片中準確地識別出哪些才是狗的照片。
所以,在人工智能技術出現之前,機器大多以人類的輔助工具的身份出現,它們無法脫離人類獨立的工作。這使它們始終無法在工業化生產的過程中進一步提高自己的占比。直到人工智能技術的出現。
第二個關鍵點:通過向機器學習系統輸入海量數據的方式,使機器可以處理之前只有人才能夠理解的抽象信息。
這個關鍵點向我們透露了三個重點,它們分別是:“向機器學習系統輸入海量數據”,“理解”和“處理”。下面,讓我們繼續以“讓機器可以篩選出狗的照片”為例,來解釋一下這三個重點。
請想象存在著一個如上圖所示的水管網絡。在這個水管網絡的左側是入口,對應著計算機的輸入;右側是出口,對應著計算機的輸出。這個水管網絡的設計目的是可以從照片中篩選出帶狗的照片,所以它的出口只有兩個,分別對應著“是狗的照片”和“不是狗的照片” 這兩種結果。
這個水管網絡是由無數個節點組成的,這些節點通過很多管道彼此連接在一起。水管網絡是分層的,每一層是一個豎排,每一個豎排上都分布著很多個節點,每一個節點在被上一層的若干個節點連接的同時,也都連接著下一層的若干個節點。每一個節點上都有很多個開關,這些開關可以控制流入節點的水流會繼續流入哪些和該節點相連的下一層的節點。
這個水管網絡有一個中央控制系統,它的職責是根據水流的實際情況來調整節點中的開關狀態。當我們向這個水管網絡輸入一張照片時,中央控制系統會把這張照片轉換成一股水流,并讓它流過自己的無數個節點。最終,中央控制系統會基于節點通過水流之后上報的信息,來判斷這張照片是否是一張帶狗的照片。如果是,則讓它從“是狗的照片”的那個出口流出;如果不是,則讓它從“不是狗的照片”的那個出口流出。

一開始,水管網絡的中央控制系統是沒辦法區分有狗的照片和沒有狗的照片的。為此,我們需要先向它輸入第一批有狗的照片,并明確地告訴中央控制系統:如果它不能讓這批照片從“是狗的照片”的那個出口流出來,就需要調整自己每個節點的開關狀態,直到所有的照片都會從“是狗的照片”的那個出口流出為止。接著,當中央控制系統可以讓我們輸入的第一批照片都從“是狗的照片”的那個出口流出來時,我們會再向它輸入第二批沒有狗的照片,并明確地告訴它:如果它不能在保持第一批照片從“是狗的照片”的那個出口流出來的同時,還能讓第二批照片從“不是狗的照片”的那個出口流出來,就需要調整自己的每一個節點的開關狀態,直到第一批和第二批的照片可以分別從對應的出口流出來為止。持續地這樣做,當我們向中央控制系統輸入了足夠多張是狗的照片和不是狗的照片,且中央控制系統都可以準確地讓這兩種照片的數據流從對應的出口流出來時,一個針對“識別帶狗的照片”的機器學習系統便訓練完成了。
在以上的類比中,水管網絡類比的是“神經網絡”;第一批和第二批照片則是類比“訓練數據集”;讓水管網絡從無法識別狗的照片到可以準確地讓狗照片從“是狗的照片”的那個出口流出來,并讓沒有狗的照片從“不是狗的照片”的那個出口流出來的過程,類比的是機器學習系統的“訓練過程”。機器學習系統便是通過這樣的方法,讓自己具備了處理之前只有人才能理解的抽象信息的能力。
通過這個例子,我們便可以理解“通過向機器學習系統輸入海量數據的方式,使機器可以處理之前只有人才能夠理解的抽象信息”這句話的三個重點了。
第一個重點:向機器學習系統輸入海量數據。
大數據是人工智能技術得以發揮的基礎。如果我們把人工智能技術比喻為發動機的話,那么大數據就是燃料。沒有燃料的驅動,再好的發動機也不過是個擺設,沒法發揮自己的價值。所以在人工智能時代,數據將變成一種非常重要的資產。它的豐富程度將直接決定人工智能技術的工作表現。
第二個重點:“處理”與“理解”。
水管網絡的類比可以讓我們明顯地感受到機器和人類學習過程的差異。
人類是用抽象思維來理解事物的,這得益于我們擁有極其強大的感知器官。當這些感知器官把外界的信息轉換成人腦所擅長的抽象概念時,一個遠比機器更復雜的基于抽象概念的推理系統便構建完成了。以“篩選出狗的照片”為例。得益于人類強大的感知能力和抽象推理能力,我們知道什么是“光源”,也知道“光源”會對照片產生哪些影響。我們知道什么是“背景”,也知道如何從一張照片中區分出“主體”和“背景”。我們知道什么是“狗”,并且可以不受狗的姿勢、拍攝角度、動作等差異的影響,將它們準確地識別出來。
而機器卻完全做不到這一點。機器并不知道人類所能理解的那些概念。在它看來,一張圖片就是一堆按順序排列的不同顏色的點。它并不知道這些帶顏色的點組合在一起的東西到底象征著什么。所以,和人類站在整體的角度去理解照片不同,機器只能用數學計算的方式去處理照片。當我們向機器輸入訓練數據的時候,其實就是在讓機器通過暴力計算的方式,來窮舉出“可以區分出帶狗的照片和不帶狗的照片的節點開關組合”。以使這個開關組合可以達到在輸入一張帶狗的照片時,讓水流從“是狗的照片”的那個出口流出;在輸入一張不帶狗的照片時,讓水流從“不是狗的照片”的那個出口流出的效果。也就是說,機器并不“理解”自己在做的到底是一件什么事,它只是在通過暴力計算的方式來模擬人類理解信息時的效果。
站在工業化的角度,我們可以把當下人工智能技術的適用范圍表述為:在人工智能技術的支持下,機器將從“可以勝任有限規則的場景”,拓展到“可以勝任所有有明確數學規律”的場景。這一變化極大地拓展了機器可以處理信息的范圍,使機器可以處理很多之前只有人才能理解的抽象信息,進而為機器可以在更多的場景中代替人提供了可能。
沒有任何證據表明我們可以在可預計的時間內研發出類似電影《終結者》那樣,有自我意識的機器。當下的人工智能技術和科幻片中有獨立意識的機器人完全是兩回事。
由此,不難發現,人工智能技術是一種工業化的技術,它將全面地提高機器在工業化生產中的比重,進而把人類從有明確數學規律的標準化工作中解放出來,進一步推高人類的生產力。因為實體行業會受到物質壁壘的局限,所以人工智能技術大概率會像互聯網那樣,先在虛擬世界發揮價值,然后再逐步地借助類似移動互聯網那樣的技術機會向實體行業滲透。
編輯? 劉穎