汪暉
機器智能離不開數據,那么大量的數據和現在大家所說的大數據是不是一回事呢?如果不是,它們之間又有什么聯系和區別呢?
毫無疑問,大數據的數據量自然是非常大的,但是光是量大還不是我們所說的大數據。比如過去國家統計局的數據量也很大,但那并不是真正意義上的大數據。這兩者的差別我們可以從三個方面來看。
第一,大數據具有多維度性質,而不同維度之間有著天然的(而非人為的)聯系。為了說明這一點,我們不妨看一個實際的例子。
2013年9月,百度發布了一個頗有意思的統計結果:中國十大“吃貨”省市排行榜。百度沒有做任何民意調查和對各地飲食習慣的研究,只是從“百度知道”的7700萬條和吃有關的問題里“挖掘”出來一些結論:在有關“××能吃嗎”的問題中,福建、浙江、廣東、四川等地的網友最常問的是“××蟲能吃嗎”,江蘇、上海、北京等地的網友最常問“××的皮能不能吃”,內蒙古、新疆、西藏的網友最關心的是“蘑菇能吃嗎”,而寧夏網友最關心的竟然是“螃蟹能吃嗎”!寧夏網友的問題一定會讓福建的網友大跌眼鏡。
百度做的這件事其實就是大數據的一個典型應用。它有這樣一些特點:首先,它的數據量非常大。其次,這些數據的維度非常多,不僅涉及食物的做法、吃法、營養價值、價格等,而且包含了提問者的很多信息,如互聯網IP地址、所用的計算機(或者手機)型號、瀏覽器的種類等等。這些維度并不是明確地給出的(這一點和傳統的數據庫不一樣),因此在外人看來,這些原始的數據“相當雜亂”,但恰恰是這些看上去雜亂無章的數據,將原來看似無關的維度聯系了起來。經過對這些信息的挖掘、加工和整理,就得到了有意義的統計規律。
百度只是公布了一點點大家感興趣的結果,其實它還完全可以從這些數據中得到更多有價值的統計結果。比如,它很容易得到不同年齡、性別和文化背景的人(這些很容易挖掘出來)的飲食習慣,不同生活習慣的人(比如正常作息的、夜貓子,經常出差的或者不愛運動的)的飲食習慣等等。如果百度的數據收集時間跨度足夠長,它還可以看出不同地區人們飲食習慣的變化,尤其是在不同經濟發展階段飲食習慣的改變。而這些看似很簡單的問題,沒有這些大數據,還真是很難得到答案。這就是大數據多維度的威力。
大數據的第二個特點在于它的完備性。為了說明這一點,讓我們再來看一個實例。從1932年開始,蓋洛普一直在對美國總統選舉進行預測。幾十年來它不斷改進采樣方法,力求使統計結果準確。但是在過去的幾十年,它對美國大選結果的預測可以講是大局(全國)尚準確,但是細節(每一個州)常常出錯。因為再好的采樣方法,也有考慮不周全之處。
但是到了2 0 1 2年總統選舉時,這種“永遠預測不準”的情況得到了改變。一位名不見經傳的統計學家Nate Silver通過對互聯網上能夠獲得的大量數據(包括社交網絡上用戶發表的信息、新聞信息和其他網絡信息)進行大數據分析,準確地預測了全部50個州的選舉結果。Silver并沒有多么好的采樣方法,只是收集的數據很完備。
數據的完備性的作用遠比準確預測一次總統選舉大得多,谷歌無人駕駛汽車便是一個很好的例子。無人駕駛汽車可以算是一個機器人,它能像人一樣對各種隨機突發性事件快速做出判斷。
2004年,經濟學家們還認為駕駛員是人工智能很難取代的。當然,他們不是憑空得出這個結論的。除分析了技術上和心理上的難度外,他們還參考了當年DARPA組織的自動駕駛汽車拉力賽的結果—當時排名第一的汽車花了幾小時才開出8英里,然后就拋錨了。但是僅僅過了6年,谷歌的自動駕駛汽車不僅研制出來了,而且在高速公路和繁華的市區行駛了14萬英里,沒有出過一次事故。
為什么谷歌能在不到6年的時間里做到這一點呢?最根本的原因是谷歌的思維方式和以往的科學家們都不同—他們把這個機器人的問題變成了一個大數據的問題。
首先,自動駕駛汽車項目是谷歌街景項目的延伸。谷歌的自動駕駛汽車只能去它“掃過街”的地方,在行駛到這些地方時,它對周圍的環境是非常了解的,而過去那些研究所里研制的自動駕駛汽車,每到一處都要臨時識別目標,這是人的思維方式。
其次,谷歌的自動駕駛汽車上裝了十幾個傳感器,每秒進行幾十次各種掃描。這不僅超過了人所謂的“眼觀六路,耳聽八方”,而且積攢下來的大量數據使它對各地的路況以及不同交通狀況下車輛行駛的模式有了準確的了解。計算機學習這些“經驗”的速度遠遠比人快。依靠這些,谷歌才能在非常短的時間里實現汽車的自動駕駛。
大數據的第三個特征在它的英文表述“big data”這個詞中體現得很清楚。請注意,這里使用的是big data,而不是large data。這兩個表述有什么區別呢?big主要是強調抽象意義上的大,而large是強調數量(或者尺寸)大。big data不僅表示數據量大,更重要的是強調了思維方式的不同。這種以數據為主的新做法,在某種程度上顛覆了人們長期以來在科學和工程上的方法論。
過去,我們強調一件事的因果關系,通過前提和假設推導出結果。但是在大數據時代,由于數據的完備性,我們常常是先知道結論,再去找原因(甚至不去找原因)。事實上,在一些擁有大數據的IT公司,包括谷歌、阿里巴巴等,今天已經在按照這種思維方式做事了。谷歌的產品比競爭對手好,主要不是靠技術,而是靠它的數據比對手的更完備,同時它愿意用數據來解決問題。阿里巴巴的小額貸款業務能做起來,也是利用了大數據思維。這是一種我們以前完全沒見過的新的思維方式,一種新的方法論。
大數據的這三個特點導致人工智能和人具有完全不同的特點。它不是通過邏輯推理歸納演繹得出結論,而是利用大數據的完備性和多維度特點直接找到答案。而大數據的完備性讓機器有可能比人更能夠掌控全局,或者說幫助決策者更好地掌握全局。