美國物理學會院士巴拉巴西的新著《爆發》,是討論大數據問題的最新一部商業論著,可以被視為大數據的商業哲學。
作為復雜網絡研究的權威,巴拉巴西在大數據興起的背景下,得出一個結論性的判斷,認為數據、科學以及技術的合力,會使得人類變得比預期中更容易預測得多。這無疑會增強人們對Facebook所做的時間軸(Timeline)這類商業創新的信心。
這本書除了從現象上討論大數據將帶來的商業影響外,特別深入淺出地提煉出大數據背后的一個基本面上的哲學問題。《爆發》在最新的時間、最新的領域,討論了一個最古老的問題:到底應該用決定論的觀點,還是用非決定論的觀點,看待人類行為?
這本書寫法非常奇特,每章由科學和歷史兩部分交織組成。科學的部分討論用大數據能否測準人類行為,就象物理學家討論測不準定理一樣。歷史的部分用故事說明人類行為確曾被不可思議地測準過。
這本書的歷史部分寫得非常富有趣味和懸念,我是象看金庸的武俠小說那樣,一口氣讀下來的。它差不多就是一部小說,情節是如此吸引人,以至看到一半,我開始扔掉每章的前半部分,專看“小說”部分,一直看到主人公賽克勒被處死的大結局。這種感覺有點象看電視連續劇,被“欲知后事如何”吸引得顧不上按部就班一集一集觀看,直接到百度去搜分集劇情簡介,先睹為快。
故事講的是匈牙利十字軍的一段歷史,主人公賽克勒受主教之命,征召農民組成十字軍。在出征半路上,與同為十字軍的貴族軍發生一場至今也沒搞清原因的“誤會”。結果大水沖了龍王廟,十字軍內部草根與精英打了起來,貴族軍殺了兩千農民軍。這一事變,將賽克勒激反,走上領導草根起義之路。國王身邊的泰勒格迪事先曾準確預言事情的走向,他認為,主教發動農民軍充當十字軍過于冒險,因為這些農民從軍主要并非為了信仰,而是為了擺脫貴族勞役,他們手中有了武器,一旦遇到突發事件就有掉頭將矛頭直指國王和貴族的危險。這樣的事情結果還真發生了。可惜農民軍在造反打下大半個匈牙利后,最終被貴族軍鎮壓,賽克勒兵敗被擒,坐上“燃燒的御座”,帶上燒紅的鐵制王冠,被當眾處死。
這本書雖然可以當歷史小說來看,但它的重心在每章的前半部分,即討論科學的部分。歷史故事只是為了證明作者的觀點:人類行為90%是可以預測的,就象泰勒格迪做到的那樣。
在日趨精密的數字技術條件下,有了從四處搜集來的信息,我們不會再把人類的行為視為互不相關、隨意偶然的獨立事件。相反,它們應該是相互依存的奇妙大網的一部分,是相互串聯的故事集中的一個片段。它們會在不經意時顯示次序,在意想不到之處偶然出現。人類行為遵循著一套簡單并可重復的模型,而這些模型受制于更加廣泛的規律。
巴拉巴西這里講的實際是語義網絡的道理。根據語義網絡理論,一個詞最初有許多歧義,但一旦被放在由它的上下文編織的語境網絡中,它的微言大義就會被精確鎖定。
如果把人類行為比喻成這個詞的話,人的內心想法十分微妙,往往只可意會不可言傳,說出就是錯,自身都可能都搞不清楚自己想要的到底是什么。但借助大數據,可以象解夢那樣,把這種潛意識層面的不可道之道,借助種種蛛絲馬跡,判斷出來。
爆發的規律,被作者視為宇宙運行的科學。人類行為并不象自然界那樣多是隨機運動,而可能在意向作用下表現出非常規的突變的行為。例如,賽克勒出兵時壓根就沒想過起義,但當手下兩千人被“自己人”殘殺時,一怒之下導致了爆發,結果目標從對外轉成了對內。
爆發是那種脫離自然常規,但符合人的規律的行為。對農民軍來說,爆發具有內因,這個內因就是泰勒格迪看到的那個基本面上的原因,即農民因受壓迫而產生對貴族的仇視。作者認為,當我們將生活數字化、公式化以及模型化的時候,我們會發現其實大家都非常相似。我們都具有爆發式,而且非常規律。看上去很隨意、很偶然,但卻極其容易被預測。
如果我們把泰勒格迪不是當作一個人,而是當作一種大數據機制,泰勒格迪無非就是通過經驗數據的搜索、分析、挖掘,最終猜測賽克勒們的爆發行為的一套人工智能機理的象征。從這個意義上說,Facebook的時間軸就是個泰勒格迪。
巴拉巴西的觀點雖然獨特,但并沒有從哲學的譜系中逃逸。作者采用的“科學-歷史”敘事框架,正構成本書所涉及問題的元問題本身。當科學和歷史被“主義”化為科學主義和歷史主義時,二者的對立構成的是一個老問題:自然是決定論的,歷史是非決定論的。如果把社會發展當作一個自然過程,作為科學的對象,它是有規律、可預測的;如果把社會發展當作一個歷史過程,作為(歷史主義的)歷史學的對象,它是無規律、不可預測的。介于二者之間的觀點認為,社會發展是一個自然歷史過程。
按巴拉巴西的觀點,自然與歷史的比重,大約應是90%與10%的關系。這就不難理解,作者對波普爾的觀點——否定歷史決定論的觀點——基本是否定的。由此可以看出巴拉巴西觀點在哲學上的大致定位。
作為《鏈接》一書的作者,巴拉巴西還是一位知名的網絡問題專家。《爆發》一書的新意,并不在于提出了新的歷史觀,而在于結合科學技術發展新的事實,對特定歷史觀進行了重新論證。作為網絡研究者,我對此也很感興趣。尤其其中涉及的大數據,正是下一步互聯網發展的重要方向,Facebook推出的時間軸(Timeline)與本書反復提到的Lifelinear都是當前網絡前沿的時尚,代表著人工智能實踐的新進展。
就此談談我個人的判斷。書中說到的技術事實的部分是可信的。例如談及手機運營商掌握著我們的實時通信信息和行蹤等。其實網絡實踐比書中說的更為豐富。目前,這種可供分析人類行為的“泰勒格迪”系統主要有幾大類,一類是采集分析個人的地球上的全部運動軌跡(通過LBS采集);一類是采集分析個人的全部支付記錄(通過在線支付采集);一類是采集分析個人的全部交往記錄(通過SNS采集);一類是采集分析個人的全部言行記錄(通過郵件、文檔、Timeline、視頻監控等采集)。
商家通過這些數據,確實可以預測客戶的行為,從而提供有別于他人的個性化服務。從這個意義上來說,巴拉巴西的預言是有道理的。
但是,這些事實是否足以改變“決定論-非決定論”這個水平上的哲學結論,每個人可能都會有自己的判斷。人具有自由意志,這是不同于分子隨機運動之處。如果泰勒格迪成了國王,所有的人是不是都應變為宿命論者?我們有可能成功預測到一個沉默的人在某個時刻突然爆發,但要猜透這個人的斯芬克斯之謎,光有科學和技術可能還是不夠的。物理學家也許希望發現歷史的宿命,但人通過知識獲得解放,不僅是為了排除不可能的自由,更是為了增加可能的選擇。
我寧愿賭大數據不會使人類陷于宿命,大數據只是把人性中可預測的部分外包給機器,讓人將自由更聚焦于只屬于自己的獨一無二的部分。