舒勝

著者: 大數據戰略重點實驗室
出版者:中信出版集團
出版時間:2015年5月
定價:45.00元
“大數據”是一個時髦且內涵和外延均模糊的詞,這個詞在“馬云們”的口中、在“碼農”的口中、在官員的口中,以及在蕓蕓屌絲口中,應該是詞同而意殊的。但是,即便如此,從其頻繁地出現在人們生活中這一點來看,可以說明:對于數據的關心和依賴,已經成為現今社會各個階層、社會經濟各個領域的共性。
我們面前的這本關于大數據的編輯著作,為數據做了一個非常完美的概念游戲,將“大數據”概念的外延狠狠地“周延”了一把。使得“大數據”成為了概念,成為一種有固定性狀的“成果”,這就脫離了大數據“流動”、“變化”的本性。令人不解的是諸如包括馬云在內的阿里巴巴高管等,都對該書不遺余力地褒獎。所以,筆者不得不收藏起自己的“偏見”,仔細研究書本的內容,希望發現自己是錯的。但無論多么努力地去放棄自己的立場,都難以給眼下這本書打一個及格分,都不能克制抨擊該書的欲望。
該書不像一本討論互聯網或者大數據的書籍,更像是一本在數據領域的大而無當的規劃大綱,如人們熟悉的各種文件那樣,通篇充滿了生造的概念及為其羅列各種特性和意義,而對實現的路徑并沒有過多的涉及。
書中寫道:“塊數據是一個新名詞。到目前為止,人類生活、生產產出的大數據,無論是搜索引擎、電商、社交平臺形成的企業大數據,還是天氣預報形成的科學大數據,還是各個政府部門形成的行業大數據,都可以定義成‘條數據。而塊數據則是以一個物理空間或行政區域形成的涉及人事物的各類數據的總和”。短短百來字,充滿了似是而非的概念和論斷:“塊數據”、“企業大數據”、“科學大數據”、“行業大數據”和“條數據”。
首先,搜索引擎、電商、社交平臺怎么就形成了“企業大數據”?難道不應該是搜索、電子商務、社交參與者的行為產生的痕跡嗎?如果以數據占有者分類,那么無論數據怎么產生,中國社會只有三類數據,即政府占有的數據、企業占有的數據、個人占有的數據。問題是這樣分類對解決現實議題有意義嗎?“科學大數據”、“行業大數據”似乎都必須回答同樣的詢問。
其次,人類生活、生產產生的數據難道不存在于時間空間系統里嗎?無論怎樣劃分時間和空間,實際的本質并不會改變。所謂的“條數據”、“塊數據”就是一個數據,不是兩個數據,只是研究者從不同的角度看待和利用它們而已。那些對于數據的分門別類已經毫無意義,越詳細越“反動”,是對新興的數據革命的“反動”。再次,本書對于觀點的論證更多地或者說全部來自描述,作為依賴于算法和邏輯的數據產業著作,脫離了邏輯的分析和路徑的設計,似乎只能給人隔靴捎癢、不知所云的感覺,沒有人從中獲得實際問題的解決方案。
作者團隊可能需要明確幾點,才能夠在數據領域里做一些有意義的事。第一,數據的發生是人類活動的自然現象,當其發生時就擁有時空上的整體性;條條塊塊是數據分析過程中解決人類能力局限的方法,隨著工具的升級,這個條條塊塊的內容和范圍不停地發生變化。第二,在當前技術和邏輯能力條件下,無法記錄和分析人類活動的,就不能成為數據,數據是被記錄的生活、生產,并最終會被分析;同時人類的活動必定有不可被記錄部分,那種包羅萬象的大數據是不存在的。第三,“大數據”的應用并不包括所有現存數據,所謂“大數據”在應用層面都是局部的。大而全的大數據,有;但是大而全的大數據應用,沒有。第四,“大數據”的應用是有風險的,由于這是一個全新的領域,風險的具體界線并不清晰,大數據應用過程中應該把應用的目的和范圍人為降低和縮小。因為,數據是個人產生,而儲存、應用、分析是與人對抗的組織(政府、企業、商業組織)進行的,其中的沖突和道德風險是與生俱來的。第五,“大數據”的應用是個技術問題,撇開技術談數據都是空談;“大數據”的應用同時是個邏輯問題,離開邏輯抽象,任何數據都不可能反映本質;大數據的應用還帶有目的性,沒有目的推動的數據應用,最終是找不到出路的,也是沒有意義的。
這本書告訴人們的其實不是關于數據的故事,而是關于某類數據使用者的單方面的非數據層面的設想。endprint