吳江

2014年9月的最后一周,阿里巴巴在紐約證券交易所(NYSE:BABA)正式上市,這是歷史最大規模的首次公開募股(IPO),更標志著互聯網進入了一個新的時代 ,一個屬于中國本土互聯網企業的大數據時代。
大數據的前世今生
大數據或稱海量數據,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理,并整理成為人類所能解讀的信息。在總數據量相同的情況下,與個別分析獨立的小型數據集相比,將各個小型數據集合并后進行分析,可得出許多額外的信息和數據關系性,可用來察覺商業趨勢,判定研究質量,避免疾病擴散,打擊犯罪或測定實時交通路況等。
大數據的定義看起來高高在上,事實上卻已經和我們的日常生活息息相關。豆瓣音樂可以通過相似用戶群體的行為推斷出每個用戶最可能喜歡哪首歌,甚至喜歡看什么樣的電影。阿迪達斯可以通過其門店銷售數據的整合分析,更準確地了解不同地域文化的消費者對其產品款式的偏好,從而更智能地決定門店的庫存備貨策略。某婚戀網站更是正在試圖通過引入一款能夠識別相似臉的系統,從用戶過往的選擇數據中總結歸納用戶喜歡何種臉型,讓用戶看到的異性推薦個個喜歡。淘寶網能夠預測每個用戶可能感興趣的商品是什么,由此可以生成對于每一個用戶的個性化推薦,這也就是大家經常能看到的淘寶網側邊欄的商品推薦。通過更精確的分類商品信息的大數據分析,淘寶網更是可以回答很多一般人難以回答的有趣問題,比如18歲的群體最喜歡什么顏色的T恤,或者南方人和北方人對于運動飲料的偏好有什么不同?
簡單的用戶行為分析可能并不會產生太多的價值,而在一個極大規模上的用戶行為分析,往往可以從趨勢上得出非常有價值的預測,在商業決策上尤其如此。以我們都知道的農夫山泉礦泉水做一個例子,農夫山泉想要獲得這樣一些市場數據幫助決策:超市里怎樣擺放水堆更能促進銷售?什么年齡的消費者在水堆前停留更久?他們一次購買的量有多大?氣溫的變化讓購買行為發生了哪些改變?競爭對手的新包裝對銷售產生了怎樣的影響?這些問題看似簡單,卻很難做出有說服力的準確回答。
要回答這些問題,需要收集大量的數據。來自農夫山泉的業務員每天要來到當地超市拍攝10張照片:水怎么擺放、位置有什么變化、高度如何……一天要跑15個調研地點,每天上傳150張照片,產生的數據量約為10M,這似乎并不是個大數字。而農夫山泉在全國有10000個業務員,這樣每天的數據量就是100G,每月為3TB。雖然大家都清晰地知道,問題實時的答案就在其中,但得出答案并不容易,這就需要大數據相關的技術做支持。
大數據的數學方法和技術革新
谷歌公司(Google)曾經指出:“真正重要的不是我們可以做什么,而是我們能在什么樣的規模上做。”
如果你需要每天分析100行數據,只需要有紙和筆就可以了。如果你需要每天分析100000行數據,按照現代計算機的處理能力,你也僅僅需要一臺電腦,設計一個程序即可。但當需要處理的數據級別到了1000000000這個級別(TB級別),一臺性能強大的服務器工作站恐怕已經難以滿足你的需要了,特別是你需要實時或者接近實時的處理速度的時候。這樣的需求引領出了一個計算機與數值計算領域的熱點——分布式計算(Distributed Computing)。
分布式計算,即使用一個集群的計算機通過網絡連成系統,把需要進行大量計算的工程數據分區成小塊,由多臺計算機分別計算,在上傳運算結果后,將結果統一合并得出數據結論的科學。如何將問題進行分割?如何均衡每個處理節點(即單個計算機)的工作負荷?如何高效可靠地把單個節點的結果整合成最終的結果?為了從計算機硬件和軟件上解決這些問題,多種多樣的計算模型和概念被設計出來。其中最有代表性的包括云計算、MapReduce(Hadoop)、虛擬化等等。而這股浪潮僅僅只能算剛剛開始,如同馬云所說:我們正在從信息科技時代走向數據科技時代。
海量數據與互聯網新職業
玩轉大數據,第一件重要的事情就是獲得海量的有價值的數據。而恰恰在這一點上,中國本土互聯網企業有著相當的優勢。中國人口眾多,經濟活躍,有大量的互聯網用戶,用戶資源的豐富直接決定了用戶行為數據的豐富。淘寶網有著超過3億的注冊用戶,騰訊的注冊用戶數量早已超過10億,這些用戶數據本身無疑就是一座金礦。
阿里數據庫=40000個圖書館?
據報道,目前在阿里數據平臺事業部的服務器上,攢下了超過100PB已處理過的數據——也就是104857600GB。這相當于40000個西雅圖中央圖書館,580億本藏書。
新一代的技術必然帶動了新一代的技術人員需求。在大數據時代,“數據科學家”和“數據工程師”在硅谷已經成為最炙手可熱的工作職位之一。相比傳統的軟件工程師,數據科學家更像是站在數學(統計學)和計算機科學之間的群體,他們的日常工作既包括了軟件設計開發,又包括數據建模和統計分析,同時還要具備將數據處理范式轉化為可行的軟件解決方案的能力。本土互聯網企業也十分重視在數據科學上的人才儲備,在可預見的將來,數據科學的從業者必將大受追捧。
(責任編輯/冷林蔚)