周自恒



熟悉網上購物的網購黨可能都會有這樣的體驗,當你在網上購買一支筆時,網頁上很可能會出現這樣的提示:
“購買這支筆的顧客,同時還選購了以下筆記本……”
在不經意間,系統竟然洞察了你的潛在需求。
這背后隱藏著的是對無數消費者購買記錄的分析和挖掘,而這正是“大數據”的力量。。
最熟悉的陌生人
數據一直在我們身邊,古人很早就開始觀測并記錄日月星辰的運動,指導農業生產。自人類步入信息時代,在數據量呈井噴式爆發性增長的同時,計算機的數據處理速度也同步跟進。即便遇到大量復雜的計算,只要交給由上萬臺計算機組成的數據計算中心便可輕松應付,這就是大數據在云端實現的“變身”——云計算。
技術的進步讓人類能夠駕馭更多的數據,而真正讓數據變“大”的主動力還是互聯網。有了互聯網,網站的訪問記錄變成了數據,微博上的發言變成了數據,百度中搜索的關鍵詞、分享的視頻、淘寶的購買記錄也都變成了數據。互聯網不僅催生出了各類數據,還將原本分散的數據孤島連接起來,讓原本靜止的數據流動起來,并實現了“數據”到“大數據”的變身。
直擊大數據
2011年,著名咨詢公司麥肯錫提出了“大數據(Big Data)”,之后這一概念便迅速席卷全世界。
字節(Byte)是計算機的基本存儲單位,但僅Google一天的數據處理量就有100PB之多。100PB有多大?它相當于10萬個容量為1TB(1TB=1012字節)的計算機硬盤的容量!如果你認為PB已經是大數據的極限,那你就大錯特錯了,事實上PB之上還有EB(1018字節)和ZB(1021字節)這些“度量大”的單位。有了它們,再龐大的數據也能對付。
在大數據時代之前,我們所需要處理的大多是電話、交易記錄等“有條理”的數據,但現代社會郵件、微博、朋友圈等各類人與人溝通產生的數據、人與機器溝通產生的數據、甚至機器與機器之間交流產生的數據逐步將我們拉入大數據時代,但要想發現這些“雜亂無章”的大數據背后的價值并非易事。
新浪微博上每天會發出大約1億條微博,相當于平均每分鐘發送7萬多條。有統計表明,2013年中,機器所產生的互聯網流量已經首次超過了人類,搜索引擎的爬蟲程序則是最大的貢獻者。爬蟲程序連續不停地在互聯網上抓取網頁上的信息并制作成索引,讓我們能瞬間在網絡上找到我們需要的內容。
容量(Volume)、多樣性(Variety)和速度(Velocity)是描述大數據特點的“3V”模型,伴隨著信息技術的發展,各種數據如雨后春筍般涌現。
數據記錄下的生活“痕跡”
講了這么多,你一定很想知道生活中到底哪里有大數據的影子,其實大數據早已在不知不覺中深入到生活的各個方面。
每天早上出門之前,小明都要打開手機App,查看一下當天的天氣狀況。今天App告訴他,空氣質量狀況良,適宜戶外活動,實時天氣情況為陰天,多云,可能伴有小雨。
天氣預報依賴的就是對大量氣象觀測數據的處理、建模和計算。在大數據時代,得益于數據分析處理水平的提升,天氣預報也越來越準確,甚至還能夠提供精確到小時的天氣信息以及穿衣、防曬等建議,讓我們更合理地安排生活。
下午放學,果然下起了小雨,小明打算打車回家,為了更快捷地打到車,小明想起了手機里的打車App,很快打到了車。
打車App依賴的就是對大量數據的實時處理,它將數十萬的乘客和司機通過位置信息實時匹配起來,哪里打車的人多,系統就引導司機去哪里接客,大大提高了城市的交通效率。
晚飯后,小明最近正在學習《粒子世界探秘》的在線課程,這個課程可不一般,是一個有幾百個人的教學大課堂。完成學習后,他上交了自己的作業,不一會兒,他收到了請他為其他幾個同學作業評分的郵件,他知道,自己的作業也會被分配給另外幾個同學評分。
慕課(MOOC,Massive Open Online Courses)是一種大規模的在線學習模式,在虛擬課堂上,數百萬個學生可以同時上課和互動。此外,課程組織者還可以根據學生的學習進度和掌握情況等這些大數據對課程進行調整和優化,這一切都比傳統教育來得更精準、快速,并且更具針對性。
20多年來,各個領域的數據量加速增長,大數據在不知不覺中已經全面“入侵”我們的生活,改變我們的生活,也難怪會有“數據就是第二石油”的說法。
你的隱私安全嗎
2013年,棱鏡門事件引發了人們對數據安全問題的熱議。大數據時代,上網瀏覽、郵件、信息、信用卡消費、網上購物、交通出行等這些所有的行為都包含了很多敏感的個人信息。隱私安全是大數據時代不可回避的問題之一,而大數據時代的很多應用正是建立在匯聚和共享個人數據的基礎之上的,例如你在選購時可以參考別人的購物記錄和評價,商家甚至可以依據你的瀏覽記錄推薦更為符合你個人喜好的商品。換句話說,大數據時代也有自己的等價交換法則——付出了隱私,相反你卻可能享受到更貼心、更方便的服務。
在隱私保護上,美國、歐盟等發達國家都已經在積極制定相關的法律。我國也于2012年10月成立了中國通信學會大數據專家委員會。相信隨著法律體系的不斷完善,大數據潛力的挖掘與個人隱私之間的平衡一定能夠實現。
大數據未來式
2014年巴西世界杯,當你坐在電視機前看球時,Google和微軟的技術團隊卻在背后開展了一場利用大數據來預測比賽結果的較量。在淘汰賽階段總共16場比賽中,微軟預測正確率達15場,Google預測正確率達14場,兩家的成績可以說是旗鼓相當,而這正是大數據為人工智能發展注入的新動力。
在自然語言處理領域,現在計算機可以通過對互聯網上海量語言數據的分析和學習,在一瞬間將一篇文章翻譯成幾十種語言,并且大數據和機器語言的運用還讓語音識別變得更加準確和高效。在Skype軟件中,實時對話翻譯這一技術已經初具雛形,相信在不久的將來,我們就可以和老外無障礙地打電話聊天了。
隨著地理、交通、能源等基礎信息的完善,大數據也讓城市變得更加智能。交通數據的實時處理和共享不僅能夠幫助管理部門更好地進行調度,大大緩解交通擁堵,便捷出行,還能夠在未來幫助汽車實現無人自動駕駛。
數據是人類的寶貴財富,通過分析和學習大數據,計算機會變得更“聰明”。2015年2月,國家工信部正式批準大數據產業發展集聚區落戶貴州,也由此正式拉開了大數據應用的序幕。未來,相信大數據會為我們在通向智能生活的道路上帶來更大的變革。
TIPS 1
大數據時代的領軍人才
——數據科學家
數據科學家是大數據時代的魔術師,他們能夠從看似雜亂無章的數據中發現價值。打車App如何才能為乘客匹配到更多的車,網上商城如何才能為顧客做出更準確的推薦,要解決這些問題都需要數據科學家探索數據中的規律。要成為數據科學家,你需要在數學、統計學、計算機科學等多個領域小有所成,你要做得了科研、編得了程序、畫得了圖表、寫得了報告。當然,數據科學家的身價自然也不菲,現在全球市場上的數據科學家十分搶手,對大數據感興趣的同學們,現在就要開始努力了哦。
TIPS 2
大數據還能預測什么?
美國總統大選!
2012年美國總統大選,一位年輕的統計學家奈特·希爾福運用統計學和大數據預測了美國各州的選舉結果,并給出了“奧巴馬獲勝的概率為90.9%”的論斷。事實證明,他的預測完全正確,而這不僅是奈特的勝利,也是大數據的勝利。2016年又是美國大選年,據報道稱Google的預測認為希拉里將當選,大數據到底能不能繼續發威,讓我們拭目以待。