劉慧斌
“小斌,你是學啥專業的啊?”“大數據。”“是研究很大的數據的專業嗎?”“呃……”
當朋友問起我所學的數據科學與大數據技術專業(以下簡稱“大數據專業”)時,我們都避免不了上面的對話。那么,到底什么才是大數據呢?
啤酒和尿布的故事
有這樣一個故事,世界知名零售企業沃爾瑪需要提高收益,派分析師整理了超市幾大區域的商品銷售數據,發現每到周末,啤酒和尿布的銷售量都會上升。為什么會出現這樣奇怪的現象呢?分析師繼續對購買這兩商品的人群進行分析,發現大多數顧客都是新生兒的父親。這些爸爸們在周末采購前,夫人都會囑咐他們要購買尿布,而他們在購買尿布的同時也會自發購買自己喜愛的啤酒。發現這一現象后,沃爾瑪公司決定將啤酒和尿布這兩個本來不相關的商品放在一起,而這一決策同時提高了這兩種商品的銷量。
隨著數據量的不斷積累,我們還能通過數據挖掘技術去發現更多潛在的信息。特別是最近幾年人工智能領域深度學習技術的突破,使得我們可以利用大數據技術做更多的事情。現在,大家可能對大數據有一點了解了,那么要如何定義它呢?
目前“大數據”比較標準的定義是“一種規模大到在獲取、存儲、管理和分析方面超出了傳統數據庫軟件工具能力范圍的數據集合,具有數據規模龐大、數據流轉快、數據類型多樣和價值密度低四大特征”。大數據學科影響十分深遠,小到日常生活的交通出行,大到天文的研究都離不開它。如今手機中的很多軟件都使用到了大數據技術,比如淘寶等電子購物軟件,能夠智能地給我們推薦適合我們的產品,可以說未來世界離不開大數據技術!
“搞數據”的人可不簡單
大數據專業是一個學科綜合性相當高的專業,它主要涉及計算機科學、信息科學和統計學等知識。首先是大數據來源的問題,隨著移動互聯網的迅猛發展,越來越多的人使用智能手機,通過使用智能手機中的軟件,我們可以獲取大量的數據,這主要涉及信息科學技術;接下來就是大量數據的存儲傳輸問題,這主要涉及計算機科學技術;最后是大量數據的挖掘分析過程,這主要涉及統計學和人工智能領域里的一些知識。
學習專業課程往往比較枯燥、乏味,但我們也可以利用學到的技術來做一些有意思的事情。通過分析數據,我們可以得出一些比較有趣的結論,比如分析哪些人群喜歡哪種類型的明星或者電影,或者追溯商品的流通等。我們也會參加一些數據公司在互聯網上舉辦的各種各樣的大數據競賽,比如國外比較著名的有Kaggle競賽,還有國內的阿里天池競賽。我就參加過一次專業的競賽,當時我們小組有幸獲得了5萬元的獎金。
朝陽專業,預見未來
大家可能更關心的是大數據專業學子的就業前景,某位企業家曾經說過,我們從IT(信息技術)時代步入了DT(數據技術)時代。未來的很多行業、很多工作都會與大數據產生關聯,在未來這一新興學科是充滿發展活力的。
在政務方面,涉及大數據的工作如通過大數據技術來提高政府辦公效率,需要政府工作人員中有懂得數據科學和政務治理兩方面知識的復合型人才。在經濟和金融方面,也需要使用統計學知識和大數據技術來研究分析經濟形勢的變化;在工業領域,同樣需要將采集好的各種數據以特定的方式進行組織,通過挖掘數據中潛在的價值來提升制造業的生產效率和產品質量……
這是一個大數據的時代,你準備好上場了嗎?