?
大數據思維
李偉順 周凱 高越
北方民族大學 寧夏銀川 750021
[摘要]隨著互聯網技術的飛速發展、不斷革新,尤其是數據挖掘、網絡社交、云計算以及高性能芯片的廣泛應用,大數據正在蔓延至各個行業和領域,大數據所產生的信息風暴正在急速的變革人類固有的知識體系、工作習慣和思維方式。大數據開啟了一次重大的時代轉型,如何在大數據時代挖掘和利用隱蔽于數據內部未被激發的潛在價值,從而實現在經濟、教育、醫療、交通、能源、軍事等領域的革新,取決于我們是否能夠從以往的小數據思維及時轉換成大數據思維。本文介紹了大數據時代的思維變革、商業變革和管理變革,分析數據信息的三個轉變,以及數據創新。
[關鍵詞]大數據;云計算;思維方式;大數據思維;創新
大數據時代的天文學、政治學、經濟學、物理學、社會學等很多種科學門類都將會發生巨大的變化和發展,從而影響整個人類的價值觀、生活方式和知識體系。大數據的核心就是預測,在不久的將來,我們生活中很多現在依靠人類思維判斷的領域都會被計算機系統所改變甚至取代。大數據給我們的生活創造了無與倫比的可量化的維度,就像Internet通過給計算機添加了通信功能而改變了世界,大數據也會改變我們生活中很重要的方面。
大家一定記得2009年出現的甲型H1N1流感病毒,這種病毒傳播迅速,其結合了豬流感和禽流感的特點,有些專家警告說,這種病毒可能會導致大規模流感的爆發,然而更糟糕的是,當時的科研人員還沒有研發出抵抗這種新型病毒的疫苗。在美國,假如醫生發現了新型的流感病例時需要告訴疾病預防與控制中心,然而,通告病例這個過程往往會有一兩周時間的延遲,這種信息的滯后對于飛速傳播的疾病來說,其導致的后果是相當致命的。在疫情爆發的關鍵時期,公共衛生機構對于這種信息滯后卻又無所適從。
大數據不但對公共衛生領域的影響十分巨大,對整個商業領域也產生了深遠的影響。購買飛機票是其中一個很好的例子。挨齊奧尼協助創建了全球最早的網絡搜索引擎MetaCrawler,聯合創立國第一個大型比價網站ClearForest。在他的眼中,世界就是一系列的大數據問題。埃齊奧尼創立了一個機票預測系統,這個系統建立在12000個價格樣本的基礎上,這個預測系統并不會分析哪些因素導致了機票價格的波動,只會利用其他航班的數據預測機票價格的走勢。后來這個小項目發展成為一個科技創業公司Farecast,到2012年為止,Farecast系統擁有近十萬億條價格記錄,從而能很準確的預測美國航班的票價,其票價預測準確率已經高達75%,旅客通過使用這種票價預測工具,平均每張機票可節省50美元左右。Farecast僅僅是利用大數據的一個縮影,代表了當今世界的發展趨勢。
大數據時代如何管理龐大的數據以及個人隱私的控制與風險,將成為我們面臨的一個巨大挑戰。任何技術都是雙刃劍,大數據也不例外。大數據平臺在給我們提供服務的同時,無時不刻也在收集著用戶的各種信息:購買習慣、查閱習慣甚至生活習慣。通過這些數據,一方面給人們帶來了很多便利,但另一方面,由于數據的管理還不完善,存在諸多漏洞,那些存儲起來或發布出去的海量信息,也很容易被竊取、被監視。通過大數據,當我們獲得足夠多的個人信息,我們就可以知道隱藏在數據背后的人是誰,甚至這個人心里在想著誰。在大數據時代,此時我們已經不能放心期待擁有數據的公司不作惡。如何管理這些龐大的數據?誰來保護公民的個人隱私?既是所有人都應該思考的問題,也是政府法律部門不可推卸的責任。
第一個轉變:在大數據時代,我們可以分析越來越多的數據,甚至有些時候可以處理某個特殊現象的所有數據,而不是像以前一樣依賴于隨機采樣
從19世紀開始,當我們遇到大量數據時就會依賴于采樣分析。傳統上的統計學的隨機抽樣方法中有一條十分明智的真理:”采樣分析結論的精確性隨著采樣隨機性的增加而大幅提升,但與樣本數量的增加關系不大。”可以說,“樣本分析”奠定了絕大多數科學研究的基礎,但隨機采樣實際上是信息缺乏時代和信息流通受限制的模擬數據時期的產品。現如今,我們處于一個足夠強大的數據搜集和數據處理能力的時代,隨著計算機技術的迅猛發展,高性能數字技術的流行讓我們意識到,相對于局限性的小數據范圍來說,使用一切數據給予我們更高的精確性,當前的技術水平使人類可以處理海量數據,樣本不再是幾萬分之一,而轉變成了“樣本=全部”。
第二個轉變:不再熱衷于追求精確度,而是混雜性
在小數據時代,追求精確度是情理之中的。因為受制于我們收集的數據很少,所以需要越精確越好。但大數據時代精確則很難實現,而是用概率說話,混雜性變成了一種新型的途徑。數據量的顯著增加也必然會產生一些問題,一些不準確的數據難免會混入數據庫,導致結果也可能不準確。這就是大數據時代的一種新思維——“不是精確性,而是混雜性”。對“小數據”來說,最重要的一點就是減少差錯。而在大數據時代里,在技術尚未達到足夠完美之前,混亂是無法避免的。
第三個轉變:不在熱衷于尋找因果關系,而是相關關系
在大數據時代,是什么比為什么更加重要。這個觀點很大程度上挑戰了我們固有的思維模式。大數據思維更加關注相關性,而不是因果關系。也就是說,沃爾瑪只需要知道啤酒和尿布、pop-tarts蛋撻與手電筒的銷量具有正相關性,就可以做出如何銷售的決策了。它并不需要去分析具體原因,企業只需要知道某件事情正在發生或者即將發生,就完全能夠做出正確的決定。相關關系很有價值,因為它能為我們提供全新的視角,而且很清晰。而當我們考慮到因果關系的時候就很可能會忽略這些視角。大數據的核心就是預測,大數據并不是讓機器像人類一樣去思考。相反,它是通過計算海量的數據來預測事情發生的可能性。
中國是世界上人口最多的國家,眾多的人群和應用市場,數據極其復雜,而且充滿了變化,多種因素使得中為全球最復雜的大數據國家。如何解決這些由大規模數據產生的問題,從而形成以大數據為基礎的解決辦法,將是中國轉變產業方式,提高效率的重要手段。由于中國復雜的國情,在現代歷史中的多次技術革命中,中國均是作為學習者出現的,但是在這次大數據與云計算的新的變革中,可以說中國與世界的差距最小,此時,中國面臨著一個重大的歷史抉擇關口,只要我們以更加開放的心態,更加堅定的步伐,更加創新的勇氣來擁抱“大數據時代”,一定能夠把握住新的歷史賦予中國創新的機會。
參考文獻
[1]員巧云,程剛.近年來我國數據挖掘研究綜述[J].情報學報,2005.
[2]蔡立英.“大數據”改變我們的生活[J].世界科學,2013.
[3]文洋.美國的“大數據”發展戰略新動向[J].中國多媒體通信,2014, (11):60-61.