李偉順 周凱 高越
[摘要]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展、不斷革新,尤其是數(shù)據(jù)挖掘、網(wǎng)絡(luò)社交、云計(jì)算以及高性能芯片的廣泛應(yīng)用,大數(shù)據(jù)正在蔓延至各個(gè)行業(yè)和領(lǐng)域,大數(shù)據(jù)所產(chǎn)生的信息風(fēng)暴正在急速的變革人類(lèi)固有的知識(shí)體系、工作習(xí)慣和思維方式。大數(shù)據(jù)開(kāi)啟了一次重大的時(shí)代轉(zhuǎn)型,如何在大數(shù)據(jù)時(shí)代挖掘和利用隱蔽于數(shù)據(jù)內(nèi)部未被激發(fā)的潛在價(jià)值,從而實(shí)現(xiàn)在經(jīng)濟(jì)、教育、醫(yī)療、交通、能源、軍事等領(lǐng)域的革新,取決于我們是否能夠從以往的小數(shù)據(jù)思維及時(shí)轉(zhuǎn)換成大數(shù)據(jù)思維。本文介紹了大數(shù)據(jù)時(shí)代的思維變革、商業(yè)變革和管理變革,分析數(shù)據(jù)信息的三個(gè)轉(zhuǎn)變,以及數(shù)據(jù)創(chuàng)新。
[關(guān)鍵詞]大數(shù)據(jù);云計(jì)算;思維方式;大數(shù)據(jù)思維;創(chuàng)新
大數(shù)據(jù)時(shí)代的天文學(xué)、政治學(xué)、經(jīng)濟(jì)學(xué)、物理學(xué)、社會(huì)學(xué)等很多種科學(xué)門(mén)類(lèi)都將會(huì)發(fā)生巨大的變化和發(fā)展,從而影響整個(gè)人類(lèi)的價(jià)值觀、生活方式和知識(shí)體系。大數(shù)據(jù)的核心就是預(yù)測(cè),在不久的將來(lái),我們生活中很多現(xiàn)在依靠人類(lèi)思維判斷的領(lǐng)域都會(huì)被計(jì)算機(jī)系統(tǒng)所改變甚至取代。大數(shù)據(jù)給我們的生活創(chuàng)造了無(wú)與倫比的可量化的維度,就像Internet通過(guò)給計(jì)算機(jī)添加了通信功能而改變了世界,大數(shù)據(jù)也會(huì)改變我們生活中很重要的方面。
一、大數(shù)據(jù),公共衛(wèi)生變革
大家一定記得2009年出現(xiàn)的甲型H1N1流感病毒,這種病毒傳播迅速,其結(jié)合了豬流感和禽流感的特點(diǎn),有些專(zhuān)家警告說(shuō),這種病毒可能會(huì)導(dǎo)致大規(guī)模流感的爆發(fā),然而更糟糕的是,當(dāng)時(shí)的科研人員還沒(méi)有研發(fā)出抵抗這種新型病毒的疫苗。在美國(guó),假如醫(yī)生發(fā)現(xiàn)了新型的流感病例時(shí)需要告訴疾病預(yù)防與控制中心,然而,通告病例這個(gè)過(guò)程往往會(huì)有一兩周時(shí)間的延遲,這種信息的滯后對(duì)于飛速傳播的疾病來(lái)說(shuō),其導(dǎo)致的后果是相當(dāng)致命的。在疫情爆發(fā)的關(guān)鍵時(shí)期,公共衛(wèi)生機(jī)構(gòu)對(duì)于這種信息滯后卻又無(wú)所適從。
二、大數(shù)據(jù),商業(yè)變革
大數(shù)據(jù)不但對(duì)公共衛(wèi)生領(lǐng)域的影響十分巨大,對(duì)整個(gè)商業(yè)領(lǐng)域也產(chǎn)生了深遠(yuǎn)的影響。購(gòu)買(mǎi)飛機(jī)票是其中一個(gè)很好的例子。挨齊奧尼協(xié)助創(chuàng)建了全球最早的網(wǎng)絡(luò)搜索引擎MetaCrawler,聯(lián)合創(chuàng)立國(guó)第一個(gè)大型比價(jià)網(wǎng)站ClearForest。在他的眼中,世界就是一系列的大數(shù)據(jù)問(wèn)題。埃齊奧尼創(chuàng)立了一個(gè)機(jī)票預(yù)測(cè)系統(tǒng),這個(gè)系統(tǒng)建立在12000個(gè)價(jià)格樣本的基礎(chǔ)上,這個(gè)預(yù)測(cè)系統(tǒng)并不會(huì)分析哪些因素導(dǎo)致了機(jī)票價(jià)格的波動(dòng),只會(huì)利用其他航班的數(shù)據(jù)預(yù)測(cè)機(jī)票價(jià)格的走勢(shì)。后來(lái)這個(gè)小項(xiàng)目發(fā)展成為一個(gè)科技創(chuàng)業(yè)公司Farecast,到2012年為止,F(xiàn)arecast系統(tǒng)擁有近十萬(wàn)億條價(jià)格記錄,從而能很準(zhǔn)確的預(yù)測(cè)美國(guó)航班的票價(jià),其票價(jià)預(yù)測(cè)準(zhǔn)確率已經(jīng)高達(dá)75%,旅客通過(guò)使用這種票價(jià)預(yù)測(cè)工具,平均每張機(jī)票可節(jié)省50美元左右。Farecast僅僅是利用大數(shù)據(jù)的一個(gè)縮影,代表了當(dāng)今世界的發(fā)展趨勢(shì)。
三、大數(shù)據(jù),管理變革
大數(shù)據(jù)時(shí)代如何管理龐大的數(shù)據(jù)以及個(gè)人隱私的控制與風(fēng)險(xiǎn),將成為我們面臨的一個(gè)巨大挑戰(zhàn)。任何技術(shù)都是雙刃劍,大數(shù)據(jù)也不例外。大數(shù)據(jù)平臺(tái)在給我們提供服務(wù)的同時(shí),無(wú)時(shí)不刻也在收集著用戶的各種信息:購(gòu)買(mǎi)習(xí)慣、查閱習(xí)慣甚至生活習(xí)慣。通過(guò)這些數(shù)據(jù),一方面給人們帶來(lái)了很多便利,但另一方面,由于數(shù)據(jù)的管理還不完善,存在諸多漏洞,那些存儲(chǔ)起來(lái)或發(fā)布出去的海量信息,也很容易被竊取、被監(jiān)視。通過(guò)大數(shù)據(jù),當(dāng)我們獲得足夠多的個(gè)人信息,我們就可以知道隱藏在數(shù)據(jù)背后的人是誰(shuí),甚至這個(gè)人心里在想著誰(shuí)。在大數(shù)據(jù)時(shí)代,此時(shí)我們已經(jīng)不能放心期待擁有數(shù)據(jù)的公司不作惡。如何管理這些龐大的數(shù)據(jù)?誰(shuí)來(lái)保護(hù)公民的個(gè)人隱私?既是所有人都應(yīng)該思考的問(wèn)題,也是政府法律部門(mén)不可推卸的責(zé)任。
四、大數(shù)據(jù)的關(guān)鍵在于我們分析信息數(shù)據(jù)時(shí)的三個(gè)轉(zhuǎn)變
第一個(gè)轉(zhuǎn)變:在大數(shù)據(jù)時(shí)代,我們可以分析越來(lái)越多的數(shù)據(jù),甚至有些時(shí)候可以處理某個(gè)特殊現(xiàn)象的所有數(shù)據(jù),而不是像以前一樣依賴于隨機(jī)采樣
從19世紀(jì)開(kāi)始,當(dāng)我們遇到大量數(shù)據(jù)時(shí)就會(huì)依賴于采樣分析。傳統(tǒng)上的統(tǒng)計(jì)學(xué)的隨機(jī)抽樣方法中有一條十分明智的真理:”采樣分析結(jié)論的精確性隨著采樣隨機(jī)性的增加而大幅提升,但與樣本數(shù)量的增加關(guān)系不大。”可以說(shuō),“樣本分析”奠定了絕大多數(shù)科學(xué)研究的基礎(chǔ),但隨機(jī)采樣實(shí)際上是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)期的產(chǎn)品。現(xiàn)如今,我們處于一個(gè)足夠強(qiáng)大的數(shù)據(jù)搜集和數(shù)據(jù)處理能力的時(shí)代,隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,高性能數(shù)字技術(shù)的流行讓我們意識(shí)到,相對(duì)于局限性的小數(shù)據(jù)范圍來(lái)說(shuō),使用一切數(shù)據(jù)給予我們更高的精確性,當(dāng)前的技術(shù)水平使人類(lèi)可以處理海量數(shù)據(jù),樣本不再是幾萬(wàn)分之一,而轉(zhuǎn)變成了“樣本=全部”。
第二個(gè)轉(zhuǎn)變:不再熱衷于追求精確度,而是混雜性
在小數(shù)據(jù)時(shí)代,追求精確度是情理之中的。因?yàn)槭苤朴谖覀兪占臄?shù)據(jù)很少,所以需要越精確越好。但大數(shù)據(jù)時(shí)代精確則很難實(shí)現(xiàn),而是用概率說(shuō)話,混雜性變成了一種新型的途徑。數(shù)據(jù)量的顯著增加也必然會(huì)產(chǎn)生一些問(wèn)題,一些不準(zhǔn)確的數(shù)據(jù)難免會(huì)混入數(shù)據(jù)庫(kù),導(dǎo)致結(jié)果也可能不準(zhǔn)確。這就是大數(shù)據(jù)時(shí)代的一種新思維——“不是精確性,而是混雜性”。對(duì)“小數(shù)據(jù)”來(lái)說(shuō),最重要的一點(diǎn)就是減少差錯(cuò)。而在大數(shù)據(jù)時(shí)代里,在技術(shù)尚未達(dá)到足夠完美之前,混亂是無(wú)法避免的。
第三個(gè)轉(zhuǎn)變:不在熱衷于尋找因果關(guān)系,而是相關(guān)關(guān)系
在大數(shù)據(jù)時(shí)代,是什么比為什么更加重要。這個(gè)觀點(diǎn)很大程度上挑戰(zhàn)了我們固有的思維模式。大數(shù)據(jù)思維更加關(guān)注相關(guān)性,而不是因果關(guān)系。也就是說(shuō),沃爾瑪只需要知道啤酒和尿布、pop-tarts蛋撻與手電筒的銷(xiāo)量具有正相關(guān)性,就可以做出如何銷(xiāo)售的決策了。它并不需要去分析具體原因,企業(yè)只需要知道某件事情正在發(fā)生或者即將發(fā)生,就完全能夠做出正確的決定。相關(guān)關(guān)系很有價(jià)值,因?yàn)樗転槲覀兲峁┤碌囊暯牵液芮逦6?dāng)我們考慮到因果關(guān)系的時(shí)候就很可能會(huì)忽略這些視角。大數(shù)據(jù)的核心就是預(yù)測(cè),大數(shù)據(jù)并不是讓機(jī)器像人類(lèi)一樣去思考。相反,它是通過(guò)計(jì)算海量的數(shù)據(jù)來(lái)預(yù)測(cè)事情發(fā)生的可能性。
五、結(jié)語(yǔ)
中國(guó)是世界上人口最多的國(guó)家,眾多的人群和應(yīng)用市場(chǎng),數(shù)據(jù)極其復(fù)雜,而且充滿了變化,多種因素使得中為全球最復(fù)雜的大數(shù)據(jù)國(guó)家。如何解決這些由大規(guī)模數(shù)據(jù)產(chǎn)生的問(wèn)題,從而形成以大數(shù)據(jù)為基礎(chǔ)的解決辦法,將是中國(guó)轉(zhuǎn)變產(chǎn)業(yè)方式,提高效率的重要手段。由于中國(guó)復(fù)雜的國(guó)情,在現(xiàn)代歷史中的多次技術(shù)革命中,中國(guó)均是作為學(xué)習(xí)者出現(xiàn)的,但是在這次大數(shù)據(jù)與云計(jì)算的新的變革中,可以說(shuō)中國(guó)與世界的差距最小,此時(shí),中國(guó)面臨著一個(gè)重大的歷史抉擇關(guān)口,只要我們以更加開(kāi)放的心態(tài),更加堅(jiān)定的步伐,更加創(chuàng)新的勇氣來(lái)?yè)肀А按髷?shù)據(jù)時(shí)代”,一定能夠把握住新的歷史賦予中國(guó)創(chuàng)新的機(jī)會(huì)。
參考文獻(xiàn)
[1]員巧云,程剛.近年來(lái)我國(guó)數(shù)據(jù)挖掘研究綜述[J].情報(bào)學(xué)報(bào),2005.
[2]蔡立英.“大數(shù)據(jù)”改變我們的生活[J].世界科學(xué),2013.
[3]文洋.美國(guó)的“大數(shù)據(jù)”發(fā)展戰(zhàn)略新動(dòng)向[J].中國(guó)多媒體通信,2014, (11):60-61.