
大數(shù)據(jù)代表了一種將世界數(shù)據(jù)化的思路
大數(shù)據(jù)代表了一種將世界數(shù)據(jù)化的思路。籠統(tǒng)地說(shuō),人類所有的歷史、社會(huì)、知識(shí)、行為、態(tài)度等等,所有的一切都可以被看作是有待數(shù)字化的數(shù)據(jù)。這些數(shù)據(jù)由來(lái)已久,只是沒(méi)有方法將其整合到一個(gè)統(tǒng)一的框架下進(jìn)行分析。進(jìn)入到互聯(lián)網(wǎng)時(shí)代,各種數(shù)據(jù)更是以每年50%的速度增長(zhǎng),每?jī)赡瓯銜?huì)翻一番。麥肯錫的研究認(rèn)為,數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)要素。預(yù)計(jì)到2015年,全世界的數(shù)據(jù)總量將達(dá)到7.9ZB。這些數(shù)量龐大、種類繁雜并且仍在不斷累積的數(shù)據(jù)在政府機(jī)構(gòu)、企業(yè)組織甚至是公民的日常生活中沉睡,以往分析小數(shù)據(jù)的方法顯然捉襟見(jiàn)肘,但是如果沒(méi)有方法來(lái)喚醒它們,這些就只能是“數(shù)據(jù)垃圾”。
隨著專門處理大規(guī)模數(shù)據(jù)的算法、非關(guān)系型數(shù)據(jù)庫(kù)以及多類型大數(shù)據(jù)管理開(kāi)源框架的研發(fā),這些大規(guī)模的數(shù)據(jù)終于可以被利用起來(lái)。維克多·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中對(duì)大數(shù)據(jù)提出了三組命題:要全體不要抽樣,要效率不要絕對(duì)精確,要相關(guān)不要因果。這種論斷似乎想說(shuō)明大數(shù)據(jù)更注重“量”而不追求“質(zhì)”。但實(shí)際上,大數(shù)據(jù)雖然相比較傳統(tǒng)的數(shù)據(jù)處理理念確實(shí)出現(xiàn)了轉(zhuǎn)變,但是并非如此截然相反。這三組命題對(duì)應(yīng)到數(shù)據(jù)處理過(guò)程中分別是指處理器密度型還是數(shù)據(jù)密度型,數(shù)據(jù)量與模型復(fù)雜度關(guān)系以及算法邏輯。一般情況下,我們認(rèn)為,因果性分析也是相關(guān)性分析的一種,當(dāng)數(shù)據(jù)與算法日趨成熟之后,相關(guān)性分析必然會(huì)走向更為“直接”的因果分析。另一方面,根據(jù)相關(guān)研究發(fā)現(xiàn),數(shù)據(jù)越大,精度越高,不同數(shù)據(jù)的精度分類會(huì)趨同,從而使得對(duì)于小數(shù)據(jù)至關(guān)重要的算法趨同,同時(shí)模型的復(fù)雜度越高,對(duì)于事物的預(yù)測(cè)情況也就越準(zhǔn)確。
因此,大數(shù)據(jù)技術(shù)的戰(zhàn)略意義是通過(guò)對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行專業(yè)化的處理,實(shí)現(xiàn)數(shù)據(jù)的“增值”。而所謂的“增值”,就是指可以通過(guò)大數(shù)據(jù)分析,找到事物內(nèi)部或者事物之間潛在的關(guān)系形態(tài)。雖然大數(shù)據(jù)分析現(xiàn)在還只是剛剛起步,但一些研究成果已經(jīng)足以讓人驚訝不已。2010年美國(guó)東北大學(xué)的Alan Mislove博士領(lǐng)導(dǎo)的國(guó)家脈動(dòng)(Pulse of the Nation)項(xiàng)目,通過(guò)對(duì)3億條Twitter中的關(guān)鍵詞進(jìn)行追蹤與分析,繪制了一幅反映美國(guó)各地區(qū)人們一天當(dāng)中不同時(shí)段情緒波動(dòng)的實(shí)時(shí)色彩圖,研究清晰地顯示出佛羅里達(dá)州確實(shí)是美國(guó)“最幸福”的地方。而2012年美國(guó)的總統(tǒng)大選,奧巴馬的競(jìng)選團(tuán)隊(duì)在華盛頓數(shù)據(jù)極客的幫助下,通過(guò)集群分析的方法處理社交數(shù)據(jù),從而建立起了更加準(zhǔn)確的選民模型和競(jìng)選計(jì)劃,再次成功地把握了選民的意愿,并最終贏得大選。
大數(shù)據(jù)運(yùn)用的“深度”與“廣度”
大數(shù)據(jù)的成功基于大規(guī)模的數(shù)據(jù)覆蓋和深度的分析挖掘,數(shù)據(jù)的規(guī)模——“廣度”與分析的程度——“深度”,兩者是相輔相成的。建立在這兩個(gè)基礎(chǔ)上的大數(shù)據(jù)應(yīng)用,對(duì)于國(guó)家和社會(huì)而言,具有深遠(yuǎn)的意義。
首先,大數(shù)據(jù)為國(guó)家的政策決策、宏觀調(diào)控提供了詳細(xì)的動(dòng)態(tài)資料,具有重要的參考價(jià)值。比如相比較國(guó)家的消費(fèi)指數(shù)CPI,中國(guó)同時(shí)也是亞太地區(qū)最大的網(wǎng)絡(luò)零售商淘寶網(wǎng)還有一個(gè)自己的“淘寶消費(fèi)者價(jià)格指數(shù)”(TCPI)。用淘寶網(wǎng)商業(yè)智能部報(bào)告中的話來(lái)說(shuō),這一指數(shù)“比國(guó)家CPI更加敏感,TCPI的漲跌趨勢(shì)比國(guó)家CPI超前,是‘春江水暖鴨先知’。”因此在官方對(duì)于社會(huì)發(fā)展各項(xiàng)指標(biāo)的監(jiān)測(cè)追蹤與分析的渠道之外,補(bǔ)充以大數(shù)據(jù)為基礎(chǔ)的信息數(shù)據(jù),可以更加準(zhǔn)確地把握社會(huì)的現(xiàn)實(shí)情況。
第二,大數(shù)據(jù)在商業(yè)價(jià)值鏈中將發(fā)揮重要的調(diào)節(jié)作用。相關(guān)研究表明,大數(shù)據(jù)的應(yīng)用可使美國(guó)制造業(yè)的產(chǎn)品開(kāi)發(fā)和組裝成本降低50%,使零售業(yè)凈利潤(rùn)增長(zhǎng)60%。這對(duì)于制造業(yè)和零售業(yè)來(lái)說(shuō),影響和變化堪稱是革命性的。此外,一些圍繞數(shù)據(jù)分析的業(yè)務(wù)也將興起:眾包式的數(shù)據(jù)分析服務(wù),包括可視化、關(guān)系型數(shù)據(jù)庫(kù)供應(yīng),非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)市場(chǎng)重組等都將成為新的經(jīng)濟(jì)增長(zhǎng)點(diǎn)。
第三,大數(shù)據(jù)還可以在政府公共服務(wù)、民生醫(yī)療服務(wù)、維護(hù)社會(huì)安定、動(dòng)態(tài)安全監(jiān)管等領(lǐng)域發(fā)揮巨大作用。2011年美國(guó)麻省理工大學(xué)SENSEable City Lab開(kāi)發(fā)的實(shí)時(shí)新加坡(LIVE Singapore!)項(xiàng)目,通過(guò)建立一個(gè)收集、細(xì)化、分布式的反映城市活動(dòng)的實(shí)時(shí)數(shù)據(jù)開(kāi)放平臺(tái),將公眾自主生成的數(shù)據(jù)即時(shí)反饋顯現(xiàn)出來(lái),方便他們獲得城市的實(shí)時(shí)信息,比如回家時(shí)間掌控、雨天打車信息、突發(fā)事件脫險(xiǎn)、航班信息查詢等等,以便公眾及時(shí)作出應(yīng)變,優(yōu)化決策。
另外,未來(lái)大數(shù)據(jù)將成為下一輪的信息資源競(jìng)賽的核心。據(jù)悉,2011年美軍加緊推進(jìn)大數(shù)據(jù)研發(fā)計(jì)劃,確定了“從數(shù)據(jù)到?jīng)Q策、網(wǎng)絡(luò)科技、電子戰(zhàn)與電子防護(hù)、工程化彈性系統(tǒng)、大規(guī)模殺傷性武器防御、自主系統(tǒng)和人機(jī)互動(dòng)”等7個(gè)重點(diǎn)研究領(lǐng)域。2012年3月,奧巴馬政府投資2億美元運(yùn)作“大數(shù)據(jù)研究與開(kāi)發(fā)計(jì)劃”以搶占數(shù)據(jù)資源開(kāi)發(fā)利用的制高點(diǎn)。2012年5月,聯(lián)合國(guó)“全球脈動(dòng)”計(jì)劃發(fā)布了《大數(shù)據(jù)開(kāi)發(fā):機(jī)遇與挑戰(zhàn)》報(bào)告,英、德、法、日、加等發(fā)達(dá)國(guó)家都積極響應(yīng)。我國(guó)也于2012年10月成立了首個(gè)專門研究大數(shù)據(jù)應(yīng)用與發(fā)展的學(xué)術(shù)咨詢組織——中國(guó)通信學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)。
“數(shù)據(jù)權(quán)”:下一個(gè)公民應(yīng)有且必需的權(quán)力
但不管大數(shù)據(jù)如何神奇,我們都要保持清醒的頭腦,明確大數(shù)據(jù)的限度所在。一方面,大數(shù)據(jù)確實(shí)可以為我們的政治決策、經(jīng)濟(jì)調(diào)控、社會(huì)服務(wù)、個(gè)人生活提供高效的參考,但卻并非可以一勞永逸地解決所有問(wèn)題。而且在人類建構(gòu)外部世界和尋求自身發(fā)展的過(guò)程中,大數(shù)據(jù)也只是提供了一種解決問(wèn)題的方案,而并非永久性地消除了問(wèn)題。尤其是在社會(huì)科學(xué)領(lǐng)域,社會(huì)問(wèn)題的產(chǎn)生關(guān)涉到歷史、社會(huì)結(jié)構(gòu)與社會(huì)權(quán)力等方方面面,是很難僅僅通過(guò)“數(shù)據(jù)分析”就能解決的。
另一方面,大數(shù)據(jù)的分析基礎(chǔ)是對(duì)個(gè)體和群體,歷史和現(xiàn)狀,行為和態(tài)度進(jìn)行搜集和監(jiān)測(cè)的數(shù)據(jù),而且從理論上說(shuō),數(shù)據(jù)越詳細(xì)、越豐富、覆蓋面越廣,結(jié)合深度的分析挖掘,就越能夠精確地把握和預(yù)測(cè)個(gè)體和集體的實(shí)際情況與行為態(tài)勢(shì)。換句話說(shuō),如果可以全方位地獲得某一個(gè)體或群體的所有數(shù)據(jù),基本上就可以以“全息”的方式模擬再現(xiàn)本體。但是,是否可以沒(méi)有限度地任意搜集個(gè)體的信息?對(duì)于搜集到的信息,如何保證這些數(shù)據(jù)的安全?由誰(shuí)來(lái)守護(hù)這些數(shù)據(jù)?如何能夠保證對(duì)于這些數(shù)據(jù)的分析和挖掘不會(huì)侵害個(gè)體與社會(huì)的安全?這些問(wèn)題作為大數(shù)據(jù)美妙的應(yīng)用前景的暗面,時(shí)時(shí)提醒我們這一“魔法”既有可能造福眾生,也有可能危及個(gè)人與國(guó)家的安全。可以說(shuō),這在世界范圍內(nèi)都是一個(gè)難題。
隨著全球資本與信息的互聯(lián),大型網(wǎng)絡(luò)公司對(duì)于歷史文獻(xiàn)資料的數(shù)據(jù)化,商業(yè)集團(tuán)對(duì)于客戶資料的搜集,政府部門對(duì)于個(gè)人信息的調(diào)查與掌握,社會(huì)化媒體對(duì)于社會(huì)交往的滲透與呈現(xiàn),大數(shù)據(jù)的生成與流動(dòng)已經(jīng)成為必然。那么下一步,更需要考慮的就是如何來(lái)保證這些數(shù)據(jù)的安全。這不僅涉及到國(guó)家層面的主權(quán)維護(hù)、領(lǐng)土安全、軍事機(jī)密等,也涉及商業(yè)集團(tuán)的商業(yè)機(jī)密、專利權(quán)利,還切實(shí)地涉及到個(gè)體的隱私保護(hù)、人身安全等。同時(shí)也要盡量避免數(shù)據(jù)的人為壟斷,形成信息孤島。由于現(xiàn)今互聯(lián)網(wǎng)技術(shù)高度發(fā)達(dá),理論上任何在互聯(lián)網(wǎng)或電子設(shè)備上的文字、圖片、地理信息等都可以被第三方獲取,除了在技術(shù)上采用對(duì)數(shù)據(jù)加密、物理刪除等方式外,通過(guò)法律的形式保護(hù)個(gè)體和集體的數(shù)據(jù)安全更成為關(guān)鍵。“數(shù)據(jù)權(quán)”有望成為下一個(gè)公民應(yīng)有且必需的權(quán)力。如何高效、適度地開(kāi)發(fā)和使用大數(shù)據(jù),不僅僅是一個(gè)技術(shù)問(wèn)題,也是一個(gè)社會(huì)問(wèn)題。
(作者為復(fù)旦大學(xué)新聞學(xué)院教授、博導(dǎo))
責(zé)編/袁靜 美編/李祥峰