徐德義 林志恒

[摘 要]簡(jiǎn)單介紹了大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)的產(chǎn)生及特征,在此基礎(chǔ)上提出了大學(xué)統(tǒng)計(jì)學(xué)教學(xué)的幾個(gè)方面的思考。
[關(guān)鍵詞]大數(shù)據(jù) 大學(xué)統(tǒng)計(jì)教學(xué) 大統(tǒng)計(jì)
[中圖分類號(hào)] O21[文獻(xiàn)標(biāo)識(shí)碼] A[文章編號(hào)] 2095-3437(2015)11-0183-02
一、引言
2009年8月5日的《紐約時(shí)報(bào)》刊登題為“當(dāng)今大學(xué)畢業(yè)生唯一關(guān)鍵詞:統(tǒng)計(jì)學(xué)”文章。[1]文中介紹,哈佛大學(xué)人類學(xué)家格賴姆斯改行就職Google,從事海量數(shù)據(jù)的分析工作,整天就是和數(shù)學(xué)、計(jì)算機(jī)打交道,用數(shù)據(jù)分析方法改善Google搜索引擎。文中援引Google首席經(jīng)濟(jì)師范里安的話說(shuō):“我堅(jiān)持認(rèn)為今后10年最性感的工作是當(dāng)統(tǒng)計(jì)師,我可沒開玩笑!”麻省理工學(xué)院經(jīng)濟(jì)學(xué)家布林約夫森說(shuō):“我們進(jìn)入了一個(gè)一切都可以被監(jiān)測(cè)器和科學(xué)儀器數(shù)字化和記錄的時(shí)代(大量數(shù)據(jù)在不斷產(chǎn)生),但最大的問(wèn)題是我們有沒有能力利用、分析這些數(shù)據(jù),讓其為我們服務(wù)。”數(shù)據(jù)中有大量的珍寶。IBM組織了200名數(shù)學(xué)家、統(tǒng)計(jì)學(xué)家和其他數(shù)據(jù)分析大師為商業(yè)分析和優(yōu)化服務(wù),在數(shù)據(jù)中探寶,他們計(jì)劃將探寶隊(duì)伍擴(kuò)充到4000人。網(wǎng)絡(luò)數(shù)據(jù)的樣本量打開了一個(gè)新世界,康奈爾大學(xué)克萊因伯格說(shuō),社會(huì)統(tǒng)計(jì)中,相比傳統(tǒng)采訪和問(wèn)卷調(diào)查等形式的抽樣,數(shù)百萬(wàn)計(jì)的網(wǎng)民的網(wǎng)絡(luò)互動(dòng)產(chǎn)生的樣本量是令人驚奇的。專家警告,統(tǒng)計(jì)學(xué)面臨著嚴(yán)重的危機(jī),單就網(wǎng)絡(luò)數(shù)據(jù)的體量就足以使得傳統(tǒng)統(tǒng)計(jì)模型喪失能力,而且,數(shù)據(jù)的強(qiáng)相關(guān)性未必就有因-果關(guān)系。
數(shù)據(jù)在爆炸,我們?cè)隗@夢(mèng)中進(jìn)入了大數(shù)據(jù)(Big Data)時(shí)代,大數(shù)據(jù)正在引起一場(chǎng)革命,它將改變我們的生活、工作和思維[2],統(tǒng)計(jì)學(xué)是關(guān)于數(shù)據(jù)的科學(xué),它迎來(lái)了一場(chǎng)變革,是機(jī)遇也是挑戰(zhàn)。[3] [4]
二、大數(shù)據(jù)的產(chǎn)生及其特征
數(shù)據(jù)化是大數(shù)據(jù)時(shí)代到來(lái)的標(biāo)志。社會(huì)網(wǎng)絡(luò)、電子商務(wù)、移動(dòng)通信、深空探測(cè)、衛(wèi)星遙感、基因測(cè)序以及其他科學(xué)測(cè)量?jī)x器時(shí)時(shí)刻刻都在自動(dòng)測(cè)量和記錄著數(shù)據(jù),而且這一趨勢(shì)在不斷增強(qiáng)。2007年所有數(shù)據(jù)中只有7%是存儲(chǔ)在報(bào)紙、書籍、圖片等介質(zhì)上,其余全部都是數(shù)字?jǐn)?shù)據(jù)。Google每天要處理超過(guò)24PB2的數(shù)據(jù),它是美國(guó)國(guó)家圖書館所有紙質(zhì)出版物所含數(shù)據(jù)量的上千倍。科爾尼公司科學(xué)家統(tǒng)計(jì)結(jié)果顯示,僅2012年就產(chǎn)生了2.5ZB的數(shù)據(jù),并且數(shù)據(jù)產(chǎn)生量以每年40%的速度遞增,2011、2012兩年產(chǎn)生了全球90%的數(shù)據(jù),到2020年將達(dá)到45ZB,這是天文數(shù)字。
我們用中國(guó)移動(dòng)公司為例大致描述一下大數(shù)據(jù)的產(chǎn)生。2015年中國(guó)移動(dòng)已經(jīng)達(dá)到12.93億個(gè)用戶,用戶數(shù)近似12G,給用戶提供通話、短信、上網(wǎng)等服務(wù)。若網(wǎng)絡(luò)流量包月30MB,每天1MB,平均每天網(wǎng)絡(luò)數(shù)據(jù)流量達(dá)到12PB,若每天還記錄用戶信息(姓名、身份、職業(yè)、位置等),通話(時(shí)刻、時(shí)長(zhǎng)、內(nèi)容),短信(內(nèi)容)等,保守估計(jì)所產(chǎn)生的數(shù)據(jù)可以達(dá)到300PB,一年將超過(guò)100EB=0.1ZB。再看這些數(shù)據(jù)的形式,它們有文字、表格、符號(hào)、圖片、語(yǔ)音、數(shù)字、影像、上網(wǎng)軌跡等等,如果還考慮這些數(shù)據(jù)時(shí)時(shí)刻刻都在改變,每個(gè)用戶有自己的偏好,可以想象這些數(shù)據(jù)的體量、變化性、復(fù)雜性,如果移動(dòng)公司利用這些數(shù)據(jù)進(jìn)行市場(chǎng)分析和行業(yè)規(guī)劃,這些數(shù)據(jù)還具有巨大價(jià)值。圖1描述了大數(shù)據(jù)的產(chǎn)生及其演化過(guò)程。[5]
人們從不同的方面對(duì)大數(shù)據(jù)進(jìn)行了描述和定義。從特征來(lái)看,大數(shù)據(jù)具有“4V”:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。[6]Volume:由于當(dāng)今數(shù)據(jù)的體量大,其處理和管理只能依靠專門的技術(shù),駕馭這些先進(jìn)技術(shù)是開啟大數(shù)據(jù)寶藏的鑰匙;Velocity:快速處理大數(shù)據(jù)并獲取有用信息;Variety:要開發(fā)利用的大數(shù)據(jù)的數(shù)據(jù)類型龐雜、數(shù)據(jù)源眾多;Value:大數(shù)據(jù)中隱含著商機(jī),隱含著企業(yè)、行業(yè)乃至國(guó)家戰(zhàn)略決策的依據(jù),它是煤、石油、金屬礦產(chǎn)、水等之外的一種新型資源。
圖1 ? 大數(shù)據(jù)的演化圖(據(jù)科尼爾分析修改[5])
從統(tǒng)計(jì)的角度,李金昌認(rèn)為大數(shù)據(jù)不是基于人工設(shè)計(jì)、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴(kuò)充的結(jié)構(gòu)型數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)與工具可以自動(dòng)記錄、儲(chǔ)存和連續(xù)擴(kuò)充的、大大超出傳統(tǒng)統(tǒng)計(jì)記錄與儲(chǔ)存能力的一切類型的數(shù)據(jù)。[6]
從技術(shù)的角度,維基百科的定義是,大數(shù)據(jù)是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理、處理的數(shù)據(jù)集合。從產(chǎn)業(yè)角度,常常把這些數(shù)據(jù)與采集它們的工具、平臺(tái)、分析系統(tǒng)一起被稱為“大數(shù)據(jù)”。
三、大數(shù)據(jù)時(shí)代的大學(xué)統(tǒng)計(jì)教學(xué)
大數(shù)據(jù)時(shí)代是以數(shù)據(jù)為中心的時(shí)代,是數(shù)據(jù)驅(qū)動(dòng)的時(shí)代。作為關(guān)于數(shù)據(jù)的科學(xué),統(tǒng)計(jì)學(xué)面臨著重大的機(jī)遇和挑戰(zhàn),大學(xué)統(tǒng)計(jì)學(xué)教學(xué)面臨著重大變革。20世紀(jì)中葉計(jì)算機(jī)技術(shù)的進(jìn)步為統(tǒng)計(jì)應(yīng)用的騰飛插上了有力的翅膀,使其應(yīng)用范圍遍及自然科學(xué)、社會(huì)科學(xué)的各個(gè)領(lǐng)域,無(wú)所不在,使得統(tǒng)計(jì)學(xué)趨向成熟。如今計(jì)算機(jī)、互聯(lián)網(wǎng)、云計(jì)算電子商務(wù)和社會(huì)網(wǎng)絡(luò)等的發(fā)展又將統(tǒng)計(jì)學(xué)推到了風(fēng)口浪尖,國(guó)際、國(guó)內(nèi)很多統(tǒng)計(jì)學(xué)家紛紛撰文對(duì)統(tǒng)計(jì)學(xué)為適應(yīng)新時(shí)代的發(fā)展所需的變革進(jìn)行了論述。
孟生旺和袁衛(wèi)[7]根據(jù)2014年11月美國(guó)統(tǒng)計(jì)學(xué)會(huì)發(fā)布的統(tǒng)計(jì)學(xué)本科專業(yè)指導(dǎo)性教學(xué)綱要,強(qiáng)調(diào)了4個(gè)方面:(1)數(shù)據(jù)科學(xué)日益重要,統(tǒng)計(jì)專業(yè)人才不僅需要扎實(shí)的數(shù)學(xué)和統(tǒng)計(jì)基礎(chǔ),還要有強(qiáng)大的統(tǒng)計(jì)計(jì)算和編程能力,可以熟練使用專業(yè)統(tǒng)計(jì)軟件和數(shù)據(jù)庫(kù);(2)真實(shí)數(shù)據(jù)是統(tǒng)計(jì)專業(yè)教育的重要組成部分;(3)需要更加多樣化的統(tǒng)計(jì)模型和方法;(4)通過(guò)語(yǔ)言、圖表和動(dòng)畫等用戶易于理解的方式表達(dá)數(shù)據(jù)分析結(jié)論的能力。他們還從統(tǒng)計(jì)方法與統(tǒng)計(jì)理論、數(shù)據(jù)操作與統(tǒng)計(jì)計(jì)算、數(shù)學(xué)基礎(chǔ)、實(shí)踐訓(xùn)練等幾個(gè)方面對(duì)課程設(shè)置提出了具體要求。
結(jié)合他人的思想,我們認(rèn)為在教學(xué)過(guò)程中必須思考幾個(gè)方面的問(wèn)題并進(jìn)行思想方法和教學(xué)方法的轉(zhuǎn)變。
(1)對(duì)數(shù)據(jù)的認(rèn)識(shí),傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)類型包括時(shí)間序列數(shù)據(jù)、截面數(shù)據(jù)、面板數(shù)據(jù)以及空間面板數(shù)據(jù)等,結(jié)構(gòu)性強(qiáng),針對(duì)每類數(shù)據(jù)都有有效的統(tǒng)計(jì)分析方法和模型。然而,如上文提到的通信數(shù)據(jù),還有社交網(wǎng)絡(luò)記錄的數(shù)據(jù)、電子商務(wù)記錄的客戶數(shù)據(jù)等等,它們往往是傳統(tǒng)數(shù)據(jù)類型的混雜體,既有靜態(tài)的也有動(dòng)態(tài)的,既有結(jié)構(gòu)性的也有非結(jié)構(gòu)性的。另外,數(shù)據(jù)庫(kù)與數(shù)據(jù)庫(kù)之間存在大量數(shù)據(jù)交換與關(guān)聯(lián),這些數(shù)據(jù)都不適合傳統(tǒng)統(tǒng)計(jì)模型,要想在這些數(shù)據(jù)中挖掘到有用信息,要進(jìn)行市場(chǎng)分析與決策。面對(duì)這些因素,我們?cè)诮虒W(xué)中該如何處理,如何思考?另外,這些數(shù)據(jù)中的變量可能是一個(gè)Word文檔,可能是一段語(yǔ)音,可能是一幅圖片,是不是需要將它們都轉(zhuǎn)化成數(shù)字再處理呢?
(2)關(guān)于抽樣,首先由于網(wǎng)絡(luò)和科學(xué)儀器的進(jìn)步,數(shù)據(jù)獲取技術(shù)得到了前所未有的提高,加上強(qiáng)大的計(jì)算機(jī)處理能力,通過(guò)抽取樣本推斷總體的屬性是不是造成信息浪費(fèi)呢?維克托主張,當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生了翻天覆地的變化時(shí),抽樣技術(shù)就像汽車時(shí)代騎馬一樣,一切都變了,我們需要的是全部數(shù)據(jù)而不是樣本,統(tǒng)計(jì)需要“全數(shù)據(jù)模式”:樣本=總體。
(3)精確與簡(jiǎn)單,維克托估計(jì)大數(shù)據(jù)中只有5%的數(shù)據(jù)是結(jié)構(gòu)化的,是可以用傳統(tǒng)統(tǒng)計(jì)學(xué)模型進(jìn)行分析的,然而其余95%的數(shù)據(jù)是混雜的,其中隱含的信息不僅多而且可能是更有用的,如果因?yàn)樽非缶_性而拒絕混雜數(shù)據(jù)將是資源的巨大浪費(fèi)。他認(rèn)為,大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效,我們不應(yīng)該拒絕混雜性,而要以混雜性為標(biāo)準(zhǔn)設(shè)計(jì)新型數(shù)據(jù)庫(kù)進(jìn)而快速有效地獲取有用信息。
(4)因果與相關(guān),相關(guān)性回答的是“是什么”,因果關(guān)系回答的是“為什么”。維克托主張,大數(shù)據(jù)時(shí)代,我們不必一定要知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“說(shuō)話”,知道是什么就夠了,知道了是什么就可以創(chuàng)造巨大的社會(huì)價(jià)值,大數(shù)據(jù)時(shí)代探索世界的方法需要改變。然而,維克托的《大數(shù)據(jù)時(shí)代》中譯本作者周濤對(duì)“相關(guān)關(guān)系比因果關(guān)系更重要”觀點(diǎn)不認(rèn)同,認(rèn)為放棄對(duì)因果關(guān)系的追求就是放棄了人類凌駕于計(jì)算機(jī)之上的智力優(yōu)勢(shì),是人類自身的放縱和墮落。我們同意周濤的觀點(diǎn),在巨大的利益面前盡快、盡量多的知道是什么是很重要的,尤其是對(duì)商業(yè)界來(lái)說(shuō)。探索事物之間的因果關(guān)系是統(tǒng)計(jì)學(xué)的重要使命之一,然而與小數(shù)據(jù)相比,大數(shù)據(jù)中的因果關(guān)系可能被大量的混雜性掩埋,望遠(yuǎn)鏡和顯微鏡如何有效地配合使用也是我們不能回避的問(wèn)題。
統(tǒng)計(jì)這門學(xué)科的發(fā)展一方面必須適應(yīng)社會(huì)的發(fā)展,滿足社會(huì)的需求,另一方面要不斷完善其理論、方法體系。這樣一來(lái),大學(xué)的統(tǒng)計(jì)教學(xué)既要讓學(xué)生掌握傳統(tǒng)統(tǒng)計(jì)學(xué)知識(shí),又要激發(fā)和培養(yǎng)學(xué)生們大膽探索適應(yīng)大數(shù)據(jù)時(shí)代的新思想、新方法和新應(yīng)用。
[ 注 釋 ]
[1] STEVE LOHR, For Todays Graduate, Just One Word:Statistics[N].New York Times,2009-08-05.
[2] 維克托著.周濤譯.大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[3] 耿直,大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014(1):5-9.
[4] 邱東,大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014(1):16-17.
[5] https://www.atkearney.com / strategic-it / featured-article / - / asset_publisher / BqWAk3NLsZIU / content / big-data- and-the-creative-destruction-of-today-s-business-models / 10192.
[6] 李金昌.大數(shù)據(jù)與統(tǒng)計(jì)新思維[J].統(tǒng)計(jì)研究,2014(1):10-16.
[7] 孟生旺,袁衛(wèi).大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)教育[J].統(tǒng)計(jì)研究,2015(4):3-7.
[責(zé)任編輯:鐘 嵐]