楊程
山西大同大學(大同 037009)
統計學在大數據時代下面臨的挑戰
楊程
山西大同大學(大同 037009)
面對大數據科學潮流,統計學與數據科學之間又有著怎樣的聯系呢?本文以科學探討的態度,詳細分析當下大數據時代統計學的發展情況,面臨著哪些挑戰。面對這些影響,統計學又是以怎樣的姿態面對的。
統計學;大數據;挑戰
大數據時代對整個社會的推動影響巨大,統計部門為了跟隨時代的腳步,要求更高的服務質量,深入分析統計學在當下數據背景下的現實作用。數據帶給社會機遇的同時,又蘊藏著怎樣的挑戰,我們需要進一步研究統計學與大數據的關系,在挑戰中促進發展。
社會潮流的推動力,使得全國甚至全世界逐漸走向信息時代,在數據大爆炸的當下也存在著很多問題與矛盾。而發展就是在問題中不斷推進的,切實的處理問題才可以促其發展。所謂“識時務者為俊杰”,在信息時代各個階段下,需要處理不同的問題以順應現代總體的數據趨勢。
2009年“大數據”這一詞匯開始流行,其實早在1980年,著名未來學家A.托夫勒就在《第三次浪潮》中提到了大數據。這個時間段是大數據的萌芽階段,需要的更多是大數據潮流的推動著,打開向整個世界發展的門路。
面對大數據涌現出來的現實,不僅有機遇也面臨著層層挑戰。社會需要通過科學的啟蒙和引導,同時也不能盲目跟風,不要只考慮一個方向的偏執,也不要應運而生的投機者。這個時代需要切合實際的學術和數據科學的有效推進,拓展整個數據學科的發展,在不斷尋找和發展中還要保持批判性思維,為了構成平衡的發展結構,在矛盾中保持艱巨全面。
在不同的成長時期應該著力于不同的發展重心,在接受大數據的同時確保整個信息化發展的穩定性,面對大數據帶給這個世界的豐富機遇,也同時具備隨時可以形成的挑戰。
2.1 互聯網外的大魚
迅速覆蓋世界的大數據,通過互聯網已經遍布開來,會有一些沒有被覆蓋到的地方,人們會認為那些地方,是落伍的不值得被覆蓋的,跟數據發展的大局無關,因此認為在整體數據發展中可以將沒有覆蓋到的放棄。
然而實踐中的情況又是怎樣的,一些技術精英可以說最早就使用了互聯網及手機信息技術,卻在發展中為了避免“技術專政”而躲避數據互聯網的覆蓋。還有一些宗教或是政治相關人士更傾向于遠離互聯網。另有一些為了避稅或是避仇等因素,選擇盡可能的躲避互聯網的覆蓋。以上所說到的這些部分的群體,確實是大數據難以覆蓋的,但是他們的經濟行為恰恰對分析社會格局而言尤為重要,在推論中不容忽視。
大數據得到倡導的首要前提就是民主、開放和理性,然而在不同的國家或地區其實現的程度也是大不相同的。其實人類社會進入到大數據時代,其發展并不是同步的,世界會被分割為三種并存時代,即大數據時代、小數據時代和物數據時代。
2.2 數據的“海量”是相對的
在數據形成中,其覆蓋面積再大或者發展速度再快,也會存在一些“黑暗地帶”。信號問題一直存在于大數據發展之中,數據量變得巨大,但大數據的海量之大也是相對而言的。對于地球來說,海是那么的浩瀚之大,但是就宇宙而言就顯得不大了,就地球上的數據問題來說,其規模也沒有不可控的巨大。
經過相關研究資料可以得知,美國上網成年人中百分之十六在使用推特網(Twitter),其中年輕人和城市人的使用率較多,而對于整個社會而言,也不能將其作為一個代表性的樣本。推特網數據顯示,人們離家越遠快樂指數越高。顯然并不能代表所有人的意愿,或許這一判斷會得到部分人的認可,卻不能代表所有人。
相關報道研究,社會上的全部數據有百分之九十都產生于過去兩年,那么也就是說當今的大數據,相對來說就是明天的小數據。對于數據我們是不能將其窮盡控制的,對于數據的掌握非常有限。今天所有數據的發展和覆蓋,在明天或許就會被否定,所以就覆蓋程度一說法是缺乏延展性的。曾有相關學者提出,人們會因現有的知識工作所限制,卻不曾想到明天的工具或許比當下的要強大數倍,也就是說今天的數據資料不能預知將來。
3.1 統計學與數據科學之間的關系
有部分學者認為統計學與數據科學之間應該達到統一,其沒有存在差異之處,持“同一論”或“唯一論”。對于學科關系的不同認識,影響到這一觀點的成立性。大數據時代在當今社會快速遍布,統計就可以代表數據科學嗎,體現在現實中的一切就這么簡單?
經過對相關文獻進行進一步研究,發現很多論著在討論數據科學分支時提到了統計學,大部分學者都持“之一論”或“屬于論”。這樣的論述否認了以上所說的同一論”或“唯一論”,統計學與數據科學之間是不等價的,某些相關學者將其視為某種交叉的關系。
將統計學認為是一門數據科學,理解為統計學就是數據科學中的一個分支,而其信息量的貢獻有限。統計是一門數據科學對于大數據時代的發展很重要,而這只能說明統計學特別重要,而不能說統計學“唯一”重要。
3.2 四類世界與四種科學
就世界而言可以有各種各樣不同的分類,科學也一樣體現著不同的視角和觀察格局。
在這里我們提出四類世界下的四種科學,廣義上來說,可以將世界分為四類:應對物質世界、應對精神世界、應對賽博世界和應對行為世界。其相對應的四類科學分別是:物理科學、心理科學、數理科學和事理科學。人類多維思維的科學成果,使得社會科學更加豐富,它們之間的關系不是外在板塊的疊加,四者之間是有機滲透的交錯關系。現實世界的體現在同一個世界的四個不同維度,想要將其一科學用好學好,并不能單一進行。
總體而言,世界是多元化的,不是數據可以將其一切所代替的,當今不能僅僅依賴于數據的發展,在大數據時代,還是不能缺少定性和“較質”。
4.1 數據的識別問題
統計實務通過統計學的理論指導,在不同階段進行相應的科學研究。可以說收集基礎數據是原先的統計實務的重心,如何獲取數據是其考慮的主要問題。如何選擇有用數據,就是當下大數據時代的重心所在。
數據的識別問題對于大數據時代的發展而言尤為重要,就是要將現實與理論以及方法之間的反復作用,從數據中總結出的數量規律能否成立是個重要的問題。
2012年“谷歌流感趨勢”高估了年度流感發病率,可以說是數據誤導中的一個典型案例。從人們在網上留的搜索記錄,直接判斷其是否患得流感,這樣做確實不夠科學。或許人們是出于其他原因搜索信息,或者只是為了了解一些相關事態而搜索的,如何區分真正的患者,還需要進行進一步的判斷。所以,若太過于多的依賴有缺陷的大數據,就會對公共決策造成較大影響。
4.2 虛擬信息的識別問題
除了一些數據考察外,還存在很多虛擬信息識別問題,比如不少帳號是機器人自動程序或“半機器人”系統,還有虛假賬號。所以,在使用網絡數據分析社會狀況的時候,應該警覺數據中有沒有由自動化算法系統產生問題。
互聯網營銷中,大量的“刷量”以及水軍好評差評等數據,可以說就是一種數據干擾,影響著數據的準確性,如今市場上有很多類似這樣的噪聲,最終使得數據價值降低。
另外,考慮在技術層面中實現“數據去重”,確保數據的完整性,以及對網絡病毒的剔除等等這些問題,都是值得關注的數據問題。
科技總是具有雙面性的,對于大數據時代下統計學的發展,應該進行全面的分析,將面臨的問題重視起來,充分認識統計學與數據化時代的聯系,積極應對各種挑戰。
[1]游士兵,張佩,姚雪梅.大數據對統計學的挑戰和機遇[J].珞珈管理評論.2013,(02).
[2]邱東.大數據時代對統計學的挑戰[J].統計研究.2014,(01).
[3]陳龍,程開明.大數據時代的決策:數據分析抑或直覺經驗[J].中國統計.2014,(09).
(責任編輯:文婷)
F222
A
1003-3319(2016)04-00039-02
10.19469/j.cnki.1003-3319.2016.04.0039