王少瑾
(煙臺大學 經濟管理學院,山東 煙臺 264005)
隨著互聯網和計算機技術的普及與飛速發展,人類進入信息爆炸式增長的時代,各行各業每天都產生海量的數據,其可以千萬億字節來計算,可以說,人們已經進入大數據時代,大數據已經成為國家的基礎性戰略資源。
隨著大數據時代的來臨,世界各國對大數據均給予了前所未有的重視。早在2012 年3 月,美國奧巴馬政府頒布了《大數據的研究和發展計劃》,將大數據上升為國家戰略,引起全球的廣泛關注;2017 年12月,中共中央總書記習近平在主持實施國家大數據戰略第二次集體學習時強調,大數據發展日新月異,應該深入了解大數據發展現狀和趨勢及其對經濟社會發展的影響,加快建設數字中國,更好地服務我國經濟社會發展和人民生活改善。
大數據價值的發揮離不開統計,統計是和數據打交道的,可以說有數據的地方就有統計。《大英百科全書》認為統計學是一門收集與分析數據,并且根據數據進行推斷的藝術與科學。作為一門收集、整理、分析數據的傳統科學,統計學在大數據時代既面臨著空前的發展機遇,也面臨著巨大的挑戰。
統計學作為一門與數據打交道的科學,從誕生到現在已有300 多年的歷史,在經濟管理、生物醫學、社會科學等領域得到了廣泛的應用。傳統的統計分析過程包括根據研究目的來收集數據、整理數據、分析數據,并從中得出結論。雖然大數據與傳統意義上的數據有著極大的差異,但通過應用大數據技術分析研究社會經濟現象,揭示總體的數量特征所需要的分析過程卻與傳統的數據分析過程并無本質的差別,依然可以劃分為數據的收集、整理加工、分析、解釋并得出結論等,文章接下來主要從這一角度對大數據時代統計學面臨的主要挑戰進行闡述。
“數據是統計的語言”“有數據的地方就有統計”……從這些說法中不難看出數據對于統計的意義。傳統統計數據是對研究對象進行觀測或實驗的結果,往往有固定的結構或標準,屬于結構化數據,而大數據不但包含結構化數據,還包含海量的非結構化和半結構化數據,如圖片、音頻、視頻等。傳統的統計分析指標和方法對這些非結構化或半結構化數據并不完全適用,如何直接處理非結構化數據或者如何將半結構化數據、非結構化數據轉化成結構化數據是統計學面臨的一個重要挑戰。
傳統統計數據的來源主要是根據研究目的進行的調查或實驗,往往需要預先設計周密的統計調查方案,組織各種形式的統計調查或者統計實驗,最終才能獲得相關數據,而大數據的來源多種多樣、包羅萬象,如POS 機數據、電子商務數據等各種交易數據;移動通信數據;人為數據,如各種社交網絡(微信、微博、推特、臉書)等社交媒體產生的數據流,包括電子郵件、文檔、圖片、音頻、視頻等;機器和傳感器數據等。
傳統的統計分析軟件如SPSS、E-views、SAS、STATA 等可以高效處理常規的結構化數據,揭示社會經濟現象的數量特征或變量之間的數量依存關系等,有效滿足不同層次的統計分析者的研究需要,但對于分析具有4V(Volume、Variety、Velocity、Value)特征的大數據顯得力不從心,需要開發和應用能夠有效處理非結構化或半結構化數據的統計分析軟件。
大數據時代,傳統的抽樣調查法是否有存在的必要,對此學術界并無統一的看法,一種觀點認為大數據時代,研究者可以直接面對研究總體,因而相關的分析方法,如參數估計、假設檢驗就沒有以前那么重要了;另一種觀點則認為,大數據時代,對于通過網絡獲取的靜態數據,由于客戶在查看時數據已經生成,可以認為樣本等同于總體;對于通過網絡獲取的動態數據而言,數據會隨著時間的推移不斷變化,因而依然存在樣本和總體的區別,只不過這時的樣本不再局限于傳統意義上隨機抽取的數據。考慮到大數據的數據特征,傳統的統計分析方法如回歸分析、多元統計分析等不再適用,急需探索新的統計分析方法以更好地適應時代的發展。可以說,大數據的研究需要用到統計方法,統計方法的優化完善需要和大數據相結合。
總的來說,大數據時代給傳統統計學帶來的沖擊主要體現在統計數據的類型、收集和加工整理、分析過程等方面。
隨著大數據時代的來臨,國內部分高校順應時代潮流,積極應對大數據帶來的挑戰,及時作出了一系列教學方面的變革,但大部分高校反應遲緩,課程改革遲遲未能提上日程,依然存在諸多不足。
大數據的數據特征對統計學的課程體系提出了更高的要求,統計學的課程設置必須與時俱進,方能彰顯其強大的生命力。雖然清華大學、中國人民大學、上海財經大學等在國內統計學領域位居前列的高校已經先行一步,逐步設置了與大數據教學密切相關的課程,但絕大部分開設統計學專業的高校由于受觀念和師資力量限制,課程內容比較老舊,傳統的統計學課程依然占據主體地位,課程體系不夠完善,教學案例和分析數據等比較陳舊,課程體系更新不夠及時,根本無法滿足大數據分析的需要。
目前,雖然統計學教學也開設了SPSS、SAS、STATA、E-views 等統計軟件課程,但對于收集、處理及分析大數據而言,這些統計軟件顯得“力不從心”,無法滿足半結構化和非結構化數據的分析需要。另外,學生在上機操作中主要面對的是時間序列、橫截面數據、面板數據等傳統結構化數據,而且研究的數據容量往往偏小,與真正的大數據相去甚遠,使得學生一旦需要真正處理分析大數據時,可能會“束手無策”。
統計學課程的培養目標是培養學生的統計學思維,使其具備一定的數據分析能力。目前,高校的統計學課程考核方式大多仍以傳統的筆試為主,雖然考慮到了平時成績,但期末的筆試成績依然占較大比例,這種考核方式并不能對教學目標是否實現進行全面準確的衡量。此外,對學生的考核很少以團隊的形式開展,大多都是對學生個人能力的考核,這種教學與考核模式不利于培養學生在大數據收集、處理及分析過程中的分工合作能力,也難以真正考查學生的數據分析能力。
大數據分析是將數學、統計學及計算機科學相結合的一門學科,具有明顯的交叉學科特點。雖然其分析處理過程類似于傳統的統計分析過程,可分為數據的收集、整理和加工、分析、預測及應用等,但實際處理過程既需要統計學的基本理論指導,又涉及數據庫的存儲、數據透視、數據挖掘算法等計算機技術的應用等。可以說,大數據時代的來臨對統計學教師提出了更新、更高的要求。目前多數高校統計學教師缺乏計算機教育背景,已有的知識儲備難以應對大數據帶來的挑戰,對于涉及大數據專業知識的相關課程講授力不從心。
從統計學誕生到大數據時代以前的發展歷程來看,每一次統計學的快速發展都離不開社會生活各個領域的需求,正是農業、工業品質量監測、生物醫藥、金融等領域的需求一次又一次地推動了統計方法的完善和改進。而計算機科學的飛速發展進一步有力推動了統計方法在社會生活各個領域的廣泛應用。大數據的興起對統計學的應用又提出了更高的要求,這就需要高校統計學專業進行各方面的創新,從而更好地滿足社會的需求。
大數據時代,統計學專業的學生需要具備收集、處理及分析復雜數據的能力。因此,統計學要積極與計算機和數學緊密結合,進一步完善統計學課程體系,培養復合型人才。大數據統計領域的人才培養需要統計學、數據及計算機等多個學科共同努力。課程設置方面,除了跟原來一樣需要設置數理專業課程和統計學理論課程,還需要開設必要的計算機課程,增加數據科學概論、數據科學統計基礎、Python 軟件學習、并行計算等計算機類的課程。
在大數據出現之前,學生收集數據可以親自開展社會實踐調查,獲取第一手數據,但這種數據獲取途徑往往需要耗費較多的人力、物力及財力,因而應用較少;學生更多的是通過各種網絡途徑獲取二手數據,如國家統計局或省、市統計信息網等官方網站公布的數據,以及高校、科研院所等科研機構公布的調研數據。此類數據都屬于結構化數據,要收集此類數據并不需要多么高深的專業技能,但在大數據時代,面對海量的非結構化數據或半結構化數據,即使在數據的收集階段,也需要研究者具備一定的專業統計軟件應用能力才能完成大數據的收集,更不用說接下來的數據整理加工、分析等工作了。因此,高校在將計算機和數據庫應用等作為專業必修課的同時,還應高度重視Python 等軟件操作的培訓,切實提高學生應用統計軟件的能力。
統計思維養成的關鍵是利用數據分析解決問題,統計學本質上是一門應用型科學,只有在應用中才能體現其強大的生命力。高校只有設置科學實用的實驗課程,讓學生親自動手進行大數據的收集、降維、處理、可視化,才能使其將書本上的抽象理論知識真正消化吸收。高校可以考慮加強與當地政府統計部門、市場調查咨詢公司、大型網絡企業、電商企業等機構進行合作,一方面便于獲取各種大數據,另一方面可以借助校外數據分析專家的力量彌補校內師資力量的不足。
目前,大多數高校統計學教師的知識儲備不足以應對大數據帶來的挑戰,為了切實提高學生的素質,一方面高校需要對現有的教師隊伍進行有針對性的優化,積極組織教師參與大數據研討會和培訓等,力爭在較短的時間里培養一批在大數據教學方面有專長的教師隊伍;另一方面由于各高校最早在2015 年才獲批設立大數據專業,按照目前各高校引進人才的標準,這批學生即使已經畢業也不可能立刻進入高校任教,無法彌補大數據教學的師資力量不足,所以高校在引進人才時應偏向于數學、計算機或二者相結合方面的人才,以滿足大數據時代新課程體系教學的需要。
隨著數字社會建設步伐的加快,大數據的相關競賽如雨后春筍般出現,如阿里天池大數據競賽、“聯想杯”全國高校大數據能力提升大賽、全國大學生大數據技能競賽、“一帶一路”國際大數據競賽等,這些競賽往往同時面向本科院校和高職院校,參與者眾多。各高校要積極動員組織教師和學生參加各類競賽,通過參加競賽,一方面可以有效激發學生們的學習興趣,提升學生的專業技能和實踐動手能力;另一方面有助于參賽高校通過參加競賽及時發現不足,有針對性地調整專業體系建設、課程設置及人才培養方案等,緊密結合社會需求,促進大數據專業人才的培養。
縱觀近一個世紀以來統計學的發展歷程,其每一次的飛速發展都與社會需求息息相關。當前,大數據已經滲透到人們工作和生活的每一個角落。大數據在為統計學的飛速發展提供良好契機的同時,也使得統計學教育在專業課程的設置、教學內容的更新、學生統計能力的培養、師資的培訓等方面面臨諸多挑戰,高校統計學專業必須積極應對這些挑戰,主動擁抱數據科學,進行創新性的變革,如此才能適應大數據時代,實現跨越式發展。