周茂袁
摘要:大數據涵蓋多學科領域的、海量的、各種復雜結構的數據。各學科之間數據互相融合和貫通,學科之間的邊界已經重疊和模糊。大數據涉及各種數據類型,包括文本和語言、視頻和圖像、時空數據、網絡和圖形等。對于傳統的統計學專業來說,大數據時代帶來的不僅是機遇還有挑戰。本文初步探索了以下幾個方面:《數據挖掘》中引入大數據分析方法;《非參數統計》中引入多元非參數方法、半參數回歸;《回歸分析》中引入隨機森林回歸等用來處理大數據的回歸方法、高維回歸變量選擇方法(其中以LASSO回歸為典型代表);《多元統計》中引入高維統計方法;以上引入的大數據分析方法均用R語言來實現。
關鍵詞:大數據;統計學;數據挖掘;非參數統計;回歸分析;多元統計
中圖分類號:G642.0 ? ? 文獻標志碼:A ? ? 文章編號:1674-9324(2015)35-0105-02
從狹義上來講,大數據的構成包括兩方面,一方面是大樣本,在統計學上要達到需要的精度就必須采取抽樣的辦法降低樣本數量;另一方面是高維度變量,對于這一問題則需要采取壓縮、分解以及降維等方法。
一、大數據及其意義
大部分傳統的統計方法只適合分析單個計算機存儲的數據。而目前大數據的環境包括以下要素。
1.流數據:數據快速地不斷涌來,現有存儲設備和計算能力難以應付這種數據流(比如歐洲高能粒子對撞機所產生的數據,每秒鐘可以達到500TB)。
2.磁盤存儲限制:數據已不能完全存儲在內存中,需要硬盤存儲。
3.分布存儲狀態:數據分布存儲在多個計算機中。
4.多線條狀態:數據存儲在一個計算機中,多個處理器共享內存。
大數據的發展就是對數據產生的機制進行探索,將所產生的數據轉變為人們所需要的知識,進而對相關政策的制定產生影響。這個過程是一個漫長的過程。一個小孩子隨著年齡的增長可能會掌握更多的單詞,但是根據一個孩子的年齡確定他掌握的單詞多少則并不科學。
進一步來說,大數據有記錄保存自然與社會現狀的功能。現在大家收集著海量數據,盡管他們還不清楚如何分析大量的數據,但是他們相信需要保存現今社會經濟高速發展的過程,期待著今后能夠分析和解釋這段歷史。還有些人將百歲老人的血液和其他各種生物的標本等存放在冰箱里,他們認為當今的技術還不足以測試和分析這些資源,期待今后更先進的測試技術能夠做到。大數據就如同自然和社會的血液那樣記錄著社會的現狀和發展過程。
17世紀望遠鏡以及顯微鏡的發明使人類看到了以前從來沒有看到過的宇宙空間和微生物,擴大了人類對自然的基本認識。大數據就像“望眼鏡”和“顯微鏡”那樣,使得人們能夠通過數據來觀察和分析自然、經濟、社會的現象。借助于互聯網數據,可以及時了解疾病的疫情、科學的動態、社會的動態。谷歌借助頻繁檢索的詞條能及時判斷流感從哪傳播,哪些人可能已經感染了流感。大數據將形成自然和人文社會的歷史長河,不但能用于探索當代的科學問題,將來也可以用于研究人們食用轉基因食品對子孫后代的影響等追蹤研究問題,為未來留下當前的歷史資料。
二、大數據帶來的變革
時代的進步有賴于大數據的發展,大數據的發展給時代變革增加了更多的不確定性。就當前研究來看,數據的搜集很大程度上依靠所研究問題的出現來推動其向前發展。不過在不久的將來,隨著大數據時代的到來,人們對于問題的研究將會由“數據”來驅動。例如,如果我們想去某地旅行或出差,會首先查詢目的地的交通情況、天氣情況以及住宿情況等信息,但是將來我們可以根據所查詢的數據信息來決定所要去的目的地。在古希臘時代,當時的哲學家無所不知,號稱百科全書,到了文藝復興時代,隨著學科的不斷細化,不同學科出現了各自的專家。隨著大數據時代的到來,大百科全書式的人物將有可能再次出現,而不同領域的專家的權威性將被逐步消弱,隨著大數據的不斷發展,很有可能會逐漸將學科專家消亡掉。例如,隨著計算機專家和統計學家對數據的搜集越來越多并且處理能力不斷增強,他們將逐步成為生命科學方面的專家。再比如,如果我們掌握了足夠數量的相關專業書籍和日文譯本,就算我們對日文一無所知,我們也可以采取有效的方法將所需要的中文翻譯成為日文,因為我們有很多非常可靠的翻譯軟件,如谷歌翻譯軟件等。大數據已經在各個領域和學科得到了應用,例如醫療領域,大數據可以指導人們健康飲食,適時進行身體檢查,并且確定檢查項目,幫助醫生對患者進行疾病診斷等。
三、大數據時代統計學專業教學現狀
隨著科技的不斷發展和進步,人們獲取信息和數據的途徑也發生了很大的變化,電子商務的發展和各種多媒體信息技術的飛速發展和應用,給傳統的統計學應用和教學帶來了機遇的同時也帶來了非常大的挑戰。一方面,由于各種信息和數據的不斷涌入,人們在被動搜集著各種數據。統計學的教學也需要不斷探索新的模式。另一方面,人們在被動接受數據的同時也在主動搜集數據信息,不同學科有不同的數據需要。例如經濟學領域的專家每天都在搜集各自的調查數據和觀察數據,而自然科學領域的專家學者則不僅搜集宏觀天文數據,還在搜集微觀基因數據。不同的人們搜集數據的方法也各不相同,有的在實驗室通過試驗進行數據搜集,有的人則通過網絡進行數據搜集和研究。
對于當前大數據給統計學帶來的挑戰,美國科學院“大數據分析委員會”給出了分析,他們認為這些挑戰在于對不同格式和結構的數據的處理方面、對于數據來源的追蹤方面、對于共享數據的安全性問題和完整性問題方面、對于樣本異質性和偏倚性處理方面、在對問題進行處理時的決策和分析方面以及對分布式和并行式在開發時的算法方面的問題等。國內相關部門也對這一問題進行了研討,最早一次是2012年5月在香山召開的“大數據科學與工程”會議,第二次是在2013年5月召開的對于大數據原理以及發展前景的探討會,并同時制定了相關的科研計劃。但關于大數據背景下統計學專業教學的探索還非常稀缺。
四、統計學專業課程改革
針對以上所述大數據時代的特點和變革意義以及目前統計學專業教學的現狀,本文進行了相應的初步探索。
(一)改革的總體思路
將現有的統計學頂級雜志或著名文獻中的成熟的大數據分析方法逐步凝練,形成教學內容;將使用R軟件中的函數包實現這些大數據分析方法。
(二)改革的具體內容
1.在《數據挖掘原理與方法》課程中引入大數據分析方法及其R語言的代碼實現。
2.在《非參數統計》課程中引入多元非參數統計方法(諸如多元符號、多元秩、多元符號秩等)、非參數回歸模型、半參數回歸模型及其R語言的代碼實現。
3.在《回歸分析》課程中引入回歸樹、boosting回歸、bagging回歸、隨機森林回歸等用來處理大數據的回歸方法、高維回歸變量選擇方法(比如LASSO回歸、動態LASSO回歸等)及其R語言的代碼實現。
4.在《多元統計分析》課程中引入高維統計分析方法及其R語言的代碼實現。
5.在工科《概率論與數理統計》課程中引入R語言的代碼實現。
(三)改革的主要創新點
在傳統的統計學專業課程教學中引入最新的大數據分析方法及其R語言實現。
其中R語言是區別SAS、SPSS等傻瓜軟件的結構化程序設計語言,可以靈活實現傻瓜軟件所不能實現的各種高級數據分析功能。其非常適應于大數據統計分析方法的教學。所以大部分國內外著名大學已經不再使用諸如SAS、SPSS等傻瓜統計軟件進行統計分析方法的教學。R語言已經逐步成為統計學系的標準的教學軟件。
參考文獻:
[1]Committee on the Analysis of Massive Data et al. (2013)Frontiers in Massive Data Analysis[J].National Academies Press,Washington. http:/ /www. nap. edu /catalog. php?record_id =18374.
[2]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[3]NIH Big Data to Knowledge (2013).http://bd2k.nih.gov/index.html#sthash.Yu5HxjcM.dpbs.
[4]納特·西爾弗.信號與噪聲[M].胡曉姣,張新,朱辰辰,譯.北京:中信出版社,2013.
[5]Yin J,Zhou Y,Wang C,He P,Zheng C,Geng Z. Partial orientation and local structural learning of causal networks for prediction. Challenges in Causality Volume 1:Causation and prediction challenge. Ed. by I. Guyon,C. Aliferis,G. Cooper,A. Elisseeff,J. Pellet,P. Spirtes and A. Statnikov,2009:93-105.
[6]趙暉,邢攀科,秦樂樂,張會肖.基于“云計算”的人力資源檔案信息決策支持系統的研究[J].河北工業科技,2013,(02).
[7]郭海燕,魏遵鋒,石中英.研究生課程與教學現狀調查分析——以北京師范大學為例[J].中國大學教學,2012,(10).