張景晨 中國人民大學
統計學作為一門綜合性比較強的學科,擁有極大的應用價值,在經濟生產生活中得到廣泛的應用。統計學的發展還給實際的生活提供了便利,具體表現為對生活數據的處理,統計學隨著歷史的發展而不斷更新,在生活中的具體應用也在不斷地優化和升級。目前隨著互聯網時代的到來,每天都會有大量的數據產生被存儲下來,開始全面進入到海量數據的信息化時代,傳統的統計學方法無法應對大數據的要求,因此需要根據時代進行更新,才能進一步促進統計學理論與實踐的創新,傳統統計學的變革成為目前社會關注的熱點也是當前迫切需要解決的問題。
21世紀網絡技術不斷的發展,現代社會逐漸步入網絡信息化的社會,大數據的時代也隨之到來。大數據具有四個主要的維度,即數量大,速度快,數據多樣性大,數據價值高。具體來說,網絡信息技術得到了飛速的發展,導致過程中產生的數據量呈現指數增長的趨勢,數據信息數據庫存儲容量的增加以及數據信息的內容也不斷地豐富起來,預計在近期,全球所產生的數據量將超過50萬億GB。大數據的高速化意味著數據的生成速度很快,因此是對于數據分析能力的考驗以及數據存儲技術具體速度的考驗,從而提高了困難和復雜大數據的處理質量。目前數據可以產生于多種不同的環境當中,也可以產生于不同的設備,具有復雜和多樣性,數據中攜帶者鮮明的特征,數據的產生可以源于文本,圖片,音頻,視頻,地理信息以及其他材料,例如微信,計算機平臺和移動客戶端;數據信息在當今時代所攜帶的應用價值非常大,存在著較高的信息量,當前網絡信息技術正在不斷地發展來應對這一點,網絡信息技術得到了深層次的發展,對于業務發展等方面都有者比較大的應用價值。但是,當前對于數據挖掘工作的開展還存在著問題,挖掘的密度較低,并且隨著大數據時代的激增,會產生大量的數據,進一步加大了數據挖掘的難度。
在大數據時代的背景帶來的機遇和挑戰之下,統計獲得了新的發展空間和發展方向,統計學的重要性和應用價值越來越突出。我國教育部將統計學定為大學教學的一級學科后,開設了經濟統計學,應用統計學和統計學三個二級學科。鑒于大數據時代的發展特點,西方國家已經建立了統計指導教學和教育綱要,并從統計軟件編程,統計基礎理論知識,實際應用和數值挖掘等方面提出了統計人才培養標準。我國國務院于2015年指出,教育部門需要將工作重點放在大數據方面,對數據應用技術和數據等高端技術人才進行培訓和教育。對此應該加強數據分析和挖掘,以從大數據時代的發展浪潮中獲得知識并且進行廣泛的創新應用。
大數據既是機遇又是挑戰,對社會發展和進步具有推動作用。大數據可以帶動目前關于統計學的教育與培訓的改革,使得統計學的教育能夠適合當前大數據時代背景之下的要求,為社會培養具有綜合應用能力的人才,也為具體理論知識的應用具有明顯的幫助。此外大數據還可以推動相關理論知識和技術手段的創新,海量數據的處理模式相比于傳統的處理模式而言有很大的不同,因此會帶動包括復雜數據建模方法在內的諸多方面的變革與創新。
目前伴隨著大數據時代的到來,統計學的進一步發展面臨著機遇和挑戰。傳統的統計學方法在進行數理統計方面的應用時,通常是用隨機抽樣的方式進行,從而得到簡單隨機樣本,在對樣本進行簡化的模型基礎上展開統計量分布繪圖以及統計量的分析計算,來得出不同統計量之間的關系以及相關性分析等等。傳統的統計學是根據抽樣分析來展開的,建立在樣本分析的基礎上的,從而在小容量的樣本上,對總體數據的特點和分布進行估計。大數據時代的背景之下,數據的獲取渠道合方式逐漸增多了,因此數據分析的模式應當發生一定程度的轉變,對于數據整體中發現重點并分析的方式可以逐漸過渡到對于整體的分析。隨著數據范圍的增加,統計難度也變得越來越大,所以需要從統計思維方式上進行改變來應對。傳統統計學中常常采用的技術手段和相應的理論方法,海量數據的到來帶來了不小的挑戰,已經很難將傳統統計學思維和相應的方法應用其中,因此對于數據整體來講,應當對總體數據進行拆分和清晰化處理,對于不同難度的數據進行分別處理,也可以針對不同分類下的問題進行分別處理和分析研究。
傳統統計學中的研究重點通常是放在數據之間因果關系的推理,例如在傳統的計量經濟學研究中,通常是采用回歸模型進行分析,其中研究的重點是自變量和因變量的關系遞進分析。統計的分析中常常帶有驗證的成分,運用了很多的數學前提,包括正態分布前提等等,首先需要提出假設,并根據假設和數據的分布來得到最終結果是否符合假設。大數據時代之下,數據之間的關聯性不斷加大,并且數據之間的因果關系變得更加模糊化,在網絡層面的研究當中,相關性的分析變得更加重要。
傳統統計學在實際應用的過程當中僅僅是對少量信息進行分析的,這些信息由于量比較小,所以常常是作為標準化的存儲方式保存的,具有少量的文本信息和數字信息,常見的方式便是通過電子表格的形式進行保存。目前隨著網絡層面的科學技術不斷地發展,傳統小規模的數據形式得到了進一步的變化,出現了越來越多的非結構化的儲存方式,包括圖片、音頻視頻、地理位置等等方式,數據形式越來越豐富。因此利用傳統的處理軟件很難對海量數據進行相應的處理,并且處理速度也是比較緩慢。對此統計軟件需要對新的數據形式進行相應的改革和創新,出現對于不同形式數據進行分析的功能,快速識別非結構化的數據形式,將非格式化的數據形式進行轉化,實現此類統計學的軟件對于提升數據分析的效率提升具有很大幫助。
在大數據的時代背景和要求之下,數據處理的多種方式和環節都將會發生改變,具體體現在數據的挖掘和數據建模的方面,因此對于傳統統計學的方法不能夠完全的拋棄,應當針對原有的統計學理論和處理方法進行升級和拓展,針對現有的海量數據特征來進行復雜數據模型的建模和分析方法實現,進一步擴充統計學的知識體系和應用方法。此外還應當針對數據質量進行評估,數據隨著規模的不斷提高,對于數據質量的判斷也越來越困難,數據中通常攜帶著大量的噪音,因此需要對數據中存在的噪聲信息進行剔除,這也是統計學變革和創新發展的著力點。
對于目前教育和培訓而言,應當大力推進教育教學的改革,嘗試將統計學和其他學科的相關技術和知識進行融合,形成交叉學科的培養教育模式,統計學中涉及理論和實踐方面的能力,在具體的應用中也具有其工具方法,因此本身就具有一定的交叉屬性。目前無論是科研還是企業應用方面都需要大數據人才,同時也需要大量的數據分析方面的專家,因此教育教學當中需要針對社會中對于人才的需要進行相應的培養,跟進時代潮流,例如將統計學和管理經濟類的學科進行交叉培養,來滿足目前大數據行業對于人才背景的要求。企業可以組織培訓內容,聘請行業內專家對員工數據分析理論和當前先進的統計工具進行教授。
傳統統計學中對于數據的處理方式通常是按照一定的方法流程,進而進行數據的統一匯總,基本上過程中數據都是具有結構化的特點,諸如保存在電子表格中的數據。對于數據的分類和預處理是數據處理過程應當最先進行的事情,也是統計分析中最重要的一個步驟,預處理的質量直接影響統計分析的最終質量。大數據的來源通常都比較的廣泛,具有多種的形式,因此不能夠簡單的按照傳統統計學的處理辦法對數據進行處理,否則將無法發揮出大數據多樣性帶來的優勢,數據的完整性也會受到損害。因此對于數據信息的完善,就需要研究和創新數據處理分析方法,從而對數據進行有效地預處理。
大數據的背景之下,數據可以是非結構化的數據類型,運用運用某些特定的技術手段就可以實現結構化數據和非結構化數據之間的相互轉化,對于兩種數據形式的轉化問題也是目前關注度較高的問題。目前現代社會中,每天都會有各種形式的數據產生,不同的數據加起來便構成了海量數據,因此需要提高海量數據的表達方式和水平。在傳統統計學當中,數據的推斷更加重要,但是大數據的處理框架中,更加偏向數據的描述,這一主要特征由大數據的多樣性決定。大數據通常對于數據整體和部分具有比較完整的描述,應當加強對于結構化數據的收集,而對于非結構化數據將著重放在對于其中有效信息的挖掘上面。通常非結構數據具有一定的抽象性,后期對數據進行分析的過程當中,需要將非結構化的數據根據某種形式轉化為結構化的數據,在后續分析的過程中便可以簡潔。
根據以上的討論,可以得出大數據時代背景下給予了統計學機遇和挑戰,大數據相對于以往的數據特點,除了數據量大之外還有多樣性的特點。統計學對于大數據時代下的挑戰,應該從多個角度尋求創新和變革,來適應大數據時代背景下各個產業的要求和整體的發展,使得大數據可以和統計學產生有機的融合,促進兩門學科的發展。需要在大數據時代背景下充分把握機遇,促進統計學的改革,適應當前形勢下海量數據的處理要求,才能全面推進理論和科學手段的雙方面共同發展。