武思翮
摘 要:科技的迅速發展與積累使人類快速步入大數據時代。大數據分析和統計學均是分析數據的科學,它們之間有許多相同點和差異點,大數據的飛快發展不僅為傳統統計學發展提供了巨大挑戰,更帶來了難得的機遇,研究大數據背景下統計學的發展脈絡具有重大意義。文章以大數據背景下大數據的內涵與特點為出發點,分析討論了大數據對統計學學科發展的機遇和挑戰,進而提出大數據背景下統計學發展建議,望對新時代下統計學的發展變革與社會經濟的進步與增長有所裨益。
關鍵詞:大數據;統計學;挑戰;機遇;發展建議
中圖分類號:C81 文獻標識碼:A 文章編號:1671-2064(2018)21-0241-02
1 引言
采集、分析、展示與解釋數據是統計學研究的核心內容,其研究對象是基于總體的隨機抽樣樣本,然而隨著科學技術的進步與積累,信息化技術的應用使得傳統難以收集的數據得以實現,大數據已進入數據科學的研究視野[1]。大數據最明顯的特征是數據規模大,大數據分析不只是單純取幾個單一個體的某一項數據,而是采取全體所有數據進行分析研究,基于大規模數據的科學分析能夠使我們獲取傳統統計學研究只采用抽樣樣本分析時不能企及的全新視野,為統計學未來發展提供了良好機遇與巨大挑戰[2]。因此,在大數據背景下研究統計學的發展思路,結合時代特點重構傳統統計學研究框架對數據科學乃至社會發展具有重大現實意義。
2 大數據的內涵與特點
數據是指表征客觀事物性質、狀態及相互關系的可識別符號,而大數據則是在一定時空范圍內利用一定測量手段進行收集、分析、處理和解釋的海量數據集合。近年來在以互聯網為載體的發展背景下,大數據主要來源于網絡數據,在互聯網和物聯網中對事物信息進行標識,通過計算機讀取功能讀取事物“標識碼”,將事物的屬性信息轉化為能夠在網絡上進行輸送傳遞的有效數據,進而由數據處理中心進行存儲。在此數據識別、轉化、傳輸和存儲過程中,通過數據傳輸痕跡可以得到海量數據,即所謂的大數據[3-4]。
大數據根據數據存儲形式可劃分為結構化數據、非結構化數據和半結構化數據三種類型。結構化數據可以應用二維表形式進行邏輯表達,而非結構化數據沒有標準表達格式,半結構化數據介于兩者之間,表達形式較為規范,主要為純文本數據。進入大數據時代以來,諸多領域產生了高維復雜數據,隨著人們對其進行逐步深入研究,普遍認為大數據具有海量化、多樣化、快速化、價值化和真實化五個特點。海量化是指數據規模龐大,數據量已經不再是傳統TB、PB級別,而是EB甚至ZB數量級,海量化特征體現在數據規模呈現爆炸式增長。多樣化是指是數據種類繁多且復雜,數據不只是增長速度快,而且數據類型也豐富多樣。數據包括文字、圖片、視頻、音頻、動圖和位置等形式,如何處理這些類型不同但卻存在關聯的數據目前也是一個巨大的挑戰。快速化是指大數據時效性強,巨量數據產生、更新速度極快,能否及時從中得到反饋信息非常考驗相關組織的能力,快速化要求大數據處理速度很高。價值化是指數據價值的挖掘與利用,大數據的價值從不體現在本身,而更主要的是體現在數據的深度挖掘上,如何分析數據獲取有價值信息才是數據科學的研究目的及其價值體現。真實性是指數據收集來源于客觀記錄,并不具備任何主觀行為[5]。
3 大數據對統計學發展的機遇與挑戰
基于分析數據內在關系本質的大數據分析與統計學有著相當緊密的聯系,大數據時代的到來不僅為統計學發展提供了良好機遇,而且還帶來了巨大挑戰。在發展機遇方面,大數據時代背景下,統計學的思維方式也發生著重大變化,基于傳統統計的基礎理論在大數據沖擊下進行著新一代變革,統計學研究對象、統計學假設檢驗、統計學因果關系、統計學模型構建等傳統統計學理論不斷接近于現實情況。此外,大數據背景大幅度提高了統計學學科的效率,使得傳統統計學可以利用計算機信息技術彌補抽樣統計中數據量較少、不夠全面和處理數據時間過長等不足。同時,大數據的發展擴大了統計學的應用范圍,補充并延伸了統計學科體系。如今大數據使統計學有了新的發展方向的同時,也使得統計學方法可以更廣泛應用于更多領域,無論是企業、政府、人工智能,還是醫療、金融、服務等行業都需要分析海量數據,大數據使統計學地位變得更加重要[6]。
在發展挑戰方面,傳統統計學基本采用隨機抽樣的方法得到樣本數據,進而挖掘、分析并推斷整體,因此得到的結果無法精確對應每一個個體,只能有概率化的數據方向。大數據背景下統計學的研究對象已從樣本趨于總體,是所有數據的集合而并非之前抽樣數據。其次,在大數據背景下,數據時時刻刻都在產生,傳統靜態讀取數據信息的方式已不能服務于大數據庫系統,現有結構和體系下的數據必須采用動態方法邊讀取邊分析,并且計算機處理速度也遠遠達不到所希望的要求,因此,大數據對統計學應用計算機的體系結構也提出了更高的要求。此外,傳統統計學所處理的數據要求均是結構化數據,而大數據時代所搜集到的數據信息并非只是結構化類型,80%左右數據是非結構化或半結構化數據,抽樣統計的方法在數據結構類型繁多的狀況下已經越來越難以適應,因此,如何從非結構化數據中提取有價值信息,將結構化數據與非結構化數據進行相互轉化,發展傳統統計學處理非結構化數據的功能將是大數據背景下密切關注的問題[7]。
4 大數據背景下統計學發展建議
大數據不僅是計算機信息技術的變革,更重要的是數據應用的變革,兩者共同改變著傳統統計學的發展模式。在大數據背景下,傳統統計學發展面臨著巨大挑戰,但同時也迎來前所未有的機遇,結合傳統統計學的發展機遇與挑戰為統計學未來發展提供建議具有重大意義。
首先,加強人才培養輸送,提升大數據統計人員的綜合水平。國家層面應該高度重視人才培養工作,在政策制定、資源投入、人才培養等方面應出臺有效政策措施給予強強有力支持,大數據時代打的不僅是信息戰、技術戰,更重要的是人才戰。其次高校和研究院所應結合當代使命,擬定、制定或改革傳統統計學培養方案,逐漸建立從數據分析到大數據分析的統計模式和理論體系,在數據搜集、前期處理、整合結構化與非結構化數據、提高計算速度與效率等方面加大努力,將大數據與統計學相互關聯,取優彌短,共同發展[6-7]。最后,從現實意義講,理論與技術發展的動力源于生產實際,因此,國家、科研院所與企業間也要不斷加強發展合作,建立良性的大數據與統計學的生態系統產業鏈,以提高生產力為目的,強化大數據與統計技術的應用服務;以大數據鏈建設為載體,建立大數據安全網絡;以大數據平臺為支撐,提高統計軟件的新時代發展與應用,打造大數據背景下統計學發展多方共贏的產業圈;以市場主體為依托,全面融入大數據與統計發展新時代。
參考文獻
[1]陳鞏,譚雪霏,趙春波.大數據背景下統計新思維的探索研究[J].信息通信,2016,(12):163-164.
[2]孫雪琴.大數據背景下對統計學發展的思考[J].科技經濟市場,2016,(5):184.
[3]朱建平,張悅涵.大數據時代對傳統統計學變革的思考[J].統計研究,2016,(2):3-9.
[4]楊秀艷.大數據背景下統計學相關概念解讀[J].統計科學與實踐,2018,(3):38-40.
[5]王澤賢.大數據背景下統計學面臨的挑戰[J]時代金融2016,(11):237-241.
[6]王麗君.關于大數據背景下統計學相關問題的研究[J].中國高新區,2018,(7):208-209.
[7]韓建彬.大數據分析與數理統計的比較[J].信息與電腦,2018,(5):134-137.