譚雅藍 重慶市第八中學校
引言:現階段,信息的多樣性發展推動了大數據時代的到來,無論是學校檔案、圖書館還是交通、企業財務都具有龐大的數據流,與此同時也加大了統計學的難度,以往的統計手段和系統已經無法滿足當前形勢的需求,如何滿足大數據處理需求是統計行業亟待解決的問題。
大數據與傳統數據相比,其重點在于“大”,也就是說數據量的龐大和復雜是其主要特點,與傳統數據在性質上還是相同的。大數據形勢下的統計學需要有強大的信息采集、整合和處理能力,每個步驟既相互獨立,又密切關聯。而大數據與統計學之間是相互促進又相互制約的關系,統計學在大數據時代面臨的挑戰主要表現為以下幾個方面:
大數據時代的特點為規?;?、系統化、多樣化,而信息資源的獲取方式也豐富多樣。當時當前形勢下,我國在統計學領域使用的手段還過于守舊,無法滿足大數據時代的要求,加大了信息管理的難度。也就是說大數據環境給統計學提出了更高的要求,這是挑戰之一[1]。另外,電子信息的進步與統計軟件之間的不平衡也是阻礙統計學發展的因素之一,這使由于很多軟件都是隨著計算機技術的發展而衍生出來的,具有一定的局限性,內容為使用已有模板來優化統計步驟,從而提升工作質量和效率?,F階段,我國主要用于統計的軟件有SAS、stata、SPSS等等,想要迎合大數據時代的發展還需要不斷改進和完善,達到優化傳輸和存儲數據的目的。所以,軟件設計者要加強統計工具的創新和升級,并將軟件系統和商務網絡相連,便于用戶更新和下載,從而提高軟件的利用率。
在統計過程中,樣本起著至關重要的作用,其主要作用是對數據進行整合分析并發現數量之間的關系和特點,而數據信息的實際價值決定了樣本的選擇和使用。大數據的發展使樣本的選用更為困難。第一,這種環境下,數據規模的龐大使人們既想探究數據信息的涵義,又想掌握數據信息的由來,而以往的統計方法無法滿足這些要求,這就急需轉變統計學的方法,從而滿足人們的使用需求。第二,數據的規模性、復雜性和分散性在一定程度上限制了樣本選取和使用,相比于傳統工作范圍更廣且界定不夠明確。第三,隨著電子商務和網絡技術的不斷發展,數據也在日益遞增,很多信息內容都值得考究,但是網絡平臺的數據大多缺少規律性,與統計學要求的條理、邏輯、結構不符,這導致很多有實際意義的數據無法得到有效利用。
統計學在大數據環境下正面臨著巨大的挑戰,因此,要盡量革新統計結構,滿足當前形勢的需求,達到準確選取和分析數據的目的。
由于大數據時代的變革,統計學領域也在不斷創新發展,以往的統計手段僅能使用一臺計算機處理數據,現代化的統計方法可以充分利用多臺計算機,以移動硬盤為操作基礎,實現數據信息的匯總分析,使數據流更為清晰具體,而各種復雜分散的信息都可以通過系統進行整合歸納,工作效率和質量都有所提高。除此之外,數據的種類正隨著時代的發展不斷增多,而統計手段也迎合了社會的需求正趨于多樣化,未來的發展前景是不可限量的。
各領域的進步致使數據呈現規?;?、復雜化、分散化發展形態,這也是大數據時代生成的原因,而這個時代的到來也改變了人們的生活、工作和學習。例如人們使用網絡查詢信息時可以利用搜索功能,系統會在短時間內將整合的信息傳達到網頁上,便于人們瀏覽或學習[2]。預處理數據的概念是對一些缺少規律性的復雜數據進行整理,遵循了隨機抽樣原則,步驟為先篩選,再糾正,最后對數據進行查缺補漏,通過這個流程可以將統計數據在使用之前無用信息就得到剔除,錯誤數據可以得到改正而缺失的信息可以在第一時間得到補充,確保信息的高效性、準確性和完整性,有利于數據的有效使用和共享傳播。
以往的統計數據在選取歸納以及使用是都具有局限性,具體表現為數據處理量偏小且精確性不夠,并且人為統計很容易受到外界因素的影響,與現代化統計學相比比較容易出現誤差,極有可能達不到預期的結果。而大數據時代的到來推動了統計學的發展,在現代化技術的支持下可將數據轉換壓縮并投入使用,從各個步驟上來看都縮短了工作時間,還可以針對影響因素創建動態信息模型,使統計模型可以滿足各種類型數據的處理需求,減少不匹配情況的發生。
由于以往的工作中統計基數較大,對于樣本的選用浪費了大量的時間和人力,但大數據要求抽樣方式的革新,可以先講數據打亂混合,不用擔心所選取的數據過于隨機,而抽樣的數據樣本都是經過仔細篩選而得,具有一定的代表價值,這樣采集使用的數據信息可以省時省力,且周期短、代表性強,有助于以往抽樣方法的創新和發展。
結論:總而言之,大數據環境下的統計學面臨著嚴峻的挑戰,與此同時大數據也給統計行業帶來了發展機遇。統計學是實用性強的一門學科,在各行各業中都占據著重要的地位,所以統計學的改革和創新一定要滿足時代的要求,在數據的處理上要確保質量和效率,這樣才能給各行業的規劃、調控提供理論上的支持。