閆立紅
隨著多媒體互聯網技術的發展,大數據以其數據信息量大、傳遞速度快、結構復雜吸引了社會各界的關注。另外近幾年大數據行業蓬勃興起,越來越多的企業開始意識到大數據對于商業活動信息數據的重要性,越來越多的行業也開始注意大數據技術的引進,越來越多的人才也開始將目光投到大數據的身上,希望從中尋找最好的出路。大數據與不同學科的關聯發展正在不斷地研究發展過程中。本文筆者將從大數據與統計的角度進行新思維的探討。
一、引言
統計學主要是通過對數據和信息的搜集、整理、分析、描述來達到推測甚至預測所測對象具體情況的學科。統計學再實際工作中應用廣泛,其所包含的數據收集方法和統計分析方法再各行各業應用廣泛。而大數據作為一種隨著互聯網和信息系統發展起來的新的信息處理分析方法其中也采用了一定的統計分析方法,但是很明顯目前的大數據還缺少更多更加專業的統計分析方法。另外通過大數據可以啟發統計工作,再統計工作中注入一定的創新思維,更有利于統計工作的推行。
二、統計思維的演變及其與大數據的關系
統計的第一步就是要進行樣本數據的收集,原始的信息收集方法大多數至今仍應用廣泛,即通過抽樣調查或普查等方法形成樣本數據庫。收集統計數據的方法事由收集數據的目的和要求確定的之后再按照嚴格的方法進行數據的收集。而大數據的數據收集是直接從網絡上的數據庫中獲得的,數據庫內的信息全面但缺少目的性,且大數據的來源難以追溯。另外大部分數據的樣本結構都是結構型的,而大數據的類型大多是半結構、非結構和異構型,這也造成了大數據的數據比較復雜無法進行量化處理,在處理方法上需要進行一定的改進。
在數據收集之后就是數據的分析,以往的數據分析方法大多是采用了“定性——定量——再定性”的方法。通過定性來確定定量分析的方向,最后再通過定量分析的數據,根據相關理論和經驗對被測對象進行判斷。
在進行關于假設的驗證時,在數據分析之后,就要開始驗證該假設是否成立。按照“假設——驗證”的思路來進行,但是這種方法如果選擇指標不當很容易受到假設條件等的限制。而根據樣本數據特征推測總體特征的方法也是常見的一種根據數據分析判斷被測對象的一種方法。這種方法大多采用“分布理論——概率保證——總體推斷”的思路和邏輯,這種方法推斷評判的標準和樣本沒有關系,但是基本樣本的質量直接影響著最終的判斷結果。
三、統計工作者面對大數據的應對方法
首先統計工作者和研究者應當改變對不確定性的認識。統計學最初出現就是為了研究一些實物發生的不確定性,大多數不確定性出現的原因都是由于個體間的差異造成的,這種差異普遍存在于自然和社會活動中。而要想了解這種情況和分析不確定性就需要收集大量數據進行分析,在這個過程中就容易出現很多不確定性,例如工作中常用的抽樣調查法的不確定性就發生在數據收集抽樣過程中以及構建模型、推斷總體的過程中。大數據雖然也存在個體差異和不確定性,但是大數據的數據大多是全體性的,包含了所有的樣本,不確定性相對較小。
另外在大數據不斷發展的大趨勢下,統計工作者應當緊隨時代潮流,將自己的專業和大數據進行結合。雖然目前的數據收集和和數據分析技術已經比較成熟了,但是對于規模較大的樣本或者數據時處理起來還是有一定的難度的,這時候就需要現代化的信息技術進行處理。可以通過大數據、云計算等技術的融合和協助來完成。在將大數據和傳統統計工作進行融合時需要注意,大數據的信息處理方法難度較大,必須要根據數據特點從數據本身進行切入。
相關工作者在面對大數據的潮流和沖擊時必須要提高自己的專業能力和創新意識,接受大數據的挑戰,學習掌握運用大數據的能力,充分發揮自身的專業優勢,提高核心競爭力。從數據收集和采樣抽樣開始進行創新,在這樣的大數據背景下有些人認為抽樣調查可以被取代,然而目前大數據還未普及到各行各業,大數據僅僅能作為一種采樣和分析的工具,并不能提供各種的完全數據。充分利用現有的科學技術同時考慮采樣的成本和效率。在保證數據信息可靠性的同時充分考慮科學性和目的性,保證采樣能夠順利進行。
四、分析數據方法的改進和創新
在大數據時代,數據就是財富,全面完整的數據被收集起來,不僅僅具有初次采集所做的調查分析的價值,數據會在后面的社會活動中被反復以不同的目的使用,其價值不斷增加,在日后的各種研究中將不斷產生新的價值,在這樣的背景下,數據就是財富,掌握了大數據就掌握了信息的主動權。掌握了大量原始信息之后就是對于數據的分析整理。當然目前在大數據的不斷發展階段,數據收集工作還在不斷進行當中,努力進行數據庫的擴充完善,才能保證后續數據整理分析的順利進行。接下來我們要對于數據分析的方法創新的方向進行一定分析。
首先,傳統統計分析的方法永遠是數據分析的基礎,大數據推進的改進和創新只是起到提高分析效率和精確度的作用。在此我們要提出幾個利用大數據思維和工具進行的分析方法的改進。首先就是在進行分析時數據的重組,有的時候我們需要處理的數據比較復雜,單純一組數據并不能充分說明問題。此時我們可以進行數據的重組,即將正在休眠的數據通過一個截然不同的新的數據組釋放出來,然后將他們進行混合重組,這種混搭應用的思想在當今的互聯網時代并不少見。而混搭的方式更加大了數據分析的難度,此時我們必須要借助云計算等計算手段,另外還可以引入相關關系的方法進行數據分析,即通過一個我們選定的關聯物來進行分析,這種方法不容易受主觀意識和偏見的影響,同時還能提高數據分析的效率和準確度。
五、結語
大數據的浪潮沖擊著各行各業的發展,是挑戰也是機遇,作為統計工作者或者研究者都應該正視并重視大數據時代的到來,轉變自己的傳統觀念和思維定式,尤其是建立起在互聯網時代十分重要的因果關系和相關關系思路。在科技發展的今天,統計的精髓開始由它的分析方法逐漸轉變到思維上,使用新思維進行數據的收集分析和處理,就能夠及時處理大數據中遇到的問題,利用大數據的優勢。推進大數據的發展,而不是在大數據的洪流中被淘汰。(作者單位:河北省塞罕壩機械林場)