次世青 高東宇 次青波
大數據時代下數據分析理念框架探討
次世青 高東宇 次青波
近些年來,伴隨著經濟社會的迅猛發展以及網絡信息技術的不斷普及,數據信息量正呈現出爆炸式增長。在大數據背景下,如何實現數據的有效挖掘和分析,提升數據分析的質量和效率正成為統計學研究的重要內容。本文圍繞大數據時代下的數據分析,介紹了大數據的概念,分析了大數據環境下數據分析的基本過程,并對大數據環境下對數據分析的影響進行了研究。
大數據時代 數據分析
大數據環境下經濟社會生活都出現了較大的變化,同時自然科學和人文科學等也都有了較大的提升。在此背景下,依靠計算機信息技術的不斷發展,研究者能夠使用一定的方法和技能對較為復雜且規模較大的海量數據進行數據處理,并有效挖掘其中的價值信息。大數據環境為統計學的研究和發展提供了好的機遇,同時也對統計學的拓展提出了一定的挑戰。
大數據環境下數據在各個行業和領域中都有所滲透,并逐漸成為主要的生產要素。大數據本身具有價值密度低、數據體量大、數據類型多、數據處理速度快的特點。不過由于數據量的急速增長,也使得在數據分析和研究過程中由于數據庫缺少必要的管理工具進行數據采集和管理,而導致數據搜索、數據分析、數據存取和數據共享等出現一定的困難。一般情況下,在大數據環境下,往往存在著數據存儲、處理技術、數據安全等相關的技術性問題。這些問題的存在一定程度上影響和制約了數據的開發和應用效率。盡管大數據下進行數據分析存在一定困難,但是其在實踐中的應用空間和領域卻十分廣泛,對于經濟社會的發展具有重要的推動力。
(一)數據的價值挖掘過程
面對海量的大數據環境,數據使用者應當圍繞數據分析目標和具體要求對大數據進行有效挖掘,提取有用數據,摒棄無用數據,從海量數據中進行價值挖掘,結合數據類型提升數據使用價值。在進行具體的大數據挖掘時可以按照具體的案例來進行,比如在進行廣告人群匹配時,在進行數據分析和數據挖掘上主要是面對著兩種數據。一種是廣告庫數據,主要包含了廣告庫以及廣告的客戶信息等。這種數據一般都具有較高的結構性,能夠在傳統的數據庫中進行采集和應用、分析。另外一種數據是客戶的后期行為數據。通過對此兩種數據的結合分析,有效挖掘其中的有效價值。與此同時,在具體的應用實踐過程中,還需要積極發揮第二種信息的作用和價值,這樣能夠獲得客戶所需的信息。依靠對群體行為和群體智能的分析,最終形成具體的反饋機制和反饋流程,在此基礎上為信息使用者提供優質可靠的數據處理信息,為信息使用者科學決策提供有效的信息和數據支持。
(二)數據的處理與分析過程
在此過程中,一方面要及時更新抽樣調查的工作理念。一般情況下,大數據的樣本資料都是之前的材料匯總,這就要求在對此數據進行分析處理時應當首先對數據整體進行梳理和了解,并逐步向數據局部進行延伸。同時在對海量數據進行分析處理時還應當解決好調查目標設定不合理、抽樣框架不穩定以及樣本數量受限制等問題。另一方面,也要進一步提升大數據環境下數據精確度標準。由于大數據環境下數據的來源比較廣,數據處理質量和效果也各有差異,因此應當在允許數據之間存在準確度差異的同時提升數據精準度的標準。要在積極吸收各種數據資源的基礎上,提升數據處理能力和質量,科學應對數據復雜性和變量關系復雜性等問題。除此之外,也應當圍繞大數據中的數據分析,對數據關系的分析重點進行合理轉換。既要重視對數據中因果關系的分析和梳理,同時也要重視對事物之間相關性的分析研究,及時轉換分析思路,圍繞數據分析目標和事物之間關聯關系進行大數據環境下的數據分析工作。
(一)能夠進一步拓展統計學研究領域
大數據環境對于各個研究領域都能夠產生比較大的影響,對于統計學也是一樣。統計學研究的是客體、客觀事物之間的數量關系和數量特征,數量性是統計學研究對象最為主要的特征。由于在傳統的統計學研究實踐中實驗數據和調查數據是最主要的研究數據,因此在大數據環境下,統計學研究對象既包括了之前的結構化數據,同時也包括了非結構化數據,這些非結構化數據不能夠單純地依靠數量關系來加以衡量和表示。這其中就包括了文本、聲音、圖片、動畫等數據信息。從這個意義上講,大數據環境下統計學的研究領域有了較大范圍的擴展。
(二)能夠對統計計算的規范性產生影響
按照傳統的統計學研究方法,在反應事物量的特征時大都是依靠方差、平均值、相對數等來進行,這些研究方法能夠反映出事物之間的界限和關系,并且也能夠依靠數據計算規范來反映出具體的數據。不過在當前的大數據環境下,非結構性數據常常難以使用傳統的數據計算規范來加以計算。從這個角度上講,大數據環境下統計的數據計算規范也受到了較大的挑戰。
(三)能夠對統計的數據整理和分析過程產生影響
統計學中數據審核之前主要是針對數據的完整性和準確性。不過在當前的大數據環境下,數據審核除了要保障原先的數據完整性、準確性外,還應當保證數據審核的速度、效率以及數據預測的準確性等。除此之外,還應當準確確定數據處理的規模,合理確定數據量的級別。盡管大數據自身具有混亂性和不穩定性的特點,但是使用合理的數據整理方法也能夠在大數據中有效挖掘出數據之間的隱蔽關系,提升數據挖掘的價值性。因此,大數據下統計研究對象本身具有準確和不準確兩種情況,它們分別具有不同的價值屬性,一般情況下不需要對其進行刪除或者替換。
對于數據存儲來講,之前的統計研究數據存儲過程中都是將審核、匯總或者編制的表格、圖表等,并將它們進行適當的保存處理。不過在大數據環境下進行數據的保存就還需要重視數據存儲成本的管控,并結合自身實際制定規章制度和計劃合理確定數據存儲的規模和目錄。
(四)能夠對數據開發和利用過程產生影響
這主要涉及大數據環境下數據的積累、開發以及應用。在傳統的數據統計工作過程中,研究者都是圍繞自身目標來對相關數據進行分類和匯總,通過存儲和提取過程,對數據進行有效挖掘,并在此基礎上為后續的數據分析和查詢提供支撐。大數據環境下,數據量比較大,只有對數據信息進行適當處理才能夠獲得其中價值量比較高的信息。正是基于大數據自身的復雜性,統計研究者應當對前期數據進行適當處理。圍繞數據的規模和結構、層次等進行合理分類和匯總,在確保真實性的同時提升數據的價值性。與此同時,由于大數據環境下數據具有流動性特點,使得數據本身也具有再生性特征,并進一步增加了數據的價值性。因此有必要針對統計研究中的大數據進行深入的數據挖掘,依靠數據整合提升數據價值性。在數據應用上則主要是針對統計學現象的預測和解釋,實現在大數據環境下數據相關關系的預測和分析。
總的來講,大數據環境不僅改變了經濟社會生活,也對統計等相關科學產生了巨大的影響,如何實現大數據環境下的統計研究是統計學領域的重要課題。進一步強化對大數據的理解和把握,重視大數據在統計中的研究和應用,有效分析和挖掘大數據中的價值信息,更好地推動統計學的理論和實踐應用。
(次世青、高東宇單位為首都航天機械公司;次青波單位為中國航天標準化研究所)
[1] 田茂再.大數據時代統計學重構研究中的幾個熱點問題[J].統計研究,2015(05).
[2] 耿直.大數據時代統計學面臨的機遇與挑戰[J].統計研究,2014(01).
[3] 朱建平,章貴軍,劉曉葳.大數據時代下數據分析理念的辨析[J].統計研究,2014(02).