廣東省廣州市執信中學 馬梓程
大數據是信息時代的重要標志,為了謀求新的發展,各行各業將大數據應用到企業經營管理中,通過對市場信息、產品參數、營銷數據等方面信息的統計和分析,預測市場發展趨勢和產品價格變化,并制定有效的應對措施,以提高企業的效益增長速度。一般而言,大數據和統計學具有極強的關聯性,借助統計學知識可以提高大數據分析效率,提煉有效的數據信息,服務于各項管理決策和經營行為。對此,在進行大數據分析中,要結合實際情況,加強對統計學知識的運用,對海量數據進行篩選、挖掘、分析和利用,借助建模方法處理復雜數據信息,用數據分析語言表述風險,這是統計工作的核心與難點,實現數據價值的最大化。在這樣的環境背景下,探究大數據分析中統計學知識的運用具有非常重要的現實意義。
近些年,由于信息技術和網絡技術不斷成熟,數據儲存和處理規模逐漸增加,以爆炸形式迅速增長,大數據時代也由此降臨。各行各業將大數據技術應用到日常經營管理中,金融業、零售業、互聯網業等行業收集大量的客戶數據,若不對這些數據加以利用,不僅浪費資源,還會降低企業在市場競爭中的綜合實力,有可能被市場所淘汰。對此,為了謀求更穩定的發展,企業加大對海量數據的處理和利用力度,大量的分析工作無法單純依靠人力,要借助統計學知識和專業統計軟件進行數據處理,通過大數據分析和應用,創造巨大的數據價值,形成數據工業革命。根據4V理論的定義,大數據具備以下特點:第一,Volume,量大,數據量突破TB級別,已到達PB級別;第二,Velocity,流量性強,只要發生經營活動或是經濟行為,都會不停地產生新的數據,源源不斷,也對數據處理的高效性和及時性有較高的要求;第三,Variety,數據類型多樣化,大數據并不是傳統單一化結構型數據,拓展了半結構化數據與非結構化數據,囊括文檔、表格、音頻、視頻、圖像、網頁等數據類型;第四,Value,價值密度低,海量數據中的價值數據占比較少,這就需要后期的統計工作對價值數據進行挖掘,提煉價值信息,為企業經營管理決策提供準確依據。
大數據分析技術應用范圍較廣,包括電子商務平臺的推薦系統、管理系統,為智能決策提供技術支持。現階段,針對大數據分析統計技術包括儲存技術、處理技術、分析技術以及可視化技術,大數據分析技術和傳統分析技術之間存在數據挖掘、機器學習、統計學籌等方面的差異性,大數據中80%以上的數據均為半結構化數據、非結構化數據,包括文本、視頻、音頻等,這對結構化數據分析技術提出了更高的要求。
在數據處理角度上,由于大數據時代下數據量的增加,數據流運行中,數據信息會逐漸貶值,若依然選擇傳統離線式數據分析手段,將無法滿足數據處理的實時性要求,要將離線分析轉化為在線分析。
在數據庫索引設計層面上,傳統關系數據中的數據模式較為穩定,而大數據環境下的數據量不斷增加,需要數據倉庫索引可以按照數據模式變化而調整,滿足數據分析處理要求。
在信息先驗知識層面上,傳統數據分析技術在分析前會獲取相關數據先驗知識,并提前了解數據,這種數據分析方式適用于結構化數據,無法構建半結構化數據與非結構化數據之間的內部關系,當數據噴涌而出,也有足夠時間開展數據分析前的數據先驗知識工作,這就需要數據統計人員改變分析方式,搭建適合大數據特點的統計分析平臺,提高數據處理的綜合效率,發揮出數據的價值和作用。
演繹推理最早由古希臘哲學家提出,并在幾個世紀后通過數學家研究得以完善,從已經給定的前提或是公理入手,推證結論,這一結論的正確性全面取決于公理的正確性,而已經證明過的結論可以應用在其他論證中作為論證依據。一般而言,演繹邏輯法應用在理論科學中,無法出現超越前提的知識,所推算的命題在公理范圍內,推理前提與概念定義全部來源于現實世界,新的公理和定義中包含了新的知識,也不能只有新前提。在大數據分析中,演繹邏輯法結合大數據分析技術,將推論清晰化,提高大數據的應用價值。
歸納法和演繹法有很大的區別,根據已經給定的結果判斷前提,在實際應用中,歸納法主要根據不完全信息或是劣質信息進行明確判斷,根據觀測到的數據匹配假設,從特殊推向過渡為一般邏輯推理,形成新的論斷。數據與假設中缺少一定的對應關系,形成的新論斷和新知識存在一定的預測性和不確定性。和既定公理演繹推理方式不同,歸納推理出的數據判斷精確性不高,這一缺失阻礙了歸納推理的發展和系統化。根據習慣性推演邏輯,若想發展一種理論或是導入推理規則,無法保證歸納結果的準確性,歸納法應用過程中,要求統計人員具備極強的技能、經驗、直覺,提高歸納結果的精確性,保證數據應用價值。
由特殊過渡到一般規律所構建的知識和判斷存在一定的不確定性,若量化這種不確定性,就可以確定獲取知識種類,這一統計學邏輯結構即是風險管理邏輯方程,則知識是不確定知識和不確定性量度知識的總和。作為一種新的思維方式,可以推算風險管理方式,將未來可能事件放到基于決策的框架中,在無法確定的前提下做出決策,錯誤無法避免,在一定規律下進行選擇,選擇前掌握犯錯誤概率,明確制定決策的規律,降低決策的盲目性與隨意性,將損失控制到最小范圍。在已經知道各種事件結構發生概率后,這種不確定性決策納入到演繹邏輯中,進行事件偶然性的處理。隨著統計學知識深入到大數據分析中后,統計人員要尋求新工具進行不確定因素處理,提煉數據價值信息,為企業的經營管理決策提供依據。
在大數據時代下,大數據分析統計工作所面臨的數據對象由樣本數據轉變為總體數據,試驗和抽樣調查被取替,優化數據統計運行環節。
大數據采集儲存下,統計資料完整保存,處理后的數據具有巨量性、價值性等特點,傳統的數據分組、匯總、編制、繪圖等環節逐漸轉變成數據資料的審核與儲存,優化運行環節。同時,大數據的復雜性使得數據內部關系不穩定,在進行大數據統計分析中,可以根據統計學知識,從噪音數據中研究隱性關系模式與知識,提高數據對象的價值。
1.分析數據
數據價值被挖掘后還會形成新的價值,為了深入了解研究對象,要將部分數據進行整合,使得整合后的數據反映出研究對象情況,揭示數據間的匹配性與關聯性,發現新問題,進而實現數據新價值的創造。
2.展示數據
大數據價值屬性明顯,在進行大數據統計分析中,數據結果解釋與可視化極為重要,要求統計人員要做好數據展示工作,提高數據的可視化水平,提高數據利用價值。常見的方式有圖譜法,設計統計圖譜,將各類價值數據以“年輪”大小與顏色直觀展示,設計相關參數信息,反映出各組數據之間的內部關聯,提高結論的科學性和合理性,為相關管理決策提供依據。
本文通過對大數據分析中統計學知識的運用研究,明確大數據的含義,展示現階段大數據統計分析關鍵技術,包括數據處理、數據庫索引、信息驗證等方式,并將演繹邏輯法、歸納推理法、風險管理邏輯方程等統計學知識應用到大數據分析中,并做好數據和數據挖掘工作,提煉出數據價值,進而為大數據的廣泛應用打下堅實基礎。
[1]林存潔,李揚.大數據分析仍需要統計思想——以ARGO模型為例[J].統計研究,2016,33(11):109-112.
[2]劉峰.大數據分析在配電網統計數據中的應用探索[D].華南理工大學,2016.
[3]劉英,南科毅.借鑒大數據分析方法提高統計分析“含金量”[J].東方企業文化,2015(15):345.
[4]張海洋.大數據的統計分析技術比較研究[D].南京大學,2014.
[5]王吉善,陳曉紅,馬謝民等.大數據時代統計分析的新特點[J].中國衛生質量管理,2015,22(1):59-60.
[6]祝君儀.大數據時代背景下統計數據質量的評估方法及適用性分析[J].中國市場,2015(29):41-42.