黃紅貴 黃加生
摘 要:面向大數據的分析而構筑起了數據科學,來幫助人們分析、處理實際的問題。然而數據搜集的模式不斷發生著翻天覆地的變化,使得統計分析往往因為受到大數據方面的影響而隨之革新。另外,刨去以往常見的屬性數據以外,目前非結構、半結構還有關系數據應運而生,極大充實了數據類型,統計的角度同樣有所拓展。隨著數據激增并展露在大眾的視野之中,數據庫涉及的關聯信息逐步彰顯了自身的價值。本文由現下統計學研究的狀況以及暴露出的問題入手,面向數據科學統計加以了具體的解讀和講解,以求推動這一領域把握未來的機遇,實現持續的進步。
關鍵詞:大數據;統計學;內涵
曾經許多數據由于記錄能力方面的約束而只能存儲一部分,但是由目前的知識經濟來看,知識增長元素跟隨著知識數字化元素不斷突破,因而數據被視作21世紀新誕生的經濟資產類型,所以我們當下既面臨著機遇,同樣要接受挑戰。在數據發揮其作用的過程里,我們需要通過適宜的操作落實計量。然而,現行的大多數以往的經濟統計手法并無法從整體上達到商品目標還有響應服務目標的條件。經濟的持續的發展離不開三點:數據信息生產、數字分配還有數字使用內容。由于經濟增長的作用因素、消費因素還有投資背景的影響過于明顯,進而無法直觀看到數據的貢獻,所以面向數據科學的探析具有深遠的含義。
1 數據科學的解讀
通常來講,統計學分析的大致內容就是數據,然而這一片面的印象讓人們普遍認為數據科學元素以及統計學元素存在著千絲萬縷的關聯。曾經出現統計領域的研究者要求面向統計學的內容加以新的界定,其后統計學受到了數據科學領域的代替,然而二者并不能混為一談。
以上涉及的數據在含以上相對寬泛,如果面向具體事物的演變過程以及外觀表現等加以適當的記錄,同時添加響應符號信息的區分,這些將被視為是數據,這里面涉及的還有數字信息、文字還有音頻等。傳統意義上的統計學包含的數據能夠被劃分成眾多類別,這些數據紛紛歸入系統結構化的內容,然而由數據科學的角度出發,數據涵蓋的內容更加寬泛,被人們稱為大數據。
2 數據科學統計學內涵要素
2.1 基本理論
面向諸如現實復雜數據集還有高位數據集等的要素,需要獲取達到預測要求的方案,而突出的問題為其對應的可解釋性不強,另外在計算效率以及拓展能力上相對優越。以算法為前提,形式對照非參數方法接近,但響應的要求明顯要弱,因為非參數方法處于大部分實踐中均需要滿足平滑的條件,分析環節內將直接跳過函數機制來搜索預測條件。然而隨之而來的檢驗環節的基本前提是預測結構。
2.2 技術維度
由具體實踐來說,數據表現出的規模巨大以及內容繁雜將左右統計過程的效果,盡管基本的統計手法沒有出現本質上的改動與優化,但是涉及的算法與之前截然不同。因此,由某種意義上來說,大數據的誕生既給統計學帶來了機遇與挑戰,同樣波及到了計算機技術領域,面向技術的可行程度的把握,還有算法的適用與否都屬于一次具體的檢驗。
2.3 應用維度
在面向商業方面時,數據科學受到了全進的詮釋,這一環節涵蓋商業信息數據化內容。統計學研究者還有數據科學分析者不僅需要具備數據分析必備的知識以及技術,還要能夠靈敏地察覺到商業領域各方因素的變動。換一個角度加以解讀就是:數據研究者既應該能夠牢牢把握住數據來源形式信息,還有可涉及到的存儲調用信息,同時明確分析基于的手法,以這兩點為基本條件,面向具體實踐進行有關原理的應用,進行合理的分析解讀。在層面上的條件涉及兩點:數據科學技術者還有科學家需要由落實工作之初面向數據探究過程加以分析,明確其中內容,這些不屬于數據庫的內容、機器學習的知識還有經濟學和商業領域的技巧等。還有一點為,應當以較短的時限落實二級定義,換句話說就是優化行內體系,引導統計學專家還有商業分析人員協同交流。
3 數據科學范式面向應用統計分析環節的基本影響
由大數據分析可行性解讀的過程內能夠得到,數據的激增將顯著影響到現下的存儲水平,盡管還沒有造成存儲的困境,但是算法將占據大量內存,同時涉及的處理器規模龐大,出于這方面的考慮,數據激增時不可避免的事實。在可行性方面面臨的問題集中于數據量龐大,這同樣體現出數據科學范式帶給統計分析的作用。伴隨數據規模的進一步增長,算法難度上呈現正相關的關聯。而普遍存在的大數據分析有效性的探索是說:盡管硬件設備已經達到了基本應用的條件,然而耗時方面依然沒有得到優化,很難在時限之內落實任務。面向以上的影響因素,最佳解決手法就是采用并行模式,但是要強調一點,高性能計算機應當實施并行處理,大數據節點應當實施大規模數據訪問,因而大部分節點均將受到寬帶的約束處于空閑狀態。獲取節點元素內的數據存儲手段相對普遍,它可以于某些情況中實現快速訪問。
4 結語
通過以上的分析能夠得到:首先,數據科學無法重復使用統計學的重命名,兩方面面向數據的解讀并不一致,數據科學由于基于相對寬泛的數據范疇,進而衍生出了大數據的概念。其次,由某些角度出發來看,大數據要檢測的并非統計學理論,而是計算機技術能夠達到相關要求。再次,大數據誕生的緣由離不開商業方面的影響,所以數據科學也存在一種解讀方式,將數據過渡到具備價值的商業信息的環節。其后,數據科學范式將面向統計的方方面面帶來新要求,其中主要涉及數據收集還有分析的工作。最后,由于現下針對大數據的解讀主要涉及架構還有商業視角,故淡化了統計學方面的區分。本文面向數據科學的統計內容加以探索,其目的是幫助這一領域快速發展,為今后的優化做好鋪墊工作。
參考文獻:
[1]張程.數據科學的統計學內涵探究[J].電大理工,2016,(04):4142.
[2]楊京,王效岳,白如江,祝娜.大數據背景下數據科學分析工具現狀及發展趨勢[J]. 情報理論與實踐,2015,38(03):134137+144.
[3]魏瑾瑞,蔣萍.數據科學的統計學內涵[J].統計研究,2014,31(05):39.
作者簡介:黃紅貴(1997),男,廣東清遠陽山人,本科。