黃紅貴 黃加生
摘 要:面向大數(shù)據(jù)的分析而構(gòu)筑起了數(shù)據(jù)科學(xué),來(lái)幫助人們分析、處理實(shí)際的問(wèn)題。然而數(shù)據(jù)搜集的模式不斷發(fā)生著翻天覆地的變化,使得統(tǒng)計(jì)分析往往因?yàn)槭艿酱髷?shù)據(jù)方面的影響而隨之革新。另外,刨去以往常見的屬性數(shù)據(jù)以外,目前非結(jié)構(gòu)、半結(jié)構(gòu)還有關(guān)系數(shù)據(jù)應(yīng)運(yùn)而生,極大充實(shí)了數(shù)據(jù)類型,統(tǒng)計(jì)的角度同樣有所拓展。隨著數(shù)據(jù)激增并展露在大眾的視野之中,數(shù)據(jù)庫(kù)涉及的關(guān)聯(lián)信息逐步彰顯了自身的價(jià)值。本文由現(xiàn)下統(tǒng)計(jì)學(xué)研究的狀況以及暴露出的問(wèn)題入手,面向數(shù)據(jù)科學(xué)統(tǒng)計(jì)加以了具體的解讀和講解,以求推動(dòng)這一領(lǐng)域把握未來(lái)的機(jī)遇,實(shí)現(xiàn)持續(xù)的進(jìn)步。
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計(jì)學(xué);內(nèi)涵
曾經(jīng)許多數(shù)據(jù)由于記錄能力方面的約束而只能存儲(chǔ)一部分,但是由目前的知識(shí)經(jīng)濟(jì)來(lái)看,知識(shí)增長(zhǎng)元素跟隨著知識(shí)數(shù)字化元素不斷突破,因而數(shù)據(jù)被視作21世紀(jì)新誕生的經(jīng)濟(jì)資產(chǎn)類型,所以我們當(dāng)下既面臨著機(jī)遇,同樣要接受挑戰(zhàn)。在數(shù)據(jù)發(fā)揮其作用的過(guò)程里,我們需要通過(guò)適宜的操作落實(shí)計(jì)量。然而,現(xiàn)行的大多數(shù)以往的經(jīng)濟(jì)統(tǒng)計(jì)手法并無(wú)法從整體上達(dá)到商品目標(biāo)還有響應(yīng)服務(wù)目標(biāo)的條件。經(jīng)濟(jì)的持續(xù)的發(fā)展離不開三點(diǎn):數(shù)據(jù)信息生產(chǎn)、數(shù)字分配還有數(shù)字使用內(nèi)容。由于經(jīng)濟(jì)增長(zhǎng)的作用因素、消費(fèi)因素還有投資背景的影響過(guò)于明顯,進(jìn)而無(wú)法直觀看到數(shù)據(jù)的貢獻(xiàn),所以面向數(shù)據(jù)科學(xué)的探析具有深遠(yuǎn)的含義。
1 數(shù)據(jù)科學(xué)的解讀
通常來(lái)講,統(tǒng)計(jì)學(xué)分析的大致內(nèi)容就是數(shù)據(jù),然而這一片面的印象讓人們普遍認(rèn)為數(shù)據(jù)科學(xué)元素以及統(tǒng)計(jì)學(xué)元素存在著千絲萬(wàn)縷的關(guān)聯(lián)。曾經(jīng)出現(xiàn)統(tǒng)計(jì)領(lǐng)域的研究者要求面向統(tǒng)計(jì)學(xué)的內(nèi)容加以新的界定,其后統(tǒng)計(jì)學(xué)受到了數(shù)據(jù)科學(xué)領(lǐng)域的代替,然而二者并不能混為一談。
以上涉及的數(shù)據(jù)在含以上相對(duì)寬泛,如果面向具體事物的演變過(guò)程以及外觀表現(xiàn)等加以適當(dāng)?shù)挠涗洠瑫r(shí)添加響應(yīng)符號(hào)信息的區(qū)分,這些將被視為是數(shù)據(jù),這里面涉及的還有數(shù)字信息、文字還有音頻等。傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)包含的數(shù)據(jù)能夠被劃分成眾多類別,這些數(shù)據(jù)紛紛歸入系統(tǒng)結(jié)構(gòu)化的內(nèi)容,然而由數(shù)據(jù)科學(xué)的角度出發(fā),數(shù)據(jù)涵蓋的內(nèi)容更加寬泛,被人們稱為大數(shù)據(jù)。
2 數(shù)據(jù)科學(xué)統(tǒng)計(jì)學(xué)內(nèi)涵要素
2.1 基本理論
面向諸如現(xiàn)實(shí)復(fù)雜數(shù)據(jù)集還有高位數(shù)據(jù)集等的要素,需要獲取達(dá)到預(yù)測(cè)要求的方案,而突出的問(wèn)題為其對(duì)應(yīng)的可解釋性不強(qiáng),另外在計(jì)算效率以及拓展能力上相對(duì)優(yōu)越。以算法為前提,形式對(duì)照非參數(shù)方法接近,但響應(yīng)的要求明顯要弱,因?yàn)榉菂?shù)方法處于大部分實(shí)踐中均需要滿足平滑的條件,分析環(huán)節(jié)內(nèi)將直接跳過(guò)函數(shù)機(jī)制來(lái)搜索預(yù)測(cè)條件。然而隨之而來(lái)的檢驗(yàn)環(huán)節(jié)的基本前提是預(yù)測(cè)結(jié)構(gòu)。
2.2 技術(shù)維度
由具體實(shí)踐來(lái)說(shuō),數(shù)據(jù)表現(xiàn)出的規(guī)模巨大以及內(nèi)容繁雜將左右統(tǒng)計(jì)過(guò)程的效果,盡管基本的統(tǒng)計(jì)手法沒有出現(xiàn)本質(zhì)上的改動(dòng)與優(yōu)化,但是涉及的算法與之前截然不同。因此,由某種意義上來(lái)說(shuō),大數(shù)據(jù)的誕生既給統(tǒng)計(jì)學(xué)帶來(lái)了機(jī)遇與挑戰(zhàn),同樣波及到了計(jì)算機(jī)技術(shù)領(lǐng)域,面向技術(shù)的可行程度的把握,還有算法的適用與否都屬于一次具體的檢驗(yàn)。
2.3 應(yīng)用維度
在面向商業(yè)方面時(shí),數(shù)據(jù)科學(xué)受到了全進(jìn)的詮釋,這一環(huán)節(jié)涵蓋商業(yè)信息數(shù)據(jù)化內(nèi)容。統(tǒng)計(jì)學(xué)研究者還有數(shù)據(jù)科學(xué)分析者不僅需要具備數(shù)據(jù)分析必備的知識(shí)以及技術(shù),還要能夠靈敏地察覺到商業(yè)領(lǐng)域各方因素的變動(dòng)。換一個(gè)角度加以解讀就是:數(shù)據(jù)研究者既應(yīng)該能夠牢牢把握住數(shù)據(jù)來(lái)源形式信息,還有可涉及到的存儲(chǔ)調(diào)用信息,同時(shí)明確分析基于的手法,以這兩點(diǎn)為基本條件,面向具體實(shí)踐進(jìn)行有關(guān)原理的應(yīng)用,進(jìn)行合理的分析解讀。在層面上的條件涉及兩點(diǎn):數(shù)據(jù)科學(xué)技術(shù)者還有科學(xué)家需要由落實(shí)工作之初面向數(shù)據(jù)探究過(guò)程加以分析,明確其中內(nèi)容,這些不屬于數(shù)據(jù)庫(kù)的內(nèi)容、機(jī)器學(xué)習(xí)的知識(shí)還有經(jīng)濟(jì)學(xué)和商業(yè)領(lǐng)域的技巧等。還有一點(diǎn)為,應(yīng)當(dāng)以較短的時(shí)限落實(shí)二級(jí)定義,換句話說(shuō)就是優(yōu)化行內(nèi)體系,引導(dǎo)統(tǒng)計(jì)學(xué)專家還有商業(yè)分析人員協(xié)同交流。
3 數(shù)據(jù)科學(xué)范式面向應(yīng)用統(tǒng)計(jì)分析環(huán)節(jié)的基本影響
由大數(shù)據(jù)分析可行性解讀的過(guò)程內(nèi)能夠得到,數(shù)據(jù)的激增將顯著影響到現(xiàn)下的存儲(chǔ)水平,盡管還沒有造成存儲(chǔ)的困境,但是算法將占據(jù)大量?jī)?nèi)存,同時(shí)涉及的處理器規(guī)模龐大,出于這方面的考慮,數(shù)據(jù)激增時(shí)不可避免的事實(shí)。在可行性方面面臨的問(wèn)題集中于數(shù)據(jù)量龐大,這同樣體現(xiàn)出數(shù)據(jù)科學(xué)范式帶給統(tǒng)計(jì)分析的作用。伴隨數(shù)據(jù)規(guī)模的進(jìn)一步增長(zhǎng),算法難度上呈現(xiàn)正相關(guān)的關(guān)聯(lián)。而普遍存在的大數(shù)據(jù)分析有效性的探索是說(shuō):盡管硬件設(shè)備已經(jīng)達(dá)到了基本應(yīng)用的條件,然而耗時(shí)方面依然沒有得到優(yōu)化,很難在時(shí)限之內(nèi)落實(shí)任務(wù)。面向以上的影響因素,最佳解決手法就是采用并行模式,但是要強(qiáng)調(diào)一點(diǎn),高性能計(jì)算機(jī)應(yīng)當(dāng)實(shí)施并行處理,大數(shù)據(jù)節(jié)點(diǎn)應(yīng)當(dāng)實(shí)施大規(guī)模數(shù)據(jù)訪問(wèn),因而大部分節(jié)點(diǎn)均將受到寬帶的約束處于空閑狀態(tài)。獲取節(jié)點(diǎn)元素內(nèi)的數(shù)據(jù)存儲(chǔ)手段相對(duì)普遍,它可以于某些情況中實(shí)現(xiàn)快速訪問(wèn)。
4 結(jié)語(yǔ)
通過(guò)以上的分析能夠得到:首先,數(shù)據(jù)科學(xué)無(wú)法重復(fù)使用統(tǒng)計(jì)學(xué)的重命名,兩方面面向數(shù)據(jù)的解讀并不一致,數(shù)據(jù)科學(xué)由于基于相對(duì)寬泛的數(shù)據(jù)范疇,進(jìn)而衍生出了大數(shù)據(jù)的概念。其次,由某些角度出發(fā)來(lái)看,大數(shù)據(jù)要檢測(cè)的并非統(tǒng)計(jì)學(xué)理論,而是計(jì)算機(jī)技術(shù)能夠達(dá)到相關(guān)要求。再次,大數(shù)據(jù)誕生的緣由離不開商業(yè)方面的影響,所以數(shù)據(jù)科學(xué)也存在一種解讀方式,將數(shù)據(jù)過(guò)渡到具備價(jià)值的商業(yè)信息的環(huán)節(jié)。其后,數(shù)據(jù)科學(xué)范式將面向統(tǒng)計(jì)的方方面面帶來(lái)新要求,其中主要涉及數(shù)據(jù)收集還有分析的工作。最后,由于現(xiàn)下針對(duì)大數(shù)據(jù)的解讀主要涉及架構(gòu)還有商業(yè)視角,故淡化了統(tǒng)計(jì)學(xué)方面的區(qū)分。本文面向數(shù)據(jù)科學(xué)的統(tǒng)計(jì)內(nèi)容加以探索,其目的是幫助這一領(lǐng)域快速發(fā)展,為今后的優(yōu)化做好鋪墊工作。
參考文獻(xiàn):
[1]張程.數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵探究[J].電大理工,2016,(04):4142.
[2]楊京,王效岳,白如江,祝娜.大數(shù)據(jù)背景下數(shù)據(jù)科學(xué)分析工具現(xiàn)狀及發(fā)展趨勢(shì)[J]. 情報(bào)理論與實(shí)踐,2015,38(03):134137+144.
[3]魏瑾瑞,蔣萍.數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵[J].統(tǒng)計(jì)研究,2014,31(05):39.
作者簡(jiǎn)介:黃紅貴(1997),男,廣東清遠(yuǎn)陽(yáng)山人,本科。