阿爾孜古麗·艾合買提
(喀什大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院新疆維吾爾自治區(qū),喀什 844000)
統(tǒng)計(jì)學(xué)是研究如何測定、收集、整理、歸納和分析的一門社會(huì)學(xué)科,可以反映客觀現(xiàn)象總體數(shù)量的數(shù)據(jù)。在大數(shù)據(jù)時(shí)代的背景下,通過對大數(shù)據(jù)地統(tǒng)計(jì)推斷,給統(tǒng)計(jì)界帶來切實(shí)的利益,促進(jìn)對自然和科學(xué)地深度理解。面臨復(fù)雜數(shù)據(jù)的增多,大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)在面臨更多機(jī)遇的同時(shí),也面臨了眾多的挑戰(zhàn)。因此,這個(gè)時(shí)候就需要使用大數(shù)據(jù),為統(tǒng)計(jì)學(xué)理論和方法構(gòu)建提供更為廣闊的發(fā)展空間。
從一定程度上看,大數(shù)據(jù)時(shí)代充滿了眾多的信息,且其種類異常的繁雜,這就使得樣本容量變得更加巨大。當(dāng)出現(xiàn)這樣的問題時(shí),則可以利用統(tǒng)計(jì)學(xué)的知識(shí),將其容量進(jìn)行科學(xué)的減少,并按照具體的要求,使其達(dá)到自己想要的精確程度。在面對高維數(shù)的情況之下,則需要選擇一個(gè)合適的變量,然后再對其進(jìn)行壓縮以及降維等。從另外一個(gè)角度來看,大數(shù)據(jù)涵蓋的領(lǐng)域較為廣泛,其所涉及的行業(yè)面比較多,在混合以及多源的數(shù)據(jù)基礎(chǔ)上,實(shí)現(xiàn)對社會(huì)、自然等方面的數(shù)據(jù)疊加。從本質(zhì)上看,各個(gè)領(lǐng)域間的數(shù)據(jù)并不是孤立的,他們之間也有著許多密切的聯(lián)系。大數(shù)據(jù)的信息內(nèi)容非常豐富,其中包括的語言、文字、聲音、圖像等。我們不僅需要對這些數(shù)據(jù)進(jìn)行總結(jié),還需要將這些數(shù)據(jù)進(jìn)行集中并統(tǒng)計(jì)。從大數(shù)據(jù)的環(huán)境上看,第一,大數(shù)據(jù)快速的涌現(xiàn),讓存儲(chǔ)設(shè)備與計(jì)算能力很難使用此種十分巨大的數(shù)據(jù)流。第二,目前形勢上看,當(dāng)前的磁盤存儲(chǔ)還不能很好的實(shí)現(xiàn)硬盤存儲(chǔ)。第三,大數(shù)據(jù)在分布存儲(chǔ)的環(huán)境下,需要將海量的數(shù)據(jù)分布于更多的計(jì)算設(shè)備當(dāng)中。第四,眾多的數(shù)據(jù)儲(chǔ)存在一臺(tái)電腦中時(shí),需要在多線條的環(huán)境之中,使用多個(gè)數(shù)據(jù)處理器實(shí)現(xiàn)內(nèi)存的雙向傳輸。總之,大數(shù)據(jù)的目的就是為了把繁雜的數(shù)據(jù)信息,轉(zhuǎn)變?yōu)槲覀冃枰闹R(shí)。探究數(shù)據(jù)的產(chǎn)生機(jī)制,接著結(jié)合自身的實(shí)際情況,探究對應(yīng)的對策與政策,提高預(yù)測性與預(yù)后性。大數(shù)據(jù)不僅可以實(shí)現(xiàn)縱向與橫向的延伸,也可以在自然、經(jīng)濟(jì)、社會(huì)的現(xiàn)象上發(fā)現(xiàn)疾病疫情、科學(xué)與社會(huì)動(dòng)態(tài)。例如:眾多知名的搜索引擎就是利用頻繁檢索詞條,進(jìn)行搜索信息源來自哪里,其影響的范圍等。
從眾多數(shù)據(jù)變化上來看,人們主要就是根據(jù)面臨“問題”而去搜集相對應(yīng)的“信息”。這個(gè)時(shí)候,我們在外出的時(shí)候,就可以查詢到想要去的地方的天氣與交通狀況,其中還包含了賓館的居住情況。接著就可以通過這些數(shù)據(jù),對未來提出查詢并作出決策。例如:現(xiàn)在有很多優(yōu)秀的物理學(xué)家與統(tǒng)計(jì)學(xué)家,計(jì)算機(jī)專家,通過對大數(shù)據(jù)的把控與觀察,就可以對數(shù)據(jù)進(jìn)行敏銳的處理,并進(jìn)入生命科學(xué)領(lǐng)域。
從數(shù)據(jù)時(shí)代所面臨的難題來看,現(xiàn)在需要的則是對各類信息資源的處理,并追蹤信息的源頭,對核實(shí)的信息進(jìn)行樣本處理。展現(xiàn)對應(yīng)的偏倚和異質(zhì)性,按照其對應(yīng)的格式與結(jié)構(gòu)進(jìn)行數(shù)據(jù)處理,實(shí)現(xiàn)分布式算法,保證數(shù)據(jù)的完整性與可視性、可擴(kuò)展性。對海量數(shù)據(jù)進(jìn)行有效分析時(shí),已經(jīng)超越了個(gè)體領(lǐng)域的范圍,需要在社會(huì)整體層面上,實(shí)現(xiàn)計(jì)算機(jī)資源與數(shù)據(jù)源的實(shí)時(shí)性決策。除此之外,還需要該領(lǐng)域的專業(yè)人員,去研究統(tǒng)計(jì)推斷以及算法的內(nèi)容,并在此基礎(chǔ)上提出合理化建議。
大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué),在回歸預(yù)測方法的出現(xiàn)后,擬合優(yōu)度檢驗(yàn)的方式,并且深入的應(yīng)用到社會(huì)各個(gè)方面。從當(dāng)下的形勢上看,人們在自主獲得相應(yīng)的數(shù)據(jù)時(shí),也在從其他領(lǐng)域大量地獲取信息,并對收集的大量數(shù)據(jù)進(jìn)行觀察與分析。此種情況的出現(xiàn)就讓一部分人脫離了實(shí)驗(yàn)室,專業(yè)從事大數(shù)據(jù)的研究工作。但隨著時(shí)間推移,信息的獲得方式及其規(guī)模已經(jīng)發(fā)生了根本的變化,這樣就讓統(tǒng)計(jì)學(xué)面臨了新的難題和機(jī)遇。眾多的數(shù)據(jù)都是多源異質(zhì)的、且其覆蓋范圍也不盡同,為了整合這些信息,則需要對其來源、獲取方式、描述等,作為支撐進(jìn)行分析。科學(xué)技術(shù)的發(fā)展催生了大數(shù)據(jù)時(shí)代的變革。在科學(xué)的視角下綜合分析處理信息,提供方便快捷的數(shù)據(jù)信息,促進(jìn)統(tǒng)計(jì)學(xué)的發(fā)展。
統(tǒng)計(jì)學(xué)是一門傳統(tǒng)性的學(xué)科,無論是其理論的領(lǐng)域,還是實(shí)踐的領(lǐng)域,其研究的成果都有極高的價(jià)值。隨著大數(shù)據(jù)時(shí)代的數(shù)據(jù)呈現(xiàn)了海量,分散式的特征,這樣就對統(tǒng)計(jì)學(xué)的發(fā)展造成了一定程度的影響。這個(gè)時(shí)代的數(shù)據(jù)量,其規(guī)模已經(jīng)超越了人們的想象,而它的“全”已經(jīng)讓人們對單一信息的認(rèn)知變得更加連續(xù)、系統(tǒng)。信息的多樣性,更是讓樣本與個(gè)體之間的關(guān)系得到了更好的優(yōu)化。另外,新時(shí)代下的數(shù)據(jù)具有多樣性特征,這也優(yōu)化了傳統(tǒng)統(tǒng)計(jì)學(xué)的主觀臆斷。以往的統(tǒng)計(jì)學(xué)更多追求的是“為什么”?而現(xiàn)代統(tǒng)計(jì)學(xué)追求的是“是什么”?因此,個(gè)體的選擇標(biāo)準(zhǔn)會(huì)缺乏一個(gè)相應(yīng)的標(biāo)準(zhǔn),這樣在選擇個(gè)體數(shù)據(jù)時(shí)其難度更會(huì)上升。樣本統(tǒng)計(jì)是一門極為重要的學(xué)科,利用該學(xué)科的知識(shí),可以實(shí)現(xiàn)對客觀事物的復(fù)雜關(guān)系等進(jìn)行深入的研究。在這一時(shí)代下局部與整體的情況變化,造成了整體變化趨勢的進(jìn)一步變更。隨著樣本數(shù)量的增加,從一單數(shù)據(jù)源中收集到的信息,全部屬于非結(jié)構(gòu)化的信息,但是在之前的結(jié)構(gòu)化的數(shù)據(jù)當(dāng)中,需要進(jìn)一步提升樣本的數(shù)量,接著提升統(tǒng)計(jì)學(xué)的精確度。這樣就會(huì)增加樣本選取的工作難度。另外,隨著計(jì)算機(jī)技術(shù)的不斷提升,計(jì)算機(jī)的正常工作離不開統(tǒng)計(jì)學(xué)軟件的支持,其軟件的使用,不僅可以提升該學(xué)科對數(shù)據(jù)分析的效率,也可以提升精確度。從目前的形式上看,主要使用的統(tǒng)計(jì)學(xué)軟件有Eviews、SPSS、SAS、Stata等。但是,還不能實(shí)現(xiàn)較強(qiáng)的傳輸與存儲(chǔ)功能,還需要進(jìn)一步的創(chuàng)新與研發(fā)。換句話說,就是需要在較短的時(shí)間內(nèi)輸出結(jié)果,但是實(shí)現(xiàn)這些軟件的升級(jí)較為困難。在大數(shù)據(jù)時(shí)代下就需要提升數(shù)據(jù)的容量,增強(qiáng)更多的獲取方式。我國相關(guān)統(tǒng)計(jì)軟件相對缺乏,不少軟件還處于英文版本的狀態(tài),對于初學(xué)者來講需要花費(fèi)較多的時(shí)間進(jìn)行學(xué)習(xí),這就給統(tǒng)計(jì)人員的需求帶來了難度。那么,大數(shù)據(jù)時(shí)代在給相關(guān)人員帶來意想不到驚喜的同時(shí),也造成了不容小覷的挑戰(zhàn)。
統(tǒng)計(jì)學(xué)的統(tǒng)計(jì)效率想要得到更好的體現(xiàn),就需要在多元化的基礎(chǔ)上保證及時(shí)性、彌補(bǔ)傳統(tǒng)條件下的滯后性、提升統(tǒng)計(jì)學(xué)的效率。另外,大數(shù)據(jù)在高速發(fā)展的過程中,不僅可以提升統(tǒng)計(jì)動(dòng)態(tài)數(shù)據(jù)的收集,還可以在反復(fù)的應(yīng)用當(dāng)中滿足各式各樣的服務(wù)需求。針對于采集數(shù)據(jù)采集的次數(shù)提升問題,需要使用大數(shù)據(jù)挖掘潛在價(jià)值,提升挖掘的全面性與整體性。在信息搜集的時(shí)候,其成本不會(huì)因?yàn)檐浖\(yùn)行次數(shù)而出現(xiàn)上升,并且在其應(yīng)用方面,其成本也出現(xiàn)了下降的趨勢。
在大數(shù)據(jù)的引領(lǐng)下,統(tǒng)計(jì)學(xué)也得到了快速的發(fā)展。這個(gè)時(shí)候就需要在龐大的數(shù)據(jù)上,使用樣本進(jìn)行選取、按照標(biāo)準(zhǔn)進(jìn)行劃分。在新的變化中,傳統(tǒng)統(tǒng)計(jì)學(xué)的樣本統(tǒng)計(jì)會(huì)朝著一個(gè)方向進(jìn)行發(fā)展,并在總體的概括中,實(shí)現(xiàn)對本門學(xué)科體系的構(gòu)建,消除總體數(shù)據(jù)收集時(shí)的難度,彌補(bǔ)該學(xué)科數(shù)據(jù)采集不足的現(xiàn)象。并在有效的延伸過程中,對學(xué)科的體系進(jìn)行統(tǒng)籌發(fā)展。
以舊的理念為起點(diǎn),在實(shí)踐的過程中,需要了解一個(gè)結(jié)果或者是一個(gè)原因,統(tǒng)計(jì)學(xué)在數(shù)據(jù)時(shí)代的具體應(yīng)用過程之中,展現(xiàn)慣有的“研究問題”來驅(qū)動(dòng)“收集數(shù)據(jù)”。從數(shù)據(jù)時(shí)代的角度進(jìn)行探究,此種功能并不是一成不變的,此種變化中,促進(jìn)了統(tǒng)計(jì)學(xué)的進(jìn)一步發(fā)展與擴(kuò)大。例如:傳統(tǒng)統(tǒng)計(jì)學(xué)一般會(huì)作為一種輸血形式進(jìn)行參考信息。但是,在大數(shù)據(jù)的背景下,展現(xiàn)了更多的多元化與多樣性,并在海量的用戶當(dāng)中,開拓更多的信息,這些內(nèi)容不僅涉及到了他們的生活各方面,而且還在進(jìn)一步的挖掘過程中,衍生出來新行業(yè)。傳統(tǒng)統(tǒng)計(jì)學(xué)結(jié)構(gòu)存在著很多的局限性,在非結(jié)構(gòu)或者是半結(jié)構(gòu)的數(shù)據(jù)統(tǒng)計(jì)下,實(shí)現(xiàn)無數(shù)據(jù)化行業(yè)的進(jìn)一步發(fā)展。
新常態(tài)的背景下,大數(shù)據(jù)時(shí)代下的統(tǒng)計(jì)學(xué)是科技與社會(huì)經(jīng)濟(jì)的主要價(jià)值體現(xiàn),也是社會(huì)經(jīng)濟(jì)的運(yùn)行模式與決策模式的構(gòu)建。只有在日新月異的科技發(fā)展過程中統(tǒng)計(jì)學(xué)要與時(shí)俱進(jìn)、統(tǒng)籌發(fā)展、完善統(tǒng)計(jì)學(xué)創(chuàng)新機(jī)制、建構(gòu)統(tǒng)計(jì)學(xué)學(xué)科體系理論框架。并不斷接受機(jī)遇與挑戰(zhàn),統(tǒng)計(jì)學(xué)才能適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展潮流。
吉林廣播電視大學(xué)學(xué)報(bào)2019年2期