關(guān)鍵詞:大數(shù)據(jù)背景;數(shù)學(xué);數(shù)據(jù)處理;數(shù)據(jù)挖掘
一、數(shù)學(xué)發(fā)展現(xiàn)狀及其與大數(shù)據(jù)的關(guān)系
眾所周知,數(shù)學(xué)是理科類的一門基礎(chǔ)學(xué)科,歷來被各個高校高度重視,為此,清華和北大還專門設(shè)立了數(shù)學(xué)科學(xué)研究中心,對數(shù)學(xué)理論知識進(jìn)行專門的探索。隨著時代的發(fā)展,數(shù)學(xué)領(lǐng)域的研究成果越來越豐富,但是可供研究的領(lǐng)域越來越窄,從牛頓和萊布尼茨發(fā)明微積分直至今天,數(shù)學(xué)研究的方向已被一一攻克。因此,如果今天想在數(shù)學(xué)這塊領(lǐng)域有所突破,已經(jīng)困難重重。當(dāng)前,數(shù)學(xué)在專業(yè)建設(shè)中處于非常被動的地位。但是隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)處理與分析需要數(shù)學(xué)知識提供更多的專業(yè)支持。
大數(shù)據(jù)(Bid Data)是指超過傳統(tǒng)數(shù)據(jù)庫處理能力的數(shù)據(jù),是需要新的處理模式才能有更強(qiáng)的決策力、洞察力從而適應(yīng)大量和多樣化的信息資產(chǎn)[1]。由此可見,大數(shù)據(jù)作為一種新的信息資產(chǎn)源,需要具備特定的處理模式,也才能擁有獨(dú)特的元素,它所具備的這種特定的處理模式,必須由數(shù)學(xué)這門學(xué)科作為基礎(chǔ)。意思就是,如果缺乏數(shù)學(xué)知識,那么大數(shù)據(jù)也就不具備任何意義,不僅不具備特定的處理模式,更無從談起對信息資產(chǎn)的應(yīng)用。因此,對數(shù)學(xué)及其知識額運(yùn)用,是大數(shù)據(jù)背景下的急切需要。
二、大數(shù)據(jù)背景下數(shù)學(xué)知識應(yīng)用的重要意義
大數(shù)據(jù)背景下,數(shù)學(xué)知識的應(yīng)用影響主要在大數(shù)據(jù)的處理及數(shù)學(xué)挖掘兩個方面。IBM公司將大數(shù)據(jù)的特征概括為“3V”,Velocity(快速)、 Volume(規(guī)模)和 Variety(多樣化),而如今人們又加上了Value(低價值密度)和Veracity(真實(shí)性)兩個特性[2]。也就是人們今天提到的“5V”。這就說明,大數(shù)據(jù)不僅能容量大量、多樣化、真實(shí)性的數(shù)據(jù),而且具有快速的數(shù)據(jù)與處理能力。權(quán)威根據(jù)統(tǒng)計數(shù)字表明,權(quán)世界每年的數(shù)據(jù)增長都在50%以上,而且這一數(shù)值還在不斷增加。這些不斷增加膨脹的數(shù)據(jù)是需要專業(yè)的數(shù)學(xué)知識來進(jìn)行統(tǒng)計與處理,才能在實(shí)踐中不斷得到應(yīng)用。同時,在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘也有很重要的意義,其誕生也與大數(shù)據(jù)背景密切相關(guān)。在數(shù)據(jù)挖掘剛剛產(chǎn)生之時,其被專家們解釋為“從大量的、模糊的、不完整的、雜亂的數(shù)據(jù)當(dāng)中提取潛在的有用的信息隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱藏在其中但又有潛在價值的信息”在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘已經(jīng)被應(yīng)用于通信、教育、科研、機(jī)械制造等各個產(chǎn)業(yè)領(lǐng)域,并且數(shù)據(jù)挖掘在人工智能領(lǐng)域也發(fā)揮重要的作用[3]。在數(shù)據(jù)挖掘過程中,同樣也少不了數(shù)學(xué)知識的運(yùn)用,一旦脫離數(shù)學(xué)知識,它便無法提取數(shù)據(jù)中潛在的有價值的信息,獲取的數(shù)據(jù)也將無任何意義。
三、大數(shù)據(jù)背景下數(shù)學(xué)的應(yīng)用
(一) 數(shù)學(xué)在數(shù)據(jù)處理當(dāng)中的運(yùn)用
在大數(shù)據(jù)中,如果需要對數(shù)據(jù)進(jìn)行正確有效的分析,首先要進(jìn)行的就是收集與初步處理這些數(shù)據(jù)。同時,大數(shù)據(jù)在使用的過程中對于時效性有著很高的要求,因此,就必須對數(shù)據(jù)處理的時間進(jìn)行嚴(yán)格的把控,也就意味著在數(shù)據(jù)處理的效率以及處理的結(jié)構(gòu)上要求都及其嚴(yán)格。本身原始數(shù)據(jù)自身所具備的特質(zhì),也會很大程度上影響對數(shù)據(jù)的收集與處理。比如,在對一個大數(shù)據(jù)進(jìn)行信息收集與處理的過程當(dāng)中當(dāng),如果原始數(shù)據(jù)有很大的干擾因素,比如噪聲,就會對我們進(jìn)行數(shù)據(jù)處理帶來很大的不便。這個時候,為了確保數(shù)據(jù)準(zhǔn)確無誤,大數(shù)據(jù)就會對數(shù)據(jù)進(jìn)行早期的預(yù)處理。這時候,為了使處理效率得到提升,在運(yùn)用大數(shù)據(jù)的過程中,數(shù)學(xué)知識當(dāng)中大量的分析方法就會大顯身手。通常情況下,大數(shù)據(jù)所運(yùn)用的分析方法為統(tǒng)計分析法,描述性分析法如、相關(guān)性分析法等。舉個例子,當(dāng)一個數(shù)據(jù)需要對模型或參數(shù)進(jìn)行判斷或者檢驗(yàn)時,就會運(yùn)用回歸分析法來對大數(shù)據(jù)進(jìn)行估計,并建立起科學(xué)的數(shù)學(xué)模型。
(二)數(shù)學(xué)在數(shù)據(jù)挖掘當(dāng)中的運(yùn)用
在實(shí)踐過程中,數(shù)據(jù)挖掘以其應(yīng)用型、集合性和交叉性為主要特點(diǎn),在數(shù)據(jù)挖掘過程中,一般所采用的方法為神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析法及聚類分析法等。而其中的聚類分析法,如今被廣泛應(yīng)用于醫(yī)學(xué)、心理學(xué)及市場營銷等各個方面,可以說聚類分析法是數(shù)據(jù)挖掘當(dāng)中最為常用的一種數(shù)學(xué)分析方法[4]。聚類分析法在操作的過程中一般會采用目標(biāo)函數(shù)模糊、灰色關(guān)聯(lián)分析及區(qū)間值算法等數(shù)學(xué)學(xué)科知識:其一,目標(biāo)函數(shù)模糊。這種方法首先要對數(shù)據(jù)進(jìn)行標(biāo)定和標(biāo)準(zhǔn)化,然后建立與其相對應(yīng)的模糊矩陣,利用直接聚類、模糊等價矩陣等手段來對關(guān)鍵指標(biāo)及數(shù)據(jù)集的聚集。同時,還能夠通過編網(wǎng)法和最大數(shù)法等手段進(jìn)行數(shù)據(jù)聚類,這種方法目前在時效性、維度的處理及伸縮性等方面都非常優(yōu)越,在大部分的數(shù)據(jù)挖掘及老百姓的日常生活中都得到了廣泛的使用。其二,灰色關(guān)聯(lián)分析。這種分析方法的主要功能在于,它可以通過當(dāng)前數(shù)據(jù)中的幾何曲線主要作用,是其可以通過當(dāng)前數(shù)據(jù)中幾何曲線當(dāng)中的幾何圖形來判斷當(dāng)前大數(shù)據(jù)中各個數(shù)據(jù)的相關(guān)性。若幾何圖形越接近,其關(guān)聯(lián)性越大,反之,關(guān)聯(lián)性則越小。在對數(shù)據(jù)挖掘當(dāng)中,灰色關(guān)聯(lián)分析法一般會被運(yùn)用于樣本數(shù)據(jù)不充足,同時樣本也存在殘缺性的一些特殊情況當(dāng)中。其三,區(qū)間值算法。在數(shù)據(jù)挖掘過程中,區(qū)間值算法的特點(diǎn)在于其可以對“比較型”的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,或是對固定取值范圍的數(shù)據(jù)進(jìn)行比較分析。這種分析方法目前也很受歡迎。在實(shí)際操作過程中,被廣泛應(yīng)用的區(qū)間值算法通常有以下三種,數(shù)與區(qū)間聚類法、矩陣與區(qū)間聚類法及區(qū)間與區(qū)間聚類法。這三種方法都能夠高效、準(zhǔn)確地統(tǒng)計與分析系統(tǒng)內(nèi)的各類信息。
四、結(jié)語
由此可見,在大數(shù)據(jù)背景下中,數(shù)學(xué)這門學(xué)科與大數(shù)據(jù)有著千絲萬縷的關(guān)聯(lián),并在大數(shù)據(jù)運(yùn)用中擔(dān)當(dāng)者不可替代的角色,尤其是在數(shù)據(jù)處理與數(shù)據(jù)挖掘這兩個重要方面,它的作用尤為重要。因此,在大數(shù)據(jù)時代,數(shù)學(xué)作為一門重要的學(xué)科,能有效確保大數(shù)據(jù)的實(shí)用性與有效性。
參考文獻(xiàn):
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2013,50(01):146-169.
[2]王淵.大數(shù)據(jù)時代下數(shù)據(jù)分析的主要變化[J].商,2016(30):201+200.
[3]孔欽,葉長青,孫赟.大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法研究[J].計算機(jī)技術(shù)與發(fā)展,2018,28(05):1-4.
[4]林潘能.淺談大數(shù)據(jù)挖掘中數(shù)學(xué)的運(yùn)用[J].現(xiàn)代交際,2018(09):253+252.
作者簡介:肖引昌(1978-08),男,廣西北海人,漢族,北海職業(yè)學(xué)院,講師,研究生學(xué)歷,研究方向:數(shù)學(xué)教育。