999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法研究

2018-05-25 08:50:45葉長(zhǎng)青
關(guān)鍵詞:數(shù)據(jù)挖掘方法

孔 欽,葉長(zhǎng)青,孫 赟

(南京大學(xué),江蘇 南京 210089)

0 引 言

大數(shù)據(jù)中蘊(yùn)含的寶貴價(jià)值成為人們存儲(chǔ)和處理大數(shù)據(jù)的驅(qū)動(dòng)力。在《大數(shù)據(jù)時(shí)代》一書(shū)中指出了大數(shù)據(jù)時(shí)代處理數(shù)據(jù)理念的三大轉(zhuǎn)變,即要全體不要抽樣,要效率不要絕對(duì)精確,要相關(guān)不要因果[1]。海量數(shù)據(jù)的處理對(duì)于當(dāng)前存在的技術(shù)來(lái)說(shuō)是一種極大的挑戰(zhàn)。大數(shù)據(jù)的涌現(xiàn)使人們處理計(jì)算問(wèn)題時(shí)獲得了前所未有的大規(guī)模樣本,但同時(shí)也不得不面對(duì)更加復(fù)雜的數(shù)據(jù)對(duì)象。數(shù)據(jù)預(yù)處理作為數(shù)據(jù)分析、挖掘前的重要數(shù)據(jù)準(zhǔn)備工作,可以保證數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性和有效性。

1 研究背景

大數(shù)據(jù)環(huán)境下,來(lái)自異構(gòu)系統(tǒng)的原始數(shù)據(jù)中存在若干問(wèn)題:

(1)雜亂性。原始數(shù)據(jù)是從各個(gè)實(shí)際應(yīng)用系統(tǒng)中獲取的,由于各應(yīng)用系統(tǒng)的數(shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn)的定義,數(shù)據(jù)結(jié)構(gòu)也有較大的差異,因此各系統(tǒng)間的數(shù)據(jù)存在較大的不一致性,往往不能直接拿來(lái)使用。

(2)重復(fù)性。是指對(duì)于同一個(gè)客觀事物在數(shù)據(jù)庫(kù)中存在其兩個(gè)或兩個(gè)以上完全相同的物理描述。這是應(yīng)用系統(tǒng)實(shí)際使用過(guò)程中普遍存在的問(wèn)題,幾乎所有應(yīng)用系統(tǒng)中都存在數(shù)據(jù)的重復(fù)和信息的冗余現(xiàn)象[2]。

(3)模糊性。由于實(shí)際系統(tǒng)設(shè)計(jì)時(shí)存在的缺陷以及一些使用過(guò)程中的人為因素,數(shù)據(jù)記錄中可能會(huì)出現(xiàn)有些數(shù)據(jù)屬性的值丟失或不確定的情況,還可能缺失必需的數(shù)據(jù)而造成數(shù)據(jù)不完整。在實(shí)際使用的系統(tǒng)中,存在大量的模糊信息,有些數(shù)據(jù)甚至還具有一定的隨機(jī)性質(zhì)。

如前所述,因?yàn)閿?shù)據(jù)類型和組織模式多樣化、關(guān)聯(lián)關(guān)系繁雜、質(zhì)量良莠不齊等內(nèi)在的復(fù)雜性,使得數(shù)據(jù)的感知、表達(dá)、理解和計(jì)算等多個(gè)環(huán)節(jié)面臨著巨大的挑戰(zhàn)。因此,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前的一個(gè)非常重要的數(shù)據(jù)準(zhǔn)備工作,是知識(shí)發(fā)現(xiàn)過(guò)程(knowledge discovery in database,KDD)的關(guān)鍵環(huán)節(jié)之一[3]。一方面它可以保證挖掘數(shù)據(jù)的正確性和有效性,另一方面通過(guò)對(duì)數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合挖掘的需要。通過(guò)把一些與數(shù)據(jù)分析、挖掘無(wú)關(guān)的數(shù)據(jù)項(xiàng)清除掉,為挖掘算法提供更高質(zhì)量的數(shù)據(jù)內(nèi)核。

數(shù)據(jù)挖掘的首要前提是確保消除所有的“臟數(shù)據(jù)”,包含冗余數(shù)據(jù)、缺失數(shù)據(jù)、不確定數(shù)據(jù)和不一致數(shù)據(jù)。針對(duì)“臟數(shù)據(jù)”的預(yù)處理方法有以下幾種:清洗、集成、變換和歸約。

1.1 數(shù)據(jù)清洗

檢測(cè)數(shù)據(jù)中存在冗余、錯(cuò)誤、不一致等噪聲數(shù)據(jù),利用各種清洗技術(shù),形成“干凈”的一致性數(shù)據(jù)集合。如圖1所示。

圖1 數(shù)據(jù)清洗

數(shù)據(jù)清洗技術(shù)包括清除重復(fù)數(shù)據(jù)、填充缺失數(shù)據(jù)、消除噪聲數(shù)據(jù)等。在分析“臟數(shù)據(jù)”的產(chǎn)生來(lái)源和存在形式后,充分利用新興的技術(shù)手段和方法去清洗“臟數(shù)據(jù)”,將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量或應(yīng)用要求的數(shù)據(jù)。美國(guó)最早對(duì)數(shù)據(jù)清洗技術(shù)展開(kāi)研究。隨著信息業(yè)和商業(yè)的發(fā)展,數(shù)據(jù)清洗技術(shù)得到了進(jìn)一步發(fā)展。數(shù)據(jù)清洗分為以下幾大類:

(1)重復(fù)數(shù)據(jù)的清洗。為了提高數(shù)據(jù)挖掘的速度和精度,有必要去除數(shù)據(jù)集合中的重復(fù)記錄。如果有兩個(gè)及以上的實(shí)例表示的是同一實(shí)體,那么即為重復(fù)記錄。為了發(fā)現(xiàn)重復(fù)實(shí)例,通常的做法是將每一個(gè)實(shí)例都與其他實(shí)例進(jìn)行對(duì)比,找出與之相同的實(shí)例。對(duì)于實(shí)例中的數(shù)值型屬性,可以采用統(tǒng)計(jì)學(xué)的方法來(lái)檢測(cè),根據(jù)不同的數(shù)值型屬性的均值和標(biāo)準(zhǔn)方差值,設(shè)置不同屬性的置信區(qū)間來(lái)識(shí)別異常屬性對(duì)應(yīng)的記錄,識(shí)別出數(shù)據(jù)集合中的重復(fù)記錄,并加以消除。相似度計(jì)算是重復(fù)數(shù)據(jù)清洗過(guò)程中的常用方法,通過(guò)計(jì)算記錄的各屬性的相似度,再考慮每個(gè)屬性的不同權(quán)重值,加權(quán)平均后得到記錄的相似度。如果兩條記錄相似度超過(guò)了某一閾值,則認(rèn)為兩條記錄是匹配的,否則,認(rèn)為這兩條記錄指向不同實(shí)體[4]。另一種相似度計(jì)算算法基于基本近鄰排序算法。核心思想是為了減少記錄的比較次數(shù),在按關(guān)鍵字排序后的數(shù)據(jù)集上移動(dòng)一個(gè)大小固定的窗口,通過(guò)檢測(cè)窗口內(nèi)的記錄來(lái)判定它們是否相似,從而確定重復(fù)記錄。

(2)缺失數(shù)據(jù)清洗(missing values imputation)。完善缺失數(shù)據(jù)是數(shù)據(jù)清洗領(lǐng)域面臨的另一個(gè)重要問(wèn)題。如圖2所示,在現(xiàn)實(shí)世界中,由于手動(dòng)輸入的失誤操作、部分信息需要保密或者數(shù)據(jù)來(lái)源不可靠等各種各樣的原因,使得數(shù)據(jù)集中的內(nèi)容殘缺不完整。比如某條記錄的屬性值被標(biāo)記為NULL、空缺或“未知”等。一旦不完整、不準(zhǔn)確的數(shù)據(jù)用于挖掘,則會(huì)影響抽取模式的正確性和導(dǎo)出規(guī)則的準(zhǔn)確性。當(dāng)錯(cuò)誤的數(shù)據(jù)挖掘模型應(yīng)用于前端的決策系統(tǒng)時(shí),就會(huì)導(dǎo)致分析結(jié)果和執(zhí)行決策出現(xiàn)嚴(yán)重偏差[5]。

圖2 缺失數(shù)據(jù)清洗

當(dāng)前有很多方法用于缺失值清洗,可以分為兩類:

(a)忽略不完整數(shù)據(jù)。直接通過(guò)刪除屬性或?qū)嵗雎圆煌暾臄?shù)據(jù)[6]。在數(shù)據(jù)集規(guī)模不大、不完整數(shù)據(jù)較少的情況下,常常利用該方法來(lái)實(shí)現(xiàn)數(shù)據(jù)清洗。該方法因?yàn)閳?zhí)行效率高,因此經(jīng)常作為缺省方法,但缺點(diǎn)也相當(dāng)明顯。如果不完整數(shù)據(jù)集較大,一旦刪除了若干記錄之后,因?yàn)槭S嗟臄?shù)據(jù)集規(guī)模較小,使得模型的構(gòu)建不具備普適性和代表性,無(wú)法讓人信賴,可靠度大大降低。另外,因?yàn)閯h除不完整數(shù)據(jù)帶來(lái)的數(shù)據(jù)集偏差也使得數(shù)據(jù)挖掘的分類、聚類模型產(chǎn)生嚴(yán)重傾斜,進(jìn)而影響最終的挖掘結(jié)果,產(chǎn)生重大決策性誤導(dǎo)。

(b)基于填充技術(shù)的缺失值插補(bǔ)算法。上一種忽略法很有可能將潛在的有價(jià)值信息也一并刪除。因此更多的時(shí)候選擇填充不完整的數(shù)據(jù)。為了填充缺失值,用最接近缺失值的值來(lái)替代它,保證可挖掘數(shù)據(jù)的數(shù)量和質(zhì)量。填充方法保留了潛在的有用數(shù)據(jù),和刪除屬性或記錄相比,保留了更多數(shù)據(jù)樣本,不易于產(chǎn)生數(shù)據(jù)分析偏差,由此構(gòu)建的模型更可靠,更有說(shuō)服力。

目前常用的缺失值填充算法大體分為兩大類,一類是統(tǒng)計(jì)學(xué)方法,另一類是分類、聚類方法。

·采用統(tǒng)計(jì)學(xué)方法填充缺失值。分析數(shù)據(jù)集,獲取數(shù)據(jù)集的統(tǒng)計(jì)信息,利用數(shù)值信息填充缺失值。其中最簡(jiǎn)單的方法是平均值填充方法[7]。它把所有完整數(shù)據(jù)的算術(shù)平均值作為缺失數(shù)據(jù)的值。這種方法的弊端在于有可能會(huì)影響缺失數(shù)據(jù)與其他數(shù)據(jù)之間原本的相關(guān)性。如果規(guī)模較大的數(shù)據(jù)集的缺失值全部采用平均值填充法進(jìn)行填充,因?yàn)檫^(guò)多的中值存在,更多的尖峰態(tài)頻率分布有可能會(huì)誤導(dǎo)挖掘結(jié)果。

·采用分類、聚類方法填充缺失值。分類是在已有類標(biāo)號(hào)的基礎(chǔ)上,通過(guò)輸入訓(xùn)練樣本數(shù)據(jù)集,構(gòu)造出分類器(如分類函數(shù)或者分類模型)。常用的數(shù)據(jù)分類技術(shù)包括決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、粗糙集理論、最臨近分類法等。利用完整記錄與缺失記錄之間的記錄相似度,通過(guò)最大相似度的計(jì)算,結(jié)合機(jī)器學(xué)習(xí)的相關(guān)技術(shù),建立最大可能的完整的數(shù)據(jù)模型。聚類是在不考慮類標(biāo)號(hào)的前提下,尋求類間的相似性,目的也是在海量的數(shù)據(jù)聚集的基礎(chǔ)上,構(gòu)建較小的代表性的數(shù)據(jù)集,并基于該集合進(jìn)一步分析和研究。常見(jiàn)的缺失值填充算法包括EM最大期望值算法(expectation-maximization algorithm)、MI算法(multiple imputation)和KNNI算法(k-nearest neighbor imputation)等。其中最大期望算法通過(guò)創(chuàng)建概率模型,尋找參數(shù)最大似然估計(jì)值或者最大后驗(yàn)估計(jì)值,概率模型的成功與否依賴于無(wú)法觀測(cè)的隱藏變量(latent variable)[8-9]。

圖3 噪聲數(shù)據(jù)

(3)噪聲數(shù)據(jù)處理(noise treatment)。數(shù)據(jù)挖掘前,往往假設(shè)數(shù)據(jù)集不存在任何數(shù)據(jù)干擾。然而,實(shí)際應(yīng)用中卻因?yàn)楦鞣N原因,在數(shù)據(jù)收集、整理的過(guò)程中,產(chǎn)生大量的噪聲數(shù)據(jù),即“離群點(diǎn)”。因?yàn)樵肼晹?shù)據(jù)不在合理的數(shù)據(jù)域內(nèi),所以分析、挖掘過(guò)程中輸入和輸出數(shù)據(jù)的質(zhì)量難以保證,容易造成后續(xù)的挖掘結(jié)果不準(zhǔn)確、不可靠,如圖3所示。常用的消除噪聲數(shù)據(jù)的方法分為兩種。一種叫噪聲平滑方法(data polishing),常用的方法是分箱法。將預(yù)處理數(shù)據(jù)分布到不同的箱中,通過(guò)參考周圍實(shí)例平滑噪聲數(shù)據(jù),包括等寬分箱和等深分箱兩大類。具體的分箱技術(shù)包括:按箱平均值平滑,即求取箱中的所有值的平均值,然后使用均值替代箱中所有數(shù)據(jù);按中位數(shù)平滑,和上一種方法類似,采用中位數(shù)進(jìn)行平滑;按設(shè)定的箱邊界平滑,定義箱邊界是箱中的最大和最小值。用最近的箱邊界值替換每一個(gè)值。另一種是噪聲過(guò)濾(data filters),利用聚類方法對(duì)離群點(diǎn)進(jìn)行分析、過(guò)濾。在訓(xùn)練集中明確并去除噪聲實(shí)例。噪聲過(guò)濾的常用算法包括IPF算法(iterative partitioning filter)、EF算法(ensemble filter)[10]。

1.2 數(shù)據(jù)集成

數(shù)據(jù)集成(data integration)是將多文件或多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,解決語(yǔ)義的模糊性。該部分主要涉及數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問(wèn)題以及不一致數(shù)據(jù)的處理問(wèn)題,如圖4所示。

圖4 數(shù)據(jù)集成

1.3 數(shù)據(jù)變換

數(shù)據(jù)變換(data transformation):是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換來(lái)減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括規(guī)格化、切換和投影等操作。數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于各種挖掘模式的形式,根據(jù)其后所使用的數(shù)據(jù)挖掘算法,決定選擇使用何種數(shù)據(jù)變換方法。常用變換方法包括:函數(shù)變換,使用數(shù)學(xué)函數(shù)對(duì)每個(gè)屬性值進(jìn)行映射;對(duì)數(shù)據(jù)進(jìn)行規(guī)范化,按比例縮放數(shù)據(jù)的屬性值,盡量落入較小的特定區(qū)間。規(guī)范化既有助于各類分類、聚類算法的實(shí)施,又避免了對(duì)度量單位的過(guò)度依賴,同時(shí)規(guī)避了權(quán)重不平衡發(fā)生。

1.4 數(shù)據(jù)歸約

數(shù)據(jù)歸約(data reduction):是在對(duì)發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標(biāo)的表達(dá)數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)模型,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下最大限度地精簡(jiǎn)數(shù)據(jù)量,促進(jìn)大數(shù)據(jù)挖掘更高效。其主要有兩個(gè)途徑:維歸約和數(shù)量歸約,分別針對(duì)數(shù)據(jù)庫(kù)中的屬性和記錄。目前海量數(shù)據(jù)上的數(shù)據(jù)歸約技術(shù)是數(shù)據(jù)預(yù)處理的重要問(wèn)題之一。

歸約過(guò)程涉及的重要技術(shù)包括:

(1)針對(duì)高維數(shù)據(jù)的降維處理(dimensionality reduction)。涉及的技術(shù)包括特征值選擇(feature selection)和空間變換(space transformations)。維歸約的核心是減少隨機(jī)變量或者屬性的個(gè)數(shù)。特征值選擇目的是獲取能描述問(wèn)題的關(guān)鍵特征的那部分屬性。刪除不相關(guān)的、冗余的屬性,使得機(jī)器學(xué)習(xí)過(guò)程更快,內(nèi)存消耗更少。特征子集選擇方法,包括各類啟發(fā)式算法、貪心算法等,具體有向前選擇法、向后刪除法、決策樹(shù)歸納法等。數(shù)量歸約的重點(diǎn)在于減少數(shù)據(jù)量,從數(shù)據(jù)集中選擇較小的數(shù)據(jù)表示形式。主流的數(shù)值歸約技術(shù),包括對(duì)數(shù)線性模型、直方圖、聚類、抽樣等。常用算法包括:LVF(Las Vegas filter)、MIFS(mutual information feature selection)、mRMR(minimum redundancy maximum relevance)、Relief算法。空間變化是另一種降低數(shù)據(jù)維度的方法。流行的算法有LLE(locally linear embedding)、PCA(principal components analysis)等[11]。

(2)實(shí)例歸約(instance reduction)。當(dāng)前很流行的一種減少數(shù)據(jù)集規(guī)模的算法是實(shí)例歸約算法。在減少數(shù)據(jù)量的同時(shí),并沒(méi)有降低獲取知識(shí)的品質(zhì)。通過(guò)移除或者生成新的實(shí)例的方法,大大降低了數(shù)據(jù)規(guī)模。涉及技術(shù)包括:(a)實(shí)例選擇(instance selection)。好的實(shí)例選擇算法能夠生成一個(gè)最小的數(shù)據(jù)集,移除噪聲數(shù)據(jù)和冗余數(shù)據(jù),獨(dú)立于隨后進(jìn)行的數(shù)據(jù)挖據(jù)算法,符合數(shù)據(jù)分析和挖掘的要求。常見(jiàn)的算法有CNN(condensed nearest neighbor)、ENN(edited nearest neighbor)、ICF(iterative case filtering)、DROP(decremental reduction by ordered projections)等。(b)實(shí)例生成(instance generation)。建立各種原型用于實(shí)例生成,涉及算法包括LVQ(learning vector quantization)等[12]。

(3)離散化技術(shù)(discretization)。目的在于減少給定連續(xù)屬性值的個(gè)數(shù)。離散化之前,首先要預(yù)估離散型數(shù)據(jù)的規(guī)模,接著對(duì)連續(xù)型數(shù)據(jù)進(jìn)行排序,然后指定若干個(gè)分裂點(diǎn)把數(shù)據(jù)分為多個(gè)區(qū)間。將落在同一個(gè)區(qū)間內(nèi)的所有連續(xù)型數(shù)據(jù)通過(guò)統(tǒng)一的映射方法對(duì)應(yīng)到相同的離散型數(shù)據(jù)上[13]。根據(jù)分裂點(diǎn)認(rèn)定方式的不同,離散化分為自頂向下和自底向上兩種,按照是否使用分類信息,又分為監(jiān)督和非監(jiān)督兩大類。目前大多數(shù)離散化方法分為兩大方向,一是從屬性出發(fā),基于屬性的重要性進(jìn)行離散處理,二是利用分辨矩陣進(jìn)行映射。常見(jiàn)的算法包括:MDLP(minimum description length principle)、ChiMerge、CAIM(class-attribute interdependence maximization)等[14]。

(4)不平衡學(xué)習(xí)(imbalanced learning)。在使用機(jī)器學(xué)習(xí)的有監(jiān)督學(xué)習(xí)形成數(shù)據(jù)模型時(shí),很容易在不同類型的數(shù)據(jù)集上產(chǎn)生巨大的優(yōu)先級(jí)的差異。這種也叫做分類不平衡問(wèn)題。很多標(biāo)準(zhǔn)的分類學(xué)習(xí)算法經(jīng)常會(huì)傾向于大多數(shù)實(shí)例(majority class)而忽視少數(shù)特別實(shí)例(minority class)[15]。數(shù)據(jù)預(yù)處理相關(guān)技術(shù)可以避免出現(xiàn)類型分布不平衡的情況。主要方法是兩種:欠采樣方法,在抽樣創(chuàng)建原始數(shù)據(jù)集的子集用作數(shù)據(jù)挖掘時(shí),盡量去除大多數(shù)實(shí)例;過(guò)度采樣方法,在抽樣時(shí)復(fù)制很多相同的實(shí)例或者創(chuàng)建新的實(shí)例。在眾多采樣算法中,最復(fù)雜最著名的遺傳算法是SMOTE(synthetic minority oversampling technique)。

2 結(jié)束語(yǔ)

大數(shù)據(jù)時(shí)代下,不同的應(yīng)用領(lǐng)域、各種新興的云計(jì)算技術(shù)會(huì)促進(jìn)數(shù)據(jù)預(yù)處理方法進(jìn)一步的擴(kuò)展和提升。數(shù)據(jù)預(yù)處理是知識(shí)發(fā)現(xiàn)過(guò)程中十分重要的環(huán)節(jié),是數(shù)據(jù)挖掘算法能夠有效執(zhí)行的必要前提。通過(guò)高效的預(yù)處理工作,清除冗余數(shù)據(jù),糾正錯(cuò)誤數(shù)據(jù),完善殘缺數(shù)據(jù),挑選出必需的數(shù)據(jù)進(jìn)行集成,達(dá)到數(shù)據(jù)信息精練化、數(shù)據(jù)格式一致化和數(shù)據(jù)存儲(chǔ)集中化。在最精確、最可靠的數(shù)據(jù)集合上進(jìn)行數(shù)據(jù)挖掘,極大地減少了系統(tǒng)挖掘的開(kāi)銷,提高了知識(shí)發(fā)現(xiàn)的準(zhǔn)確性、有效性和實(shí)用性。

參考文獻(xiàn):

[1] 程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(9):1889-1908.

[2] 李小菲.數(shù)據(jù)預(yù)處理算法的研究與應(yīng)用[D].成都:西南交通大學(xué),2006.

[3] WU X,ZHU X,WU G Q,et al.Data mining with big data[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107.

[5] 關(guān)大偉.數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[D].長(zhǎng)春:吉林大學(xué),2006.

[6] TRIGUERO I,PERALTA D,BACARDIT J,et al.MRPR:a MapReduce solution for prototype reduction in big data classification[J].Neurocomputing,2015,150:331-345.

[7] GALAR M,FERNNDEZ A,BARRENECHEA E,et al.A review on ensembles for the class imbalance problem:bagging-,boosting-,and hybrid-based approaches[J].IEEE Transactions on Systems,Man,and Cybernetics,Part C:Applications and Reviews,2012,42(4):463-484.

[8] GAO M,HONG X,CHEN S,et al.A combined SMOTE and PSO based RBF classifier for two-class imbalanced problems[J].Neurocomputing,2011,74(17):3456-3466.

[9] SOTOCA J M,PLA F.Supervised feature selection by clustering using conditional mutual information-based distances[J].Pattern Recognition,2010,43(6):2068-2081.

[10] MITRA P,MURTHY C A,PAL S K.Density-based multiscale data condensation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(6):734-747.

[11] WANG H,WANG S.Mining incomplete survey data through classification[J].Knowledge and Information Systerms,2010,24(2):221-233.

[12] PéREZORTIZ M,GUTIéRREZ P A,MARTNEZ C H,et al.Graph-based approaches for over-sampling in the context of ordinal regression[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(5):1233-1245.

[13] PRATI R C,BATISTA G E A P A,SILVA D F.Class imbalance revisited:a new exper-imental setup to assess the performance of treatment methods[J].Knowledge and Information Systems,2015,45(1):247-270.

[14] ANGIULLI F,FOLINO G.Distributed nearest neighbor-based condensation of very large data sets[J].IEEE Transcactions on Knowledge and Data Engineering,2007,19(12):1593-1606.

[15] BACARDIT J,WIDERA P,CHAMORRO A E M,et al.Contact map prediction using a large-scale ensemble of rule sets and the fusion of multiple predicted structural features[J].Bioinformatics,2012,28(19):2441-2448.

猜你喜歡
數(shù)據(jù)挖掘方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
學(xué)習(xí)方法
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚(yú)
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 国内精品久久久久久久久久影视| 99ri精品视频在线观看播放| 免费又爽又刺激高潮网址| 国产成人精品视频一区视频二区| 色噜噜在线观看| 五月婷婷精品| 成人午夜网址| 国产门事件在线| 日韩高清欧美| 婷婷伊人五月| 欧美色99| 国产另类视频| 欧美精品啪啪一区二区三区| 国产手机在线小视频免费观看| 99九九成人免费视频精品| 国产麻豆精品在线观看| 伊人久久大线影院首页| 一本色道久久88亚洲综合| 亚洲天堂视频网站| 熟妇丰满人妻av无码区| 国产呦视频免费视频在线观看 | 国产区在线观看视频| 999精品视频在线| 国产视频大全| 国产精品xxx| 欧美一道本| 呦女亚洲一区精品| 91亚洲精选| 精品国产一区二区三区在线观看 | av天堂最新版在线| 高清色本在线www| 日韩精品一区二区三区swag| 98超碰在线观看| 国产人免费人成免费视频| 国产精品久久自在自线观看| 久青草国产高清在线视频| 91亚瑟视频| 国产自在线播放| 国产凹凸一区在线观看视频| 久久综合色视频| 国产理论最新国产精品视频| 亚洲午夜福利在线| 免费国产黄线在线观看| 亚洲成人在线网| 欧美日韩第三页| 丝袜亚洲综合| 精品久久久久成人码免费动漫| 国产精品理论片| 5555国产在线观看| 一级毛片免费的| 日韩国产黄色网站| 国产精品 欧美激情 在线播放| 久久精品欧美一区二区| 欧美国产另类| 制服丝袜一区| 国产黄在线免费观看| 国产精品福利在线观看无码卡| 亚洲天堂免费| 亚洲天堂网在线视频| 福利在线不卡| 国产第一页屁屁影院| 久久精品无码专区免费| 亚洲日本中文综合在线| 久久婷婷五月综合色一区二区| 日本黄色a视频| 国产福利拍拍拍| 亚洲无码高清一区二区| 国内毛片视频| 日本爱爱精品一区二区| 中文字幕久久波多野结衣| 精品综合久久久久久97超人| 精品一区二区三区无码视频无码| 国产精品第页| 五月婷婷亚洲综合| 免费看a毛片| igao国产精品| 日韩欧美成人高清在线观看| 成人综合在线观看| 国产超碰一区二区三区| 亚洲天堂久久久| 欧美区在线播放| 免费激情网站|