999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于基因表達小樣本數據的級聯森林分類模型

2020-11-12 10:39:16范怡敏
計算機應用與軟件 2020年11期
關鍵詞:分類特征模型

范怡敏 齊 林 帖 云

(鄭州大學信息工程學院 河南 鄭州 450000)

0 引 言

目前,對生物醫學和生物信息學數據的分析與分類越來越重要,如:疾病的診斷,癌癥的分類[1],物種分類等。如今,在基因表達水平上的數據集常被用來鑒定和提取一些生物信息;生物醫學通過基因分析來了解疾病發生與發展機制以及可能性等問題,從而進一步進行基因診斷、亞型分類等。然而,多數生物信息學數據的獲取非常困難,通常只能得到小規模的樣本數據集?;虮磉_數據集普遍存在樣本個數少、維度高、噪聲大等問題,復雜的分類處理模型很容易導致過擬合。當前常用于分類問題的典型機器學習算法包括:支持向量機(Support Vector Machine,SVM)[2]、隨機森林(Random Forest,RF)[3]、深度森林[4](Deep Forest),以及一些集成方法分類模型,例如Adaboost[5]、XGBoost[4]等。文獻[2]使用了SVM對基因表達數據進行分類。近年來深度神經網絡(Deep Neural Network,DNN)、卷積神經網絡(Convolutional Neural Network,CNN)[6]在很多應用領域中取得了較大的發展。然而,盡管深度學習網絡模型為數據分析提供了有利的方法,但是由于神經網絡算法自身的一些特點,在基因等小規模數據集中的應用受到了限制:一方面,深度神經網絡模型比較復雜,通常需要大量的數據進行訓練,而基因數據的樣本量通常不足;另一方面,深度神經網絡模型中參數過多,多數情況下模型的性能受參數影響較大[6]。因此其在小規模數據集的分類中通常難以獲得預期的性能。為了改善深度神經網絡的這些缺陷[6],2017年出現了深度森林、多粒度級聯森林(multi-Grained Cascade Forest,gcForest)模型,這是基于深度模型提出的一種通過集成學習方法提高分類性能的結構,能有效解決小樣本數據分類等問題。文獻[6]的實驗結果驗證了該模型相比于深度神經網絡模型,能夠避免訓練所需數據量大、模型復雜性高、超參數過多等問題,可以取得更好的分類效果。但原始模型依然有很多需要改進的地方,例如:對于小樣本高維度數據集,模型易有過擬合現象;分類精度較低;模型對所集成的森林多樣性衡量不足,未對每個分類單元的分類質量進行區分;模型的泛化能力和分類穩定性有待提升等。

現今集成學習被廣泛應用,集成學習方法可以通過將多個學習模型組合,使組合后的模型具有更強的泛化能力[7]和更好的效果。綜上所述,本文在原始深度森林模型的基礎上提出一種改進模型TBDForest,主要對多粒度掃描部分作了特征均等性利用的優化以及級聯森林部分兩個方面的改進。在五組基因表達DNA微陣列小樣本數據集上進行特征選擇后進行分類驗證實驗。實驗結果顯示改進后模型處理小規模數據集時的分類性能相比于常用的支持向量機、隨機森林、gcForest、XGBoost、Adaboost等方法有所提升,進一步實現分類模型在基因表達小樣本數據中的應用。

1 傳統方法與原理

1.1 特征選擇

基因表達數據通常有數千甚至上萬個特征基因,有高維度的特點,然而在這些特征中只有小部分基因與癌癥亞型分類、疾病判別等相關,其余大部分是冗余或噪聲特征,因此本文先對基因表達數據使用特征選擇方法進行數據降維處理。Least absolute shrinkage and selection operator(Lasso)算法,是一種基于懲罰方法對樣本數據進行變量選擇,通過將原本的系數壓縮,把原本非常小的系數壓縮至零,從而將這部分系數所對應的變量視為不顯著的變量并直接舍棄[8]。這種方法能夠在保持原始基因的分類準確性的同時選擇出重要的基因,降低時空消耗,更易于測試分類器性能。本文中實驗數據樣本小維度高,先將原始數據通過Lasso算法進行特征選擇降維處理,然后使用選出的重要基因特征進行分類。

1.2 隨機森林模型

Breiman等[3]提出了隨機森林算法RF,其構建在單一決策樹基礎上,同時又將單一決策樹方法進行延伸和改進,其基本思想是構造多棵決策樹,組成一個森林,之后通過這些決策樹共同決定輸出的類別。整個RF算法中有兩個隨機性的過程:(1) 原始輸入的數據隨機從所有訓練數據中有放回地選出一些建立一個決策樹;(2) 建立每個決策樹所用的特征是從整體的特征集隨機性選取[9]的。這兩方面的隨機非常有利于RF模型避免過擬合。

RF是綜合考慮多個決策樹而形成的一種基于集成學習思想的機器學習方法。每個森林通過多棵決策樹對樣本進行訓練,由每棵決策樹給出分類值,然后按照少數服從多數的原則表決完成最終的分類,不僅被用于分類還可以解決回歸問題。RF的投票決策過程如下:

(1)

式中:H(x)表示組合分類模型;hi表示單棵決策樹;Y為輸出變量;I(·)為指示性函數。算法根據最大投票判斷得票數最多的一類作為最后的分類結果[8]。

隨機森林算法實現比較容易,不用設置過多參數,且應用廣泛。隨機森林對數據隨機選取和特征隨機選取這些隨機性的設置,使得隨機森林有非常好的抗噪聲性能,也不容易過擬合。RF能夠處理高維度的數據,對不同數據集的適應能力強,既能處理離散型數據,也能處理連續型數據。RF的訓練效率高,能獲得各個變量的重要性排序,訓練時可以檢測到特征相互之間的影響,從而使用并行化方法。隨機森林的生成步驟如下:

(1) 從原始訓練集中隨機、有放回地采樣p個訓練樣本,進行p次采樣后生成p個訓練集。

(2) 用p個訓練集分別訓練p個決策樹模型。

(3) 將產生的p個決策樹建立為隨機森林。

(4) 對于分類問題,測試的樣本由p個決策樹以投票表決方式產生最終的分類結果。

1.3 深度森林模型

深度森林、多粒度級聯森林是周志華教授提出的多個森林組成的深度樹集成算法。該模型主要包括兩個部分:多粒度掃描(Multi-Grained Scanning)部分和級聯森林(Cascade Forest)部分[6]。模型主要有以下幾個方面優勢[10]:

(1) 模型級數自動調節,可擴展性強;

(2) 超參數少,且模型對其不敏感;

(3) 有很低的訓練消耗,不僅可用在大規模數據集上,還能用在小樣本數據集中;

(4) 可以進行并行處理。

1.3.1多粒度掃描模塊

受神經網絡影響,gcForest模型通過多粒度掃描流程處理數據特征關系,以增強級聯森林部分的性能[6]。該模塊使用不同尺寸的滑動窗口進行掃描,首先對原始的輸入數據提取局部特征,產生一系列局部低維特征向量,然后經過森林的集合(隨機森林和完全隨機森林)訓練出類向量[5]。例如,對于有c個類別的分類問題,一維特征向量長度為n,長度是m的窗口每次滑動一個單位長度,產生n-m+1個m維特征向量的數據子集,經過一個隨機森林和一個完全隨機森林后產生長度為2c(n-m+1)的類向量;對于一個n×n的圖像數據,m×m大小的窗口一次滑一個單位尺寸,將產生(n-m+1)2個m×m的特征向量數據子集,經過一個隨機森林和完全隨機森林后將變成2c(n-m+1)2的類特征向量。將這些特征向量與初始樣本特征組合起來,輸入后面級聯森林中[11]。深度森林模型的多粒度掃描模塊如圖1所示。

圖1 深度森林模型的多粒度掃描模塊

1.3.2級聯森林模塊

級聯森林部分是一個通過加入新特征來對原始特征進行擴展的結構,由多個級聯層組成,每個級聯層包括兩個隨機森林和兩個完全隨機森林,如圖2所示。原始特征經過每個級聯層后的輸出與原特征組合成擴展后的特征作為下一個級聯層的輸入[6]。該模型在一級結束后做一個分類性能的測試,然后繼續生成下一級,當擴展一個新的級聯層后,將整個模型的性能在驗證集中進行測試,若沒有顯著的分類性能增益,訓練過程終止[11],級聯層數就確定了。級聯結構增加了模型的深度而不引入額外的參數,通過評估每層的性能自適應地確定級聯層的數量,因此超參數較少,而且超參數設定具有很好的魯棒性。

圖2 深度森林模型的級聯模塊

2 小樣本數據集分類模型的改進

2.1 均等性多粒度掃描

原始深度森林模型的多粒度掃描部分對原始輸入特征進行變換以加強特征表達能力,通過滑動窗口來掃描初始輸入特征。用窗口滑動提取的實體分別訓練一個隨機森林與一個完全隨機樹森林,然后將這兩種森林輸出的類特征向量組合為初始輸入特征的轉換特征向量。

多粒度掃描部分處理空間上相關聯的特征(如圖像匹配數據、語音識別數據等)時具有明顯的效果,但在空間上無相關的特征數據(如疾病判別、文本分類等)的應用中就可能丟失一些重要信息[10]。原因是多粒度掃描處理空間無關聯特征時在某種程度上降低了兩端(第一個與滑動的最后一組)特征重要性。多粒度掃描時,首個特征和滑動窗口滑到的最后一組特征都只被掃描了一次,即:這些特征都僅被利用了一次,如果這些特征的重要性比較大,該模塊則無法有效對這些重要特征進行利用。

針對這一特征利用不均等性的問題,本文做相應的改進:假設有一個400維的向量,利用大小為100的滑動窗口,滑動步長為1,則301次滑動后獲得301個100維類向量,在此基礎上加入一組100維的類向量,即有302組100維特征向量,其中第302組100維特征的前99個特征是第301組的后99個特征,最后一個特征為原始特征的第一個特征,這樣第一個與最后一組的后99個特征就有與其他特征均等的利用機會,所有特征具有相同的重要度,因此不會丟失重要特征信息,從而可以將原始特征信息均等地傳輸到隨機森林與完全隨機森林部分。

2.2 對原始模型添加擬合質量

深度森林原始模型的一些缺點可能會限制其在生物學基因數據集上的效果:集合中的每個森林對最終預測都有相同的貢獻,在學習過程中未考慮擬合質量。在小規模數據中模型的最終預測可能受到低質量森林投票結果的影響。因此,基于這種新型的深度結構算法,本文使用改進的級聯結構做逐層的表征學習,增強特征表達能力。

原始深度森林模型中級聯部分包含的隨機森林和完全隨機森林都是決策樹的集合,均是由隨機選擇一個特征在決策樹的各節點來分割,樹不斷生長,每個決策樹輸出一個類向量,最后隨機森林組合所有決策樹的投票結果后取平均值,得到森林整體的分類結果。本文的級聯網絡中各層使用兩個隨機森林和兩個完全隨機森林,兩種森林均由500個決策樹以及完全隨機決策樹構成。每個決策樹決策過程[12]如圖3所示,假定有三個類,n個決策樹,每個決策樹將確定一個三維類向量,然后取n個三維類向量的平均值,最后得到最大值對應的類別作為決策樹最終的分類結果。

圖3 隨機森林集成決策樹生成類向量

隨機森林中的子樹是在整體特征中隨機選取的部分特征,因此這些決策樹彼此不同,并且各隨機森林也有各自的多樣性。那么,選取合適的判別特征來構建決策樹的分裂點非常重要。然而在原始模型的級聯層中,每個森林對最終預測結果的貢獻是相同的,在學習過程中未考慮各自的擬合質量,忽略了一些重要特征,因此可能導致在小規模數據集中的模型整體性能對森林數量較為敏感。本文改進時考慮到隨機森林在作特征選擇時,能夠隱含地提供分類過程中的特征相對重要性排序列表,從而新模型基于級聯森林模塊進行如下的改進:

(1) 選取各層中每個森林的前k個重要特征;

(2) 分別計算各森林這k個特征的標準差作為一個新特征;

(3) 將這些新特征與該層輸出的類分布矢量以及原始特征結合起來;

(4) 將結合后的特征作為下一層的輸入。

上述過程通過考慮模型中各森林對最終分類結果的不同影響,以新特征的形式加入到級聯森林模塊中,從而在層間傳輸高質量的判別特征,達到提升分類性能的目的。

2.3 深度森林級聯層的改進

對于深度神經網絡模型,網絡的層數往往比層中神經元的個數對整體結構影響更大,基于這種思想,本文采用級聯層展開的結構,在標準深度森林模型的級聯層中使用子層級聯的方法,對級聯森林各層進行分子層的改進。將每個級聯層改為兩個子層級聯的形式,原來各層所包含的兩個隨機森林、兩個完全隨機森林平均地放在兩子層中,即每個子層包含兩種森林各一個,如圖4所示。這種分層監督學習的方法能夠獲得更精確的分類特征向量,該結構能夠進行并行化計算,增加模型訓練機會,有明顯的效率和性能優勢。

圖4 改進模型級聯部分結構

2.4 TBDForest模型

綜合以上三個方面,本文提出的TBDForest模型整體結構如圖5所示。假設輸入的原始數據是400維,在多粒度掃描模塊中分別使用大小為100、200、300的滑塊進行滑動,得到302、202、102個100維、200維、300維的數據特征。將這些特征輸入到一個隨機森林與一個完全隨機森林的級聯中。假設有兩種類別,那么,每個100維的特征向量被變換為兩維的類向量,也就得到一個604+604、404+404、204+204的概率分布,將這些概率向量組合起來就得到2 424維的數據特征向量。完成了多粒度掃描過程后將得到的2 424維數據輸入改進的級聯結構中。假設選取每個森林的前三個重要特征(k的值為3)來提取偏差特征。第一個子層中的每個森林輸出各自的類分布以及標準偏差特征向量,然后與該子層的輸入特征組合在一起,第一子層就輸出2 426維特征向量,作為訓練數據輸入下一子層,第二個子層重復第一個子層的過程,最后輸出兩個子層的類分布和偏差特征作為級聯部分第一層的輸出。以后的各層依次重復上述過程,直到模型的性能驗證結果表明可以終止級聯層。

圖5 TBDForest模型的整體結構

3 實 驗

3.1 實驗環境

為檢驗TBDForest算法對于基因表達小樣本數據集的適用性,本文結合5個數據集使用Python語言來實現特征選擇與分類實驗。實驗使用十折交叉驗證方法,模型訓練前將數據隨機劃分成10份,每次取9份來用于分類模型的訓練,留下1份數據用來檢測模型性能,每次做十輪實驗,十輪結果的平均值就是最終分類的結果[10]。本文對各數據集先特征選擇,之后進行分類性能測試。

3.2 實驗數據

本實驗下載了EBI、NCBI數據庫中的五組高維基因表達DNA微陣列數據來驗證改進模型的性能。這五種疾病數據的樣本量均較小。數據的基本信息如表1所示,Gravier和West是乳腺癌數據、Pomeroy是中樞神經系統疾病數據、Alon是結腸癌數據、Gordon是肺癌數據,這些數據用于檢測癌癥亞型或患病與否的分類[13]。

表1 數據集的基本信息表

3.3 評價標準

實驗結果綜合考慮準確率(Accuracy)、精確度(Precision)、召回率(Recall)、F-1 Score這四個分類方法中最常用的分類性能評價指標[14]。這些指標建立在混淆矩陣的基礎上,如表2所示。

表2 混淆矩陣

準確率(Accuracy)[14]即分類準確的樣本數量與樣本總量的比值。定義如下:

(2)

精確度(Precision)即查準率;召回率(Recall)即查全率[14]。定義如下:

(3)

(4)

F-1 Score即一種綜合考慮查準率和查全率的分類評價指標,其中查全率與查準率權重相同[15]。定義如下:

(5)

3.4 結果與分析

基因表達數據樣本小,特征維度高,直接通過模型分類會導致效果不理想并且缺乏穩定性,如表3所示。表中五個數據集中gcForest和TBDForest模型分類準確率相對較好,但是整體分類準確率不高。因此對五個數據集分別采用Lasso算法進行特征選擇,然后將選擇后的特征數據使用SVM、RF、XGBoost、Adaboost、gcForest、TBDForest進行分類測試以及結果比較。數據經過Lasso算法挑選的重要特征數量基本信息如表4所示。

表3 特征選擇前五個數據集在六種分類方法上的Accuracy對比值 %

表4 特征選擇后的數據集的基本信息表

表5是五個數據集在幾種分類方法上的Accuracy值,可以看出DBForest模型與傳統方法SVM、RF、gcForest、XGBoost、Adboost相比具有更高的準確性。圖6為六種算法在五個數據集上的Precision、Recall、F-1 Score指標,從圖6(a)圖能夠直觀地看出,在Gravier數據集上SVM、gcForest、TBDForest模型的三個指標相當,本文的模型略高,而RF與XGBoost、Adboost兩種集成分類模型效果并不是很好。圖6(b)Pomeroy數據集上的指標結果顯示SVM與TBDForest幾乎可以達到100%的分類性能。圖6(c)West數據集中RF、gcForest則有比較高的指標值,改進的模型依然處于領先的效果。圖6(d)的Alon數據集上TBDForest效果較為明顯,優于其他幾種方法。圖6(e)中對于Gordon數據集,六種方法相差并不大,都能取得良好的分類結果。綜上所述,通過Accuracy、Precision、Recall、F-1 Score指標對比,TBDForest模型在Accuracy、Precision、Recall、F-1 Score方面均優于其他五種方法,可見本文對模型的改進有效地增強分類性能,有良好的適用性。原因是一方面其充分考慮了特征重要性,另一方面子層增加了訓練機會。

表5 特征選擇后五個數據集在六種分類方法上的Accuracy對比值 %

(a) Gravier

(b) Pomeroy

(c) West

(d) Alon

(e) Gordon圖6 六種分類模型的對比圖

4 結 語

針對目前應用比較廣泛的一些分類模型算法對基因表達小樣本數據分類時的不足,本文進行分類模型的優化,提出基于深度森林的改進模型TBDForest,該模型從三個方面進行改進:(1) 采用特征均等性利用的多粒度掃描模塊進行特征變換;(2) 考慮每個森林的擬合質量,通過加入標準差特征向量來改善類分布問題;(3) 在每個級聯層采用子層結構,增加樣本訓練機會,進一步提升分類準確性。經過實驗驗證,改進的模型在基因表達數據小樣本數據集上取得相對較高的Accuracy、Precision、Recall、F-1 Score值,對于小樣本高維度數據有比較好的分類性能。未來將著重考慮將模型應用到各種類型的數據中;考慮所集成森林的多樣性;對特征選擇方法進行優化,減小模型算法的計算消耗,更好地避免“維度災難”,提高穩定性。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 青青草原国产一区二区| 天天综合天天综合| 专干老肥熟女视频网站| 女人18毛片一级毛片在线 | 99这里只有精品在线| 国产亚洲视频免费播放| 国产成人免费观看在线视频| 欧美一级大片在线观看| 园内精品自拍视频在线播放| 无码高潮喷水专区久久| 日韩国产一区二区三区无码| 操美女免费网站| 九九久久精品国产av片囯产区| 亚洲无码熟妇人妻AV在线| 色婷婷国产精品视频| 欧美成人精品高清在线下载| 精品国产一区二区三区在线观看| 国产情侣一区二区三区| 91色爱欧美精品www| 91亚洲精选| 欧美国产综合色视频| 精品视频免费在线| 亚洲综合久久一本伊一区| 国产精品福利在线观看无码卡| 有专无码视频| 日本免费一级视频| 亚洲最大在线观看| 亚洲欧美在线精品一区二区| 99re在线观看视频| 久久人搡人人玩人妻精品| 性色生活片在线观看| 久久久精品无码一区二区三区| a级毛片免费网站| a毛片在线播放| 国产福利免费观看| 国产精品视频白浆免费视频| 国产白丝av| 国产自在线播放| 在线视频精品一区| 香蕉精品在线| 97在线免费| 久996视频精品免费观看| 亚洲国产成人无码AV在线影院L| 亚洲综合久久成人AV| 成人国产精品网站在线看| 亚洲国产成人自拍| 国产精品永久在线| 成年网址网站在线观看| 国产av一码二码三码无码| 亚洲视频三级| 丁香亚洲综合五月天婷婷| 国产一区二区三区在线观看视频 | 精品无码视频在线观看| 日韩av在线直播| 国产地址二永久伊甸园| 国产成人精品2021欧美日韩| 欧美一区国产| 久久99国产视频| 久久伊人操| 99视频免费观看| 国产精品人莉莉成在线播放| 青青青视频免费一区二区| 色哟哟国产精品一区二区| 亚洲精品国产首次亮相| 免费女人18毛片a级毛片视频| 亚洲成a人片| 直接黄91麻豆网站| 亚洲福利一区二区三区| 国产91无码福利在线| 欧美在线综合视频| 欧美激情视频在线观看一区| 99久久国产精品无码| 伊人成人在线视频| 国产日本一线在线观看免费| 一本久道久综合久久鬼色| 精品一区二区三区无码视频无码| 欧洲熟妇精品视频| 亚洲精品欧美重口| 狠狠色婷婷丁香综合久久韩国 | 2021天堂在线亚洲精品专区| 91福利免费| jizz亚洲高清在线观看|