999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的生長激素結(jié)合蛋白特征提取研究

2021-07-07 06:35:44范仕豪
電子樂園·下旬刊 2021年7期
關(guān)鍵詞:重要性特征評價(jià)

范仕豪

摘要:本文收集生長激素結(jié)合蛋白序列信息數(shù)據(jù)集,將其分為訓(xùn)練集和測試集兩部分。使用TF-IDF,One-hot和PCA方法提取訓(xùn)練集中的特征向量,構(gòu)建決策樹,梯度提升樹,隨機(jī)森林這三種預(yù)測模型,以及對這三種模型的預(yù)測性能,計(jì)算評價(jià)指標(biāo)。根據(jù)特征重要性進(jìn)行特征篩選,剔除掉重要性較低的特征,保留特征重要性高的特征構(gòu)建預(yù)測模型,再次計(jì)算評價(jià)指標(biāo)進(jìn)行比較。通過比較得出,得出使用PCA方法提取特征,進(jìn)行特征篩選后構(gòu)建的梯度提升樹預(yù)測模型性能最好,precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。

關(guān)鍵詞:生長激素結(jié)合蛋白;機(jī)器學(xué)習(xí);特征篩選;TF-IDF;One-Hot;PCA;決策樹;梯度提升樹;隨機(jī)森林

引言:隨著現(xiàn)代人工智能技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)作為當(dāng)前人工智能的主要技術(shù)之一,不斷產(chǎn)生突破性進(jìn)展,我們可以把機(jī)器學(xué)習(xí)運(yùn)用到各種領(lǐng)域,比如我們進(jìn)出學(xué)校時(shí)的師生人臉識別系統(tǒng)[1],無人駕駛汽車的上路駕駛系統(tǒng)[2],家里的各種智能掃地機(jī)器人和各類智能家居,也可以精細(xì)到生物醫(yī)學(xué)分子研究和醫(yī)學(xué)影像,習(xí)近平總書記強(qiáng)調(diào),“人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量,加快發(fā)展新一代人工智能是事關(guān)我國能否抓住新一輪科技革命和產(chǎn)業(yè)變革機(jī)遇的戰(zhàn)略問題”,因此為蛋白質(zhì)識別的研究帶來新的可能和機(jī)遇。

本文主要講述如何利用已有獲得的生長激素結(jié)合蛋白序列信息,進(jìn)行數(shù)據(jù)挖掘信息,使用不同的方法提取特征向量,再分別對根據(jù)其特征的重要性進(jìn)行篩選特征,構(gòu)建決策樹,梯度提升樹,隨機(jī)森林算法構(gòu)建預(yù)測模型,在測試集上進(jìn)行模型評估,計(jì)算不同特征提取方法下得到的預(yù)測模型的評價(jià)指標(biāo),并對其進(jìn)行比較和分析。

1 數(shù)據(jù)集的收集

用收集到的原始生長激素結(jié)合蛋白序列信息全部數(shù)據(jù)集分為兩類,一類是訓(xùn)練集,用來進(jìn)行不同方法下的特征提取和構(gòu)建預(yù)測模型,另一部分是測試集,在測試集上進(jìn)行預(yù)測模型的評估,計(jì)算預(yù)測模型的評價(jià)指標(biāo)。其中得到訓(xùn)練集的正樣本和負(fù)樣本分別有123個(gè),測試集的正樣本和負(fù)樣本分別有31個(gè)。

2 特征提取方法

2.1? One-Hot

獨(dú)熱編碼(One-Hot Encoding),也被稱為一位有效編碼,其方法是使用N位狀態(tài)寄存器來對N個(gè)狀態(tài)進(jìn)行編碼分析處理,每個(gè)寄存器位都代表一個(gè)獨(dú)立的狀態(tài),并且不論何時(shí),其中只有一位有效,即只有一位是1,剩下的位都是0。獨(dú)熱編碼是利用0和1表示一些參數(shù),使用N位狀態(tài)寄存器來對N個(gè)狀態(tài)進(jìn)行編碼。

2.2? TF-IDF

“詞頻——逆向文件頻率”(Term Frequency - Inverse Document Frequency,簡稱TF-IDF),是一種統(tǒng)計(jì)方法,用來評判某個(gè)字對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要度,這種方法廣泛用于機(jī)器識別和文本挖掘技術(shù)中,是一種于咨詢檢索與咨詢勘探的常用加權(quán)技術(shù),某個(gè)字的重要度會與它在文件中出現(xiàn)的次數(shù)成正比,也同時(shí)會與它在語料庫中出現(xiàn)的頻率成反比。得到的特征向量命名為:

['A', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y']

2.3 PCA

主成分分析(principal components analysis,簡稱PCA)是一種較為經(jīng)典的數(shù)據(jù)降維方法。它的基本思想是從一組特征中計(jì)算出一組按照重要性的大小從大到小依次排列的新特征,它們是原有特征的線性組合,并且新特征之間不相關(guān), 我們計(jì)算出原有特征在新特征上的映射值即為新的降維后的樣本。也就是說PCA的目標(biāo)是用一組正交向量來對原特征進(jìn)行變換得到新特征,新特征是原有特征的線性組合。

通過PCA算法能夠?qū)υ?0維的較長特征向量進(jìn)行壓縮,得到一個(gè)簡單的四維特征向量:

3 對模型的評價(jià)

我們對預(yù)測模型的評價(jià)標(biāo)準(zhǔn)要用到這四個(gè)數(shù)據(jù),在常用的評價(jià)預(yù)測二分類模型性能有四個(gè)指標(biāo),分別是準(zhǔn)確率(accuracy),召回率(recall),精確率(precision),平衡F1分?jǐn)?shù)(F1-Score)其表達(dá)式分別如下:

3.1 決策樹預(yù)測模型評價(jià)

測試集對決策樹預(yù)測模型進(jìn)行測試,當(dāng)使用One-Hot方法提取特征時(shí),決策樹預(yù)測模型評價(jià)指標(biāo)precision為0.39,recall為0.40,f1-score為0.38,accuracy為0.40。當(dāng)使用TF-IDF方法提取特征時(shí),precision為0.48,recall為0.48,f1-score為0.47,accuracy為0.48。使用PCA方法提取特征時(shí),precision為0.65,recall為0.63,f1-score為0.62,accuracy為0.62。

通過評價(jià)指標(biāo)可以看出,預(yù)測模型的性能并不好。因此考慮對特征向量進(jìn)行處理,剔除一些冗余特征。

在One-Hot方法和TF-IDF方法提取特征向量時(shí),各個(gè)特征的重要性如下表:

根據(jù)特征的重要性進(jìn)行篩選,篩選特征閾值為0.1,剔除特征重要性小于0.1的特征,兩種方法分別保留[‘C’ , ’L’ , ’W’ , ’ Y ’]和[‘F’ , ’M’ , ’Q’ , ’ W ’]。

使用PCA提取特征向量時(shí),得到各個(gè)特征的重要性如下表:

根據(jù)特征的重要性進(jìn)行篩選,篩選特征閾值為0.1,剔除特征重要性小于0.1的特征,得到一個(gè)新的特征向量,保留[‘X2’ , ’X3’ , ’X4’ ]。

對進(jìn)行剔除冗余特征后的特征向量重新構(gòu)建決策樹模型,再次用測試集對其進(jìn)行模型測試,得到評價(jià)指標(biāo):當(dāng)使用One-Hot方法提取特征時(shí),評價(jià)指標(biāo)precision為0.61,recall為0.58,f1-score為0.55,accuracy為0.58。當(dāng)使用TF-IDF方法提取特征時(shí),precision為0.52,recall為0.52,f1-score為0.48,accuracy為0.52。使用PCA提取特征時(shí),precision為0.66,recall為0.60,f1-score為0.55,accuracy為0.60。

可以得出,在進(jìn)行特征篩選,剔除冗余特征后構(gòu)建的決策樹模型,性能明顯得到了優(yōu)化,評價(jià)指標(biāo)也有所提高。

3.2 隨機(jī)森林預(yù)測模型評價(jià)

使用測試集對隨機(jī)森林預(yù)測模型進(jìn)行測試,當(dāng)使用One-Hot方法提取特征時(shí),評價(jià)指標(biāo)precision為0.63,recall為0.63,f1-score為0.63,accuracy為0.63。當(dāng)使用TF-IDF方法提取特征時(shí),precision為0.52,recall為0.52,f1-score為0.50,accuracy為0.52。使用PCA提取特征時(shí),precision為0.64,recall為0.63,f1-score為0.62,accuracy為0.63。

根據(jù)特征向量的特征重要性進(jìn)行特征篩選,在隨機(jī)森林中,使用One-Hot方法和TF-IDF方法提取特征的特征重要性如下表:

篩選特征閾值為0.05,剔除掉特征重要性低于0.05的特征,兩種方法下分別保留[‘A’ , ’F’ , ’H’ , ’ I ’ , ‘L’ , ‘N’ , ‘W’]和[‘C’ , ’E’ , ’F’ , ’ H ’ , ‘I’ , ‘R’ , ‘V’ , ‘W’]

使用PCA方法提取特征向量,各個(gè)特征的重要性如下表:

篩選特征閾值為0.2,剔除掉特征重要性低于0.2的特征,保留[‘X2’ , ’X3’]

對進(jìn)行剔除冗余特征后的特征向量重新構(gòu)建隨機(jī)森林模型,再次用測試集對其進(jìn)行模型測試,得到評價(jià)指標(biāo):當(dāng)使用One-Hot方法提取特征時(shí),評價(jià)指標(biāo)precision為0.65,recall為0.65,f1-score為0.64,accuracy為0.65。當(dāng)使用TF-IDF方法提取特征時(shí),precision為0.55,recall為0.55,f1-score為0.55,accuracy為0.55。使用PCA提取特征時(shí),precision為0.64,recall為0.63,f1-score為0.62,accuracy為0.63。

可以得出,在進(jìn)行特征篩選,剔除冗余特征后構(gòu)建的隨機(jī)森林模型,性能明顯得到了優(yōu)化,評價(jià)指標(biāo)也有所提高。

3.3梯度提升樹預(yù)測模型評價(jià)

使用測試集對梯度提升樹預(yù)測模型進(jìn)行測試,當(dāng)使用One-Hot方法提取特征時(shí),評價(jià)指標(biāo)precision為0.52,recall為0.52,f1-score為0.52,accuracy為0.52。當(dāng)使用TF-IDF方法提取特征時(shí),precision為0.66,recall為0.65,f1-score為0.64,accuracy為0.62。使用PCA提取特征時(shí),precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。

根據(jù)特征向量的特征重要性進(jìn)行特征篩選,在梯度提升樹預(yù)測模型中,使用One-Hot和TF-IDF方法提取特征的特征重要性如下表:

One-Hot方法下篩選特征閾值為0.05,剔除掉特征重要性低于0.1的特征,保留[‘L’ , ’N’ ],使用TF-IDF方法篩選特征閾值為0.05,剔除掉特征重要性低于0.05的特征,保留[‘C’ , ’E’ , ’F’ , ’ H ’ , ’L’ , ’M’ , ‘N’ , ’P’ , ’Q’ , ‘R’ , ‘W’]

使用PCA方法提取特征向量,各個(gè)特征的重要性如下表:

由表可得,’X1’特征重要性明顯小于其他幾種特征,但當(dāng)剔除掉’X1’特征時(shí),梯度提升樹預(yù)測模型性能反而降低了,所以’X1’不屬于冗余特征,不作剔除處理。

對進(jìn)行剔除冗余特征后的特征向量重新構(gòu)建梯度提升樹模型,再次用測試集對其進(jìn)行模型測試,得到評價(jià)指標(biāo):當(dāng)使用One-Hot方法提取特征時(shí),評價(jià)指標(biāo)precision為0.61,recall為0.61,f1-score為0.61,accuracy為0.61。當(dāng)使用TF-IDF方法提取特征時(shí),precision為0.71,recall為0.71,f1-score為0.71,accuracy為0.71。使用PCA提取特征時(shí),precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。

可以得出,在進(jìn)行特征篩選,剔除冗余特征后構(gòu)建的梯度提升樹預(yù)測模型,性能明顯得到了優(yōu)化,評價(jià)指標(biāo)也有所提高。

4 結(jié)論

通過對獲得的生長激素結(jié)合蛋白序列信息數(shù)據(jù)集進(jìn)行分類得到構(gòu)建預(yù)測模型的訓(xùn)練集和用來判斷預(yù)測模型性能優(yōu)劣,計(jì)算評價(jià)指標(biāo)的測試集,對訓(xùn)練集數(shù)據(jù)使用One-Hot,TF-IDF,PCA三種方法提取特征向量。再用決策樹,梯度提升樹,隨機(jī)森林這幾種算法進(jìn)行構(gòu)建預(yù)測模型。在測試集上對三種預(yù)測模型進(jìn)行評估,得到預(yù)測指標(biāo)。本文還對已提取的特征向量中的冗長特征進(jìn)行處理,剔除掉特征重要性低的特征,根據(jù)保留剩下的特征再次構(gòu)建三種預(yù)測模型,再次在測試集上進(jìn)行預(yù)測模型的評估,計(jì)算評價(jià)指標(biāo),發(fā)現(xiàn)預(yù)測模型性能明顯得到的提高。最終得出結(jié)論,在預(yù)測生長激素結(jié)合蛋白這種二分類問題時(shí),使用PCA方法提取特征向量,構(gòu)建的梯度提升樹預(yù)測模型性能最好。

參考文獻(xiàn)

[1]韋大歡.基于疫情防控下人臉識別在宿舍管理系統(tǒng)中的應(yīng)用[J].現(xiàn)代計(jì)算機(jī),2022,28(03):82-86.

[2]黃東風(fēng).人工智能在汽車駕駛技術(shù)領(lǐng)域的應(yīng)用與發(fā)展[J].時(shí)代汽車,2022(01):42-43.

猜你喜歡
重要性特征評價(jià)
SBR改性瀝青的穩(wěn)定性評價(jià)
石油瀝青(2021年4期)2021-10-14 08:50:44
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
讀《邊疆的重要性》有感
基于Moodle的學(xué)習(xí)評價(jià)
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 婷婷丁香在线观看| 成年女人a毛片免费视频| 国产在线八区| 亚洲精品日产AⅤ| 欧美日韩国产系列在线观看| 亚洲精品在线观看91| 国产本道久久一区二区三区| 国产欧美日韩资源在线观看| 欧美成人在线免费| 久久精品国产亚洲麻豆| 亚洲国产黄色| 亚洲无码精彩视频在线观看| 亚洲天堂久久| 国产一区二区色淫影院| AV天堂资源福利在线观看| 亚洲第一中文字幕| 免费毛片在线| 999国内精品久久免费视频| 女人18毛片一级毛片在线 | 狠狠色噜噜狠狠狠狠奇米777 | 日韩高清成人| 激情综合五月网| 久久一色本道亚洲| 青青草一区二区免费精品| 国产精品成| 亚洲精品午夜天堂网页| AV无码国产在线看岛国岛| 国产亚洲视频免费播放| 91欧美在线| 波多野结衣一级毛片| 欧美日韩久久综合| 久久a级片| 思思热在线视频精品| 亚洲成a人片在线观看88| 国产无码性爱一区二区三区| 最新精品久久精品| 久久先锋资源| 国国产a国产片免费麻豆| 99re在线视频观看| 五月婷婷丁香综合| 东京热av无码电影一区二区| 在线观看国产网址你懂的| 欧美激情视频二区三区| 亚洲色图综合在线| 成人国产三级在线播放| 国产乱肥老妇精品视频| 91在线视频福利| 国产精品香蕉在线| 国产99免费视频| 亚洲午夜福利精品无码| 91在线精品麻豆欧美在线| 一本大道香蕉久中文在线播放 | 久久情精品国产品免费| 麻豆精品在线播放| 亚洲日本韩在线观看| 亚洲国产一区在线观看| 精品综合久久久久久97超人| 婷婷五月在线| 欧美黑人欧美精品刺激| 97在线免费| 欧美精品一区在线看| 毛片免费高清免费| 操国产美女| 免费av一区二区三区在线| h网站在线播放| 777午夜精品电影免费看| 婷婷综合色| 亚洲第一黄色网址| 国产AV毛片| 亚洲第一黄色网址| 人人妻人人澡人人爽欧美一区 | 天天综合网色| 真人免费一级毛片一区二区| 99视频在线免费看| 日韩无码黄色| 亚州AV秘 一区二区三区| 99re在线观看视频| 国产一级片网址| 国产精品九九视频| 国产精品亚欧美一区二区| 欧美日韩在线成人| 中文字幕调教一区二区视频|