999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的生長激素結合蛋白特征提取研究

2021-07-07 06:35:44范仕豪
電子樂園·下旬刊 2021年7期
關鍵詞:重要性特征評價

范仕豪

摘要:本文收集生長激素結合蛋白序列信息數(shù)據(jù)集,將其分為訓練集和測試集兩部分。使用TF-IDF,One-hot和PCA方法提取訓練集中的特征向量,構建決策樹,梯度提升樹,隨機森林這三種預測模型,以及對這三種模型的預測性能,計算評價指標。根據(jù)特征重要性進行特征篩選,剔除掉重要性較低的特征,保留特征重要性高的特征構建預測模型,再次計算評價指標進行比較。通過比較得出,得出使用PCA方法提取特征,進行特征篩選后構建的梯度提升樹預測模型性能最好,precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。

關鍵詞:生長激素結合蛋白;機器學習;特征篩選;TF-IDF;One-Hot;PCA;決策樹;梯度提升樹;隨機森林

引言:隨著現(xiàn)代人工智能技術的不斷發(fā)展,機器學習作為當前人工智能的主要技術之一,不斷產(chǎn)生突破性進展,我們可以把機器學習運用到各種領域,比如我們進出學校時的師生人臉識別系統(tǒng)[1],無人駕駛汽車的上路駕駛系統(tǒng)[2],家里的各種智能掃地機器人和各類智能家居,也可以精細到生物醫(yī)學分子研究和醫(yī)學影像,習近平總書記強調(diào),“人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅動力量,加快發(fā)展新一代人工智能是事關我國能否抓住新一輪科技革命和產(chǎn)業(yè)變革機遇的戰(zhàn)略問題”,因此為蛋白質識別的研究帶來新的可能和機遇。

本文主要講述如何利用已有獲得的生長激素結合蛋白序列信息,進行數(shù)據(jù)挖掘信息,使用不同的方法提取特征向量,再分別對根據(jù)其特征的重要性進行篩選特征,構建決策樹,梯度提升樹,隨機森林算法構建預測模型,在測試集上進行模型評估,計算不同特征提取方法下得到的預測模型的評價指標,并對其進行比較和分析。

1 數(shù)據(jù)集的收集

用收集到的原始生長激素結合蛋白序列信息全部數(shù)據(jù)集分為兩類,一類是訓練集,用來進行不同方法下的特征提取和構建預測模型,另一部分是測試集,在測試集上進行預測模型的評估,計算預測模型的評價指標。其中得到訓練集的正樣本和負樣本分別有123個,測試集的正樣本和負樣本分別有31個。

2 特征提取方法

2.1? One-Hot

獨熱編碼(One-Hot Encoding),也被稱為一位有效編碼,其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼分析處理,每個寄存器位都代表一個獨立的狀態(tài),并且不論何時,其中只有一位有效,即只有一位是1,剩下的位都是0。獨熱編碼是利用0和1表示一些參數(shù),使用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼。

2.2? TF-IDF

“詞頻——逆向文件頻率”(Term Frequency - Inverse Document Frequency,簡稱TF-IDF),是一種統(tǒng)計方法,用來評判某個字對于一個文件集或一個語料庫中的其中一份文件的重要度,這種方法廣泛用于機器識別和文本挖掘技術中,是一種于咨詢檢索與咨詢勘探的常用加權技術,某個字的重要度會與它在文件中出現(xiàn)的次數(shù)成正比,也同時會與它在語料庫中出現(xiàn)的頻率成反比。得到的特征向量命名為:

['A', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y']

2.3 PCA

主成分分析(principal components analysis,簡稱PCA)是一種較為經(jīng)典的數(shù)據(jù)降維方法。它的基本思想是從一組特征中計算出一組按照重要性的大小從大到小依次排列的新特征,它們是原有特征的線性組合,并且新特征之間不相關, 我們計算出原有特征在新特征上的映射值即為新的降維后的樣本。也就是說PCA的目標是用一組正交向量來對原特征進行變換得到新特征,新特征是原有特征的線性組合。

通過PCA算法能夠對原有20維的較長特征向量進行壓縮,得到一個簡單的四維特征向量:

3 對模型的評價

我們對預測模型的評價標準要用到這四個數(shù)據(jù),在常用的評價預測二分類模型性能有四個指標,分別是準確率(accuracy),召回率(recall),精確率(precision),平衡F1分數(shù)(F1-Score)其表達式分別如下:

3.1 決策樹預測模型評價

測試集對決策樹預測模型進行測試,當使用One-Hot方法提取特征時,決策樹預測模型評價指標precision為0.39,recall為0.40,f1-score為0.38,accuracy為0.40。當使用TF-IDF方法提取特征時,precision為0.48,recall為0.48,f1-score為0.47,accuracy為0.48。使用PCA方法提取特征時,precision為0.65,recall為0.63,f1-score為0.62,accuracy為0.62。

通過評價指標可以看出,預測模型的性能并不好。因此考慮對特征向量進行處理,剔除一些冗余特征。

在One-Hot方法和TF-IDF方法提取特征向量時,各個特征的重要性如下表:

根據(jù)特征的重要性進行篩選,篩選特征閾值為0.1,剔除特征重要性小于0.1的特征,兩種方法分別保留[‘C’ , ’L’ , ’W’ , ’ Y ’]和[‘F’ , ’M’ , ’Q’ , ’ W ’]。

使用PCA提取特征向量時,得到各個特征的重要性如下表:

根據(jù)特征的重要性進行篩選,篩選特征閾值為0.1,剔除特征重要性小于0.1的特征,得到一個新的特征向量,保留[‘X2’ , ’X3’ , ’X4’ ]。

對進行剔除冗余特征后的特征向量重新構建決策樹模型,再次用測試集對其進行模型測試,得到評價指標:當使用One-Hot方法提取特征時,評價指標precision為0.61,recall為0.58,f1-score為0.55,accuracy為0.58。當使用TF-IDF方法提取特征時,precision為0.52,recall為0.52,f1-score為0.48,accuracy為0.52。使用PCA提取特征時,precision為0.66,recall為0.60,f1-score為0.55,accuracy為0.60。

可以得出,在進行特征篩選,剔除冗余特征后構建的決策樹模型,性能明顯得到了優(yōu)化,評價指標也有所提高。

3.2 隨機森林預測模型評價

使用測試集對隨機森林預測模型進行測試,當使用One-Hot方法提取特征時,評價指標precision為0.63,recall為0.63,f1-score為0.63,accuracy為0.63。當使用TF-IDF方法提取特征時,precision為0.52,recall為0.52,f1-score為0.50,accuracy為0.52。使用PCA提取特征時,precision為0.64,recall為0.63,f1-score為0.62,accuracy為0.63。

根據(jù)特征向量的特征重要性進行特征篩選,在隨機森林中,使用One-Hot方法和TF-IDF方法提取特征的特征重要性如下表:

篩選特征閾值為0.05,剔除掉特征重要性低于0.05的特征,兩種方法下分別保留[‘A’ , ’F’ , ’H’ , ’ I ’ , ‘L’ , ‘N’ , ‘W’]和[‘C’ , ’E’ , ’F’ , ’ H ’ , ‘I’ , ‘R’ , ‘V’ , ‘W’]

使用PCA方法提取特征向量,各個特征的重要性如下表:

篩選特征閾值為0.2,剔除掉特征重要性低于0.2的特征,保留[‘X2’ , ’X3’]

對進行剔除冗余特征后的特征向量重新構建隨機森林模型,再次用測試集對其進行模型測試,得到評價指標:當使用One-Hot方法提取特征時,評價指標precision為0.65,recall為0.65,f1-score為0.64,accuracy為0.65。當使用TF-IDF方法提取特征時,precision為0.55,recall為0.55,f1-score為0.55,accuracy為0.55。使用PCA提取特征時,precision為0.64,recall為0.63,f1-score為0.62,accuracy為0.63。

可以得出,在進行特征篩選,剔除冗余特征后構建的隨機森林模型,性能明顯得到了優(yōu)化,評價指標也有所提高。

3.3梯度提升樹預測模型評價

使用測試集對梯度提升樹預測模型進行測試,當使用One-Hot方法提取特征時,評價指標precision為0.52,recall為0.52,f1-score為0.52,accuracy為0.52。當使用TF-IDF方法提取特征時,precision為0.66,recall為0.65,f1-score為0.64,accuracy為0.62。使用PCA提取特征時,precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。

根據(jù)特征向量的特征重要性進行特征篩選,在梯度提升樹預測模型中,使用One-Hot和TF-IDF方法提取特征的特征重要性如下表:

One-Hot方法下篩選特征閾值為0.05,剔除掉特征重要性低于0.1的特征,保留[‘L’ , ’N’ ],使用TF-IDF方法篩選特征閾值為0.05,剔除掉特征重要性低于0.05的特征,保留[‘C’ , ’E’ , ’F’ , ’ H ’ , ’L’ , ’M’ , ‘N’ , ’P’ , ’Q’ , ‘R’ , ‘W’]

使用PCA方法提取特征向量,各個特征的重要性如下表:

由表可得,’X1’特征重要性明顯小于其他幾種特征,但當剔除掉’X1’特征時,梯度提升樹預測模型性能反而降低了,所以’X1’不屬于冗余特征,不作剔除處理。

對進行剔除冗余特征后的特征向量重新構建梯度提升樹模型,再次用測試集對其進行模型測試,得到評價指標:當使用One-Hot方法提取特征時,評價指標precision為0.61,recall為0.61,f1-score為0.61,accuracy為0.61。當使用TF-IDF方法提取特征時,precision為0.71,recall為0.71,f1-score為0.71,accuracy為0.71。使用PCA提取特征時,precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。

可以得出,在進行特征篩選,剔除冗余特征后構建的梯度提升樹預測模型,性能明顯得到了優(yōu)化,評價指標也有所提高。

4 結論

通過對獲得的生長激素結合蛋白序列信息數(shù)據(jù)集進行分類得到構建預測模型的訓練集和用來判斷預測模型性能優(yōu)劣,計算評價指標的測試集,對訓練集數(shù)據(jù)使用One-Hot,TF-IDF,PCA三種方法提取特征向量。再用決策樹,梯度提升樹,隨機森林這幾種算法進行構建預測模型。在測試集上對三種預測模型進行評估,得到預測指標。本文還對已提取的特征向量中的冗長特征進行處理,剔除掉特征重要性低的特征,根據(jù)保留剩下的特征再次構建三種預測模型,再次在測試集上進行預測模型的評估,計算評價指標,發(fā)現(xiàn)預測模型性能明顯得到的提高。最終得出結論,在預測生長激素結合蛋白這種二分類問題時,使用PCA方法提取特征向量,構建的梯度提升樹預測模型性能最好。

參考文獻

[1]韋大歡.基于疫情防控下人臉識別在宿舍管理系統(tǒng)中的應用[J].現(xiàn)代計算機,2022,28(03):82-86.

[2]黃東風.人工智能在汽車駕駛技術領域的應用與發(fā)展[J].時代汽車,2022(01):42-43.

猜你喜歡
重要性特征評價
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
基于Moodle的學習評價
線性代數(shù)的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 波多野结衣亚洲一区| 九九热在线视频| 亚洲精品在线影院| h视频在线播放| 久久综合色视频| 在线欧美国产| 精品无码人妻一区二区| 天堂成人在线视频| 欧美成人h精品网站| 久热精品免费| 国产成人精品综合| 国产精品久久国产精麻豆99网站| 中文字幕在线播放不卡| 老司机精品99在线播放| 亚洲高清日韩heyzo| 伊人久久大线影院首页| 国产真实乱了在线播放| 无码中字出轨中文人妻中文中| 91视频青青草| 99久久无色码中文字幕| 综合色区亚洲熟妇在线| 亚洲国产成人久久精品软件| 国产新AV天堂| 91视频首页| 国产成人高清精品免费软件| 在线观看国产精美视频| 久久亚洲国产一区二区| 国产精品99在线观看| 精品91自产拍在线| 麻豆a级片| 亚洲精品无码不卡在线播放| 色窝窝免费一区二区三区| 日韩av资源在线| 国产在线日本| 白浆视频在线观看| 亚洲欧洲日韩国产综合在线二区| 色综合久久88| 最新国产你懂的在线网址| 在线亚洲天堂| 国产精品人人做人人爽人人添| yjizz国产在线视频网| 波多野结衣无码中文字幕在线观看一区二区| 免费女人18毛片a级毛片视频| 伊人91在线| 欧美精品在线观看视频| 五月天久久综合国产一区二区| 精品国产成人三级在线观看| 国产福利在线免费| 夜夜操国产| 亚洲无码四虎黄色网站| 色婷婷成人网| 国产精品七七在线播放| 欧美中日韩在线| 亚洲娇小与黑人巨大交| 国产无码性爱一区二区三区| 婷婷综合色| 亚洲天堂免费在线视频| 久久综合伊人 六十路| 午夜在线不卡| 亚洲va视频| 欧美日韩国产系列在线观看| 亚洲欧洲日韩综合色天使| 在线欧美日韩| 久久免费观看视频| 国产第八页| 国内精品久久久久久久久久影视| 91最新精品视频发布页| igao国产精品| 欧美无遮挡国产欧美另类| 国产精品成人第一区| 亚洲AⅤ波多系列中文字幕| 欧美福利在线| 日本国产精品| 激情网址在线观看| 亚洲最大看欧美片网站地址| 久久免费视频播放| 伊人久久青草青青综合| 色吊丝av中文字幕| 欧美一级高清免费a| 久久久波多野结衣av一区二区| 免费观看亚洲人成网站| 中文字幕在线一区二区在线|