999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進RAkEL 分類算法的多功能酶分類預測

2021-08-02 07:40:06皮賽奇
軟件導刊 2021年7期
關鍵詞:分類實驗模型

皮賽奇,劉 干

(貴州民族大學人文科技學院,貴州貴陽 550025)

0 引言

隨著生物信息技術快速發展和蛋白質測序手段改進,高通量的蛋白質基因序列被發現[1]。采用傳統生物技術手段對高通量的蛋白質進行功能預測費時且費力,如何高效、快速地對高通量蛋白質進行精準預測值得研究[2]。近年來,隨著大數據和人工智能行業的興起,利用人工智能和機器學習手段對高通量的蛋白質進行分類預測是現階段比較火熱的方法[3]。研究人員利用機器學習對相應的蛋白質進行分類預測,例如,利用支持向量機對氧化還原酶進行亞類的分類預測、利用隨機森林算法對膜蛋白進行預測、運用深度學習相關算法對蛋白質亞細胞定位進行研究等[4]。研究者們主要從兩個大的方向進行研究實驗。第一個方向為蛋白質特征提取,第二個方向為分類器模型搭建[5]。研究者們提出了各種各樣的特征提取模型以及特征融合算法,同時也搭建出各種不同的機器學習模型,這些研究在相應實驗中都取得了非常好的效果,但主要考慮單標簽分類。然而,現實世界中存在非常多的多功能蛋白質(具有多個功能標簽),此時,運用上述單標簽機器學習算法模型進行分類預測效果不顯著。因此,構建多標簽機器學習模型對多功能蛋白質進行分類預測顯得十分重要。本文主要對傳統的隨機k標簽分類算法(RAkLE)進行改進,加入Apriori 算法對標簽進行關聯規則挖掘[6],將得到的關聯規則進行標簽劃分,運用集成(Label Powerset,LP)算法完成模型訓練[7],最終得到模型并進行標簽分類預測。本文運用改進的多標簽分類學習算法對多功能酶(一種多功能蛋白質)進行分類預測,并與傳統的多標簽分類學習算法作效果比較,改進后的多標簽分類器在相關指標上能取得較好結果。

1 多標簽分類器與多功能酶分類預測研究現狀

1.1 多標簽分類器研究現狀

多標簽機器學習分類器是機器學習領域十分重要的一個方向。由于現實世界中存在的問題大部分都是多標簽問題,因此,研究高效、精準的多標簽機器學習分類器以解決現實生活中的多標簽分類預測問題十分必要。

對多標簽分類學習的研究最早源自于文本分類,主要是基于Boost 方法對文本進行分類[8]。在生物信息學這一領域中,多標簽分類學習主要應用于蛋白質亞細胞定位、蛋白質多功能預測、膜蛋白預測、多功能酶預測、抗菌肽預測、革蘭氏陽性菌預測等方面[9-12]。

多標簽分類學習中構建合理的分類器十分重要。當前主要通過兩種策略構建:第一種是問題轉化策略,其核心思想是將多標簽分類問題轉化為多分類問題,使現有的解決單標簽分類的分類器可以適應,其算法有CC(Classifi?er Chains)算法[13]、LP(Label Powerset)算法[14]、隨機K 標簽(RAkEL)算法[15];第二種策略是單標簽分類算法改進,核心思想是在單標簽分類器基礎上進行改造使其適用于多標簽分類器。如將最近鄰分類器(KNN)改造成多標簽最近鄰分類器(MLKNN)[16]、將神經網絡模型BP 和RBF 改造成多標簽神經網絡BP-MLL[17]和ML-RBF[18]、將支持向量機(SVM)改造為排序支持向量機(RANKSVM)[19]等。由于多標簽研究更加貼近人們現實生活中的事物分類,研究多標簽問題具有重要意義。

1.2 多功能酶分類預測研究現狀

多功能酶是一種生物催化劑,在維持生命的各種反應中都能起到非常重要的作用。正確快速地注釋出多功能酶的功能對基因工程和細胞工程的發展起到關鍵性作用[20]。傳統的生物技術研究費時費力,利用計算機中機器學習技術進行相關研究尤為重要。Ferrari 等[20]利用多標簽K 近鄰分類器對多功能酶進行研究,注釋功能準確率達80%;Zou 等[21]在利用雙層分類模型對多功能酶進行分類研究,得到了非常好的效果;Che 等[22]對多功能酶進行分類預測,運用IBLR_ML 分類器實現多標簽分類預測;Amidi等[23]利用多功能酶的結構作為特征表達,運用多標簽支持向量機分類器對多功能酶進行研究。隨著深度學習的提出,基于神經網絡的多標簽學習也被相繼提出。利用多標簽神經網絡對多功能酶的注釋研究將是一個重要研究方向。

2 改進多標簽機器學習算法

2.1 隨機k 標簽分類器算法(RAkEL)

隨機k標簽分類器算法(RAkEL)由Tsoumakas 等[14]提出,主要思想是:①將所有數據實例中的標簽,劃分成一組組具有k個標簽的子標簽集合;②對劃分好的k標簽集合使用LP 方法,構造m個分類器,每個分類器用來預測一組k標簽集。利用實例的特征數據進行多類別分類器訓練;③將測試集的數據分別在訓練好的分類器上進行測試,每一個測試用例在每個分類器上都會得到一個結果,最后通過投票方式得到該實例最終標簽。

基于RAkEL 算法思想,通過偽代碼形式展示訓練模型算法和測試模型算法。

RAkEL 算法訓練過程偽代碼:

RAkEL 算法測試過程偽代碼:

2.2 改進RAkEL 算法(Ap-RAkEL)

RAkEL 分類算法是一種集成分類器算法,在處理多標簽分類問題中將標簽進行隨機劃分;然后對每個劃分的標簽用LP 算法為其創建一個分類器,進行模型訓練;最后,將測試數據放到每個訓練好的分類器中進行分類預測,在多個分類器中采用投票策略得出最終結果。由于RAkEL 算法在劃分標簽集時采取的是隨機劃分,在劃分時隨機性很強,標簽之間的關聯性并不能很好地表現出來。在劃分過程中很可能出現大量冗余或者并沒有關聯的組合,這樣增加了計算開銷,降低了計算效率。鑒于此,本文對該算法進行改進,在標簽劃分時加入關聯規則挖掘算法(Apriori 算法),對所有標簽數據集進行關聯挖掘,并給出關聯規則,將得到的關聯規則劃分為一個標簽集合。得到標簽集合后按照標簽集合的總個數確定分類器個數,并用數據進行訓練及預測。該改進算法命名為Ap-RAkEL 算法,C[k]表示長度為k 的候選集,L[k]表示長度為k 的頻繁項集。L[1]表示長度為1 的頻繁項集。

Ap-RAkEL 算法訓練過程偽代碼:

3 實驗數據分析

3.1 實驗數據集

本實驗數據集為多功能酶數據集,多功能酶擁有多種功能,在機器學習算法中可將該類問題劃分為多標簽問題。本數據集中的功能標簽個數為6 個,分別為異構功能、裂合功能、轉移功能、水解功能、合成功能、氧化還原酶功能。其各功數據分布如表1 所示。在蛋白質庫中存在的多功能酶的種類共有4 666 條,實驗中將提取得到的4 076 條數據進行同源性分析,篩選出同源性低于65%的數據進行實驗。

Table 1 Multifunctional data sets表1 多功能數據集

3.2 實驗數據分析

3.2.1 基分類器選擇

由于改進的算法實質還是集成算法,集成算法必須選擇基分類器,本次實驗分別用K 近鄰分類器(KNN)、支持向量機(SVM)、高斯貝葉斯網絡分類器(GaussianNB)、隨機森林分類器進行比較(RF),如圖1 所示??梢钥闯?,基分類器采用隨機森林(RF)能取得較好效果(此次實驗采用的是獨立集驗證方法)。

Fig.1 Classification and prediction effect of various base classifiers圖1 各種基分類器分類預測效果

3.2.2 隨機森林參數尋找

如圖1 所示,隨機森林分類器整體分類效果優勢明顯。因此,本實驗基分類器選用隨機森林分類器進行集成分類器構建。隨機森林參數設置很重要,本文實驗采用網格搜索法進行參數尋優,如圖2 所示,尋參范圍是1~3 000??梢钥闯觯攨禐?11 時分類器達到最好效果(此次實驗采用獨立集驗證方法)。

Fig.2 Random forest parameter selection圖2 隨機森林參數選擇

3.2.3 與其他多標簽分類器比較

本實驗最終各項指標與其他分類器進行比較,結果如表5 所示。實驗采用五折交叉驗證,可很好地解決實驗樣本少的問題。此次實驗主要是從微觀精度(Micro-Preci?sion)、微觀召回率(Micro-Recall)、微觀F 值(Micro-F-Mea?sure)、宏觀精度(Macro-Precision)、宏觀召回率(Macro-Re?call)、宏觀F 值(Macro-F-Measure)、平均精度(Average Pre?cision)7 個指標衡量改進后的多標簽分類器在多功能酶分類預測中的效果,并且還與其他文章中的分類器在多功能酶數據集中的分類進行了比較。從表2 數據可以看出,改進后的分類器對多功能酶的分類預測,不論從精度還是召回率上看,都能取得較好結果。其中,平均精度(AP)可達92.03%。

Table 2 Indicators of various classifiers in multifunctional enzymes表2 各種分類器在多功能酶中的指標

4 結語

本文主要利用改進的隨機k標簽機器學習算法(Ap-RAkEL)對多功能酶進行分類預測。主要思路是在RAkEL算法中加入Apiroir 算法,在標簽劃分時找到標簽之間的關聯性,將相關性強的標簽劃分成一個基標簽,減少標簽空間及計算量。實驗表明,本文Ap-RAkEL 算法在多功能酶分類預測中各性能指標能取得較好分類效果。由于本文在關聯性分析中只用到了Apiroir 算法,在未來研究中可以嘗試對關聯性算法作出改進,提升多標簽分類模型預測精度。同時,還可以運用深度學習方法構建新型的多標簽分類器。

猜你喜歡
分類實驗模型
一半模型
記一次有趣的實驗
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产日韩欧美中文| 亚洲AV成人一区二区三区AV| 欧美全免费aaaaaa特黄在线| 91偷拍一区| 精品丝袜美腿国产一区| 久久婷婷五月综合97色| 国产精品制服| 国产精品.com| 午夜电影在线观看国产1区| 污视频日本| 99青青青精品视频在线| 欧美天堂久久| 亚洲人成影视在线观看| 国产视频只有无码精品| 思思热在线视频精品| 欧美精品v| 国产在线观看91精品| 国产在线高清一级毛片| 色成人综合| 欧美在线视频a| 中文字幕永久在线观看| 日韩无码视频专区| 伊人无码视屏| 亚洲最新地址| 午夜福利亚洲精品| 四虎精品黑人视频| 色AV色 综合网站| 奇米影视狠狠精品7777| 国产精品福利社| 国产成人精品在线1区| 国产成+人+综合+亚洲欧美| 国产精品人人做人人爽人人添| 欧美丝袜高跟鞋一区二区| 国产一级精品毛片基地| 国产AV无码专区亚洲精品网站| 亚洲精品国产乱码不卡| 国产精品网拍在线| 成人精品免费视频| 国产精品亚欧美一区二区| 亚洲精品免费网站| 欧美福利在线播放| 国产精品制服| 无码日韩视频| 色哟哟国产精品| 亚洲日韩精品欧美中文字幕| 日韩成人午夜| 国产jizzjizz视频| 亚洲午夜久久久精品电影院| 亚欧乱色视频网站大全| 亚瑟天堂久久一区二区影院| av手机版在线播放| 久久久久久高潮白浆| 亚洲色图欧美在线| 五月婷婷丁香色| 色悠久久久| 88av在线看| 亚洲国产精品无码久久一线| 国产在线自乱拍播放| 国产精品亚洲综合久久小说| 国产精品页| 免费观看无遮挡www的小视频| 91国内在线观看| 久久人妻xunleige无码| 四虎国产永久在线观看| 国产原创演绎剧情有字幕的| 国产无码精品在线播放 | 九色综合视频网| 噜噜噜久久| 久久精品国产一区二区小说| 日韩人妻少妇一区二区| 亚洲天堂视频在线观看| 女人18毛片久久| 国产激情影院| 夜精品a一区二区三区| 亚洲精品午夜天堂网页| 国产精品成| 久久综合婷婷| 污污网站在线观看| 在线免费无码视频| 中文字幕首页系列人妻| 亚洲成aⅴ人片在线影院八| 欧美高清三区|