改進RAkEL 分類算法的多功能酶分類預測

2021-08-02 07:40:06皮賽奇

軟件導刊 2021年7期

皮賽奇，劉干

（貴州民族大學人文科技學院，貴州貴陽 550025）

0 引言

隨著生物信息技術快速發展和蛋白質測序手段改進，高通量的蛋白質基因序列被發現［1］。采用傳統生物技術手段對高通量的蛋白質進行功能預測費時且費力，如何高效、快速地對高通量蛋白質進行精準預測值得研究［2］。近年來，隨著大數據和人工智能行業的興起，利用人工智能和機器學習手段對高通量的蛋白質進行分類預測是現階段比較火熱的方法［3］。研究人員利用機器學習對相應的蛋白質進行分類預測，例如，利用支持向量機對氧化還原酶進行亞類的分類預測、利用隨機森林算法對膜蛋白進行預測、運用深度學習相關算法對蛋白質亞細胞定位進行研究等［4］。研究者們主要從兩個大的方向進行研究實驗。第一個方向為蛋白質特征提取，第二個方向為分類器模型搭建［5］。研究者們提出了各種各樣的特征提取模型以及特征融合算法，同時也搭建出各種不同的機器學習模型，這些研究在相應實驗中都取得了非常好的效果，但主要考慮單標簽分類。然而，現實世界中存在非常多的多功能蛋白質（具有多個功能標簽），此時，運用上述單標簽機器學習算法模型進行分類預測效果不顯著。因此，構建多標簽機器學習模型對多功能蛋白質進行分類預測顯得十分重要。本文主要對傳統的隨機k標簽分類算法（RAkLE）進行改進，加入Apriori 算法對標簽進行關聯規則挖掘［6］，將得到的關聯規則進行標簽劃分，運用集成（Label Powerset，LP）算法完成模型訓練［7］，最終得到模型并進行標簽分類預測。本文運用改進的多標簽分類學習算法對多功能酶（一種多功能蛋白質）進行分類預測，并與傳統的多標簽分類學習算法作效果比較，改進后的多標簽分類器在相關指標上能取得較好結果。

1 多標簽分類器與多功能酶分類預測研究現狀

1.1 多標簽分類器研究現狀

多標簽機器學習分類器是機器學習領域十分重要的一個方向。由于現實世界中存在的問題大部分都是多標簽問題，因此，研究高效、精準的多標簽機器學習分類器以解決現實生活中的多標簽分類預測問題十分必要。

對多標簽分類學習的研究最早源自于文本分類，主要是基于Boost 方法對文本進行分類［8］。在生物信息學這一領域中，多標簽分類學習主要應用于蛋白質亞細胞定位、蛋白質多功能預測、膜蛋白預測、多功能酶預測、抗菌肽預測、革蘭氏陽性菌預測等方面［9-12］。

多標簽分類學習中構建合理的分類器十分重要。當前主要通過兩種策略構建：第一種是問題轉化策略，其核心思想是將多標簽分類問題轉化為多分類問題，使現有的解決單標簽分類的分類器可以適應，其算法有CC（Classifi?er Chains）算法［13］、LP（Label Powerset）算法［14］、隨機K 標簽（RAkEL）算法［15］；第二種策略是單標簽分類算法改進，核心思想是在單標簽分類器基礎上進行改造使其適用于多標簽分類器。如將最近鄰分類器（KNN）改造成多標簽最近鄰分類器（MLKNN）［16］、將神經網絡模型BP 和RBF 改造成多標簽神經網絡BP-MLL［17］和ML-RBF［18］、將支持向量機（SVM）改造為排序支持向量機（RANKSVM）［19］等。由于多標簽研究更加貼近人們現實生活中的事物分類，研究多標簽問題具有重要意義。

1.2 多功能酶分類預測研究現狀

多功能酶是一種生物催化劑，在維持生命的各種反應中都能起到非常重要的作用。正確快速地注釋出多功能酶的功能對基因工程和細胞工程的發展起到關鍵性作用［20］。傳統的生物技術研究費時費力，利用計算機中機器學習技術進行相關研究尤為重要。Ferrari 等［20］利用多標簽K 近鄰分類器對多功能酶進行研究，注釋功能準確率達80%；Zou 等［21］在利用雙層分類模型對多功能酶進行分類研究，得到了非常好的效果；Che 等［22］對多功能酶進行分類預測，運用IBLR_ML 分類器實現多標簽分類預測；Amidi等［23］利用多功能酶的結構作為特征表達，運用多標簽支持向量機分類器對多功能酶進行研究。隨著深度學習的提出，基于神經網絡的多標簽學習也被相繼提出。利用多標簽神經網絡對多功能酶的注釋研究將是一個重要研究方向。

2 改進多標簽機器學習算法

2.1 隨機k 標簽分類器算法（RAkEL）

隨機k標簽分類器算法（RAkEL）由Tsoumakas 等［14］提出，主要思想是：①將所有數據實例中的標簽，劃分成一組組具有k個標簽的子標簽集合；②對劃分好的k標簽集合使用LP 方法，構造m個分類器，每個分類器用來預測一組k標簽集。利用實例的特征數據進行多類別分類器訓練；③將測試集的數據分別在訓練好的分類器上進行測試，每一個測試用例在每個分類器上都會得到一個結果，最后通過投票方式得到該實例最終標簽。

基于RAkEL 算法思想，通過偽代碼形式展示訓練模型算法和測試模型算法。

RAkEL 算法訓練過程偽代碼：

RAkEL 算法測試過程偽代碼：

2.2 改進RAkEL 算法（Ap-RAkEL）

RAkEL 分類算法是一種集成分類器算法，在處理多標簽分類問題中將標簽進行隨機劃分；然后對每個劃分的標簽用LP 算法為其創建一個分類器，進行模型訓練；最后，將測試數據放到每個訓練好的分類器中進行分類預測，在多個分類器中采用投票策略得出最終結果。由于RAkEL 算法在劃分標簽集時采取的是隨機劃分，在劃分時隨機性很強，標簽之間的關聯性并不能很好地表現出來。在劃分過程中很可能出現大量冗余或者并沒有關聯的組合，這樣增加了計算開銷，降低了計算效率。鑒于此，本文對該算法進行改進，在標簽劃分時加入關聯規則挖掘算法（Apriori 算法），對所有標簽數據集進行關聯挖掘，并給出關聯規則，將得到的關聯規則劃分為一個標簽集合。得到標簽集合后按照標簽集合的總個數確定分類器個數，并用數據進行訓練及預測。該改進算法命名為Ap-RAkEL 算法，C［k］表示長度為k 的候選集，L［k］表示長度為k 的頻繁項集。L［1］表示長度為1 的頻繁項集。

Ap-RAkEL 算法訓練過程偽代碼：

3 實驗數據分析

3.1 實驗數據集

本實驗數據集為多功能酶數據集，多功能酶擁有多種功能，在機器學習算法中可將該類問題劃分為多標簽問題。本數據集中的功能標簽個數為6 個，分別為異構功能、裂合功能、轉移功能、水解功能、合成功能、氧化還原酶功能。其各功數據分布如表1 所示。在蛋白質庫中存在的多功能酶的種類共有4 666 條，實驗中將提取得到的4 076 條數據進行同源性分析，篩選出同源性低于65%的數據進行實驗。

Table 1 Multifunctional data sets表1 多功能數據集

3.2 實驗數據分析

3.2.1 基分類器選擇

由于改進的算法實質還是集成算法，集成算法必須選擇基分類器，本次實驗分別用K 近鄰分類器（KNN）、支持向量機（SVM）、高斯貝葉斯網絡分類器（GaussianNB）、隨機森林分類器進行比較（RF），如圖1 所示?？梢钥闯?，基分類器采用隨機森林（RF）能取得較好效果（此次實驗采用的是獨立集驗證方法）。

Fig.1 Classification and prediction effect of various base classifiers圖1 各種基分類器分類預測效果

3.2.2 隨機森林參數尋找

如圖1 所示，隨機森林分類器整體分類效果優勢明顯。因此，本實驗基分類器選用隨機森林分類器進行集成分類器構建。隨機森林參數設置很重要，本文實驗采用網格搜索法進行參數尋優，如圖2 所示，尋參范圍是1～3 000?？梢钥闯觯攨禐?11 時分類器達到最好效果（此次實驗采用獨立集驗證方法）。

Fig.2 Random forest parameter selection圖2 隨機森林參數選擇

3.2.3 與其他多標簽分類器比較

本實驗最終各項指標與其他分類器進行比較，結果如表5 所示。實驗采用五折交叉驗證，可很好地解決實驗樣本少的問題。此次實驗主要是從微觀精度（Micro-Preci?sion）、微觀召回率（Micro-Recall）、微觀F 值（Micro-F-Mea?sure）、宏觀精度（Macro-Precision）、宏觀召回率（Macro-Re?call）、宏觀F 值（Macro-F-Measure）、平均精度（Average Pre?cision）7 個指標衡量改進后的多標簽分類器在多功能酶分類預測中的效果，并且還與其他文章中的分類器在多功能酶數據集中的分類進行了比較。從表2 數據可以看出，改進后的分類器對多功能酶的分類預測，不論從精度還是召回率上看，都能取得較好結果。其中，平均精度（AP）可達92.03%。

Table 2 Indicators of various classifiers in multifunctional enzymes表2 各種分類器在多功能酶中的指標

4 結語

本文主要利用改進的隨機k標簽機器學習算法（Ap-RAkEL）對多功能酶進行分類預測。主要思路是在RAkEL算法中加入Apiroir 算法，在標簽劃分時找到標簽之間的關聯性，將相關性強的標簽劃分成一個基標簽，減少標簽空間及計算量。實驗表明，本文Ap-RAkEL 算法在多功能酶分類預測中各性能指標能取得較好分類效果。由于本文在關聯性分析中只用到了Apiroir 算法，在未來研究中可以嘗試對關聯性算法作出改進，提升多標簽分類模型預測精度。同時，還可以運用深度學習方法構建新型的多標簽分類器。