吳貴軍,范鵬生,陳浩辰,楊振興,吳 英
(重慶科技學院智能技術與工程學院,重慶 401331)
隨著深度學習的快速發展,數據分類預測算法已經被廣泛應用于社會中的各個領域。 通過深度學習對大數據進行處理分析,人們可以快速、高效地獲取有用的信息。 本文通過深度學習算法對1 974 個樣本中的729 的信息特征進行處理分析,預測出50 個樣本的ADMET(Absorption,Distribution,Metabolism,Excretion,Toxicity)數據。 這些預測數據可以作為治療ERα 類乳腺癌化合物是否適用于人體的一個標準。
利用決策樹模型算法中的CART(Classification And Regression Tree)分為兩個過程,第一個過程進行遞歸建立二叉樹,第二個過程用驗證數據進行剪枝[1]。假設K個類別,第k個類別的概率為pk,概率分布的基尼系數表達式:
本文中所需要的結果是一個二分類[2],在面對二分類時第一個樣本輸出概率為p,概率分布的基尼系數表達式為:
支持向量機 (Support Vector Mac,SVM)是一種二分類的模型。 支持向量機通過在兩個不同類之間尋找一個超平面,使類之間的分離邊界最大化,從而建立分類預測模型。 公式如下:
其中,x表示特征,y表示類標,n為樣本的個數,m為特征的個數。 假設樣本數據是線性可分的,支持向量機通過訓練,尋找一個超平面將數據劃分為兩類,其主要思想為找到空間中的一個能夠將所有數據樣本劃開的超平面,并且使得樣本集中所有數據到這個超平面的距離最短,點到超平面的距離d就可以用如下公式進行計算:
通過上述公式可以將所有數據變量看成一個樣本,把每個樣本點按照支持向量機的方法在高維數據中找出一個超平面,計算出每個點到這個平面的距離,通過距離對樣本點進行逐個分類。
使用KNN 算法時,需要對KNN 選擇最佳K值和權重,同時需要了解KNN 的基本原理,構建訓練樣本集和測試樣本集,計算測試樣本集里的樣本與所有訓練樣本集里的樣本的距離。 訓練樣本集 A ={y1,…yn},測試樣本集 B ={x1,…,xn}。 計算樣本距離公式如下:
計算出距離后,需要比較所有訓練樣本點到某個測試樣本點的距離,選出K個距離最小的訓練樣本點。
貝葉斯模型算法原理是基于貝葉斯定理的一組監督學習算法,即假設每對特征之間相互獨立。 給定一個類別y和一個從x1到xn的相關的特征向量,貝葉斯定理[3]闡述了以下關系:
使用簡單(naive)的假設:每對特征之間都相互獨立:
對于所有的math:i,這個關系式可以簡化為:
由于在給定的輸入中p(y/x1….xn) 是一個常量,使用下面的分類規則:
可以使用最大后驗概率(Maximum A Posteriori,MAP)來估計p(y)和p(xi/y),樸素貝葉斯分類器的差異大部分來自于處理p(xi/y)分布時的所做的假設不同,假設不一樣最后獲得的結果也不一樣。
多層感知器也叫作人工神經網絡(Artificial Neural Network,ANN)。 多層感知器分類器(MLPC)是基于前饋人工神經網絡(ANN)的分類器。 MLPC 由多個節點層組成,每個層連接到網絡中的下一層。 輸入層中的節點表示輸入數。 所有其他節點,通過輸入與節點的權重w和偏置b的線性組合,并應用激活函數,將輸入映射到輸出。 對于具有K+ 1 層的MLPC,這可以以矩陣形式寫成如下:
中間層中的節點一般使用sigmoid(logistic)函數,公式如下:
輸出層中的節點使用softmax 函數:
本文主要對Erα(Estrogen receptors alpha)具有活性影響的化合物進行ADMET(Absorption,Distribution,Metabolism,Excretion,Toxicity)性質數據預測分類,構建了5 個預測分類模型分別對文中所給的5 個性質進行了預測分類。 5 個預測分類模型分別是KNN 算法、CART 算法、VM 算法、貝葉斯算法、MLPC 算法。 每個模型的預測精度如表1 所示。
表1 5 種化合物預測精度
本文利用5 種分類預測模型對化合物的ADMET性質進行分類預測,通過預測結果顯示,使用決策樹模型進行預測時精準度最高,達到了90%,即表示在CYP3A4 性質預測數據中有90%的化合物可用于治療乳腺癌。 ADMET 性質數據對于乳腺癌治療有著重要的作用,可以用來驗證ERα 拮抗劑具有高活性的化合物是否適用于人體的標準。