基于深度學習的數據分類預測及應用

2022-06-23 06:09:08吳貴軍范鵬生陳浩辰楊振興

無線互聯科技 2022年8期

吳貴軍，范鵬生，陳浩辰，楊振興，吳英

（重慶科技學院智能技術與工程學院，重慶 401331）

0 引言

隨著深度學習的快速發展,數據分類預測算法已經被廣泛應用于社會中的各個領域。通過深度學習對大數據進行處理分析,人們可以快速、高效地獲取有用的信息。本文通過深度學習算法對1 974 個樣本中的729 的信息特征進行處理分析,預測出50 個樣本的ADMET(Absorption,Distribution,Metabolism,Excretion,Toxicity）數據。這些預測數據可以作為治療ERα 類乳腺癌化合物是否適用于人體的一個標準。

1 數據分類預測算法

1.1 決策樹算法

利用決策樹模型算法中的CART(Classification And Regression Tree）分為兩個過程,第一個過程進行遞歸建立二叉樹,第二個過程用驗證數據進行剪枝［1］。假設K個類別,第k個類別的概率為pk,概率分布的基尼系數表達式:

本文中所需要的結果是一個二分類［2］,在面對二分類時第一個樣本輸出概率為p,概率分布的基尼系數表達式為:

1.2 SVM 算法

支持向量機 (Support Vector Mac,SVM）是一種二分類的模型。支持向量機通過在兩個不同類之間尋找一個超平面,使類之間的分離邊界最大化,從而建立分類預測模型。公式如下:

其中,x表示特征,y表示類標,n為樣本的個數,m為特征的個數。假設樣本數據是線性可分的,支持向量機通過訓練,尋找一個超平面將數據劃分為兩類,其主要思想為找到空間中的一個能夠將所有數據樣本劃開的超平面,并且使得樣本集中所有數據到這個超平面的距離最短,點到超平面的距離d就可以用如下公式進行計算:

通過上述公式可以將所有數據變量看成一個樣本,把每個樣本點按照支持向量機的方法在高維數據中找出一個超平面,計算出每個點到這個平面的距離,通過距離對樣本點進行逐個分類。

1.3 KNN 算法

使用KNN 算法時,需要對KNN 選擇最佳K值和權重,同時需要了解KNN 的基本原理,構建訓練樣本集和測試樣本集,計算測試樣本集里的樣本與所有訓練樣本集里的樣本的距離。訓練樣本集 A ＝｛y1,…yn｝,測試樣本集 B ＝｛x1,…,xn｝。計算樣本距離公式如下:

計算出距離后,需要比較所有訓練樣本點到某個測試樣本點的距離,選出K個距離最小的訓練樣本點。

1.4 貝葉斯算法

貝葉斯模型算法原理是基于貝葉斯定理的一組監督學習算法,即假設每對特征之間相互獨立。給定一個類別y和一個從x1到xn的相關的特征向量,貝葉斯定理［3］闡述了以下關系:

使用簡單(naive）的假設:每對特征之間都相互獨立:

對于所有的math:i,這個關系式可以簡化為:

由于在給定的輸入中p(y/x1….xn）是一個常量,使用下面的分類規則:

可以使用最大后驗概率(Maximum A Posteriori,MAP）來估計p(y）和p(xi/y）,樸素貝葉斯分類器的差異大部分來自于處理p(xi/y）分布時的所做的假設不同,假設不一樣最后獲得的結果也不一樣。

1.5 多層感知分類器

多層感知器也叫作人工神經網絡(Artificial Neural Network,ANN）。多層感知器分類器(MLPC）是基于前饋人工神經網絡(ANN）的分類器。 MLPC 由多個節點層組成,每個層連接到網絡中的下一層。輸入層中的節點表示輸入數。所有其他節點,通過輸入與節點的權重w和偏置b的線性組合,并應用激活函數,將輸入映射到輸出。對于具有K+ 1 層的MLPC,這可以以矩陣形式寫成如下:

中間層中的節點一般使用sigmoid(logistic）函數,公式如下:

輸出層中的節點使用softmax 函數:

2 應用實驗及結果

本文主要對Erα(Estrogen receptors alpha）具有活性影響的化合物進行ADMET(Absorption,Distribution,Metabolism,Excretion,Toxicity）性質數據預測分類,構建了5 個預測分類模型分別對文中所給的5 個性質進行了預測分類。 5 個預測分類模型分別是KNN 算法、CART 算法、VM 算法、貝葉斯算法、MLPC 算法。每個模型的預測精度如表1 所示。

表1 5 種化合物預測精度

3 結語

本文利用5 種分類預測模型對化合物的ADMET性質進行分類預測,通過預測結果顯示,使用決策樹模型進行預測時精準度最高,達到了90%,即表示在CYP3A4 性質預測數據中有90%的化合物可用于治療乳腺癌。 ADMET 性質數據對于乳腺癌治療有著重要的作用,可以用來驗證ERα 拮抗劑具有高活性的化合物是否適用于人體的標準。