999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的甜味劑分類模型

2021-09-04 12:01:48肖凌俊陳愛斌周國雄易積政
農業工程學報 2021年11期
關鍵詞:分類特征模型

肖凌俊,陳愛斌,周國雄,易積政

(1.中南林業科技大學計算機與信息工程學院,長沙 410004;2.中南林業科技大學人工智能應用研究所,長沙 410004)

0 引 言

甜味天生就有吸引力,強烈影響著人們的飲食習慣[1]。由于攝入糖類可以產生愉悅心情,全球食用高熱量食物的人越來越多。但食用過量的高糖類甜食會帶來很多健康問題,如體型過胖,更容易患上心血管疾病和 2型糖尿病[2]。因此,篩選或合成低熱量甚至零熱量而又不失甜味的甜味劑可以預防這些風險,尋找新穎的非營養性甜味劑是一個全世界范圍內都值得研究的課題[3]。計算機技術和虛擬篩選方法在很大程度上推動了藥物研究的進展[4-5],甜味劑的開發過程和藥物相似,因此甜味劑的研究也可以借鑒藥物發展的經驗。目前尋找新型甜味劑主要是基于結構和配體的方法[6]:基于結構是以分子結構為研究對象,探究候選分子與甜味受體結合位點的結合能力[7-8];基于配體的方法主要是利用已知活性和試驗數據的甜味劑、甜性物質,依靠形狀相似性或藥效團等性質,從分子庫中搜索潛在甜味分子[9]。盡管人們在解碼甜味感覺與受體的原理方面取得了進展[10-11],但基于結構去篩選數量眾多的天然和合成的甜味化合物仍然是一項繁瑣而艱巨的任務。

為了顯著減少試驗所需的時間和研究費用,快速識別潛在的甜味分子并降低成本非常有必要。Zhong等[12]采用多元線性回歸(Multi-Linear Regression, MLR)和支持向量機(Support Vector Machine, SVM)基于320個化合物的數據集構建回歸模型;Rojas等[13]使用偏最小二乘判別分析(Partial Least Squares Discriminant Analysis,PLSDA)和k近鄰(k-Nearest Neighbor,KNN)方法建構定量構效關系(Quantitative Structure-Activity Relationship,QSAR)模型來預測分子結構與其甜味的關系,并表示該方法可以設計新型甜味劑。定量構效關系理論使用數學模型來描述分子結構和分子的某種生物活性之間的關系[14]。用于甜味劑和甜味化合物的機器學習預測方法主要有隨機森林(Random Forest, RF)[15-16],遺傳函數近似算法(Genetic Function Approximation,GFA)[17],PLSDA[18]以及結合多種機器學習算法[19-20]。其中PLSDA模型的決定系數R2只有0.748,GFA模型的R2達到了0.83,使用多種機器學習算法的模型R2更是達到了0.91。

雖然上述研究已經取得了一些成果,但他們的模型也存在一些共同的問題,如數據集普遍偏小,局限于特定的化學家族,模型的適用范圍有限,并不能從分子庫中有效地篩選。因此,本研究的主要目的是構建一種基于配體和深度學習方法的模型,可以從大量分子中準確篩選目標分子,為后續檢驗提供參考。

1 材料與方法

1.1 問題分析

目前甜味劑的作用機理主要以 Shallenberger等[21]AH-B理論和 Kier等[22]甜味三角理論為基礎,但它同時也存在一些缺陷,甜味劑可能還與疏水基團的性質、分子內氫鍵、空間要求等有關。不同的甜味劑可能有相同的藥效團或一類特性基團,但不是決定性的,例如愛德萬甜和新橙皮苷二氫查耳酮(圖1),而具有相同結構的黃腐酚作為啤酒花中特有的物質卻呈現苦味,其他常用的甜味劑如阿力甜則沒有該結構。

甜味苦味的感覺是由分子與 G蛋白偶聯受體的關鍵結合位點相互作用而產生的,但甜味分子的結合部位通常超過3個,如國內常用的甜味劑阿斯巴甜有9個與受體的結合位點(圖2),因此分子3D結構的繁多以及編譯分子3D結構的巨大工作量也是甜味劑的開發難點之一。

設計并合成新型人工甜味劑依賴完整有效的甜味理論體系,但近百年來甜味劑的重要發現出自偶然機遇的較多。而想要編譯數據庫中所有分子的三維結構是很難做到的事情,因此無法在大數據集中快速篩選目標分子,不能直接探索未知的甜味分子。但相關研究人員需要一種不明確所篩選分子三維結構下的受體信息也能預測未知分子甜味的方法,因此可以采用深度學習的方法來預測,用已知的試驗數據集建立預測模型繼而從大量的未知分子中篩選出可能性最大的潛在甜味劑并分類。

1.2 基于深度學習的甜味劑分類模型

對于大數據集的快速篩選,二維數據是最合適的選擇,但使用二維數據的同時也會“失真”,即很多關鍵因素圖片難以表現,例如分子的可旋轉鍵數、極性比表面積、折射率、極化率、氫鍵受體、氫鍵個數、水溶性、疏水基團、膜通透性、手性中心數、重原子數、總電荷和芳香環個數等等,因此還需采用分子描述符將結構與各種生物活性聯系起來,以彌補預測方法的不足。試驗中使用一些描述符的模型比使用所有描述符的模型產生了更好結果,僅僅增加描述符的數量并不能提高預測模型的性能,不是所有描述符都與期望的屬性具有潛在關系,本文最終選擇效果最好的擴展連接性指紋[23](Extended-Connectivity Fingerprints,ECFP)。

基于深度學習的甜味劑分類流程如圖3所示,除了區分有相同受體原理的甜味和苦味化合物,主要包括數據集的獲取與匯編、模型的建立與訓練、模型性能評價和甜味劑的分類。模型還增加了無味和甜味強度的分類,不僅僅是篩選出潛在甜味分子根據甜度強弱進行分類,還對篩選出的非甜味類物質通過相同的理論依據分類為苦味和無味。

1.3 數據匯編和整理

為解決以往文獻中甜味化合物的相對甜味數值有較大出入的問題,購買了20種市面上的甜味劑用甜度計進行相對甜度的測定,并參照GB/T 2760-2014《食品添加劑使用標準》的要求以5%蔗糖溶液為標準甜度值。相對甜度較大的測定結果波動較大,以等甜度質量濃度(Mass Concentration of Same Sweetness, MCSS)為參考測定不同甜味化合物的相對甜度值(Relative Sweetness, RS)進行分類(表1)。

表1 不同甜類化合物的相對甜值Table 1 Relative sweetness value of different sweet compounds

除了試驗測量的甜味劑,獨立測試集中共包含 114種強甜度分子和 118種弱甜度分子,從其他文獻中收集169種無味分子和115種苦味分子作為獨立測試集中的無味和苦味分類[24-25],共 516種化合物。訓練和驗證模型的數據集是基于以下公共數據庫的:FooDB(https://www.foodb.ca)和 SuperSweet[26]作為數據集中甜味分類來源,BitterDB[27]和Super Natural II數據庫[28]作為苦味和無味分類來源。

1.4 數據預處理

考慮到分子結構的復雜性和可變性以及生成二維數據的不一致性,本文擴增了數據集,以提升化合物的多樣性。之前的研究只選取目前使用的甜味劑或試驗室測定數據作為數據集,導致數據集偏小,因此本文整合了公共數據庫和相關文獻的甜味、苦味以及部分無味化合物,最終數據集包含了20 029種化合物,同時將所有數據集圖片調整成 224×224(像素)大小(圖4)。數據預處理可以實現準確和穩定的分類[29],因此對25%的隨機數據進行隨機亮度變換,對25%的隨機數據進行旋轉處理(角度為隨機的90°、180°和270°),對25%的隨機數據進行水平翻轉或垂直翻轉處理。亮度變化范圍一般從減少 50%到增強50%[30],因此本文使用了隨機比例系數k(0.75~1.50)。處理好的數據讀取后通過深度學習框架 Pytorch的Normalize函數進行歸一化操作,隨機抽取70%作為訓練集來訓練模型,30%作為驗證集對模型的分類效果進行驗證。

2 基于深度學習的甜味劑分類模型

2.1 網絡框架

本文在基于大數據集的情況下采用機器學習方法去分類化合物時效果不好,認為輸入特征大大影響使用機器學習方法模型的準確性,深度學習具有自動提取特征和選擇最佳特征的獨特特點,根據反向傳播算法更新參數,有效避免了正確選擇這些特征需要大量領域知識與經驗的問題。密集連接卷積網絡(Densely Connected Convolutional Networks,DenseNet)作為基于深度學習的一種網絡,除了具有上述優點,它還以省參數、省計算、抗過擬合以及強大的泛化性能著稱[31]。

DenseNet是在殘差網絡(Residual Network,ResNet)的基礎上改進得來的,通過建立前層與后層之間的密集連接訓練出更深的卷積神經網絡(Convolutional Neural Network,CNN)。密集塊(Dense Block)作為DenseNet的基本模塊,是密集連接機制的核心。DenseNet由密集塊和過渡模塊(Transition)組成,密集塊中后一層是由前面所有的層在通道維度上連接得來的,并作為下一層的輸入,第l層可表示為

式中x0,x1,… ,xl表示每一層的特征圖,Hl(·)表示非線性轉化函數,代表一個組合操作,包括批歸一化(Batch Normalization,BN)、ReLU 函數激活、卷積(Convolution,Conv)和池化(Pooling)操作,DenseNet采用的是BN+ReLU+ 1×1 Conv和BN+ReLU+3x3 Conv組合操作。

2.2 注意力機制

在本文的試驗中,DenseNet的正確率并沒有達到預期,因此需要選擇性地提取信息特征,忽視不太有用的特征。卷積塊注意模塊(Convolutional Block Attention Module,CBAM)是一種結合了通道和空間的注意力機制模塊,使不符合注意力模型的內容弱化或者遺忘,可以使得神經網絡具備專注于選擇特定的輸入[32]。

CBAM分為2部分,第一部分是通道注意力機制模塊。一個特征圖經過一系列卷積池化得到的特征圖,通常認為這個得到的特征圖每個通道都是同樣重要的,但實際每個通道的重要程度還不一樣的,每個通道應該有一個重要性權值來控制該通道的重要程度。具體操作為將輸入的特征圖先分別全局最大池化和平均池化,輸入到 2個神經元數量不一樣的全連接層中,以增加擬合通道間復雜的相關性,具有更多的非線性,減少了參數量和計算量,然后2個輸出相加進入下一個Sigmoid層,得到每個通道的重要性權值,再將原特征圖的每個通道原來的值乘上該權值。第二部分是空間注意力機制模塊,考慮了同一通道不同位置像素的重要性。該模塊先將前一部分的輸出特征圖進行基于通道方向的全局最大池化和平均池化,形成的特征圖用 7×7的卷積核進行卷積,得到一個新的特征圖,經過激活函數sigmoid再與原特征圖相乘:

式中F為原特征圖,Mc(F)為原特征圖經過通道注意力機制得到的新特征圖,MS(Mc(F))為經過空間注意力機制最終得到的特征圖,f7×7為卷積操作,多次試驗后確定卷積核大小為 7×7,MLP是多層感知器,除了輸入輸出層,它中間可以有多個隱層,為了減少參數一般選2層,σ代表Sigmoid激活函數。

2.3 分類模型

分類模型的結構如圖5所示。本文將卷積塊注意模塊插入每個密集塊后面,與原先的過渡層形成一個新層。首先,輸入的224×224×3圖片通過7×7的卷積層后,由密集塊進行組合操作和 concat操作,特征圖的通道數量增加。得到的特征圖通過應用的通道和空間注意力模塊逐元素求和合并輸出特征向量,隨后進入過渡層。過渡層由1×1的卷積層和2×2的平均池化層組成的,即下采樣,它的作用是壓縮模型。最后一個密集塊的輸出進行7×7的全局平均池化后再進行全連接操作得到的矩陣和擴展連接性指紋矩陣通過卷積進行特征融合,隨后建立2個神經元數量不同的全接連層,第一個全連接層將特征維度降低到輸入的一半,第二個全連接層增維回到了原來的特征維度,降維可以更簡單地計算權重部分,也具有更多的非線性,最終通過 Softmax分類器輸出分類結果。試驗模型的batch size設置為64,初始學習率設置為0.005,每7個周期衰減0.1倍。

通過注意力機制和特征融合的作用,使模型盡可能保留重要參數,達到更好的學習效果。采用精度Presision、靈敏度Sensitivity和F1分數來評價模型性能:

式中 TP,FP,FN分別代表被正確分類的正例、錯誤分類的反例和錯誤分類的正例。

3 結果與分析

大多數基于深度學習方法的模型都需要進行改進才能得到良好的結果,本文在試驗中對前人提出的機器學習方法模型進行了評估,發現大多數機器學習方法不再適用,例如經常用來分類的SVM對化合物的分類僅達到了0.47的平均精度,只適用于小批量樣本的任務,不能適應大數據的任務,KNN則達到了0.55的平均精度,只有RF較高達到了0.75的平均精度,但遠不如它們在小數據集情況下的性能。表2中選取了試驗效果較好的深度學習網絡模型 VGG16、ResNet50和DenseNet與改進后的模型作對比,可以看出改進后的模型每一類的分類精度均能達到 0.91。由于沒有加注意力機制的網絡損失(由損失函數得出)波動較大,取最后 20個訓練周期的平均算出每一類的精度、靈敏度和F1分數。圖6可以看出,本文的模型各項指標均遠優于目前常用的卷積神經網絡模型,準確率穩定在0.934左右,損失穩定在0.017左右,準確率的波動幅度小于0.005,損失值的波動幅度小于0.001,沒有過擬合的現象存在,而驗證集準確率曲線和訓練集準確率曲線的結果相差較大是由于擴充的數據集中含有疑難分類的化合物,如最常見的甜味劑糖精就有苦味和金屬味的后調。通過模型新發現的甜味化合物可以進一步試驗測定。

表2 不同方法的模型性能比較Table 2 Comparison of model performance of different methods

本文模型的混淆矩陣如圖7a所示。可以看出苦味分類效果較好,這是由于單獨區分苦味相對于區分甜度強弱的化合物來說簡單的多。模型可以保存,也可以只保存參數,之后的使用只需要載入訓練好的模型,隨后傳入需要篩選的分子圖片以及該分子的擴展連接性指紋,模型即可預測并分類,方便研究人員從大量分子庫中篩選感興趣的分子。本文模擬了一個實際的獨立測試集,并在訓練好的模型上進行分類并測評,混淆矩陣(圖7b)顯示,苦味分子被正確分類的程度最高,甜度強弱方面的分類還不夠完美。相比較前人的二分類,模型增加到了四分類,且各項指標較優,總體還是獲得了很高的精度。

通過模型新發現的甜味分子可以使用虛擬篩選技術或生物試驗進一步檢驗,以方便相關人員尋找理想的低熱量甚至是無熱量的甜味劑,該方法省去了大量建模的任務,可以顯著減少開發甜味劑所需的時間和資金。

4 結 論

甜味劑的開發是一個漫長的過程,本文提出了一種可以篩選潛在甜味劑或苦味劑的深度學習模型,得出以下結論:

1)傳統機器學習方法在前人對甜味劑的二分類中是有效的,但對大量未知分子的分類效果不盡人意,與機器學習不同,深度學習能夠學習豐富的特征,根據反向傳播算法更新參數,找到影響化合物甜味的關鍵結構,因此本文選取了深度學習模型并對其網絡結構進行改進。

2)忽略某些特定的三維結構在理論上難以與真實甜味的感覺強度契合,因此有必要使用特征融合的方法彌補預測方法的不足。

3)注意力機制和余弦退火的改進大大提高了模型的性能。結果表明該模型每一類的分類精度均達到 0.91,可以解決篩選分子時構建三維模型的困難、沒辦法處理海量數據、預測模型有特異性和局限性等問題,在大數據集上能準確地分類以節省昂貴的試驗。因此,對于分子研究和行業中的甜味劑開發來說,本文模型是一種新型的有效方法,為相關人員合理設計和篩選甜味分子提供了一個有用的工具。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产乱人伦偷精品视频AAA| 日韩小视频在线播放| 亚洲第一极品精品无码| 亚洲AV成人一区二区三区AV| 欧美精品啪啪| 久久国产av麻豆| 国产永久无码观看在线| 日韩国产亚洲一区二区在线观看| 欧美精品影院| 亚洲一区二区在线无码| 五月激情综合网| 亚洲高清中文字幕在线看不卡| 国产99视频精品免费观看9e| 国产精品视频猛进猛出| 国产精品久久久久无码网站| 精品国产aⅴ一区二区三区| 青草91视频免费观看| 依依成人精品无v国产| 久久精品视频一| 成人福利在线看| 亚洲一欧洲中文字幕在线| 午夜日b视频| 久久99国产乱子伦精品免| 亚洲另类国产欧美一区二区| 一级全黄毛片| 黄色网在线| 亚洲男人天堂2018| 伊人成人在线| 在线欧美a| 国产尹人香蕉综合在线电影 | 欧美在线免费| 99热最新在线| 欧洲高清无码在线| 99精品福利视频| 白浆视频在线观看| 亚洲Av综合日韩精品久久久| 亚洲欧美在线综合一区二区三区| 国产成人无码久久久久毛片| 国产精品30p| 97综合久久| 久久96热在精品国产高清| 免费毛片视频| 亚洲天堂.com| 国产va欧美va在线观看| 日本国产在线| 国产正在播放| 麻豆精品国产自产在线| 中文字幕免费播放| 看你懂的巨臀中文字幕一区二区| 五月天久久综合| 日韩精品毛片人妻AV不卡| 欧美全免费aaaaaa特黄在线| 在线色综合| 国产成人av一区二区三区| 亚洲精品在线91| 久久香蕉国产线看精品| 亚洲国产精品不卡在线 | 91精品国产无线乱码在线| 国产黑人在线| 国产综合欧美| 日本福利视频网站| 国产三级精品三级在线观看| A级全黄试看30分钟小视频| 日韩高清成人| 日韩中文精品亚洲第三区| 一区二区在线视频免费观看| 中文字幕永久在线看| 成人国产三级在线播放| 国产美女91视频| 日本免费福利视频| 原味小视频在线www国产| 欧美日韩va| 国产日韩久久久久无码精品| 日韩精品无码一级毛片免费| 亚洲91精品视频| 制服无码网站| 精品人妻AV区| 亚洲精品午夜无码电影网| 亚洲综合精品香蕉久久网| 99视频在线看| 精品国产成人三级在线观看| 99精品免费欧美成人小视频 |