999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于嵌入式特征選擇算法下的抗乳腺癌藥物分子活性預測

2022-02-20 00:19:40葉丹胡二琴
電腦知識與技術 2022年34期

葉丹 胡二琴

摘要:文章提出在嵌入式特征選擇算法背景下,通過對比正則化模型和樹模型兩種篩選方法下的重要性權重選取出對生物活性最具有顯著影響的20個分子描述符,并分別建立預測模型。結果表明樹模型下的隨機森林方法真實值與預測值相對平均誤為0.0167,相較于正則化方法和樹模型方法下的梯度提升決策樹更優,證實基于該方法下篩選的模型具有預測誤差小、預測精度更高的優點。

關鍵詞:抗乳腺癌;嵌入式特征選擇;重要性權重選擇特征;生物活性預測

中圖分類號:TP301? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)34-0008-03

1 引言

乳腺癌是目前世界上最常見,致死率較高的癌癥之一。世界衛生組織國際癌癥研究機構(IARC) 發布的2020年全球最新癌癥負擔數據顯示,2020年全球新增癌癥病人約1930萬人,其中女性乳腺癌占11.7%,在數量上已經超越了肺癌(11.4%) ,成為全球新診斷人數最多的癌癥。乳腺癌確診病人超過226萬[1],其中僅中國就超過41萬人,占比9.1%。其發病率和死亡率分別位列我國女性惡性腫瘤的第1位和第4位[2]。雖然乳腺癌發病率高,但致死率相較于肺癌、腸癌這些常見癌癥要稍低。提高早期乳腺癌及其癌前病變的檢出率并進行及時有效的治療是提高乳腺癌預后、降低乳腺癌死亡率的重要措施[3]。

近年來,國內外研究發現雌激素受體α亞型(Estrogen receptors alpha, ERα) 在乳腺發育過程中扮演了十分重要的角色[4-5]。在惡性乳腺癌組織中的雌激素受體的濃度一般較高,而大部分良性腫瘤和正常組織都不含雌激素受體[6],因此ERα被認為是治療乳腺癌的重要靶標。能夠拮抗ERα活性的化合物可能是治療乳腺癌的候選藥物。

不斷地尋找新的手段來改進藥物以最大化藥物的治療效果是科學制藥發展的趨勢。因此,尋找新的抗乳腺癌候選藥物尤為關鍵,對于乳腺癌患者精確治療具有積極而重大意義,可以降低乳腺癌患者死亡率。本文提出在嵌入式特征篩選背景下,通過對比正則化模型和樹模型下不同方法的特征選擇,對1974個化合物所對應的ERα生物活性數據進行特征篩選,并利用不同篩選辦法選取的前20個對生物活性具有顯著性影響的化合物分子式分別構建預測模型并對模型進行評估。

2 數據處理及變量篩選

本文數據來源于2021年中國研究生數學建模競賽數據,數據包含1974個化合物的729個分子描述符信息(自變量)和化合物對應ERα的生物活性值PIC50。PIC50值越大表明生物活性越高,對抑制ERα活性越有效。本文設定PIC50為因變量。利用Python、R編程完成對集中數據的預處理。

2.1 數據預處理

1) 刪除原始數據中化合物分子式中缺失值。原始數據中有225個分子描述符取值全部為零,刪除全部為零的分子描述符后剩余504個分子描述符(自變量)。

2) 進行化合物分子的相關性分析。去除冗余的化合物分子式,防止過度擬合。結合熱力圖1可發現部分變量相關系數絕對值接近1,此類變量的信息高度重疊(本文選取絕對值大于0.9) 。為解決模型建立復雜問題,本文將信息高度重疊的部分變量進行剔除。

經過剔除后還剩222個有化合物分子,顯然直接應用這些化合物分子式不僅浪費時間還可能會導致模型的過度擬合,因此還需要篩選出與因變量PIC50具有一定相關性的自變量。

3) 相關性顯著性檢驗。計算化合物分子式與藥物分子活性PIC50之間的Pearson相關系數并進行假設檢驗得到對應的t值,發現部分化合物分子式與PIC50之間的相關性較弱。為使數據降維,減少原始數據對預測模型準確性的干擾,對相關系數進行顯著性檢驗。運用 Python語言計算出相關系數檢驗統計量t值為1.9612,依次求出每個化合物與藥物分子活性之間的相關系數及對應的檢驗統計量。選出t值>1.9612的統計量,表示拒絕原假設H0,說明該分子化合物與PIC50之間存在顯著的相關關系。經篩選后還剩169個變量下進行特征篩選。

3 特征選擇

變量篩選是高維數據分析中的重要環節,其目的是從眾多變量中識別少數與結局相關的變量。Embedded類特征算法結合了Filter和Wrapper類的優點[7],利用估計器內部的參數對特征進行排序,在選擇特征的同時訓練了模型這樣就有效地提高了運算效率。嵌入式算法有樹結構模型、正則化方法。據此,本文特征選擇階段是對上述預處理剔除后的169個分子描述符數據,在嵌入式算法背景下利用正則化和樹模型特征選擇算法。正則化方法下分別使用內置交叉驗證的嶺回歸、Lasso和彈性網絡估計器;樹模型方法下使用隨機森林方法和GBDT模型進行對比,篩選出前20個對生物活性具有顯著影響的分子描述符。

3.1 基于正則化模型的特征選擇

1) 基于嶺回歸的重要性權重選擇特征

2) 基于Lasso的重要性權重選擇特征

3) 基于ElasticNet的重要性權重選擇特征

3.2 基于樹模型的重要性權重選擇特征

1) 基于隨機森林的重要性權重選擇特征

隨機森林(Random Forest, RF)的基本原理[11]是建立起大量的決策樹,然后把它們融合在一起,這樣能夠建立起一個更為精準且穩定性更高的模型。其工作流程為:首先,運用 bootstrap 重抽樣方法從原始的訓練集當中隨機取出大量的樣本子集,對每個bootstrap樣本構建決策樹模型,然后組合多棵決策樹的預測,并將預測結果以投票法的方式,從所有的預測結果之中選擇出來最終的結果。簡單來說,RF是由多個弱學習器(決策樹)所集成的強學習器。是一種有效的預測工具。基于隨機森林篩選的前20個對生物活性最具顯著影響的分子描述符如圖5所示。

2) 基于GBDT模型的重要性權重選擇特征

梯度提升決策樹[12](GBDT)是以分類回歸樹為基學習器Boosting集成學習算法。在GBDT的每次迭代中都在殘差減少的梯度方向新建一棵CART決策樹,經多次迭代最后的殘差趨近0,最后將所有決策樹的結果累加獲得最終的預測結果。基于隨機森林篩選的前20個對生物活性最具顯著影響的分子描述符如圖6所示。

通過查閱藥物分子研究文獻發現:1) 高效率結合靶標的小分子配體具有更強的疏水性,藥物分子可以通過其疏水基團與機體內的靶標相結合,發揮藥理活性[13];2) 化合物的親脂性對化合物的藥理學活性有重大影響[14];3) 氫鍵作用是藥物與生物靶標之間非共價相互作用中作用力較強的形式之一,往往對藥效的強弱產生重要影響[15]。本文中篩選的部分變量與藥物分子研究理論吻合,如:XLogp、LipoaffinityIndex、nHBAcc。體現出上述使用正則化方法和樹模型方法篩選出的分子描述符較為合理,具有可信度。

4 生物活性預測模型構建與評價

構建預測模型的整體思想:結合三種特征篩選方法下分子描述符的數據作為模型樣本集。正則化篩選變量分別建立嶺回歸、Lasso和ElasticNet彈性網絡預測模型;樹模型篩選變量分別建立隨機森林回歸和梯度提升決策樹回歸模型。模型評估時選用相對平均誤差(MSRE) 作為評價模型的指標。相對平均誤差(MSRE) 的定義如下:

從上述分析可以看出基于嵌入式算法下建立的預測模型都保持了較高的預測精度,而其中所有的樹模型預測結果較正則化方法下的結果更優。在樹模型下方法下,隨機森林方法預測結果優于GBDT模型。

5 結束語

本文從嵌入式特征選擇方法出發,通過化合物對ERα的生物活性數據進行分析,采用特征重要性排序方法進行特征選擇建立不同預測模型,結果表明隨機森林方法在生物活性預測方面具有精度更高的優點。此外,通過特征選擇方法篩選出的部分化合物分子式與藥物分子研究吻合,有望成為抗乳腺癌藥物研究的可選標志物。嵌入式方法下的特征篩選方法具有可拓展性,未來可以將該算法推廣到其他類型癌癥的藥物篩選上,推動未來不同癌癥的靶細胞篩選不同的化合物分子事業發展。

參考文獻:

[1] Sung H,Ferlay J,Siegel R L,et al.Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA:a Cancer Journal for Clinicians,2021,71(3):209-249.

[2] 赫捷,陳萬青,李霓,等.中國女性乳腺癌篩查與早診早治指南(2021,北京)[J].中國腫瘤,2021,30(3):357-382.

[3] 中華預防醫學會,赫捷.中國女性乳腺癌篩查標準(T/CPMA 014-2020)[J].中華腫瘤雜志,2021,43(1):8-15.

[4] Fuqua S A,Wiltschke C,Zhang Q X,et al.A hypersensitive estrogen receptor-alpha mutation in premalignant breast lesions[J].Cancer Research,2000,60(15):4026-9.

[5] 張桂香,趙學東.雌激素受體亞型的研究現狀[J].國外醫學 婦產科學分冊,2002,29(6):352-355.

[6] 趙曉民,徐小明.雌激素受體及其作用機制[J].西北農林科技大學學報(自然科學版),2004,32(12):154-158.

[7] 周志華.機器學習[M].北京:清華大學出版社,2016.

[8] Liu J,Ji S W,Ye J P.Multi-task feature learning via efficient l2,1-norm minimization[J].Uncertainty in Artificial Intelligence,2009:339-348.

[9] Keerthi S S,Shevade S.A fast tracking algorithm for generalized LARS/LASSO[J].IEEE Transactions on Neural Networks,2007,18(6):1826-1830.

[10] Zou H,Hastie T.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society:Series B (Statistical Methodology),2005,67(2):301-320.

[11] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統計與信息論壇,2011,26(3):32-38.

[12] Friedman J H.Greedy function approximation:a gradient boosting machine[J].The Annals of Statistics,2001,29(5): 1189-1232.

[13] Ferreira de Freitas R,Schapira M.A systematic analysis of atomic protein-ligand interactions in the PDB[J].MedChemComm,2017,8(10):1970-1981.

[14] 王佩利.新型抗腫瘤活性小分子化合物的類藥性質研究[D].上海:華東師范大學,2018.

[15] 盛春泉.藥物結構優化——設計策略和經驗規則[M].北京:化學工業出版社,2018.

【通聯編輯:王力】

主站蜘蛛池模板: 欧美激情成人网| 亚洲综合激情另类专区| 久久91精品牛牛| 久久久久夜色精品波多野结衣| 欧美a级完整在线观看| 97人人模人人爽人人喊小说| 一级毛片免费高清视频| 色婷婷亚洲十月十月色天| 中国特黄美女一级视频| 久久成人免费| 国产精品自在线天天看片| 一本大道无码日韩精品影视| 成人精品视频一区二区在线| 亚洲欧洲日产国产无码AV| 在线色综合| 日韩欧美中文字幕在线精品| 亚洲成a人片在线观看88| 国精品91人妻无码一区二区三区| 暴力调教一区二区三区| 日本黄网在线观看| 国产91丝袜在线播放动漫| 久久国产精品波多野结衣| 亚洲视屏在线观看| jizz在线观看| 久久国产精品无码hdav| 亚洲无码高清免费视频亚洲| 91九色视频网| 国产精品无码翘臀在线看纯欲| 视频国产精品丝袜第一页| AV不卡国产在线观看| 亚洲91精品视频| 亚洲男人的天堂网| 中文字幕日韩丝袜一区| 久久综合结合久久狠狠狠97色| 日韩精品亚洲一区中文字幕| 伊人久久大香线蕉影院| 91无码网站| 欧美日韩一区二区三区在线视频| 美女被操91视频| 伊人色天堂| 亚洲视频一区| 亚洲天堂高清| 久久窝窝国产精品午夜看片| 亚洲人成亚洲精品| 成人无码区免费视频网站蜜臀| 精品视频91| 国产精品所毛片视频| 成人综合久久综合| 伊人中文网| 久久精品国产亚洲麻豆| 国产一级一级毛片永久| 日韩AV手机在线观看蜜芽| 人妻无码一区二区视频| 国产成人8x视频一区二区| 日本在线欧美在线| 亚洲天堂视频在线观看| 无码AV高清毛片中国一级毛片| 亚洲人成网站观看在线观看| 先锋资源久久| 67194亚洲无码| 欧美天堂在线| 国产丰满大乳无码免费播放| 欧美一级99在线观看国产| 欧美五月婷婷| 亚洲欧美综合在线观看| 国产jizzjizz视频| 亚洲av综合网| 欧美国产在线看| 美女免费黄网站| 青青青视频91在线 | 色悠久久综合| 亚洲美女AV免费一区| 99re热精品视频国产免费| 国产不卡一级毛片视频| 国产欧美日韩专区发布| 国产极品美女在线| 国产剧情无码视频在线观看| 国产欧美日韩另类| 久久国产精品影院| 国产高清自拍视频| 午夜三级在线| 免费高清自慰一区二区三区|