999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

紫色球桿菌視紫紅質光譜特性的機器學習研究

2022-06-02 08:14:34郟麗麗孫婷婷
浙江大學學報(理學版) 2022年3期
關鍵詞:模型

郟麗麗,孫婷婷

(浙江科技學院 理學院,浙江 杭州 310023)

紫色球桿菌視紫紅質光譜特性的機器學習研究

郟麗麗,孫婷婷*

(浙江科技學院 理學院,浙江 杭州 310023)

近年來,機器學習等人工智能技術被應用于蛋白質工程,其在蛋白質結構、功能預測、催化活性等研究中具有獨特優勢。在未知蛋白質結構的情況下,將蛋白質序列和功能特性與機器學習相結合,基于序列-活性關系(innovative sequence-activity relationship,ISAR)算法,將蛋白質氨基酸序列數字化,用快速傅里葉變換(fast four transform,FFT)進行預處理,再進行偏最小二乘回歸建模,可在數據集較少情況下擬合得到最佳模型。通過機器學習對紫色球桿菌視紫紅質(gloeobacter violaceus rhodopsin,GR)的突變體蛋白質氨基酸序列與光譜最大吸收波長進行建模,獲得了最佳模型。用最佳索引LEVM760106建模得到的確定系數R2為0.944,均方誤差E為11.64。用小波變換進行的預處理,其R2雖也約為0.944,但E大于11.64,不及FFT進行的預處理。方法較好地解決了蛋白質序列與功能特性之間的數學建模問題,在蛋白質工程中可為預測更優的突變體提供支持。

機器學習;數字信號處理;光譜特性

機器學習是數理統計和計算機科學的延伸,包含許多統計模型和計算機程序算法。1992年,MUGGLETON等[1]運用機器學習算法預測蛋白質二級結構,將蛋白質的二級結構與機器學習的編碼相關聯。隨著機器學習算法的逐漸成熟,出現了用于預測結構、折疊、結合甚至催化活性的新版本機器學習算法,其主要目的是處理有關突變體及其功能特性的積累信息。易華偉等[2]基于蛋白質的氨基酸序列通過機器學習算法預測其穩定性。程淑萍等[3]運用3種不同的機器學習算法預測非編碼RNA和蛋白質之間的相互作用,提高預測的準確率。徐開琨等[4]運用特征選擇與機器學習算法研究生物蛋白質中的標志物,這對疾病的早期診斷和臨床治療等有重要意義。胡如云等[5]介紹了機器學習在合成生物學領域的典型應用,如啟動子預測、酶催化設計、代謝途徑構建、基因線路設計等。

然而機器學習算法大多要求大數據集,只有在大量數據下結合其生物化學特性,才能擬合得到較優的模型,更好地開展定向進化的蛋白質研究工作[6-7]。曲戈等[8-9]通過蛋白質定向進化,產生大量組合突變體數據集,運用機器學習算法較好地獲得了定制化蛋白質。MOSELEY[10]通過將蛋白質的生物化學特性表達與機器學習算法相結合,構建出魯棒性好的統計模型,預測未知的改良突變體。因此,機器學習算法在蛋白質改造研究中有重要應用。

以上機器學習算法都是基于大數據集進行的蛋白質工程研究,在只有少量數據集下進行的機器學習算法研究較少。同時,大多研究基于蛋白質的結構,對未知結構的蛋白質分子及其功能特性的研究也很少。基于序列-活性關系(innovative sequence-activity relationship,ISAR)[11]的算法,為蛋白質工程提供了新的研究方向。

ISAR算法解決了數據集少和未知蛋白質結構的問題,有助于探究蛋白質序列和功能特性的相互關系。ISAR算法由FONTAINE等[12]于2018年開發,以氨基酸的物理化學性質為基礎,用光譜表示蛋白質。CADET等[13]解釋了ISAR算法在改善來自黑曲霉的環氧化物水解酶對映選擇性中的應用。該實驗基于9個單點突變(29)的組合,預測了這512個變異體的對映選擇性,發現了具有更高對映選擇性的突變體。并運用ISAR算法對4個不同類型的數據集(熱穩定性的細胞色素P450、結合親和力的TNF-alpha、結合親和力的GLP-2和熱穩定性的腸毒素)進行擬合建模,驗證了ISAR算法能有效捕捉突變對蛋白質功能的影響。NICOLAS等[14]提出了用不同組合編碼擴展序列的方法建模,測試了4種不同長度的蛋白質(GLP-2、TNFalpha、細胞色素P450和環氧水解酶)及其活性(cAMP激活、結合親和力、熱穩定性和對映選擇性),并預測了一個多肽鏈的適應度值。OSTAFE等[15]通過不同pH的不同介質用ISAR算法提高了葡萄糖氧化酶的活性,使葡萄糖氧化酶突變體(P1)對介質二茂鐵-甲醇(12倍)和硝基苯胺(8倍)具有更大的特異性,并在3個pH調整緩沖區中表現出更好的性能,在存在二茂鐵甲醇的情況下,與pH為5.5的野生型酶相比,P1的kcat/KM比率增加了121倍。

質子泵型視紫紅質(proton-pumping rhodopsin,PPR)[16]蛋白是一種結構比較簡單且廣泛存在的光能轉換系統。結合視黃醛分子在吸收光子后令其構象改變,引起整體蛋白的變構等,在一定程度上能促進三磷酸腺苷酶(adenosine triphosphate,ATP)的合成,將光能轉化為化學能[17-18]。PPR通過將光能轉化為化學能,從而提高細胞的積累生物量。紫色球桿菌視紫紅質(gloeobacter violaceus rhodopsin,GR)是一種PPR,通過取代GR的不同氨基酸獲得不同的GR突變體,影響其吸收光譜的峰值。吸收光譜的峰值越大,光能轉化率越高,微生物的生產和細胞的耐受性越強。因此,需對GR光譜特性進行研究。

通過對GR視網膜結合口袋進行視紫紅質的氨基酸替換,組合成新的GR突變體,以調節其光譜最大吸收波長λmax[19]。從數據集中提取81條少量GR突變體,用ISAR算法對數據進行數字信號處理(digital signal processing,DSP),再與實驗獲得的最大光譜吸收波長進行偏最小二乘回歸(partial least squares regression,PLSR)建模,采用交叉驗證方法獲得符合GR實驗數據要求的最佳模型和蛋白質氨基酸序列與光譜特性的關系。

1 ISAR算法

ISAR是一種創新的序列-活性關系算法,基于快速傅里葉變換(fast Fourier transform,FFT)[20]等DSP算法,將實驗與蛋白質計算設計相結合。ISAR算法分編碼、建模和預測3個階段。圖1為ISAR算法流程。

圖1 ISAR算法流程Fig.1 The flow of ISAR methodology

1.1 編碼階段

在氨基酸指數索引(AAindex)數據庫中找到符合蛋白質特性的最佳索引。AAindex是含566組索引數字指數的數據庫,每組索引包括20種標準氨基酸,代表各自的物理化學和生物化學性質,同時給出了這些索引之間的相關性及其他信息[21]。依據AAindex數據庫,將蛋白質的氨基酸序列數字化,再用FFT將數字信息轉換為能量對頻率的蛋白質光譜形式。其可通過

實現,其中,N為輸入信號的長度,S為輸出光譜(復數),k為光譜的頻率,s(n)為有限長連續信號,n為輸入信號的位置,i為虛數單位。

DSP是一種數據預處理技術,對信號進行分解和處理,以不同方式進行數據表達。FFT是DSP的一種方法,BENSON[22]很早就將傅里葉變換方法應用于生物序列的比較。FFT中一個點的變換將影響整條數據的光譜,因此蛋白質位點中任何一個突變點的變化,都會令蛋白質光譜整體變換,這也是ISAR算法的亮點之一。已有很多方法研究單點突變的變換,將每個特性值累加,忽略了氨基酸之間的相互作用。

1.2 建模階段

對蛋白質光譜與蛋白質突變體的生物化學特性值進行PLSR建模,并用留一交叉驗證法(leave-one-out cross validation,LOOCV)驗證模型和提高模型的魯棒性。蛋白質的生物化學特性值除通過實驗獲得外,還可將生物、數學和計算機相結合,通過機器學習擬合蛋白質的數據預測得到。對無法獲得晶體結構的蛋白質,通過已知蛋白質的氨基酸序列特征屬性,用ISAR算法便可獲得蛋白質的生物化學特性值。

由機器學習算法進行建模,通常需要大量數據集進行訓練和驗證。在ISAR算法中,可用PLSR解決數據集小的問題。為防止模型過擬合,通過LOOCV優化模型參數和驗證模型,同時用確定系數R2和均方誤差E(式(2)和(3))衡量模型好壞。LOOCV是交叉驗證法的一種,由于樣本數n較少,將n-1個樣本作為訓練集,留出1個樣本作為測試集,循環n次,共可獲得n個測試數據。

根據AAindex數據庫中566組索引與實驗數據進行建模,獲得多個模型。在同一組索引下,由不同參數得到若干個不同模型。在參數不變的情況下,566組索引通過LOOCV得到n×566個模型。不同參數和不同組索引得到不同的確定系數R2和均方誤差E。根據最小E和較優R2找到最佳索引,從而獲得最佳模型。

1.3 預測階段

將建模階段選出的最佳索引經實驗數據預處理后放入模型,預測與實驗數據相對應的特征屬性值,同時驗證氨基酸序列與蛋白質功能屬性的相關性。因此,使用有限的實驗數據通過ISAR算法擬合可獲得適應其特征屬性的最佳模型,進一步預測其他可能存在的更好的突變體。

2 結果與討論

2.1 實驗數據

GR通過定向進化獲得81條突變體吸收波長數據集,包含單點突變和組合突變(位點:W122,V126,M158,G162,E166,G178,S181,F185和A256)[23]。GR的野生型光譜最大吸收波長λmax為539 nm,通過替換不同的氨基酸,獲得的突變體的λmax為50~650 nm。因此,組合突變體和氨基酸之間的相互作用會影響GR的λmax。

數據預處理是建模前的關鍵步驟。首先將81條數據進行氨基酸編碼,根據AAindex數據庫,每組索引有20種不同的氨基酸,每種氨基酸用不同的數值代替。GR野生型(wide type,WT)是由20個標準氨基酸組成的長為298的氨基酸序列。首先根據AAindex數據庫進行數值化處理,然后由FFT轉換為蛋白質光譜。圖2為GR的WT、單點突變體W122A和組合突變體G162L/E166W/F185A/A256S的編碼過程。其他突變體的光譜轉換類似。W122A為GR的第122個位點,是色氨酸(tryptophan,W)突變成丙氨酸(alanine,A)的單點突變體。組合突變體G162L/E166W/F185A/A256S由4個位點突變成其他氨基酸得到。3種蛋白質通過FFT得到蛋白質光譜,圖3分別為野生型、突變體W122A和組合突變體G162L/E166W/F185A/A256S在不同頻率下的振幅。由圖3可知,雖然W122A為單點突變、G162L/E166W/F185A/A256S只有4個位點突變,但影響的是整個蛋白的光譜振幅,與WT得到的蛋白質光譜完全不同,這也是ISAR算法的優勢。因此,81條數據通過FFT得到完全不同的81條蛋白質光譜,為后續的吸收光譜建模打下良好基礎。

圖2 用ISAR算法由GR數據得到的不同蛋白質光譜Fig. 2 Different protein spectra are obtained from GR data by ISAR method

圖3 3個蛋白質通過FFT轉變為蛋白質光譜Fig.3 Three proteins are transformed into protein spectra by FFT

2.2 選擇最佳索引

GR是由20種標準氨基酸組成的蛋白質,氨基酸的數值化和相互作用均會影響GR的吸收光譜特性。AAindex數據庫有566組氨基酸索引,其中16組因部分氨基酸數值缺失被剔除。利用剩下的550組索引在固定參數下與PLSR建立模型,并測試其E值,如圖4所示。不同索引的E值不同,550組索引的E值差異較大,對模型的建立和預測有很大影響。由式(2)和式(3)計算R2和E,用較優R2和最小E選擇一組最佳索引[24]。首先,編碼81條GR突變體氨基酸序列數據,并根據FFT得到81條不同蛋白質光譜。然后,與GR的吸收光譜λmax進行建模,優化模型參數,并用LOOCV得到最佳E和R2。表1為由不同的索引與GR數據建模得到的E和R2以及索引的相關信息。對GR實驗數據,用全部的550組索引和不同的模型參數進行模擬,得到的最小E為11.64,與之對應的R2為0.944,最佳索引為LEVM760106。從表1中也可看出,不同索引的E和R2都不同,模型的優劣程度也不同。CEDJ970104索引的R2為0.800,E為20.75,雖然R2相對較高,但E太大,模型擬合度較差,因此舍棄。而CHOC760104和FINA910102索引的R2太小,E更大,模型擬合差,直接舍棄。最終選擇的最佳索引為LEVM760106,將其進行GR突變體氨基酸數字化并預測λmax。

圖4 根據不同參數獲得550個λmax模型的E值Fig.4 The E ofλmax 550 models according to different parameters

表1 不同索引下的R2和ETable 1 The R2and E under different indexes

2.3 建模和預測

由最小E選擇最佳索引LEVM760106,選出最佳模型參數,進行建模與預測。運用ISAR算法預測GR的81條實驗數據,得到λmax的實驗值和預測值、E=11.64、確定系數R2=0.944,模型的擬合度很高。E和R2是衡量模型優劣的標準,E用于選擇最佳索引和最佳模型,R2體現模型的預測能力。由圖5知,λmax的預測值和實驗值在直線附近聚集,偏離不大,模型魯棒性較好。

圖5 R2= 0.944時GR及突變體的LOOCV預測Fig. 5 Prediction of GR and mutants by LOOCV when R2=0.944

2.4 方法比較

ISAR算法中的一個重要環節是用FFT進行數據處理。FFT將單個位點或多個位點的突變體轉換為影響整個蛋白質的變換,改進了以往生物特性功能單純累加的缺陷。同時本研究也運用小波變換預處理數據,得到的結果如表2所示。小波變換也是DSP的一種方法,是對短傅里葉變換的繼承和發展,通過時間或空間的局部變換,突出某地方的特征。

除用LOOCV外,還用十折交叉驗證法驗證模型的優劣。十折交叉驗證法是將樣本數n分成10份,選擇9份作為訓練集,1份作為驗證集。通過不同的數據預處理和不同的交叉驗證方法,得到不同的E和R2。E越小、R2越接近于1,模型的擬合度越高、魯棒性越好。由表2可知,用FFT選擇的最佳索引均為LEVM760106,且十折交叉驗證法增加了驗證集數量,令E和R2均有降低。小波變換采用的小波基為db1,得到的E值均較FFT方法大。雖然用小波變換和LOOCV得到的R2與ISAR算法的相差不多,但是E值高了約0.5,模型擬合度不及ISAR算法。實驗證明ISAR算法中的FFT非常適合GR的λmax擬合,可獲得較優模型,且方便后期的擬合和預測。由表2可知,用4種方法尋找最佳索引,3種方法得到的最佳索引均為LEVM760106。

表2 不同方法對GR的驗證結果Table 2 Verification results of GR by different methods

表3為最佳索引LEVM760106的20種標準氨基酸的數值表示,每個數值均根據某種物理化學特性、氨基酸之間的相互作用以及公式獲得。LEVM760106是關于范德華參數R0[25](一種快速模擬蛋白質折疊)的蛋白質構象簡化表示法。從最佳索引LEVM760106的物理化學性質看,突變前后紫色球桿菌視紫紅質蛋白質氨基酸序列與光譜吸收波長的相關性與其范德華參數R0密不可分。氨基酸序列、最佳索引和物理化學特性不同,蛋白質和模型參數亦不同。

表3 索引LEVM760106中20種氨基酸的數值表示Table 3 Different values of 20 amino acids expressed in index LEVM760106

3 結論

運用AAindex數據庫中最佳索引的數字化蛋白質氨基酸序列,用FFT預處理得到影響整體蛋白質光譜的部分變化,與GR的光譜最大吸收波長λmax進行PLSR建模,得到擬合度較高的模型。最佳模型選取的索引為LEVM760106,其中確定系數R2為0.944,均方誤差E為11.64。由該索引的物理化學性質,可得到在突變前后的紫色球桿菌視紫紅質蛋白序列中,其范德華參數R0變化所引起的物理化學性質與吸收光譜波長的相關性最大。這證明了經傅里葉變換后的頻率(蛋白質譜)可有效描述和預測氨基酸序列的蛋白質活性(序列-活性關系用蛋白質譜建模)。此外,此頻率考慮了突變對光譜的整體影響,而不是局部影響。ISAR算法的優點之一是不依賴于蛋白質的空間結構,只要獲得一定長度的蛋白質氨基酸序列就可與蛋白質的生物化學特性進行建模。優點之二是考慮了氨基酸之間的相互作用力,而不是單純功能屬性值的累加。另外,ISAR算法中的LOOCV和PLSR有效解決了機器學習中數據集少的問題,在數據集量較少時也可進行機器學習。

研究發現,統計預測模型基于氨基酸的物理化學特性建立,并研究了蛋白質氨基酸序列與功能特性的相互關系。用基于已有數據的ISAR算法做預測能否得到比實驗數據更好的突變體有待進一步研究。如能通過ISAR算法預測更好的突變體,這將大大節約生物化工實驗時間,降低實驗成本。統計模型的建立依賴于機器學習,可以預見,機器學習算法將適應更多的生物工程需求,應用于更廣泛的生物化工領域。

[1]MUGGLETON S, KING R D,STENBERG M J E. Protein secondary structure prediction using logic-based machine learning[J]. Protein Engineering, 1992, 5(7):647-657. DOI:10.1093/protein/5.7.647

[2]易華偉,唐曉峰. 基于氨基酸序列和模擬結構預測蛋白質穩定性的研究進展[J]. 生物技術通報, 2017,33(4): 83-89. DOI:10.13560/j.cnki.biotech.bull. 1985.2017.04.011

YI H W, TANG X F. Research progress on the prediction of protein stability based on amino acid sequence and simulated structure[J]. Biotechnology Bulletin, 2017, 33(4):83-89. DOI:10.13560/j.cnki.biotech.bull.1985.2017.04.011

[3]程淑萍,譚建軍,門婧睿. 基于機器學習方法的非編碼RNA-蛋白質相互作用的預測[J]. 北京生物醫學工程,2019, 38(4):353-359. DOI:10.3969/j.issn. 1002-3208.2019.04.004

CHENG S P, TAN J J,MEN J R. Prediction of ncRNA-protein interactions based on machine learning methods[J]. Beijing Biomedical Engineering,2019, 38 (4):353-359. DOI:10.3969/j.issn.1002-3208.2019.04.004

[4]徐開琨,韓明飛,黃傳璽,等. 基于質譜的蛋白質生物標志物發現中的特征選擇與機器學習方法研究進展[J]. 生物工程學報,2019, 35(9):1619-1632. DOI:10. 13345/j.cjb.190064

XU K K, HAN M F,HUANG C X, et al. Research progress of feature selection and machine learning methods for mass spectrometry-based protein biomarker discovery[J]. Chinese Journal of Biotechnology, 2019,35(9): 1619-1632. DOI:10. 13345/j.cjb.190064

[5]胡如云,張嵩亞,蒙海林,等. 面向合成生物學的機器學習方法及應用[J]. 科學通報, 2021,66(3): 284-299. DOI:10.1360/TB-2020-0456

HU R Y, ZHANG S Y,MENG H L, et al. Machine learning for synthetic biology: Methods and applications[J]. Chinese Science Bulletin, 2021,66(3): 284-299. DOI:10.1360/TB-2020-0456

[6]HAMMER S C, KNIGHT A M,ARNOLD F H. Design and evolution of enzymes for non-natural chemistry[J]. Current Opinion in Green and Sustainable Chemistry, 2017,7: 23-30. DOI:10. 1016/j.cogsc.2017.06.002

[7]CHOI Y H, KIM J H,PARK B S, et al. Solubilization and iterative saturation mutagenesis of α1,3-fucosyltransferase from helicobacter pylori to enhance its catalytic efficiency[J]. Biotechnology and Bioengineering, 2016,113(8): 1666-1675. DOI:10. 1002/bit.25944

[8]曲戈,朱彤,蔣迎迎,等. 蛋白質工程:從定向進化到計算設計[J]. 生物工程學報, 2019,35(10):1843-1856. DOI:10.13345/j.cjb.190221

QU G, ZHU T,JIANG Y Y, et al. Protein engineering:From directed evolution to computational design[J]. Chinese Journal of Biotechnology, 2019,35(10):1843-1856. DOI:10.13345/j.cjb.190221

[9]蔣迎迎,曲戈,孫周通. 機器學習助力酶定向 進化[J]. 生物學雜志,2020, 37(4):1-11. DOI:10.3969/j.issn.2095-1736.2020.04.001

JIANG Y Y, QU G,SUN Z T. Machine learning assisted enzyme directed evolution[J]. Journal of Biology, 2020, 37(4):1-11. DOI:10.3969/j.issn. 2095-1736.2020.04.001

[10]MOSELEY L G. Introduction to machine learning[J]. Engineering Applications of Artificial Intelligence, 1988,1(4): 334. DOI:10.1016/0952-1976(88)90057-7

[11]CADET F, FONTAINE N,LI G Y, et al. A machine learning approach for reliable prediction of amino acid interactions and its application in the directed evolution of enantioselective enzymes[J]. Scientific Reports, 2018, 8(1):16757. DOI:10. 1038/s41598-018-35033-y

[12]FONTAINE N, CADET F. Method and electronic system for predicting at least one fitness value of a protein,related computer program product: U.S. Patent Application 15/565,893[P]. 2018-04-05.

[13]CADET F, FONTAINE N,VETRIVEL I, et al. Application of fourier transform and proteochemometrics principles to protein engineering[J]. BMC Bioinformatics, 2018,19(1): 382. DOI:10.1186/s12859-018-2407-8

[14]FONTAINE N, CADET F,VETRIVEL I. Novel descriptors and digital signal processing-Based method for protein sequence activity relationship study[J]. International Journal of Molecular Sciences, 2019,20(22):5640. DOI:10.3390/ijms20225640

[15]OSTAFE R, FONTAINE N,FRANK D, et al. One-shot optimization of multiple enzyme parameters: Tailoring glucose oxidase for pH and electron mediators[J]. Biotechnology and Bioengineering, 2020,117(1): 17-29. DOI:10. 1002/bit.27169

[16]BéJà O, ARAVIND L,KOONIN E V, et al. Bacterial rhodopsin:Evidence for a new type of phototrophy in the sea[J]. Science,2000, 289(5486):1902-1906. DOI:10.1126/science.289.5486.1902

[17]BROWN L S, JUNG K H. Bacteriorhodopsin-like proteins of eubacteria and fungi:The extent of conservation of the haloarchaeal proton-pumping mechanism[J]. Photochemical amp; Photobiological Sciences, 2006,5(6): 538-546. DOI:10.1039/b514537f

[18]CLAASSENS N J, VOLPERS M,SANTOS V A P M D, et al. Potential of proton-pumping rhodopsins: Engineering photosystems into microorganisms[J]. Trends in Biotechnology, 2013,31(11):633-642. DOI:10.1016/j.tibtech.2013.08.006

[19]ENGQVIST M K M, MCLSAAC R S,DOLLINGER P, et al. Directed evolution of Gloeobacter violaceus rhodopsin spectral properties[J]. Journal of Molecular Biology, 2015,427(1), 205-220. DOI:10.1016/j.jmb.2014.06.015

[20]COOLEY J W, TUKEY J W. An algorithm for the machine calculation of complex Fourier series[J]. Mathematics of Computation, 1965, 19(90):297-301.

[21]SHUICHI K, PITOR P,MARIA P, et al. AAindex:Amino acid index database, progress report 2008[J]. Nucleic Acids Research, 2008, 36(Database):D202-D205. DOI:10.1093/nar/gkm998

[22]BENSON D C. Digital signal processing methods for biosequence comparison[J]. Nucleic Acids Research, 1990, 18(10):3001-3006. DOI:10.1093/nar/18.10.3001

[23]YANG K K, WU Z,BEDBROOK C N, et al. Learned protein embeddings for machine learning[J]. Bioinformatics,2018, 34(15):2642-2648. DOI:10. 1093/bioinformatics/bty178

[24]NWANKWO N, SEKER H. Digital signal processing techniques: Calculating biological functionalities[J]. Journal of Proteomics amp; Bioinformatics, 2011,4(12):260-268. DOI:10. 4172/jpb.1000199

[25]LEVITT M. A simplified representation of protein conformations for rapid simulation of protein folding[J]. Journal of Molecular Biology, 1976,104(1): 59-107. DOI:10.1016/0022-2836(76)90004-8

[26] CEDANO J,ALOY P,PéREZ-PONS J A,et al.Relation between amino acid composition and cellular location of proteins[J]. Journal of Molecular Biology,1997,266(3):594-600. DOI:10.1006/jmbi.1996.0804.

[27]FINKELSTEIN A V, BADRETDINOV A Y,PTITSYN O B. Physical reasons for secondary structure stability:Alpha-helices in short peptides [J]. Proteins,1991, 10(4):287-99.DOI:10.1002/prot.340100403.

A machine learning study on gloeobacter violaceus rhodopsin spectral properties

JIA Lili, SUN Tingting

(School of Sciences College,Zhejiang University of Science and Technology,Hangzhou310023,China)

In recent years, artificial intelligence technologies such as machine learning have been applied to protein engineering, and have shown unique advantages in studies on as protein structure, function prediction, and catalytic activity. In the absence of protein structure, combining protein sequence and functional properties with machine learning is a new research direction. In this papers, based on a new sequence-activity relationship (ISAR) method, the mutant library of gloeobacter violaceus rhodopsin (GR) and the maximum absorption wavelength of the spectrum are modeled by machine learning. It can fit the best model even in the case of a small number of data sets. The proposed method digitizes the protein amino acid sequence, preprocesses it through fast Fourier transform (FFT), and then performs partial least squares regression (PLSR) modeling. Finally, the best model of the amino acid sequence of the rhodopsin mutant protein and the maximum absorption wavelength of the spectrum is obtained. Modeling with the best index LEVM760106, the coefficient of determination is thatR2is 0.944, and the minimum mean square errorEis 11.64. In contrast, when the wavelet transform was used to preprocess the data, the coefficient of determination is close to 0.944, but theEis greater than 11.64, not as good as the result of FFT preprocessing. It is shown that, this method effectively solves the mathematical model relationship between protein sequence and functional characteristics, and provides support for predicting better mutants in later protein engineering.

machine learning; digital signal processing (DSP); spectral characteristics

Q 332

A

1008?9497(2022)03?280?07

10.3785/j.issn.1008-9497.2022.03.003

2021?03?02.

浙江省自然科學基金資助項目(LY17A040001).

郟麗麗(1993—),ORCID:https://orcid.org/0000-0002-3215-5627,女,碩士,主要從事機器學習、生物統計研究.

通信作者,ORCID:https://orcid.org/0000-0003-1388-3458,E-mail:tingtingsun@zust.edu.cn.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国内丰满少妇猛烈精品播| 国产网站免费观看| 精品国产女同疯狂摩擦2| 亚洲欧美日本国产综合在线 | 国产成人免费视频精品一区二区 | 国产成人凹凸视频在线| 精品久久久久久久久久久| 成人精品午夜福利在线播放| 少妇精品网站| 夜夜拍夜夜爽| 精品成人免费自拍视频| 在线观看视频一区二区| 麻豆国产在线观看一区二区| 99re66精品视频在线观看 | 中文成人无码国产亚洲| 亚洲AⅤ综合在线欧美一区| 精品国产一区91在线| 欧美一级高清视频在线播放| 中文字幕66页| 激情五月婷婷综合网| 97在线观看视频免费| 777午夜精品电影免费看| 黄色网在线| 欧洲日本亚洲中文字幕| 国产免费久久精品99re不卡| 美女内射视频WWW网站午夜| 2021亚洲精品不卡a| 久久人妻xunleige无码| 亚洲视频三级| 国产成人精品男人的天堂下载| 国产欧美精品专区一区二区| 91精品国产91欠久久久久| 原味小视频在线www国产| 视频在线观看一区二区| 精品成人一区二区| 丝袜高跟美脚国产1区| 亚洲欧美日韩中文字幕一区二区三区 | 青青久在线视频免费观看| 国产精品久久久精品三级| 国产激情无码一区二区免费| 国产黑丝视频在线观看| 国产女人综合久久精品视| 日本一区二区三区精品国产| 国产亚洲视频免费播放| 欧美日韩动态图| 国产成人精品一区二区不卡| 国产精品永久不卡免费视频| a亚洲视频| 欧美成人区| 99偷拍视频精品一区二区| 久久午夜夜伦鲁鲁片无码免费| 亚洲天堂精品在线观看| 久久久久免费精品国产| 国产人成午夜免费看| 91av成人日本不卡三区| 欧美日韩导航| 26uuu国产精品视频| 日韩福利视频导航| av无码久久精品| 精品五夜婷香蕉国产线看观看| 精品亚洲国产成人AV| 国产精品 欧美激情 在线播放| 中文字幕在线欧美| 99热这里只有精品在线观看| 青青久视频| 精品少妇人妻av无码久久| 亚洲第一天堂无码专区| 国产主播一区二区三区| 日本不卡在线播放| 99久久99这里只有免费的精品| 亚洲精品国产综合99| 97视频免费看| 欧美激情福利| 91精品国产情侣高潮露脸| 白浆视频在线观看| 伊人久久久大香线蕉综合直播| 激情综合图区| 亚洲AV无码久久天堂| 亚洲Av综合日韩精品久久久| 国产网站免费看| 成人91在线| 国产精品区视频中文字幕|