999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多組學數據整合分析和應用研究綜述

2021-12-12 02:49:42鐘雅婷林艷梅陳定甲彭昱忠曾遠鵬
計算機工程與應用 2021年23期
關鍵詞:特征方法

鐘雅婷,林艷梅,陳定甲,彭昱忠,曾遠鵬

南寧師范大學 計算機與信息工程學院 科學計算與智能信息處理廣西高校重點實驗室,南寧 530100

隨著人類基因組計劃的提出及實施,新的組學數據測序技術不斷涌現,如,高通量測序技術[1],能快速地獲得高維多組學數據,為生物醫學領域的研究提供了數據來源。

早期,許多研究都是對單一組學進行整合分析。然而,由于生物系統本身的復雜性,無法通過單一組學進行完全描述。如:基因組學雖然已經能揭示癌癥患者基因改變的情況,但并不是所有基因變異都會引起其表達及功能的改變[2]。因此,簡單地研究某一層次生物分子變化,難以深入理解復雜的生物學過程,在復雜疾病中這種情況顯得尤為突出。多組學數據整合分析方法從此孕育而生,它有利于對生物醫學數據進行全面深入的研究,甚至可以補充任何單一組學中缺失或不可靠的信息。各種因素促使了組學研究從單組學分析向多組學數據整合分析的方向發展。

多組學整合技術是指結合兩種或者兩種以上組學數據集,包括基因組學、表觀基因組學、轉錄組學、蛋白質組學、代謝組學、微生物組學、影像組學等,對生物樣本進行系統研究,從而探究生物系統中多種物質之間相互作用。當前,國內外已有許多研究者探究了一些先進有效的多組學數據整合方法,將多組學數據進行整合,能夠從大量而繁雜的多組學數據中找到多源數據間的內在關聯,幫助人們全面地認識生命系統,對研究生命科學問題具有重要意義。

本文綜述了近年來多組學數據整合分析的方法與應用研究進展。

1 數據整合方法的概念組織

數據整合是指通過整合不同類型和不同來源(如兩個不同的癌癥數據集)的數據,并使用語義技術將它們合并為有意義或有價值的信息。本章按數據類型和整合時機兩個角度概述數據整合方法。

1.1 按數據類型分類

按數據類型分類,可將組學數據整合方法分為垂直數據整合和水平數據整合[3-4],如圖1所示。

圖1 垂直數據整合和水平數據整合示意圖Fig.1 Schematic diagram of vertical and horizontal data integration

(1)垂直數據整合

垂直數據整合指整合同一實驗、不同組學數據,從而關聯不同的知識。

(2)水平數據整合

水平數據整合指整合不同實驗、同一組學數據,從而關聯不同的知識。

1.2 按整合時機分類

從技術上講,根據整合時機分類,數據整合可分為早期整合、中期整合和后期整合三種不同類型,表1為三類方法的過程步驟及優缺點對比。

(1)早期整合

早期整合指先將數據集轉換為單個基于特征的表或基于圖的表示,然后采用原始或降維處理后的不同數據組合,最后輸入機器學習模型得到預測結果[5]。它的優點是只要數據無冗余,都能夠考慮特征之間的相關性。缺點是它忽略了每種組學數據類型的獨特分布,權重需要規范化,增加了輸入數據的維度。因此,利用早期整合方法整合多組學數據時,必須設法減輕這些問題的影響。如文獻[6]提出對組學數據預先進行特征選擇并降維的方法,解決該問題。

(2)中期整合

中期整合是指保留數據集的數據結構,并僅在分析階段合并它們,是一種通過聯合模型將其融合的算法,能夠解決數據集多樣性問題[5]。該方法的優點是具有較高的性能,缺點是不能與現在的軟件一起使用,需要研發新的算法組合數據。

(3)后期整合

后期整合指先讓每個組學數據類型分別學習特征,形成多個第一級訓練模型,然后將第一級訓練得到的特征整合,用作分類器或回歸器的輸入[7]。它的優點是每種數據類型采用單組學標準化,不會增加輸入空間的維度。缺點是可靠性低,僅將每種組學的預測結果整合,挖掘能整合的特征開銷大。

2 多組學數據整合分析方法

組學數據多是異質的,具有不同的類型和格式,因而難以整合[8-9]。探究多組學數據整合的方法,有助于研究生命科學問題,挖掘其中的重要信息。在本章中,將從計算方法角度綜述近年來基于統計方法、傳統機器學習、深度學習等技術的多組學數據整合方法。更進一步的劃分方法如圖2所示。

2.1 基于統計方法整合多組學數據

統計方法是早期人們對大規模的數據進行收集、整合、分析后,根據其所反應的問題給出一定結論的方法。該方法被許多領域廣泛地應用,生物學領域也不例外。

表1 早、中、后期數據整合方法對比Table 1 Comparison of early,middle and late data integration methods

圖2 多組學數據整合分析方法分類Fig.2 Classification of multi-omics data integrationanalysis methods

為整合多組學數據,研究者嘗試采用統計方法進行研究,取得了不錯的成果。如,Argelaguet等人[10]提出多組學因子分析的統計方法(Multi-Omics Factor Analysis,MOFA),根據幾個數據矩陣在重疊的樣本集上測量多組學數據類型,由隱藏因素推斷出可解釋的低維數據表示,最終能有效地識別疾病變異的主要驅動因素。

然而,上述方法遺漏了特征間的非線性關系,為彌補其不足,許多研究者提出采用最小二乘法及其擴展提高性能。Rohart等人[11]擴展了偏最小二乘法(Partial Least Squares,PLS)用于多組學數據特征選擇和整合分析的mixOmics R函數包,專門用于生物數據集的多元分析,以探測異構組學數據集之間的關系。楊海濤[12]提出GA-CKPLS方法,該方法基于核偏最小二乘法(Kernel Partial Least Squares,KPLS)框架進行融合,并使用遺傳算法(Genetic Algorithm,GA)優化核參數和核權重,提高了整合性能,但其面對大規模數據時,計算速度慢。Rantalainen等人[13]基于正交偏最小二乘法(Orthogonal Projection to Latent Structure,OPLS)提出整合代謝組學和蛋白質組學數據的矩陣方法,發現了蛋白質和代謝物之間存在多種相關性,它的優點是能挖掘被忽略的因素,缺點是不能提供安全可靠的檢測結果。

除了最小二乘法這種統計方法外,還有許多的統計方法也被用于多組學數據整合,如計算相似度矩陣、核函數等人方法。李啟雄[14]提出MV-SSNMTF(Multi-View Simultaneous Symmetric Non-Negative Matrix Tri-Factorization)算法,該方法采用不同的相似性度量方法生成多個相似度矩陣,然后將其分解為子矩陣,最后融合不同的公共子矩陣以獲得相似性連接圖,并使用圖切割算法從中準確地識別出子類型。其不足之處在于過度壓縮信息,且隨機性導致每次結果不一致。Zhang等人[15]提出線性鄰域正則化的稀疏特征學習集成方法(SFLLN)。該方法先通過稀疏特征學習將不同特征空間中藥物的組學數據映射到共同的交互空間中,然后,引入線性鄰域正則化來描述藥物間的相互作用,其優點是具有較高的精度,缺點是調參耗時長,這就說明了算法仍需改進。Li等人[16]提出自適應套索的多核懲罰線性混合模型(MKpLMM),不僅可以從組學數據的每一層獲取預測效果,還可以通過多個核函數來獲取組學數據的交互作用,預測多層組學數據復雜性。其優點是可容納各種類型的數據,有助于提高預測精度,尤其是同時應用于藥物和ANDI數據集時,MKpLMM比其他方法的效果更好。將上述基于統計方法整合多組學數據的原理、優勢、局限性和適用場景整理成表2所示。

表2 基于統計方法整合多組學數據對比Table 2 Integration of multi-omics data comparison based on statistical methods

綜上所述,基于統計方法整合多組學數據在一定程度上比單一組學數據研究的準確率和分類精度高,有助于挖掘影響生命問題的因素。

然而,不同的統計方法對實驗結果存在一定的影響,如穩定性差、計算速度慢、抗壓能力差、可靠性低等問題。除此之外,受計算資源的限制,統計方法往往處理的是中小規模的數據集,在大型任務的處理過程中仍然需要人為地對特征進行處理。

因此,為解決統計方法整合多組學數據的不足,一些研究者開始探討將傳統的機器學習方法應用于多組學數據的整合。

2.2 基于傳統機器學習的多組學數據整合方法

機器學習是人工智能領域的一個重要組成部分,為生物信息學領域研究生命現象和規律提供了技術支持。本節將從聚類算法、隨機森林算法、其他機器學習方法等角度綜述基于傳統機器學習的多組學數據整合方法。

2.2.1 基于聚類算法整合多組學數據

聚類算法(Cluster)的核心是對一堆觀測數據進行劃分,使簇內的數據彼此相似,而簇間數據的相似度盡可能小。對組學數據進行聚類分析,從中發現規律,在疾病分型、精準醫療、藥物研究等方面具有十分重要的意義。

一些研究者通過K均值聚類(K-means)及其變種算法整合多組學數據取得了不錯的成果。如,張旭等人[17]采用基因芯片顯著性分析算法(SAM)和K-means等方法分析了兩組與結核病相關的組學數據,其核心是先選擇同簇內最相似的基因,再分組比較,最終選出了典型的結核病的14個候選易感基因,從而縮短了研究結核病的時間開銷,降低成本。沈思鵬[18]研究出一種無監督類別多組學整合預測模型的算法(Random Partition Fusion Based onK-Means,RPFKM),能夠預測腫瘤患者的生存結果。該方法分為兩個步驟:第一,隨機抽取變量進行K-means聚類,計算相似度矩陣;第二,進行相似性矩陣整合。它的優點在于整體的分類效果比其他聚類效果好,但其預測能力有限,只能對微觀分子生物多組學數據進行整合,無法將臨床特征,外界環境等因素考慮進去。

聚類方法多種多樣,部分研究者將聚類算法與其他的一些算法融合,效果顯著。如,Nicora等人[19]綜述了兩種聚類方法,分別為基于鄰域的多組學聚類(Neighborhood based multi-omics clustering,Nemo)和親和網絡融合算法(Affinity Network Fusion,ANF)。Nemo是通過徑向基函數核計算每個組學間的相似性矩陣,對得到的平均相似度矩陣進行譜聚類。ANF則是將圖聚類應用于包含多個視圖信息的親和矩陣,對于每個組元,經過特征選擇后計算距離。這兩種方法都能在多個TCGA癌癥數據集檢測出癌癥亞型,聚類性能優于其在單組學中的應用。

此外,王星等人[20]通過基于基因網絡正則化的雙聚類算法(Network Regularized Bi-Clustering algorithm,NetRBC),利用基因間的相互作用網絡構建正則化項約束,指導基因簇進行矩陣分解,有效提升了預測癌癥亞型聚類精度。但癌癥的生長發育受多方面因素的影響,僅利用不同實驗間的基因組數據整合難以對癌癥的高度異質性進行全面的了解。

綜上所述,基于聚類算法整合多組學數據可取的主要因素有以下四個:第一,可以降低實驗噪聲和生物噪聲對數據的影響,降低時間和成本開銷;第二,能有效提升組學整合預后結果的準確性和分類精度,揭示不同的細胞方面,如,在基因組和表觀基因組水平上的影響;第三,在相同的分子方面,每個組可以包含其他組學沒有的數據,如,突變和拷貝數;第四,組學可以代表來自不同生物體水平的數據,如,基因表達和微生物組組成。其不足之處在于無法全面考慮外界因素的影響,可靠性有待提高。因此,基于聚類算法整合多組學數據也在不斷深入研究。

2.2.2 基于隨機森林算法整合多組學數據

隨機森林算法(Random Forest,RF)首先基于bootstrap方法有放回地抽取樣本,然后基于決策樹信息增益等人指標用每個bootstrap樣本生成樹,并整合多棵樹的預測信息,通過投票得出最終的預測結果[21]。

隨機森林算法被廣泛應用于高維組學數據整合中[22-24]。如何進行整合預測,以下研究者給出了不同的思路。齊惠穎等人[25]提出一種整合四種組學數據的隨機森林乳腺癌生存預測方法,該方法先用PLS對原始數據進行歸一化和特征降維處理,之后放入RF預測得到預測結果,能有效地提高預測性能,但在噪音較大的分類或者回歸問題上會出現過擬合的情況。Roman等人[26]比較了五種隨機森林算法,得出塊森林(block forest)方法在組學整合上的效果更好。該方法核心是向標準的RF中添加了一個額外化組件“塊選擇”,其優點是解決了塊直接重疊預測信息的問題,還考慮了所有臨床協變量,從而提高了性能。Acharjee等人[27]采用隨機森林回歸法,整合轉錄組學、代謝組學和蛋白質組學數據,對馬鈴薯4個品質性狀進行預測,從而找到與表型性狀相關的遺傳和代謝途徑,但其不能在缺乏有關所調查性狀的基因、代謝物或蛋白質的先驗知識的情況下進行驗證。Li等人[28]利用隨機森林特征方法整合多組學數據,以識別調控因子檢測基因表達,構建全基因組基因調控網絡。通過計算關鍵候選基因的異常基因集之間的相似性作為距離度量,采用基于密度的聚類算法得到包含20個基因的癌癥相關基因模塊。該方法的優點能有效地區分高危和低危人群。缺點是對于小樣本數據集不適用,且研究都集中在靜態網絡上,沒有考慮時間維度。

在針對分類問題時,隨機森林算法與其他算法融合能夠提高模型的性能。Mohammed等人[29]提出結合RF和SVM,對不同組織類型的正常和癌癥樣本進行分類,該方法靈敏度和特異性超過現有的生物標記來識別潛在的癌癥生物標記,準確率高達97.89%。Xu等人[30]提出一種新的分層集成深度靈活神經森林框架HIDFNForest,該方法先采用堆疊自編碼器(Stacked Autoencoder,SAE)學習組學數據的復雜表示,再將其用于DFNForest模型將患者的癌癥亞型分類。該方法不僅能夠將組學數據獨立,且其采用的SAE比傳統的PCA、NMF的降維效果更好,提高了模型的分類性能。

綜上所述,隨機森林算法能有效地對多組學數據進行整合,但可能存在過擬合、缺乏數據造成無法驗證、生存期數據變化等多種因素影響預測性能的問題。

2.2.3 基于其他機器學習方法整合多組學數據

通過前面兩類機器學習算法的研究發現,由于組學數據規模大、多樣性等特點,單一算法對數據整合的效果不如多種算法融合的性能好。因而,一些研究者開始探究如何將機器學習領域的其他方法進行融合,提高數據整合分析的性能。

Gerdes等人[31]開發了一種基于機器學習的藥物排序方法(Drug Ranking Using ML,DRUML),該方法能將蛋白質組學和磷蛋白組學特征的組合,得出降低癌細胞增殖方面療效的生成藥物排名列表。它不必與參考樣本比較,就可以在癌細胞群體中預測藥物排名,且其使用內部歸一化藥物反應的距離度量、降維等方式減少噪聲,增加了預測模型的穩健性。

Hasan等人[32]提出一種基于機器學習的新型藥物-靶點相互作用預測模型(Prediction of Drug-Target Interactions,PreDTIS),該模型首先將組學數據結合,然后用欠采樣技術解決藥靶數據集高度不平衡的問題;其次,用改良的增量特征選擇算法選擇最優特征,去除噪聲和冗余特征,提高預測準確性;最后,用LightGBM分類器預測藥靶相互作用。結果表明,該方法顯著優于其他現有方法。

王昕[33]提出一種基于極限學習機的癌癥質譜分類方法(Extreme Learning Machine,ELM)和一種基于粒子群算法結合極限學習機方法(Particle Swarm Optimization-Extreme Learning Machine,PSO-ELM),以代謝組學和蛋白質學組學為數據,分別進行癌癥分類和提取高維質譜數據特征的實驗。兩者的共同優點是準確率高,誤診率低,分類效果及可行性好。前者的缺點是固定參數忽略對算法本身的研究,后者則引入PSO解決了這一不足。

李明達等人[34]提出一種中級融合分類方法,該方法先引入PLS分別對各種組學數據進行降維,然后利用支持向量機(Support Vector Machine,SVM)對融合后的數據進行分類。該方法優點是能有效降低數據維度,且分類準確率能有效提高,缺點是可進行實驗的數據量少,普遍適用性有待提高。

Gui等人[35]結合了多組學數據結合的分析,研究了腎透明細胞癌(ccRCC)缺氧與免疫的相互作用。首先,使用t-SNE和ssGSEA研究三種亞型在遺傳和表觀特征的缺氧免疫差異,隨后基于LASSO和Cox構建預后模型。該模型的預后性能好并能預測患者對免疫治療的反應,準確性較高,但實驗僅僅是建立在TCGA數據集上,覆蓋的數據集不全面。

Malik等人[36]提出基于多組學整合的肺腺癌生存預測模型。首先,用鄰域成分分析方法(Neighborhood Component Analysis,NCA)對組學數據進行特征選擇,選擇最佳特征組合,并將其整合輸入到SVM、神經網絡模式識別器、RUSBoost算法構建生存預測模型。該方法可以有效地將肺腺癌患者劃分為兩個生存類別,準確率達92.9%,但其訓練和驗證集的樣本較少,限制了預測能力。

Yuan等人[37]提出一種新的ML方法(LncRNA-Gene-Disease association networks,LGDLDA)。該方法首先計算lncRNA、基因和疾病的相似度矩陣,利用非線性特征學習將鄰域信息整合到相似矩陣中;然后,使用嵌入節點表示來逼近觀測矩陣;最后,對候選lncRNA-疾病對進行排序,選擇潛在的疾病相關lncRNA。它的優點是穩定性比較高,能有效預測潛在的癌癥相關lncRNA,缺點是數據集小,易過擬合。

Wang等人[38]提出一個DeepDRK框架,它首先將癌癥組學數據轉為相似性矩陣,然后利用化合物的化學特征和藥靶相互作用分別計算兩個抗癌藥物的相似矩陣,形成抗癌藥物的整合表示,最后構建一個二分圖標記癌細胞和抗癌藥物之間的關系。其優點是準確性和魯棒性比SVM和RF高,缺點是藥物數據集小限制了性能提升。

通過對上述幾種機器學習方法的總結,可以發現,利用多種機器學習方法融合,能提高多組學數據整合的性能。上述幾種方法的共同優點在于分類準確率得到提高,能夠減少噪聲對實驗的影響,解決數據高度不平衡問題,增加了模型預測的穩健性。缺點是數據集少且易過擬合、普遍適用性較低。

2.2.4 小結

綜上所述,聚類算法、隨機森林算法以及其他機器學習方法為多組學數據整合提供了廣泛的技術支持,上述基于傳統機器學習的多組學數據整合方法的原理、優勢、局限性和適用場景如表3所示。

簡而言之,這些機器學習方法的共同優點是具有較高的準確率。缺點分別為,隨機森林算法是在某些噪音較大的分類器或回歸問題上過擬合;聚類算法的缺點則是對孤立點比較敏感,結果不穩定;其他方法存在參數固定不能進一步提高準確率,數據樣本小限制了預測能力等問題。為彌補機器學習方法的局限,提升性能,一些研究者將深度學習方法應用于多組學數據整合。

表3 基于傳統機器學習的多組學數據整合方法對比Table 3 Comparison of multi-omics data integration methods based on traditional machine learning

2.3 基于深度學習的多組學數據整合方法

深度學習(Deep Learning,DL)是一種使用深度神經網絡的新興機器學習方法,迄今在各領域引發了突破性的變革。其采用的深度神經網絡是具有多層隱藏層的神經網絡,利用神經網絡中每一層進行數據處理,逐層進行特征學習,使神經網絡能夠學習到深層抽象的特征數據。

常用的深度網絡模型有深度前饋網絡(Deep Feedforward Network,DFN)、卷積神經網絡(Convolutional Neural Networks,CNN)、循環神經網絡(Recurrent Neural Network,RNN)、自編碼器(AutoEncoder,AE)和圖神經網絡(Graph Neural Networks,GNN)及其變體等[39]。近年來,深度學習在多組學整合分析領域取得了成果,吸引了大量研究者對此進行研究[40]。本節將從深度前饋網絡、自編碼器、圖神經網絡等角度綜述基于深度學習的多組學數據整合方法。

2.3.1 基于深度前饋網絡整合多組學數據

深度前饋網絡是最具代表的深度學習模型。它定義了映射y=f(x;θ),指信息流從輸入x,經過中間計算f(x;θ)后得到輸出y,整個過程中不存在從輸出到輸入的反向連接。

近年來,許多研究者將深度前饋網絡應用于多組學數據整合分析取得很好的效果。

Deng等人[41]提出一個多模態深度學習框架DDIMDL,將藥物的多種組學特征放入到DFN中訓練,實驗結果顯示,DDIMDL模型能有效預測藥物交互事件,尋找潛在有效的藥物。但對于某些事件,存在交互次數不夠導致過擬合問題,這也說明了未來可通過擴充數據集、增加交互次數解決該問題。

一些學者利用深度前饋網絡從兩種或多種數據集找出相應的特征,并融合進行統一表示,獲得了比較好的分類預測效果。如,Hossein等人[42]提出了集成多組學數據的方法MOLI(Multi-Omics Late Integration method)。該方法先將多個前饋編碼子網絡與每個組學數據相對應,將其編碼到一個特征空間后串聯進行整合,最后將其作為分類子網絡的輸入以預測藥物的反應。其優于單組學預測性能,且可減少過擬合和數據分布不平衡問題,不足之處在于沒有考慮或比較基線中不同組學數據類型的基因之間的相互作用。

上述的方法是通過一個模型得到特征后融合,以下則是不同的模型得出的特征融合。如,Malik等人[43]提出后期綜合深度前饋網絡多組學框架來構建乳腺癌患者生存和藥物反應預測模型,先用NCA從多組學數據集中選擇相關特征,然后分別放入DFN與K-means進行分類,結果顯示,該模型能有效地將患者分為兩類,并且可以避免過擬合。

除了上述兩種融合方法外,還可以采取先對數據進行預處理的方法,將其整理為同類型的輸入。如,Zhao等人[44]提出DeepOmix方法,該方法集成了不同組學數據作為輸入基因層,基因層節點根據輸入定義的路徑或功能模塊的先驗信息與功能層連接,最終能夠將樣本分為高風險和低風險兩組。其優點是能夠解決高維度的問題,且可解釋性、穩定性、魯棒性較高。

此外,Huang等人[45]利用2型糖尿病多組學數據,闡明胰島素抵抗與多組學特征之間的關系,并開發了基于深度神經網絡解釋算法,以解釋微生物組特征對胰島素分類的影響,且利用集成分類器和DFN分類器驗證了降維特征的合理性。

通過深度前饋網絡整合多組學數據,能更好地挖掘影響生命問題的潛在因素,防止潛在的重要信息丟失,有效地提高了準確率。其缺點是數據集不平衡會影響實驗結果。

受上述研究者的啟發,可以通過數據集擴充等技術避免過擬合,對數據進行預處理或者采取不同的方式對模型融合,從而提高數據整合的性能。

2.3.2 基于自編碼器整合多組學數據

自編碼器(AE)是一種數據壓縮算法,通過訓練后能將輸入復制到輸出,主要是便于數據去噪和降維。自編碼器分為兩個組件:第一個組件是編碼(encoder),一般是多層網絡,將輸入的數據壓縮成一個向量,從而降低維度;第二個組件是解碼(decoder),主要是重建與原始輸入一樣的數據,以達到壓縮還原的作用。它在深度學習發展的過程中也出現了很多變體,如,去噪自編碼器(DAE)、變分自編碼器(VAE)、去耦變分自編碼器(DVEA)等。

由前所述可知,多組學數據具有高維、量大、有噪聲等特點,通過自編碼器后輸出數據維度一般遠小于輸入數據維度,適合解決高維數據的整合問題,減輕了高維度數據對模型的壓力。因此,一些學者研究利用自編碼器對多組學數據進行整合。如,Kumardeep等人[46]利用AE整合肝癌患者的多組學數據,然后使用方差分析(Analysis of Variance,ANOVA)特征選擇方法來識別生物標志物,最后基于SVM構建了肺癌亞型預測模型,能夠劃分具有生存期敏感的肝癌亞型。該方法在文獻[47]得到驗證,能夠劃分高低風險兩類患者,比傳統的方法更有效。

Yang等人[48]提出一種基于多模態深度自編碼器的藥物表示方法DDI-MDAE(Multi-modal Deep Auto-Encoders Based Drug Representation Learning Method),該方法可以同時學習具有多種藥物組學特征的統一表示,然后用4個算子表示藥物-藥物對,并采用隨機森林分類器訓練模型來預測藥物相互作用。該方法的優點在于可對大規模的、有噪聲的、稀疏的、特征不完整的藥物數據進行預測,準確率較高。這表明將網絡拓撲和語義信息結合起來用于藥物表示可能會提高預測性能。

曹業偉等人[49]提出一種基于深度自編碼器的多組學數據整合方法DAEMI(Deep Autoencoder for Multiomics Integration,DAEMI),該方法先將三種組學數據直接拼接作為輸入,然后從瓶頸層提取所需的壓縮特征,學習多組學數據的特征表示。最后,使用K均值算法對新特征樣本進行聚類,得到了不同癌癥亞型。實驗結果表明,它在不同癌癥數據集上表現更可靠,抗噪能力強,聚類有效性和穩定性優于現有方法,但目前不適用于高維度小樣本數據集。

Park等人[50]提出三重損失進行監督特征提取學習方法Super.FELT(Supervised Feature Extraction Learning using Triplet loss),該方法首先基于肘方法的方差閾值和三重損失函數監督編碼器分別進行特征選擇和特征編碼,然后將結果輸入分類器進行整合,最后訓練一個損失函數為二進制交叉熵函數的神經網絡分類器,用于藥物反應預測。其優點是采用的特征選擇方法提高了性能,即使沒有給定藥物的體內數據集,也能用于預測患者的藥物反應。

Chai等人[51]提出DCAP框架整合癌癥風險評估的多組學數據,以更準確估計癌癥預后。該方法核心是將高維的組學特征輸入到DAE網絡中獲得代表性的特征,并將其放入Cox模型估計患者的風險,XGboos模型擬合估計的風險,最后確定與癌癥高度相關的預后標記。該方法的優點是預測精度比以前的方法提高了6.5%,缺點是忽略了腫瘤純度和臨床因素等會影響預測的精度。

Chung等人[52]基于長短期記憶的變分自編碼器(Long Short-Term Memory Based Variational Auto-Encoder,LSTM-VAE)對時間序列數字數據進行訓練;然后利用LSTM-VAE提取的低維嵌入進行聚類;最后,將深度卷積嵌入聚類(Deep Convolutional Embedded Clustering,DCEC)應用于時間趨勢圖像,對圖像重建和聚類分配進行聯合優化。其缺點是本實驗中采用的多元組數據不平衡,在一定程度上影響了性能,這也說明了未來可以從解決數據不平衡這一角度提高預測精度。

Ma等人[53]提出了一種基于網絡約束的多視角因子分解自編碼器方法(Multi-view factorization Auto-Encoder,MAE),該方法由多個分解AE組成,并提供了一種將圖形約束集成到模型中的自然方法,可以有效地整合分子相互作用網絡與多組學數據,該模型泛化能力好,能解決高維特征小樣本的過擬合問題。

Zhang等人[54]采用AE來集成多組學數據,并將其與K-means聚類相結合,能區分超高危亞群和高危神經母細胞瘤,該分類方法優于主成分分析(PCA)與iCluster聚類法,對高危神經母細胞瘤的綜合分類可以幫助臨床醫生制定個性化的治療方案。

另外,自編碼器還可以隨機生成與訓練數據類似的數據,常被稱作生成模型(Generative Model,GM),有助于生成打標簽的數據,提高實驗的準確率。如,Jia等人[55]利用變分自編碼器(Variational AutoEncoder,VAE)生成大于1 000細胞系中的基因表達譜,并基于表達譜的隱向量訓練了藥物反應的預測模型,挖掘出33種腫瘤類型中與藥物反應相關的分子特征,能解決癌癥樣品中藥物反應譜的新特征遺漏和過擬合問題。具有穩健性和準確性高等優點,其缺點是該模型對于一些藥物,無法提高預測精度,找出潛在的混雜因素。

綜上所述,基于自編碼器整合多組學數據,能解決高維度、稀疏數據、過擬合的問題,能更好地提高模型的效率、預測準確率和穩健性。這也說明了未來可將重心放在深度學習自編碼器方法解決多組學整合的問題上。

2.3.3 基于圖神經網絡整合多組學數據

傳統的深度學習方法被應用在提取歐氏空間數據的特征方面取得了巨大的成功,但在許多實際應用場景中的數據都是從非歐式空間生成的,傳統的深度學習方法在處理非歐式空間數據上的表現難以使人滿意,于是圖神經網絡應運而生。部分研究者也探索用能夠處理非歐式空間的圖神經網絡進行多組學數據分析。如,高創等人[56]提出一種基于圖卷積神經網絡(Graph Convolutional Network,GCN)的藥物靶標作用關系預測方法,該方法首先構造一個結合多種藥靶相關信息的異質信息網絡,然后采用GCN在此異質信息網絡上學習,得到能精確表達每個節點拓撲特征及鄰居特征信息的低維向量表征,最后利用這些向量信息通過向量空間投影預測節點間概率的評分。該方法的優點是能解決樣本不平衡的問題,能挖掘未知藥靶關系。

Wang等人[57]提出了多組學圖卷積網絡(Multi-Omics Graph cOnvolutional NETworks,MOGONET)整合方法,用于生物醫學分類。該方法可概括為三個部分:首先是對每種組學數據類型進行預處理和特征選擇,然后通過GCN進行特定組學學習,最后通過VCDN進行多組學集成。它的優點是加入的VCDN模型可以更好地對數據分類,其實驗結果也具有良好的可解釋性。

Althubaiti等人[58]開發了一個用于多組學癌癥分析的框架DeepMOCCA,該框架由圖卷積神經網絡和圖注意力機制構成,能夠預測33種癌癥類型的樣本的生存時間,優于大多數現有的方法,且注意力機制能夠用于識別患者中的驅動因素和預后標記,其不足在于缺乏許多癌癥的準確預后標記。

當然,圖神經網絡除了能夠解決非歐式空間的問題外,還能通過保留圖的網絡拓撲結構和節點內容信息,將圖中頂點表示為低維向量,以便于使用簡單算法進行處理。受此啟發,Wang等人[59]提出一種基于圖卷積網絡(Integrating Genomic Data and Clinical Data by Graph Convolutional Network,GCGCN)的融合多基因組數據和臨床數據的癌癥生存預測方法,該方法利用相似性網絡融合算法(SNF)和最小冗余最大相關算法分別對組學數據融合,進行特征選擇操作,生成樣本相似矩陣和樣本特征矩陣,然后放入到GCGCN訓練。它的優點是準確率高,分類效果好,能考慮特征相關性,缺點是可用樣本少,適用性不夠強。

綜上所述,圖神經網絡中的每個數據樣本(節點)都會有邊與圖中其他實數據樣本(節點)相關,這些信息可用于捕獲多組學樣本之間的相互依賴關系,具有很好的適應性和可解釋性。因而,圖神經網絡適于多組學數據整合。

2.3.4 小結

深度學習中的方法為組學整合研究提供了新思路,它的優點是在特征學習方面性能較高,能有效避免分割和手工設計特征提取給模型帶來的誤差。但是,也存在了一些缺點,如,因數據高維、訓練數據集小、交互次數不夠,不同事件數據集數量不平衡及大量噪聲導致過擬合問題,數據異質性、特異性導致預測精度無法提高的問題。

為解決以上的不足,文獻[56]在數據集的所有樣本中,將某一特征的值從最小值到最大值進行替換,而其他特征保持不變,重復這個過程,直到考慮每個樣本的所有特征,從而解決特定特征對結果的造成的影響。文獻[60]提出前饋網絡和自動編碼器采用了dropout,batch歸一化,將每組組學數據獨立地放入三個自動編碼器獨立訓練以使輸入和輸出的差異最小,從而避免過擬合。

當前,基于自編碼器和深度前饋網絡在多組學整合方面的研究成果較多,而圖神經網絡在多組學整合方面的研究成果還較少,這也提供了新的研究方向,未來可以探究如何用其他的圖神經網絡方法提高多組學數據整合的性能。上述基于深度學習的多組學數據整合方法的原理、優勢、局限性和適用場景如表4所示。

2.4 多組學數據整合分析方法小節

近年來,探究多組學數據的整合分析方法較為火熱。本節基于統計方法、傳統機器學習、深度學習等技術對多組學數據整合方法進行了簡單的梳理和概述,并總結了每種方法的優勢以及局限性。總而言之,這三類方法各有側重點。通過分析,將這三種不同類型多組學數據整合方法的優勢、局限性整理成表5所示。

3 多組學數據整合分析的應用

3.1 醫學領域

在醫學領域研究中,多組學數據的整合分析應用十分廣泛。它為精準醫療與醫藥研發提供了有效的途徑,能獲取更全面的相關信息,彌補單組學數據的片面性,幫助醫生進行更精準的診療與研發。本節綜述了近年來多組學整合分析在醫學領域的一些應用案例。

3.1.1 腫瘤多組學應用

腫瘤是一種復雜的系統性疾病,涉及到了DNA、RNA、蛋白質和代謝物水平等多種異常。因此,探究組學數據之間的關系能夠幫助醫生探究生命機理與早期診療。

當前,基因組學、蛋白質組學及代謝組學等組學數據已經被用于腫瘤分析,但是通過單組學進行腫瘤診斷還存在局限性。如,單組學在食管癌早期篩查與診斷存在局限性,原因在于單組學數據展現的只是生命對象的一個視角,會引起以偏概全診斷腫瘤[61]。

多組學數據的整合分析能更深入地了解腫瘤從一個組學級別到下一個組學級別信息流的變化,有可能揭露更多的生物學信息[2]。一些研究者已開展了多組學整合分析在腫瘤方面的研究。如,文獻[62-64]運用聚類法整合多組學數據,揭示了不同的肝癌分子亞型。Fu等人[65]運用深度轉移學習方法,采用癌癥的基因組、轉錄組為數據,結果顯示,該方法可以準確地對29種癌癥類型分類。Li等人[66]研究發現,MRI定量影像組學特征與多種基因檢測聯合可有效評估乳腺癌的復發風險。Mun等人[67]采用多層組學聯合分析的方法,研究80對癌和癌旁配對樣本的蛋白、基因組圖譜,為慢性胃癌的治療提供了更直接的參考。Rusch等人[68]提取78例臨床腫瘤樣本的組學數據進行整合,找到與腫瘤相關的結構變異、體細胞突變、致病性突變等原因。Li等人[69]采用罕見的變異檢驗方法STAAR整合了多組學數據,從大規模全基因組測序數據中找到了常見疾病與罕見疾病的關聯。Hoadley等人[70]使用iCluster對腫瘤樣本中的四種組學數據進行了整合分析,識別出28個社團。文昱琦[71]提出了基于異質網絡重啟隨機游走的多組學數據整合算法,應用于TCGA癌癥的多組學數據也取得了較現有算法更優的效果。郭茂祖等人[72]利用聚類法集成多組學生物數據,發現了關鍵基因模塊及其異常調控的基因集合,有助于癌癥研究。Yang等人[73]提出一種Subtype-GAN深度對抗學習方法,通過多層的神經網絡提取子類型的特征,然后使用共識聚類和高斯混合模型來識別腫瘤樣本的分子亞型,準確率高。Jonathan等人[74]使用VAE對結腸腺癌進行癌癥分型,得到5種分子亞型。

表4 基于深度學習的多組學數據整合方法對比Table 4 Comparison of multi-omics data integration methods based on deep learning

綜上,多組學數據的整合分析在腫瘤疾病的研究方面取得了不錯的成效。因此,有理由相信在基因組、轉錄組、蛋白組、代謝組等生命組學數據的共同支持下,未來在腫瘤識別診斷的性能和效率會更高。

表5 不同類型多組學數據整合方法優缺點對比Table 5 Comparison of advantages and disadvantages of different types of multi-omics data integration methods

3.1.2 傳染病診療應用

傳染病具有傳播速度快、感染性強、死亡率高等特點,細數2020年,新型冠狀病毒?。–OVID-19)迅速蔓延成為全球健康挑戰,截至2020年10月中旬,報告病例超過3 800萬例,相關死亡人數超過100萬[75]。

當前,利用多組學數據進行整合分析有利于傳染病的診療。以今年影響最大的COVID-19的研究為例,Su等人[75]對139例COVID-19患者的臨床檢測、免疫細胞和血漿多組學(代謝組、蛋白組)進行了綜合分析,可解析輕度和中度COVID-19之間的急劇變化狀態,中度COVID-19可能為治療干預提供最有效的環境。Song等人[76]經研究COVID-19患者的血漿脂質組和代謝組發現,用10種血漿代謝物有效區分COVID-19患者與健康者。Zhao等人[77]通過采用從4名COVID-19產婦和2名健康產婦分娩后3天的初乳樣本中得到蛋白質組學、脂質組學和代謝組學數據,揭示了與新冠肺炎相關的母乳蛋白和代謝的顯著變化。Shen等人[78]對血清樣本中的蛋白和代謝物的相對濃度進行了全景式的測定,從而揭露了重癥患者體內多種獨特的分子調控。Chen等人[79]對83名受試者(16名重度病例,50名輕度病例和17名健康對照)的外周血和血漿樣本進行了轉錄組學、蛋白質組學和代謝組學分析,表明以基因、蛋白質和外泌體RNA作為潛在的生物標志物,可能有助于預測SARS-CoV-2感染。Thomas等人[80]運用了最新的多組學整合方法,研究了COVID-19對23名健康受試者和29名新冠肺炎患者紅細胞的影響,結果表明,SARS-CoV-2感染會影響紅細胞結構膜蛋白和脂質水平穩態。

綜上,多組學數據的整合分析利于傳染病的診斷和治療,隨著多組學整合技術的提高,將對傳染病的診斷和治療做出巨大貢獻。

3.1.3 藥物研發應用

新藥研發是一個成本高昂、周期漫長、充滿風險的過程。通常,一個新藥物從實驗室啟動研發到獲批上市銷售大約需要10到15年的時間[81]。在這過程中,需要分析測試數百萬個候選分子,但最終只有一個可以成藥且獲批上市銷售[82-83]。

從分子層面深入挖掘微生物組、基因組、代謝組和蛋白質組數據,結合生理學指標檢測,可有助于藥物研發。如,Deng等人[41]提出的DDIMDL框架,利用藥物的多種組學特征,預測了藥物交互事件,從而尋找潛在有效的藥物,經實驗結果顯示,DDIMDL優于現有的方法。Geonhee等人[84]提出一種新的深度學習模型,用1 597種藥物特征組合而成的三種相似度輪廓作為實驗的數據,結果顯示,所提出的新深度學習模型可更準確地預測藥物間的相互作用。李杰[85]提出網絡醫學等人數據挖掘方法挖掘多組學數據,該方法能夠應用于復雜疾病治療靶標預測及藥物基因組學研究。曼瓊等人[86]利用多組學整合方法對中醫藥毒性進行研究,有助于發現中藥和復方與人體生物效應間復雜系統的關系。Hu等人[87]采用卷積神經網絡準確地找到藥物和靶標之間的相互作用,提取藥物間的細微特征。Chiu等人[88]利用DeepDR模型學習藥物組學特征,預測腫瘤的藥物反應,能確定新藥的耐藥性,助于新藥研發。

綜上,在多組學數據整合方法的支持下,未來將會提高復雜疾病的藥物研發效率,助于社會醫療水平的提升。

3.2 植物生理病理領域

植物的基本組成物質由蛋白質、糖、脂肪和核酸以及它們的代謝物組成,這些都可以通過組學測序技術測出對應的組學數據,為植物的生理學和植物病理學方面的研究提供了數據源。本節綜述近年來多組學數據整合分析在植物生理病理領域的一些應用案例。

3.2.1 植物生理學的應用

植物細胞在轉錄、翻譯、代謝水平上的變化往往都會影響植物的生長和發育。多組學數據整合分析可以從不同的維度獲取植物生長發育的動態變化情況,更好地展示細胞生命過程,進而研究植物的生長發育復雜機制,提高了育種的效率。

如,湯冰倩等人[89]采用轉錄組、代謝組數據預測植物表型,結果表明,多組學聯合分析提高了雜交水稻的產量。史關燕等人[90]綜述了基于多組學技術解析作物雜種優勢機制研究的最新動態,總結出不同遺傳背景材料和不同性狀的雜種優勢遺傳基礎解釋并不相同,單一的模式并不能完全解釋其遺傳機制。Yang等人[91]將轉錄組和代謝組聯合分析,闡明RDI(調節灌溉技術)對赤霞珠漿果花青素生物合成和代謝的影響機制,RDI可以提高葡萄的花青素含量,有助于提高葡萄酒的質量。Hu等人[92]利用多組學聯合分析揭示了褪黑素通過抑制茉莉酸的生物合成促進銅脅迫下瓜根發育。豐美靜等人[93]用多組學聯合分析從不同的角度獲取植物生長發育各個時期的動態變化情況,為紅豆杉細胞培養、紫杉醇以及紫杉醇類似物的大規模工業生產提供了理論基礎。Chen等人[94]關注水稻籽粒中發生的代謝和轉錄變化,并降低可能受到多溴二苯醚污染的農田中的作物健康風險。Ichihashi等人[95]采用多組學綜合分析,表明有機氮通過充當氮源和生物活性化合物直接增加了植物的生物量。馬愛民等人[96]利用多組學探索出番茄生長過程中代謝物變化,找到影響其生產重量的原因,為改良品質做出貢獻。馬婷玉[97]通過組學整合對青蒿素合成的因素進行分析,為青蒿素培育奠定了基礎。Zhao等人[98]整合小麥的轉錄組和代謝組數據,找到調節植物鉀饑餓耐受性的候選基因,有助于研究小麥根系適應缺鉀的分子變化。

綜上,利用多組學整合分析能有效地研究植物的生長發育變化情況,有益于提高植物的育種效率,提高農作物的產量,為世界人們帶來了很大的福音。

3.2.2 植物病理學的應用

植物病理學以植物病害為研究對象,在生物化學等方面挖掘其發病的原因以及感染過程。在自然系統中,許多植物病原體與宿主共同進化出拮抗關系,植物病害是調節植物種群的重要力量[99]。

近年來,利用多組學整合分析能夠挖掘出影響植物生長的病菌,從而預防病菌對植物的影響,提高了植物的生產率。如,鞏校東[100]運用多組學整合技術,對大斑病菌侵染過程中玉米葉片在各個組學上的變化進行研究,找到了與玉米響應大斑病菌侵染過程密切相關的功能基因和代謝途徑,初步探究了玉米與大斑病菌互作過程的分子機制。畢凱[101]利用多組學整合技術深入地了解根腫菌的休眠、生長、發育和致病等生命活動,從而提出了新的根腫病的綠色防控技術,減少了經濟損失。周瑤等人[102]采用基因編輯和標記輔助選擇策略操控等方法對多組學數據整合,從中了解小麥赤霉病寄主抗性機制,進一步改良小麥赤霉病抗性,保障食品安全。李婷婷等人[103]運用多組學整合技術分析得出花生中miR156::SPL的表達差異是造成在感病和抗病花生品種中類黃酮物質代謝差異的主要原因。David等人[104]利用多組學方法挖掘出保護細胞對系統獲得抗藥性響應的分子機制,增強植物抗病能力。Chin等人[105]利用多組學整合比較檸檬和柑橘對“亞洲白念珠菌”感染后的變化差異,有助于培育更多的品種。Kang等人[106]對小麥根的中的芽孢桿菌的多組學數據進行分析,找到延長全蝕性疾病的發病時間。

綜上,多組學整合分析為研究植物病害背后更復雜的機制,揭示植物疾病的多維視角,預防病害對植物生長的影響提供了技術支持。

4 多組學數據整合分析方法存在的問題及未來展望

隨著組學研究的不斷深入,多組學數據整合分析已經成為發展趨勢,在精準醫療、植物生理病理等領域的研究具有十分重要的意義。

本文通過對三個階段多組學整合方法的研究,對不同的方法進行分類,并總結其優勢、局限以及適用場景性,以及應用情況。通過對統計方法、傳統機器學習、深度學習方法整合多組學數據的總結及對比,可以發現其中存在的問題。下面將討論多組學數據整合分析方法存在的主要問題與未來研究方向。

(1)數據集

多組學整合分析需要用到多種組學的數據集,如,代謝組、轉錄組、基因組等組學數據,這些數據結構不同,數據類型也不同,如何能夠統一地表示并有效地運用起來,是未來將要探索的一個方向。

此外,組學數據的采集會涉及生命體的隱私與安全問題,因而目前公開的數據集較少。多組學數據進行整合分析需要大量的組學數據,如何得到大量的組學數據,依目前比較先進的技術有遷移學習、對抗生成學習等方法。但是這種模仿生成的數據不一定能準確地反應出真實的狀況,所以提高數據共享與安全是未來一個重要的研究方向。

(2)算法模型

組學數據具有高維度、多噪音、數據稀疏、異質性的特點以及實驗中存在數據集不平衡的問題,都會影響模型預測的精度。因此,要將不同、復雜且大規模的組學數據進行整合,對算法模型和計算平臺的分析能力提出了較高要求。如,對于高維度、多噪音的數據,目前主要方法有通過主成分分析法或自編碼器進行降維、降噪;對于稀疏和異質的數據需要轉換,目前可以通過回歸方法解決,但是這些方法都有著自身的缺陷,在未來仍然需要對上述問題進行大量研究。

現有的組學數據整合分析方法和算法模型已獲得一定的成功,但多是將各組學數據獨立分析后,再將結果進行整合,其整合分析能力有限。因此,如何采用有效、高效的整合方法或算法模型對組學數據進行統一整合,挖掘多組學數據中隱含的知識和規律,成為一個亟待解決的問題。

(3)評估方法

對于單一的組學模型訓練出來的結果,使用的評估方法是可以根據單一的特征需求進行評估的,但是對多組學數據而言,不同組學數據之間存在著差異性,這些差異性導致了評估模型的方法也不一樣,如何設置能夠兼容這些差異的評估方法成為一個比較關鍵的研究方向。

(4)實驗結果的可解釋性

多組學數據整合方法的研究,主要是為精準醫學、動植物病理學等服務,這些實際工作要求的可解釋性是非常高的,出現差錯造成的后果將難以想象。目前的整合方法多是通過計算方法得出,不能直接應用于這些領域,所以對實驗結果的可解釋性探究也是一個重要的研究方向。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 九九九国产| 一级成人a毛片免费播放| 麻豆精品国产自产在线| 午夜人性色福利无码视频在线观看| 无码国产伊人| 在线无码九区| 中文字幕色站| 园内精品自拍视频在线播放| 四虎永久在线| 91成人在线免费观看| 欧美日韩国产精品综合| 熟妇丰满人妻av无码区| 亚洲国产综合自在线另类| 国产永久免费视频m3u8| 国产在线自乱拍播放| 99精品伊人久久久大香线蕉| 日本一本在线视频| 国产精品播放| 久久网欧美| 在线精品自拍| 国产精品亚洲αv天堂无码| 亚洲高清免费在线观看| 国产幂在线无码精品| 东京热高清无码精品| 不卡午夜视频| 亚洲天堂网在线视频| 91在线日韩在线播放| 国产小视频a在线观看| 亚洲激情区| 国产18在线播放| 91午夜福利在线观看| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧美成人怡春院在线激情| 萌白酱国产一区二区| 一级毛片在线免费视频| AV老司机AV天堂| 色偷偷一区二区三区| 日本在线国产| 热久久综合这里只有精品电影| 久久久久久久久18禁秘| 亚洲无线一二三四区男男| 日韩毛片视频| 久久黄色免费电影| 亚洲日本一本dvd高清| 3344在线观看无码| 免费无码在线观看| 亚洲福利网址| 国产精品久线在线观看| 精品91在线| 一本无码在线观看| 99视频在线免费| 四虎影视永久在线精品| 日韩av无码精品专区| 在线a网站| 国产91小视频在线观看| 啪啪国产视频| 国产午夜福利亚洲第一| 在线观看免费人成视频色快速| 国产免费羞羞视频| 国产精品久久久久久久久久98| 亚洲欧美日韩综合二区三区| 国产美女久久久久不卡| 国产性猛交XXXX免费看| 国产爽爽视频| 国产无人区一区二区三区| WWW丫丫国产成人精品| 亚洲天堂网2014| 好吊日免费视频| 国产av无码日韩av无码网站| 九色在线观看视频| 国产91无毒不卡在线观看| 欧美日韩国产一级| 亚洲欧美成人在线视频| 亚洲综合色区在线播放2019| 国产精品高清国产三级囯产AV| 青青青国产免费线在| 丁香五月婷婷激情基地| 午夜欧美在线| 久久99国产综合精品1| 国产精品偷伦在线观看| 国产免费黄| 国产免费久久精品99re不卡|