999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向功能基因挖掘的動物多組學數據集

2025-04-06 00:00:00劉洪竇婧王越廖勇劉小磊李新云趙書紅付玉華
農業大數據學報 2025年1期
關鍵詞:深度學習

摘要:單一的組學數據難以全面揭示基因調控性狀的復雜分子機制,整合不同類型和層次的生物組學數據對于理解生物體內復雜的分子網絡具有重要的意義。本數據集提供了包含21個動物物種的61191個個體水平組學數據(WGS、RNA-Seq、ChIP-Seq和ATAC-Seq)和基因組注釋信息,有效數據規模為2.8 TB。此外,本數據集還收錄了基于深度學習算法得到的基因與表型實體識別數據??偟膩碚f,該多組學數據集可用于農業重要性狀的基因發掘和功能驗證,能夠為跨物種比較研究提供有價值的資源,也可更好地服務于動物經濟性狀關鍵基因識別模型構建以及算法研究。

關鍵詞:多組學數據;跨物種;功能基因挖掘;個體水平;深度學習

數據摘要:

1 "引言

近年來,圍繞中心法則的多組學整合分析策略被用于代替單一組學策略[1],通過各種組學數據從多個角度來全面地探索遺傳物質的整體變化規律,從而實現不同組學層面的相互印證、補充和解釋[2]。然而,多組學數據的挖掘仍存在著一些關鍵性的問題。與小鼠等模式動物相比,家畜動物(如豬)、伴侶動物(如貓)、野生動物(如虎)的多組學整合研究進展遠遠落后[3]。此外,各種類型的復雜數據源和不同的數據描述明顯增加了數據收集和清洗的難度。最后,海量的組學數據需要高效的數據分析和存儲方法[4]。因此,目前仍缺乏著覆蓋大規模物種、個體級別、高質量的多組學數據集,建立這樣的數據集既是一項巨大的挑戰,也是一種迫切的需求。

基于以上背景,本文建立了一種面向功能基因挖掘跨物種多組學數據集。該數據集涵蓋了21種動物的個體級別組學數據,包括基因組(WGS,全基因組測序)、轉錄組(RNA-Seq,RNA測序)和表觀組(ChIP-Seq,染色質免疫沉淀結合高通量測序,以及ATAC-Seq,高通量測序的轉座酶可及染色質分析)。此外,該數據集還收錄了大量文獻摘要信息,利用深度學習模型建立起基因與性狀的聯系。每種組學數據采用了統一的標準進行清洗、分析和結構化,為解析重要性狀的復雜生物學機制提供了數據支撐。

2 "數據采集與處理

2.1""數據來源

通過收集21個動物物種(小鼠、豬、牛、雞、恒河猴等)的基因組、高通量組學數據和文獻信息,構建跨物種、個體級別的多組學數據集。由于小鼠的數據量遠遠超過其他物種,本研究通過排除高度相似的樣本,選取了一定數量的代表性樣本。相反,其他物種的數據盡可能全面地進行了收集。所有物種的基因組序列和注釋來自Ensembl數據庫[5],高通量測序數據從SRA[6]和EBI[7]數據庫下載,文獻摘要通過Entrez接口從NCBI[8]數據庫獲取(表1)。

2.2 "數據處理方法

2.2.1 "基因功能注釋

從Ensembl[5]數據庫下載的基因組和注釋文件中解析所有物種基因的位點、序列、結構,同時為了更好地理解動物的基因功能,本研究采用統一的生信流程對21個物種的570628個蛋白編碼基因進行了功能注釋,包括Swiss-Prot[9]、KEGG[10]、GO[11]、Pfam[12]、InterPro[13]和KOG[14]數據庫等六個主流蛋白功能注釋庫。

2.2.2 "基因組數據的分析

基因組數據的分析主要包括格式轉換(SRA Toolkit[6])、質控(fastp[15])、比對(bwa[16])、變異檢測(Sentieon[17])以及變異注釋(Annovar[18])等過程,最終獲取所有樣本的SNP/Indel信息及其注釋信息,基因型文件轉為plink格式儲存。

2.2.3 "轉錄組數據的分析

轉錄組數據通過格式轉換(SRA Toolkit[6]")、質控(fastp[15])、比對(HISAT2[19])、定量(StringTie[20])等分析步驟,最終獲得結構化的基因表達矩陣。

2.2.4 "表觀組數據的分析

表觀組數據通過質控(fastp[15])、格式轉換(Chromap[21])、峰值檢測(MACS3[22])等分析步驟,最終得到bedGraph文件。再通過bedGraphToBigWig[23]轉換為BigWig格式,在JBrowser中進行下游分析和可視化。同時本研究將基因組劃分為200"bp大小區域,統計每個區域的表觀信號,獲得個體水平的表觀信號矩陣。

2.2.5 "文獻組信息的分析

建立BioBERT[24]和AutoNER[25]模型對文獻數據進行處理。對于BioBERT模型,本研究選擇在Label Studio平臺中對1760篇摘要進行了基因和表型實體的人工標注,并使用遷移學習構建了經過微調的BioBERT模型。對于AutoNER模型,本研究構建了包含所有物種的基因ID、名稱和描述的基因字典,以及包含哺乳動物表型本體論和脊椎動物特征本體論術語的表型字典?;谶@兩個模型,在所有文獻摘要中識別了基因和表型實體,獲取它們的并集。

3 "數據內容

3.1""基因功能注釋數據集

本數據集提供了包括小鼠、豬、牛、雞、獼猴等

21個物種的基因功能注釋信息,涵蓋多個蛋白注釋庫??偟膩碚f,21個物種總基因數570628個,注釋出的基因數目為403216,注釋比例為70.66%,具有Swiss-Prot、KEGG、GO、Pfam、InterPro、KOG注釋信息的基因比例分別為70.71%、55.10%、51.35%、66.15%、68.37%、63.68%。這些注釋信息不僅有助于研究人員理解這些動物的基因功能和代謝途徑,還為進一步的研究和比較提供了重要的基礎(表2)。

3.2""基因組變異數據集

本研究下載了幾乎所有的豬、牛、羊、雞以及小鼠等21個物種的重測序數據,總共包含個體10835個,數據平均深度17.3,共鑒定出了877.60 M的基因組變異信息(SNP和Indel)(表3)。利用這些個體水平的基因型矩陣可以展開豐富的群體結構分析以及功能基因位點挖掘研究,能為功能位點研究提供準確的參考信息。

3.3 "基因表達數據集

本研究下載了幾乎所有的豬、牛、羊、雞以及小鼠等21個物種的轉錄組數據。利用這些樣本,本研究對21個物種的551159個基因的表達進行了定量,得到了包含44638個體的基因表達矩陣數據。相關結果可用于下游的模型構建以及其他研究。

為了方便樣本信息的檢索和應用,本數據集根據組織分類以及組織物理距離將所有樣本分為9個大類和256個小類。目前數據集包含豬、牛、猴等物種的轉錄組數據較多,組織分布也較為豐富,但狗、貓、老虎等伴侶/野生動物的轉錄組數據相對較少(表4)?;诳缥锓N和跨組織的轉錄組分析,能為這些物種的功能基因研究提供新的視角,這將有助于科研工作者更深入地理解這些動物的基因表達特征和生物學功能。

3.4 "表觀組數據集

本研究也對上述21個物種的表觀組數據進行了清洗,最終保留了4512個ChIP-Seq樣本和1206個ATAC-Seq樣本。同時,也將各種表觀組學數據根據樣本的抗體蛋白信息進行了分類,共涉及124種組蛋白或轉錄因子。此外,為了比較不同樣本指定區域的富集信號,本數據集將基因組分成長度為200 bp的區域,對每個區域的富集信號進行計數,最終得到了個體水平的全基因組范圍內的表觀信號矩陣(如圖1)。

3.5 "文獻組數據集

為了高通量地從文獻數據中挖掘出基因和性狀的關系,本研究對1760篇文獻摘要進行了人工標注,從中標注出基因實體25785個,性狀實體18328個。利用上述訓練集,本研究結合BioBERT和AutoNER算法,對2794237篇文獻摘要進行了預標注,共識別出基因實體6062個,性狀實體4431個,準確率、精確率、召回率和F1指數分別為94.54%、65.57%、78.25%和71.35%。該文獻組數據集提供了所有的文獻摘要以及包含基因、性狀實體的坐標信息數據,將有助于更深入地挖掘文獻中基因和性狀之間的關系(如圖2),為生物醫學研究和疾病機制的解析提供重要支持。

4 "質量控制與技術驗證

如何高效地收集、清洗、分析和存儲分布廣泛、數據格式各異、質量參差不齊的大規模組學數據,始終是一個巨大的挑戰。考慮到組學數據的多種特點,本研究設計了統一的標準和平臺。首先,利用Docker、Nextflow[26]和"PostgreSQL等技術,本研究開發了自動下載、分析和存儲組學數據的系統,以統一的標準完成數據集的制備。

其次,針對需要人工清洗的高通量數據以及文獻數據,本研究基于“眾包”思想開發了NGS清洗程序并搭建Label Studio平臺。該工具和平臺可以充分利用不同志愿者提交的標簽信息,通過志愿者之間的相互驗證,糾正潛在的錯誤,提高數據質量

和準確性。

對于高通量測序數據,本研究采用了主流的生信流程,并通過聚類、PCA等分析觀察其結果是否與預期相符,保證分析結果準確可靠。對于實體識別模型,本研究對模型性能進行了評估,發現準確率、精確率、召回率和F1指數分別為89.95%、78.39%、32.19%和45.64%,在犧牲召回率的基礎上盡可能保證結果的準確性。

5""數據價值與使用建議

目前,本數據集提供了包含21個動物物種的61191個個體水平組學數據(如WGS、RNA-Seq、ChIP-Seq和ATAC-Seq)和基因組注釋信息,有效數據規模為2.8 TB。同時,基于BioBERT和AutoNER算法開發的深度學習模型,本研究通過2 794 237條摘要挖掘“基因”和“性狀”之間的關系,建立了基因與性狀相互關聯的文獻組數據集??偟膩碚f,基于工程方法和眾包思想,本數據集使用統一的標準來清洗、分析和構建這些組學數據,為多組學研究提供了堅實的基礎和豐富的資源。此外,考慮到數據規模較大,本研究還依托IAnimal知識庫[27]提供了數據集在線查詢和可視化功能,在方便用戶快速使用該數據集的同時引導用戶更深入地完成多組學數據的挖掘。

利用本數據集可以開展以下研究:

(1)基因發掘和功能驗證:基因往往以功能通路或途徑的形式相互作用,形成一個復雜的調控網絡。利用多組學數據集,研究人員可以以一個更全面、多維度的視角來理解生物系統的功能和調控機制,有助于鑒定出影響重要經濟性狀的相關基因,加速育種進程。同時通過深度學習模型挖掘的文獻組數據集,可以進一步驗證這些基因與性狀的關聯性。多組學數據集的應用具有巨大的潛力,可以為改良作物和家畜的品質、產量和抗病性提供重要的支持和指導。在本研究中,我們可以利用轉錄組數據集構建基因調控網絡,旨在揭示關鍵的調控路徑和網絡結構。例如,搜索與IGF2相關的基因調控網絡,可以發掘出與IGF2相關的其他基因列表(如圖3),這些基因可能在多種生物學過程中與IGF2有關聯,可用于接下來的實驗驗證。

(2)跨物種比較研究:本研究的數據集涵蓋了多個動物物種的組學數據,包括了豬、牛、羊、雞、小鼠等21個物種的基因組、轉錄組、表觀組等數據。這為進行跨物種比較研究提供了豐富的數據資源和機會。通過分析不同物種中共同調控的基因,可以發現在進化過程中高度保守的基因調控網絡;比較不同物種的基因表達和染色質狀態,也可以發現特定物種獨有的基因或染色質修飾模式。例如,構建基于基因表達量的基因相關系數(GCC)矩陣,可以比較兩種物種間基因集的GCC,這種比較旨在揭示兩個物種之間基因表達調控的相似性和差異性(如圖4)。

同時,利用表觀組數據,可以比較不同物種染色質的修飾狀態,識別在多個物種中保守/差異的表觀修飾區域,揭示基因調控機制的保守性(如圖5)。

(3)機器學習模型訓練:研究人員可以利用提供的大規模多組學數據集,通過機器學習模型訓練,揭示基因與性狀之間的潛在關聯,從而推動精準育種和多組學研究的發展。這種方法不僅可以幫助加速育種進程,還有助于深入理解基因在生物體內的功能和調控機制。例如,Fu等人基于卷積神經網絡(Convolutional Neural Network, CNN)模型整合了來自不同研究的多組學數據[1],旨在優先篩選與目標性狀相關的候選基因,從而解析遺傳變異與重要經濟性狀之間的關系(圖6)。

6 "數據可用性

開放訪問,遵從CC BY 4.0協議。

https://cstr.cn/17058.11.sciencedb.agriculture.00024;

https://doi.org/10.57760/sciencedb.agriculture.00024。

7 "代碼可用性

流程分析參考IAnimal[27],源代碼可以從這個Github存儲庫中獲得:https://github.com/1044857812/"Analysis_pipeline.git。

數據作者分工職責

劉洪,數據匯總整理及論文撰寫。

竇婧文,王越,數據采集、數據處理。

廖勇,數據匯總整理。

劉小磊,李新云,趙書紅,總體方案設計與組織實施。

付玉華,數據采集、分析及質控與組織實施。

倫理聲明

本文數據不涉及倫理聲明相關的內容。

利益沖突聲明

作者聲明,全部作者均無會影響研究公正性的財務利益沖突或個人利益沖突。

參考文獻

[1] FU Y, XU J, TANG Z, et al. A gene prioritization method based on a swine multi-omics knowledgebase and a deep learning model. Communications Biology, 2020, 3(1): 502.

[2] 劉松譽,王向峰. 多組學數據關聯分析挖掘玉米抗逆基因(英文). 第二十屆中國作物學會學術年會.中國湖南長沙: 2023.

[3] 劉華濤,馬福平,趙卿堯,等. 聯合多組學數據鑒定豬脂肪沉積的候選基因. 中國畜牧雜志, 2023, 59(8): 123-130.

[4] 趙黃青,馬鈞,李欣淼,等. 多組學分析技術在肉牛生長發育研究中的應用. 中國畜禽種業, 2023, 19(7): 43-49.

[5] CUNNINGHAM F, ALLEN J E, ALLEN J, et al. Ensembl 2022. Nucleic Acids Research, 2022, 50(D1):D988-D995. doi: 10.1093/nar/ gkab1049D988-d95.

[6] KATZ K, SHUTOV O, LAPOINT R, et al. The Sequence Read Archive: a decade more of explosive growth. Nucleic Acids Research, 2022, 50(D1): D387-D390. doi: 10.1093/nar/gkab1053.

[7] CANTELLI G, BATEMAN A, BROOKSBANK C, et al. The European Bioinformatics Institute (EMBL-EBI) in 2021. Nucleic Acids Research, 2022,50(D1):D11-D19. doi:10.1093/nar/ gkab1127.

[8] SAYERS E W, BECK J, BOLTON E E, et al. Database resources of the National Center for Biotechnology Information. Nucleic Acids Research, 2021, 49(D1): D10-d7.

[9] BOUTET E, LIEBERHERR D, TOGNOLLI M, et al. UniProtKB/ Swiss-Prot, the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology, 2016,1374:23-54. doi: 10.1007/978-1-4939-3167 -5_2.

[10] KANEHISA M, GOTO S. KEGG: Kyoto encyclopedia of genes and genomes. Nucleic Acids Research, 2000, 28(1): 27-30.

[11] Gene Ontology Consortium. The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Research. 2021,49(D1):D325-D334. doi: 10.1093/nar/gkaa1113.

[12] MISTRY J, CHUGURANSKY S, WILLIAMS L, et al. Pfam: The protein families database in 2021. Nucleic Acids Research, 2021,49(D1):D412-D419. doi: 10.1093/nar/gkaa913.

[13] BLUM M, CHANG H Y, CHUGURANSKY S, et al. The InterPro protein families and domains database: 20 years on. Nucleic Acids Research, 2021, 49(D1): D344-d54.

[14] TATUSOV R L, FEDOROVA N D, JACKSON J D, et al. The COG database: an updated version includes eukaryotes. BMC Bioinformatics, 2003, 4: 41. doi: 10.1186/1471-2105-4-41.

[15] CHEN S, ZHOU Y, CHEN Y, et al. Bioinformatics, 2018, 34(17): i884-i890. doi:10.1093/bioinformatics/bty560.

[16] LI H, DURBIN R. Fast and accurate short read alignment """with Burrows-Wheeler transform. Bioinformatics, 2009, 25(14): 1754-1760.

[17] ALDANA R, FREED D. Data Processing and Germline Variant Calling with the Sentieon Pipeline. Methods in Molecular Biology, 2022, 2493: 1-19.

[18] WANG K, LI M, HAKONARSON H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Research, 2010, 38(16): e164.

[19] KIM D, PAGGI J M, PARK C, et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nature Biotechnology, 2019,37(8):907-915. doi: 10.1038/s41587-019-0201-4.

[20] PERTEA M, PERTEA G M, ANTONESCU C M, et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature Biotechnology, 2015, 33(3): 290-295.

[21] ZHANG H, SONG L, WANG X, et al. Fast alignment and preprocessing of chromatin profiles with Chromap. Nature Communications, 2021, 12(1): 6566.

[22] LIU T. Use model-based analysis of ChIP-Seq (MACS) to analyze short reads generated by sequencing protein-DNA interactions in embryonic stem cells. Methods in Molecular Biology, 2014, 1150: 81-95.

[23] NASSAR L R, BARBER G P, BENET-PAGèS A, et al. The UCSC Genome Browser database: 2023 update. Nucleic Acids Research, 2023, 51(D1): D1188-D1195.

[24] LEE J, YOON W, KIM S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 2020, 36(4): 1234-1240.

[25] SHANG J, LIU L, REN X, et al. Learning named entity tagger using domain-specific dictionary. arXiv:180903599, 2018.

[26] Di TOMMASO P, CHATZOU M, FLODEN E W, et al. Nextflow enables reproducible computational workflows. Nature Biotechnology, 2017, 35(4): 316-319.

[27] FU Y, LIU H, DOU J, et al. IAnimal: a cross-species omics knowledgebase for animals. Nucleic Acids Res, 2023, 51(D1): D1312-D1324.

引用格式:劉洪,竇婧文,王越,廖勇,劉小磊,李新云,趙書紅,付玉華.一種面向功能基因挖掘的動物多組學數據集[J].農業大數據學報,2025,7(1):96-106."DOI: 10.19788/j.issn.2096-6369.100039.

CITATION:"LIU Hong, DOU JingWen, WANG Yue, LIAO Yong, LIU XiaoLei, LI XinYun, ZHAO ShuHong, FU YuHua. A Multi-Omics Dataset for Functional Gene Mining in Animals[J]. Journal of Agricultural Big Data, 2025,7(1):96-106. DOI: 10.19788/j.issn.2096-6369.100039.

A Multi-Omics Dataset for Functional Gene Mining in Animals

LIU Hong DOU JingWen WANG Yue LIAO Yong LIU XiaoLei LI XinYun ZHAO ShuHong FU YuHua

1. Key Laboratory of Agricultural Animal Genetics, Breeding and Reproduction, Ministry of Education, College of Animal Science amp; Technology, Huazhong Agricultural University, Wuhan 430070, China; 2. Hubei Hongshan Laboratory, Wuhan 430070, China

Abstract:"Single-omics data alone is insufficient to comprehensively reveal the complex molecular mechanisms of gene regulation traits. Integrating different types and levels of biological omics data is of great significance for understanding the complex molecular networks within organisms. This dataset provides individual-level omics data (WGS, RNA-Seq, ChIP-Seq, and ATAC-Seq) and genome annotation information for 61,191 individuals from 21 animal species, with an effective data size of 2.8 TB. Additionally, this dataset includes gene and phenotype entity recognition data obtained through deep learning algorithms. Overall, this multi-omics dataset can be used for gene discovery and functional validation of agriculturally important traits, offering valuable resources for cross-species comparative studies. It also supports the construction of models for identifying key genes associated with economic traits in animals and facilitates algorithm research.

Keywords: multi-omics data; cross-species; functional gene mining; individual level; deep learning

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 亚洲综合色婷婷| 99久久免费精品特色大片| 97国产一区二区精品久久呦| 亚洲性网站| 国产麻豆va精品视频| 91美女视频在线| 色香蕉影院| 91精品亚洲| 精品免费在线视频| 国产激情在线视频| 最近最新中文字幕免费的一页| 免费A级毛片无码无遮挡| 国产成人欧美| 一级毛片在线免费视频| 国产成人永久免费视频| 精品一区二区三区水蜜桃| 粗大猛烈进出高潮视频无码| 亚洲精品爱草草视频在线| 中文字幕不卡免费高清视频| 内射人妻无码色AV天堂| 国产精品永久在线| 国产一级毛片网站| 国产精品自拍合集| 国产精品美女自慰喷水| 欧美一区二区精品久久久| 国产91精选在线观看| 无码高潮喷水在线观看| 欧美精品在线视频观看| 亚洲日韩久久综合中文字幕| 亚洲天堂视频在线观看免费| 亚洲中文字幕无码mv| 成人字幕网视频在线观看| 国产成人久视频免费| 欧美在线视频不卡第一页| 国产成人狂喷潮在线观看2345| 99国产精品免费观看视频| 人人爱天天做夜夜爽| 亚洲一区二区在线无码| 亚洲国产天堂在线观看| 在线无码av一区二区三区| 中文国产成人久久精品小说| 欧美日韩动态图| 亚洲欧美精品日韩欧美| 亚洲精品无码久久毛片波多野吉| 国产导航在线| 青青草国产精品久久久久| 波多野一区| 91免费观看视频| a级毛片在线免费| 国产精品专区第1页| 国内精品小视频福利网址| 热伊人99re久久精品最新地| 少妇精品在线| P尤物久久99国产综合精品| 中文字幕乱码二三区免费| 毛片网站在线看| 欧美激情成人网| 最新加勒比隔壁人妻| 国产一区二区福利| 亚洲国产成熟视频在线多多| 精品无码一区二区三区电影| 国产喷水视频| a亚洲天堂| 91精品国产综合久久不国产大片| 欧美亚洲综合免费精品高清在线观看| 99在线观看国产| 国禁国产you女视频网站| 99这里只有精品6| 激情亚洲天堂| 亚洲第一成人在线| 精品国产三级在线观看| 国产精品男人的天堂| 亚洲国产成人精品青青草原| 综合天天色| 亚洲人成色77777在线观看| 欧美一区二区精品久久久| 亚洲自偷自拍另类小说| 国产视频大全| 欧美亚洲国产精品久久蜜芽| 亚洲欧美日韩另类在线一| 欧美成在线视频| 欧美三级视频在线播放|