999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

作物表型組數據庫研究進展及展望*

2019-01-29 09:19:20王璟璐潘曉迪盧憲菊馬黎明郭新宇
中國農業信息 2018年5期
關鍵詞:數據庫植物信息

王璟璐 ,張 穎 ,潘曉迪 ,盧憲菊 ,馬黎明 ,郭新宇 ※

(1. 北京市農林科學院北京農業信息技術研究中心,北京100097;2. 數字植物北京重點實驗室,北京100097)

0 引言

作物及其相關領域科學研究與糧食問題息息相關。由于全球氣候變化,作物生產面臨著更頻繁的極端天氣,加之有限的水分及養分資源和可耕地面積,農業生產迫切需要新型氣候適應性品種的繁育,以滿足人們日益增長的糧食需求以及生物能源等其他工業用途的作物供應需求。

隨著人類基因組計劃(Human Genome Project,HGP)的完成,水稻[1-2]、玉米[3]、高粱[4]、大豆[5]和小麥[6]等主要農作物的基因組也相繼被破譯,作物研究隨之進入組學時代。計算機技術的快速發展為有效管理急速增多的生物學數據提供了可能,而生物信息學成為處理和挖掘高通量數據信息的主要手段。在生物信息學中,數據庫作為其研究的主要載體出現在生命科學的眾多領域。數據庫管理系統(Database Management system,DBMs)可以實現數據的存儲、檢索、分析和維護,互聯網技術為數據庫的開發、維護、推廣和應用提供了有效工具。如今,基因組學、蛋白質組學、代謝組學等各類組學數據庫,不僅為該領域的研究和發展提供了豐富的數據信息,同時又加強了多組學間及與其他系統生物學分支間的聯系,為學科間的交叉研究奠定了基礎。

近年來,表型組學(Phenomics)日漸興起并成為一門快速發展的數據密集型學科。表型組學相關技術和研究手段的高速發展,帶來了數量巨大、尺度多維、數據多樣的表型信息,如RGB、高光譜、近紅外、熱和熒光成像等圖像數據,植物生長過程中的各項生理指標數據等[7]。促使該領域的模型和數據管理系統隨之發展,以便能夠合理利用這些復雜的、動態的、大規模表型數據。

文 章 從Web of Science(http://apps.webofknowledge.com)、NCBI的PubMed(https://www.ncbi.nlm.nih.gov/pubmed/)和中國知網(CNKI,http://epub.cnki.net/kns/default.htm)等常用公共文獻數據庫中對已發表的作物表型組學相關研究文獻進行檢索,據此對國內外作物表型組學研究現狀進行分析,并基于其中的數據庫研究,對目前的作物表型相關數據庫進行綜述。最后,該文就作物表型組數據庫構建的標準及要求進行了介紹,并將參照這些數據庫構建原則在實際研究中設計自己的作物表型組數據庫。

1 作物表型組學研究現狀

表型組學這一概念于1996年由衰老研究中心主任Steven A.Garan在滑鐵盧大學的一次應邀演講上首次提出[8]。表型組學的定義類似于基因組學及其他組學,是指在基因組水平上系統地研究某一生物或細胞在各種不同環境條件下所有表型的學科。自2009年以來,隨著植物表型無損獲取方法以及大規模自動化高通量表型獲取設施的建立[9],表型組技術開始應用于基礎植物研究和作物育種中,并有望打破育種中的表型瓶頸[10]。如今,表型組學在植物,尤其是作物研究中逐年增多。作物表型組學的研究基于高通量信息獲取平臺收集的大量作物表型數據,包括株高、葉面積、果實等形態特征,水分利用效率和光合作用等生理特征以及花青素含量等生化特征。因為作物表型本身具有很高的復雜性,且時常處于動態變化中,所以研究人員在實際研究過程中一般只關注少數幾個表型,進行非動態的粗略研究。加之傳統的作物表型獲取效率低,表型研究技術也相對落后,使得表型組學在作物研究領域嚴重滯后于其他組學研究。截至目前,在單一表型或只關注少數幾個表型層面的研究已有很多,而從組學出發對作物表型進行的研究才剛剛起步。

該文在常用文獻檢索數據庫Web of Science、PubMed和中國知網上對已發表的作物表型組學相關研究進行檢索。從表型組的概念提出至今,外文文獻中以表型組學為主題的文獻有720篇,其中限定為作物和常見作物名稱(如水稻、玉米、小麥等)后的文獻數量為288篇。而以作物表型組學及常見作物名稱為關鍵詞在中國知網中進行檢索,可得到中文期刊文獻約20篇。由圖1可以看出,近年來,作物研究領域中以表型組學為主題的文章數目逐年增多,且近5年來數量陡增,可見隨著高通量作物表型獲取手段的不斷開發和完善,研究人員越來越關注表型組學的研究。

圖1 近年來作物表型組學研究文獻數量及趨勢Fig.1 The number and trend of published papers focused on Crop Phenomics in recent years

作物表型組學的急速發展伴隨著大量表型數據的產生,這就需要研究人員思考如何更好地對獲得的表型數據進行管理。在數據管理中,建立標準數據庫是一種十分便利且有效的方式。通過建立作物表型組數據庫,可以對表型數據進行存儲和分類,便于研究人員檢索、分析并分享研究成果。

2 作物表型組數據庫研究進展

不同于基因組學已有許多大型的、公認的、成熟的公共數據庫,如人類基因組圖譜數據庫(The Genome Database,GDB)[11]、Ensembl基因組注釋數據庫[12]和GenBank DNA序列數據庫[13]等,作物表型組學數據庫雖已有一些,但綜合性較強、普適性較廣的通用標準數據庫卻不是很多。在該文檢索到的近300篇有關作物表型組學的研究中,關于表型組數據庫的研究僅20余篇。這些作物表型組數據庫大多以物種進行分類,其數據形式豐富多樣,具體內容和訪問網址詳見表1。

該文對Planteome數據庫[14]、PGP知識庫[15]和OPTIMAS-DW玉米資源庫[16]等主要作物表型相關數據庫進行介紹,便于相關研究人員更好地使用,也為建立自己的作物表型組數據庫提供借鑒。

表1 主要作物表型數據庫信息Table 1 List of main crop phenotypic databases

2.1 Planteome數據庫:植物基因組和表型組數據共享平臺

Planteome數據庫[14]為特定物種的植物本體以及基因和表型注釋提供了一套參考。本體用作大量且不斷增長的植物基因組學、表型組學和遺傳學數據語料庫的語義整合的通用標準。參考本體包括植物本體論(Plant Ontology),植物性狀本體論(Plant Trait Ontology),由Planteome開發的植物實驗條件本體論(Plant Experimental Conditions Ontology),基因本體論(Gene Ontology),生物學興趣的化學實體(Chemical Entities of Biological Interest),表型和屬性本體論(Phenotype and Attribute Ontology)等。該項目還提供了來自世界各地的各種植物育種和研究團體開發的特定物種作物本體的途徑。該數據庫中提供了來自95種植物分類群的植物性狀、表型、基因功能和表達的綜合數據并以參考本體術語注釋。Planteome項目還開發了一個植物基因注釋平臺——Planteome Noctua,方便研究人員參與交流。所有Planteome本體都是公開可用的,并存放于Planteome GitHub站點,便于共享、跟蹤修訂和新請求。Planteome數據庫中所存儲的數據均可免費訪問。

Planteome數據庫擁有8種特定種類的作物本體(Crop Ontologies)[14],其中對性狀和表型評分標準的描述已被國際育種項目maize(玉米),sweet potato(甘薯),soybean(大豆),pigeon pea(木豆),rice(水稻),cassava(木薯),lentil(小扁豆)和wheat(小麥)采用。此外,該數據庫還提供了Planteome Noctua基因注釋工具,用于將研究社區與植物基因的功能注釋相結合。

Planteome數據庫具有本體瀏覽器和分面搜索選項,可訪問各種生物實體的本體和基于本體的注釋。所有數據和本體都存儲在一個索引系統中,該索引系統允許通過本體瀏覽器進行全文搜索。GitHub存儲庫(https://github.com/Planteome/amigo)提供了數據存儲設計的模式和索引文件。在目前的Planteome 2.0 Release中,Planteome數據庫囊括了大約200萬生物或數據對象的訪問,包括蛋白質、基因、RNA轉錄、基因模型、種質和數量性狀基因座。生物實體注釋通常使用來自同一或多個引用本體類的多個本體術語。目前,這200萬個實體大約有2 100萬個注釋。此外,該數據庫還提供了轉至多個參考本體的鏈接(表2)。

表2 Planteome參考本體和詞匯Table 2 Planteome reference ontologies and vocabularies

2.2 PGP知識庫:植物表型和基因組學數據發布基礎平臺

PGP 知識庫[15](Plant Genomics and Phenomics Research Data Repository)是由萊布尼茨植物遺傳與作物植物研究所和德國植物表型分析網絡聯合發起的植物基因組學和表型組學研究數據庫,目的在于分享源自植物基因組學和表型組學的研究數據。PGP中涵蓋了因數量或數據范圍不被支持而未在中央存儲庫中發布的跨域數據集,如來自植物表型和顯微鏡的圖像集,未完成的基因組、基因型數據,形態植物模型的可視化,來自質譜以及軟件和文檔的數據等。該存儲庫由萊布尼茨植物遺傳學和作物植物研究所托管,使用e!DAL作為軟件基礎平臺,并使用分層存儲管理系統作為數據存檔后端。PGP知識庫具有成熟的數據提交工具,該工具高度自動化,可降低數據發布的障礙。經過內部審核流程之后,數據將作為可引用的數字對象標識符發布,并在DataCite中注冊一組核心技術元數據。e!DAL嵌入式網頁前端為每個數據集生成登錄頁面并支持交互式探索。PGP作為有效的EU Horizon 2020開放數據存檔,在BioSharing.org、re3data.org和OpenAIRE已注冊為研究數據存儲庫。在上述功能中,編程接口和標準元數據格式的支持使PGP能夠實現FAIR數據原則——可查找、可訪問、可互操作和可重用。

PGP主要著眼于發布和共享涵蓋各種數據領域的主要實驗數據,如高通量植物表型分類的圖像收集、序列組裝、基因分型數據、形態植物模型的可視化和質譜數據,甚至軟件。PGP存儲庫中的數據集被分配給在DataCite上注冊的可用DOI,其中包含一組標準化的技術元數據。截至2015年12月,PGP中已有54個數據集作為DOI發布,并在DataCite研究數據目錄中注冊。其中,每個數據集中都包括與特定實驗或科學論文相關的所有記錄。PGP存儲庫目前擁有21 157個數據實體,總體容量為65.4 GB。

2.3 OPTIMAS-DW:玉米的轉錄組學、代謝組學、離子組學、蛋白質組學和表型組學綜合數據資源庫

OPTIMAS-DW(OPTIMAS Data Warehouse)數據庫[16]是有關玉米研究的綜合數據集。該數據庫整合了來自不同數據域的數據,如轉錄組學、代謝組學、離子組學、蛋白質組學和表型組學。OPTIMAS項目中設計并注釋了44 K寡核苷酸芯片,以描述所選unigenes的功能。該項目進行了幾個處理和植物生長階段實驗,并將測量數據填充到數據模板中。數據模板中的數據通過基于Java的導入工具導入數據庫中。Web界面允許用戶瀏覽OPTIMAS-DW中所有數據域的存儲實驗數據。此外,用戶可以過濾數據以提取自己感興趣的信息。數據庫中的所有數據可以導出為不同的文件格式,以進行進一步的數據分析和可視化。數據分析集成了來自不同數據領域的數據,使用戶能夠找到不同系統生物學問題的答案。此外,OPTIMAS-DW數據庫中還給出了玉米特異性通路信息。該數據庫的特點是能夠處理不同的數據領域,還包含了幾項數據分析結果,這些都對相關研究人員的工作起到支持作用,特別是系統生物學研究領域。

2.4 BIOGEN BASE-CASSAVA:木薯表型組和基因組信息資源庫

BIOGEN BASE-CASSAVA是用于研究木薯表型組學和基因組學信息的網絡可訪問資源庫[17],該數據庫中展示了農作物木薯(Casssava)的研究成果。其中,木薯表型檢索板塊中,每種種質都有包括定量和定性性狀在內的約28個表型特征。CASSAVA數據庫使用PHP和MySQL設計,并配備了廣泛的搜索選項。它通過開放、通用和全球性的論壇為所有對該領域感興趣的個人提供豐富的遺傳學和基因組學數據。該數據庫界面友好,所有數據均公開發布,有助于相關研究者對木薯的研究和開發。BIOGEN BASE資源庫由泰米爾納德邦農業大學的兩個研究站(Tapioca和Castor)維護。除木薯外,BIOGEN BASE資源庫還擁有水稻和玉米資源庫以及其他數據庫資源。

2.5 其他作物表型相關數據庫

除以上作物組學數據庫外,還有一些數據庫中也包含了特有的作物表型信息。TRIM數據庫[18],即臺灣水稻插入突變體數據庫,包含了有關突變體系的整合位點和表型信息,為水稻表型組學研究提供了良好資源。Gramene[19]是一個植物基因組比較基因組學數據庫,提供了多種作物(如水稻、高粱和玉米等大田作物)的公開數據來源,除作物基因組學數據(如遺傳標記、基因、蛋白、信號通路等)外,還包含了部分作物表型信息。Grain Genes作為小麥家族作物信息的專門數據庫,包含了小麥等麥類的分子和表型信息數據。

3 作物表型組數據庫構建標準及要求

數據管理是管理、存儲和共享研究數據的過程[7]。當數據研究涉及多個研究人員或在復雜環境中進行研究時,這項工作將非常具有挑戰性[21]。數據的管理方法取決于整個研究過程中所涉及的數據類型、數據收集和存儲方式以及數據的利用。而數據的管理情況也在一定程度上影響著研究結果。對數據進行管理有助于研究人員在后續研究中進行更好地分析和利用,確保研究質量。如果數據管理得當,研究人員可以輕松查找信息,并有助于他們得到預期結果。

如今,隨著高通量植物表型獲取技術的開發和應用,大規模作物表型數據相伴而生,作物表型數據量也呈指數級增長。因此,這就需要研究人員在研究期間及獲取數據后對表型數據進行妥善管理。需要對從各種表型平臺中獲得的大量原始表型數據進行分析,而擁有最優數據管理才能實現最佳應用,從而完成對數據的深度挖掘。針對與日俱增的作物表型數據,構建作物表型組學數據庫便是一項有效的數據管理措施。

3.1 表型數據的標準化和存儲

通過現有的高通量作物表型信息獲取平臺和技術,研究人員獲得的表型數據量通常高達GB甚至PB,而且這些非結構化的“大數據”,通常包含大量復雜的圖像、光譜和環境數據。因此,表型數據的有效存儲、管理和檢索成為目前研究人員需要考慮的重要問題[22]。

當前普遍接受的信息標準化原則包括3個方面:(1)最小信息(minimum information,MI),建議利用最小信息法來定義數據集的內容;(2)本體術語(ontology terms),采用本體術語作為數據的唯一和可重復性注釋,有利于數據共享和薈萃分析;(3)數據格式(data format),選擇適當的數據格式來構建數據集,如CSV,XML,RDF和MAGE-TAB等。

組織文件是數據存儲的重要組成部分。在數據集中,跟蹤文檔及其版本至關重要,例如目錄結構命名和文件命名約定。對于多站點項目,原始數據將上傳并存儲在文件服務器上。在通過腳本處理之后,輸出文件存儲在文件服務器上,研究人員可以從該文件服務器下載副本。從數據庫數據標準化和存儲的角度來看,基于“云技術”的存儲方案正在成為植物表型數據存儲發展的趨勢。云存儲系統可以優化作物表型平臺系統架構、文件結構和高速緩存等設計。目前,各種表型數據采集平臺仍然相對獨立,尚未在地區、國家或大陸層面建立。通過人工智能的先進技術,建立基于多層表型信息的典型作物表型數據庫,例如GDB人類基因組數據庫,將引起相關研究人員的極大關注。

3.2 表型數據的科學管理

對于任何科學數據管理系統,都需要滿足多項必要的要求[7]。

(1)數據存儲和管理

數據密集型學科(如組學)中的研究活動通常會產生大量數據。有效獲取、存儲和管理大量數據的能力至關重要。

(2)數據背景化

需要擁有足夠的上下文信息,以便更有效地組織、理解和挖掘原始數據。背景信息包括概念域模型(如研究活動如何組織和實施)和元數據(如出處信息)。

(3)數據安全

數據安全包括許多方面,如訪問控制和存檔。有效的數據管理系統需要通過使用身份驗證和授權以及聲音版本控制和備份解決方案來確保數據安全。

(4)數據識別和使用壽命

為了支持科學發現的傳播,數據庫中的數據需要在發布后可以公開訪問,因而需要持久且唯一的命名方案。此外,有價值的科學數據也需要永久存儲。

(5)數據重用和集成

上下文信息有助于理解原始數據。此外,還需要通過全文搜索、分面瀏覽和復雜查詢應答等機制使數據可被發現,以允許集成和重用原始數據。

(6)模型可擴展性

數據管理系統可能需要管理各種各樣的數據,這些數據可以由不同軟件生成并由不同平臺捕獲。因此,表達和可擴展的域模型對于滿足域概念的修改、添加和刪除至關重要。此外,還需要設計數據管理系統,以便在發生此類模型更改時最大限度地減少服務中斷。

3.3 表型數據庫的構建規劃

一個數據庫的構建規劃由許多元素組成,這些元素涵蓋了描述、文檔、過程和存檔等多方面內容,因此表型數據庫的構建規劃中也必須具備以下幾個方面。

(1)數據描述

數據的描述主要包括研究目的、數據及數據內容、數據來源、數據收集方式及形式、數據收集耗時及變化頻率以及管理人員信息等。

(2)說明文檔

說明文檔涵蓋的范圍較廣,主要有①創建的便于其他研究人員理解數據的文檔;②元數據標準化、管理和存儲方式;③文件格式及其標準;④文件命名、存儲、安全和備份程序;⑤閱讀或查看數據等需要的工具或軟件。

(3)數據處理

諸如數據的訪問、共享和重用等,都需要明確以下信息:①數據版權;②數據分享內容、時間和方式;③數據及其他信息的知識產權;④數據共享專利;⑤允許重用、再開發,或創建新工具、服務、數據集或產品等。

(4)存檔

在數據的存檔中,需規定:①數據歸檔方式;②數據存檔期限及訪問權限;③數據提交方式及要求;④數據保留時間等。

3.4 表型數據的共享和發布

生物技術和生物科學研究委員會(BBSRC)已實施數據共享政策。根據BBSRC要求,數據共享應包括以下細節:數據區域和數據類型,標準和元數據,與公共存儲庫中可用的其他數據的關系,二次使用—已完成數據集的進一步預期或可預見的研究用途、數據共享方法、專有數據、時限以及數據集最終格式[23]。

4 展望

作物表型組學是一個快速發展的領域,新的表型獲取手段和研究方法不斷出現,只會催生越來越龐大復雜的作物表型組數據。因此,構建綜合性作物表型組標準數據庫,或構建特定作物的表型組數據庫,將成為該領域相關研究人員的工作重點。

在形式上,理想的作物表型組數據庫應具備界面友好、圖文并茂、操作簡單和更新及時等特征,不僅要具有多維度、多生境表型信息的存儲能力,還要便于用戶檢索和查閱,增強數據資源的信息共享,提高來之不易的作物表型數據的利用效率。在內容上,作物表型組數據庫應涵蓋從微觀到宏觀,從顯微到器官再到個體乃至群體的多維度數據,應包含作物相關的生理生化和顏色紋理等多種信息。

農業信息化是現代農業的必然發展趨勢,作物表型組數據庫的構建也是順應時代發展的產物。今后,應持續關注作物表型組研究領域內的數據庫相關研究,充分利用各種綜合和專用數據庫,并在實際研究中著力構建自己的作物表型組數據庫。

猜你喜歡
數據庫植物信息
哦,不怕,不怕
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數據庫
財經(2017年2期)2017-03-10 14:35:35
將植物穿身上
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
植物罷工啦?
植物也瘋狂
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 欧美日韩第三页| 国产91在线免费视频| 国产精品白浆无码流出在线看| 国产精品 欧美激情 在线播放| 精品无码日韩国产不卡av| 91精品综合| 亚洲国产成人在线| 亚国产欧美在线人成| 国产精品亚洲精品爽爽| 亚洲日韩每日更新| 国产国产人成免费视频77777 | 夜夜爽免费视频| 四虎永久免费地址| 中国一级特黄视频| 毛片久久网站小视频| 婷婷综合在线观看丁香| 国产精品视频导航| 日本亚洲成高清一区二区三区| 欧美区国产区| 波多野结衣久久高清免费| 九色视频一区| 伊人色天堂| 亚洲欧美另类中文字幕| 2021最新国产精品网站| 国产无码制服丝袜| 中文字幕欧美成人免费| 国产精品第5页| 亚洲二区视频| 日韩福利视频导航| 亚洲国产高清精品线久久| 黄色污网站在线观看| 粉嫩国产白浆在线观看| 97视频在线观看免费视频| 波多野结衣一二三| 久久国产精品77777| 99热这里只有免费国产精品| 777国产精品永久免费观看| 国产91线观看| 亚洲激情99| 欧美中文一区| 99视频在线免费| 毛片网站在线播放| 欧美精品aⅴ在线视频| 香蕉视频在线观看www| 欧美一区精品| 丝袜美女被出水视频一区| 亚洲精品成人片在线观看| 欧美成人手机在线观看网址| 色噜噜在线观看| 日韩免费毛片视频| 欧美日本在线一区二区三区| 久久久波多野结衣av一区二区| 亚洲黄色网站视频| 国产精品第| 97视频精品全国免费观看| 国产人人射| 亚洲视频在线网| 天堂在线www网亚洲| 国产99视频免费精品是看6| 亚洲视频影院| 亚洲精品国产精品乱码不卞| 91啦中文字幕| 中文一区二区视频| 日韩一区二区在线电影| 国产成人亚洲综合a∨婷婷| 免费 国产 无码久久久| 亚洲无码熟妇人妻AV在线| 992tv国产人成在线观看| 亚洲国产综合自在线另类| 国产午夜人做人免费视频中文| 99成人在线观看| 欧美精品一区二区三区中文字幕| 人与鲁专区| 97精品国产高清久久久久蜜芽 | 波多野结衣一区二区三视频| 国产精品亚洲va在线观看| 99久久这里只精品麻豆| 福利在线不卡| 九色视频线上播放| 久草视频中文| 天堂成人av| 国产一级精品毛片基地|