大數據是畜牧界下一個大事件。這些概念具有很大的潛力,不過從長遠來看,養豬生產者究竟如何受益還是個未知數。本文總結了育種領域的機遇。
中圖分類號:S813 文獻標志碼:C 文章編號:1001-0769(2017)10-0026-03
最近,一場專為動物遺傳學家召開的論壇會在荷蘭舉行,會議主題是“對基因組學時代說再見,歡迎豬數據新時代”。會議圍繞從精準農業到大數據分析的新技術。兩個不同的快速變化的領域將徹底改變我們要改良農場動物基因的方式。這僅僅是一個吸引人們注意力的有趣標題還是因為這些新技術和新方法某些事將會真正發生改變?大數據是否會改變遺傳改良計劃運作的方式從而改變基因的作用?
1 大數據分析和機器學習
大數據分析是探索和分析各種類型和來源的、結構化和非結構化的大型數據集的學科,以揭示有助于將這些數據轉換為相關信息和預測值的特性和相關性。闡明可用作未來管理和業務決策信息的特性。
機器學習是一種可以借助運算法則通過輸入數據來開發的人工智能。數據用于開發智能運算法則,以進行預測、檢測異常等。眾所周知的應用程序是欺詐檢測、電子郵件中的垃圾郵件過濾器。不過,在過去十年中,越來越多的農業應用程序正處于開發中。
2 精準農業和精準畜禽養殖(Precision Livestock Farming,PLF)
精準農業將會大幅增加信息量。這可以通過測量氣候和環境條件的智能傳感器來完成。在農作物耕作方面,它是將全球定位系統(Global Positioning System,GPS)和地理信息系統(Geographical Information System,GIS)結合起來,并增加可用于疾病精準治療、施肥或預測收獲數量和質量的信息。如果廣泛應用,信息可以在該地區內共享,并且可以創造知識來提高生產效率和可持續性。同樣,在動物生產中,以更結構化的方式收集日常測量數據,可以提供優化生產鏈的新途徑。盡管許多設備有能力每隔1 s或1 min收集一次測量數據,但收集的信息中大部分尚未充分發揮其全部潛力。精準農業是對不同來源的這些信息進行測量、存儲和利用。
例如,精準農業在畜牧業生產中可以開發精準飼養。其他信息則可以通過連續監測動物的位置和活動狀況或應用可測量內在身體參數的生物傳感器來進行收集。此外,傳感器可以用于詳細監測圈舍的狀況,如溫度、濕度等。將有關動物(基因型)和飼料的更詳細資料綜合起來后所形成的知識可以獲得更準確的飼喂策略。精準飼喂也可以針對群體或個體動物進行。此外,一旦詳細的信息得到了分析并用于優化農場生產效率,其他措施如精準治療(例如獸醫)和精準管理(例如屠宰管理)都將能夠順理成章地進行。將所有來源的信息結合起來會產生新的見解。一旦這種方案啟動,它可以擴大到探索能夠產生更多附加值或更高品質的方法。
3 編程馬拉松(Hackathons)
大數據分析具有多學科特性。一旦產生更多的數據和見解,它會將各種學科匯集起來。通過學科間的合作,探究多學科問題,最后產生真正的新見解和附加值。畜牧業中的例子包括與某些基因型和疾病治療相關的飼喂上的特定行為,這些行為似乎與飼喂方案相互作用。各學科已開發了自己的處理和優化事物的方法,但在大多數情況下,它們對于其他學科中發生的事情知之甚少。
目前尚未開發出更為典型且有潛力的見解,因為研究者很難從不同的學科獲得專業的知識。在這方面,人們將受益于大數據分析技術,快速揭示各領域交叉點上的特性,通過多學科團隊產生知識和見解?,F在“編程馬拉松”是受大數據發展驅動的一種新現象,多學科團隊在這方面相互競爭以解決某一問題。它將來自不同學科的數據分析師和專家組合在一起,并為他們提供不同的數據源,以探索多學科問題的解決方案。
4 數據存儲容量和大數據分析
測量并不總是最困難的部分,但重要的是測量結果要得到正確的存儲并進行合理的處理,以使其能用于將來的分析。大數據科學可以提供存儲和分析的解決方案?,F在,結構化和非結構化數據可以輕松地存儲在云端。
云端基礎架構可供利用,因此可以很容易地擴展存儲和計算資源。它有助于將各種信息流合并在一起并進行分析。啟用的門檻很低,但是成本必須得到監控。對于精準農業,它有助于以各種格式和測量頻率的方式存儲和分析各種來源的信息。
5 預測模型和機器學習
大數據分析的一個重要支柱是預測部分。檢測歷史數據的特性可用于預測未來的價值?!半S機森林”法和“支持向量機學習”法是大數據中廣泛應用的預測方法的例子。
遺傳方案也偏向于對遺傳價值的預測。它們使用各種技術,如最佳線性無偏預測(Best Linear Unbiased Predictions,BLUP)。為動物遺傳增加的特殊工具是關于處理動物間的親緣關系。由于目標和模式有一些相似之處,預計在不久的將來會進行持續的相互交流。
6 大數據分析與基因組BLUP方法
在過去十年中基因組選擇被廣泛應用于預測動物育種中的遺傳價值。它基于對精確了解育種值的參考動物進行基因分型,以獲取大量的遺傳標記,如均勻分布在染色體上的單核苷酸多態性(Single Nucleotide Polymorphisms,SNPs)。在大多數物種中,通常應用60 000個SNPs至600 000個SNPs的SNP芯片。
最后,根據這些參考動物,能夠得到表型和基因組之間關系的估計值,并用于高精度預測沒有大量信息的幼齡動物的基因組育種值。
在各種模擬研究中,常規方法如基因組BLUP(Genomic BLUP,GBLUP)已經與“隨機森林”法和“支持向量機學習”法之類的技術進行比較,以預測遺傳價值。有趣的是,這兩種方法的準確性都非常接近。傳統的GBLUP方法在某些情況下非???,但它似乎是在完全不同的環境中開發不同的技術,可以用于預測基于與遺傳標記有關的遺傳價值。
預計未來幾年,利用這兩方面提供的最佳方法將會開發出雜交模型。這有望促進各種數據源的使用,并提高遺傳育種價值的準確性。理論上這將加快育種方案的遺傳進展,并使育種目標與實際市場要求之間能夠更精準匹配。
7 從預測到指定
動物生產期間可使用的知識越詳細,在預測分析中直接使用這些信息就越容易。事實上,人們就可以高精度地預測未來會發生什么。當檢測到參數的某些特性時,它們可能與現有問題、疾病或最高產量具有很高的相關性。一旦提前獲知這些信息,對其進行預測就成為合乎邏輯的發展步驟。當亞臨床疾病在早期被發現時,治療可以確保該疾病不會復發。最有意義的是通過基因組測序可以了解某個動物的完整遺傳背景,并且使用該信息來檢測在其他情況下與特殊情況相關的模式。
在這種情況下,精準治療和精準飼喂可以讓單個動物有最好的產出。這可以防止動物的生長失去平衡,出現缺陷或發生疾病。此外,治療和飼喂將完全能夠根據動物的遺傳和環境背景進行。
另外,定期對一小群動物進行基因分型以獲取有限數量的遺傳差異(SNPs),可以揭示新一代動物具有與有較高食欲或對某些腹瀉株有較高抗性的動物相一致的不同遺傳組成。SNP的這些特性與較高的生產性能相關,但還可用于調整某些疾病的治療。
無論它是更詳細的遺傳知識、氣候還是環境條件,將這些知識直接納入預測模型,來獲得生產性能下降或即將到來的疾病的警報,這將有助于更充分地采取相關措施。直接連接任何指定信息和測量其有效性將為持續改良騰出空間。它將成為可持續生產的基礎,并將幫助農民充分利用其遺傳、飼料和農場環境。
8 未來幾年基因組學所需的數據存儲空間
基因組學就屬于大數據。如果一個領域可以真正創造大量的數據,并以指數級的方式增加,那么這個領域就是基因組學。過去十年的重點是單核苷酸多態性,這些是出現在群體中的DNA上單堿基對的差異。有時它們與表型差異有關,有時候它們沒有。基因組實驗室以非常快的速度從對60 000~10 000 000個SNPs進行基因分析發展到現在對基因組進行全部測序。當然,人類基因組學發展最快。
根據E. Hayden于2015年在Nature發表的一篇文章,到2025年,預計2億~20億人的基因組將完成測序。這將產生2~40艾字節(1艾字節=1 018字節)的數據存儲需求,并將使人類基因組學數據儲存的年增長率超過YouTube和Twitter的。當然,動物基因組學的發展預計將緊跟人類基因組學的發展,但是速度將會放緩。
9 未來該何去何從
我們將在未來十年內看到基因組學和大數據分析的巨大發展?;蚍中偷某杀緦⑾陆?,因此SNP芯片的利用將大幅增長。實際上全基因組測序成本似乎都將會處于一個低價位水平上,因此將可以提供非常詳細的遺傳信息。同時,分析成本大幅下降,并且每個需要它的人都可以利用高速計算機通過云端獲得。與此同時,云技術將會使數據存儲容量快速可用,并且可以對所有類型的數據流進行修改。更多的數據、更快的分析、更高的預測技術……總之,這將提高準確性,并使遺傳計劃更接近市場。
可以想象,在效率和質量方面將有巨大的發展。最終,這會導致遺傳學和其他學科更加透明化。這為更詳細地面向客戶的調整打開了大門,如精準飼喂、精準的獸醫治療和量身定制的遺傳學。更多的數據和更詳細的分析將為我們提供更多可持續發展和未來生產效率的信息。□□
原題名:Will big data change the future of pig genetics(英文)
原作者:Benny van Haandel