白永平 彭江紅 王延卓
(烏蘭察布職業學院,內蒙古烏蘭察布 012000)
隨著現代技術的發展,動物飼養者可以使用較少的時間,持續的監控和收集動物和農場的信息。特別是基于數字圖像、傳感器、聲音、無人系統和實時非侵入性計算機視覺產生的大數據,可大幅度提高動物相關產品的質量,維持可持續發展和維持動物的健康。結合動物的基因組學、轉錄組學和微生物組等分子信息,實現精準動物農業的可行性強。此外,全球對動物產品的需求量日益增加,預計到2050年對動物產品的需求量將增加70%,世界糧農組織呼吁擴大和高效生產動物產品。深度開發動物養殖過程中相關的大數據,通過動物種質資源數據信息和動物質量的信息監管以及網上服務系統的數據深度解讀,有利于推動動物產品的高效生產[1]。大數據的采集及其分析,是養殖業面臨的一個新的挑戰,該挑戰可以通過使用機器學習和數據挖掘予以解決。本文闡述了在大數據分析背景下機器學習和數據挖掘的意義。本文還列舉了機器學習在動物科學相關領域用于預測分析精準動物農業的典型的例子。
現代技術的出現允許我們以更低的成本收集更多的數據。“大數據”是近年來媒體關注的重點。然而,它的意義往往因研究領域的不同而差異較大。該數據中通常有多個行數或列數,因此限制了視覺對數據的觀察。由于數據“大小”的定義取決于可用的計算資源,因此,對“大”的定義是不斷變化的,而且大數據量增加與科學家對數據管理技能之間的差距還在加大[2],大數據的屬性,包括數量,多樣性和低價值密度等等都是呈現了大數據不斷增長的復雜性。并且與傳統的數據集合相比較而言,大數據通常包含非結構化數據,而且需要對大量數據進行實時分析[3]。大數據的分析方法在大數據信息的分析中尤為重要。洞悉大數據或將大數據轉化為知識的有效方法是使用數據挖掘和機器學習方法。通過在分析大數據的機器學習算法過程中,對大數據中的信息進行深度挖掘,找到具有社會價值的信息,從而發揮數據的最大潛力[4]。
機器學習,也稱為統計學習,是人工智能的一個領域,專門用于研究預測和推理算法。從數據中學習是機器學習的核心。數據挖掘與機器學習具有類似之處,經常相同的背景下做推論。在大多數實際情況中,機器學習的最終目的是學習或者選擇一組能夠最好地預測未觀測數據的候選概率模型。例如,假設我們的任務是根據基因型預測動物的表型,并且我們有一個由一對表型和相應的基因型組成的數據集。在機器學習中,這種類型的任務稱為監督學習,其預測目標(表型)稱為監督信號。如果表型是離散的,例如疾病狀態,那么這里的任務更具體地稱為分類任務。如果表型是定量的,則稱為回歸任務。相比之下,當數據集不完整且只有基因型可用于所選個體(無表型)時,該任務稱為無監督學習。神經網絡是實現機器學習任務的一種主要的方法,它是由多種單元組成的類似于生物神經系統的網絡結構,用來模擬生物與自然環境之間的交互,其具有強大的數據處理能力和自主學習能力,可以進行精準的識別,從而對分類數據進行有效的處理[5]。計算機處理速度較慢、存儲容量不足是當前機器學習在處理大數據時所遇到的主要問題,為了解決該問題,并降低機器學習算法的復雜度,研究者提出了三類并行處理機器學習算法的方式,即基于多核的并行機器學習算法,基于集群的并行機器學習算法和基于混合體系結構的并行機器學習算法[6]。
我們現在介紹大數據分析預測在動物科學應用方面的例子。這些示例的概述與大數據分析的相關內容如圖1所示。

圖1 機器學習和數據挖掘在動物養殖行業中的應用
動物科學的遺傳學分析可以說是最早使用機器學習和數據挖掘的領域,在基因表型預測使用最早是在2007年[7]。大數據被稱為國家層面的常規遺傳評估,涉及數百萬具有大量分子信息的動物,如基因多態性。這方面的研究是遺傳界的一個熱門話題,有研究者對機器學習在動物繁殖與培育中的應用進行了深入的討論[8]。鄒國英等人還研究了機器學習在人類基因重組位點及DNase I高敏位點(DHSs)的預測問題[9]。在當今基因組和表型數據量快速增加的情況下,機器學習對非結構化的育種產生越來越大的影響。
乳腺炎是影響奶牛產奶和哺乳期健康的主要疾病,每年導致巨大的經濟損失。發病原因比較復雜,除了病原微生物感染引起外,擠奶不當、中毒病和代謝等疾病也會誘發乳腺炎。目前,通過測量奶牛的產奶量,新鮮乳汁的電導率,乳酸脫氫酶和體細胞分數是乳腺炎檢測的常規方法。但是這類方法存在靈敏度低,檢測復雜,需要昂貴的儀器等缺點。最近十年,一種非監督訓練的神經網絡訓練后,成功地應用于診斷農場的奶牛乳腺炎的發生。一個典型的例子是,我國的研究者左月明團隊,基于奶牛的新鮮乳汁的電參數,建立了神經網絡模型。結果表明,與沒有電參數的神經網絡模型相比,該方法的靈敏度顯著提高,正確檢出率為100%[10]。該研究提示,無監督的神經網絡學習可以用來檢測奶牛的乳腺炎,為農戶提供管理和診斷乳腺炎的工具,可以達到早期發現,早期干涉的目的。
機器學習和數據挖掘技術在動物流行病的防控中主要有3個方面[11],即動物流行病預警、輔助檢測與流行病的應急處理以及輔助動物醫學專家對流行病做出正確的防控決策。其中,前2項內容,主要是由國家和地方動物衛生與流行病學機構進行分析應用,第三項多為動物醫學專家關注。付雯等報道的偉嘉集團,通過將檢測云平臺、互聯網以及云計算中心將檢測實驗室、檢測養殖場和獸醫資源專家進行整合,通過大數據挖掘以提供疫病診斷、用藥安全以及流行病學調查等技術服務[12]。大數據在動物流行病防控中的潛在價值遠遠大于小規模數據,能夠通過大數據來評估疾病風險和預測大規模爆發時間,以及發生疫情后通過大數據進行緊急防控和應急處置,并在疫情結束后通過大數據來分析總結疾病原因,制定更加全面的保護措施。
雖然動物行為一直是動物科學中圖像數字分析的核心內容,但是動物的體重測定是圖像分析的一個新興領域[8]。動物體重是營養與育種管理的一項關鍵的指標,它是動物生長,健康狀況和市場準備的直接指標。因此準確的動物體重確定,對畜牧業研究至關重要。傳統測量動物體重的方法是靠地磅測量,但是該方法具有費力和準確度低的缺點。采用圖像分析獲得動物的體重參數是一項可行的技術,可以減少常規方法測量體重的缺陷,它可以自動測量動物圖像的尺寸,然后利用預測方程來建立圖像參數與活體動物體重之間的關系。
一般來說,有研究報告基于數字圖像的生物識別的可行性。基于紅外光的深度傳感器,例如微軟公司的一款MK設備,是一個用于此目的的合適的視覺系統。該系統使用深度映射圖像技術,最大限度的減少了圖像捕獲過程中由于環境背景和動物皮毛顏色的干擾造成的負面效應[14]。通過特定的計算工具,如MATLAB中的圖像獲取工具箱,對MK相機生成的圖像進行分析。在該工具中,必須指定深度圖通道,以確保在測量過程中能夠獲得良好的圖像。例如研究者分別假設每次采集50幀和20幀的深度圖,應用在豬和肉牛的體重研究中[13,14]。
根據不同的研究目的,可以使用不同的圖像部分。比如,Gomes等人使用動物胸部寬度、腹部寬度、體長和背高的圖像,他們發現動物的胸部寬度與體重呈現非常好的相關性[13]。Kongsro等人使用選定的圖像部分進行估計豬的體積,發現其與豬的體重呈現良好的相關性。他們報告了在不同大小和品種的豬的體重預測中有一個小的平均誤差[14]。楊威等人通過混合高斯模型對背景進行建模,并利用圖像局部特征ORB關鍵點作為分類的屬性對圈養的豪豬進行行為識別,準確率能夠達到93.23%,為信息采集、智能監控在動物養殖業的應用提供了參考[15]。雖然上述研究表明了通過MK系統拍攝的數字圖像用于畜牧業體重估算有很大的應用潛力,但是仍存在一些挑戰。因此,神經網絡在圖像識別和預測性能方面具有靈活性和高效性,是一種可行的解決方案。
隨著下一代測序方法的進步,動物農業的發展出現了許多機遇,在動物農業的發展過程中有很多新型的方法會出現。其中,微生物組的研究與應用是一個典型的例子。大量的研究表明,對牲畜種類的宏基因組研究已經展現出了微生物組對飼料效率,動物健康,動物繁殖等的重要性[16,17]。然而,盡管這些宏基因組研究已經使人們更好地了解牲畜的健康和生產中的微生物組,但是大多數微生物產生的遺傳信息目前并沒有充分利用起來。新的數據挖掘和機器學習方法對于未來微生物組的研究至關重要,以改善動物農業中的動物生產和表型預測。
迄今為止,少量研究嘗試了使用動物微生物組預測動物表型。Shabat等人調查了78只奶牛的種群,研究表明動物瘤胃微生物的種類和微生物基因組可用于預測飼料的飼喂效率表型,精確度高達91%。更重要的是,研究表明微生物組的特征可以高度預測動物的生理特征,如牛奶乳酸和牛奶產量[18]。例如,在腸道中注釋微生物功能相關性的能力尚處于起步階段。在腸道中注釋微生物組功能相關性的研究尚處于起步階段。此外,大多數研究確定了微生物組的變化和宿主表型之間的關系,但未能解釋其因果關系。由于目前預測微生物組對動物腸道環境的變化和操縱的反應能力有限,人工調節腸道微生物菌群的途徑也非常有限。需要多學科方法以及新穎的數據挖掘和機器學習方法。
完全自動化的數據收集或表型平臺,能夠實現精準的動物農業,其特征不僅在于數據量增加,而且也表現為實時收集的復雜性和動態特性。有了支持數據密集型的技術,在養殖過程中,我們可以持續監控動物,有助于提高動物的健康狀況、性能和環境負荷等。目前,動物科學界缺乏可以充分利用這些新型類型數據的基礎設施和工具。當這些數據與體動物的基因組學,轉錄組學和微生物組等分子信息結合起來,新型的機器學習和數據挖掘技術可以提取關鍵的信息,推進實施精準動物農業。此外,具有互補背景的跨學科領域,如計算機科學,經濟學,工程學,數學和統計學,以及工業,對于有效開發分析高通量和異質數據的前沿方法是必不可少的。精準動物農業領域內,養殖人員定制管理實踐,采用具有預測用途的機器學習方法將驅動動物養殖大數據實現精準動物養殖。