邢冉冉,吳亞君,陳 穎
(中國檢驗檢疫科學研究院,北京 100176)
近年來,國內外食品摻假造假事件時有曝光,由此產生的經濟和社會影響引起世界各國的廣泛關注。隨著現代工業科技的迅速發展,摻假的手段和花樣也在不斷地翻新,從早期的缺斤短兩、勾兌稀釋等簡單形式發展到利用現代科學技術手段進行的“棄真存偽”。同時,隨著食品供應鏈觸及的范圍更寬泛,涉及到的因素更為復雜,食品的產地溯源也變得更加困難。食品生產中摻假造假的鑒定和食品標簽制度的有效實施都必須有完善的食品物種鑒定和產地溯源方法作為檢測的基礎。因此,對食品中的物種來源進行有效鑒定是識別食品摻假造假問題的一項重要措施。
在過去的20 年中,大量基于DNA的分子檢測方法,如聚合酶鏈式反應(polymerase chain reaction,PCR)技術、基因芯片技術和分子指紋圖譜技術等得到迅速發展并在食品物種鑒定領域得到了廣泛的應用[1]。但是隨著檢測需求的日益變化,現有方法在一定程度上存在如程序復雜、費時費力、鑒定結果精確性低等不足。2003年加拿大動物學家Paul Hebert教授首次提出了DNA條形碼的概念,一經提出便迅速成為分子分類學以及分子鑒別技術的核心方法,在生物物種鑒定方面發揮了重要作用[2]。然而,無論是常規的基因檢測技術,還是DNA條形碼技術,通常一次只能檢測出一種或者少數幾種物種,而不能快速分析出數百萬的基因序列。而多數情況下,待測樣品通常是多種不同物種的混合物,且有些物種的含量占樣品總量的比例極低(低于1%)[3]。特別是隨著食品產業的發展,食品的品種越來越多,加工越來越精細,成分越來越復雜,物種的原始特征已經消失,因此同時對多物種進行定性定量檢測的需求越來越大。基于高通量測序技術的宏條形碼技術在該方面具有良好的應用前景。
本文對宏條形碼技術進行了介紹,并對其在食品物種鑒定領域的應用、面臨的挑戰及發展前景進行了探討。
DNA條形碼技術是利用基因組中一段標準的、相對較短的DNA片段作為物種標記,通過進化樹分析來描述物種間的親緣關系,進而對物種進行鑒定的一項技術[4]。在過去的十幾年間,大量的科學研究機構和組織已經發現了多個具有物種學信息的基因片段。其中,線粒體細胞色素c氧化酶亞基I(cytochrome oxidase subunit I,COI)的一個特定片段DNA序列作為分辨動物界中近緣物種的標準片段[5];葉綠體核糖激酶1,5-二磷酸羧化酶基因(ribulose 1,5-bisphosphate carboxylase,rbcL)和蛋白成熟酶K基因(maturase K,matK)以及核基因片段(internal transcribed spacer,ITS)被用作植物DNA條形碼[6];核糖體DNA則常被用作鑒定真菌和細菌等微生物的DNA條形碼[7]。
隨著生命條形碼聯盟(Consortium for the Barcode of Life,CBOL)的建立,DNA條形碼技術被迅速用于生物多樣性分析及保護、物種鑒定、生物的遺傳進化、檢驗檢疫、法醫學、生物安全與公共健康、農業生產、道地藥材產地溯源、食品真偽鑒別和產地溯源等多個方面[8-11]。與傳統的分類手段相比,DNA條形碼技術具有以下優點:1)不受個體發育階段和基因片段的限制,甚至對已降解的樣品也可以進行分析;2)加快了對已知物種的識別速度,同時便于發現新物種;3)加速了便攜式手持設備的研發,可以盡快實現現場完成樣品的處理、擴增、測序和鑒定;4)為生物的分類提供了條件[12-16]。然而,在顯現優勢的同時,基于Sanger測序法的DNA條形碼技術的局限性也非常明顯,其中一點就是無法同時完成對多個體多物種混合樣品的高效快速分類及評估[17]。
隨著對生命科學的深入研究與生物技術的進一步發展,人們對DNA測序技術的要求不斷提高,傳統的Sanger測序已經不能完全滿足研究的需要。高通量測序技術的出現徹底改變了DNA分析的方式。以Illumina測序平臺為例,其主要技術特點就是可以邊合成邊測序,DNA片段加上接頭之后,可以隨機附著于玻璃表面,通過橋式PCR擴增形成具有DNA分子克隆片段的DNA分子簇;基于可逆終止化學反應的原理,對數百萬個片段同時進行大規模平行測序;測序反應結束后,成像系統能夠捕捉熒光標記的核苷酸,其中一個簇的圖像數據就是一個DNA序列;隨后將圖像數據轉換為堿基序列信息,完成測序。與傳統的Sanger測序技術只能對單一的DNA分子進行測序不同,高通量測序技術可以獲得樣本中每個DNA分子的序列,具有測序通量高、速度快、成本低等優點。近年來,隨著測序技術的不斷發展成熟、測序成本的不斷降低和生物信息學分析軟件的進一步完善,高通量測序技術的應用領域已經從最初的基因組科學研究逐漸延伸到生物技術、食品安全和醫藥衛生等各個領域。
宏條形碼技術就是近年來隨著高通量測序技術的發展而出現的一種新型物種鑒定技術。這種技術結合了DNA條形碼技術和高通量測序技術的共同優點,可以獲得來自于混合樣本中所有目標DNA片段的序列,然后將這些序列與合適的數據庫進行比對即可確定其代表的物種,從而可以分析混合樣本中的物種組成[18]。2012年,Taberlet等[18]將宏條形碼技術定義為“利用從環境樣本中(例如土壤、水、糞便等)提取的總DNA和降解DNA來進行高通量多物種鑒定的技術”。需要指出的是,宏條形碼與宏基因組是完全不同的兩個術語,前者不涉及到基因組水平上的任何功能分析。
宏條形碼技術最突出的優點就是可以更加快速、準確地對混合樣本或環境樣本中所包含的生物體進行鑒定,能夠實現同時檢測復雜樣品中多個物種的目的。其優點主要包括:1)測序對象為短的PCR擴增子,有利于對降解和低分子質量的DNA樣品進行分析;2)采用通用的PCR引物,因此可以對未知物種進行分析;3)經濟,同時對大量樣本分析降低了每個樣本的成本;4)深度測序,增加了檢出微量DNA的可能性[3]。這些優點對于食品類型鑒定,特別是對于未知食品、復雜食品或者深加工食品來說有著非常重要的作用,為分析食品中的物種成分提供了一個新的研究手段。
在對食品中的物種成分進行分析時,宏條形碼技術的實驗流程基本包括6 個步驟[19],具體見圖1。宏條形碼技術與DNA條形碼技術在實驗流程上大致相同,但是在具體操作中,兩者又有很大不同,例如分子標記的選擇、涉及到的測序技術和數據處理過程等。宏條形碼技術所涉及到的這些步驟看似簡單,但在實際操作過程中,遇到的問題及解決方案因研究目的而異,因此目前并沒有統一的、標準的詳細操作流程,各個步驟的具體操作還需要參考相關領域己有的研究來確定[20]。

圖1 宏條形碼鑒定食品物種成分的流程Fig. 1 Major steps of metabarcoding for food species identification
傳統的食品物種來源主要依靠生物的表型及解剖特征等進行感官鑒定。但是對于加工處理后的食品,感官檢驗的難度及準確性將大大降低且感官檢驗對檢驗人員的經驗要求較高。在分子生物學技術得到成熟應用之前,理化分析方法在食品種類和真偽鑒別中應用最廣。隨著科學的發展,基于核酸的分子生物學技術發展很快,與理化方法不同,分子生物學技術對物種的判別基礎是遺傳物質,通過遺傳物質從而保證檢測結果的確定性和重現性。如DNA芯片技術、指紋圖譜技術、DNA條碼技術等。但當檢測對象是復雜食品、未知食品或者數量特別龐大的樣品時,這些傳統的分子檢測方法和DNA條形碼技術都開始顯現出不足之處。宏條形碼技術的出現為這一問題的解決提供了一種更加便捷經濟的方案。
宏條形碼技術在物種鑒定方面的應用早期主要集中在微生物群落多樣性的研究[21-22],現已廣泛應用在真菌[23]、無脊椎動物[24]、植物[25]的物種鑒定,食草和食肉動物的飲食成分分析[26-27]以及環境樣品的生物多樣性[18,28-29]等研究中。宏條形碼技術已在食品物種鑒定方面有初步的研究,目前已經逐漸應用于動物源性食品、植物源性食品、復雜食品和深加工食品的物種鑒定等方面。
不同肉類、禽類品種之間的價格差異很大,因此肉類產品的摻假主要是品種摻假。針對動物源性食品摻假現象,宏條形碼技術的主要應用對象是混合肉制品,這也體現了宏條形碼技術在混合樣品物種鑒定方面的優勢。在一項針對動物源食品DNA混合物物種成分鑒定的研究中,研究人員首先將豬、馬、牛、羊、兔、雞、火雞、山雞、鴨、鵝、鴿子、人類、老鼠共13 種生物的DNA按照不同比例進行混合,然后以12S_KH(215~222 bp)、16S_KH(112~121 bp)和16S_Ki(243~249 bp)作為分子標記,設計通用引物,分別進行PCR擴增后得到目的基因片段[30]。隨后,在該實驗中研究人員構建測序文庫,并利用Ion Torrent(Life Technologies)測序平臺對PCR擴增產物進行測序,最后利用不同的比對算法對測序數據進行分析。研究結果顯示,以利用Sanger測序法獲得的測序結果作為參照,利用此高通量測序方法測得的不同物種的序列錯誤率在0.000 3~0.020 0之間,并能很好地將樣品中的不同物種成分進行鑒別。與此研究類似,Tillmar等[3]利用初級版的高通量測序儀GS Junior對包含大量哺乳動物物種的混合樣品物種成分進行了準確的鑒定,并檢測出了含量比例低至1%的物種成分。此項研究中所選用的分子標記是一段長度約為100 bp的線粒體16S rRNA基因片段,這類序列長度相對較短的條形碼稱為DNA微型條形碼,主要應用于DNA發生降解的一些樣品的鑒定。微型條形碼的出現不僅在一定程度上彌補了高通量測序技術測序長度有限的缺陷,還能夠有效地對DNA已大量降解的加工食品進行鑒定。基于微型條形碼的這些特點,Galan等[31]以片段長度為136 bp的細胞色素b作為分子標記片段,設計出嚙齒類動物的通用引物,然后利用高通量測序儀454 GS-FLX較為高效地鑒定出了混合樣品中所包含的未知物種;此項研究的對象雖然是嚙齒動物,但是對非嚙齒類動物同樣有效,也可應用于其他物種的鑒定,為宏條形碼技術在加工食品鑒定中的廣泛應用奠定了理論和技術基礎。
DNA條形碼技術已經廣泛地應用于魚類產品的分類和鑒定,絕大多數常見的魚類都可以用DNA條形碼技術進行鑒定[32]。高通量測序技術的出現則進一步推動了DNA條形碼技術在水產業中的應用。最近,Galal-Khallaf等[33]利用基于454測序平臺的宏條形碼技術對埃及水產飼料樣品中使用的魚類是否屬于瀕危物種進行了研究;結果顯示,草食性魚和雜食性魚的飼料組成存在著細微差異;此研究還發現,在所檢測到的所有魚類中有大約46%的魚類存在被過度開發或者數量正在急劇減少的現象;在此項研究中,高通量測序技術為水產業中可追溯性系統的有效實施提供了工具。
隨著國際貿易的發展和經濟的全球化,市場上的農產品和植物源性食品來源越來越廣泛,種類也越來越多,對這類食品進行真偽鑒別和產地溯源就變得愈加困難。在歐盟,針對相關問題,已有相應的規定開始頒布并實施,例如食品中所含物種成分(包括過敏原)的正確標識,橄欖油、葡萄酒和面食的摻假鑒定以及可可和咖啡的合法貿易界定等[34]。相比傳統的食品真偽鑒別方法,宏條形碼技術作為一種基于高通量測序技術而發展起來的新的物種鑒定技術,在目前植物源性食品的鑒定工作中應用并不廣泛,但是已經顯現出很大的優勢,例如在混合植物源食品、加工食品的物種鑒定方面都將具有更大的應用空間。
最近,Coutimho Moraes等[35]在基于DNA的植物和植源性膳食補充劑鑒別技術的綜述中就強調了利用高通量測序技術對植源性膳食補充劑和中草藥成分進行檢測以及真偽鑒別的前沿性。綜述指出,除宏條形碼技術之外,基于高通量測序技術的靶向富集和葉綠體基因組測序同樣具有鑒別植物物種的巨大潛力;但是,其中涉及到的復雜生物信息學知識和實驗流程可能會限制此類技術的普遍使用。此外,對于食品的物種鑒定來說,對整個質體進行基因組測序還可能會存在一些其他問題,例如較難獲得質體完整基因組或質體基因組出現斷裂和降解等。因此,相比于其他基于高通量測序的食品物種鑒定技術,宏條形碼技術更有可能成為一種可以得到廣泛應用的標準化工具。
我國中醫藥理論有藥食同源的觀點。在中藥分析領域,高通量測序技術已經開始得到應用。例如,Coghlan等[36]利用羅氏GS Junior測序平臺對混合中藥樣品進行了分析,以trnL和16S rRNA作為分子標記,并利用宏條形碼技術在一些中藥中鑒定出了瀕危物種和一些可能有毒或致過敏的成分。在另外的一項針對六味地黃丸物種成分鑒定的研究中,Cheng Xinwei等[37]利用了NCBI等數據庫中所有已知的ITS2和trnL序列建立了小型數據庫,并基于此數據庫利用Parallel-Meta等方法搜索和鑒定六味地黃丸中的物種成分,利用Meta-Storms等方法對不同樣本的物種來源進行比較,最后成功地對處方物種和非處方物種進行了鑒定,有效地鑒定出了中藥的種類和產地。為了研究高通量測序技術在中藥鑒定中的分析效果,Ivanova等[38]分別利用Sanger測序和高通量測序技術對來自不同藥用植物以及不同生產商的共15 種中草藥添加物進行了分類鑒定,研究結果顯示,相比于Sanger測序,高通量測序技術對低含量物種的檢出率更高。研究指出,宏條形碼的方法可以為植物和真菌的DNA檢測提供可靠的指導,并可用于原材料來源真實性保障以及生產過程和最終產品的污染控制。
對于復雜食品的真偽鑒別,從本質上可以追溯為鑒定其生物成分。當食品是多品種混合物時,其成分復雜且含量不一致。利用宏條形碼技術對復雜食品的成分進行鑒定時,可以非特異性地將所有主要物種及雜質物種都檢測出來,在生物混合體系研究方面具有更大的優勢。
近年來消費者對蜂蜜的需求量逐年增加,然而由于利益驅動,蜂蜜摻雜使假的現象時有發生,已成為目前蜂產業生產中不容忽視的問題。蜂蜜中既包含植物源信息(蜜源植物),又包含動物源信息(蜂源),鑒于蜂蜜的多物種來源特點,Prosser等[39]基于Ion Torrent PGM(Life Technologies)測序平臺,以ITS2、rbcLa和COI 3 個基因片段作為分子標記,利用宏條形碼技術對7 種不同產地和加工方式的蜂蜜進行了真偽鑒別。其中,核基因ITS2(約350 bp)用以鑒定蜂蜜中的花粉來源;葉綠體基因片段rbcLa(162 bp)用以鑒定蜂蜜中痕量或者降解的植物DNA;COI(120 bp)用以鑒定其蜜蜂來源。此研究利用宏條形碼技術對蜂蜜的植物來源和昆蟲來源進行了較為準確地鑒定,為蜂蜜的真偽鑒別和產地溯源提供了一個新的解決方案。與此類似,還有研究利用宏條形碼技術探尋動植物之間的聯系,例如,Pornon等[40]利用宏條形碼技術對植物-昆蟲之間的聯系進行了研究,通過將實驗室檢測和現場檢測相結合,成功地對花粉混合物和昆蟲攜帶的花粉中的物種來源進行了鑒別;此外,此項研究還顯示出宏條形碼技術在直接定量(以擴增序列數目代表數量)和半定量(相對定量)方面的潛力。在蜂蜜的鑒別方面,還有一些研究將宏條形碼技術與其他檢測技術進行了結合,例如Richardson等[41]利用Illumina MiSeq測序平臺,以ITS2(461~469 bp)作為分子標記,利用宏條形碼技術,結合傳統的顯微鏡觀察的方法對蜂蜜中花粉的來源進行了分析。該研究結果表明:如果研究目標是對花粉進行定性分析,宏條形碼技術無論在靈敏度還是準確率上都更有優勢;如果研究目標是對花粉進行定量分析,聯合使用宏條形碼技術和顯微鏡觀察技術比單獨采用其中任何一種技術的效果更好。這一研究也提示我們,在食品物種鑒定的研究過程中,任何一種研究方法都有一定的局限性,而多種檢測方法聯合使用,具有單種方式不可比擬的優勢。
在深加工食品的鑒定中,宏條形碼技術也已得到初步應用。Mu?oz-Colmenero等[42]利用PGM測序平臺對不同類型糖果中所包含的動物物種成分進行了分析,以16S核糖體基因作為分子標記,并將分析結果與常規的DNA條形碼技術進行比較;研究結果顯示:絕大多數利用PGM測序平臺進行測序分析的結果與利用DNA條形碼技術進行物種檢測的結果一致;而基于PGM測序平臺的高通量測序技術能夠從糖果樣品中檢測到更多的動物物種,并且檢測的靈敏度更高;但是,利用PGM測序平臺獲得的物種序列中含有更高的堿基對AT含量。除此之外,該研究還指出利用高通量測序技術在分析復雜度相對較低的食品方面具有更大的優勢,但在對高度加工的食品進行物種鑒別和追溯的應用方面尚不成熟。
雖然基于高通量測序的宏條形碼技術可以為生物學研究提供快速、簡便與經濟的物種鑒定方法,在操作層面的難度也并不大,但是這一技術卻并非完美,仍有一些問題需要解決。首先,高通量測序技術雖然可以提供海量的數據,但卻存在一定的錯誤率,測序質量有待提高。尤其對于宏條形碼技術來說,因其是利用PCR擴增產物進行文庫構建后對該文庫進行測序,因此容易產生文庫中堿基不平衡的現象(A、C、T、G 4 個堿基分布不均勻),導致測序儀在數據讀取時會產生誤差,使得測序數據質量降低、有效數據量減少。其次,不同的樣品前處理條件和實驗過程可能導致DNA的質量和濃度出現較大的差別[43],而DNA的完整性對宏條形碼技術和其他用于物種鑒定的分子生物學實驗效果都有較大的影響[37,44-45]。再次,雖然目前已有許多可用于宏條形碼數據分析的生物信息學方法,但是這些方法的識別率很大程度上與條形碼的選擇以及參考數據庫的組成直接相關[46-47]。此外,由物種間的可變引物-模板錯配造成的PCR偏差可能會影響宏條形碼技術在定量方面的應用,并且有可能導致某些物種無法檢測[48-49]。最后,宏條形碼技術的有效應用需要有較好分類和較高條形碼覆蓋率的條形碼序列參考數據庫做后盾。
高通量測序技術的測序讀長普遍較短(長度為35~700 bp),而這可能是此技術在物種鑒定的應用方面存在的一個比較大的限制因素。雖然一些長度為200~300 bp的微條形碼也可以用于物種鑒定,但是目前較常用的植物條形碼(rbcL和matK)長度大概都在500~600 bp之間。羅氏454焦磷酸測序平臺可以提供此長度范圍的讀長,這一平臺也已經成功用于植物的宏條形碼測定[50-51];但是,由于成本與應用范圍過于狹小,454測序平臺已停產。目前,各方面發展較好的是Illumina公司的MiSeq測序平臺,其測序讀長可以達到雙側長度2×300 bp,且其測序準確性相對較高(錯誤率0.003~0.004)[6,52];當然,還有其他一些長讀長的測序平臺,例如Pacific Biosciences和Oxford Nanopore Technologies。每個測序平臺都有其優劣,因此,在應用宏條形碼技術進行物種鑒定時,除了要考慮條形碼的分辨率和引物的通用性等問題,還需要根據測序儀的測序長度來選擇合適的條形碼長度[53]。
對于DNA保存較為完整的樣品,其DNA提取較為容易,能夠擴增出較長的目的片段,因此可以采用較長的條形碼,如長度為658 bp的COI基因片段[54];對于DNA高度降解的樣品,其DNA提取較為困難,難以擴增出較長的基因片段,因此只能選擇較短的條形碼,如長度約為130 bp的COI基因片段[55]。在條形碼的選擇方面,宏條形碼技術與傳統的DNA條形碼技術并不完全相同[18]。例如,在利用宏條形碼和傳統的DNA條形碼技術對動物進行物種鑒定時,因為COI基因的高辨別度,所以通常都是選擇COI基因片段作為條形碼,但此基因的引物結合區域保守度并不高[56]。經驗表明,當樣品中所包含的物種覆蓋分類范圍特別廣時,引物的變異性就會使得擴增結果變得不可靠[57]。在使用傳統的DNA條形碼技術時,可以通過優化實驗方案從最初擴增失敗的物種中獲取數據;而當使用宏條形碼技術對混合樣品進行鑒定時,可能由于樣品中其他類群的擴增子掩蓋了某些未能擴增的特定類群,使得實驗方案的優化較為困難。
在物種信息的確定方面,宏條形碼技術與傳統的DNA條形碼技術相同,得到的未知靶標都必須要與參考數據庫中已被鑒定的靶標進行比對才能獲知物種信息;因此在利用宏條形碼技術時,參考數據庫的不完善成了一個很大的受限因素[58]。具體到宏條形碼技術在食品中的應用,其局限性還包括:1)加工食品中的DNA通常是高度降解的,一些較長的基因長片段可能并不能完全準確地擴增出來;2)在一些復雜食品中,由于多個物種需要在同一個PCR管中擴增目的條帶,這就要求所用的引物必須具有高度通用性,也就是說在各物種間擴增效率要一致。
簡言之,在利用宏條形碼技術對食品中的物種成分進行鑒定時,對于條形碼的選擇有一定的局限性,也因此變得非常關鍵。在實際的研究工作中,應該尋找通用性和特異性較強的基因片段作為標準DNA條形碼。同時,為了減少由于條形碼選擇不當而帶來的誤差,多個條形碼的聯合使用有時非常有必要。大量的研究結果表明,使用多個條形碼可以更全面地鑒定到樣本中所包含的物種,更準確地區分不同物種[30,53,59];尤其當樣本中包含的物種類型十分廣泛時,由于每個條形碼能夠鑒定到的物種類群不同,聯合使用多個條形碼有助于更好地達到研究目的。此外,急需構建包含多種食品物種的條形碼參考數據庫,可為宏條形碼技術的應用提供數據基礎。
定量問題是目前在應用宏條形碼技術進行物種鑒定時存在的一個相對難以解決的問題,這是由于在此技術的應用過程中,存在PCR偏差、基因的多拷貝性以及實驗流程的不同等問題,這會導致測得序列的數量與實際樣品中的物種數量并沒有很強的相關性;因此難以利用該技術對樣品中的物種成分進行定量分析。目前普遍認為定量困難主要是由PCR過程中引物和模板錯配以及純粹的隨機效應而造成的[20,60]。在利用宏條形碼技術時,需要設計特異性探針,然后與基因組DNA進行雜交,經過PCR擴增后得到基因組目標區域的DNA片段;這個過程造成了該方法存在一個較大的缺陷,即PCR過程會產生偏差[20,60]。PCR偏差與引物-模板錯配、寡聚核苷酸的濃度、退火溫度和PCR循環數等因素有關[48];其中,引物-模板錯配起最主要的作用[48],這與通用引物的選擇有一定的關系;但是不管選擇何種通用引物,都不能避免引物與模板的錯配發生[61-62],最終都會導致一些物種的相對豐度增加,另外一些物種的相對豐度降低,甚至還會出現目標片段無法得到擴增的現象[48]。即使某種通用引物能夠將所有的物種都擴增出來,但是由于不同物種間出現錯配的情況不可能完全相同,也不能解決擴增效率不一致的問題。
事實上,關于利用高通量測序技術對PCR擴增產物進行測序的情況,很少有研究指出能夠利用此技術對樣品中的物種成分進行定量分析。雖然有報道提到測序的相對豐度與樣品中的物種含量存在一定的相關性[63],但也僅是變化趨勢大致相同而已,并不完全相關,而且測定序列的相對豐度與樣品中的物種含量在一些細節上也有出入。在宏條形碼技術的應用研究中,很多研究都會對定量問題進行討論,但是至今還未得到一個完美的解決方案;大部分文獻都認為利用宏條形碼技術進行物種鑒定時,序列的相對豐度與樣品中物種含量的相對豐度不存在相關性[39,48,64]。因此,目前看來,測定序列的相對豐度并不能作為對樣品中物種含量進行定量分析的依據。
目前,針對宏條形碼技術實驗過程中出現的偏差因素進行改善的措施主要集中在改變單個物種產生的偏差,或者是改善實驗步驟方面[65-66]。最近也有一些研究針對偏差的修正問題進行了探討,認為不同物種間模板DNA的拷貝數或者DNA的濃度不同可能造成一些物種過量擴增,而另外一些物種擴增量較低的現象[67-68]。通過修正拷貝數和優化實驗方法可以在一定程度上提高宏條形碼技術對于物種定量的能力;此外,還可以通過設置對照組來修正單個樣品在實驗過程中產生的偏差[69-70]。但是,除此之外還存在其他的技術因素阻礙了研究人員利用測定序列數的比例來判斷樣品中各物種的量或者比例。為了控制實驗過程中由偏差帶來的影響,Thomas等[71]通過將目標物種和對照物種按照50∶50的比例進行混合,得到可以修正多種來源偏差的修正因子。這種通過計算修正因子來降低實驗偏差影響的方法可以在一定程度上評估和修正宏條形碼研究中出現的偏差;但是,此方法僅適用于在目標物種已知,且目標物種種類有限的情況下對混合物中的物種成分進行定量。
為了解決由于PCR擴增過程中的偏差引起的定量困難問題,一些研究人員開始嘗試繞過PCR步驟,直接對提取的DNA進行測序分析。這種實驗方法與目前的宏基因組測序方法類似[72-73],但是其實驗目標并不是對全基因組進行拼接或者尋找功能基因,而是通過具有代表性的DNA片段來進行物種鑒定。具體做法是,對感興趣的基因組區域設計特異性探針,與基因組DNA進行雜交,將目標基因組區域的DNA片段進行富集后,再利用高通量測序技術進行測序。這種測序方法稱為目標捕獲測序,但是這種方法還是無法徹底解決定量的問題;因為目前尚無法確定此類實驗中涉及到的包含物種信息的序列讀長,如線粒體、葉綠體和核糖體DNA的比例等信息[18]。例如,不同物種間核糖體的拷貝數各不相同[74],即使是同一物種,不同組織部位不同細胞中的線粒體基因組的數量也有不同[75],這些因素都會影響到定量結果的準確性。
鑒于以上方法都無法完全解決利用高通量測序技術對食品中的物種成分進行定量分析的問題,一些研究也在嘗試利用全基因組測序的方法來解決這一難題。2014年,Ripp等[76]利用Illumina公司的 HiSeq 2000測序平臺對包含哺乳動物(豬、牛、馬、羊)和禽類(雞、火雞)在內的肉制品的肉腸進行了全基因組深度測序,隨后對測定的序列進行生物信息學分析;其所建立的方法一方面可以從復雜的物種中準確地鑒別出特定物種,另一方面也可以實現對復雜食品中的主要成分和未知成分進行定量分析。但是,這項研究僅僅實現了對已知物種成分的定量分析,所建立的參考數據庫也僅僅包含少數幾種物種。而且到目前為止,全基因組測序的成本仍然很高,且參考基因組的數量有限。因此,對復雜食品中的所有未知物種成分進行全基因組測序,不管是從成本還是數據分析方面來說,都有很大的挑戰。
目前,在食品物種鑒定方面,高通量測序技術雖然已經得到了應用,但在國內外尚處于起步階段。與此形成鮮明對比的是該技術在人類疾病診斷和預防中的研究及應用實例已經不計其數,并且在國內外均有經審批上市的診斷產品用于無創產前、腫瘤分型、遺傳病篩查等方面的日常臨床實踐。一方面,由于高通量測序技術對于食品物種鑒定領域來說相對較新穎,且目前的測序成本相對來說較高,所以只有在基礎設施相當完善的實驗室才能應用此項技術;另一方面,測序之前的準備工作也缺少統一的標準,例如樣品處理、DNA提取等。最重要的一點,這一系列的生物信息學分析流程掌握起來相對困難,對測序結果的解讀也有一定的技術要求,尤其是當檢測的基序比對不到具體物種時;例如,當檢測的樣品為深度加工食品和復雜食品時,測序結果的完整解讀就存在很大的困難。在數據分析階段,雖然目前已有一些專門的軟件可以對測序結果進行分析,但是仍然需要更加準確有效的分析手段;同時為了完成一系列的生物信息學分析流程,高技能的生物信息學專業人員也是必不可少的[77-78]。只有當高通量測序技術達到操作自動化和標準化之后,這種方法才能真正廣泛地應用于食品安全領域的相關工作中。
雖然基于高通量測序的宏條形碼技術在食品物種鑒定的實際應用中還需要不斷改進,但其仍然具有快速、經濟、準確等特點。隨著測序讀長的增加、理論與技術的不斷完善,宏條形碼技術的應用將使復雜食品的物種鑒定研究變得更加快速簡便。尤其是在過去的10 年中,技術的不斷發展已經大大降低了測序的成本,并且顯著增加了測序的通量;全(半)自動的生物信息學分析軟件也已開發出來;所有這些技術進步都預示著高通量測序技術的成本在未來會不斷降低至可接受水平。
此外,隨著測序技術的發展,單分子測序或第三代測序已經開始興起并得到應用。單分子測序技術的突出優點為:1)無需PCR擴增,直接對單個分子進行測序;2)具有更快的速度和更低的成本;3)測序讀長更長。這些特點對于宏條形碼技術的應用將會起到推動作用。相信在不久的將來,宏條形碼技術會更加簡單、便宜,并能得到更廣泛的應用,這類檢測方法在食品安全領域也將占據更大的空間;在未來的食品安全監管中,這一分析技術也將成為不可或缺的重要組成部分。