曾雨潔 陸俊杏 李勃


[摘要] 全國中學生生物學聯賽是生物學競賽的初賽環節,2015年開始新增了生物信息學的相關內容。目前,對生物學聯賽的“生物信息學”試題研究較少,通過對近八年(2015-2022)中學生物學聯賽“生物信息學”試題的歸納梳理,明晰了此類試題的命題特點,且分別針對概念理解類、技術方法類、圖標解析類與綜合應用類樣題進行了解讀。據此,研究提出了注重現有課堂教學內容的廣度拓展與深度進階、強化統計學知識應用、以組學和系統生物學視角引領生命現象理解的教學建議。
[關鍵詞] 生物學聯賽;生物信息學;試題分析;中學生物學
全國中學生生物學競賽(CBO)作為五大學科競賽之一,其為未來生命科學發展選拔和培養創新型拔尖人才,不斷推動我國生物學教育的發展。全國中學生生物學聯賽是生物學競賽的初賽環節,其當前的理論試卷考查范圍包括微觀生物學、動植物生理和解剖生物學、動物行為和生態學、遺傳進化與系統學等四大板塊,共涉及細胞生物學、分子生物學、微生物學、植物生理學、動物學、遺傳學等14門學科。“生物信息學”自2015年起被納入生物學聯賽的命題范圍。由于生物信息學是由生物學、統計學和計算機科學等交叉形成的邊緣學科,其囊括的知識點相對分散,備考起來比較困難,目前對其相關的生物學聯賽命題研究較少。本研究以2015-2022年的部分生物信息學的試題為對象,運用統計分析方法,從試題的題量與分值、知識考查范圍及其分布情況、試題的常考知識點三個方面對其進行了詳細剖析與研究,并在此基礎上為參賽學生的備考和競賽教練的指導提出教學建議。
一、“生物信息學”試題的整體評價
從2010年開始,全國生物學聯賽理論試卷的考查內容分為四個板塊。最初的第一板塊主要包括細胞生物學、生物化學、分子生物學和微生物學四個學科,2015年開始第一板塊增加了生物信息技術學科,翌年又將生物信息技術分設為生物信息學和生物技術兩部分。值得注意的是,在2022年最新的生物學聯賽理論試卷中,第一部分生物技術相關的考查內容已被刪除,而生物信息學轉至第四板塊。筆者完整收集了2015至今的全國生物學聯賽理論試題,并對其中涉及生物信息學部分的題量、分值情況及考查內容等進行了詳細剖析,結果如下表所示。
從上表可以看出,2015-2022年全國中學生生物學聯賽試卷中,生物信息學部分題量分布不均。其中,2015年試題最多(5道),2018年和2019年試題最少(分別為1道)。整體來看,生物信息學試題的題量多數為2-3道,在其所處的板塊不具有優勢。從題型上看,主要有單選題和多選題,單選題數量明顯大于多選題。2015年和2020年B卷的題數分布相似,單選、多選各2道;2016年和2020年A卷的題數分布相似,單選和多選各1道;而2017年、2021年和2022年題數分布較為相似,各有2道單選和1道多選。從分值來看,生物信息學的占分主要為3-6分,4分頻率最高,約占33.3%。
從考查內容來看,生物信息學部分重點考查的知識點比較分散,但也存在可挖掘的常考知識點。無論是題干或選項,基本每年均考查了各類組學相關的知識,包括基因組學、轉錄組學和蛋白質組學等,考查的重點是組學的基本概念和整體特點。例如,2015年考查了蛋白質組學和宏基因組學,2016年考查了基因組學和轉錄組學,2017年再次考查了基因組學,而2019年同時考查了多個組學的基本特點,2022年考查了基因組學的研究方法全基因組關聯分析(GWAS)等。此外,測序技術或基因表達譜檢測技術也是常考點,不排除未來可能還會再次被作為考查的相關內容。
從命題趨勢上看,從2020年開始考查內容出現了新變化,增加了關于常見生物信息學數據庫、軟件工具和統計學方法及應用等方面的內容。比如,2020年考查了DNA序列數據庫和BLAST在線工具,2020年和2021年分別考查了統計假設檢驗和P值等相關內容。生物信息學是由數學(及統計學)與生物學、計算機科學之間形成的交叉學科,統計學是生物信息學中數據分析與挖掘的理論基礎和重要技術支撐。可以預見的是,統計學相關知識與技能未來依然會被作為生物學聯賽中生物信息學部分的重要考查內容。此外,2022年的生物信息學部分題干中開始出現人類疾病基因組等背景材料,這反映出疾病組學相關材料也可能是未來的命題趨勢。需要注意的是,除基因組學、表觀基因組學、宏基因組、轉錄組學和蛋白質組學外,其他如代謝組學、表型組學、糖組學和脂質組學等暫未成為命題點。
將2015-2022年生物信息學的相關試題制作出高頻詞云圖,分析其中排名前10的高頻專業名詞,發現這些關鍵詞大致分為四個層面:一是基因層面,包括基因組、(DNA)序列、同源(性);二是基因表達層面,包括蛋白質、(基因)表達、(基因)轉錄、(基因)結構;三是研究方法層面,包括(DNA)測序、技術、高通量(測序);四是數據層面,包括數據(庫)等。這四個層面是生物信息學常考的四個知識范疇,其中基因層面出現頻率最高的是基因組和序列,基因表達層面出現頻率最高的是蛋白質和表達,研究方法層面出現頻率較高的是測序方面的技術,尤其是高通量測序技術;數據層面出現頻率較高的是GenBank。
二、“生物信息學”試題的樣題分析
2015-2022年的生物信息學共有24道,大致可分為概念(及應用)題、技術方法題和圖表題三大類。這些試題主要覆蓋了生物信息學的基本研究方法,重點考查學生對基礎知識的掌握與運用能力。本文以2015年第11題、2018年第31題、2020年B卷第30題和2021年第22題為例,剖析不同類型試題的考查要求,并提出相應的建議。
(一)概念理解類樣題分析
例1 (2015年第11題)蛋白質組學是( )。
A.研究一個基因組所表達的全套蛋白質
B.研究蛋白質序列以發現新的蛋白質
C.研究DNA與蛋白質的復合物
D.研究蛋白質合成過程中的能量消耗
解析:這是一道典型的概念性試題,主要考查蛋白質組學基本概念。蛋白質組學是以蛋白質組為研究對象,研究細胞、組織或生物體蛋白質組成及其變化規律的科學。這里提到的蛋白質組是指一個細胞或組織中所有的蛋白質,即該物種基因組所表達的全套蛋白質。
本題考查了代表性的“組學”的概念,類似的還有基因組學、RNA組學等。基因組學是對生物體所有基因進行集體表征、定量研究及不同基因組比較研究的一門交叉生物學學科。RNA組學是指以RNA組為研究對象,研究細胞內所有RNA分子的結構和功能及其在不同生理條件下的動態變化規律的科學。總體上看,“組學”概念可以歸結為研究某全套生物(或化學)分子的一門學科。教師在講解概念性知識時,可以對相關概念進行歸納總結,促進學生觸類旁通,構建知識框架。
(二)技術方法類樣題分析
例2 (2018年第31題)以下哪種高通量實驗技術主要被用來研究生物的基因表達情況?( )
A.全基因組重測序B.轉錄組測序
C.外顯子組測序 D.基因芯片
解析:這是一道典型的技術方法類試題。本題的題干部分涉及基因表達的概念,但主要考查研究生物基因表達水平常用的高通量技術與方法。基因表達,一般是把將儲存在DNA序列中遺傳信息轉變成有活性的蛋白質分子的過程,主要包括轉錄和翻譯兩個大的階段。所謂的高通量技術,一般是指一次可以對成千上萬個生物或化學分子進行檢測,并利用計算機和物理(或化學)元件將檢測得到的信號進行分析的技術。
本題的題眼在“基因表達”四個字。A選項的全基因組重測序和C選項的外顯子組測序盡管都用到了高通量實驗技術,但主要關注于DNA(或基因組)層面的分子檢測(如檢測DNA突變、重排等信息),并不涉及基因表達的問題;分別涉及的是全基因組再測序全基因組和外顯子組都是基因層面。B選項的轉錄組測序一般是指RNA測序(RNA-seq)技術,即利用高通量測序技術對細胞或組織的全部轉錄本進行測序,可反映mRNA、非編碼RNA等的分子種類和數量,反映轉錄過程的動態水平。而D選項的基因芯片又稱DNA芯片,也叫DNA微矩陣等,是指采用特定方法將DNA片段有序地固化于支持物(如玻片)的表面,然后根據堿基互補原則與已標記的待測核酸樣品中靶分子雜交,通過特定的儀器將雜交信號的強度進行快速、并行、高效地檢測分析,從而判斷樣品中靶分子(DNA或RNA)的種類和數量的一種技術。顯然,基因芯片也是一種快速測定RNA種類和數量(即基因表達水平)的高通量技術。因此,本題的正確答案為BD。教師在講解技術方法時,可以將相互關聯的方法技術及其應用領域串聯起來,形成思維導圖或者表格,幫助學生理解記憶。另外,教師應強調題目關鍵詞的重要性,本題的關鍵詞是“基因表達”,AC選項與基因表達無關,又因為是多選題,即使不明白基因芯片的含義,也能通過排除法選出正確答案。
(三)圖表解析類樣題分析
例3 (2020年B卷第30題)下圖中的qRT-PCR結果顯示,與正常膀胱組織相比,miR-130b和miR-494在膀胱癌組織中表達上調(每組的樣本量都是30)。
據此,下列陳述中正確的是( )。
A.圖(a)中腫瘤組的數據樣本方差較大,因此可以利用方差分析的檢驗方法對圖(a)中的數據進行分析
B.在圖(a)和圖(b)的正常組織數據中,存在隨機誤差
C.與圖(b)比較,圖(a)中的P值更大,表明圖(a)的統計結果更可信
D.可以利用χ2檢驗方法對四組數據一起進行分析,以便得到具有統計學意義的結論
解析:這是一道典型的圖表題,主要考查生物信息學中常用的統計假設檢驗原理與方法。
在本題中A選項只有兩組數據的比較,一般是t檢驗,故A錯誤。在統計測量中,實驗觀測值一般由實際值和測量誤差兩部分構成,而測量誤差包括了系統誤差、隨機誤差和粗大誤差三類。因此,B選項正確。P值通常是指概率,不同的P值所代表的含義不同。一般來說,P值小于一定閾值(如P<0.05),則代表存在統計學顯著性;而P值越小,則差異顯著性越大。由于圖(b)的P值更小,差異更顯著,因此C選項是錯誤的。χ2值反映了實際頻數和理論頻數之間的吻合程度,圖中并無理論值和實際值的比較,故D選項錯誤。教師在講解統計學方法時,應將各種方法進行分類對比,分析方法之間的相同點、不同點、細節差異等,形成分類模塊,使學生對統計學方法有全局性的把握。
(四)綜合應用類樣題分析
例4 (2021年第22題)微衛星分子標記又稱為短串聯重復序列或簡單重復序列,是廣泛分布于真核生物基因組中的簡單重復序列,由多個核苷酸組成的串聯重復片段構成,其重復單位的重復次數在個體間呈高度變異性且數量豐富,因此是普遍使用的DNA分子標記。下列哪些項包含了微衛星分子標記序列?( )
A. CTGATATATATATATATATATATATAGTCGA
B. TTCATATATATATCACACACACACACACAGC
C. TTTAGCAGCAGCAGCAGCAGCAGCAGCAGCA
D. ATTGACTGACTGACTGACTGACTGACTGACC
E. CCATAGATACACAGATTCTCATATTAGGGAC
解析:本題考查學生的觀察、分析和應用等方面的能力。若正確解答本題,需要知道微衛星分子標記的含義,找出各選項序列的呈現規律并合理地與之匹配。根據重復序列的重復次數,重復序列分為簡單重復序列、中度重復序列、高度重復序列。簡單重復序列又被稱為短串聯重復序列或微衛星標記,由2-6個核苷酸的串聯重復片段構成;中度重復序列,重復次數為幾十到幾千次;高度重復序列,一般是少于10個核苷酸片段重復幾百萬次。衛星分子標記序列與微衛星分子標記序列不同,可以根據其重復單位進行快速區別,小衛星序列的重復單位在11bp-60bp,微衛星序列的重復單位中的核心序列只有1-6個bp。
本題中,A選項為(AT)n型單一重復單元構成的重復序列,B選項為(AT)n(CA)m復合型重復單元構成的復合微衛星DNA,C選項為(AGC)n型單一重復單元構成的單純微衛星DNA,D選項是(TGAC)n型單一重復單元構成的單純微衛星DNA,而E選項中無明顯的重復單位存在,故答案為ABCD。教師在講解各類序列時,可以將其作對比分析,并結合試題加以應用,從而幫助學生鞏固知識。
三、基于試題分析的教學建議
(一)注重現有教學內容的廣度拓展與深度進階
由試題分析可知,無論從廣度還是深度來看,生物學聯賽試卷中生物信息學相關試題都屬于高中生物學基礎之上、本科生物信息學教材之下的范疇。這就要求教師要很好地把握好高中教材、聯賽大綱、本科教材三者之間的銜接與交叉關系:在充分了解生物信息學聯賽的考查范圍的前提下,整合本科生物信息學教材的知識點,在高中學生已有知識庫中進行擴展引導,使其從舊的知識點生長出新的知識點。尤其是在當前大數據與人工智能時代,越來越多的中學和競賽機構開始在原有的課程基礎上,拓展生物信息學的相關學習內容,試圖銜接中學生物學教學與生物信息教學。
文獻閱讀是學生獲取生命科學最新發展動態的重要方式。教師需要查閱、甄選、整理相關的學科文獻,鼓勵學生自主閱讀并進行文獻討論,引導學生積極思考,了解并掌握前沿知識。生命科學是不斷發展前進的科學,在學好基礎知識的同時,還要關注生命科學的最新進展,與時俱進。要幫助學生構建復合型的知識體系,鍛煉學生的邏輯思維,增強學生獨立提取信息和處理信息的能力等,從而促進學生的全面發展。
另外,GOBLET通過網絡為世界范圍內的教師和學生提供持續、可靠的生物信息學教育支持。一名優秀的中學生物學競賽輔導教師或教練,要貫徹終身學習的理念,要經常總結和梳理自己的知識結構,不斷更新前沿知識,做到教學相長,與學生共同進步和發展。
(二)強化統計學知識應用,凸顯生物學學習的理科屬性
生命科學已經進入大數據時代,而以大數據技術為核心的生物信息學為生命科學研究的發展提供了必不可少的技術支持。統計學作為一門研究不確定性問題的學科,在開放生物系統的研究中舉足輕重,尤其是在現代生物信息學的數據分析和挖掘中扮演了極其重要的角色。它可以提取數據之間的因果關系、交互關系等,通過合理分析與處理揭示大量而復雜的生物數據內涵,從而獲得對人類發展有意義的信息。
中學生物學教學應立足學科基礎知識,在教學中有意識地引導學生學習和運用統計學思想,以幫助學生更深刻地理解生物學問題。以孟德爾豌豆雜交試驗為例,作為生命科學發展中極其重要的轉折點,孟德爾第一次嘗試將統計與數學的思想運用到生物學研究中,他的研究對生物學及其分支學科的發展產生了深遠的影響。目前,生物學的發展已經進入定量生物學時代,對學習者和教育者的統計與數據處理智慧提出了更高的要求。教師在準備教學內容時,不能只局限于教材或競賽大綱中的知識,還要將經典的統計學方法融入教學實踐中,以訓練學生的數據處理和分析能力,幫助學生應對日益增長的生物學海量數據的挑戰。這些措施,對于有效拓展學生的知識面、教會學生用數理思維去分析生活實際中出現的生物學現象及問題大有裨益。
(三)以組學和系統生物學視角引領生命現象理解
以人類基因組任務的順利完成為標志,生物學研究實現了從單個基因檢測、單個蛋白分析到組學系統檢測分析的轉變。21世紀是生命組學的世紀,隨著DNA測序、質譜測序等高通量組學技術的快速發展,基因組(全基因組)、轉錄組、蛋白質組、代謝組等組學數據及生物信息呈爆發式增長。系統生物學時代,生命科學研究以大局觀為導向,實現整體觀察生物現象、全局把握基因序列關系的研究模式。未來生物大數據的研究、多種組學數據的整合分析將不斷挑戰傳統的科學思維模式,帶來新的變革,教師需要緊跟研究發展趨勢,引導學生關注組學和系統生物學,培養學生的超前視角,為今后繼續深入學習生命科學做好鋪墊。
在中學生物學教學中,我們一直強調對學生生物學科學素養的培育。這里提到的科學素養主要包括三個方面的內容,即了解科學知識、掌握科學方法和崇尚科學精神。站在中學生物學教學的角度,了解科學知識,要求施教者既要注重現有生物課堂教學內容的教學,又要適當引導學生延伸與拓展高階學習內容;掌握科學方法,要求學生在學習中切實領會研究性思維方法與策略的掌握,學好方法論;而崇尚科學精神,對施教者和學習者均提出了新的要求,教師應該通過生物學史中的科學發現過程培養學生崇尚科學的精神,學生應該通過生物實驗養成求真務實、嚴謹的科學精神。
與此同時,諾貝爾生理學或醫學獎的研究成果在一定程度上代表了當今生命科學發展的最新方向。中學師生關注諾貝爾生理學或醫學獎,是對新課改“關注對科學、技術和社會發展有重大影響的、與生命科學相關的突出成就和熱點問題”的積極響應。綜觀歷年的生物學聯賽試題,不難發現,諾貝爾生理學或醫學獎的科學成果相關內容常被作為生物學聯賽試題的背景材料。2022年度的諾貝爾生理學或醫學獎獲得者在“人類演化以及已滅絕的人類基因組研究”方面的貢獻,催生了一門全新的科學學科——古基因組學。該研究內容正與2022年生物學聯賽試題的第100題考點不謀而合。由此可見,未來諾貝爾生理學或醫學獎的相關知識點應用到聯賽試題中的概率很大,是比較重要的發展趨勢。
[本文系重慶市中小學創新人才培養工程計劃“基于人工智能方法的基因樹和蛋白樹系統比較研究”(項目編號:CY220506)和重慶師范大學中學生物類先修課程培育項目“遺傳與生物信息學系列課程建設”(項目編號:2023-SK01)階段性研究成果]
[參考文獻]
[1]Stark R,Grzelak M, Hadfield J. RNA sequencing:the teenage years[J]. Nature Reviews Genetics,2019,20(11).
[2]彭銀祥,李勃,陳紅星.基因工程[M].武漢:華中科技大學出版社,2007.
[3]Atwood TK,Bongcam-Rudloff E,Brazas ME,et al. GOBLET:
the global organisation for bioinformatics learning,education and training [J]. PLoS computational biology,2015,11(04).
[4]趙方慶,方向東,李亦學.轉化生物信息學研究前沿及挑戰[J].遺傳,2015,37(07).
[5]姜永均.2010年全國中學生生物學聯賽試題評析[J].中學生物學,2011(04).
[6]丁奕然,李雁冰.《義務教育生物學課程標準(2022年版)》解讀與教學建議[J].天津師范大學學報(基礎教育版),2022,23(03).
[7]黃愛瓊,王任翔,陳國娟,等.2017年諾貝爾生理學或醫學獎中的科學精神及其在生物學教學中的價值[J].中學生物教學,2019
(14).