郭麗 胡棟 王俊 吳建盛 湯麗華
(南京郵電大學,江蘇南京210023)
生物醫學大數據背景下學習生物信息學的學科特點分析*
郭麗 胡棟 王俊 吳建盛 湯麗華
(南京郵電大學,江蘇南京210023)
大數據時代,特別是幾乎無窮無盡的生物醫學大數據,給生物信息學及統計學帶來了新的機遇和挑戰,同時也形成對生物學、統計學和計算機信息科學交叉領域中富有經驗的專業人才的高度需求。生物信息學在大數據時代的重要性不言而喻,因此其教學也顯得尤為重要。文章通過分析生物統計學專業學生在學習生物信息學課程的優勢和劣勢,旨在結合生物統計學專業的特點,為生物信息學教學內容及教學方式的調整提供參考,從而激發學生的學習興趣,提高教學效果。
生物信息學;生物統計學;大數據;優勢和劣勢
人類已經進入大數據時代,作為一個熱點,大數據代表的是一種潮流,一個時代,越來越受到重視。大數據(big data),指由于容量太大和過于復雜,而無法在一定時間內用常規軟件對其內容進行抓取、管理、存儲、檢索、共享、傳輸和分析的數據集[1]。其中,生物醫學大數據,作為最活躍的科學研究領域之一,備受關注,尤其是基于生命的整體性和疾病的復雜性,伴隨著高通量技術的發展和基因組測序成本的不斷下降,以及醫院信息化和IT業的迅速發展,生物醫學數據不斷積累,促使科學家的思維方式已經從數據的生成,轉變為對數據的分析,如何整理堆積如山的信息,讓其對科學家和臨床醫生具有意義[2],已是迫在眉睫的問題,從而對生物信息學家提出了新的挑戰和機遇。作為伴隨生命科學和計算機科學的迅猛發展而產生的生物信息學(Bioinformatics),基于快速積累的龐大的生物醫學數據,以研究生物信息的采集、處理、存儲、傳播,分析和解讀等為研究目的,是當今生命科學和自然科學的重大前沿領域之一,亦是21世紀自然科學的核心領域之一[3]。生物信息學的研究內容主要集中在核酸和蛋白質序列,綜合運用諸如應用數學、計算機科學以及統計學等多學科的方法和技術,分析序列中所蘊含的生物信息,解讀生命的奧秘。
生物統計學是應用統計學的原理和方法探討如何從不完整的信息中獲取科學可靠的結論從而進一步進行生物學實驗研究的設計,取樣,分析,資料整理與推論的科學[4]。生物統計專業通常設在公共衛生學院和醫學院,林學院,農學院,生命科學學院等,是統計的一個應用方向。醫學院校生物統計學專業教育目標之一,是為生物醫藥等領域培養合格的統計分析應用型人才,而統計學亦是生命科學、預防醫學、臨床醫學、基礎醫學等專業的重要工具。隨著大數據時代的到來,基于數據間內在的本質聯系,決定了統計學與大數據的必然聯系,同時,大數據對統計學的發展提出了新的機遇和挑戰[5]。對海量大數據特別是生物醫學大數據進行整合和分析,其實可認為是一種新型的數據分析方法,隨著生物醫學大數據的快速積累,統計學的大數據化是必然的發展趨勢。
作為一門方法學,生物統計學是應用概率論和數理統計原理來研究生物界數量變化等領域的一門交叉應用學科。它亦是典型的交叉學科,需要具有公共衛生、臨床醫學、生命科學、藥學、數學、計算機等方面的基本素質并要融會貫通,對從業者的要求相對較高。生物統計學專業的培養,需要開設數學、計算機、概率論和數理統計、生物醫學及統計等相關方面的基礎課程,而這些課程內容之間并非是獨立的,其具有一定的交叉融合。因此,生物統計學專業的知識背景極具交叉學科的特點,而生物信息學專業課程設置以數學、計算機、算法等課程為主,并輔以生物學專業理論和實驗課程,旨在培養學生處理生物學具體問題時的分析問題和解決問題的能力[6]。故而,統計專業開展的很多基礎知識也是生物信息學所應該具備的基礎知識,該專業學生可盡快的學習和融入生物信息學課程。
具體地說,生物信息學可包括3個主要部分:(1)新算法和統計學方法研究;(2)各類數據的分析和解釋;(3)研制有效利用和管理數據新工具[7]。從事生物信息學相關的研究工作,除了具備生物學基礎知識外,還應有編程基礎,了解數據結構及算法,具備統計學基礎知識,熟悉多種統計及生物學相關軟件,而生物統計專業中,計算機、數學及統計相關知識是最為基礎的內容,因此,學生會比較輕松的接受生物信息學相關知識及背景,從而輕松學習生物信息學課程。
生物信息學通過綜合利用生物學,計算機科學和信息技術而揭示海量復雜的生物數據所賦有的生物學奧秘,其核心內容之一就是針對海量生物大數據的分析,而生物統計專業的主要從事工作之一,亦是數據分析相關的工作,因此,從事相似的工作也具有相似的分析思維方式,從而更容易對生物信息學產生興趣,輕松學習這門課程。
作為旨在培養學生處理生物學具體問題時的分析問題和解決問題的能力的生物信息學專業,生物信息學是用數理和信息科學的觀點、理論和方法去研究呈現指數增長的生物學數據的一門學科。以遺傳物質的載體DNA及其編碼的大分子蛋白質為核心,通過系統分析逐步認識生命的起源、進化、遺傳和發育的本質,破譯隱藏在DNA序列中的遺傳語言,揭示人體生理和病理過程的分子基礎,為人類疾病的預測、診斷、預防和治療提供最合理和有效的途徑[8]。生物統計專業中,雖具有一定的生物醫學及公共衛生等基礎,但生命科學系統性較強且發展迅速,這些生物學基礎可能還是比較單薄的。尤其是生物信息學一直關注生命醫學領域最前沿的科學問題,因此,了解一定的生物基礎知識對學習生物信息學是十分有必要的。
此外,隨著大數據時代的到來,海量生物醫學數據對統計學提供了機遇的同時,也提供了極大的挑戰,尤其是如何將“大數據”轉變為“小數據”,如何基于大數據適當作出相應的調整,在利用統計方法處理問題的同時,盡可能利用更多的數據,從而將統計學的長處和大數據的優點有效結合起來[5]。尤其是,包括基因組、蛋白質組等多組學數據是生物醫學大數據中的重要組成部分,如何系統地了解不同分子層次上的聯系和相互作用,從系統生物學的角度開展相關的研究,以揭示大量而復雜的生物數據所賦有的生物學奧秘,是當前需要解決的問題。基于此,可在授課的過程中,特別強調相關的知識模塊和相應背景,并著重結合實際組學數據,增加相應上機實踐的內容,為熟悉生物醫學大數據提供基礎。
作為一門基礎研究學科,生物信息學具有重大的科學意義,同時,它也是一門應用性學科,具有巨大的經濟效益。生物信息學的迅猛發展對生命科學產生的革命性影響,將極大地促進生命科學領域,及其他相關領域的進步,亦是當前基因組學,轉錄組學,蛋白質組學及代謝組學等研究的直接推動力[9,10]。很多專業將生物信息學課程選為必修或選修課程[11],其教學應充分結合不同專業特點,分析其學習生物信息學課程的優勢和劣勢,適當調整教學內容及方法,以提高學生學習興趣及教學效果。針對生物統計專業,結合該專業數理統計背景和思維方式,學習掌握生物信息學相關知識相對較為輕松,但理解生物醫學問題方面可能較為吃力,因此應從生物知識模塊的特點在授課過程中加強生物學背景知識,尤其是不同分子層次多組學之間的聯系,以系統地學習生物信息學,并提高教學效果,在生物醫學大數據的時代背景下,培養復合型人才并提升學生就業能力。
[1]王波,呂筠,李立明.生物醫學大數據:現狀與展望[J].中華流行病學雜志,2014,6:617-619.
[2]Levine A G.An explosion of bioinformatics careers[J].Science,2014,344(6189):1303-1306.
[3]孫嘯,陸祖宏,謝建明.生物信息學基礎[M].清華大學出版社,2005.
[4]李春喜,王志和,等.生物統計學(第二版)[M].北京:科學出版社,2000.
[5]游士兵,張佩,姚雪梅.大數據對統計學的挑戰和機遇[J].珞珈管理評論,2013,2:165-171.
[6]郭麗,趙楊,柏建嶺,等.醫學院校生物統計學專業生物信息學教學探索[J].南京醫科大學學報:社會科學版,2013(5):457-460.
[7]張春霆.生物信息學的現狀與展望[J].世界科技研究與發展,2000,22(6):17-20.
[8]周毅,劉燕,張元亭,等.醫學信息學的研究領域及人才培養[J].醫學信息,2005,18(8):856-858.
[9]王英超,黨源,李曉艷,等.蛋白質組學及其技術發展[J].生物技術通訊,2010(1):139-144.
[10]趙屹,谷瑞升,杜生明.生物信息學研究現狀及發展趨勢[J].醫學信息學雜志,2012,5:4.
[11]虢毅,胡德華,鄧昊.生物信息學課程“開放式,研究性”教學模式的探討[J].生物信息學,2009,7(3):227-229.
The era of big data,especially almost infinite biomedical big data,brings new opportunities and challenges for bioinformatics and statistics,also provides high demands on experienced professional talents in crossing field of biology,statistics and computer science.The importance of bioinformatics is quite evident in big data era,and the teaching of bioinformatics is also quite important.The study aimed to analyze the advantages and disadvantages of studying bioinformatics for biostatistics.The analysis can provide reference for improving content and method of bioinformatics according to characteristics of biostatistics,which will contribute to motivating learning interest and improving teaching effect.
bioinformatics;biostatistics;big data;advantages and disadvantages
G642
A
2096-000X(2016)19-0048-02
國家自然科學基金項目(編號:61301251);南京郵電大學教學改革項目(編號:JG03215JX86);南京郵電大學2016年實驗室工作研究課題(編號:2016XSG12)。
郭麗(1980,09-),女,河南安陽人,工學博士,南京郵電大學地理與生物信息學院教師,研究方向:生物醫學信息學。