科技期刊中生物信息學常見名詞用法錯誤辨析

2018-02-28 19:09:49郝拉娣??張秀紅??張冬冬

中國科技術語 2018年1期

郝拉娣??張秀紅??張冬冬

摘要：為準確編輯生物信息學稿件，對目前科技期刊生物信息學稿件中最常見的一些既有關聯又有區別的名詞用法錯誤進行了辨析。結果表明：生物信息學稿件中常見的基因、蛋白質、核苷酸序列、氨基酸序列、同源性、親緣關系等名詞的使用及其表述經常有誤甚至有歧義；同時對基因和蛋白質的符號表達錯誤進行了辨析，雖然有90%的科技期刊中基因符號已用斜體字母表達，但其中還是有很多基因符號尤其以基因命名的引物名稱以及重組質粒中的基因符號未能用斜體字母表達。該研究結果可為科技期刊編輯掌握生物信息學稿件中最基本的一些名詞的使用及其表述提供參考。

關鍵詞：科技期刊，生物信息學，基因，蛋白質

中圖分類號：R318.04；N04；G255.2文獻標識碼：ADOI：10.3969/j.issn.1673-8578.2018.01.012

Abstract：In order to edit the bioinformatics manuscripts accurately， we analyzed errors in application of the nouns both different and related in bioinformatics used in scientific journals. Our results showed that there were many errors even ambiguity in description of the basic terms in bioinformatics articles in scientific journals， including gene， protein， nucleotide sequence， amino acid sequence， homology， and phylogenetic relationship. Also， analysis of incorrect expression of some gene and protein symbols revealed that some gene symbols were not expressed by an italic type， especially the primers named with the gene or the recombinant plasmids， although the gene symbols had been expressed in italics in 90% scientific journals to show the differences between gene and protein. The findings can provide reference for journal editors to understand of the meaning and correct expression of some basic terms in biotechnological articles.

Keywords： science and technology journal， bioinformatics，gene，protein

引言

生物信息學是近年來發展起來的一門新興學科，科技期刊中有關生物信息學方面的文章越來越多，但科技期刊的很多編輯對生物信息學方面的知識了解有限，在尚無規范和標準可參考的情況下，只能原稿來什么樣就發什么樣，經常會出現一些關聯名詞描述方面的錯誤，因此，對生物信息學中一些關聯名詞用法進行研究具有重要的意義。目前，在生物信息學編輯方面僅見蔣元霖[1]、劉華[2]、張翠英[3]、張冰[4]等關于科技期刊中基因及蛋白質符號的規范表達，宋亞珍等[5]關于同源性、一致性、相似性概念辨析等研究，有關生物信息學中更多名詞的用法及其準確表述的研究尚未見報道。而科技期刊中有關基因的克隆與表達以及蛋白質的提取、分離、純化和功能等方面研究的文章越來越多，筆者根據對此類文章的編輯實踐以及對部分科技期刊此類文章的閱讀，發現一些既有關聯又有區別的名詞，如基因與蛋白質，核苷酸序列與氨基酸序列，同源性與親緣關系等的使用及其表述不少有誤甚至存在歧義，為此，本研究對這些高使用頻率關聯名詞的用法錯誤進行了分析，旨在為同人提供參考。

一基因和蛋白質名詞用法錯誤辨析

基因和蛋白質是最常見的兩個名詞，雖然是兩個不同的概念，但又緊密關聯。基因是一段有遺傳效應的脫氧核糖核苷酸序列（DNA），基因的基本結構單位是脫氧核苷酸；DNA要通過RNA的轉錄（mRNA）和翻譯（tRNA）才能產生蛋白質，即基因編碼蛋白質，蛋白質的基本結構單位是氨基酸[6-8]。生物信息學稿件中常見的錯誤有：

1.基因與蛋白質混淆

例1. 本研究通過 PCR技術對RcTIR1基因進行了克隆，生物信息學分析顯示其含有富含亮氨酸重復序列的結構域，并通過多序列比對顯示該基因與小立碗蘚的生長素受體蛋白TIR1相似度達76%，初步認為該基因為生長素受體蛋白TIR1。

例1中，存在多個錯誤：（1）“其含有富含亮氨酸”中的“其”指基因，而基因是不含有氨基酸的，應將“其”改為蛋白質；（2）“多序列比對顯示該基因”中的“該基因”是不能與蛋白質直接比較的，應將“該基因”改為蛋白質；（3）“相似度76%”指的是氨基酸序列之間的同源性比對，數值結果應描述為一致性，應將“相似度76%”改為“一致性76%”；（4）“初步認為該基因為生長素受體蛋白TIR1”有邏輯錯誤，即“基因”是“蛋白質”。因此，本例應改為：“本研究通過 PCR技術對RcTIR1基因進行了克隆，生物信息學分析顯示該基因編碼的蛋白質含有富含亮氨酸重復序列的結構域，并通過多序列比對顯示該基因編碼的蛋白質與小立碗蘚的生長素受體蛋白TIR1一致性達76%，初步認為該基因編碼的蛋白質為生長素受體蛋白TIR1。”endprint

2.標題或圖題中基因、蛋白質的描述與研究內容不一致

例2. Fesod 的生物信息學分析；Fesod生物信息學分析

例3. Actin系統進化樹分析；Actin系統進化樹分析

例2、例3均為常見的二級標題或圖題，其中每個例子的第一句都是表述基因層面的內容，第二句都是表述蛋白質層面的內容，表面看上去都沒有錯誤，但在文中標題或圖題中基因、蛋白質的表述與研究內容經常不一致。如生物信息學分析中，如果是通過軟件對克隆的基因片段推導的蛋白質的分子量、等電點、信號肽、跨膜區、二級結構等進行預測，標題或圖題應表述為蛋白質的生物信息學分析；如果是對克隆的基因序列及其結構等進行的分析，標題或圖題應表述為基因的生物信息學分析。再如系統進化分析中，如果是基于基因序列（核苷酸序列）構建的系統進化樹，標題或圖題應表述為基因系統進化分析；如果是基于蛋白質序列（氨基酸序列）構建的系統進化樹，標題或圖題應表述為蛋白質系統進化分析。

二基因符號與蛋白質符號用法錯誤辨析

筆者隨機對2015和2016年30多種科技期刊中基因符號的斜體表達情況進行調查，結果還是有10%左右的期刊未用斜體字母表示基因符號，即使用斜體字母表示基因符號的期刊，存在的問題也很多，如對一些基因與蛋白質未能準確區分，導致基因符號和蛋白質符號表達存在諸多問題。生物信息學稿件中常見的錯誤有：

1.引物名稱、重組質粒中的基因符號等未用斜體

例4. 設計了IGFBP2基因的1對簡并引物IGFBP2F和IGFBP2R

例5. 刺參凝集素基因AJL與原核表達載體pET32a（+）的重組質粒pET32a（+）AJL

例4中，引物名稱是以基因命名的，基因“IGFBP2”應為斜體，即改為“簡并引物IGFBP2F和IGFBP2R”；例5中，重組質粒是指將酶切的基因片段和表達載體通過酶連接并轉化至大腸桿菌細胞（或其他細胞）中得到的重組體，因此，本例中基因“AJL”應為斜體，即改為“重組質粒pET32a（+）AJL”。

2.蛋白質符號未用正體或未大寫

例6. 用鄰接法構建的基于nm23氨基酸序列的系統進化樹

例6中，“nm23”表示的是蛋白質，而字母全為小寫，說明蛋白質符號用法錯誤，可以找作者確定此蛋白質的準確符號，是首字母大寫還是所有字母全大寫，也可以將“nm23氨基酸序列”直接改為“nm23基因推導的氨基酸序列”。

目前，基因和蛋白質的命名及符號在不同物種間沒有統一的規則[9]，根據《TIG遺傳命名指南》[10]有關細菌、原生動物、酵母、絲狀真菌、植物、無脊椎動物、脊椎動物中一些典型生物模式的命名規則與書寫原則，生物基因符號的組成歸納起來一般有以下幾種：全小寫斜體字母，全大寫斜體字母，斜體的小寫字母+大寫字母（有首字母大寫，有最后一個字母大寫），斜體字母+數字等。但蛋白質符號的定義基本相同，一般用相同的基因符號命名蛋白質，不用斜體，但要大寫（或首字母大寫）。這表明，基因與蛋白質符號的正斜體表達目前已有統一規定，只要作者使用的生物基因和蛋白質符號命名準確，再加以正斜體，即可用字母符號準確表達基因和蛋白質，即使“基因”和“蛋白質”兩詞省略，也能分清描述的是基因還是蛋白質。

三核苷酸序列與氨基酸序列用法錯誤辨析

生物信息學稿件中，經常出現因核苷酸序列與氨基酸序列混淆而發生的表述錯誤。基因序列就是指核苷酸序列，或稱基因核苷酸序列；而蛋白質序列就是指氨基酸序列，或稱蛋白質氨基酸序列。核苷酸序列和氨基酸序列最簡單的區分方法就是，核苷酸序列中僅含A、T、C、G 4個字母，而氨基酸序列中還有其他字母。作為編輯，有時雖然不知道稿件作者具體是基于什么序列進行的分析，但可從一篇文章中對此類問題的前后描述以及圖表來準確區分和表述這兩種序列。生物信息學稿件中常見的錯誤有：

1.基因序列與氨基酸序列混淆

例7. 茶尺蠖EoL2與其他昆蟲脂肪酶氨基酸序列進化樹分析

例8. PmMMP17與其他物種的進化分析（標題）；PmMMP17蛋白質聚類分析（圖題）

例7中，“EoL2”是指脂肪酶基因，顯然基因序列（核苷酸序列）是不能與“其他昆蟲脂肪酶氨基酸序列”一起構建系統進化樹的，因此，應將“茶尺蠖EoL2”改為“茶尺蠖EoL2氨基酸序列”；例8中前后兩句是同一篇文章的一個二級標題和一個圖題，描述的是同一個內容，顯然前一句描述的是基于基因序列的物種進化分析，而后一句描述的是基于蛋白質序列的物種進化分析，前后不一致，實際上，根據原文內容后一句描述是正確的，因此，可將例8中前一句改為“PmMMP17氨基酸序列與其他物種的進化分析”。

2.蛋白質與核苷酸序列、基因與氨基酸序列錯誤搭配

例9. 劍尾魚Cu/ZnSOD核苷酸及氨基酸序列相似性與其他已知魚類的比對

例10. 豬、人、牛、綿羊和小鼠PDGFRα基因氨基酸多重序列比對結果

例9中，據原文正體符號Cu/ZnSOD代表蛋白質，蛋白質不能直接搭配核苷酸序列，應將蛋白質改為基因，即改為“劍尾魚Cu/ZnSOD核苷酸序列及其推導的氨基酸序列”；例10中，基因不能直接搭配氨基酸序列，應將基因改為蛋白質，即改為“PDGFRα蛋白質氨基酸多重序列”。

四同源性與系統進化分析結果描述錯誤辨析

同源性分析與系統進化分析都是用于判斷同源基因或同源蛋白質而進行的不同層面的分析，同源性分析進行的是基因序列或蛋白質序列的比對，其結果一般用一致性、相似度、同源序列等描述；而系統進化樹的構建是基于同源基因序列或是同源蛋白質序列，其結果一般用是否聚在一個分支和親緣關系遠近等描述。生物信息學稿件中常見的錯誤有：endprint

1.同源性分析結果用物種的親緣關系遠近描述

例11. EoL2 編碼的蛋白與其它昆蟲脂肪酶蛋白序列比較分析的結果表明，EoL2 序列與家蠶 BmL1 序列相似度最高，為 57%，親緣關系較近，其次為黑脈金斑蝶Danaus plexippus（Linnaeus）DpL1為55%，與棉鈴蟲HaL、家蠶 BmL、黑脈金斑蝶 DpL2 序列一致性均為 44%……

例11中，有多個錯誤描述：（1）本例中描述的是同源性分析結果，不能用“親緣關系較近”來描述，應將“親緣關系較近”刪除；（2）“BmL1 序列相似度最高，為 57%”中顯然指相似度為57%，一般情況下，根據序列比對軟件得出的結果中只有“Identity”（一致性）值，沒有“Similarity”（相似度）值，因此，序列比對分析中，數值的多少要用一致性描述，序列的相似程度即相似度要用高低來描述，本例中應將“57%”改為“序列一致性為 57%”，“為55%”改為“序列一致性為55%”。

2.系統進化分析結果用同源性描述

例12. 將 ScMT2-1-4 推導的氨基酸序列進行了Blastp同源搜索，選取不同植物的 MT2 蛋白序列與ScMT2-1-4 構建系統進化樹，結果表明，ScMT2-1-4基因編碼蛋白與已報道的甘蔗 ScMT2-1-3 基因（登錄號：KJ504375）和甘蔗 ScMT2-1-2 基因（登錄號：AAV50043）編碼蛋白同源性最高，其次是高粱MT2（登錄號：XP0024551970）和玉米 MT2-1 （登錄號：NP001150795）。

例12中，描述的是系統進化分析結果，不能用同源性高低描述，應將“同源性最高”改為“親緣關系最近”。

五結語

科技期刊來稿中，有很多作者對基因、蛋白質、核苷酸、氨基酸、序列等名詞及其組合的表述比較混亂，甚至會出現歧義，編輯應根據文中的實際情況，將這些名詞準確加以區分，正確表述。

致謝：此文在撰寫過程中得到了大連海洋大學水產與生命科學學院王媛博士的悉心指導，在此深表謝意！

參考文獻

[1] 蔣元霖.生物技術學科中常用基因符號、量和單位的規范問題[J].學報編輯論叢（第9集），2000：93-96.

[2] 劉華，李秀普.Entrez Gene數據庫及其在基因書寫規范中的應用[J].中國科技期刊研究，2010，21（4）：539-540.

[3] 張翠英.基因及蛋白質符號的規范編排[J].編輯學報，2004，16（4）：262-263.

[4] 張冰.科技期刊中基因及蛋白質的規范表達[J].學報編輯論叢，2007：81-83.

[5] 宋亞珍，南紅梅，劉楓，等.同源性、一致性和相似性的辨析[J].中國科技術語，2011，13（2）：48-50.

[6] 鏡巖，朱圣庚，徐長法.生物化學[M].北京：高等教育出版社，2004.

[7] 孫乃恩，孫東旭，朱德煦.分子遺傳學[M].2版.南京：南京大學出版社，2005.

[8] 趙國屏.生物信息學[M].北京：科學出版社，2003：70-117.

[9] 顧凱，鄒栩.藥學論文中外文字母編排需要注意的問題[J].中國科技期刊研究，2011，22（ 2）：293-295.

[10] [英]遺傳學進展編輯部.TIG遺傳命名指南[M].王金發，等譯.北京：科學出版社，2002.endprint

中國科技術語2018年1期

中國科技術語的其它文章: 全國科技名詞委召開媒體咨詢與合作座談會; 麻醉學名詞三審工作會在上海召開; 全國科技名詞委作品榮獲中國科學院科普微視頻創意大賽二等獎; 2017年度科技術語熱搜排行榜; 兩大團隊同時預測四夸克重粒子存在; 我國在國際上首次提出全液態量子器件與計算技術概念