李 欣 宋麗麗 宋娜娜 邢清和 周 峰,3△
(1復旦大學生物醫學研究院 上海 200032;2復旦大學附屬婦產科醫院新生兒科 上海 200090;3復旦大學附屬中山醫院肝癌研究所 上海 200032)
單 核 苷 酸 多 態 性(single nucleotide polymorphism,SNP)指基因組上由單個核苷酸的變異所引起的DNA 多態性,由SNP 引起的蛋白質中氨基酸序列發生變化的肽段稱為遺傳變異肽(genetically variant peptide,GVP),鑒定GVP 對于了解個體特異突變和潛在疾病等有重要作用[1-2]。蛋白質組學工作流程通常依賴參考數據庫來識別肽段和蛋白質,如果數據庫中不包含突變序列,就無法檢測到GVP[1,3]。
得益于測序技術的快速發展,利用參考基因組或表達序列標簽(expressed sequence tag,EST)的六框或三框翻譯來構建包含所有GVP 的數據庫成為可能,但是會使數據庫大小急劇增加而導致結果中假陽性過高[1,4]。利用樣品對應的測序數據生成定制的蛋白質序列數據庫可以避免上述問題[5-7],但需要耗費額外的成本,且依賴于復雜的生物信息學分析。在某些場合我們甚至難以獲取足量的核酸樣品用以測序,比如犯罪現場的毛干[8]。
隨著技術不斷進步,大規模檢測遺傳多態性可能成為蛋白質組學數據分析流程中的常規工作。針對GVP 檢測,目前尚缺乏不依賴對應樣品高通量測序的有效工具[1-2,9-10]。Pratik 等[11]證明在蛋白質組學數據分析中運用兩步法的迭代搜索策略可以有效提高肽譜匹配的靈敏度,改善搜索結果。本研究在此基礎上開發了基于兩步法的迭代搜索策略來鑒定GVP 的工具2Steps_GVPtool,并在不依賴對應樣品高通量測序數據的基礎上,以公共數據庫中的遺傳變異信息和參考蛋白質數據庫構建了包含GVP 的數據庫。……