999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因解讀系統中遺傳檢測報告自動生成技術

2021-02-25 07:48:18張少偉蔣艷凰
計算機應用與軟件 2021年2期
關鍵詞:排序報告數據庫

張少偉 蔣艷凰

1(中國科學技術大學軟件工程學院 安徽 合肥 230026)2(人和未來生物科技(長沙)有限公司 湖南 長沙 410000)

0 引 言

遺傳病是指染色體畸變和基因突變引起的一大類疾病。截至2010年8月10日,已登記的孟德爾遺傳性狀或者疾病達20 135種,其中已知的單基因遺傳病及線粒體基因病為6 500余種[1]。由于我國人口基數龐大,遺傳病對我國的影響尤為明顯,我國有1 000余萬單基因遺傳病患者,新生兒中有超過800萬染色體遺傳病患者,多基因遺傳病和體細胞遺傳病的發病人數更是難以估量[2]。對基因進行精準檢測與解讀,準確定位致病原因,預防遺傳疾病,成為一項關系到全人類的關鍵技術,也是近年來臨床醫學研究的熱點。

外顯子測序是指用序列捕獲技術將全基因組外顯子區域DNA捕捉并富集后進行高通量測序的基因組分析方法[3]。在人類基因中大約有180 000外顯子,一個正常樣本的基因檢測結果可能包含了數萬條突變基因,由人工進行逐條解讀是不實際也是不合理的。在這一背景下,國內外推出了眾多優秀的基因解讀系統,如“人和未來”的GTX.Digest系統、以色列的Congenica等。這些系統能夠對基因進行注釋并按致病性排序,醫療人員僅需要關注排名前幾十個基因,極大地減少了醫療工作者的工作量。醫療工作者依據解讀系統的分析結果,查找一定量的文獻來佐證基因與疾病之間的影響,并最終生成一份解讀報告。

中國遺傳學會遺傳咨詢分會組織發布的《高通量全外顯子組測序檢測報告示例》中顯示,檢測報告應包含樣本信息、臨床癥狀、檢測項目、檢測結論、基因變異信息、疾病名稱、結果解釋、建議,以及參考文獻[4]。這樣一份報告往往需要花費醫療工作者數小時的工作時間,一些復雜的報告甚至需要花費數十小時。因此,自動出具報告并將已有信息自動填入報告能夠極大減輕醫療工作者的負擔。

GTX.Digest是“人和未來”推出的一款云端基因解讀系統。GTX.Digest以基因突變為單位,以探究突變的致病性為目標,對用戶的VCF數據文件進行注釋解讀。解讀結果不僅包含基因數據的注釋結果,還包含ClinVar、OMIM、Orphanet等權威數據庫的致病性建議。同時,GTX.Digest開發組還對PubMed所有文獻進行了文本挖掘,探究文獻描述的基因突變與疾病之間的關系,并開創性地將文本挖掘結果應用在了基因解讀中,用戶可直接看到文獻中描述基因突變與疾病關系的句子,極大地提高了醫生確定致病基因的效率和準確性。GTX.Digest能夠很好地輔助醫生進行遺傳病分析,但無法自動生成遺傳檢測報告,而遺傳檢測報告作為基因解讀的最終輸出,是一個成熟的基因解讀系統中不可或缺的一環[5]。

針對自動出具報告的現實需求,基于GTX.Digest基因解讀系統的分析結果、醫生對致病性的判定結果、生物醫學領域的權威數據庫等,在Linux操作系統上,實現了全外顯子檢測報告的自動生成。用戶在解讀系統中確定了致病基因后,填寫患者基本信息,選擇與治病基因相關聯的疾病、轉錄本等信息,系統將自動分析基因變異產生的氨基酸變化,自動生成從基因便宜角度對疾病解釋,以及與之相關的參考文獻。系統提供報告預覽和自動下載功能,下載的報告為Word格式,用戶可對其進行進一步編輯。

1 報告自動生成系統架構

圖1給出了報告自動生成系統結構,主要包括三個部分:基因數據庫、報告內容獲取、報告生成與應用。基礎數據庫包括生成報告所需的基礎數據來源,這些數據包括:GTX.Digest系統解讀結果、氨基酸描述數據、表型-疾病關系數據、文獻數據等。數據的真實性與權威性決定了報告的質量,因此必須以準確、權威的數據庫為基礎,構建報告生成系統。報告內容的獲取包括兩部分:一是需要醫護人員參與的內容獲取,包括填寫用戶的基因信息、從解讀結果中選擇致病基因相關的疾病和轉錄本等;二是系統根據基礎數據庫自動生成相關報告內容。報告生成和應用則根據獲取的情報內容,自動生成Word報告。

圖1 報告自動生成系統結構

1.1 基礎數據庫

基礎數據庫是報告自動生成的關鍵,決定了報告的整體質量,因此數據來源必須與行業規范相符合,數據的權威性也需得到行業的認可。

1.1.1解讀結果數據

解讀結果是指對原始的基因數據的解讀結果,將生澀難懂的基因編碼轉換成普適的學科術語,并以基因突變為單位,依據權威數據庫,對其致病性進行標注[6]。

該系統的解讀結果數據來源于基因解讀平臺GTX.Digest。GTX.Digest不僅對基因和變異進行了致病性排序,而且展示了對PubMed文獻的挖掘結果,使得解讀結果更科學、精準。

解讀結果數據包括:基因名、轉錄本編號、突變信息、遺傳模式、致病性、OMIM疾病等。

1.1.2氨基酸描述數據

解讀結果數據中關于氨基酸的變化使用的是國際通用的氨基酸簡寫形式,而在報告中是以中文形式呈現。氨基酸描述數據記錄了氨基酸的英文簡稱與中文全稱,用來實現英文簡稱與中文全稱的轉換,如表1所示。

表1 氨基酸描述數據

1.1.3表型-疾病對應數據

表型指一定基因型的個體,在特定環境中所呈現出來的性狀,例如:感冒、發燒、紅發[6]。所有的遺傳病都有其特定的表型特征,正是因為表型與疾病的這種相關性,解讀軟件要求輸入表型數據來作為排序依據。

通常來說,基因突變可能導致的疾病不唯一,每種疾病的表型特征也不盡相同[7]。要精確判定樣本患有何種疾病,必須計算樣本表型與疾病的相關性,這就需要表型-疾病關系數據,即某一種疾病會有哪些表型。

人類孟德爾遺傳線上庫(Online Mendelian Inheritance in Man,OMIM)[8]提供了疾病與人類表型術語集(Human Phenotype Ontology,HPO)的對應表,如表2所示。

表2 OMIM疾病-HPO對應關系

OMIM提供的表格以OMIM疾病為基本單位,每一個疾病-表型關系為一條,共96 919條數據。在本文系統中,疾病-表型關系用于判定用戶輸入的表型與何種疾病相關性更大,這種相關性用“用戶輸入表型”與“疾病對應表型”相同的數量來衡量。依據這種應用場景,對表格進行了聚合,得到7 015條MySQL記錄,結構如表3所示。

表3 聚合后的OMIM疾病-表型對應

為方便對HPO進行比對,以列表風格對HPO進行存儲,同時為了加快查詢速度,本文還對OMIM編號添加了索引。

1.1.4文獻數據

遺傳檢測報告用于指導醫生進行臨床診斷,因此報告的內容,特別是致病性判定一定要有所依據,需要一定量的參考文獻支持。

本系統中的參考文獻來源于權威數據庫OMIM、ClinVar、PubMed文獻挖掘結果庫dmVar,并在其基礎上進行了優化排序。

1.2 報告內容獲取

報告內容獲取即生成報告內容,主要分為用戶基本信息填寫、致病基因分析結果獲取、致病性描述、文獻獲取四個部分。

(1) 用戶基本信息填寫依據《高通量全外顯子組測序檢測報告示例》。報告中的基本信息應包括受檢者信息、樣本信息、送檢者信息,由用戶填寫。此外,用戶還可對系統推薦的轉錄本和疾病進行更改。

(2) 致病基因分析結果包括基因名、轉錄本、遺傳方式等信息。從GTX.Digest解讀結果中獲取數據,并按照相應的表格形式進行組織。

(3) 致病性描述中除了解讀結果外,還包括基因所導致的疾病、疾病遺傳方式、父母的患病分析。

(4) 文獻獲取指從文獻數據庫中獲取疾病所對應的參考文獻,并按照參考文獻格式進行組織。

1.3 報告生成與應用

全外顯子檢測報告包含表格類復雜結構,目前沒有很好的Linux庫可實現對Word的直接編輯。為了兼顧Web頁面預覽的需求,本文決定使用HTML作為直接生成格式,而后再對其進行格式轉換。

在報告生成過程中存在多次頁面交互:基本信息填寫與疾病轉錄本選擇、疾病-基因相關性檢查、報告預覽。

在基本信息填寫與疾病轉錄本選擇交互界面中,用戶可填寫基本信息,還可以更改系統推薦的疾病與轉錄本。用戶填寫的基本信息將進行存儲,用于自動填充信息表格。

當用戶選擇的疾病與基因的遺傳方式不同時,相關數據將呈現在疾病-基因相關性檢查界面上,供用戶查看和確認。

HTML報告生成后,可進行報告預覽。

2 HTML模板生成與文獻排序

遺傳報告自動生成的難點主要有兩點:Linux系統下Word文件的生成和文獻數據排序。在本技術中,Word報告的生成路線為:HTML模板—數據填充—格式轉換,HTML模板定義了報告的內容和風格,是報告生成的關鍵。文獻數據是報告結論可信度的重要依據,由于報告的篇幅有限,如何對文獻進行排序,并從中選出可信度大的文獻,是提高報告質量的關鍵。

2.1 HTML模板的生成

模板指的是報告的初始HTML模板,其定義了報告的基本結構。模板由Word類軟件編輯并導出,而后根據所填寫的內容,對模板內容進行調整。模板內容主要分為4類:固定表格、自由表格、固定段落、自由段落,每一類都有各自的處理方法。

(1) 固定表格。固定表格的特征是表格結構不會隨報告內容改變而改變,如表4所示。因此,表格的格式可以固定在模板中,只需要將填入的信息進行替換即可。

表4 固定表格

(2) 自由表格。自由表格指的是表格的結構會隨報告的內容而改變。例如表5所示的臨床表型相關變異表格。

表5 自由表格-臨床表型相關變異

表格的大小會隨著用戶標記的基因數量而增加,因此表格的結構不能夠固定在模板中,而是應該隨著數據的增加,將結構連同數據一同寫入。因此,在HTML模板中,臨床表型相關變異表格僅寫入表頭格式。基因數據按照表頭格式,逐行進行插入。

(3) 固定段落。固定段落的內容一般是通用的解釋性語句,語句內容固定,格式固定,可直接定義在模板中。

(4) 自由段落。自由段落指段落的內容不固定,其中又分為字符不固定段落與格式不固定段落。字符不固定段落指的是段落的基本格式已經確定,僅有段落中的某些字符串需要隨著用戶的輸入而進行更改,這類段落可以直接編寫在HTML模板中,將需要替換的關鍵字進行標識,使用時進行字符替換。

格式不固定段落指的是段落格式或數量不固定,這類段落無法將格式固定在HTML模板中,故HTML模板僅寫入需要替換的字符串,段落格式由內容生成模塊定義。

2.2 文獻排序

基因檢測報告需要提供PubMed文獻的引用作為文獻,如何獲取與基因檢測報告內容相關的文獻成為關鍵。本文利用了三個數據來源:OMIM數據庫、ClinVar數據庫和文本挖掘數據庫dmVar。

OMIM數據庫是人類孟德爾遺傳的網絡版,主要著眼于可遺傳的或遺傳性的基因疾病,其中包括文本信息和相關參考信息、序列記錄、圖譜和相關其他數據庫[8]。

ClinVar是一個公開的數據庫,收集了與疾病相關的數據庫。由美國國立衛生研究院于2013年為了生物技術信息開發而構建。ClinVar擁有來自1 000個提交者的600 000條提交記錄,代表430 000條變異數據[9]。

PubMed是由美國國家生物技術中心(NCBI)主導的,美國國立衛生研究院(NIH)與美國國家醫學圖書館(NLM)共同開發維護的免費數據庫,其收錄了3 000萬篇生物醫學文獻[10]。PubMed文獻的挖掘工作一直是醫學工作者的研究熱點,在進行挖掘時,研究者主要采用3種方法將描述表型的詞匯映射為標準詞表[11],包括醫學主題詞(Medical Subject Headings, MeSH)[12]、統一醫學語言系統(Unified Medical Language System, UMLS)[13]、人類表型本體論(Human Phenotype Ontology, HPO)[14]。GTX.Digest系統中的文本挖掘數據庫dmVar以MeSH號作為表型標準詞表,提取了PubMed文獻中基因、突變、疾病等命名實體,以及期刊編號、期刊影響因子等信息。

基于上述三個數據庫,本文選擇文獻的優先級判斷主要有相關性和可信度兩個維度。相關性指文獻是否在描述所選基因和疾病,是一個強條件;可信度是一個較為綜合的指標,以期刊的影響因子和發表時間進行綜合評估。

2.2.1文獻預處理

ClinVar和OMIM雖然都是遺傳疾病的數據庫,但兩者的關注點不一樣。ClinVar以基因突變為基本單位,探討突變是否致病,尋找致病性證據。OMIM則是以疾病為基本單位,討論疾病由哪些基因突變引起,給出疾病的基本特征。在這一差異下,兩者文獻數據的組織方法有很大差別。OMIM提供的文獻列表明確了文獻討論的基因與疾病;ClinVar給出的文獻列表則關注突變及其是否會致病,沒有對疾病進行分類。相關性(文獻是否描述同一個疾病)是進行文獻排序的前提,因此需要對ClinVar文獻進行分類。此外,兩者都沒有給出文獻所發期刊的影響因子。

文獻預處理的主要工作有:(1) 實現ClinVar文獻按疾病分類;(2) 獲取文獻影響因子標記。

2.2.2ClinVar文獻分類

dmVar文本挖掘數據庫中標注了每一篇文獻所討論的基因、突變、疾病、期刊影響因子,其中疾病以PubMed疾病分類標準MeSH進行標注。

基于文本挖掘結果,ClinVar文獻預處理算法流程如圖2所示。使用ClinVar文獻的PubMed號在文本挖掘結果中查找該文獻所討論疾病的MeSH號,根據查詢到的MeSH號,于MeSH-OMIM號對應表中查找MeSH號所對應的OMIM號,最后以此OMIM號來標記ClinVar文獻,實現ClinVar文獻的疾病分類。

圖2 ClinVar文獻分類流程

2.2.3期刊影響因子的獲取

PubMed文本挖掘結果中包含了文獻所發期刊的影響因子,由于PubMed收錄文章的跨度大(1781年至今),一些期刊已經停刊或更名,對于這類期刊,本文默認其影響因子為0。

期刊影響因子的獲取如圖3所示。使用文獻的PubMed號在文本挖掘結果中查詢對應期刊的影響因子,并以影響因子標記文獻。

圖3 期刊影響因子獲取流程

2.2.4排序算法

文獻排序的評定標準主要有:相關性、影響因子、發表時間。

1) 相關性判斷。實現ClinVar文獻的疾病分類后,依據疾病可獲得OMIM文獻列表和ClinVar文獻列表集合。集合內的文獻與所述疾病絕對相關,應當擁有更高的權重,否則其權重應當較小。

2) 影響因子的權重設計。影響因子IF是以年為單位進行計算的。以1992年的某一期刊影響因子為例:

IF1992=A/B

式中:A為該期刊1990年至1991年所有文獻在1992年中被引用的次數;B為該期刊1990年至1991年所有文獻數。文獻刊物的影響因子來源于湯森路透發布的期刊引證報告(Journal Citation Reports,JCR)[15],其代表最近一年內刊物的論文質量。據此,文獻發表時間越早,當前影響因子的有效性應當越低;另一方面,隨著檢測設備和現代醫學的發展,發表時間晚的文獻應當具有更高的可信度,其影響因子也應該有更高的權重。

本文統計了2002年至2012年遺傳學排名前9的期刊的影響因子變化率,如表6所示。可以看出,排名前9的期刊影響因子的10年平均變化率高達35%,證明了影響因子權重設計的正確性。文獻發表時間越早,當前影響因子的有效性就越低。

表6 遺傳學期刊影響因子變化率

基于上述思想,設計排序算法如下:

pscore=α·r·EIF(IF+0.01)+(1-α)·(1-r)·EIF(IF+0.01)

式中:r為相關性,表示文獻是否與疾病主題相關,相關時r=1,否則r=0;α為相關性因子,取α=0.99;IF為當前年份期刊的影響因子,(IF+0.01)是為了避免未找到影響因子的文獻被直接排除;EIF為影響因子的時效性量化。

式中:Yc為所有文獻發表時間的中位數,即對發表時間越早的文獻,當前年份影響因子的影響力越低。

3 實 驗

文獻排序算法的目標是找到符合普遍醫學研究者文獻選取傾向的文獻序列,通常來說依據有:(1) 主題一致;(2) 影響因子大;(3) 發表時間近。

3.1 單維算法結果分析

基于上述的基本依據,考察相關性、影響因子、發表時間各自對算法結果的影響。本文假設文獻列表中文獻發布時間中位數為1970年,即:

分別考察(r=0,IF=10)、(r=1,IF=10)、(r=1,IF=15)條件下,Pscore隨發表時間的變化規律,結果如圖4所示。

圖4 不同條件下Pscore隨發表時間的變化曲線

依據變化曲線結果,從相關性、影響因子、發表時間三個維度進行分析,可得:

1) 由P1、P2曲線對比可知,在本文算法的排序結果中,相同發表時間、相同影響因子、主題相關的文獻比不相關的文獻的排序結果要靠前。

2) 由P2、P3曲線對比可知,在本文算法的排序結果中,主題相關的、發表時間相同的、較高影響因子的文獻的排序要優于較低影響因子的文獻。

3) 由P3曲線可知,在本文算法的排序結果中,主題相關的、影響因子相同的、發表時間較晚(較新)的文獻的排序要優于較早發表的文獻。

由上述的分析結果可知,本文排序算法符合醫學研究者普遍的文獻排序規則,排序結果符合用戶的預期。

3.2 多維算法結果分析

在真實的使用環境中,單維度影響是容易決斷的,難的是多維度分析。例如此時有兩篇文獻A、B,其中A發表于2002年,當前影響因子為4,B發表于2007年,當前影響因子為3.5,此時A、B的排序是難以確定的,抉擇時應該考慮使用場景。此時,存在兩種不同的場景:候選文獻的發表時間普遍較早(場景一)和候選文獻的發表時間普遍較晚(場景二)。

在場景一中,文獻的發表時間都較早,發表時間影響力降低,影響因子為主要判斷因素(沒有充分的可供選擇“新”文獻),此時A文獻的排序應該高于B。在場景二中,文獻的發表時間都較晚,早發表的文獻的優先級降低(有充分的可供選擇的“新”文獻),此時B文獻的排序應該高于A。

依據上述假設,引入文獻列表發表時間中位數Yc,假定兩篇文獻分別為T1(Yc=2010,IF=10)、T2(Yc=1990,IF=15) ,其中Yc為發表時間、IF為影響因子。考察中位數對算法結果的影響,如圖5所示。

圖5 中位數Yc-Pscore曲線

可以看出,當中位數較低時,T2排序結果優于T1,即影響因子為主要影響因素;當中位數較高時,T1的排序結果優于T2,此時影響因子的影響力降低,發表時間影響力增加。該結果符合引入中位數的初衷。

3.3 排序實驗

本實驗選取了OMIM編號為216900疾病對應的17篇文獻,并使用本文算法對其進行排序,結果如表7所示。

表7 遺傳學期刊影響因子變化率

續表7

可以看出,本文算法并不是單一從影響因子或者發表時間進行排序,而是對二者進行了復合考慮,排序結果符合我們的預期。

3.4 算法評價

文獻排序算法的最終目標是從特定的文獻列表中,選出可信度高的文獻,這一過程應該考慮文獻列表的特點,而不是單一地使用某一項指標衡量。本文算法不僅綜合了相關性、影響因子和發表時間的影響,還考慮了文獻列表整體發表時間的影響,能夠滿足實際應用的需求。

4 結 語

本文從醫生出具遺傳檢測報告過于繁瑣的現實需求出發,實現了遺傳檢測報告自動生成技術。該技術整合了OMIM、ClinVar、PubMed文獻挖掘數據dmVar,并在其基礎上設計了文獻排序算法。系統可針對用戶輸入的表型,推薦匹配度更高的遺傳疾病,提高了檢測報告的準確性,減輕了醫生的工作量。遺傳檢測報告自動生成技術已經應用在GTX.Digest中。下一步工作為:(1) 拓展數據庫,加入其他權威數據庫如Orphanet等。(2) 拓展系統可出具報告的類型,如腫瘤檢測報告等。(3) 在報告中加入疾病描述的內容。

猜你喜歡
排序報告數據庫
排序不等式
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
一圖看懂十九大報告
數據庫
財經(2017年2期)2017-03-10 14:35:35
報告
南風窗(2016年26期)2016-12-24 21:48:09
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 国产永久在线视频| 久久精品国产免费观看频道| 国产视频只有无码精品| 91福利免费| 91精品国产91久无码网站| 操国产美女| 日本高清免费不卡视频| 色视频国产| 亚洲国产综合第一精品小说| 思思热精品在线8| 精品欧美日韩国产日漫一区不卡| 亚洲制服丝袜第一页| YW尤物AV无码国产在线观看| 亚洲精品国产自在现线最新| 欧美激情成人网| 狠狠亚洲婷婷综合色香| 永久在线精品免费视频观看| 国产99热| 婷婷六月天激情| 免费观看亚洲人成网站| 激情综合图区| av在线人妻熟妇| 国产成人凹凸视频在线| 亚洲国产清纯| 麻豆国产精品视频| 1769国产精品免费视频| 老司机精品一区在线视频| 欧美精品亚洲精品日韩专| 亚洲美女一区| 国产在线观看99| 久久婷婷五月综合97色| 国产sm重味一区二区三区| 18禁不卡免费网站| 无码中文字幕精品推荐| 福利在线一区| 在线高清亚洲精品二区| 欧美亚洲欧美| 白丝美女办公室高潮喷水视频| 国内老司机精品视频在线播出| 特级精品毛片免费观看| 亚洲天堂网在线播放| 激情五月婷婷综合网| 99久久国产综合精品2020| 熟妇丰满人妻av无码区| 2022国产无码在线| 免费激情网址| 天堂成人在线| 再看日本中文字幕在线观看| A级毛片高清免费视频就| 免费国产无遮挡又黄又爽| 成人中文字幕在线| 婷婷六月综合| 免费在线a视频| 中文字幕无码制服中字| 国产91蝌蚪窝| 国产成人h在线观看网站站| 午夜少妇精品视频小电影| 国产一在线| 国产毛片不卡| 中文国产成人精品久久| 日本成人在线不卡视频| 超碰aⅴ人人做人人爽欧美| 国内精自线i品一区202| 真人免费一级毛片一区二区 | 超清无码熟妇人妻AV在线绿巨人| 一区二区偷拍美女撒尿视频| 在线观看国产小视频| 久久国产免费观看| 国产激情无码一区二区APP| 亚洲V日韩V无码一区二区| 亚洲欧洲日韩久久狠狠爱| 美臀人妻中出中文字幕在线| 一本久道久久综合多人| 国产精品成人免费视频99| 免费国产一级 片内射老| 久久精品人妻中文视频| 国产亚洲欧美在线专区| 久久久黄色片| 黄色在线网| 国产精品美女免费视频大全| 免费 国产 无码久久久| 国产日韩av在线播放|