999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向真實(shí)世界的知識(shí)挖掘與知識(shí)圖譜補(bǔ)全研究(二):非結(jié)構(gòu)化電子病歷信息抽取方法及進(jìn)展

2023-10-28 11:31:46閻思宇李緒輝陳沐坤朱海鋒譚杰駿王永博任相穎靳英輝王行環(huán)
醫(yī)學(xué)新知 2023年5期
關(guān)鍵詞:信息方法研究

閻思宇,李緒輝,陳沐坤,朱海鋒,譚杰駿,高 曠,王永博,黃 橋,任相穎,靳英輝,王行環(huán)

1.武漢大學(xué)中南醫(yī)院循證與轉(zhuǎn)化醫(yī)學(xué)中心(武漢 430071)

2.武漢大學(xué)計(jì)算機(jī)學(xué)院(武漢 430072)

2015年我國(guó)相繼出臺(tái)了《關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動(dòng)的指導(dǎo)意見(jiàn)》和《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,2016年國(guó)務(wù)院辦公廳印發(fā)了《關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見(jiàn)》,指出“健康醫(yī)療大數(shù)據(jù)是國(guó)家重要的基礎(chǔ)性戰(zhàn)略資源”[1]。健康醫(yī)療大數(shù)據(jù)已被提升至國(guó)家戰(zhàn)略高度。在2022年中國(guó)醫(yī)學(xué)發(fā)展大會(huì)上沈洪兵院士同樣提到“要關(guān)注基于健康醫(yī)療大數(shù)據(jù)的臨床真實(shí)世界研究,注重與信息技術(shù)、人工智能交叉融合”。隨著健康醫(yī)療大數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng),如何對(duì)健康醫(yī)療大數(shù)據(jù)進(jìn)行充分挖掘和分析,提煉數(shù)據(jù)價(jià)值,已成為當(dāng)今的研究趨勢(shì)。真實(shí)世界研究并非方法學(xué)上新的研究類(lèi)型,而是基于真實(shí)世界數(shù)據(jù)(real-world data,RWD)進(jìn)行的研究,具有外部有效性高、數(shù)據(jù)來(lái)源廣泛、易獲取等優(yōu)點(diǎn),日益受到研究者的青睞[2-3]。

醫(yī)院電子病歷(electronic medical record,EMR)主要用于日常醫(yī)療實(shí)踐管理,記錄有真實(shí)世界下患者詳細(xì)的就診數(shù)據(jù),是健康醫(yī)療大數(shù)據(jù)及RWD的重要來(lái)源之一。中國(guó)已有超過(guò)九成的醫(yī)院在應(yīng)用EMR[4]。隨著EMR的普及和診療數(shù)據(jù)的不斷積累,雖然數(shù)據(jù)量一直在增長(zhǎng),但如何基于EMR數(shù)據(jù)生成高質(zhì)量真實(shí)世界證據(jù)的困境一直存在。已有研究指出,醫(yī)療保健領(lǐng)域的最大問(wèn)題是大約80%的醫(yī)療數(shù)據(jù)在創(chuàng)建后仍然是非結(jié)構(gòu)化和未開(kāi)發(fā)的(例如,文本、圖像、信號(hào)等)[5-6]。為了便于醫(yī)生靈活描述,EMR中很大比例的信息是使用自由文本記錄的非結(jié)構(gòu)化數(shù)據(jù),如病程記錄、病理報(bào)告、影像學(xué)報(bào)告、手術(shù)記錄、出院記錄等。雖然EMR數(shù)據(jù)量大,但其中非結(jié)構(gòu)化數(shù)據(jù)占比高,這讓計(jì)算機(jī)難以理解,因此基于EMR數(shù)據(jù)的研究依然有限[7]。

機(jī)器學(xué)習(xí)、人工智能(artificial intelligence,AI)和其他現(xiàn)代統(tǒng)計(jì)方法正為利用先前尚未開(kāi)發(fā)且極速增長(zhǎng)的數(shù)據(jù)資源提供新的機(jī)會(huì),以期讓患者獲益[8]。利用計(jì)算機(jī)算法從醫(yī)療健康數(shù)據(jù)中獲取信息,以補(bǔ)充知識(shí)發(fā)現(xiàn)、促進(jìn)循證醫(yī)學(xué)、協(xié)助制定臨床決策,已成為當(dāng)前研究的熱點(diǎn)[9]。

針對(duì)上述電子病歷數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)普遍存在且處理困難的問(wèn)題,本文將對(duì)現(xiàn)有的技術(shù)方法及新進(jìn)展進(jìn)行總結(jié),以提供參考。

1 非結(jié)構(gòu)化醫(yī)學(xué)數(shù)據(jù)信息抽取的研究方法

從非結(jié)構(gòu)化數(shù)據(jù)中提取結(jié)構(gòu)化信息通常屬于信息抽取(information extraction,IE)、文本挖掘(text mining,TM)或自然語(yǔ)言處理(natural language processing,NLP)領(lǐng)域的內(nèi)容。一系列研究已經(jīng)證明了從臨床敘述性文本中提取結(jié)構(gòu)化信息的可行性。一項(xiàng)納入263篇有關(guān)IE在臨床應(yīng)用研究的綜述顯示,IE可用于腫瘤、循環(huán)系統(tǒng)疾病等多個(gè)疾病研究領(lǐng)域,藥物提取、藥物不良反應(yīng)等藥物相關(guān)研究以及質(zhì)量管理、不良事件等臨床工作流程優(yōu)化研究,所使用的非結(jié)構(gòu)化數(shù)據(jù)主要包括出入院記錄、手術(shù)記錄等的臨床記錄和影像學(xué)報(bào)告、病理報(bào)告等的診斷報(bào)告[7]。

綜合多項(xiàng)研究[10-12],該領(lǐng)域的研究方法大體上可分為基于詞典或規(guī)則的方法、基于統(tǒng)計(jì)的方法和基于認(rèn)知模型的方法,這些方法也可混合使用以提升性能。每種方法的釋義及在臨床中的應(yīng)用舉例總結(jié)如下,見(jiàn)圖1。

圖1 從非結(jié)構(gòu)化文本數(shù)據(jù)中提取結(jié)構(gòu)化數(shù)據(jù)的方法學(xué)發(fā)展Figure 1.Methodology development for extracting structured data from unstructured text data

1.1 基于詞典和規(guī)則的方法

(1)基于詞典的方法:是指依靠術(shù)語(yǔ)詞典,采取匹配算法進(jìn)行簡(jiǎn)單文本匹配,該方法較為基本和直接,具有較強(qiáng)可解釋性。適合于簡(jiǎn)單任務(wù),如識(shí)別特定藥物,但不適合復(fù)雜任務(wù)。早期醫(yī)療領(lǐng)域的多種代表性實(shí)體識(shí)別工具如MedLEE、IBM的MedKAT和 Mayo Clinic 的cTAKES都是采用基于詞典的方法[13]。朱彥等的研究通過(guò)建立中醫(yī)藥領(lǐng)域?qū)I(yè)詞典,來(lái)解決方劑數(shù)據(jù)自動(dòng)結(jié)構(gòu)化的問(wèn)題[14]。

(2)基于規(guī)則/模式匹配的方法:通常使用正則表達(dá)式技術(shù),構(gòu)建目標(biāo)提取字段的模式(pattern),完成匹配和搜索。例如,使用基于模式匹配(pattern matching)的NLP算法解析非結(jié)構(gòu)化電子健康記錄數(shù)據(jù),以識(shí)別研究人群中的老年綜合征病例[15];使用正則表達(dá)式從前列腺癌病理學(xué)報(bào)告中提取Gleason評(píng)分[16];基于標(biāo)注結(jié)果抽取模板,生成正則表達(dá)式,抽取中文電子病歷中的糖尿病病史[17];基于規(guī)則的模式匹配方法對(duì)乳腺癌患者的病理報(bào)告進(jìn)行信息抽取[18];使用正則表達(dá)式構(gòu)建規(guī)則完成中醫(yī)古籍中“崩漏”疾病相關(guān)的知識(shí)抽取[19]。

基于詞典或規(guī)則的方法依賴于手工建立的詞典、抽取模式或規(guī)則,規(guī)則融合了領(lǐng)域知識(shí)和語(yǔ)言知識(shí),領(lǐng)域相關(guān)性較高但可移植性較差。基于詞典或規(guī)則的方法不涉及太復(fù)雜的計(jì)算機(jī)算法,對(duì)臨床醫(yī)生來(lái)說(shuō)可解釋性高,適用于較為簡(jiǎn)單、規(guī)范的非結(jié)構(gòu)化文本的信息抽取任務(wù),也適合于醫(yī)學(xué)知識(shí)豐富、但無(wú)法掌握復(fù)雜計(jì)算機(jī)算法的臨床醫(yī)生。因此,臨床NLP一直以基于規(guī)則的方法為主。一項(xiàng)有關(guān)臨床信息抽取應(yīng)用研究的綜述顯示,使用基于規(guī)則的方法進(jìn)行信息抽取的文獻(xiàn)在納入的263篇文獻(xiàn)中占比達(dá)65%[7];另一項(xiàng)有關(guān)臨床概念提取的方法學(xué)綜述顯示,使用基于規(guī)則的方法進(jìn)行信息抽取的文獻(xiàn)在納入的228個(gè)文獻(xiàn)中占比達(dá)48%[20]。但并非所有的自然語(yǔ)言都可以用確定性的規(guī)則來(lái)刻畫(huà),且捕獲所有可能的變化需要大量的規(guī)則,規(guī)則的維護(hù)和更新也比較困難,因此學(xué)術(shù)NLP領(lǐng)域仍以基于統(tǒng)計(jì)的方法為主導(dǎo)。

1.2 基于統(tǒng)計(jì)的方法

基于統(tǒng)計(jì)的方法是通過(guò)構(gòu)造模型進(jìn)行信息抽取,可分為傳統(tǒng)機(jī)器學(xué)習(xí)(machine learning,ML)方法和更先進(jìn)的深度學(xué)習(xí)(deep learning,DL)算法。

(1)傳統(tǒng)機(jī)器學(xué)習(xí)方法:按是否有標(biāo)記的訓(xùn)練數(shù)據(jù)可分為無(wú)監(jiān)督和有監(jiān)督的ML方法。無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法指使用無(wú)任何標(biāo)記數(shù)據(jù)的統(tǒng)計(jì)模型,最經(jīng)典的方法為聚類(lèi),利用的是非結(jié)構(gòu)化數(shù)據(jù)中上下文的相似性。如使用無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法從乳腺X線影像報(bào)告中自動(dòng)提取信息[21];使用自動(dòng)化手術(shù)術(shù)語(yǔ)聚類(lèi)進(jìn)行手術(shù)文本數(shù)據(jù)的預(yù)處理[22]。有監(jiān)督機(jī)器學(xué)習(xí)方法指使用標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練模型,常用模型包括支持向量機(jī)、條件隨機(jī)場(chǎng)模型、隱馬爾可夫模型、決策樹(shù)等。如使用支持向量機(jī)方法進(jìn)行藥物不良反應(yīng)檢測(cè)[23];使用條件隨機(jī)場(chǎng)方法從急診患者記錄中提取兒科闌尾炎評(píng)分[24]。

(2)基于深度學(xué)習(xí)的方法:常用模型包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)、Word2Vec模型、基于變換器的雙向編碼器表示技術(shù)(bidirectional encoder representation from transformers,BERT)等。如使用多任務(wù)深度神經(jīng)網(wǎng)絡(luò)[25]、卷積神經(jīng)網(wǎng)絡(luò)從癌癥病理報(bào)告中自動(dòng)提取信息[26];使用BERT等算法提取公開(kāi)臨床語(yǔ)料庫(kù)中的臨床概念[27]。

基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法是學(xué)術(shù)NLP領(lǐng)域的主流,但對(duì)于臨床醫(yī)生來(lái)說(shuō),較難掌握其復(fù)雜的算法。有學(xué)者指出信息抽取技術(shù)在臨床EMR數(shù)據(jù)中未得到充分利用的原因之一就是NLP專(zhuān)家與臨床醫(yī)生缺乏密切合作[7],EMR非結(jié)構(gòu)化數(shù)據(jù)的提取工作需要多學(xué)科團(tuán)隊(duì)的參與。例如2016年美國(guó)啟動(dòng)的全球首個(gè)“癌癥先進(jìn)計(jì)算解決方案的聯(lián)合設(shè)計(jì)”(Joint Design of Advanced Computing Solutions for Cancer,JDACS4C)項(xiàng)目,即為國(guó)家癌癥研究所與美國(guó)能源部的跨機(jī)構(gòu)合作,旨在借助計(jì)算、數(shù)據(jù)科學(xué)的深度學(xué)習(xí)技術(shù)加快抗癌研究,其中試點(diǎn)3項(xiàng)目就重點(diǎn)針對(duì)癌癥患者病歷數(shù)據(jù)的自動(dòng)分析[28]。

此外,ML、DL算法在中文醫(yī)學(xué)文本挖掘領(lǐng)域應(yīng)用的另一制約因素是國(guó)內(nèi)標(biāo)注數(shù)據(jù)的稀缺性。醫(yī)學(xué)領(lǐng)域目前沒(méi)有像一般語(yǔ)料那樣豐富的標(biāo)記數(shù)據(jù),尤其是電子病歷數(shù)據(jù),如何在共享中保護(hù)患者的隱私是需要考慮的問(wèn)題。另一方面,醫(yī)療數(shù)據(jù)包含復(fù)雜、多樣的醫(yī)學(xué)知識(shí),標(biāo)注難度較大。雖然國(guó)內(nèi)已有學(xué)者標(biāo)注了部分臨床文本,但尚無(wú)完整、公開(kāi)共享的已標(biāo)注的電子病歷數(shù)據(jù)集[29]。因此,在使用ML、DL算法開(kāi)展EMR非結(jié)構(gòu)化數(shù)據(jù)信息抽取時(shí),仍需要投入大量的時(shí)間、精力進(jìn)行數(shù)據(jù)標(biāo)注,這對(duì)時(shí)間寶貴的臨床醫(yī)生來(lái)說(shuō)是個(gè)不小的挑戰(zhàn)。

1.3 基于認(rèn)知模型的方法

因語(yǔ)言理解具有明顯的認(rèn)知過(guò)程,所以除了上述方法外,基于認(rèn)知科學(xué)的信息抽取研究也越來(lái)越多,常見(jiàn)的為基于本體的方法[10]。學(xué)者們較為認(rèn)可的本體(ontology)的定義是德國(guó)學(xué)者Studer等于1998年提出的“本體是共享概念模型的明確的形式化規(guī)范說(shuō)明”[30]。本體可用來(lái)描述特定領(lǐng)域的知識(shí),借助本體進(jìn)行文本挖掘,相當(dāng)于給挖掘過(guò)程“配備”了一名“領(lǐng)域?qū)<摇保笇?dǎo)整個(gè)挖掘過(guò)程[31],可增強(qiáng)對(duì)語(yǔ)義內(nèi)容的理解、推理。由于本體具有能通過(guò)概念之間的關(guān)系來(lái)表達(dá)概念語(yǔ)義的能力,所以將本體應(yīng)用于NLP領(lǐng)域,能夠提高系統(tǒng)的召回率和準(zhǔn)確率,優(yōu)化提取結(jié)果。領(lǐng)域本體與信息抽取的結(jié)合,是當(dāng)前的研究熱點(diǎn)[32]。基于本體的信息抽取一般是先建立領(lǐng)域本體,進(jìn)而根據(jù)本體描述的概念、關(guān)系、層次結(jié)構(gòu)和概念與關(guān)系間的約束等生成抽取規(guī)則,然后再根據(jù)規(guī)則對(duì)文檔進(jìn)行抽取[10]。

為了適應(yīng)特定的臨床問(wèn)題,通常將知識(shí)驅(qū)動(dòng)的視角(如生物醫(yī)學(xué)本體)與模型相結(jié)合,以定制模型[20]。例如將Word2vec模型與心血管疾病本體相結(jié)合,提供定制解決方案,從生物醫(yī)學(xué)文獻(xiàn)中提取更相關(guān)的心血管疾病相關(guān)術(shù)語(yǔ)[33]。Feichen等的研究提供了一種基于不同知識(shí)存儲(chǔ)庫(kù)選擇的人類(lèi)表型本體生成自定義節(jié)點(diǎn)嵌入的方法,以便通過(guò)分析臨床敘述中的患者表型表征來(lái)加速罕見(jiàn)病鑒別診斷[34]。Popejoy等的研究描述了一種護(hù)理協(xié)調(diào)本體,該本體旨在從護(hù)理筆記中識(shí)別和提取護(hù)理協(xié)調(diào)活動(dòng),并展示了如何量化這些活動(dòng)[35]。

2 非結(jié)構(gòu)化電子病歷數(shù)據(jù)處理時(shí)的標(biāo)準(zhǔn)化問(wèn)題

使用EMR數(shù)據(jù)進(jìn)行臨床研究時(shí),EMR數(shù)據(jù)應(yīng)滿足臨床研究數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn),如賴俊愷等的研究借鑒使用了臨床數(shù)據(jù)交換標(biāo)準(zhǔn)協(xié)會(huì)(The Clinical Data Interchange Standards Consortium,CDISC)標(biāo)準(zhǔn)用于EMR數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)轉(zhuǎn)化,應(yīng)用了AI領(lǐng)域的NLP技術(shù),開(kāi)發(fā)了臨床研究中非結(jié)構(gòu)化文本數(shù)據(jù)的電子來(lái)源(eSource)模式,根據(jù)CDISC標(biāo)準(zhǔn)填寫(xiě)病例報(bào)告表,以滿足數(shù)據(jù)收集中的監(jiān)管和可追溯性要求[36]。

匯集不同來(lái)源的EMR數(shù)據(jù)時(shí),需要構(gòu)建一致性標(biāo)準(zhǔn),以實(shí)現(xiàn)共享,具體包括對(duì)數(shù)據(jù)項(xiàng)類(lèi)型、屬性等的定義,或進(jìn)行術(shù)語(yǔ)映射。如將提取到的標(biāo)簽與CDISC ODM特定術(shù)語(yǔ)表、國(guó)際疾病分類(lèi)(ICD-10)進(jìn)行映射,建立研究專(zhuān)用術(shù)語(yǔ)庫(kù)[36]。但I(xiàn)CD-10作為標(biāo)準(zhǔn)術(shù)語(yǔ)仍比較粗糙,無(wú)法完全匹配需抽取的臨床術(shù)語(yǔ)。國(guó)外有比較成熟、廣泛應(yīng)用的醫(yī)學(xué)術(shù)語(yǔ)系統(tǒng)、標(biāo)準(zhǔn)或本體,如醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(yǔ)(systematized nomenclature of medicine-clinical terms,SNOMED CT)、統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(unified medical language system,UMLS),用于臨床用語(yǔ)的規(guī)范化表達(dá)。這些術(shù)語(yǔ)集可以協(xié)調(diào)一致地在不同的學(xué)科、專(zhuān)業(yè)和機(jī)構(gòu)之間實(shí)現(xiàn)對(duì)于臨床數(shù)據(jù)的標(biāo)引、存儲(chǔ)、檢索和聚合,便于計(jì)算機(jī)處理。它與EMR系統(tǒng)的結(jié)合可以實(shí)現(xiàn)在不同EMR系統(tǒng)之間協(xié)調(diào)一致地交換臨床信息,方便數(shù)據(jù)挖掘與決策分析。如,英國(guó)制訂的服務(wù)于電子病歷管理的國(guó)民健康信息基礎(chǔ)架構(gòu)(National Health Information Infrastructure,NHII)就參考使用了SNOMED CT等一系列的術(shù)語(yǔ)標(biāo)準(zhǔn)[37]。而國(guó)內(nèi)只在2002年由原衛(wèi)生部授權(quán)對(duì)全國(guó)住院病人的診斷數(shù)據(jù)編碼使用ICD標(biāo)準(zhǔn),但尚未應(yīng)用SNOMED CT、UMLS等普遍被認(rèn)可的術(shù)語(yǔ)系統(tǒng)[4]。此外,這些術(shù)語(yǔ)系統(tǒng)基本基于英語(yǔ)語(yǔ)言開(kāi)發(fā),中英文的轉(zhuǎn)換工作及中文醫(yī)學(xué)術(shù)語(yǔ)的開(kāi)發(fā)國(guó)內(nèi)有學(xué)者團(tuán)隊(duì)正在進(jìn)行。如,中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所開(kāi)發(fā)了與UMLS對(duì)應(yīng)的中醫(yī)藥語(yǔ)言系統(tǒng)(Traditional Chinese Medicine Language System,TCMLS),與SNOMED CT對(duì)應(yīng)的中醫(yī)臨床術(shù)語(yǔ)系統(tǒng)(Traditional Chinese Medicine Clinical Terminology System,TCMCTS),與MeSH醫(yī)學(xué)主題詞表對(duì)應(yīng)的中醫(yī)藥學(xué)主題詞表(Chinese Medical Subject Headings,CMeSH)。但這些中文術(shù)語(yǔ)系統(tǒng)的推廣使用目前還比較有限,尚未發(fā)現(xiàn)其與EMR系統(tǒng)結(jié)合的實(shí)踐。非結(jié)構(gòu)化中文醫(yī)學(xué)文本挖掘的標(biāo)準(zhǔn)化工作需要國(guó)內(nèi)更多可用的、細(xì)粒度的中文標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的開(kāi)發(fā)和完善來(lái)推動(dòng)。

3 非結(jié)構(gòu)化電子病歷數(shù)據(jù)處理的透明化報(bào)告問(wèn)題

如何公開(kāi)、透明地報(bào)告RWD數(shù)據(jù)治理過(guò)程,尤其是非結(jié)構(gòu)化數(shù)據(jù)的處理,也是提高真實(shí)世界研究可信度的重要議題。2019年哈佛醫(yī)學(xué)院Shirley V.WANG團(tuán)隊(duì)發(fā)表了《使用非結(jié)構(gòu)化電子健康數(shù)據(jù)開(kāi)展真實(shí)世界研究比較效果和安全性研究的報(bào)告規(guī)范》[38],列出了使用NLP和ML算法進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘相關(guān)研究中應(yīng)公開(kāi)報(bào)告的9項(xiàng)內(nèi)容,如提供NLP和ML算法的完整描述,包括軟件包的名稱(chēng)和版本、帶有用于映射臨床概念的本體引文或附錄、算法中包含的輸入和調(diào)整參數(shù)、輸出的詳細(xì)信息等,以規(guī)范相關(guān)算法研究的開(kāi)展和報(bào)告。在進(jìn)行非結(jié)構(gòu)化電子病歷數(shù)據(jù)處理時(shí),各學(xué)者應(yīng)進(jìn)行過(guò)程的透明化報(bào)告,確保非結(jié)構(gòu)化數(shù)據(jù)中提取變量的準(zhǔn)確性和可復(fù)現(xiàn)性,以提升真實(shí)世界研究的質(zhì)量。

4 結(jié)語(yǔ)

EMR是開(kāi)展真實(shí)世界研究的重要數(shù)據(jù)來(lái)源之一,但是由于其主要產(chǎn)生于日常醫(yī)療實(shí)踐管理而非科研,其數(shù)據(jù)呈現(xiàn)多源異構(gòu)的特點(diǎn)。大量非結(jié)構(gòu)化數(shù)據(jù)的存在,增加了數(shù)據(jù)處理難度,顯著制約了RWD向真實(shí)世界證據(jù)的轉(zhuǎn)化效率。因此,有必要對(duì)現(xiàn)有非結(jié)構(gòu)化電子病歷數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)方法進(jìn)行系統(tǒng)總結(jié)和分析。

處理非結(jié)構(gòu)化電子病歷數(shù)據(jù)可借助多種信息抽取或NLP技術(shù),包括基于詞典或規(guī)則的方法,基于傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法,以及最近越來(lái)越熱門(mén)的基于本體的方法,或者多種方法的融合使用。基于詞典或規(guī)則的方法依賴于專(zhuān)家知識(shí)手工建立詞典或規(guī)則,不涉及復(fù)雜的計(jì)算機(jī)算法,適合于較為簡(jiǎn)單、規(guī)范的非結(jié)構(gòu)化數(shù)據(jù)處理任務(wù),在臨床NLP中應(yīng)用廣泛,但可移植性較差。基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法是學(xué)術(shù)NLP的主流方法,大部分需要有已標(biāo)注的訓(xùn)練數(shù)據(jù)、選擇及訓(xùn)練模型,對(duì)計(jì)算機(jī)算法的掌握水平要求較高,因此應(yīng)積極創(chuàng)建臨床醫(yī)生和計(jì)算機(jī)專(zhuān)家合作的環(huán)境,促進(jìn)跨學(xué)科的交流,加速醫(yī)療數(shù)據(jù)合作挖掘,同時(shí)也應(yīng)積極推動(dòng)中文電子病歷語(yǔ)料庫(kù)的建設(shè),在保護(hù)患者隱私的同時(shí)積極探索資源的共享模式。在信息的使用、重用、共享和互操作性方面,本體已經(jīng)成功地應(yīng)用于生成和提供領(lǐng)域知識(shí)。基于本體的方法,以本體知識(shí)為支撐,整合其他信息抽取技術(shù),借助本體對(duì)領(lǐng)域共享概念的知識(shí)表達(dá)和推理能力,可優(yōu)化提取結(jié)果,促進(jìn)結(jié)果的標(biāo)準(zhǔn)化、共享、重用和互操作性,為進(jìn)一步的數(shù)據(jù)融合打下基礎(chǔ)。但當(dāng)前中文醫(yī)學(xué)本體、醫(yī)學(xué)知識(shí)圖譜的語(yǔ)義資源還非常稀缺,尤其缺乏細(xì)粒度的醫(yī)學(xué)本體,因此需要加速中文醫(yī)學(xué)本體的發(fā)展,以促進(jìn)和帶動(dòng)基于本體的醫(yī)學(xué)信息抽取的發(fā)展,最終助力健康醫(yī)療大數(shù)據(jù)的價(jià)值轉(zhuǎn)化。

猜你喜歡
信息方法研究
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
展會(huì)信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产一区二区免费播放| 国内精品伊人久久久久7777人 | 人妻熟妇日韩AV在线播放| 日韩A∨精品日韩精品无码| 一级毛片免费观看不卡视频| 亚欧乱色视频网站大全| 91精品国产无线乱码在线| 亚洲国产精品成人久久综合影院 | 青青草a国产免费观看| 成人在线视频一区| 国产成人综合在线观看| 免费啪啪网址| 欧美另类一区| 免费看久久精品99| 国产成人一区| 国产人碰人摸人爱免费视频| 一级毛片高清| 老色鬼欧美精品| 久久精品无码专区免费| 曰AV在线无码| 中日韩一区二区三区中文免费视频 | 天天婬欲婬香婬色婬视频播放| 蜜臀AV在线播放| 免费一级毛片在线观看| 亚洲人成人无码www| 国产极品粉嫩小泬免费看| 热这里只有精品国产热门精品| 国产丰满大乳无码免费播放 | 激情六月丁香婷婷| 久996视频精品免费观看| 真实国产乱子伦高清| 嫩草国产在线| 日韩福利视频导航| 国产尤物在线播放| 77777亚洲午夜久久多人| 97精品久久久大香线焦| 亚洲日本www| 71pao成人国产永久免费视频| 小说区 亚洲 自拍 另类| 精品乱码久久久久久久| 91精品国产自产在线观看| 欧美不卡视频在线观看| 99re经典视频在线| 亚洲伊人天堂| 亚洲第一网站男人都懂| 五月天婷婷网亚洲综合在线| 日韩av资源在线| 一级毛片无毒不卡直接观看| 国产日本欧美亚洲精品视| 原味小视频在线www国产| 精品色综合| 久久久久久久蜜桃| 亚洲人视频在线观看| 露脸国产精品自产在线播| 中文字幕天无码久久精品视频免费| 亚洲成人精品在线| 污网站在线观看视频| 欧美成人二区| 国产高清国内精品福利| 福利小视频在线播放| 国产精品污视频| 亚洲人成网7777777国产| 国产不卡国语在线| 婷婷色丁香综合激情| 成人午夜在线播放| 中文字幕在线播放不卡| 婷婷六月激情综合一区| 国产精品入口麻豆| 欧美日韩国产精品综合| 久草中文网| 日韩精品资源| 日韩色图区| 内射人妻无套中出无码| 国产在线八区| 综合色亚洲| www.99精品视频在线播放| 国产天天色| 欧美性久久久久| 欧美国产视频| 国产精品国产三级国产专业不| 国产情侣一区二区三区| 国产日本欧美亚洲精品视|