999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向復雜決策和知識發現的醫學知識不確定性計算方法*

2022-09-07 15:00:38
醫學信息學雜志 2022年7期
關鍵詞:科學

杜 建

(北京大學健康醫療大數據國家研究院 北京 100191)

1引入知識不確定性分析的原因

1.1 從數據到知識、決策的基本特征和轉化路徑

在數據-信息-知識-智慧(Data-Information-Knowledge-Wisdom,DIKW)模型中,從數據到智慧其價值越來越高,但可計算性越來越低。如何將隱藏在科學文本大數據中的知識再次進行數據化是實現知識可計算性的關鍵途徑。從數據到信息和知識主要依賴信息學方法(如本體)和數據科學方法(如機器學習),而從知識到智慧要解決如何在不確定性的條件下做出最佳決策的問題,見圖1。

美國和歐洲正在進行描述可計算的生物醫學知識(Computable Biomedical Knowledge,CBK)的元數據相關研究,即用哪些屬性或字段描述可計算的醫學知識。在FAIR(Findable, Accessible, Interoperable, Reusable)原則基礎上增加了T(Trustable)[1],強調確定性和可靠性在可計算的醫學知識對于決策和應用中的重要性。例如增加對于證據基礎的描述,包括知識數據來源、證據的確定性程度等。可見知識的確定性程度是知識表示不可或缺的要素。

1.2 復雜性問題的循證決策

1.2.1 內涵與作用 循證決策是借鑒循證醫學而發展的一套決策理論,其認為政策和決策制定應吸收和使用最新科學證據,同時將社會經驗和價值判斷結合起來,做出最佳決策,尤其是重大突發公共衛生事件的防控和治療決策。而在政策和實踐中執行循證決策時需要克服的關鍵障礙在于知識缺口與不確定性,以及有爭議、無關、相互矛盾的證據。將科學知識的不完備性和不確定性作為重點考慮因素能夠降低制定不正確或非循證決策的風險[2]。不確定性作為科學知識的認知狀態,尤其是科學探索中各種不確定、不完整和可能相互矛盾的信息,是監管機構針對新醫療措施進行風險評估和管理時參考的重要證據。

1.2.2 啟發式決策 科學決策是在決策者的信息處理能力、時間和知識有限的情況下做出的。諾貝爾獎得主赫伯特·西蒙認為決策者的理性是有限的。啟發式決策即有限理性的模型,是一種使用部分可用信息而忽略其余信息的決策策略,僅基于部分變量進行決策,不僅可以降低復雜度,而且可以提高決策的準確性、速度和透明度[3]。快速省力的啟發式決策方法最初是在認知和決策科學的背景下提出的。醫學、犯罪、商業、法律、體育等多學科領域的實踐表明,這種決策方式得出的結論質量不亞于基于各種數據搜集、繁復計算得出的結論。普賴斯獎得主、德國馬普學會文獻計量學家Lutz Bornmann將其移植到科研評價決策過程中,提出基于文獻計量學證據的啟發式決策,例如將根據文獻計量學的決策樹模型(Bibliometrics-Based Decision Tree, BBDT)用于確定荷蘭萊頓大學排名中的兩所大學表現是否存在實質性差異[4],為文獻計量學方法廣泛用于科研評價目的提供通用理論框架。基于此可以根據知識主張背后的科學證據的不確定性程度進行啟發式決策,特別是涉及未知、不完備、不充分的科學認知和證據基礎上進行決策時,使用啟發式決策可能是最佳策略。

1.2.3 循證啟發式決策實施路徑 科學家與決策者之間溝通不暢、科學知識與決策過程脫節的原因之一在于決策者可能無法區分穩健、可信的科學證據與模糊、不確定的科學論斷。所有科學都具有不確定性,只有有效地揭示和傳遞科學的不確定性才能更好地促進循證決策[5]。復雜網絡領域的學者通過定量分析政策文件和科學論文之間的引用關系,揭示了科學和政策的共演化特征和循證決策模式,發現很多政策文件引用了最新、經過同行評審、高影響力的科研成果[6]。提示政策界與學術界的緊密互動方式展現出二者之間的聯系已經發揮了作用,但科學知識和政策之間具體、微觀的交互模式尚不明確。政策和實踐中的循證過程也是證據分析過程,是在一階科學證據基礎上進行二次分析,形成有助于決策的見解和知識。做好循證決策需要解決兩個問題,一是跟上科學認知和證據的進展;二是解決早期信息缺失和中后期信息爆炸并存的問題。如果將科學證據的不確定性計算出來,或將具有矛盾性、沖突性的知識主張清晰揭示出來以輔助決策者進行參考,將有助于循證啟發式決策。而決策總是在復雜現實中的多類因素相互動態作用下進行的,這種復雜性正是影響決策的關鍵問題,可借助成熟可靠的科學研究幫助解決[7]。

1.3 提高知識發現可靠性和效率

1.3.1 基于文獻的知識發現 計算科學家從文獻和數據庫提取知識并進行計算處理,挖掘可以在實驗中得到檢驗的新假設。實驗科學家和計算科學家之間的合作已成為科學知識發現的新趨勢[8]。這一概念與基于文獻的知識發現是相似的,即融合零散、非相關的信息片段,揭示出有發展前景的新研究方向,或者提供潛在的變革性或突破性的見解[9]。基于文獻的知識發現的最大需求、挑戰、價值在于識別當前被忽視的研究領域,并結合其他信息識別未來值得科學界探索的前沿[10]。而科學研究前沿往往具有不確定性,特別是表現為未經驗證的研究假說、沖突性、矛盾性的知識主張等。

1.3.2 元知識 元知識理論認為,從科學文獻中挖掘知識不應僅關注知識本身,有關知識的知識即元知識也很重要,例如通過分析科學文本語境信息可評估特定命題在科學上的確定性程度[11]。科學知識具有客觀和主觀雙重屬性,要真正實現從現有知識大數據中再次發現新知識,不僅要關注結構化的知識單元,還要關注知識背景,即元知識[12]。與客觀認識論相對應的是實踐認識論,該觀點對科學知識可以完全解釋和編碼的假設提出挑戰,認為開發知識管理工具以及據此做出決策和判斷需要考慮科學知識固有的模糊性、不確定性。而且科學知識是多維的,兼具抽象性與具體性、隱性與顯性、集體性與個體性、發展性與靜態性。認識到知識表達的多樣性、模糊性、不確定性和不一致性才能更高效地發現新知識。將知識的動態性、不確定性、具象化和爭議性等納入計算過程,是確保知識發現有效性和可靠性的關鍵因素。

2 醫學知識不確定性的類型

2.1 主要類型

美國國家癌癥研究所(National Cancer Institute,NCI)對醫學知識的不確定性進行分類,認為不確定性有3種來源或表現,即可能性(Probability)、模糊性(Ambiguity)、復雜性(Complexity)[13]。其中模糊性主要體現在對于結果的估計缺乏可靠性、可信性和充分性。復雜性這一類型不是由事件的不確定性(可能性)或缺乏可靠性、可信度或有關該事件的信息的充分性(模糊性)引起的,而是緣于事件和概念本身可能出現狀態的多樣性。以上3種知識不確定性的類型無法全部量化,見圖2。

圖2 知識不確定性的3種類型(以乳腺癌治療為例說明)

2.2 科學知識的不確定性程度能夠反映科學發現的變革性程度

科學中假設推測的驗證和爭議矛盾的解決過程,分別對應漸進性研究和變革性研究。提示科學家發表研究成果時對科學發現表述的不確定性修辭和學術同行早期的爭論式、批評式引用也是變革性的一類早期信號。科學文獻遭遇負面引用并不總是說明該研究因無法重復而質量較低,需要分析負面引用在文獻全文中的位置做出判斷。結果和討論部分的負面引用多緣于對數據結果的討論,往往驅動在此基礎之上開展進一步漸進性研究;而引言和結論部分的負面引用往往反映觀點和概念分歧,更容易孕育變革性研究,其對科學前沿的預測意義更大。

2.3 不確定性科學知識表示與計算模型

科學知識主張主要通過科學出版物以文本形式表達,實現科學發現的可計算性應該深入到知識單元的微觀層次,分析單元應側重于觀點和范式及其前提、證據和論證過程。因此提出面向知識發現、深入到知識單元和句子層面的不確定性科學知識表示與計算模型,其分為4個組件:編碼;以三元組表示的知識單元;知識來源,即關于知識主張的陳述;認知狀態,即不確定性分級(包括未知、假設推測、爭議矛盾)[12]。進一步以該模型為基礎,挖掘肺癌領域和心血管領域不確定性醫學知識主張,尤其是爭議性、沖突性、矛盾性的知識。該模型將以自然語言表達的海量知識主張進行結構化,并與其背后的數據或證據關聯起來,既實現了細粒度表示知識對象的目標,又解決了當前知識發現研究忽略知識不確定性程度的問題,見圖3。

圖3 深入到知識單元和句子層面的不確定性科學知識表示模型

3 醫學知識不確定性的表示和計算方法

3.1 量表

醫學知識不確定性的表示和計算的核心在于將不確定性文本轉化成數值、數字。如可以用量表、概率、證據評估、信息商等方法。美國學者將診斷報告的不確定性做成Likert量表[14],根據診斷報告中表達不確定性的詞和短語,例如“possible” “probable”“definite”“uncertain”“likely”“unlikely”“consistent with”“compatible with”“diagnostic of”“cannot exclude”醫生和患者遵從上述體系建立標準,降低了信息丟失、信息誤差,見圖4。

圖4 診斷的不確定性示例

3.2 將修飾詞轉化為概率

荷蘭學者從自然語言的完整語義表示的角度提出科學主張的形式化表示模型,該模型分為4部分:適用情境(Context class)、主語(Subject class)、修飾符(Qualifier)、關系(Relation type);賓語 (Object class)。為兼顧科學主張表達的機構化和完整性,在用“主語-關系-賓語”三元組表達核心知識主張的同時不能忽略科學主張的適用情境和修飾符[15],例如在三元組中,“肥胖并伴有代謝異常-同時發生-膝蓋骨關節炎”的適用情境是人。還有一個修飾詞是generally,對應著這一事件的發生概率,即可能性程度。可以將不同的線索詞轉化為概率,見表1。這一詞表可以拓展,如likely、very likely等。從長遠來看,研究人員可以用上述模式表達其發現,從而將研究工作直接添加到科學發現的復雜知識圖譜中。在此基礎上可以開展查詢類似研究、證實科學主張、發現矛盾、提供聚合和可視化、回答問題以及許多其他類型任務。

表1 將表達不確定性的線索詞轉化為概率

3.3 證據評論的情感計算

本研究提出可以通過科學評論文本的情感計算方法對證據進行評估。科學評論是一類出版物,是指正式發表的短篇文章(例如觀點、社論、評論、給編輯的信等),表達對所關注的原始研究支持性或反駁性的觀點,或討論其中的方法和發現,是對證據重要性和有效性進行科學評估的一種有效方式。以某種疾病藥物治療為例,早期關于新藥治療存在大量缺失、不確定、沖突甚至不準確的證據,通過PubMed獲取被評論過的疾病相關文獻作為證據(Evidence),以及疾病相關評論(Comment),構建證據-評論網絡(Evidence-Comment Networks)。通過PubTator文本挖掘工具從標題/摘要句中抽取并識別常被評論的實體和概念。選擇6組藥物通過探索證據-評論網絡的結構性和情感性信息,詳細分析并重新生成經評論過濾后的證據主張。應用世界衛生組織(World Health Organization,WHO)指南對于這6類藥物的使用建議作為金標準對照,以驗證評論用于重塑臨床知識主張的準確性、覆蓋度和效率。分析結果表明,關于6類藥物的證據被評論的積極/消極情感與WHO指南中對該藥物使用的支持/反對建議完全一致。評論主題涵蓋了證據評估的所有重要方面,以及方法學、臨床適用性以外的其他方面,如倫理學、社會文化等。在時效性方面,50%的批評性評論比指南發布時間平均提前了4.25個月。評論中還提示了表明臨床實踐中藥物使用的不確定性,例如無法確定最佳劑量。筆者認為,評論可以作為一種快速證據評估工具,通過評估現有證據中的益處、局限性和其他臨床實踐問題而具有選擇效應。科學評論可以幫助選擇出重要的證據并對其有效性進行重塑。建議從信息學角度建立一個基于評論主題和情感取向的評分系統,以充分發揮科學評論在證據評估和不確定性決策中的潛力[16]。

3.4 信息熵

3.4.1 用信息熵測度知識不確定性程度 信息熵(Information Entropy,IE)概念是用于描述信源的不確定性。借鑒到醫學的不確定性中,例如某條知識的表達是模糊、不完備甚至沖突、矛盾的,就發出了這樣的信號。受陳超美相關研究啟發[17],提出用信息熵測度知識不確定性程度的方法。信息熵是反映事件不確定性的測量指標。其中事件即表示“模糊修飾”和“爭議矛盾”的線索詞是否出現。1個知識單元(三元組)的不確定性,即信息熵U(t),等于與之相關的n個句子(n≥1)信息熵的總和:

每個句子(sentence)的信息熵U(s),與該句子中表示“模糊修飾”和“爭議矛盾”的線索詞(word)的概率p(w)有關:

這類詞如果沒有出現在句子中,則該句子的信息熵為0,即該句子沒有表達不確定性;這類詞一旦出現在句子中,出現得越多則不確定性越高、信息熵越大。

這類詞的概率p(w)與該詞在所有由句子表示的知識主張構成的知識體系中的出現頻次有關。在醫學領域中可以用SemMedDB中近2億條能夠抽取出三元組的句子中含每個詞的句子數占總句子數的比例來計算。例如2020年最新版SemMedDB共含214 721 135個句子(PubMed標題和摘要中的句子),其中“controvers*”(含controversial和controversy)出現在208 264個句子中,該詞在整個醫學知識體系中的出現頻率即概率是0.000 969 91。通過計算表征不確定性的線索詞在SemMedDB中的出現頻次可知,所得信息熵的值與這些線索詞的概率呈正相關。如possible的信息熵高于controversial是否一定說明用possible表達的知識比controversial表達的知識的不確定性程度要高,這一問題在科學機理上似乎難以解釋清楚,見表2。

表2 表達假設推測和爭議矛盾的線索詞的概率及信息熵

3.4.2 科學知識認知狀態不確定性的測度指標和方法 單個線索詞實際反映了認知狀態。基于此提出科學知識認知狀態不確定性的測度指標和方法。采用信息熵來測度認知狀態的分布是離散還是集中。將認知狀態作為變量X,X的取值總體上可以分為4類:未知的、不清楚;推測、假設;爭議、矛盾、沖突;未明確表達不確定性。可以通過計算每個三元組的來源語句中4種狀態的概率分布是集中還是離散來測度三元組認知狀態的不確定性[18]。但在眾多文獻中,有一小部分知識主張(含表達不確定性的判斷)是“原創的”,其余很多文獻中的相關句子和判斷其實是照搬效仿的,即受到了早期原創性論斷的影響。如果能從時序上篩選出“原創的”、早期的主張,只分析這部分數據,可能得出的結論比“大數據”更可靠。今后擬繼續研究這一問題。

3.4.3 建立未知庫 科學通過“提出好問題”而進步,但生物醫學文本挖掘相關研究尚未重點關注這些問題。在科學文獻中發現科學問題或未知知識陳述不僅會產生新的文本挖掘工具,還會追蹤學科中科學思想的演變,指出現有理論中的差距或缺陷,以及為未來洞察提供新途徑[19]。因此相對于知識庫提出建立未知庫的構想。知識庫主要包括先驗知識,未知庫則包括未知的知識,如尚未驗證的科學假設、未解決的醫療問題或醫療需求。

4 結語

DIKW模型中,從數據到信息和知識主要依賴信息學方法(如本體)和數據科學方法(如機器學習);而從知識到智慧要解決的是如何在不確定性的條件下做出最佳決策的問題。將知識/證據的不確定性測度和結構化知識圖譜相結合,為三元組配置置信度并提出置信度計算方法。對于高確定性的知識可由機器做決策;對于低確定性知識要觸發人機交互,必須由機器和醫生(科學家)一起做決策,以此提高知識驅動的決策支持效率。這也是將情報學與醫學信息學進行交叉研究的一個方向。

歡迎訂閱 歡迎賜稿

猜你喜歡
科學
點擊科學
走進科學
走進科學
點擊科學
點擊科學
點擊科學
走進科學
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
科學
科學怪咖
主站蜘蛛池模板: 久草视频福利在线观看| 亚洲无码在线午夜电影| 老色鬼久久亚洲AV综合| 在线99视频| 国产办公室秘书无码精品| 欧美成人午夜影院| 无码'专区第一页| 四虎影视无码永久免费观看| 国产精品欧美激情| 国产人成在线观看| 99无码熟妇丰满人妻啪啪| 国产成人亚洲无码淙合青草| 中文字幕精品一区二区三区视频| 国产一区二区人大臿蕉香蕉| 夜夜操天天摸| 日韩精品毛片人妻AV不卡| 亚洲一区二区约美女探花| 欧美亚洲日韩不卡在线在线观看| 国产永久在线视频| 成人在线不卡| 中文字幕一区二区人妻电影| 欧美va亚洲va香蕉在线| 99成人在线观看| 欧美精品xx| 久久亚洲美女精品国产精品| 亚洲欧美日韩中文字幕一区二区三区| 亚洲人妖在线| 狠狠v日韩v欧美v| 亚洲成人播放| 婷婷六月在线| 456亚洲人成高清在线| 91色综合综合热五月激情| 国产91高跟丝袜| 极品私人尤物在线精品首页| 毛片在线区| 日韩精品欧美国产在线| 青青操国产| 伊人蕉久影院| 四虎永久免费网站| 69综合网| 国产精品9| 日韩国产精品无码一区二区三区 | 亚洲婷婷在线视频| 99精品热视频这里只有精品7| 亚洲午夜福利在线| 九色最新网址| 在线观看欧美精品二区| 97影院午夜在线观看视频| 国产在线一区二区视频| 区国产精品搜索视频| 久久a级片| 亚洲综合色吧| 日韩毛片视频| 91无码视频在线观看| 欧美国产日韩在线观看| 亚洲婷婷六月| 亚洲精品视频免费看| 日日噜噜夜夜狠狠视频| 国产亚洲高清在线精品99| 亚洲国产欧洲精品路线久久| 国产成人啪视频一区二区三区| 欧美曰批视频免费播放免费| 亚洲国产AV无码综合原创| 亚洲国产成人麻豆精品| 青青草原国产一区二区| 久久精品aⅴ无码中文字幕| 麻豆a级片| 日本久久免费| 国产麻豆va精品视频| 亚洲人成网站色7777| 日韩经典精品无码一区二区| 久久久久人妻精品一区三寸蜜桃| 全午夜免费一级毛片| 亚洲男人的天堂在线观看| 国产精欧美一区二区三区| 国产精品微拍| 精品人妻一区无码视频| 国产国产人在线成免费视频狼人色| 久久久久久国产精品mv| 激情综合网激情综合| 无码精品国产dvd在线观看9久| 免费高清a毛片|