多模態信息抽取旨在從多模態數據中抽取所需要的信息,形成結構化知識,是多模態數據分析的重要方向之一。多模態數據通常包括結構化表格、非結構化文本、圖形、圖像、視頻等,是數據呈現的基本形式,廣泛存在于醫療領域。隨著醫療人工智能技術的發展,多種不同模態的醫療數據均受到廣泛關注,出現大量行之有效的醫療多模態信息抽取技術。數據(尤其是人工標注數據)是人工智能技術發展的關鍵要素,為推動醫療人工智能技術的快速發展,中國中文信息學會醫療健康與生物信息處理專業委員會2022年學術年會——中國健康信息處理大會(CHIP 2022)組織了多個面向醫療多模態信息抽取的公開評測,并以專論的形式對這些公開評測數據集進行介紹,以期為醫療多模態信息抽取技術提供公開可用的基準數據集和系統。
“醫療多模態信息抽取技術評測數據集”系列文章緊密圍繞國家《關于加快推進人口健康信息化建設的指導意見》《關于印發促進大數據發展行動綱要的通知》《關于印發“十三五”全國人口健康信息化發展規劃的通知》《關于加強全民健康信息標準化體系建設的意見》《國家人工智能研究和發展戰略計劃》《新一代人工智能發展規劃》等系列政策文件精神,從數據、算法和知識3個維度助推醫療人工智能的發展,助力健康中國建設。具體內容包括“醫療多模態信息抽取技術評測數據集概述”“評測縱覽:面向‘基因-疾病’的關聯語義挖掘任務”“臨床診斷編碼技術評測數據集及基線模型概述”“Text2DT:面向臨床診療文本的決策規則抽取技術”“中文醫療因果關系抽取數據集CMedCausal”“醫療材料光學字符識別要素提取數據集MedOCR”幾方面,詳細描述5個醫療多模態信息抽取公開評測任務及基線系統,希望能夠引起相關研究者與實踐者的關注,進一步優化醫療多模態信息抽取技術,加快相關技術落地。