王曉霞,蔣伏松,王宇,熊贇
1. 復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院,上海 201203;
2. 上海市數(shù)據(jù)科學(xué)重點實驗室,上海 201203;
3. 西北師范大學(xué)計算機科學(xué)與工程學(xué)院,甘肅 蘭州 730070;
4. 上海市第六人民醫(yī)院,上海 200233;
5. 上海市普陀區(qū)疾病預(yù)防控制中心,上海 200333
在長時間的發(fā)展過程中,很多慢性病都會引發(fā)并發(fā)癥,比如慢性阻塞性肺病、抑郁癥等,這些并發(fā)癥是導(dǎo)致慢性病患者殘疾、死亡的重要原因之一。了解慢性病與其并發(fā)癥的關(guān)系以及研究相關(guān)并發(fā)癥的發(fā)展,無論是對控制和預(yù)防慢性病并發(fā)癥的發(fā)生、提高患者的自我監(jiān)管能力,還是對慢性病的臨床防治以及藥物研發(fā)都有重要意義。
在醫(yī)療大數(shù)據(jù)環(huán)境下,對電子病歷(electronic medical record)中的海量數(shù)據(jù)進(jìn)行利用與分析能夠促進(jìn)醫(yī)療服務(wù)水平的提高以及對疾病的理解[1]。在電子病歷中,對患者的診斷結(jié)果一般使用國際疾病分類(international classification of diseases,ICD)編碼進(jìn)行分類標(biāo)注,近年來使用的是全世界通用的第10次修訂本《疾病和有關(guān)健康問題的國際統(tǒng)計分類》,即ICD-10診斷編碼。例如,對于糖尿病及其并發(fā)癥[2],雖然在ICD-10診斷編碼中根據(jù)疾病已知的病因、病理、臨床表現(xiàn)和解剖位置等特性進(jìn)行了一些詳細(xì)的分類編碼,但對于一些有可能由糖尿病引發(fā)的并發(fā)癥并沒有加以體現(xiàn)(比如抑郁癥)。為了更好地利用電子病歷中的數(shù)據(jù)分析各種目標(biāo)疾病及其并發(fā)癥的關(guān)系,將大量疾病診斷合理歸類到若干種并發(fā)癥類型是一項重要的任務(wù)。由于數(shù)據(jù)量巨大,對這些診斷結(jié)果按照研究目標(biāo)的邏輯進(jìn)行分類的工作,很難全部由具有醫(yī)學(xué)知識的醫(yī)生們來完成。……